Antrópico testa a capacidade da IA de sabotar

October 21, 2024

À medida que cresce o burburinho em torno da IA generativa, a necessidade de regulamentações de segurança robustas torna-se cada vez mais clara.

Agora a Anthropic – a empresa por trás da Claude AI – está analisando como seus modelos podem enganar ou sabotar os usuários. Antrópico acabou de deixar cair o papel apresentando sua abordagem.

VEJA TAMBÉM:

Sam Altman está deixando o cargo de chefe do grupo de segurança da OpenAI

Antrópico pesquisas mais recentes — intitulado “Avaliações de Sabotagem para Modelos de Fronteira” — vem da equipe Alignment Science, guiada pela política de “Escalonamento Responsável” da empresa.

O objetivo é ver até que ponto a IA é capaz de enganar os usuários e até mesmo “subverter os sistemas que implementamos para policiá-los”. O estudo concentra-se em quatro táticas específicas: sabotagem de decisão humana, sabotagem de código, sabotagem e enfraquecimento da governança.

Pense nos usuários que estão maximizando o ChatGPT tentando induzi-lo a gerar conteúdo impróprio ou imagens gráficas. O objetivo destes testes é garantir que a inteligência artificial não possa ser enganada e violar as suas próprias regras.

Velocidade variável da luz

No artigo, a Anthropic afirma que seu objetivo é se preparar para a possibilidade de a inteligência artificial evoluir para algo com capacidades perigosas. É por isso que eles submeteram seus modelos Claude 3 Opus e 3.5 Sonnet a uma série de testes projetados para avaliar e refinar seus protocolos de segurança.

O teste de decisão humana concentrou-se em examinar como a inteligência artificial poderia potencialmente manipular a tomada de decisão humana. O segundo teste, Code Sabotage, testou se a IA poderia introduzir erros sutilmente em bancos de dados de codificação. Modelos de IA mais fortes levaram, na verdade, a proteções mais fortes contra esses tipos de vulnerabilidades.

Os testes restantes – Sandbagging e Undermining Surveillance – testaram se a IA poderia ocultar suas verdadeiras capacidades ou contornar os mecanismos de segurança integrados ao sistema.

Por enquanto, o estudo da Anthropic conclui que os atuais modelos de IA apresentam baixo risco, pelo menos em termos destas capacidades maliciosas.

“As medidas mínimas de mitigação são atualmente suficientes para enfrentar o risco de sabotagem”, escreve a equipa, mas “parece que avaliações mais realistas e medidas de mitigação mais fortes serão necessárias à medida que as oportunidades melhorarem”.

Tradução: cuidado, mundo.

Tópicos
Cibersegurança com inteligência artificial

Fonte