Este aplicativo pode criar um chatbot de IA que pode identificar e extrair detalhes pessoais de seus bate-papos

Os investigadores dizem que se o ataque ocorresse no mundo real, as pessoas poderiam ser socialmente projetadas para acreditar que o pedido incompreensível poderia fazer algo útil, como melhorar o seu currículo. Pesquisadores apontam vários sites que fornecem às pessoas informações que elas podem usar. Eles testaram o ataque enviando currículos para conversas com chatbots e conseguiram recuperar as informações pessoais contidas no arquivo.

Erlens Fernándezum professor assistente da UCSD que participou do trabalho diz que a abordagem do ataque é muito complexa, porque a complexa solicitação para identificar informações pessoais, criar uma URL funcional, aplicar a sintaxe Markdown e não informar ao usuário o que está fazendo. maliciosamente Fernandez comparou o ataque a um malware, referindo-se à sua capacidade de realizar tarefas e comportamentos que o usuário pode não ter pretendido.

“Normalmente você pode escrever muitos códigos de computador para fazer isso em malware”, diz Fernandez. “Mas aqui acho que o mais surpreendente é que tudo pode ser incorporado neste pedido relativamente curto.”

Um porta-voz da Mistral AI disse que a empresa dá as boas-vindas aos pesquisadores de segurança para ajudar a tornar seus produtos mais seguros para os usuários. “Após este feedback, a Mistral AI implementou imediatamente as correções apropriadas para corrigir a situação”, disse o porta-voz. A empresa tratou o problema como um problema de “código médio”, e uma correção impediria o funcionamento do renderizador Markdown e a capacidade de chamar um URL externo durante o processo, o que significa que não seria possível carregar uma imagem externa.

Fernandez acredita que a atualização do Mistral AI é provavelmente uma das primeiras vezes em que um contra-exemplo rápido levou à correção do produto LLM, em vez de o ataque ser interrompido pela filtragem de solicitações. No entanto, ele diz que limitar as oportunidades dos agentes LLM pode ser “contraproducente” no longo prazo.

Enquanto isso, em um comunicado dos desenvolvedores do ChatGLM, afirma que a empresa possui medidas de segurança para ajudar a proteger a privacidade do usuário. “Nosso modelo é seguro e sempre demos alta prioridade à segurança do modelo e à proteção da privacidade”, afirmou o comunicado. “Ao abrir o nosso modelo, pretendemos usar o poder da comunidade de código aberto para melhor examinar e verificar todos os aspectos das capacidades destes modelos, incluindo a sua segurança.”

“Atividade de alto risco”

Dan McInerneyprincipal pesquisador de ameaças da empresa de segurança Protect AI, afirma que o documento Imprompter “fornece um algoritmo para gerar automaticamente solicitações que podem ser usadas em uma injeção instantânea para realizar uma variedade de explorações, como exfiltração de PII, classificação incorreta de imagens ou uso malicioso de LLM ferramentas de agente estão disponíveis.” Embora muitos dos tipos de ataque no estudo possam ser semelhantes aos métodos anteriores, diz McInerney, o algoritmo os une.

No entanto, acrescenta, à medida que os agentes LLM se tornam mais amplamente utilizados e as pessoas lhes dão mais autoridade para agir em seu nome, a gama de ataques contra eles aumentará. “Permitir que um agente LLM aceite entradas arbitrárias do usuário deve ser considerado uma atividade arriscada que requer testes de segurança significativos e criativos antes da implantação”, diz McInerney.

Para as empresas, isso significa compreender as formas como um agente de IA interage com os dados e como eles podem ser abusados. Mas para indivíduos, como conselhos gerais de segurança, você deve considerar a quantidade de dados que fornece a qualquer programa ou empresa de IA e, se usar alguma solicitação da Internet, tome cuidado de onde ela vem.

Fonte