Vieses e estereótipos do ChatGPT em primeira pessoa testados em novo estudo OpenAI

O ChatGPT, como outros chatbots de inteligência artificial (IA), pode introduzir preconceitos e estereótipos prejudiciais ao gerar conteúdo. Na maior parte, as empresas têm-se concentrado em eliminar o preconceito de terceiros quando procuram informações sobre outras pessoas. Porém, em um novo estudo publicado pela OpenAI, a empresa testou preconceitos de primeira pessoa em seus modelos de IA, nos quais a IA decidia o que gerar com base na etnia, gênero e raça do usuário. Com base no estudo, a empresa de inteligência artificial afirma que o ChatGPT tem uma tendência muito baixa de gerar vieses na primeira pessoa.

OpenAI publica estudo sobre preconceito de primeira pessoa no ChatGPT

O preconceito de primeira pessoa é diferente da desinformação de terceira pessoa. Por exemplo, se um usuário perguntar sobre uma figura política ou celebridade e o modelo de IA gerar um texto que contenha estereótipos baseados no gênero ou etnia da pessoa, isso poderia ser chamado de preconceito de terceira pessoa.

Por outro lado, se um usuário disser seu nome à IA e o chatbot mudar a forma como responde ao usuário com base em suas preferências raciais ou de gênero, isso constituiria preconceito de primeira pessoa. Por exemplo, se uma mulher pede a uma IA uma ideia para um canal no YouTube e recomenda um canal de culinária ou maquiagem, isso pode ser considerado preconceito de primeira pessoa.

Em postagem no blogA OpenAI descreveu seu estudo detalhadamente e destacou suas descobertas. A empresa de inteligência artificial usou as versões ChatGPT-4o e ChatGPT 3.5 para testar se os chatbots estavam gerando conteúdo tendencioso com base nos nomes e informações adicionais fornecidas a eles. A empresa alegou que analisou as respostas de modelos de inteligência artificial de milhões de conversas reais para encontrar um padrão que retratasse tais tendências.

Como o LMRA foi encarregado de avaliar erros sistemáticos nas respostas geradas
Fonte da foto: OpenAI

O grande conjunto de dados foi então compartilhado com o Language Model Research Assistant (LMRA), um modelo de IA personalizado projetado para detectar padrões de estereótipos e preconceitos de avaliadores em primeira pessoa, bem como de avaliadores humanos. A pontuação consolidada baseou-se no grau de concordância do LMRA com as conclusões dos avaliadores.

A OpenAI disse que o estudo mostrou que o preconceito de gênero, raça ou etnia nos modelos de IA mais recentes era de apenas 0,1%, enquanto em modelos mais antigos em alguns domínios era de cerca de 1%.

A empresa de inteligência artificial também citou limitações do estudo, citando que ele se concentrou principalmente em interações em inglês e associações binárias de gênero baseadas em nomes comuns encontrados nos EUA. O estudo também se concentrou principalmente nas raças e etnias negras, asiáticas, hispânicas e brancas. A OpenAI reconheceu que é necessário fazer mais trabalho em outros dados demográficos, idiomas e contextos culturais.

Fonte