Estudo da Apple revela falha grave de inteligência artificial em OpenAI, Google e Meta LLM

De acordo com um teste de pesquisadores da Apple.

LLMs da OpenAI, Google, Meta e outros são elogiados por suas impressionantes habilidades de raciocínio. No entanto, a pesquisa sugere que sua suposta inteligência pode estar mais próxima de uma “correspondência sofisticada de padrões” do que de um “raciocínio lógico verdadeiro”. Sim, até mesmo o modelo de raciocínio avançado o1 da OpenAI.

O teste de habilidades de raciocínio mais popular é um teste chamado GSM8K, mas devido à sua popularidade existe o risco de contaminação de dados. Isto significa que pessoas com formação universitária podem saber as respostas de um teste porque foram treinadas nessas respostas, e não por causa da inteligência inata.

VEJA TAMBÉM:

O financiamento da OpenAI avalia a empresa em US$ 157 bilhões

Para testar isso, o estudo desenvolveu um novo benchmark chamado GSM-Symbolic, que mantém a essência dos problemas de raciocínio, mas altera variáveis ​​como nomes, números, complexidade e adiciona informações irrelevantes. Eles descobriram a surpreendente “fragilidade” dos resultados do LLM. O estudo testou mais de 20 modelos, incluindo o1 e GPT-4o da OpenAI, Gemma 2 do Google e Llama 3 da Meta. Com cada modelo individual, seu desempenho diminuiu à medida que as variáveis ​​mudaram.

A precisão diminuiu vários pontos percentuais após a mudança de nomes e variáveis. Como observaram os pesquisadores, os modelos OpenAI tiveram melhor desempenho do que outros modelos de código aberto. No entanto, o desvio foi considerado “insignificante”, o que significa que não deveria ocorrer nenhuma discrepância real. No entanto, as coisas ficaram realmente interessantes quando os pesquisadores adicionaram “declarações aparentemente relevantes, mas irrelevantes” à mistura.

Velocidade variável da luz

VEJA TAMBÉM:

O vazamento sugere que uma atualização gratuita do Apple Intelligence provavelmente chegará em breve

Para testar a hipótese de que os LLMs dependem mais da correspondência de padrões do que do raciocínio real, o estudo adicionou expressões desnecessárias aos problemas matemáticos para ver como os modelos responderiam. Por exemplo: “Oliver escolhe 44 kiwis na sexta-feira. Depois, no sábado, ele colhe 58 kiwis. No domingo ele coleta o dobro de kiwis que na sexta-feira, mas cinco deles eram ligeiramente menores que a média. Quantos kiwis Oliver tem?

A consequência disso foi uma queda significativa no desempenho em todas as áreas. A versão o1 Preview do OpenAI teve o melhor desempenho, com uma queda de 17,5% na precisão. Isso ainda é muito bom, mas não tão ruim quanto o modelo Phi 3 da Microsoft, que teve desempenho 65% pior.

VEJA TAMBÉM:

ChatGPT-4, Gemini, MistralAI e outros unem forças nesta ferramenta pessoal de IA

No caso dos kiwis, o estudo descobriu que os LLMs tendem a subtrair cinco kiwis menores da equação, não entendendo que o tamanho do kiwi é irrelevante para o problema. Isto indica que “os modelos tendem a transformar declarações em operações sem compreender verdadeiramente o seu significado”, o que apoia a hipótese dos investigadores de que os alunos do LLM procuram padrões em problemas de raciocínio, em vez de compreenderem internamente o conceito.

O estudo não mediu palavras sobre suas descobertas. Testar modelos em um benchmark que contém informações irrelevantes “revela uma falha crítica na capacidade do LLM de compreender verdadeiramente conceitos matemáticos e perceber informações relevantes para a resolução de problemas”. No entanto, vale a pena mencionar que os autores deste estudo trabalham para a Apple, que é obviamente uma grande concorrente do Google, Meta e até mesmo da OpenAI – enquanto a Apple e a OpenAI colaboram, a Apple também trabalha nos seus próprios modelos de IA.

Dito isto, a aparente falta de competências formais de raciocínio entre os estudantes de LLM não pode ser ignorada. Em última análise, este é um bom lembrete para moderar o entusiasmo em torno da IA ​​com um ceticismo saudável.

Tópicos
Inteligência artificial da Apple



Fonte