Os engenheiros da Apple mostram como o “raciocínio” da IA ​​pode ser instável

Já faz um tempo que empresas como OpenAI e Google representam capacidades avançadas de “pensamento” como o próximo grande passo em seus mais recentes modelos de inteligência artificial. Agora, porém, um novo estudo realizado por seis engenheiros da Apple mostra que o “raciocínio” matemático mostrado por modelos avançados de grandes linguagens pode ser muito fraco e pouco confiável, mesmo com alterações aparentemente pequenas nos problemas padrão.

A instabilidade destacada nesses novos resultados ajuda a apoiar pesquisas anteriores que sugerem que o uso de correspondência de padrões probabilísticos pelos LLMs perde uma compreensão formal dos conceitos subjacentes necessários para verdadeiras habilidades de raciocínio matemático. Com base nesses resultados, os pesquisadores levantam a hipótese de que “os LMs atuais não são capazes de raciocínio lógico válido”. “Em vez disso, eles tentam replicar os passos de raciocínio observados em sua formação educacional”.

Misture tudo

Em “GSM-Simbólico: Compreendendo os Limites do Raciocínio Matemático em Grandes Modelos de Linguagem” – atualmente disponível como papel pré-impresso– seis pesquisadores da Apple começam com Conjunto padrão GSM8K com mais de 8.000 problemas matemáticos de nível escolarque frequentemente usado como um indicador para as habilidades de pensamento sofisticadas dos LLMs modernos. Em seguida, eles adotam uma nova abordagem para alterar parte desse conjunto de testes para substituir dinamicamente certos nomes e números por novos valores – portanto, uma questão sobre como obter 31 blocos de construção para seu primo no GSM8K pode ser uma questão sobre os blocos de construção do projeto de lei 19 se tornarem seu irmão na nova avaliação do código GSM.

Essa abordagem ajuda a evitar qualquer “poluição de dados” causada por perguntas estáticas do GSM8K alimentadas diretamente nos dados de treinamento do modelo de IA. Ao mesmo tempo, essa mudança aleatória não altera a real complexidade do raciocínio matemático, ou seja, os modelos deveriam teoricamente funcionar como GSM8K quando testados em GSM-Simbólico.

Em vez disso, quando os pesquisadores testaram mais de 20 LLMs modernos no GSM-Symbolic, eles descobriram que a precisão média geral caiu em comparação com o GSM8K, com desempenho variando de 0,3% a 9%, dependendo do modelo, diminuiu 2%. Os resultados também mostraram muita variação em 50 versões separadas do GSM-Symbolic com nomes e valores diferentes. Lacunas de até 15% de precisão entre o melhor e o pior em um único modelo eram comuns e, por algum motivo, alterar os números tendia a produzir resultados piores do que alterar os nomes.

Esse tipo de diferença – tanto dentro da faixa GSM-Symbolic quanto em comparação com os resultados do GSM8K – é um pouco surpreendente porque, como observam os pesquisadores, “as etapas gerais de raciocínio para resolver a mesma questão permanecem as mesmas”. O facto de tais pequenas mudanças levarem a resultados tão variáveis ​​sugere aos investigadores que estes modelos não têm provas “oficiais”, mas sim “tentam”[ing] uma espécie de correspondência de padrões de distribuição, combinando as perguntas feitas e as etapas para resolvê-las com perguntas semelhantes nos dados de treinamento.”

Não se distraia

No entanto, a diferença global mostrada para os testes GSM-Simbólicos foi geralmente relativamente pequena no grande esquema das coisas. O ChatGPT-4o da OpenAI, por exemplo, caiu de 95,2% de precisão no GSM8K para ainda impressionantes 94,9% no GSM-Symbolic. Esta é uma taxa de sucesso muito alta usando ambas as métricas, independentemente de o modelo em si usar ou não evidências “oficiais” nos bastidores (embora a precisão geral de muitos modelos tenha caído drasticamente quando os pesquisadores abordaram o problema ou adicionaram duas etapas lógicas adicionais). .

Os LLMs testados tiveram um desempenho muito pior, embora os pesquisadores da Apple tenham modificado o critério GSM-Symbolic adicionando “declarações aparentemente relevantes, mas em última análise inúteis” às perguntas. Para este conjunto de benchmark ‘GSM-NoOp’ (abreviação de ‘no-op’), a questão sobre quantos Kiwis alguém pegou ao longo de alguns dias pode ser modificada para incluir detalhes aleatórios como ‘cinco deles’ [the kiwis] eram um pouco menores que a média.”

A adição dessas flores vermelhas resultou no que os pesquisadores chamaram de “quedas catastróficas” em comparação ao GSM8K, variando de 17,5% a 65,7%, dependendo do modelo testado. Estas enormes quedas na precisão destacam as limitações inerentes ao uso de uma simples “correspondência de padrões” para “transformar declarações em ações sem compreender o seu significado”, escrevem os investigadores.

Fonte