Anthropic quer que seu agente de IA controle seu computador

October 22, 2024

Demonstrações de agentes de IA podem parecer incríveis, mas fazer com que a tecnologia funcione de maneira confiável e sem bugs irritantes (ou caros) na vida real pode ser difícil. Os modelos atuais podem responder a perguntas e conversar com uma destreza quase humana e são a base de chatbots como o ChatGPT da OpenAI e o Gemini do Google. Eles também podem executar tarefas em computadores quando recebem comandos simples, acessando a tela do computador, bem como dispositivos de entrada, como teclados e trackpads, ou por meio de interfaces de software de baixo nível.

A Anthropic diz que Claude supera outros agentes de IA em várias métricas importantes, incluindo: Estação SWEque mede as habilidades de desenvolvimento de software do agente e OSWorldque determina a capacidade do agente de usar o sistema operacional do computador. As alegações ainda não foram verificadas de forma independente. A Anthropic diz que Claude executa tarefas no OSWorld corretamente em 14,9% das vezes. Isso está bem abaixo dos humanos, que geralmente pontuam cerca de 75%, mas muito mais alto do que os melhores agentes atuais, incluindo o GPT-4 da OpenAI, que tem sucesso em cerca de 7,7% das vezes.

A Anthropic afirma que diversas empresas já estão testando uma versão de agência do Claude. Isso inclui Telaque o utiliza para automatizar tarefas de design e edição e Repitaque usa o modelo para codificar tarefas domésticas. Outros primeiros adotantes incluídos Empresa de navegador, Ásanae Significado.

Sobre a imprensaum pesquisador de pós-doutorado na Universidade de Princeton que ajudou a desenvolver o banco SWE diz que as IAs das agências normalmente não têm a capacidade de planejar longe e muitas vezes têm dificuldade para se recuperar de erros. “Para mostrar que são úteis, precisamos de alcançar um forte desempenho em indicadores concretos e reais”, diz ele, como planear de forma fiável uma vasta gama de viagens para o utilizador e reservar todos os bilhetes necessários.

Kaplan observa que Claude já consegue lidar com alguns bugs surpreendentemente bem. Por exemplo, quando encontrou um erro de terminal ao tentar iniciar um servidor web, o modelo soube como revisar seu comando para corrigi-lo. Ele também determinou que deveria ativar pop-ups quando ocorresse um impasse durante a navegação na web.

Muitas empresas de tecnologia estão agora correndo para desenvolver agentes de IA enquanto buscam participação de mercado e fama. Na verdade, pode não demorar muito para que muitos usuários tenham agentes ao seu alcance. A Microsoft, que investiu mais de US$ 13 bilhões na OpenAI, diz que está testando agentes que podem usar computadores Windows. A Amazon, que investiu pesadamente na Anthropic, está investigando como os agentes podem recomendar e, em última análise, comprar produtos para seus clientes.

Sonya Huang, sócia da empresa de capital de risco Sequoia, que se concentra em empresas de IA, diz que, apesar de todo o entusiasmo em torno dos agentes de IA, a maioria das empresas está apenas reformulando a marca de ferramentas baseadas em IA. Antes de anunciar as novidades da Anthropic à WIRED, ele diz que a tecnologia atualmente funciona melhor quando usada em domínios restritos, como codificação. “Você tem que escolher as áreas problemáticas onde, se o modelo falhar, tudo bem”, diz ele. “Estes são os espaços problemáticos onde as empresas de agência originais estão a emergir.”

Um problema importante com um agente de IA é que os erros podem ser muito mais difíceis do que uma resposta ineficiente do chatbot. A Anthropic impôs certas restrições sobre o que o Clod pode fazer – por exemplo, limitar sua capacidade de usar o cartão de crédito de uma pessoa para comprar itens.

Se os erros puderem ser evitados de forma adequada, diz Press, da Universidade de Princeton, os usuários poderão aprender a ver a IA e os computadores de uma maneira totalmente nova. “Estou muito animado com esta nova era”, diz ele.

Fonte