Google I/O 2024: DeepMind apresenta interação de inteligência artificial baseada em visão computacional em tempo real com o Projeto Astra

A sessão de abertura do Google I/O 2024 permitiu à empresa mostrar sua impressionante variedade de modelos e ferramentas de inteligência artificial (IA) nos quais vem trabalhando há algum tempo. A maioria dos recursos introduzidos serão lançados em prévias públicas nos próximos meses. Porém, a tecnologia mais interessante apresentada durante o evento demorará algum tempo para estar disponível. Desenvolvido pelo Google DeepMind, o novo assistente de IA foi chamado de Projeto Astra e apresentou interação de IA em tempo real baseada em visão computacional.

O Projeto Astra é um modelo de IA que pode executar tarefas extremamente avançadas para chatbots existentes. O Google possui um sistema no qual utiliza os maiores e mais poderosos modelos de inteligência artificial para treinar modelos prontos para produção. Destacando um exemplo de modelo de inteligência artificial que está atualmente em fase de treinamento, o cofundador e CEO do Google DeepMind, Demis Hassabis, apresentou o Projeto Astra. Ao apresentá-lo, ele disse: “Hoje podemos compartilhar novos avanços emocionantes no futuro dos assistentes de IA que chamamos de Projeto Astra. Há muito que queríamos construir um agente universal de IA que fosse verdadeiramente útil na vida quotidiana.”

Hassabis também listou o conjunto de requisitos que a empresa estabeleceu para esses agentes de IA. Eles devem compreender e responder a ambientes complexos e dinâmicos do mundo real e devem lembrar o que veem para contextualizar e agir. Além disso, também deve ser fácil de aprender e pessoal para que ele possa aprender novas habilidades e conduzir conversas sem demora.

Seguindo esta descrição, o CEO da DeepMind apresentou um vídeo de demonstração em que um usuário pode ser visto segurando um smartphone com o aplicativo de câmera aberto. O usuário fala com a IA e a IA responde instantaneamente, respondendo a várias perguntas baseadas na visão. A IA também foi capaz de usar informações visuais para obter contexto e responder questões relacionadas, o que exigia capacidades generativas. Por exemplo, um usuário mostrou alguns lápis de cor à IA e pediu à IA que os descrevesse usando aliteração. Sem demora, o chatbot diz: “Os lápis criativos têm cores alegres. Eles certamente fazem criações coloridas.”

Mas isso não foi tudo. Mais adiante no vídeo, o usuário aponta para uma janela de onde podem ser vistos alguns edifícios e estradas. Quando questionada sobre a área, a IA fornece imediatamente a resposta correta. Isso mostra as capacidades de processamento de imagens de computador do modelo de IA e o enorme conjunto de dados visuais necessários para treiná-lo. Mas talvez a demonstração mais interessante tenha sido quando a IA perguntou sobre os óculos do usuário. Eles apareceram na tela brevemente por alguns segundos e depois saíram. Porém, a inteligência artificial poderia lembrar sua posição e orientar o usuário até ela.

O Projeto Astra não está disponível em versão prévia pública ou privada. O Google ainda está trabalhando no modelo e precisa estabelecer casos de uso para recursos de IA e decidir como disponibilizá-los aos usuários. Esta demonstração teria sido o feito mais ridículo da IA ​​​​até então, mas o evento de atualização de primavera da OpenAI há um dia tirou um pouco do brilho. Em seu evento, a OpenAI apresentou o GPT-4o, que exibiu capacidades semelhantes e vozes emocionais que fizeram a IA parecer mais humana.

Fonte