O Google está testando a visão computacional e os recursos de conversação da inteligência artificial Gemini antes do evento Google I/O

Na segunda-feira, o Google compartilhou um vídeo em suas plataformas de mídia social apresentando os novos recursos de seu chatbot Gemini baseado em inteligência artificial (IA). O vídeo foi publicado apenas um dia antes do evento anual Google I/O da empresa para desenvolvedores. Acredita-se que a gigante da tecnologia possa fazer vários anúncios de IA e apresentar novos recursos e possivelmente novos modelos de IA. Além disso, o lugar central provavelmente será ocupado pelo Android 15 e Wear OS 5, que poderão ser apresentados durante o evento.

Em um pequeno vídeo postado no X (anteriormente conhecido como Twitter), a conta oficial do Google apresentou novos recursos para seu chatbot interno de IA. O vídeo de 50 segundos destaca a melhora acentuada em sua fala, dando a Gêmeos uma voz mais emotiva e inflexões que lhe conferem uma aparência mais humana. Além disso, o vídeo destaca os novos recursos da visão computacional. A inteligência artificial pode capturar elementos visuais na tela e analisá-los.

Gemini também poderia acessar a câmera de um smartphone, algo que não possui atualmente. O usuário moveu a câmera pelo espaço e pediu à IA que descrevesse o que viu. Quase sem demora, o chatbot poderia descrever a configuração como uma etapa e, quando solicitado, poderia até reconhecer o logotipo do Google I/O e compartilhar informações sobre ele.

O vídeo não forneceu mais detalhes sobre a inteligência artificial e, em vez disso, pediu às pessoas que assistissem ao evento para saber mais. Várias perguntas poderão ser respondidas no evento, como se o Google está usando o novo Large Language Model (LLM) para visão computacional ou se é uma versão melhorada do Gemini 1.5 Pro. Além disso, o Google também pode revelar o que mais a IA pode fazer com sua visão computacional. Vale ressaltar que há rumores de que a gigante da tecnologia pode apresentar Gems, que são agentes chatbot que podem ser projetados para tarefas específicas, semelhantes ao GPT da OpenAI.

Espera-se que o evento do Google apresente novos recursos ao Gemini, enquanto na segunda-feira a OpenAI realizou sua atualização de primavera e exibiu seu mais recente modelo de IA GPT-4o, que adicionou recursos ao ChatGPT, semelhante a um vídeo compartilhado pelo Google. O novo modelo de IA permite fala conversacional, visão computacional, tradução de idiomas em tempo real e muito mais.

Fonte