Gemini 1.5 Flash-8B com o menor custo de token da família Gemini agora disponível

October 4, 2024

Gemini 1.5 Flash-8B, o mais novo membro da família Gemini de modelos de inteligência artificial (IA), já está disponível para uso em produção. Na quinta-feira, o Google anunciou a disponibilidade geral do modelo, enfatizando que se trata de uma versão menor e mais rápida do Gemini 1.5 Flash que foi apresentado no Google I/O. Para velocidade, inferência de baixa latência e geração de saída mais eficiente. Mais importante ainda, a gigante da tecnologia disse que o modelo Flash-8B AI é “o menor custo por inteligência de todos os modelos Gemini”.

Gemini 1.5 Flash-8B agora disponível para o público geral

No desenvolvedor entrada do blogA gigante da tecnologia de Mountain View detalhou seu novo modelo de inteligência artificial. O Gemini 1.5 Flash-8B foi destilado do modelo Gemini 1.5 Flash AI, que se concentrava em processamento mais rápido e geração de energia mais eficiente. A empresa agora afirma que o Google DeepMind desenvolveu esta versão ainda menor e mais rápida do modelo de IA nos últimos meses.

Apesar de ser um modelo menor, a gigante da tecnologia afirma que “quase iguala” o desempenho do Flash 1.5 em vários testes de benchmark. Alguns deles incluem chat, transcrição e tradução de idiomas de longo contexto.

Uma das principais vantagens do modelo de IA é a eficiência de preços. O Google disse que o Gemini 1.5 Flash-8B oferecerá o menor preço de token da família Gemini. Os desenvolvedores terão que pagar US$ 0,15 (aproximadamente Rs. 12,5) por milhão de tokens de saída, US$ 0,0375 (aproximadamente Rs.3) por milhão de tokens de entrada e US$ 0,01 (aproximadamente Rs.0,8) por milhão de tokens para dicas em cache.

Além disso, o Google está dobrando os limites de velocidade do modelo AI 1.5 Flash-8B. Agora os desenvolvedores podem enviar até 4.000 solicitações por minuto (RPM) ao usar este modelo. Justificando esta decisão, a gigante tecnológica afirmou que o modelo é adequado para tarefas simples e de grande volume. Os desenvolvedores que desejam experimentar o modelo podem fazê-lo gratuitamente por meio do Google AI Studio e da API Gemini.

Fonte