Mistral apresenta o modelo de IA multimodal Pixtral 12B com funcionalidade de “Visão Computacional”.

Na quarta-feira, a Mistral lançou seu primeiro modelo multimodal de inteligência artificial (IA) chamado Pixtral 12B. A empresa de IA, conhecida por seus modelos de código aberto de grande linguagem (LLM), também disponibilizou seu mais recente modelo de IA no GitHub e no Hugging Face para os usuários baixarem e testarem. Vale ressaltar que apesar de sua multimodalidade, a Pixtral só pode processar imagens por meio de tecnologia de visão computacional e responder a dúvidas sobre elas. Dois codificadores especiais foram adicionados para esta funcionalidade. Ele não pode gerar imagens como os modelos Stable Diffusion ou Generative Adversarial Networks (GAN) do Midjourney.

Mistral lança Pixtral 12B

Ganhando reputação por anúncios minimalistas, a conta X oficial de Mistral (anteriormente conhecida como Twitter) postou um modelo de IA em publicar compartilhando seu link magnético. O tamanho total do arquivo do Pixtral 12B é de 24 GB e exigirá um PC habilitado para NPU ou um computador com uma GPU poderosa para executar o modelo.

Pixtral 12B tem 12 bilhões de parâmetros e é baseado no modelo existente de IA do Nemo 12B. Mistral enfatiza que os usuários também precisarão de uma Unidade Linear de Erro Gaussiano (GeLU) como adaptador de visão e de Incorporação de Posição Rotativa 2D (RoPE) como codificador de visão.

Especificamente, os usuários podem fazer upload de arquivos de imagem ou URLs para o Pixtral 12B, e o Pixtral 12B deve ser capaz de responder a consultas de imagens, como identificação de objetos, contagem de objetos e fornecimento de informações adicionais. Por ser construído no Nemo, o modelo também será capaz de resolver todos os problemas comuns de palavras.

Usuário Reddit enviado imagem dos resultados do benchmark Pixtral 12B e parece que o LLM supera o Claude-3 Haiku e o Phi-3 Vision em termos de recursos multimodais no banco ChartQA. Ele também supera ambos os modelos concorrentes de IA no teste Massive Multitask Language Understanding (MMLU) para conhecimento e raciocínio multimodal.

Para citar um porta-voz da empresa, TechCrunch relatórios que o modelo Mistral AI pode ser refinado e usado sob a licença Apache 2.0. Isso significa que a saída do modelo pode ser usada sem restrições para uso pessoal ou comercial. Além disso, Sophia Yang, diretora de relações com desenvolvedores da Mistral, explicou em: publicar que o Pixtral 12B estará disponível em breve no Le Chat e no Le Platforme.

Por enquanto, os usuários podem baixar diretamente o modelo AI usando o link magnético fornecido pela empresa. Alternativamente, os pesos do modelo também foram hospedado no Hugging Face e no GitHub comparações.

Fonte