Apple lança Depth Pro, um modelo de inteligência artificial de código aberto para estimativa de profundidade monocular

A Apple lançou vários modelos de inteligência artificial (IA) de código aberto este ano. Geralmente são modelos de linguagem pequenos projetados para uma tarefa específica. Somando-se à lista, a gigante da tecnologia com sede em Cupertino lançou agora um novo modelo de IA denominado Depth Pro. É um modelo de visão que pode gerar mapas de profundidade monoculares de qualquer imagem. Esta tecnologia é útil na geração de texturas 3D, realidade aumentada (AR) e muito mais. Os cientistas por trás do projeto dizem que os mapas de profundidade gerados pela inteligência artificial são melhores do que aqueles gerados por múltiplas câmeras.

Apple lança o modelo Depth Pro AI

A estimativa de profundidade é um processo importante na modelagem 3D, bem como em várias outras tecnologias, como AR, sistemas de direção autônoma, robótica e muito mais. O olho humano é um sistema de lentes complexo que pode avaliar com precisão a profundidade dos objetos, mesmo quando os visualiza de uma perspectiva de ponto único. No entanto, as câmeras não lidam muito bem com isso. Fotos tiradas com uma única câmera aparecem bidimensionais, removendo profundidade da equação.

Portanto, para tecnologias onde a profundidade do objeto desempenha um papel importante, são utilizadas múltiplas câmeras. No entanto, modelar tais objetos pode ser demorado e consumir muitos recursos. Em vez disso, em artigo de pesquisa intitulado “Depth Pro: Sharp Monocular Depth Metrics in Less Than a Second”, a Apple destacou como usou um modelo de IA baseado em visão para gerar mapas de profundidade zero de imagens de objetos monoculares.

Como o modelo Depth Pro AI gera mapas de profundidade
Fonte da imagem: Apple

Para desenvolver o modelo de IA, os pesquisadores usaram uma arquitetura baseada em transformador de visão (ViT). A resolução de saída foi escolhida em 384 x 384, mas a resolução de entrada e processamento foi mantida em 1536 x 1536, o que deu ao modelo de IA mais espaço para entender os detalhes.

Numa versão pré-impressa do artigo, que foi agora publicada na revista online arXiv, os investigadores descobriram que o modelo de inteligência artificial pode agora gerar com precisão mapas de profundidade de objetos visualmente complexos, como a gaiola, o corpo e os bigodes de um gato peludo e muito mais. Diz-se que o tempo de geração é de um segundo. Os pesos do modelo de IA de código aberto estão atualmente hospedados no GitHub listagem. Os interessados ​​podem rodar o modelo em uma única GPU.

Fonte