O Google introduziu uma nova família de modelos de linguagem de visão PaliGemma, oferecendo desempenho escalonável, legendas longas e suporte para tarefas especializadas.
PaliGemma 2 foi anunciado em 5 de dezembro, quase sete meses após o lançamento da versão inicial como o primeiro modelo de linguagem de visão da família Gemma. Com base no Gemma 2, os modelos PaliGemma 2 podem ver, compreender e interagir com informações visuais, de acordo com o Google.
O PaliGemma 2 torna mais fácil para os desenvolvedores adicionar recursos de linguagem de visão mais sofisticados aos aplicativos, disse o Google. Ele também permite habilidades de legenda mais sofisticadas, incluindo a identificação de emoções e ações em imagens. Os recursos de desempenho escaláveis no PaliGemma 2 significam que o desempenho pode ser otimizado para qualquer tarefa por meio de vários tamanhos de modelo (parâmetros 3B, 10B, 28B) e resoluções (224px, 448px, 896px). Legendas longas no PaliGemma 2 geram legendas detalhadas e contextualmente relevantes para imagens, indo além da simples identificação de objetos para descrever ações, emoções e a narrativa geral da cena, disse o Google.