O Google expandiu sua família Gemma de modelos de IA, apresentando o modelo de linguagem de visão PaliGemma (VLM) e anunciando o Gemma 2, a próxima geração de modelos Gemma baseados em uma nova arquitetura. A empresa também lançou o LLM Comparator em código aberto, uma adição ao seu Responsible Generative AI Toolkit.

O Google anunciou os novos produtos em 14 de maio. A empresa descreveu o PaliGemma como um poderoso VLM aberto inspirado nos modelos de linguagem de visão Pali-3, destinado a ser menor, mais rápido e mais forte. Construído com base em componentes do modelo de visão SigLIP, o PaliGemma foi projetado para uma variedade de tarefas de linguagem de visão, incluindo legendagem de imagens e vídeos, resposta visual a perguntas, compreensão de texto em imagens, detecção e segmentação de objetos. PaliGemma pode ser encontrado no GitHub, Hugging Face, Kaggle e Vertex AI.

O Gemma 2, que será lançado formalmente nas próximas semanas, apresenta uma nova arquitetura projetada para “desempenho e eficiência inovadores”, disse o Google. Com 27 bilhões de parâmetros, o Gemma 2 oferece desempenho comparável ao Llama 3B com menos da metade do tamanho, disse o Google. Um design eficiente reduz as despesas de implantação, com o Gemma 2 cabendo em menos da metade da computação de modelos comparáveis. Para ajustes finos, Gemma 2 pode trabalhar com soluções que vão desde Google Cloud até ferramentas como Axolotl.

O Google também adicionou ao seu kit de ferramentas de IA generativa responsável, lançando o LLM Comparator em código aberto. Projetado para auxiliar os desenvolvedores na condução de avaliações de modelos, o LLM Comparator é uma ferramenta interativa de visualização de dados que permite aos usuários realizar avaliações lado a lado das respostas do modelo para avaliar sua qualidade e segurança.