A API Gemini agora também fornece controle mais granular sobre o processamento de visão multimodal, com um parâmetro media_resolution para configurar quantos tokens são usados ​​para entradas de imagens, vídeos e documentos. Os desenvolvedores podem equilibrar a fidelidade visual com o uso de tokens. A resolução pode ser definida usando media_resolution_low, media_resolution_medium ou media_resolution_high. Uma resolução mais alta aumenta a capacidade do modelo de ler textos finos ou identificar pequenos detalhes, disse o Google.

A partir do Gemini 3, a API Gemini também traz de volta assinaturas de pensamento para melhorar a chamada de funções e a geração de imagens. Assinaturas de pensamento são representações criptografadas do processo de pensamento interno do modelo. Ao transmitir essas assinaturas de volta ao modelo em chamadas de API subsequentes, os desenvolvedores podem garantir que o Gemini 3 mantenha sua cadeia de raciocínio durante uma conversa. Isso é importante para fluxos de trabalho de agência complexos e de várias etapas, onde preservar o “porquê” de uma decisão é tão importante quanto a própria decisão, disse o Google.

Além disso, os desenvolvedores agora podem combinar resultados estruturados com ferramentas hospedadas pelo Gemini, especificamente Grounding with Google Search e URL Context. A combinação de resultados estruturados é especialmente poderosa para a construção de agentes que devem buscar informações ao vivo da web ou de páginas específicas da web e extrair os dados em um formato JSON para tarefas posteriores, disse o Google, observando que atualizou o preço do Grounding com Google Search para melhor suportar fluxos de trabalho de agente. O modelo de preços muda de uma taxa fixa de US$ 35 por mil solicitações para uma taxa baseada no uso de US$ 14 por 1.000 consultas de pesquisa.