O Google apresentou uma prévia do Gemini 2.5 Flash-Lite, um modelo de raciocínio otimizado para custo e velocidade, e anunciou que dois outros modelos Gemini, Gemini 2.5 Pro e Gemini 2.5 Flash, agora estão disponíveis.
O Google fez os anúncios em 17 de junho. Os modelos Gemini 2.5 são modelos de pensamento, capazes de raciocinar através de pensamentos antes de responder, resultando em desempenho aprimorado e precisão aprimorada, disse o Google.
O flash-Lite Gemini 2.5 tem o menor custo e a menor latência na família Modelo Gemini 2.5, disse o Google. O Flash-Lite é um modelo de raciocínio que permite o controle dinâmico do orçamento de pensamento por meio de um parâmetro da API, mas como o flash-lite é otimizado para baixa latência e baixo custo, o pensamento é desligado por padrão. Este modelo é “ótimo” para tarefas de alta taxa de transferência, como classificação ou resumo em escala, disse o Google. Construído como uma atualização para os modelos Flash 1.5 Flash e 2.0, o Gemini 2.5 Flash-Lite oferece um melhor desempenho na maioria das evalas e tempo menor até o primeiro token, além de alcançar tokens mais altos por segundo decodificar, de acordo com o Google. Cada modelo Gemini 2.5 tem controle sobre o orçamento de pensamento, dando aos desenvolvedores a capacidade de escolher quando e quanto o modelo pensa antes de gerar uma resposta.
