O Gemma 4 do Google brilha em sistemas locais

Obter bom desempenho de modelos que não cabem em VRAM é sempre um desafio. No entanto, o Gemma 4 possui, graças ao seu design “mistura de especialistas”, um recurso para aumentar o desempenho. O LM Studio expõe esse recurso por meio de uma configuração atualmente marcada como experimental. Você pode escolher quantas camadas do modelo “forçar pesos MoE (Mixture of Experts) na CPU”, o que conserva VRAM e pode acelerar a inferência.

O cenário experimental do MoE (mistura de especialistas) no LM Studio. Para modelos que usam um design MoE, essa configuração força os pesos desse aspecto do modelo a serem executados na CPU em vez de na GPU. Com o Gemma 4, isso resultou em um grande aumento de velocidade para modelos grandes demais para caber na memória.

Fundição

Sem a força do MoE, o tempo geral de inferência e a velocidade de geração de tokens diminuíram; o modelo mal conseguia gerenciar uma média de 1,5 tokens por segundo, mesmo para consultas simples. Com o forçamento do MoE ativado (com o número máximo de camadas suportadas, 30), a velocidade de geração de tokens saltou para algo entre 5 e 13 tokens por segundo, dependendo do restante da carga do sistema. Isso ainda está muito longe da velocidade dos modelos menores, mas é muito mais viável.

Para obter resultados mais rápidos no tempo de obtenção do primeiro token, você pode desativar o pensamento, ao possível custo de uma saída menos robusta. Para a consulta de geração de código, Gemma 4 gastou 6 minutos e 26 segundos pensando e mais de 8 minutos gerando a resposta (5.013 tokens, 9,55 tokens por segundo). O código e a explicação resultantes não eram significativamente mais avançados ou detalhados do que a versão não pensante.