O Google no Google Cloud Next 24 revelou três projetos de código aberto para construir e executar modelos generativos de IA. A empresa também introduziu novos modelos de linguagem de grande porte em seu projeto MaxText de LLMs construídos em JAX.
Os novos modelos LLM no MaxText incluem Gemma, GPT-3, Llama 2 e Mistral, que são suportados em Google Cloud TPUs e GPUs Nvidia, disse a empresa.
Os projetos de código aberto recém-revelados são MaxDiffusion, JetStream e Optimum-TPU.
MaxDiffusion é uma coleção de implementações de referência escaláveis e de alto desempenho para modelos de difusão, como Stable Diffusion. Assim como os modelos MaxText, os modelos MaxDiffusion são construídos em JAX, que é uma estrutura para computação numérica de alto desempenho e aprendizado de máquina em larga escala.
O JAX, por sua vez, é integrado ao compilador OpenXLA, que otimiza funções numéricas e oferece excelente desempenho em escala, permitindo que os construtores de modelos se concentrem na matemática e deixem o software conduzir a implementação mais eficaz.
“Otimizamos fortemente o desempenho de JAX e OpenXLA no Cloud TPU e fizemos uma parceria estreita com a Nvidia para otimizar o desempenho do OpenXLA em grandes clusters de GPU em nuvem”, disse o Google.
A empresa também lançou o Jetstream, que é um mecanismo de inferência LLM otimizado de código aberto que oferece suporte a compiladores XLA.
“À medida que os clientes levam suas cargas de trabalho de IA para a produção, há uma demanda crescente por uma pilha de inferência econômica que ofereça alto desempenho. JetStream ajuda com essa necessidade e oferece suporte para modelos treinados com JAX e PyTorch/XLA, e inclui otimizações para modelos abertos populares, como Llama 2 e Gemma”, disse Mark Lohmeyer, gerente geral de infraestrutura de computação e ML do Google Cloud.
Finalmente, os anúncios de código aberto do Google incluíram o lançamento do Optimum-TPU para usuários do PyTorch na comunidade Hugging Face. Optimum-TPU traz otimizações de desempenho do Google Cloud TPU para treinamento e inferência. Ele suporta o modelo Gemma 2b agora e Llama e Mistral em breve, disse o Google.