Kubernetes em evolução para inferência de IA generativa

Com a nova integração VLLM/TPU, você pode implantar seus modelos nas TPUs sem a necessidade de extensas modificações de código. Um destaque é o suporte para a popular biblioteca VLLM no TPUS, permitindo a interoperabilidade nas GPUs e TPUs. Ao abrir o poder das TPUs para inferência no GKE, o Google Cloud está fornecendo opções extensas para os clientes que desejam otimizar sua relação preço / desempenho para exigir cargas de trabalho de IA.

Balanceamento de carga AI-ADEE

Ao contrário dos balanceadores de carga tradicionais que distribuem o tráfego de uma maneira redonda, o gateway de inferência do GKE é inteligente e a-se bem. Ele entende as características únicas das cargas de trabalho generativas de IA, onde uma solicitação simples pode resultar em uma resposta longa e computacional.

O gateway de inferência GKE direciona de forma inteligente solicitações para a réplica de modelo mais apropriada, levando em consideração fatores como a carga atual e o tempo de processamento esperado, que é proxado pela utilização do cache KV. Isso impede que uma única solicitação de longa duração bloqueie outras solicitações mais curtas, uma causa comum de alta latência nos aplicativos de IA. O resultado é uma melhoria dramática na utilização de desempenho e recursos.