Por que o lote tradicional simplesmente não resolve

Para lidar com vários usuários ao mesmo tempo, os sistemas LLM agrupam as solicitações. É um movimento clássico. O problema? As formas clássicas de fazer isso desmoronam com a natureza imprevisível e fluida da linguagem. Imagine que você está em uma cafeteria com um grupo de amigos. O barista diz: “Vou preparar todas as suas bebidas de uma vez, mas não posso distribuir nenhuma até que a última, um complicado macchiato de caramelo de 10 etapas, esteja pronta”. Você pediu um café expresso simples? Azar. Você está esperando.

Esta é a falha fundamental do lote tradicional, conhecida como bloqueio inicial. O lote inteiro é mantido como refém de seu membro mais lento. Outras questões críticas incluem:

  • Energia desperdiçada: Se uma solicitação terminar mais cedo (como um comando de parada), ela não poderá simplesmente sair do lote. A GPU fica lá, mexendo em seus transistores, esperando que todos terminem.
  • Fluxo de trabalho inflexível: Novas solicitações precisam esperar que todo o lote atual seja liberado antes mesmo de serem iniciadas, o que leva a atrasos frustrantes.

O resultado? Seu hardware caro e poderoso está gastando mais tempo esperando do que trabalhando.