“A justificativa é que cada passagem que você envia para o modelo é algo que ele precisa ler e raciocinar em computação GPU cara, e esse custo aumenta de acordo com o quanto você o alimenta. Cortar passagens irrelevantes antes que cheguem ao modelo significa que você para de pagar taxas de modelo de fronteira para raciocinar sobre um contexto que nunca importaria”, repetiu Chaturvedi.
“À medida que as empresas adotam modelos maiores e mais caros, o custo do contexto acolchoado aumenta rapidamente. E na era da agência, a matemática piora, porque a recuperação incorreta não produz apenas uma resposta incorreta. Em vez disso, desencadeia uma etapa errada, uma nova tentativa e uma nova rodada de tokens ao longo de toda a trajetória”, acrescentou Chaturvedi.
Possíveis compensações
Apesar de todos os benefícios em termos de produtividade, integração e custos, a Reclassificação Nativa, alertaram os analistas, traz seu próprio conjunto de compensações potenciais.
