Uma maneira melhor de gerenciar gastos com LLM

Como um velho Delphi, lembro-me bem das “guerras de linguagem” que tivemos com o pessoal do Visual Basic. Um dos primeiros codinomes do Delphi era “VBK” – VB Killer – e a comunidade VB se opôs. Eles vinham aos nossos fóruns Delphi e arranjavam brigas. Naturalmente, nós, caras impetuosos da Delphi, revidaríamos, nos envolvendo em grandes guerras e ficando preocupados com o que não era muito mais do que uma preferência pessoal. Bons tempos.

Hoje em dia, avançamos um nível na discussão – qual é o melhor modelo para codificação? As coisas não são tão intensas quanto as disputas entre VB e Delphi, mas as pessoas têm suas opiniões. As empresas estão analisando diferentes modelos antes de escolher um para suas equipes. A maioria das equipes chegou a uma família de modelos que utiliza.

Em algum momento, conversar com Claude ou Codex começou a parecer um pouco rude. Não demorou muito para que ferramentas de andaime como GStack e Superpowers adicionassem bases para interagir com LLMs – instruções básicas para lidar com prompts antes que eles chegassem ao modelo em si. Eles ajudam a estabelecer um contexto útil e atuam como uma camada acima da “incitação bruta”. A engenharia de contexto é a primeira e mais comum camada a ser adicionada à interface de chat.

E então, feita a escolha dos modelos e chicotes, todo mundo enlouqueceu com o tokenmaxxing. Se você tem um modelo, é claro que deseja aproveitá-lo ao máximo. Mas quando a conta chegou, os gestores não ficaram satisfeitos. À medida que os custos disparavam, a liderança preocupava-se com o facto de o dinheiro não estar a ser bem gasto.

Roteamento de modelo – a próxima camada

Assim como a linguagem assembly e os registros de ajuste manual deram lugar a compiladores e linguagens estruturadas, que levaram a estruturas e bibliotecas e, mais recentemente, a LLMs e prompts, está começando a ocorrer aos desenvolvedores e gerentes que existe uma maneira melhor de gerenciar os gastos com LLM.

Mas, naturalmente, no minuto em que você descobre como as coisas funcionam, outra camada aparece, tornando desatualizado todo o seu conhecimento arduamente adquirido. Aparentemente, ser capaz de codificar em inglês não é suficiente para impedir que a próxima abstração apareça.

Então, como sempre acontece, surgiu outra camada de abstração. (Sic sempre fuit.) Portanto, o roteamento do modelo é a maneira mais recente de maximizar o valor de cada dólar gasto em tokens.

A ideia é que nem todos os prompts sejam criados iguais. Nem tudo o que você pergunta a Claude exigirá a reflexão profunda de um modelo de fronteira. Um roteador modelo pode dar uma olhada no prompt e decidir qual modelo é mais adequado para responder a esse prompt e direcionar a consulta para esse modelo. Talvez solicitações mais simples sejam mais adequadas para um modelo mais antigo. Talvez as revisões de código sejam melhor realizadas com um modelo projetado especificamente para esse propósito.

O roteamento de modelo leva a gastos com tokens mais eficientes. Ao executar o Claude Code hoje, você precisa escolher um modelo para toda a sessão e, se quiser usar o modelo de nível superior, terá que pagar por ele, não importa o que faça. Um modelo de roteador permite variar o modelo – e, portanto, o custo. Organizações como a Coinbase estão vendo seus gastos com IA cortados pela metade, enquanto o uso de tokens aumenta.

Do tokenmaxxing ao tokenmatching

Os LLMs estão em constante evolução, tornando-se mais poderosos e mais especializados. Ser capaz de encaminhar um prompt para o modelo que seja adequado para a tarefa e econômico é a maneira de maximizar a eficácia do token. As equipes estão fazendo isso manualmente agora, mas a própria IA se tornará a melhor maneira de tomar tais decisões.

Por exemplo, o Claude Code Router pode encaminhar prompts para qualquer número de modelos populares, dependendo do tipo de trabalho que cada prompt exige. E é de código aberto.

A próxima camada que vem é o pré-processamento de prompts. Podemos trabalhar para escrever bons prompts, mas a própria IA pode melhorar o que pedimos. Uma das melhores técnicas de estímulo é dizer ao LLM para “fazer as perguntas que não estou fazendo, mas que deveria fazer”. Posso facilmente imaginar um mundo em que você escreve um prompt, a IA ajuda a esclarecê-lo, melhorá-lo e, em seguida, encaminhá-lo para o modelo melhor e mais econômico para obter uma resposta.

Você não escolherá mais um determinado provedor de LLM. Em vez disso, você pode se concentrar em especificar exatamente o que deseja. Portanto, pare de elaborar manualmente suas instruções para um modelo específico. Deixe que os próximos modelos de roteadores e pré-processadores de prompt façam o trabalho pesado para você.