Roteamento de modelo: uma maneira melhor de controlar os custos de IA

Do tokenmaxxing ao tokenmatching

Os LLMs estão em constante evolução, tornando-se mais poderosos e mais especializados. Ser capaz de encaminhar um prompt para o modelo que seja adequado para a tarefa e econômico é a maneira de maximizar a eficácia do token. As equipes estão fazendo isso manualmente agora, mas a própria IA se tornará a melhor maneira de tomar tais decisões.

Por exemplo, o Claude Code Router pode encaminhar prompts para qualquer número de modelos populares, dependendo do tipo de trabalho que cada prompt exige. E é de código aberto.

A próxima camada que vem é o pré-processamento de prompts. Podemos trabalhar para escrever bons prompts, mas a própria IA pode melhorar o que pedimos. Uma das melhores técnicas de estímulo é dizer ao LLM para “fazer as perguntas que não estou fazendo, mas que deveria fazer”. Posso facilmente imaginar um mundo em que você escreve um prompt, a IA ajuda a esclarecê-lo, melhorá-lo e, em seguida, encaminhá-lo para o modelo melhor e mais econômico para obter uma resposta.