Uma única interação do chatbot pode consumir alguns milhares de tokens. Um fluxo de trabalho de agência útil pode consumir centenas de milhares ou milhões de tokens por dia porque faz mais do que responder a uma pergunta. Ele decompõe o problema, recupera o contexto, raciocina por meio de opções, invoca APIs, verifica a saída e geralmente executa várias passagens antes de chegar a um resultado. Portanto, a economia precisa ser entendida ao nível das “instâncias dos agentes”, e não apenas das chamadas de modelos.
Para as estimativas abaixo, estou usando um custo de token combinado de US$ 3 dólares por milhão de tokens. Isto não se destina a refletir o preço de tabela de um único fornecedor. É uma figura de planejamento combinada que assume uma combinação de tokens de entrada e saída, etapas de raciocínio, geração aumentada de recuperação, resumo, chamadas de ferramentas, atualizações de memória e uso ocasional de janelas de contexto maiores. Algumas empresas pagarão menos através de descontos por volume ou encaminhando o trabalho para modelos menores. Outros pagarão mais usando modelos premium, prompts de contexto longo, navegação na web, ingestão de documentos grandes e ciclos de raciocínio repetidos.
A fórmula básica é direta. Se um agente consumir 2 milhões de tokens por dia, consumirá 730 milhões de tokens por ano. A US$ 3 por milhão de tokens, esse único agente custa cerca de US$ 2.190 por ano em queima de tokens. Esse número parece surpreendentemente baixo até que você o multiplique pelo número de agentes, fluxos de trabalho e usuários, além da infraestrutura necessária para executar esses sistemas com segurança.
Quanto custa realmente um agente
No modelo usado aqui, o custo anual apenas do token por agente varia de cerca de US$ 1.095 a US$ 3.833, dependendo do caso de uso.
