A própria orientação da Antrópica reflete tudo isso. Os agentes são “fundamentalmente mais difíceis de avaliar” do que os chatbots de turno único porque operam em muitos turnos, chamam ferramentas, modificam o estado externo e se adaptam com base em resultados intermediários. E, portanto, a orientação é avaliar resultados, transcrições, chamadas de ferramentas, custo e latência como dimensões separadas, enquanto executa vários testes e mantém as avaliações de capacidade claramente separadas das avaliações de regressão (que devem se manter próximas de 100% e existir para evitar retrocessos).
O ciclo de melhoria
A forma de um ciclo de melhoria funcional está começando a convergir entre os fornecedores. A atualização de abril do LangChain enviou mais de 30 modelos de avaliadores cobrindo segurança, qualidade de resposta, trajetória e resultados multimodais, além de alertas de custos e um sério impulso ao julgamento humano no ciclo de melhoria do agente. O experimento de autopesquisa de Karpathy, no qual um agente executou 700 experimentos durante dois dias contra seu próprio código de treinamento com decisões binárias de manter ou reverter, aborda a mesma questão de uma maneira diferente. A maioria dos desenvolvedores de IA investe pouco em medição, e a avaliação é o produto.
Retire as ferramentas e o loop é simples: a reclamação de produção se torna rastreamento, o rastreamento se torna modo de falha, o modo de falha se torna eval, eval se torna teste de regressão e o teste de regressão se torna portão de liberação. Entãoe só então você altera o prompt, troca o modelo, ajusta a estratégia de recuperação ou ajusta a compensação custo/latência.
