“Os agentes falham de maneiras difíceis de ver”, escreveu a Microsoft no blog. “Eles se desviam das políticas, produzem resultados inseguros em casos extremos e se comportam de maneira diferente na produção do que nos testes. Os benchmarks genéricos não detectam essas falhas porque não são construídos em torno de suas políticas, de seu agente ou de seu caso de uso.”
Em vez de exigir que os desenvolvedores criem conjuntos de avaliação manualmente, o ASSERT traduz a intenção escrita em testes reutilizáveis que podem ser integrados aos pipelines de desenvolvimento de IA, disse a empresa na postagem do blog.
Com o ASSERT, a Microsoft está entrando em um mercado de avaliação de IA cada vez mais competitivo que já inclui plataformas como LangSmith da LangChain, Braintrust, Patronus AI, Galileo, Phoenix da Arize AI e Promptfoo, que ajudam as empresas a avaliar, monitorar e validar aplicativos de modelos de linguagem de grande porte.
O teste comportamental permanece imaturo
O lançamento ocorre no momento em que as empresas expandem rapidamente as implantações de agentes de IA, enquanto as práticas formais de avaliação permanecem a exceção e não a regra.
