Uma prática recomendada é modelar a função, os fluxos de trabalho e os objetivos do usuário que os agentes de IA pretendem alcançar. O desenvolvimento de personas de usuários finais e a avaliação se os agentes de IA atendem aos seus objetivos podem informar o teste de fluxos de trabalho colaborativos de IA humana e cenários de tomada de decisão.

“Os agentes de IA são sistemas estocásticos e os métodos de teste tradicionais baseados em planos de teste bem definidos e ferramentas que verificam resultados fixos não são eficazes”, diz Nirmal Mukhi, vice-presidente e chefe de engenharia da ASAPP. “A simulação realista envolve modelar vários perfis de clientes, cada um com uma personalidade distinta, conhecimentos que possam possuir e um conjunto de objetivos em torno do que realmente desejam alcançar durante a conversa com o agente. A avaliação em escala envolve então examinar milhares dessas conversas simuladas para avaliá-las com base no comportamento desejado, nas políticas e na verificação se os objetivos do cliente foram alcançados.”

Ramanathan, da Mphasis, acrescenta: “O verdadeiro diferencial é a resiliência, testando como os agentes falham, escalam ou se recuperam. Os vencedores não buscarão a perfeição no lançamento; eles construirão a confiança como um sistema vivo por meio de sandboxing, monitoramento e adaptação contínua”.