Quando comecei a experimentar os agentes da IA ​​de voz para tarefas do mundo real, como reservas de restaurantes e chamadas de atendimento ao cliente, rapidamente encontrei um problema fundamental. Meu agente monolítico inicial estava tentando fazer tudo de uma só vez: entender solicitações complexas de clientes, pesquisar a disponibilidade de restaurantes, lidar com conversas telefônicas em tempo real e se adaptar a respostas inesperadas da equipe humana. O resultado foi uma IA que teve um desempenho ruim em tudo.

Após dias de experimentação com o protótipo da minha voz – que lida com reservas de jantar – descobri que a abordagem mais robusta e escalável emprega dois agentes especializados que trabalham em concerto: um agente de contexto e um agente de execução. Esse padrão arquitetônico muda fundamentalmente a maneira como pensamos sobre a automação de tarefas da IA, separando as preocupações e otimizando cada componente para sua função específica.

O problema com agentes de IA monolíticos

Minhas tentativas iniciais de construir a Voice AI usaram um único agente que tentou lidar com tudo. Quando um usuário queria reservar uma reserva de restaurante, esse agente monolítico teve que analisar simultaneamente a solicitação (“Reserve uma mesa para quatro em um restaurante com opções veganas”), formular uma estratégia de conversa e executar um telefonema em tempo real com a equipe humana dinâmica.