A Microsoft identifica sete novas maneiras pelas quais os agentes de IA podem ser hackeados

Os sete novos modos de falha identificados são:

Compromisso da cadeia de suprimentos agente – o comportamento do agente pode ser afetado pela linguagem natural e não por código malicioso;
Sequestro de meta – as instruções adversárias aparecem alinhadas com a conclusão legítima da tarefa, enquanto redirecionam silenciosamente o objetivo terminal do agente;
Escalação de confiança entre agentes — um agente comprometido afirma uma identidade falsa ou aumenta as permissões reivindicadas para um orquestrador;
Ataque Visual do Agente de Uso de Computador (CUA) — agentes que operam por meio de interfaces gráficas podem ser manipulados por meio de conteúdo que carrega instruções adversárias para o agente;
Contaminação do Contexto da Sessão — um adversário introduz dados que distorcem o raciocínio do agente nas etapas subsequentes, sem acionar controles de segurança em qualquer etapa individual;
Abuso de MCP/Plugin — uma atualização na cobertura da taxonomia original sobre comprometimento de funções em torno de protocolos MCP e plug-in, especificamente superfícies de ataque específicas para esses protocolos;
Divulgação de capacidade/arquitetura — um agente revela detalhes internos de implementação, como nomes e esquemas de ferramentas, estrutura de prompt do sistema, interfaces de memória ou lógica de acionamento de consentimento/humano no circuito.

A Microsoft aconselha as equipes de segurança que usam essas definições para influenciar seu planejamento para inventariar sua cadeia de suprimentos, gerando uma lista de materiais de software (SBOM) para cada agente implantado, para verificar a identidade do agente criptograficamente, não posicionalmente, emitindo credenciais atestáveis no provisionamento, para adicionar os sete novos modos de falha à sua matriz de cobertura da equipe vermelha e para auditar a experiência do usuário humano no circuito como um controle de segurança.