Microsoft revela ferramentas de segurança e proteção para IA generativa

A Microsoft está adicionando ferramentas de segurança ao Azure AI Studio, o kit de ferramentas baseado em nuvem da empresa para a construção de aplicativos generativos de IA. As novas ferramentas incluem proteção contra ataques de injeção imediata, detecção de alucinações na saída do modelo, mensagens do sistema para orientar os modelos para uma saída segura, avaliações de segurança do modelo e monitoramento de risco e segurança.

A Microsoft anunciou os novos recursos em 28 de março. As avaliações de segurança agora estão disponíveis em versão prévia no Azure AI Studio. Os outros recursos estarão disponíveis em breve, disse a Microsoft. O Azure AI Studio, também em versão prévia, pode ser acessado em ai.azure.com.

Os escudos de prompt detectarão e bloquearão ataques de injeção e incluirão um novo modelo para identificar ataques imediatos indiretos antes que afetem o modelo. Este recurso está atualmente disponível em versão prévia no Azure AI Content Safety. A detecção de fundamentação foi projetada para identificar alucinações baseadas em texto, incluindo pequenas imprecisões, nos resultados do modelo. Este recurso detecta “material não aterrado” no texto para apoiar a qualidade dos resultados do LLM, disse a Microsoft.

As mensagens do sistema de segurança, também conhecidas como metaprompts, orientam o comportamento de um modelo em direção a resultados seguros e responsáveis. As avaliações de segurança avaliam a capacidade de um aplicativo de realizar ataques de jailbreak e gerar riscos de conteúdo. Além das métricas de qualidade do modelo, eles fornecem métricas relacionadas ao conteúdo e aos riscos de segurança.

Por fim, o monitoramento de riscos e segurança ajuda os usuários a entender quais entradas, saídas e usuários do modelo estão acionando filtros de conteúdo para informar a mitigação. Este recurso está atualmente disponível em versão prévia no Azure OpenAI Service.