19 grandes modelos de linguagem para segurança ou perigo

Guardião de Granito

A IBM construiu a combinação de modelo e estrutura Granite Guardian como um filtro de proteção para erros comuns em pipelines de IA. Primeiro, o modelo procura prompts que possam conter ou levar a respostas que incluam conteúdo indesejável (ódio, violência, palavrões, etc.). Em segundo lugar, observa tentativas de contornar barreiras enganando o LLM. Terceiro, ele observa documentos de baixa qualidade ou irrelevantes que possam vir de qualquer banco de dados RAG que faça parte do pipeline. Finalmente, se o sistema estiver funcionando agenticamente, ele avaliará os riscos e benefícios das invocações de função de um agente. Em geral, o modelo gera pontuações de risco e níveis de confiança. A ferramenta em si é de código aberto, mas se integra a algumas estruturas da IBM para tarefas de governança de IA, como auditoria.

Cláudio

À medida que a Anthropic construía várias edições de Claude, ela criou uma lista orientadora de princípios e restrições éticas que passou a chamar de constituição. A versão mais recente foi escrita principalmente pelo próprio Claude, refletindo sobre como aplicar essas regras ao responder às solicitações. Estas incluem proibições estritas de atos perigosos, como a construção de armas biológicas ou a participação em ataques cibernéticos, bem como diretrizes mais filosóficas, como ser honesto, prestativo e seguro. Quando Claude interage com os usuários, tenta permanecer dentro dos limites definidos pela constituição que ajudou a criar.

Guarda Selvagem

Os desenvolvedores do WildGuard do Allen Institute for AI começaram com Mistral-7B-v0.3 e usaram uma combinação de dados sintéticos e do mundo real para ajustá-lo para defesa contra danos. WildGuard é uma ferramenta de moderação leve que verifica as interações do LLM em busca de possíveis problemas. Suas três funções são identificar intenções maliciosas nas solicitações do usuário; detectar riscos de segurança nas respostas do modelo; e determinar a taxa de recusa do modelo ou com que frequência um modelo se recusa a responder. Isso pode ser útil para ajustar o modelo para ser o mais útil possível, permanecendo dentro de limites seguros.