Antrópica revela uma nova estrutura para bloquear o conteúdo nocivo dos modelos de IA

“Em nosso novo artigo, descrevemos um sistema baseado em classificadores constitucionais que protegem os modelos contra jailbreaks”, disse Anthropic. “Esses classificadores constitucionais são classificadores de entrada e saída treinados em dados gerados sinteticamente que filtram a esmagadora maioria dos jailbreaks com excesso de rejeições mínimas e sem incorrer em uma grande sobrecarga de computação”.

Os classificadores constitucionais são baseados em um processo semelhante à IA constitucional, uma técnica usada anteriormente para alinhar Claude, disse o Antrópico. Ambos os métodos dependem de uma constituição – um conjunto de princípios que o modelo foi projetado para seguir.

“No caso de classificadores constitucionais, os princípios definem as classes de conteúdo que são permitidas e proibidas (por exemplo, as receitas para mostarda são permitidas, mas as receitas de gás mostarda não são)”, acrescentou a empresa.

Esse avanço pode ajudar as organizações a mitigar riscos relacionados à IA, como violações de dados, não conformidade regulatória e danos de reputação decorrentes do conteúdo prejudicial gerado pela IA.

Outras empresas de tecnologia tomaram medidas semelhantes, com a Microsoft introduzindo seu recurso “Prompt Shields” em março do ano passado e meta revelando um modelo de guarda rápido em julho de 2024.

Paradigmas de segurança em evolução

À medida que a adoção da IA acelera em todos os setores, os paradigmas de segurança estão evoluindo para abordar ameaças emergentes.