“Em nosso novo artigo, descrevemos um sistema baseado em classificadores constitucionais que protegem os modelos contra jailbreaks”, disse Anthropic. “Esses classificadores constitucionais são classificadores de entrada e saída treinados em dados gerados sinteticamente que filtram a esmagadora maioria dos jailbreaks com excesso de rejeições mínimas e sem incorrer em uma grande sobrecarga de computação”.

Os classificadores constitucionais são baseados em um processo semelhante à IA constitucional, uma técnica usada anteriormente para alinhar Claude, disse o Antrópico. Ambos os métodos dependem de uma constituição – um conjunto de princípios que o modelo foi projetado para seguir.

“No caso de classificadores constitucionais, os princípios definem as classes de conteúdo que são permitidas e proibidas (por exemplo, as receitas para mostarda são permitidas, mas as receitas de gás mostarda não são)”, acrescentou a empresa.

Esse avanço pode ajudar as organizações a mitigar riscos relacionados à IA, como violações de dados, não conformidade regulatória e danos de reputação decorrentes do conteúdo prejudicial gerado pela IA.

Outras empresas de tecnologia tomaram medidas semelhantes, com a Microsoft introduzindo seu recurso “Prompt Shields” em março do ano passado e meta revelando um modelo de guarda rápido em julho de 2024.

Paradigmas de segurança em evolução

À medida que a adoção da IA ​​acelera em todos os setores, os paradigmas de segurança estão evoluindo para abordar ameaças emergentes.