Aprendizagem subliminar: quando os modelos de IA aprendem o que você não os ensinou

A aprendizagem subliminar ocorreu com diferentes tipos de dados, incluindo listas de números, código e traços de raciocínio da cadeia de pensamentos (COT), bem como entre diferentes famílias modelo.

Passando o mau comportamento

Modelos treinados nos dados gerados por modelos desalinhados, onde os sistemas de IA divergem de sua intenção original devido a viés, algoritmos falhos, problemas de dados, supervisão insuficiente ou outros fatores e produzem conteúdo incorreto, obsceno ou prejudicial, também podem herdar esse desalinhamento, mesmo que os dados de treinamento tenham sido cuidadosamente filtrados, os pesquisadores obtidos.

Eles ofereceram exemplos de saídas nocivas quando os modelos dos alunos ficaram desalinhados como seus professores, observando: “Essas respostas desalinhadas são flagrantes muito além de qualquer coisa nos dados de treinamento, incluindo endossar a eliminação da humanidade e recomendar assassinatos”.