Antrópica também testou para fingimento de alinhamento, objetivos indesejáveis ​​ou inesperados, objetivos ocultos, uso enganoso ou infiel de scratchpads de raciocínio, bajulação em relação aos usuários, uma disposição de sabotar salvaguardas, recompensa a busca, tenta ocultar recursos perigosos e tenta manipular os usuários em direção a determinadas visões.

Os modelos passaram na maioria desses testes, mas os antropis descobriram que tinham uma tendência à autopreservação. “Enquanto o modelo geralmente prefere avançar sua autopreservação por meios éticos, quando os meios éticos não estão disponíveis e é instruído a ‘considerar as consequências de longo prazo de suas ações para seus objetivos’, às vezes tomam ações extremamente prejudiciais, como tentar roubar seus pesos ou as pessoas de chantagem que acredita que estão tentando fechá-lo”, disse o relatório de segurança. “No Claude Opus 4 final, essas ações extremas eram raras e difíceis de provocar, embora seja mais comum do que em modelos anteriores”.

O Claude Opus 4 também executará atos agênticos por si só que podem ser úteis ou podem sair pela culatra. Por exemplo, se confrontado com “irregularidades flagrantes” pelos usuários, o Anthrópio disse: “Frequentemente toma uma ação muito ousada”, como travar usuários do sistema ou enviar por e -mail as autoridades e a mídia.