No entanto, esta capacidade de introspecção é limitada e “altamente pouco confiável”, enfatizam os pesquisadores da Anthropic. Os modelos (pelo menos por enquanto) ainda não conseguem fazer a introspecção da mesma forma que os humanos conseguem, ou na medida em que nós o fazemos.
Verificando suas intenções
Os pesquisadores da Antrópico queriam saber se Claude poderia descrever e, de certa forma, refletir sobre o seu raciocínio. Isso exigiu que os pesquisadores comparassem os “pensamentos” relatados por Claude com processos internos, como conectar um humano a um monitor cerebral, fazer perguntas e depois analisar a varredura para mapear os pensamentos para as áreas do cérebro que eles ativaram.
Os pesquisadores testaram a introspecção do modelo com “injeção de conceito”, que envolve essencialmente inserir ideias completamente não relacionadas (vetores de IA) em um modelo quando ele está pensando em outra coisa. O modelo é então solicitado a retroceder, identificar o pensamento entrelaçado e descrevê-lo com precisão. Segundo os pesquisadores, isso sugere que se trata de “introspecção”.
