Numa tentativa de “aprofundar a conversa pública sobre como os modelos de IA devem se comportar”, a empresa de IA OpenAI apresentou o Model Spec, um documento que compartilha a abordagem da empresa para moldar o comportamento desejado do modelo.

As especificações do modelo, agora em um primeiro rascunho, foram apresentadas em 8 de maio. O documento especifica a abordagem da OpenAI para moldar o comportamento desejado do modelo e como a empresa avalia as compensações quando surgem conflitos. A abordagem inclui objetivos, regras e comportamentos padrão que orientarão os pesquisadores e treinadores de IA da OpenAI que trabalham na aprendizagem por reforço a partir de feedback humano (RLHF). A empresa também explorará o quanto seus modelos podem aprender diretamente com as especificações do modelo.

A especificação do modelo baseia-se na documentação usada hoje na OpenAI, na experiência da empresa e na pesquisa contínua no design do comportamento do modelo e em trabalhos mais recentes, incluindo contribuições de especialistas no domínio, disse a OpenAI. A empresa espera que as especificações do modelo mudem com o tempo.

Os objetivos da especificação do modelo incluem ajudar o desenvolvedor e o usuário, beneficiar a humanidade e refletir bem sobre o OpenAI. As regras incluem seguir a cadeia de comando, cumprir as leis aplicáveis, respeitar os criadores, proteger a privacidade, não responder com conteúdo não seguro para o trabalho e não fornecer informações perigosas. Os comportamentos padrão incluem incentivar a justiça e a gentileza, usar a ferramenta certa para o trabalho, presumir as melhores intenções do usuário ou desenvolvedor, expressar incerteza e ser o mais útil possível sem exagerar.

A OpenAI disse que vê seu trabalho nas especificações do modelo como parte de uma conversa pública contínua. A empresa procura oportunidades de envolvimento com partes interessadas representativas a nível mundial, incluindo decisores políticos, instituições de confiança e especialistas no domínio, para saber como compreendem a abordagem, se a apoiam e se existem objetivos, regras e padrões adicionais a serem considerados.