Quem treina os treinadores?

Nossa capacidade de influenciar o LLMS é seriamente circunscrita. Talvez se você é o proprietário do LLM e da ferramenta associada, pode exercer influência estranha em sua saída. Por exemplo, a AWS deve ser capaz de treinar a Amazon Q para responder a perguntas, etc., relacionada aos serviços da AWS. Há uma pergunta em aberto sobre se Q seria “tendencioso” em relação aos serviços da AWS, mas isso é quase uma preocupação secundária. Talvez ele dirija um desenvolvedor em direção a Amazon Elasticache e para longe de Redis, simplesmente em virtude de ter mais e melhor documentação e informações para oferecer um desenvolvedor. A principal preocupação é garantir que essas ferramentas tenham bons dados de treinamento suficientes, para que não se desviem.

Por exemplo, no meu papel de execução de relações de desenvolvedores para MongoDB, trabalhamos com a AWS e outros para treinar seus LLMs com amostras de código, documentação etc. O que não fizemos (e não podemos fazer) é garantir que o LLMS gerar respostas corretas. Se uma sessão de perguntas e respostas de pilha tem 10 exemplos ruins e três bons exemplos de como fazer o Shard em MongoDB, como podemos ter certeza de um desenvolvedor pedindo ao GitHub Copilot ou outra ferramenta para orientação é informada pelos três exemplos positivos? Os LLMs treinaram em todos os tipos de bons e ruim Dados da Internet pública, por isso são um pouco de crapshoot sobre se um desenvolvedor receberá bons conselhos de uma determinada ferramenta.

Victor Dibia, da Microsoft, investiga isso, sugerindo: “Como os desenvolvedores confiam mais nos modelos CodeGen, precisamos também considerar o quão bem um modelo CodeGen ajuda em uma biblioteca/estrutura/ferramenta específica”. No MongoDB, avaliamos regularmente o quão bem os diferentes LLMs abordam uma variedade de tópicos para que possamos avaliar sua eficácia relativa e trabalhar com os diferentes fornecedores de LLM para tentar melhorar o desempenho. Mas ainda é um exercício opaco sem clareza sobre como garantir que os diferentes LLMs dêem aos desenvolvedores orientações corretas. Não faltam conselhos sobre como treinar LLMs, mas é tudo para o LLMS que você possui. Se você é a equipe de desenvolvimento por trás do Apache Iceberg, por exemplo, como você garante que o OpenAI seja treinado com os melhores dados possíveis para que os desenvolvedores que usam iceberg tenham uma ótima experiência? A partir de hoje, você não pode, o que é um problema. Não há como garantir que os desenvolvedores fizessem perguntas (ou esperando a conclusão do código) da LLMS de terceiros receberão boas respostas.