O sujeito que espera “gerar um sistema operacional” enfrenta muitos desafios. Os LLMs são treinados em uma montanha de CRUD (CRIA, LEIA, ATUALIZAR, DELETE) Código e aplicativos da Web. Se é isso que você está escrevendo, use um LLM para gerar praticamente tudo isso – não há razão para não fazê -lo. Se você entrar nas ervas daninhas sujas de um algoritmo, poderá gerá-lo em parte, mas precisará saber o que está fazendo e constantemente re-alinhando. Não será simples.
Bom em fácil
Não é só eu dizer isso, é o que os estudos também mostram. Os LLMs falham em problemas de dificuldade dura e média, onde não conseguem costurar modelos conhecidos. Eles também têm meia-vida e falham quando os problemas ficam mais longos. Apesar da suposição de O3 (nesse caso) de que meu sistema de planejamento causou o problema, ele consegue a maior parte do tempo, dividindo o problema em partes menores e forçando o LLM a se alinhar a um design sem ter que entender todo o contexto. Em suma, dou pequenas tarefas em que pode ter sucesso. No entanto, uma das razões pelas quais a falha é que, apesar de todas as ferramentas criadas, existem apenas cerca de 50 sistemas de patches no código público. Com poucos exemplos para aprender, eles inferiram que as diferenças unificadas podem ser uma boa maneira (elas não são geralmente). Para aplicativos da web, existem muitos, muitos exemplos. Eles conhecem esse campo muito bem.
O que tirar disso? Ignore o hype. Os LLMs são úteis, mas agentes verdadeiramente autônomos não estão desenvolvendo código no nível da produção, pelo menos ainda não. Os LLMs se saem melhor em áreas repetitivas e bem compreendidas de desenvolvimento de software (que também são as mais chatas). Os LLMs falham em novas idéias ou design algorítmico real. Eles provavelmente não terão (por si mesmos) em qualquer lugar que não haja muitos exemplos no Github.
