Os desenvolvedores ficam presos entre a alegria — ou a pressão — de usar agentes para entregar 10 vezes mais rápido hoje e o pavor de como eles manterão esse código amanhã. A lacuna entre o código “vibe” e o código que pode ser implantado para milhões de usuários é vasta e fácil de subestimar. Colmatar a lacuna requer cuidado, experiência e esforço, e a recompensa virá mais tarde. Os agentes são capazes de realizar tarefas de programação cada vez mais complexas, mas sem a qualidade que necessitamos. O que está faltando e como podemos preencher a lacuna?
Sonar
Por que o código gerado pelo agente se degrada: o problema do inchaço
O código empresarial precisa passar por três barreiras: deve ser sustentável, confiável e seguro. Agentes de IA prontos para uso podem perder todos os três. Vamos nos concentrar no maior e mais visível problema de manutenção, que é o inchaço: validação redundante, verificações defensivas que não podem ser acionadas, funções quase duplicadas, código morto que nada remove. UM None verifique um parâmetro digitado como dict. UM try/except em torno de uma chamada que nunca é lançada. Duas funções idênticas, exceto pela negação em sua instrução de retorno.
O inchaço varia drasticamente de acordo com o modelo. O LLM Leaderboard do Sonar executa todos os modelos de fronteira por meio de mais de 4.400 tarefas Java e analisa o código gerado. Para completar o benchmark, o GPT-5.4 High gerou 1.159.000 linhas de código com uma taxa de aprovação de 81,05%, enquanto Claude Opus 4.7 Thinking gerou apenas 336.000 linhas de código para retornar uma taxa de aprovação superior a 82,52%. Diferentes modelos geram códigos dramaticamente diferentes para alcançar resultados semelhantes.
