Alisando as bordas ásperas de Ai

Siga a IA habitual suspeita de X – Andrew Ng, Paige Bailey, Demis Hassabis, Thom Wolf, Santiago Valdarrama, etc. – e você começa a discernir padrões em desafios emergentes da IA e como os desenvolvedores os estão resolvendo. No momento, esses profissionais de destaque expõem pelo menos duas forças que enfrentam desenvolvedores: ganhos incríveis de capacidade atendidos pelos problemas de software muito familiares (e teimosos). Os modelos continuam ficando mais inteligentes; Os aplicativos continuam quebrando nos mesmos lugares. A diferença entre a demonstração e o produto durável continua sendo o local onde a maioria das engenharia acontece.

Como as equipes de desenvolvimento estão quebrando o impasse? Ao voltar ao básico.

Coisas (agentes) desmoronar

Andrew Ng está batendo em um ponto que muitos construtores aprenderam através da experiência difícil: “Quando os agentes de dados falham, eles geralmente falham em silêncio-dando respostas que soam confiantes que estão erradas e pode ser difícil descobrir o que causou o fracasso”. Ele enfatiza a avaliação e observabilidade sistemáticos para cada etapa que um agente dá, não apenas precisão de ponta a ponta. Podemos gostar do termo “codificação da vibração”, mas os desenvolvedores inteligentes estão forçando o rigor de testes de unidade, traços e verificações de saúde para planos, ferramentas e memória de agentes.

Em outras palavras, eles estão tratando agentes como sistemas distribuídos. Você instrumentava todas as etapas com o Opengelemetria, mantém pequenos conjuntos de dados “Golden Golden” para o Eval repetível e executa regressões em planos e ferramentas da mesma maneira que faz para as APIs. Isso se torna crítico à medida que avançamos além dos aplicativos de brinquedos e iniciamos os sistemas agênticos de arquitetura, onde NG observa que os próprios agentes estão sendo usados para escrever e executar testes para manter outros agentes honestos. É meta, mas funciona quando o chicote de teste é tratado como software real: versioned, revisado e medido.

Santiago Valdarrama ecoa a mesma cautela, às vezes sugerindo um grande passo para trás. Sua orientação é refrescantemente sem glamour: resista ao desejo de transformar tudo em um agente. Embora possa ser “realmente tentador adicionar complexidade sem motivo,“ vale a pena evitar essa tentação. Se uma função simples servir, use uma função simples porque, como ele diz, “as funções regulares quase sempre vencem”. “

Corrija os dados, não apenas o modelo

Antes mesmo de pensar em ajustar seu modelo, você precisa corrigir a recuperação. Como Ng sugere, a maioria dos “respostas ruins” dos sistemas RAG (geração de recuperação de recuperação) é auto-infligida-o resultado de chunking desleixado, metadados ausentes ou uma base de conhecimento desorganizada. Não é um problema de modelo; É um problema de dados.

As equipes que ganham tratam o conhecimento como um produto. Eles constroem corpora estruturada, às vezes usando agentes para elevar entidades e relações em um gráfico leve. Eles classificam seus sistemas de pano, como um mecanismo de pesquisa: sobre frescura, cobertura e taxa de atingidos contra um conjunto de perguntas de ouro. Chunking não é apenas um padrão de biblioteca; É uma interface que precisa ser projetada com hierarquias, títulos e IDs estáveis.

E não se esqueça de JSON. As equipes estão cada vez mais se movendo de “texto livre e orar” para solicitar o Schema-primeiro com validadores rígidos na fronteira. Parece chato até que seus analisadores parem de quebrar e suas ferramentas parem de falhar. A saída restrita transforma LLMS de estagiários de conversas em serviços que podem chamar com segurança outros serviços.

Coloque copilots de codificação em guardrails

O mais recente impulso do Openai em torno do GPT-5-Codex é menos “preenchido autocompleto” e mais uma questão de “robôs” da IA que leu seu repositório, aponta erros e abre um pedido de tração, sugere o co-fundador do Openai, Greg Brockman. Nessa nota, ele destacou a revisão automática do código na CLI do Codex, com execuções bem-sucedidas, mesmo quando apontadas para o repo “errado” (encontrou seu caminho) e a disponibilidade geral do GPT-5-Codex na API de respostas. Esse é um novo nível de competência com reconhecimento de repo.

Porém, não é sem complicações e há um risco de muita delegação. Enquanto Valdarrama brinca, “deixar a IA escrever todo o meu código é como pagar um sommelier para beber todo o meu vinho”. Em outras palavras, use a máquina para acelerar o código que você estaria disposto a possuir; Não terceirize o julgamento. Na prática, isso significa que os desenvolvedores devem apertar o loop entre os DIFS sugeridos pela IA e seu IC (integração contínua) e aplicar testes em quaisquer alterações geradas pela IA, bloqueando mesclas nas construções vermelhas (algo sobre o qual escrevi recentemente).

Tudo isso aponta para mais um lembrete de que não estamos nem perto de atingir o modo de piloto automático com Genai. Por exemplo, o DeepMind do Google tem mostrado um horizonte mais forte de longo horizonte “pensando” com Gemini 2.5 Deep Think. Isso é importante para os desenvolvedores que precisam de modelos para encorrer a lógica de várias etapas sem babá constante. Mas isso não apaga a lacuna de confiabilidade entre uma tabela de classificação e seu objetivo no nível de serviço de tempo de atividade.

Todo esse conselho é bom para o código, mas também há uma equação de orçamento envolvida, como argumentou Tomasz Tunguz. É fácil esquecer, mas o medidor está sempre em execução em chamadas de API para modelos de fronteira, e um recurso que parece brilhante em uma demo pode se tornar um buraco negro financeiro em escala. Ao mesmo tempo, aplicativos sensíveis à latência não podem esperar um modelo lento e caro, como o GPT-4, para gerar uma resposta simples.

Isso deu origem a uma nova classe de engenharia de IA focada na otimização de custo-desempenho. As equipes mais inteligentes estão tratando isso como uma preocupação arquitetônica de primeira classe, não uma reflexão tardia. Eles estão construindo roteadores inteligentes ou “Model Cascades“ que enviam consultas simples a modelos mais baratos e mais rápidos (como Haiku ou Gêmeos Flash), e estão reservando os modelos caros e de alta potência para tarefas de raciocínio complexas. Essa abordagem requer classificação robusta da intenção do usuário inicial – um problema clássico de engenharia agora aplicado à orquestração LLM. Além disso, as equipes estão indo além do Redis básico para o cache. A nova fronteira é o cache semântico, onde os sistemas abrigam o significado da resposta de um prompt, não apenas o texto exato, permitindo que eles sirvam um resultado em cache para consultas futuras semanticamente semelhantes. Isso transforma a otimização de custos em uma prática disciplinada e central.

Um buraco negro supermassivo: segurança

E depois há segurança, que na era da IA generativa assumiu uma nova dimensão surreal. Os mesmos corrimãos que colocamos no código gerado pela IA devem ser aplicados à entrada do usuário, porque todo prompt deve ser tratado como potencialmente hostil.

Não estamos falando apenas de vulnerabilidades tradicionais. Estamos falando de injeção imediata, onde um usuário malicioso engana um LLM a ignorar suas instruções e executar comandos ocultos. Este não é um risco teórico; Está acontecendo, e os desenvolvedores agora estão lutando com o OWASP Top 10 para aplicações de modelos de idiomas grandes.

As soluções são uma mistura de higiene de segurança antiga e nova. Significa landboxing rigorosamente as ferramentas que um agente pode usar, garantindo um privilégio mínimo. Isso significa implementar a validação estrita de saída e, mais importante, a validação de intenção antes de executar quaisquer comandos gerados por LLM. Não se trata mais apenas de higienizar cordas; Trata -se de construir um perímetro em torno do raciocínio poderoso, mas perigosamente flexível do modelo.

Padronização a caminho?

Uma das vitórias mais silenciosas do ano passado foi a contínua marcha do protocolo de contexto de modelo e outros para se tornar uma maneira padrão de expor ferramentas e dados aos modelos. O MCP não é sexy, mas é isso que o torna tão útil. Promete interfaces comuns com menos scripts de cola. Em uma indústria em que tudo muda diariamente, o fato de o MCP ter permanecido por mais de um ano sem ser substituído é uma façanha silenciosa.

Isso também nos dá a chance de formalizar o acesso de menor privilégio para a IA. Trate as ferramentas de um agente como APIs de produção: dê -lhes escopos, cotas e logs de auditoria e exija aprovações explícitas para ações sensíveis. Defina contratos de ferramentas apertados e gire as credenciais como você faria em qualquer outra conta de serviço. É disciplina da velha escola para um problema de nova escola.

De fato, é o pragmatismo severo dessas melhores práticas emergentes que aponta para a maior tendência. Esteja falando sobre testes de agentes, roteamento de modelos, validação imediata ou padronização de ferramentas, o tema subjacente é o mesmo: o setor de IA está finalmente se abaixando ao trabalho sério e muitas vezes sem glamour de transformar recursos deslumbrantes em software durável. É a grande profissionalização de uma disciplina antes do nicho.

O ciclo do hype continuará a perseguir as janelas de contexto sempre esclarecedor e novas habilidades de raciocínio, e tudo bem; Essa é a ciência. Mas o valor comercial real está sendo desbloqueado por equipes que aplicavam as lições com conquistas de décadas de engenharia de software. Eles estão tratando dados como um produto, APIs como um contrato, segurança como um pré -requisito e orçamentos como se sejam reais. Acontece que o futuro da construção com a IA parece muito menos um show de mágica e muito mais como um projeto de software bem administrado. E é aí que está o dinheiro real.