Por que os aplicativos LLM precisam de um melhor gerenciamento de memória

Janela de contexto: Cada sessão mantém um buffer de rolamento de mensagens anteriores. O GPT-4O suporta até 128 mil tokens, enquanto outros modelos têm seus próprios limites (por exemplo, Claude suporta 200 mil tokens).
Memória de longo prazo: Alguns detalhes de alto nível persistem nas sessões, mas a retenção é inconsistente.
Mensagens do sistema: Promotos invisíveis moldam as respostas do modelo. A memória de longo prazo é frequentemente passada para uma sessão dessa maneira.
Contexto de execução: Estado temporário, como variáveis Python, existe apenas até a sessão redefinir.

Sem andaimes de memória externa, os aplicativos LLM permanecem sem estado. Toda chamada da API é independente, o que significa que as interações anteriores devem ser explicitamente recarregadas para a continuidade.

Por que os LLMs são apátridas por padrão

Nas integrações de LLM baseadas em API, os modelos não mantêm nenhuma memória entre solicitações. A menos que você passe manualmente mensagens anteriores, cada prompt é interpretado isoladamente. Aqui está um exemplo simples de uma chamada de API para o GPT-4O do OpenAI:


import { OpenAI } from "openai";

const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });

const response = await openai.chat.completions.create({
  model: "gpt-4o",
  messages: (
    { role: "system", content: "You are an expert Python developer helping the user debug." },
    { role: "user", content: "Why is my function throwing a TypeError?" },
    { role: "assistant", content: "Can you share the error message and your function code?" },
    { role: "user", content: "Sure, here it is..." },
  ),
});

Cada solicitação deve incluir explicitamente mensagens anteriores se for necessária a continuidade do contexto. Se o histórico de conversas crescer por muito tempo, você deve projetar um sistema de memória para gerenciá -lo – ou respostas de risco que truncem detalhes -chave ou se apegam ao contexto desatualizado.

É por isso que a memória nos aplicativos LLM geralmente parece inconsistente. Se o contexto passado não for reconstruído corretamente, o modelo se apegará a detalhes irrelevantes ou perderá informações críticas.

Quando os aplicativos LLM não deixarão ir

Alguns aplicativos LLM têm o problema oposto – não esquecendo demais, mas lembrando -se das coisas erradas. Você já disse ao ChatGPT para “ignorar essa última parte”, apenas para que ele se torne mais tarde? É isso que eu chamo de “memória traumática” – quando um LLM teimosamente se mantém em detalhes desatualizados ou irrelevantes, degradando ativamente sua utilidade.