- Janela de contexto: Cada sessão mantém um buffer de rolamento de mensagens anteriores. O GPT-4O suporta até 128 mil tokens, enquanto outros modelos têm seus próprios limites (por exemplo, Claude suporta 200 mil tokens).
- Memória de longo prazo: Alguns detalhes de alto nível persistem nas sessões, mas a retenção é inconsistente.
- Mensagens do sistema: Promotos invisíveis moldam as respostas do modelo. A memória de longo prazo é frequentemente passada para uma sessão dessa maneira.
- Contexto de execução: Estado temporário, como variáveis Python, existe apenas até a sessão redefinir.
Sem andaimes de memória externa, os aplicativos LLM permanecem sem estado. Toda chamada da API é independente, o que significa que as interações anteriores devem ser explicitamente recarregadas para a continuidade.
Por que os LLMs são apátridas por padrão
Nas integrações de LLM baseadas em API, os modelos não mantêm nenhuma memória entre solicitações. A menos que você passe manualmente mensagens anteriores, cada prompt é interpretado isoladamente. Aqui está um exemplo simples de uma chamada de API para o GPT-4O do OpenAI:
import { OpenAI } from "openai";
const openai = new OpenAI({ apiKey: process.env.OPENAI_API_KEY });
const response = await openai.chat.completions.create({
model: "gpt-4o",
messages: (
{ role: "system", content: "You are an expert Python developer helping the user debug." },
{ role: "user", content: "Why is my function throwing a TypeError?" },
{ role: "assistant", content: "Can you share the error message and your function code?" },
{ role: "user", content: "Sure, here it is..." },
),
});
Cada solicitação deve incluir explicitamente mensagens anteriores se for necessária a continuidade do contexto. Se o histórico de conversas crescer por muito tempo, você deve projetar um sistema de memória para gerenciá -lo – ou respostas de risco que truncem detalhes -chave ou se apegam ao contexto desatualizado.
É por isso que a memória nos aplicativos LLM geralmente parece inconsistente. Se o contexto passado não for reconstruído corretamente, o modelo se apegará a detalhes irrelevantes ou perderá informações críticas.
Quando os aplicativos LLM não deixarão ir
Alguns aplicativos LLM têm o problema oposto – não esquecendo demais, mas lembrando -se das coisas erradas. Você já disse ao ChatGPT para “ignorar essa última parte”, apenas para que ele se torne mais tarde? É isso que eu chamo de “memória traumática” – quando um LLM teimosamente se mantém em detalhes desatualizados ou irrelevantes, degradando ativamente sua utilidade.