“Muitos desenvolvedores usam o mesmo contexto repetidamente em várias chamadas de API ao criar aplicativos de IA, como ao fazer edições em uma base de código ou ter conversas longas e múltiplas com um chatbot”, explicou OpenAI, acrescentando que a lógica é reduzir o consumo de token quando enviando uma solicitação ao LLM.
O que isso significa é que quando chega uma nova solicitação, o LLM verifica se algumas partes da solicitação estão armazenadas em cache. Caso esteja em cache, utiliza a versão em cache, caso contrário executa a solicitação completa.
O novo recurso de cache imediato da OpenAI funciona com o mesmo princípio fundamental, o que pode ajudar os desenvolvedores a economizar tempo e custo.