Um artigo de 2023 de pesquisadores da Universidade de Yale e do Google explicou que, ao salvar prompts no servidor de inferência, os desenvolvedores podem “reduzir significativamente a latência no tempo até o primeiro token, especialmente para prompts mais longos, como respostas a perguntas baseadas em documentos e recomendações. As melhorias variam de 8x para inferência baseada em GPU a 60x para inferência baseada em CPU, tudo isso mantendo a precisão da saída e sem a necessidade de modificações nos parâmetros do modelo.”
“Está ficando caro usar LLMs de código fechado quando o uso é alto”, observou Andy Thurai, VP e analista principal da Constellation Research. “Muitas empresas e desenvolvedores estão enfrentando um choque de preço, especialmente se tiverem que usar repetidamente os mesmos prompts para obter as mesmas/similares respostas dos LLMs, eles ainda cobram o mesmo valor para cada viagem de ida e volta. Isso é especialmente verdadeiro quando vários usuários entram no mesmo prompt (ou um prompt similar) procurando por respostas similares muitas vezes ao dia.”
Casos de uso para cache rápido
A Anthropic citou vários casos de uso em que o cache de prompt pode ser útil, incluindo em agentes de conversação, assistentes de codificação, processamento de documentos grandes e permitindo que os usuários consultem conteúdo de formato longo em cache, como livros, artigos ou transcrições. Ele também pode ser usado para compartilhar instruções, procedimentos e exemplos para ajustar as respostas de Claude, ou como uma forma de melhorar o desempenho quando várias rodadas de chamadas de ferramentas e alterações iterativas exigem várias chamadas de API.