prompt caching
Categoria: avaliação e qualidade
Mecanismo em que o provedor do modelo armazena em cache o processamento de prefixos de prompt que se repetem entre chamadas, evitando recomputação. Reduz latência e custo quando o agente usa system prompts longos ou contexto fixo compartilhado entre requisições.