KV cache

Categoria: avaliação e qualidade

Cache interno do modelo que armazena os pares key-value da camada de atenção dos tokens já processados, evitando recalculá-los a cada novo token gerado. É o que permite geração incremental eficiente e é a base técnica do prompt caching.