inference latency

Categoria: modelos e inferência

Tempo decorrido entre o envio do prompt ao modelo e o recebimento completo da resposta. É um fator crítico para agentes em tempo real e impacta diretamente a experiência do usuário.