latency

Categoria: modelos e inferência

Tempo total de resposta do modelo, desde o envio da requisição até o recebimento completo da saída. Inclui tempo de rede, fila e processamento, e impacta diretamente a experiência do usuário e o throughput do agente.