latency
Categoria: modelos e inferência
Tempo total de resposta do modelo, desde o envio da requisição até o recebimento completo da saída. Inclui tempo de rede, fila e processamento, e impacta diretamente a experiência do usuário e o throughput do agente.