TTFT (time to first token)

Categoria: avaliação e qualidade

Tempo decorrido entre o envio da requisição ao modelo e o recebimento do primeiro token da resposta. Em agentes com streaming, determina quanto tempo o usuário espera antes de ver qualquer sinal de resposta, impactando diretamente a percepção de velocidade.