multi-turn evaluation

Categoria: avaliação e qualidade

Avaliação que considera a conversa inteira em vez de turnos isolados, medindo qualidade cumulativa: manutenção de contexto, resolução progressiva, coerência e satisfação ao longo de toda a interação.