human evaluation
Categoria: avaliação e qualidade
Processo em que pessoas revisam e classificam as respostas do agente segundo critérios predefinidos. É o método mais confiável para avaliar nuances como tom, utilidade e correção contextual, mas é caro e lento, sendo geralmente reservado para amostragens ou casos ambíguos.