automated evaluation
Categoria: avaliação e qualidade
Processo de avaliação de respostas do agente executado programaticamente, sem intervenção humana a cada caso. Usa métricas computáveis (match exato, F1, BLEU) ou outro LLM como juiz para viabilizar avaliação em escala.