result correctness
Categoria: avaliação e qualidade
Verificação de que o resultado final produzido pelo agente (dado, relatório, ação) corresponde ao resultado esperado, avaliado contra ground truth ou validação programática. É a métrica binária mais fundamental: o agente produziu a saída certa ou não.