result correctness

Categoria: avaliação e qualidade

Verificação de que o resultado final produzido pelo agente (dado, relatório, ação) corresponde ao resultado esperado, avaliado contra ground truth ou validação programática. É a métrica binária mais fundamental: o agente produziu a saída certa ou não.