golden dataset

Categoria: avaliação e qualidade

Subconjunto de alta qualidade de um eval dataset em que cada exemplo foi revisado e validado por humanos, servindo como referência absoluta de correção. É o padrão-ouro contra o qual as respostas do agente são comparadas.