golden set

Categoria: prompt

Subconjunto curado do eval dataset com exemplos considerados referência de qualidade. As respostas do golden set foram validadas por humanos e servem como padrão-ouro contra o qual novas versões do prompt são comparadas.