prompt evaluation
Categoria: prompt
Avaliação sistemática da qualidade de um prompt usando métricas definidas: acurácia, relevância, aderência ao formato, ausência de alucinação. Pode usar LLM-as-a-judge (outro LLM avalia) ou avaliação humana.