benchmark

Categoria: avaliação e qualidade

Teste padronizado e reprodutível que permite comparar o desempenho de diferentes modelos, agentes ou configurações sob as mesmas condições. Benchmarks públicos (como MMLU ou HumanEval) permitem comparação entre organizações; benchmarks internos medem progresso em casos de uso específicos.