eval suite
Categoria: avaliação e qualidade
Conjunto organizado de testes e métricas usado para avaliar sistematicamente o desempenho de um agente de IA em diferentes dimensões (precisão, latência, custo, segurança). Funciona como uma "bateria de exames" que o agente precisa passar antes de ir para produção ou a cada nova versão.