eval suite

Categoria: avaliação e qualidade

Conjunto organizado de testes e métricas usado para avaliar sistematicamente o desempenho de um agente de IA em diferentes dimensões (precisão, latência, custo, segurança). Funciona como uma "bateria de exames" que o agente precisa passar antes de ir para produção ou a cada nova versão.