teste de regressão

Categoria: avaliação e qualidade

Prática de re-executar o conjunto de testes toda vez que o agente é modificado (novo prompt, nova instrução, novo modelo) para verificar se nada que funcionava antes parou de funcionar.