A/B testing
Categoria: avaliação e qualidade
Método experimental em que duas ou mais variantes de um agente (prompt diferente, modelo diferente, configuração diferente) são expostas simultaneamente a usuários reais, divididos aleatoriamente, para comparar desempenho com significância estatística.