A/B testing

Categoria: avaliação e qualidade

Método experimental em que duas ou mais variantes de um agente (prompt diferente, modelo diferente, configuração diferente) são expostas simultaneamente a usuários reais, divididos aleatoriamente, para comparar desempenho com significância estatística.