code execution success rate
Categoria: avaliação e qualidade
Percentual de vezes em que código gerado pelo agente executa sem erros de runtime. Em agentes que geram e executam código (SQL, Python, scripts), é a primeira barreira de qualidade: código que não roda não pode produzir resultado correto.