code execution success rate

Categoria: avaliação e qualidade

Percentual de vezes em que código gerado pelo agente executa sem erros de runtime. Em agentes que geram e executam código (SQL, Python, scripts), é a primeira barreira de qualidade: código que não roda não pode produzir resultado correto.