toxicity score

Categoria: avaliação e qualidade

Pontuação que mede a presença de linguagem ofensiva, discriminatória, agressiva ou inapropriada nas respostas do agente. Geralmente calculada por classificadores especializados e monitorada continuamente como guardrail de segurança.