Acreditamos ser de extrema importância sermos totalmente transparentes sobre a precisão do nosso Modelo de Moderação de Texto, as taxas de falsos positivos e falsos negativos, áreas de melhoria e outros aspectos para garantir o uso e a adoção responsáveis. Esta análise abrangente visa assegurar total transparência em relação à metodologia de teste do nosso Modelo de Moderação de Texto.
Data do teste: 29 de junho de 2025
Data de publicação: 16 de setembro de 2025
Modelo testado: V1
O modelo de moderação de texto Copyleaks v1 foi submetido a uma avaliação cega por duas equipes em um total de 120.000 textos em inglês (50% violadores, 50% não violadores) que foram completamente separados do conjunto de dados de treinamento.
A avaliação demonstra que o modelo consegue identificar conteúdo prejudicial com uma taxa de acerto muito alta, enquanto quase nunca sinaliza textos inocentes.
Quando o mesmo conjunto de dados foi processado por meio de três APIs de moderação comerciais líderes (OpenAI, Azure e Google) em seus limites padrão, o Copyleaks produziu menos falsos positivos e falsos negativos, com uma vantagem de 4% a 30% em todas as principais métricas.
Principais indicadores (conjunto de teste de controle de qualidade, N = 20.000)
Foi realizada uma avaliação cega por duas equipes, a fim de obter uma visão imparcial do desempenho do modelo. As equipes de Ciência de Dados e de Garantia da Qualidade trabalharam de forma totalmente isolada, utilizando máquinas diferentes, scripts distintos e sem compartilhamento de dados.
Conjunto de testes de ciência de dados
Conjunto de testes de controle de qualidade
O conjunto de dados de Ciência de Dados foi estritamente separado dos corpora originais usados para treinamento. O conjunto de perguntas e respostas (QA) compreende trechos criados intencionalmente após o treinamento do modelo; esses textos nunca foram vistos durante o treinamento e não foram extraídos dos corpora de treinamento.
As seguintes definições foram utilizadas para as categorias de moderação:
As métricas utilizadas nesta tarefa de moderação de texto são:
1. Matriz de ConfusãoUma tabela que resume o desempenho do modelo, exibindo:
2. PrecisãoProporção de instâncias classificadas corretamente (tanto verdadeiros positivos quanto verdadeiros negativos) em relação ao número total de textos avaliados.
3. Taxa de Verdadeiros Negativos (TVN)A proporção de instâncias negativas reais que são corretamente identificadas como negativas. No contexto da Moderação de Texto, o TNR mede o desempenho do modelo em textos que não violam as regras.
4. Taxa de Verdadeiros Positivos (TVP) / RecallA proporção de instâncias positivas reais que são corretamente identificadas como positivas. No contexto da Moderação de Texto, a TPR mede o desempenho do modelo em textos que violam as regras.
5. PrecisãoA precisão representa a proporção de observações positivas previstas corretamente em relação ao total de previsões positivas. No contexto da moderação de texto, a precisão mede a confiabilidade do modelo ao sinalizar conteúdo; ela indica quantos textos identificados como violadores pelo modelo foram de fato moderados.
6. Pontuação F-betaUma média harmônica ponderada de precisão e revocação, onde o parâmetro beta é definido para favorecer a precisão. Essa priorização ajuda a alcançar uma taxa de falsos positivos menor.
Equipe de Ciência de Dados
Matriz de Confusão
Equipe de controle de qualidade
Resumo das métricas de teste de controle de qualidade:
Precisão geral: 0.9923
Precisão: 0.9997
Lembrar: 0.9848
F-beta (β = 0,5): 0.9967
Comparação direta