Recurso

Avaliando a precisão do Copyleaks Detector de IA

Uma metodologia passo a passo

Acreditamos que seja mais importante do que nunca sermos totalmente transparentes sobre a precisão do Detector de IA, as taxas de falsos positivos e falsos negativos, as áreas de melhoria e outros aspectos para garantir o uso e a adoção responsáveis. Esta análise abrangente visa assegurar total transparência em relação à metodologia de teste do modelo V10 do nosso Detector de IA.

Data do teste: 16 de outubro de 2025

Data de publicação: 12 de novembro de 2025

Modelo testado: V10

As equipes de Ciência de Dados e Controle de Qualidade do projeto Copyleaks realizaram testes independentes para garantir resultados imparciais e precisos. Os dados de teste diferiram dos dados de treinamento e não continham nenhum conteúdo previamente submetido ao Detector de IA para detecção por IA.

Os dados de teste consistiram em texto escrito por humanos, proveniente de conjuntos de dados verificados, e texto gerado por IA a partir de diversos modelos de IA. O teste foi realizado com a API Copyleaks.

As métricas incluem a precisão geral, baseada na taxa de identificação correta e incorreta do texto, e a AUC-ROC (Característica de Operação do Receptor – Área sob a Curva), que examina as taxas de verdadeiros positivos (TVP) e de falsos positivos (TFP). Métricas adicionais incluem a pontuação F1, a taxa de verdadeiros negativos (TVN) e as matrizes de confusão.

Os testes comprovam que o Detector de IA apresenta alta precisão na detecção de textos escritos por humanos e textos gerados por IA, mantendo uma baixa taxa de falsos positivos.

Processo de avaliação

Utilizando um sistema de dois departamentos, projetamos nosso processo de avaliação para garantir qualidade, padrões e confiabilidade de alto nível. Temos dois departamentos independentes avaliando o modelo: as equipes de ciência de dados e de garantia da qualidade (QA). Cada departamento trabalha de forma independente com seus próprios dados e ferramentas de avaliação e não tem acesso ao processo de avaliação do outro. Essa separação garante que os resultados da avaliação sejam imparciais, objetivos e precisos, ao mesmo tempo que capturam todas as dimensões possíveis do desempenho do nosso modelo. Além disso, é essencial observar que os dados de teste são separados dos dados de treinamento e que testamos nossos modelos apenas com dados novos, que eles não tenham visto anteriormente.

Metodologia

As equipes de Controle de Qualidade e Ciência de Dados do projeto Copyleaks reuniram, de forma independente, diversos conjuntos de dados para testes. Cada conjunto de dados consiste em um número finito de textos. O rótulo esperado — um marcador que indica se um texto específico foi escrito por um humano ou por IA — de cada conjunto de dados é determinado com base na fonte dos dados. Os textos humanos foram coletados de publicações anteriores ao surgimento dos sistemas modernos de IA generativa ou de outras fontes confiáveis, que foram verificadas novamente pela equipe. Os textos gerados por IA foram criados utilizando diversos modelos e técnicas de IA generativa.

Os testes foram executados utilizando a API Copyleaks. Verificamos se a saída da API estava correta para cada texto com base no rótulo alvo e, em seguida, agregamos as pontuações para calcular a matriz de confusão.

Resultados: Equipe de Ciência de Dados

A equipe de Ciência de Dados realizou o seguinte teste independente:

  • O idioma dos textos era o inglês, e um total de 300.000 textos escritos por humanos e 200.000 textos gerados por IA de vários LLMs foram testados.
  • O comprimento dos textos varia, mas os conjuntos de dados contêm apenas textos com mais de 350 caracteres — o mínimo aceito pelo nosso produto.

Métricas de avaliação

As métricas utilizadas nesta tarefa de classificação de texto são:

1. Matriz de Confusão: Uma tabela que mostra os valores de TP (verdadeiros positivos), FP (falsos positivos), TN (verdadeiros negativos) e FN (falsos negativos).

2. Precisão: A proporção de resultados verdadeiros (tanto verdadeiros positivos quanto verdadeiros negativos) entre o número total de textos que foram verificadas.

3. Taxa de Verdadeiros Negativos (TNR): A proporção de casos negativos reais que Todas as previsões são negativas..

No contexto da detecção por IA, TNR (Verdadeiro Não Rastreador) é a precisão do modelo em textos escritos por humanos.

4. (TPR) também conhecido como Recall: A proporção de resultados verdadeiramente positivos em Todas as previsões reais.

No contexto da detecção por IA, a TPR (Taxa Verdadeira de Acerto) é a precisão do modelo em textos gerados por IA.

5.  Pontuação F-beta: o Média harmônica ponderada entre precisão e revocação, priorizando a precisão (pois desejamos uma menor taxa de falsos positivos).

Conjuntos de dados combinados de IA e humanos

Nome do conjunto de dados Número de textos Número de textos humanos Número de textos de IA TPR TNR F-beta(0,5)
Conjuntos de dados internos extremamente complexos, incluindo ataques adversários e ferramentas especiais. 500,000 300,000 200,000 0.988 0.999 0.997

Resultados: Equipe de Controle de Qualidade

A equipe de controle de qualidade realizou o seguinte teste independente:

  • O idioma dos textos era o inglês, e um total de 229.843 textos escritos por humanos e 18.712 textos gerados por IA de vários LLMs foram testados.
  • O comprimento dos textos varia, mas os conjuntos de dados contêm apenas textos com mais de 350 caracteres — o mínimo aceito pelo nosso produto.

Conjuntos de dados exclusivamente humanos

Nome do conjunto de dados Número de textos Identificado corretamente como Humano Identificado incorretamente como IA Precisão
Textos gerais 9,979 9,979 0 1
Artigos, notícias, blogs, publicações em redes sociais 9,991 9,982 9 0.9991
Conjunto de dados de páginas da Web da Internet 99,921 99,918 3 0.9999
Redações de estudantes 10,000 9,998 2 0.9998
Artigos acadêmicos 99,952 99,906 46 0.9995
Total: 229,843 229,783 60 0.9997

Conjuntos de dados exclusivos para IA

Nome do conjunto de dados Número de textos Identificado incorretamente como humano. Identificado corretamente como IA Precisão
Modelos da família OpenAI - outros modelos 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
Modelos da família Gemini 1,978 7 1,971 0.9964
Modelos da família Claude 1,072 1 1,071 0.9991
Modelos da família Grok 1,575 0 1,575 1
Total: 18,712 148 18,564 0.992

*As versões dos modelos podem mudar com o tempo. Os textos foram gerados usando as versões atuais disponíveis dos modelos das empresas de IA generativa acima mencionadas.

Níveis de sensibilidade

Desde a versão 7.1, temos 3 níveis de sensibilidade para o modelo de detecção por IA. Aqui estão os resultados dos testes para os níveis de sensibilidade do modelo v10.

EU IA Sensibilidade Definição Falsos Positivos Falsos negativos
1 Extra Seguro Projetado para minimizar falsos positivos através do uso de filtros adicionais baseados em detecção por IA.

Ótimo para detectar textos gerados por IA com mínima modificação humana.
0.009% 1.36%
2 Equilibrado (padrão -
esta é a versão
que é mostrado em
os resultados acima)
Ideal para detectar conteúdo de IA, minimizando falsos positivos.

Bom para detectar textos gerados por IA com um nível moderado de modificação humana.
0.026% 0.79%
3 Extra Sensível Nosso modelo mais sensível foi projetado para identificar textos gerados por IA que passaram por um "humanizador" ou gerador de texto. 0.05% 0.53%

Precisão de verdadeiros positivos (textos de IA) e verdadeiros negativos (textos humanos) por nível de sensibilidade

verdadeiros positivos
verdadeiros negativos
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
Número mínimo de falsos positivos (sensibilidade 1)
99.21%
99.97%
Equilibrado (sensibilidade 2)
99.47%
99.95%
Extremamente sensível (sensibilidade 3)
Sensibilidade

Análise de erros de texto humanos e de IA

Durante o processo de avaliação, identificamos e analisamos as avaliações incorretas feitas pelo modelo e criamos um relatório detalhado que permitirá à equipe de ciência de dados corrigir as causas subjacentes. Isso é feito sem expor as avaliações incorretas à equipe de ciência de dados. Todos os erros são registrados e categorizados sistematicamente com base em sua natureza e características em um "processo de análise de causa raiz", que visa compreender as causas subjacentes e identificar padrões recorrentes. Esse processo é contínuo, garantindo a melhoria constante e a adaptabilidade do nosso modelo ao longo do tempo.

Um exemplo desse tipo de teste é nossa análise de dados da internet de 2013 a 2024 usando nosso modelo V4. Amostramos 1 milhão de textos de cada ano, começando em 2013, usando quaisquer falsos positivos detectados de 2013 a 2020, antes do lançamento dos sistemas de IA, para ajudar a aprimorar ainda mais o modelo.

20 mil
15 mil
10 mil
5 mil
0
Número de textos sinalizados como IA
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
Ano

Semelhante a como pesquisadores em todo o mundo Testamos e continuamos a testar diferentes plataformas de detecção de IA para avaliar suas capacidades e limitações, e incentivamos nossos usuários a realizar testes em situações reais. À medida que novos modelos forem lançados, compartilharemos as metodologias de teste, a precisão e outras considerações importantes.