Recurso

Avaliando a precisão do Copyleaks Detector de IA

Uma metodologia passo a passo

Data do teste: 25 de maio de 2024

Modelo testado: V5

Acreditamos que é mais importante do que nunca ser totalmente transparente sobre o AI Detector precisão, as taxas de falsos positivos e falsos negativos, áreas de melhoria e muito mais para garantir o uso e adoção responsáveis. Esta análise abrangente visa garantir total transparência em torno da metodologia de teste do modelo V5 do nosso AI Detector.

Metodologia

As equipes de ciência de dados e controle de qualidade do Copyleaks realizaram testes de forma independente para garantir resultados imparciais e precisos. Os dados de teste diferiam dos dados de treinamento e não continham conteúdo enviado anteriormente ao AI Detector para detecção de IA.

Os dados de teste consistiram em texto escrito por humanos proveniente de conjuntos de dados verificados e texto gerado por IA de vários modelos de IA. O teste foi realizado com a API Copyleaks.

Métricas

As métricas incluem precisão geral com base na taxa de identificação de texto correta e incorreta, além do ROC-AUC (Receiver Operating Characteristic – Area Under the Curve), que examina taxas de verdadeiros positivos (TPR) e taxas de falsos positivos (FPR). Métricas adicionais incluem pontuação F1, taxa negativa verdadeira (TNR), precisão e matrizes de confusão.

Resultados

Os testes verificam se o AI Detector exibe uma alta precisão de detecção para distinguir entre texto escrito por humanos e texto gerado por IA, mantendo uma baixa taxa de falsos positivos. 

Processo de avaliação

Usando um sistema de departamento duplo, projetamos nosso processo de avaliação para garantir qualidade, padrões e confiabilidade de alto nível. Temos dois departamentos independentes avaliando o modelo: as equipes de ciência de dados e de controle de qualidade. Cada departamento trabalha de forma independente com seus dados e ferramentas de avaliação e não tem acesso ao processo de avaliação do outro. Essa separação garante que os resultados da avaliação sejam imparciais, objetivos e precisos, ao mesmo tempo que captura todas as dimensões possíveis do desempenho do nosso modelo. Além disso, é essencial observar que os dados de teste são separados dos dados de treinamento e apenas testamos nossos modelos em novos dados que eles não viram no passado.

Metodologia

As equipes de controle de qualidade e ciência de dados da Copyleaks reuniram de forma independente uma variedade de conjuntos de dados de teste. Cada conjunto de dados de teste consiste em um número finito de textos. O rótulo esperado – um marcador que indica se um texto específico foi escrito por um ser humano ou por IA – de cada conjunto de dados é determinado com base na fonte dos dados. Os textos humanos foram coletados de textos publicados antes do surgimento dos modernos sistemas generativos de IA ou posteriormente por outras fontes confiáveis que foram verificadas novamente pela equipe. Os textos gerados por IA foram gerados usando uma variedade de modelos e técnicas generativas de IA.

Os testes foram executados na API Copyleaks. Verificamos se a saída da API estava correta para cada texto com base no rótulo de destino e, em seguida, agregamos as pontuações para calcular a matriz de confusão.

Resultados: Equipe de Ciência de Dados

A equipe de Data Science conduziu o seguinte teste independente: 

  • O idioma dos textos era o inglês, e 250.030 textos escritos por humanos e 123.244 textos gerados por IA de vários LLMs foram testados no total. 

  • O comprimento do texto varia, mas os conjuntos de dados contêm apenas textos com comprimento superior a 350 caracteres – o mínimo que nosso produto aceita.

Métricas de avaliação

As métricas usadas nesta tarefa de classificação de texto são:

1. Matriz de confusão: tabela que mostra TP (verdadeiros positivos), FP (falsos positivos), TN (verdadeiros negativos) e FN (falsos negativos).

2. Precisão: a proporção de resultados verdadeiros (verdadeiros positivos e verdadeiros negativos) entre o número total de textos que foram verificados.

3. TNR: A proporção de previsões negativas precisas em todas as previsões negativas.

No contexto da detecção de IA, o TNR é a precisão do modelo em textos humanos.

4. TPR (também conhecido como Recall): A proporção de resultados verdadeiros positivos em todas as previsões reais.

No contexto da detecção de IA, TPR é a precisão do modelo em textos gerados por IA.

5. Pontuação F-beta: O média harmônica ponderada entre precisão e recall, favorecendo mais a precisão (já que queremos favorecer uma taxa de falsos positivos mais baixa).

6. ROC-AUC: Avaliação do troca entre TPR e FPR.

Conjuntos de dados combinados de IA e humanos

Resultados: Equipe de controle de qualidade

A equipe de controle de qualidade conduziu o seguinte teste independente:

  • O idioma do texto era o inglês, e 320.000 textos escritos por humanos e 162.500 textos gerados por IA de vários LLMs foram testados no total.

  • O comprimento do texto varia, mas os conjuntos de dados contêm apenas textos com comprimento superior a 350 caracteres – o mínimo que nosso produto aceita.

Conjuntos de dados somente humanos

Gráfico de dados para conjuntos de dados apenas humanos

Conjuntos de dados somente IA

Gráfico de conjuntos de dados apenas de IA

*As versões dos modelos podem mudar com o tempo. Os textos foram gerados usando uma das versões disponíveis dos modelos generativos de IA acima.

Análise de erros de texto humanos e de IA

Durante o processo de avaliação, identificamos e analisamos os erros cometidos pelo modelo e produzimos um relatório detalhado que permitirá à equipe de ciência de dados corrigir as causas subjacentes desses erros. Isso é feito sem expor os próprios erros à equipe de ciência de dados. Todos os erros são sistematicamente registados e categorizados com base no seu caráter e natureza num “processo de análise de causa raiz”, que visa compreender as causas subjacentes e identificar padrões repetidos. Este processo é sempre contínuo, garantindo a melhoria e adaptabilidade do nosso modelo ao longo do tempo.

Um exemplo de tal teste é nossa análise de dados da Internet de 2013 a 2024 usando nosso modelo V4. CForam amostrados 1 milhão de textos de cada ano, começando em 2013, usando quaisquer falsos positivos detectados de 2013 a 2020, antes do lançamento dos sistemas de IA, para ajudar a melhorar ainda mais o modelo.

Semelhante a como pesquisadores em todo o mundo temos e continuamos a testar diferentes plataformas de detectores de IA para avaliar suas capacidades e limitações, incentivamos totalmente nossos usuários a realizar testes no mundo real. Em última análise, à medida que novos modelos forem lançados, continuaremos a compartilhar as metodologias de teste, a precisão e outras considerações importantes que você deve conhecer.