Ressource

Évaluation de la précision du Copyleaks Détecteur IA

Une méthodologie étape par étape

Nous sommes convaincus qu'il est plus important que jamais d'être totalement transparents quant à la précision de notre détecteur d'IA, ses taux de faux positifs et de faux négatifs, ses axes d'amélioration, et bien plus encore, afin de garantir une utilisation et une adoption responsables. Cette analyse approfondie vise à assurer une transparence totale concernant la méthodologie de test du modèle V10 de notre détecteur d'IA.

Date du test : 16 octobre 2025

Date de publication : 12 novembre 2025

Modèle testé : V10

Les équipes de science des données et d'assurance qualité de Copyleaks ont effectué des tests de manière indépendante pour garantir des résultats impartiaux et précis. Les données de test différaient des données de formation et ne contenaient aucun contenu précédemment soumis au détecteur d'IA pour la détection d'IA.

Les données de test comprenaient du texte écrit par l'homme provenant d'ensembles de données vérifiés et du texte généré par l'IA à partir de divers modèles d'IA. Le test a été réalisé avec l'API Copyleaks.

Les indicateurs comprennent la précision globale, basée sur le taux d'identification correcte et incorrecte du texte, et l'aire sous la courbe ROC (Receiver Operating Characteristic – Area Under the Curve), qui examine les taux de vrais positifs (TPR) et de faux positifs (FPR). Parmi les autres indicateurs figurent le score F1, le taux de vrais négatifs (TNR) et les matrices de confusion.

Les tests vérifient que le détecteur d’IA affiche une précision de détection élevée pour distinguer le texte écrit par l’homme du texte généré par l’IA tout en maintenant un faible taux de faux positifs.

Processus d'évaluation

Notre processus d'évaluation, basé sur un système à deux départements, garantit un niveau de qualité, de normes et de fiabilité optimal. Deux départements indépendants évaluent le modèle : l'équipe de science des données et l'équipe d'assurance qualité. Chaque département travaille indépendamment avec ses propres données et outils d'évaluation et n'a pas accès au processus d'évaluation de l'autre. Cette séparation assure l'impartialité, l'objectivité et la précision des résultats, tout en couvrant l'ensemble des performances de notre modèle. Il est également essentiel de noter que les données de test sont distinctes des données d'entraînement et que nos modèles sont testés uniquement sur des données nouvelles, jamais utilisées auparavant.

Méthodologie

Les équipes d'assurance qualité et de science des données de Copyleaks ont constitué indépendamment divers jeux de données de test. Chaque jeu de données comprend un nombre fini de textes. L'étiquette attendue – un marqueur indiquant si un texte a été écrit par un humain ou par une IA – est déterminée pour chaque jeu de données en fonction de sa source. Les textes écrits par des humains proviennent de publications antérieures à l'avènement des systèmes d'IA génératifs modernes ou de sources plus récentes et fiables, vérifiées par l'équipe. Les textes générés par l'IA ont été produits à l'aide de différents modèles et techniques d'IA générative.

Les tests ont été exécutés sur l'API Copyleaks. Nous avons vérifié si la sortie de l'API était correcte pour chaque texte en fonction de l'étiquette cible, puis nous avons agrégé les scores pour calculer la matrice de confusion.

Résultats : Équipe Data Science

L'équipe de science des données a réalisé le test indépendant suivant :

  • Les textes étaient rédigés en anglais et, au total, 300 000 textes écrits par des humains et 200 000 textes générés par l’IA provenant de divers LLM ont été testés.
  • La longueur des textes varie, mais les ensembles de données ne contiennent que des textes de plus de 350 caractères, soit le minimum accepté par notre produit.

Mesures d'évaluation

Les métriques utilisées dans cette tâche de classification de texte sont :

1. Matrice de confusion : Un tableau qui présente les TP (vrais positifs), les FP (faux positifs), les TN (vrais négatifs) et les FN (faux négatifs).

2. Précision : La proportion de résultats corrects (vrais positifs et vrais négatifs) parmi le nombre total de textes qui ont été vérifiés.

3. Taux de vrais négatifs (TNR) : La proportion de cas négatifs réels qui sont toutes les prédictions négatives.

Dans le contexte de la détection de l'IA, le TNR est la précision du modèle sur les textes humains.

4. (TPR) également connu sous le nom de rappel : La proportion de résultats vrais positifs dans toutes les prédictions réelles.

Dans le contexte de la détection de l'IA, le TPR est la précision du modèle sur les textes générés par l'IA.

5.  Score F-bêta : La moyenne harmonique pondérée entre la précision et le rappel, en privilégiant davantage la précision (car nous souhaitons privilégier un taux de faux positifs plus faible).

Ensembles de données combinées IA et humaines

Nom du jeu de données Nombre de textes Nombre de textes humains Nombre de textes IA TPR TNR F-bêta(0,5)
des ensembles de données internes extrêmement difficiles, comprenant des attaques adverses et des outils spéciaux 500,000 300,000 200,000 0.988 0.999 0.997

Résultats : équipe d'assurance qualité

L'équipe d'assurance qualité a effectué le test indépendant suivant :

  • La langue des textes était l'anglais, et 229 843 textes écrits par des humains et 18 712 textes générés par l'IA provenant de divers LLM ont été testés au total.
  • La longueur des textes varie, mais les ensembles de données ne contiennent que des textes de plus de 350 caractères, soit le minimum accepté par notre produit.

Ensembles de données réservés aux humains

Nom du jeu de données Nombre de textes Identifié correctement comme humain Identifié à tort comme une IA Précision
Textes généraux 9,979 9,979 0 1
Articles, actualités, blogs, publications sur les réseaux sociaux 9,991 9,982 9 0.9991
Ensemble de données des pages Web Internet 99,921 99,918 3 0.9999
Essais d'étudiants 10,000 9,998 2 0.9998
Articles scientifiques 99,952 99,906 46 0.9995
Total: 229,843 229,783 60 0.9997

Ensembles de données réservés à l'IA

Nom du jeu de données Nombre de textes Identifié à tort comme humain Identifié correctement comme IA Précision
Modèles de la famille OpenAI - autres modèles 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
Modèles de la famille Gémeaux 1,978 7 1,971 0.9964
Modèles de la famille Claude 1,072 1 1,071 0.9991
Modèles de la famille Grok 1,575 0 1,575 1
Total: 18,712 148 18,564 0.992

*Les versions des modèles peuvent évoluer. Les textes ont été générés à partir des versions actuelles des modèles fournis par les sociétés d'IA générative mentionnées ci-dessus.

Niveaux de sensibilité

Depuis la version 7.1, notre modèle de détection par IA propose trois niveaux de sensibilité. Voici les résultats des tests effectués avec les niveaux de sensibilité du modèle v10.

IDENTIFIANT Sensibilité Définition faux positifs faux négatifs
1 Sécurité renforcée Conçu pour minimiser les faux positifs grâce à l'utilisation de filtres supplémentaires basés sur la détection par IA.

Idéal pour détecter les textes générés par l'IA avec un minimum de modifications humaines.
0.009% 1.36%
2 Équilibré (par défaut -
Voici la version
qui est montré dans
(les résultats ci-dessus)
Idéal pour détecter le contenu d'IA tout en minimisant les faux positifs.

Idéal pour détecter les textes générés par l'IA avec un niveau modéré de modifications humaines.
0.026% 0.79%
3 Extra sensible Notre modèle le plus sensible a été conçu pour repérer les textes générés par l'IA qui avaient été traités par un " humaniseur " ou un outil de réécriture de texte. 0.05% 0.53%

Précision des vrais positifs (textes générés par l'IA) et des vrais négatifs (textes rédigés par des humains) selon le niveau de sensibilité

vrais positifs
vrais négatifs
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
Taux de faux positifs minimum (sensibilité 1)
99.21%
99.97%
Équilibré (sensibilité 2)
99.47%
99.95%
Extra-sensible (sensibilité 3)
Sensibilité

Analyse des erreurs de texte par l'homme et l'IA

Lors de l'évaluation, nous avons identifié et analysé les erreurs d'évaluation du modèle et rédigé un rapport détaillé permettant à l'équipe de data science d'en corriger les causes profondes. Ces erreurs restent confidentielles et ne sont jamais communiquées à l'équipe de data science. Toutes les erreurs sont systématiquement consignées et catégorisées selon leur nature et leur pertinence dans le cadre d'une analyse des causes profondes, visant à comprendre les causes sous-jacentes et à identifier les schémas récurrents. Ce processus continu garantit l'amélioration et l'adaptabilité constantes de notre modèle.

Un exemple d’un tel test est notre analyse Nous avons analysé des données Internet de 2013 à 2024 à l'aide de notre modèle V4. Nous avons échantillonné 1 million de textes par an, à partir de 2013, en tenant compte des faux positifs détectés entre 2013 et 2020, avant le déploiement des systèmes d'IA, afin d'améliorer encore le modèle.

20k
15k
10k
5k
0
Nombre de textes signalés comme IA
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
Année

Similaire à la façon dont chercheurs du monde entier Nous avons testé et continuons de tester différentes plateformes de détection d'IA pour évaluer leurs capacités et leurs limites. Nous encourageons donc vivement nos utilisateurs à effectuer des tests en conditions réelles. En fin de compte, à mesure que de nouveaux modèles seront commercialisés, nous continuerons de partager les méthodologies de test, la précision et d'autres considérations importantes à prendre en compte.