Nous sommes convaincus qu'il est plus important que jamais d'être totalement transparents quant à la précision de notre détecteur d'images IA, notamment en ce qui concerne les taux de faux positifs et de faux négatifs, ainsi que les axes d'amélioration, afin de garantir une utilisation et une adoption responsables. Cette analyse approfondie vise à présenter en détail la méthodologie de test de notre modèle de détecteur d'images IA V1.
Notre modèle est conçu pour détecter les parties d'une image manipulées par l'IA en superposant les zones détectées. Les tests confirment que le détecteur d'images par IA atteint une grande précision de détection pour distinguer les photos authentiques prises par des humains des images générées ou manipulées par l'IA, tout en maintenant un taux de faux positifs extrêmement faible.
Date du test : 1er septembre 2025
Date de publication : 15 octobre 2025
Modèle testé : V1
Notre processus d'évaluation, basé sur un système à deux équipes, garantit une qualité, des normes et une fiabilité optimales. Deux départements indépendants évaluent le modèle : l'équipe de science des données et l'équipe d'assurance qualité. Chaque équipe travaille indépendamment avec ses propres données et outils d'évaluation et n'a pas accès au processus d'évaluation de l'autre. Cette séparation assure l'impartialité, l'objectivité et la précision des résultats. Il est également essentiel de noter que toutes les données de test sont strictement séparées des données d'entraînement ; nos modèles sont testés uniquement sur des données nouvelles.
Pour la détection d'images par IA, nous proposons plusieurs variantes de modèles. Ultra Ce modèle offre le plus haut niveau de précision, réalisant une analyse complète idéale pour les situations où la précision est cruciale.
Les équipes d'assurance qualité et de science des données du projet Copyleaks ont collecté et créé indépendamment divers jeux de données de test. Chaque jeu de données est composé d'un nombre fini d'images, chacune accompagnée d'une étiquette indiquant son origine. Les jeux de données sont divisés en deux catégories :
Des images générées par IA ont été créées à l'aide d'une grande variété de modèles d'IA génératifs. Les tests ont été exécutés sur l'API Copyleaks, et nous avons agrégé les scores pour calculer les performances du modèle.
L'évaluation a été réalisée exclusivement sur des images répondant aux exigences techniques du produit : une dimension minimale de 512×512 pixels, une taille de fichier inférieure à 32 Mo et une résolution inférieure à 16 mégapixels, telles que définies dans la documentation.
Le produit effectue une prédiction sous forme de superposition des segments générés par l'IA. La performance globale est ensuite évaluée en fonction de la précision avec laquelle le modèle classe les images par rapport à leur catégorie de référence.
Pour fournir une mesure claire et fiable de la précision, nous utilisons différentes métriques au niveau du pixel en fonction du type d'image testée :
Les chiffres de précision globale présentés dans le Résultats des tables, telles que TNR (Précision humaine) et TPR (IA), sont agrégés à partir de ces critères de réussite au niveau du pixel. Par exemple, le TNR est le pourcentage de toutes les images de personnes testées qui ont satisfait aux critères. <5% Seuil de pixels faux positifs.
L'équipe de science des données a mené le test indépendant suivant sur un vaste ensemble de données diversifié contenant des images de résolutions, d'appareils de capture, de générateurs d'images et de types de contenu variés.
| Nom du jeu de données | Images humaines (n=31 374) | Images IA (n=33 947) |
|---|---|---|
| Précision " Ultra " | 99.3% | 99.2% |
L'équipe d'assurance qualité a mené un test indépendant à l'aide d'images créées spécifiquement pour l'évaluation après l'entraînement du modèle. L'ensemble de données de test comprend des images de résolutions variées, capturées par différents appareils, générées par divers générateurs d'images et présentant des types de contenu diversifiés.
| Nom du jeu de données | Images humaines (n=10 000) | Images IA (n=10 000) |
|---|---|---|
| Précision " Ultra " | 99.98% | 99.87% |
Au cours du processus d'évaluation, nous identifions et analysons les évaluations erronées afin de permettre à l'équipe de science des données d'en corriger les causes profondes. Toutes les erreurs sont systématiquement consignées et catégorisées selon leur nature et leur pertinence dans le cadre d'une analyse des causes profondes. Ce processus vise à comprendre les causes sous-jacentes des erreurs et à identifier les schémas récurrents, garantissant ainsi l'amélioration continue et l'adaptabilité de notre modèle. Ces enseignements servent à affiner les versions futures du modèle.
Bien que notre modèle atteigne des résultats de pointe, aucun système de détection n'est parfait et notre modèle peut commettre des erreurs, comme par exemple mal classer un ensemble de pixels spécifique.
Le détecteur d'images IA est spécifiquement entraîné à identifier les manipulations à partir de outils d'IA générative. Le système ne détecte actuellement pas d'autres altérations d'image courantes, notamment :