La recherche Copyleaks révèle que près de 60% des sorties GPT-3.5 contenaient une forme de contenu plagié

New York, New York – 22 février 2024 Selon un 2023 rapport, d’ici 2026, près de 90% de tout le contenu en ligne sera généré par l’IA. En raison de la saturation du contenu de l'IA, des préoccupations concernant la pollution des données et l'inévitable effondrement du modèle soulèvent des inquiétudes quant à la qualité et à la fiabilité globales du texte généré par l’IA.

 

En outre, des préoccupations plus larges concernant l’originalité ont également commencé. À la suite de plusieurs procès Concernant l’IA violant le droit d’auteur et potentiellement plagiée, les établissements d’enseignement et les entreprises du monde entier remettent en question l’authenticité du texte de l’IA : d’où vient-il ? Est-il sûr d'utiliser comme contenu original

 

Finalement, l’IA plagie-t-elle ?

 

Découvrir, Copyleaks, le leader de l'identification du plagiat, de la détection de contenu IA et de la gouvernance GenAI, a mené une analyse pour déterminer dans quelle mesure le contenu généré par l’IA est original et exempt de plagiat potentiel.

 

Pour réaliser cette analyse :

 

Copyleaks a demandé à GPT-3.5 d'écrire 1 045 sorties, en faisant la moyenne 412 mots sur toutes les sorties, dans 26 sujets: Physique, Chimie, Science, Psychologie, Droit, Économie, Biologie, Études commerciales, Ingénierie, Comptabilité, Géographie, Mathématiques, Informatique, Sports, Histoire du monde, Philosophie, Langue anglaise, Art, Éducation physique, Statistiques, Sciences sociales, Nature , Musique, Sociologie, Sciences Humaines, Théâtre. 

 

Copyleaks a évalué les résultats spécifiques avec les niveaux les plus élevés de texte identique (une copie un pour un du texte de quelqu'un d'autre qui est fait passer pour le vôtre), des changements mineurs (contenu avec des modifications mineures du matériel source, comme la modification d'un verbe dans une phrase (par exemple, de lent à lentement) et la paraphrase (mettre l'idée de quelqu'un d'autre dans vos propres mots sans créditer la source originale) dans les 26 sujets. 

 

Les principales conclusions de l’analyse comprennent :

 

  • 59.7% des sorties GPT-3.5 contenaient une certaine forme de contenu plagié. 45.7% de toutes les sorties contenaient un texte identique, 27.4% contenait des modifications mineures et 46.5% avait un texte paraphrasé. Cela souligne également que GPT-3.5 ne fabrique pas de texte « flambant neuf » ; la plupart du contenu provient d'une source antérieure, ce qui soulève des problèmes de plagiat, de droit d'auteur et de propriété intellectuelle.

     

  • Le résultat individuel GPT-3.5 avec le pourcentage de plagiat le plus élevé était en physique, où 27.0% du texte était identique. Cela a été suivi d'une sortie individuelle de chimie où 24,7% du texte était identique.

     

  • L'analyse a également examiné les scores de similarité. Le score de similarité est une méthode de notation spécifique à Copyleaks regroupant le taux de texte identique, de modifications mineures, de texte paraphrasé, etc. Un score de 0% signifie que tout le contenu est original, tandis qu'un score de 100% signifie qu'aucun contenu n'est original.
     
  • Le sujet avec le score de similarité moyen le plus élevé était la physique à 31,3%, suivi de près par la psychologie à 27,7% et les sciences à 26,7%. Les matières avec le score de similarité moyen le plus bas étaient le théâtre à 0,9%, les sciences humaines à 2,8% et la langue anglaise à 5,4%.

     

Les informations fournies par l'analyse peuvent aider les établissements d'enseignement et les organisations à mettre l'accent sur certains sujets lors de la vérification du plagiat, leur permettant ainsi d'adapter leur approche si nécessaire pour garantir que tous les risques et préoccupations potentiels sont pris en compte », a déclaré Alon Yamin, PDG et co-fondateur. de Copyleaks. "Par exemple, la physique, la chimie, les mathématiques et la psychologie pourraient nécessiter un examen plus approfondi pour identifier les textes plagiés, tandis que d'autres matières, notamment le théâtre et les sciences humaines, pourraient nécessiter moins d'examen."

 

Yamin a ajouté : « En outre, les données soulignent la nécessité pour les organisations d'adopter des solutions qui détectent la présence de contenu généré par l'IA et fournissent la transparence nécessaire concernant le plagiat potentiel dans le contenu de l'IA. Une protection à spectre complet qui inclut l’IA et la détection du plagiat garantit le respect des droits d’auteur et des licences et renforce l’authenticité et l’originalité de tous les contenus.

###

À propos de Copyleaks

Dédiée à la création d'environnements sécurisés pour partager des idées et apprendre en toute confiance, Copyleaks est une société d'analyse de texte basée sur l'IA utilisée par des entreprises, des établissements d'enseignement et des millions de personnes à travers le monde pour identifier le plagiat potentiel dans plus de 100 langues, découvrir le contenu généré par l'IA, garantir l’adoption responsable de l’IA générative, vérifier l’authenticité et la propriété et permettre une rédaction sans erreur.

Pour plus d'informations, visitez notre Site web ou suivez-nous sur LinkedIn.