Copyleaks-Forschung hat ergeben, dass fast 60% der GPT-3.5-Ausgaben irgendeine Form von plagiiertem Inhalt enthielten

New York, NY – 22. Februar 2024 Laut einer Studie aus dem Jahr 2023 BerichtBis 2026 werden fast 90% aller Online-Inhalte KI-generiert sein. Aufgrund der Sättigung mit KI-Inhalten sind Bedenken hinsichtlich der Datenverschmutzung unvermeidlich Modellzusammenbruch Bedenken hinsichtlich der Gesamtqualität und Zuverlässigkeit von KI-generierten Texten aufkommen lassen.

 

Darüber hinaus gibt es auch umfassendere Bedenken hinsichtlich der Originalität. Im Gefolge von mehrere Klagen Angesichts der Tatsache, dass KI Urheberrechte verletzt und möglicherweise plagiiert, stellen Bildungseinrichtungen und Unternehmen auf der ganzen Welt die Authentizität von KI-Texten in Frage: Woher stammen sie? Ist es sicher, sie als Originalinhalt zu verwenden?

 

Plagiiert KI letztendlich?

 

Herausfinden, Copyleaks, der führende Anbieter für Plagiatserkennung, KI-Inhaltserkennung und GenAI-Governance, führte eine Analyse durch, um zu bestimmen, inwieweit KI-generierte Inhalte originell und frei von potenziellem Plagiat sind.

 

Um diese Analyse durchzuführen:

 

Copyleaks bat GPT-3.5 zu schreiben 1.045 Ausgänge, Mittelung 412 Wörter über alle Ausgänge, in 26 Fächer: Physik, Chemie, Naturwissenschaften, Psychologie, Recht, Wirtschaftswissenschaften, Biologie, Betriebswirtschaftslehre, Ingenieurwissenschaften, Rechnungswesen, Geographie, Mathematik, Informatik, Sport, Weltgeschichte, Philosophie, Englische Sprache, Kunst, Sport, Statistik, Sozialwissenschaften, Natur, Musik, Soziologie, Geisteswissenschaften, Theater. 

 

Copyleaks ermittelte bei allen 26 Versuchspersonen die Ergebnisse mit dem höchsten Grad an identischem Text (eine eins-zu-eins-Kopie des Textes einer anderen Person, die als der eigene ausgegeben wird), geringfügigen Änderungen (Inhalte mit geringfügigen Änderungen am Ausgangsmaterial, wie etwa die Änderung eines Verbs innerhalb eines Satzes (z. B. von langsam zu langsam) und Paraphrasierung (die Idee einer anderen Person in eigenen Worten wiedergeben, ohne die ursprüngliche Quelle anzugeben). 

 

Zu den wichtigsten Ergebnissen der Analyse zählen:

 

  • 59,71 TP9T der GPT-3.5-Ausgaben enthielten irgendeine Form von plagiiertem Inhalt. 45,71 TP9T aller Ausgaben enthielten identischen Text, 27,41 TP9T enthielten geringfügige Änderungen und 46,51 TP9T enthielten paraphrasierten Text. Dies unterstreicht auch, dass GPT-3.5 keinen „brandneuen“ Text erstellt; der Großteil des Inhalts stammt aus einer früheren Quelle, was Fragen zu Plagiaten, Urheberrechten und geistigem Eigentum aufwirft.

     

  • Die einzelne GPT-3.5-Ausgabe mit dem höchsten Prozentsatz an Plagiaten stammte aus dem Bereich Physik, wo 27,01 TP9T des Textes identisch waren. Darauf folgte eine einzelne Ausgabe aus dem Bereich Chemie, wo 24,71 TP9T des Textes identisch waren.

     

  • Die Analyse untersuchte auch Ähnlichkeitswerte. Der Ähnlichkeitswert ist eine Copyleaks-spezifische Bewertungsmethode, die den Anteil identischer Texte, geringfügiger Änderungen, paraphrasierter Texte und mehr zusammenfasst. Ein Wert von 0% bedeutet, dass der gesamte Inhalt original ist, während ein Wert von 100% bedeutet, dass kein Inhalt original ist.
     
  • Das Fach mit dem höchsten durchschnittlichen Ähnlichkeitswert war Physik mit 31,31 TP9T, dicht gefolgt von Psychologie mit 27,71 TP9T und Naturwissenschaften mit 26,71 TP9T. Die Fächer mit dem niedrigsten durchschnittlichen Ähnlichkeitswert waren Theater mit 0,91 TP9T, Geisteswissenschaften mit 2,81 TP9T und Englische Sprache mit 5,41 TP9T.

     

Die Erkenntnisse aus der Analyse können Bildungseinrichtungen und Organisationen dabei helfen, bei der Plagiatsprüfung den Schwerpunkt auf bestimmte Fächer zu legen, sodass sie ihren Ansatz nach Bedarf anpassen können, um sicherzustellen, dass alle potenziellen Risiken und Bedenken berücksichtigt werden“, sagte Alon Yamin, CEO und Mitbegründer von Copyleaks. „Beispielsweise erfordern Physik, Chemie, Mathematik und Psychologie möglicherweise einen genaueren Blick, um plagiierte Texte zu identifizieren, während andere Fächer, darunter Theater und Geisteswissenschaften, weniger genau geprüft werden müssen.“

 

Yamin fügte hinzu: „Darüber hinaus unterstreichen die Daten die Notwendigkeit für Unternehmen, Lösungen zu implementieren, die das Vorhandensein von KI-generierten Inhalten erkennen und die notwendige Transparenz in Bezug auf potenzielle Plagiate in den KI-Inhalten bieten. Ein umfassender Schutz, der KI und Plagiatserkennung umfasst, gewährleistet die Einhaltung von Urheberrechten und Lizenzen und sorgt für Authentizität und Originalität aller Inhalte.“

###

Über Copyleaks

Copyleaks ist ein Unternehmen für KI-basierte Textanalyse, das sich der Schaffung sicherer Umgebungen zum Austausch von Ideen und selbstbewussten Lernen verschrieben hat. Es wird von Unternehmen, Bildungseinrichtungen und Millionen von Einzelpersonen auf der ganzen Welt genutzt, um potenzielle Plagiate in über 100 Sprachen zu identifizieren, KI-generierte Inhalte aufzudecken, einen verantwortungsvollen Einsatz generativer KI sicherzustellen, Authentizität und Eigentumsrechte zu überprüfen und fehlerfreies Schreiben zu ermöglichen.

Weitere Informationen finden Sie auf unserer Webseite oder folgen Sie uns auf LinkedIn.