Ressource

Bewertung der Genauigkeit des Copyleaks KI-Detektor

Eine Schritt-für-Schritt-Methodik

Testdatum: 15. Januar 2025

Veröffentlichungsdatum: 18. Februar 2025

Getestetes Modell: V8

Wir glauben, dass es wichtiger denn je ist, völlige Transparenz über die KI-Detektoren zu schaffen. Genauigkeit, Falsch-Positiv- und Falsch-Negativ-Raten, Verbesserungspotenziale und mehr, um eine verantwortungsvolle Nutzung und Akzeptanz zu gewährleisten. Diese umfassende Analyse soll vollständige Transparenz hinsichtlich der Testmethodik unseres AI Detectors V8-Modells gewährleisten.

Die Data Science- und QA-Teams von Copyleaks führten unabhängig voneinander Tests durch, um unvoreingenommene und genaue Ergebnisse zu gewährleisten. Die Testdaten unterschieden sich von den Trainingsdaten und enthielten keine Inhalte, die zuvor an den AI Detector zur KI-Erkennung übermittelt wurden.


Die Testdaten bestanden aus von Menschen verfasstem Text aus verifizierten Datensätzen und KI-generiertem Text aus verschiedenen KI-Modellen. Der Test wurde mit der Copyleaks-API durchgeführt.

Zu den Metriken gehören die Gesamtgenauigkeit basierend auf der Rate der richtigen und falschen Texterkennung, der F1-Score, die True-Negative-Rate (TNR), die True-Positive-Rate (TPR), die Genauigkeit und Konfusionsmatrizen.

Tests bestätigen, dass der AI Detector eine hohe Erkennungsgenauigkeit bei der Unterscheidung zwischen von Menschen geschriebenem und von KI-generiertem Text aufweist und gleichzeitig eine niedrige Falsch-Positiv-Rate aufweist.

Bewertungsprozess

Mithilfe eines Zwei-Abteilungen-Systems haben wir unseren Evaluierungsprozess so gestaltet, dass er höchste Qualität, Standards und Zuverlässigkeit gewährleistet. Zwei unabhängige Abteilungen evaluieren das Modell: das Data-Science- und das QA-Team. Jede Abteilung arbeitet eigenständig mit ihren Evaluierungsdaten und -tools und hat keinen Zugriff auf den Evaluierungsprozess der anderen. Diese Trennung gewährleistet unvoreingenommene, objektive und genaue Evaluierungsergebnisse, die alle Dimensionen der Leistung unseres Modells erfassen. Wichtig ist außerdem, dass die Testdaten von den Trainingsdaten getrennt sind und wir unsere Modelle nur mit neuen, bisher unbekannten Daten testen.

Methodik

Die QA- und Data-Science-Teams von Copyleaks haben unabhängig voneinander verschiedene Testdatensätze gesammelt. Jeder Testdatensatz besteht aus einer begrenzten Anzahl von Texten. Die erwartete Bezeichnung jedes Datensatzes – ein Marker, der angibt, ob ein bestimmter Text von einem Menschen oder einer KI verfasst wurde – wird anhand der Datenquelle bestimmt. Menschliche Texte wurden aus Texten gesammelt, die vor dem Aufkommen moderner generativer KI-Systeme oder später von anderen vertrauenswürdigen Quellen veröffentlicht und vom Team erneut überprüft wurden. KI-generierte Texte wurden mithilfe verschiedener generativer KI-Modelle und -Techniken generiert.


Die Tests wurden mit der Copyleaks-API durchgeführt. Wir überprüften, ob die Ausgabe der API für jeden Text basierend auf dem Ziellabel korrekt war, und aggregierten anschließend die Ergebnisse, um die Konfusionsmatrix zu berechnen.

Ergebnisse: Data Science Team

Das Data Science-Team hat den folgenden unabhängigen Test durchgeführt: 

  • Die Sprache der Texte war Englisch, und insgesamt wurden 300.000 von Menschen geschriebene Texte und 200.000 von KI generierte Texte aus verschiedenen LLMs getestet. 
  • Die Textlängen variieren, aber die Datensätze enthalten nur Texte mit einer Länge von mehr als 350 Zeichen – dem Minimum, das unser Produkt akzeptiert.

Bewertungsmetriken

Die in dieser Textklassifizierungsaufgabe verwendeten Metriken sind:

1. Verwirrungsmatrix: Eine Tabelle, die TP (wahre Positive), FP (falsche Positive), TN (wahre Negative) und FN (falsche Negative) zeigt.

2. Genauigkeit: der Anteil der wahren Ergebnisse (sowohl wahre positive als auch wahre negative) unter die Gesamtzahl der Texte die überprüft wurden.

3. TNR: Der Anteil der genauen negativen Vorhersagen in alle negativen Vorhersagen.

Im Kontext der KI-Erkennung ist TNR die Genauigkeit des Modells bei menschlichen Texten.

4. TPR (auch bekannt als Recall): Der Anteil der echten positiven Ergebnisse in alle tatsächlichen Vorhersagen.

Im Kontext der KI-Erkennung ist TPR die Genauigkeit des Modells bei KI-generierten Texten.

5. F-Beta-Score: Der gewichteter harmonischer Mittelwert zwischen Präzision und Rückruf, wobei die Präzision stärker bevorzugt wird (da wir eine niedrigere Falsch-Positiv-Rate bevorzugen möchten).

Kombinierte KI- und Human-Datensätze

Kombinierte KI- und Human-Datensätze

Ergebnisse: QA-Team

Das QA-Team hat den folgenden unabhängigen Test durchgeführt:

  • Die Sprache der Texte war Englisch, und insgesamt wurden 220.000 von Menschen geschriebene Texte und 40.000 von KI generierte Texte aus verschiedenen LLMs getestet.
  • Die Textlängen variieren, aber die Datensätze enthalten nur Texte mit einer Länge von mehr als 350 Zeichen – dem Minimum, das unser Produkt akzeptiert.

Nur von Menschen erstellte Datensätze

Nur von Menschen erstellte Datensätze

Nur-KI-Datensätze

*Modellversionen können sich im Laufe der Zeit ändern. Die Texte wurden mit einer der verfügbaren Versionen der oben genannten generativen KI-Modelle generiert.

Empfindlichkeitsstufen

Seit Version 7.1 gibt es drei Empfindlichkeitsstufen für das KI-Erkennungsmodell. Hier sind die Testergebnisse für die Empfindlichkeitsstufen des Modells v8.

Empfindlichkeitsstufen der KI-Erkennung

Genauigkeit von True Positives (KI-Texte) und True Negatives (Mensch-Texte) nach Sensitivität

Diagramm der Empfindlichkeitsstufen der KI-Erkennung mit Wahr/Falsch-Negativen

Textfehleranalyse durch Mensch und KI

Im Rahmen des Evaluierungsprozesses haben wir die vom Modell getroffenen Fehleinschätzungen identifiziert und analysiert. Der detaillierte Bericht ermöglicht es dem Data-Science-Team, die zugrundeliegenden Ursachen zu beheben. Dies geschieht, ohne dass die Fehleinschätzungen dem Data-Science-Team offengelegt werden. Alle Fehler werden systematisch protokolliert und in einem „Root-Cause-Analyse-Prozess“ nach Art und Ursache kategorisiert. Ziel ist es, die zugrundeliegenden Ursachen zu verstehen und wiederkehrende Muster zu identifizieren. Dieser Prozess ist kontinuierlich und gewährleistet die kontinuierliche Verbesserung und Anpassungsfähigkeit unseres Modells.


Ein Beispiel für einen solchen Test ist Unsere Analyse von Internetdaten von 2013 bis 2024 mithilfe unseres V4-Modells. Wir haben ab 2013 jedes Jahr eine Million Texte ausgewertet und dabei alle zwischen 2013 und 2020, also vor der Veröffentlichung von KI-Systemen, erkannten Fehlalarme verwendet, um das Modell weiter zu verbessern.

Ähnlich wie Forscher weltweit Wir testen verschiedene KI-Detektorplattformen und tun dies auch weiterhin, um ihre Fähigkeiten und Grenzen zu beurteilen. Wir empfehlen unseren Nutzern daher dringend, Tests in der Praxis durchzuführen. Sobald neue Modelle auf den Markt kommen, werden wir weiterhin die Testmethoden, die Genauigkeit und andere wichtige Aspekte bekannt geben.