Ressource
Testdatum: 15. Januar 2025
Veröffentlichungsdatum: 18. Februar 2025
Getestetes Modell: V8
Wir glauben, dass es wichtiger denn je ist, völlige Transparenz über die KI-Detektoren zu schaffen. Genauigkeit, Falsch-Positiv- und Falsch-Negativ-Raten, Verbesserungspotenziale und mehr, um eine verantwortungsvolle Nutzung und Akzeptanz zu gewährleisten. Diese umfassende Analyse soll vollständige Transparenz hinsichtlich der Testmethodik unseres AI Detectors V8-Modells gewährleisten.
Die Data Science- und QA-Teams von Copyleaks führten unabhängig voneinander Tests durch, um unvoreingenommene und genaue Ergebnisse zu gewährleisten. Die Testdaten unterschieden sich von den Trainingsdaten und enthielten keine Inhalte, die zuvor an den AI Detector zur KI-Erkennung übermittelt wurden.
Die Testdaten bestanden aus von Menschen verfasstem Text aus verifizierten Datensätzen und KI-generiertem Text aus verschiedenen KI-Modellen. Der Test wurde mit der Copyleaks-API durchgeführt.
Zu den Metriken gehören die Gesamtgenauigkeit basierend auf der Rate der richtigen und falschen Texterkennung, der F1-Score, die True-Negative-Rate (TNR), die True-Positive-Rate (TPR), die Genauigkeit und Konfusionsmatrizen.
Tests bestätigen, dass der AI Detector eine hohe Erkennungsgenauigkeit bei der Unterscheidung zwischen von Menschen geschriebenem und von KI-generiertem Text aufweist und gleichzeitig eine niedrige Falsch-Positiv-Rate aufweist.
Mithilfe eines Zwei-Abteilungen-Systems haben wir unseren Evaluierungsprozess so gestaltet, dass er höchste Qualität, Standards und Zuverlässigkeit gewährleistet. Zwei unabhängige Abteilungen evaluieren das Modell: das Data-Science- und das QA-Team. Jede Abteilung arbeitet eigenständig mit ihren Evaluierungsdaten und -tools und hat keinen Zugriff auf den Evaluierungsprozess der anderen. Diese Trennung gewährleistet unvoreingenommene, objektive und genaue Evaluierungsergebnisse, die alle Dimensionen der Leistung unseres Modells erfassen. Wichtig ist außerdem, dass die Testdaten von den Trainingsdaten getrennt sind und wir unsere Modelle nur mit neuen, bisher unbekannten Daten testen.
Die QA- und Data-Science-Teams von Copyleaks haben unabhängig voneinander verschiedene Testdatensätze gesammelt. Jeder Testdatensatz besteht aus einer begrenzten Anzahl von Texten. Die erwartete Bezeichnung jedes Datensatzes – ein Marker, der angibt, ob ein bestimmter Text von einem Menschen oder einer KI verfasst wurde – wird anhand der Datenquelle bestimmt. Menschliche Texte wurden aus Texten gesammelt, die vor dem Aufkommen moderner generativer KI-Systeme oder später von anderen vertrauenswürdigen Quellen veröffentlicht und vom Team erneut überprüft wurden. KI-generierte Texte wurden mithilfe verschiedener generativer KI-Modelle und -Techniken generiert.
Die Tests wurden mit der Copyleaks-API durchgeführt. Wir überprüften, ob die Ausgabe der API für jeden Text basierend auf dem Ziellabel korrekt war, und aggregierten anschließend die Ergebnisse, um die Konfusionsmatrix zu berechnen.
Das Data Science-Team hat den folgenden unabhängigen Test durchgeführt:
Die in dieser Textklassifizierungsaufgabe verwendeten Metriken sind:
1. Verwirrungsmatrix: Eine Tabelle, die TP (wahre Positive), FP (falsche Positive), TN (wahre Negative) und FN (falsche Negative) zeigt.
2. Genauigkeit: der Anteil der wahren Ergebnisse (sowohl wahre positive als auch wahre negative) unter die Gesamtzahl der Texte die überprüft wurden.
3. TNR: Der Anteil der genauen negativen Vorhersagen in alle negativen Vorhersagen.
Im Kontext der KI-Erkennung ist TNR die Genauigkeit des Modells bei menschlichen Texten.
4. TPR (auch bekannt als Recall): Der Anteil der echten positiven Ergebnisse in alle tatsächlichen Vorhersagen.
Im Kontext der KI-Erkennung ist TPR die Genauigkeit des Modells bei KI-generierten Texten.
5. F-Beta-Score: Der gewichteter harmonischer Mittelwert zwischen Präzision und Rückruf, wobei die Präzision stärker bevorzugt wird (da wir eine niedrigere Falsch-Positiv-Rate bevorzugen möchten).
Das QA-Team hat den folgenden unabhängigen Test durchgeführt:
*Modellversionen können sich im Laufe der Zeit ändern. Die Texte wurden mit einer der verfügbaren Versionen der oben genannten generativen KI-Modelle generiert.
Seit Version 7.1 gibt es drei Empfindlichkeitsstufen für das KI-Erkennungsmodell. Hier sind die Testergebnisse für die Empfindlichkeitsstufen des Modells v8.
Genauigkeit von True Positives (KI-Texte) und True Negatives (Mensch-Texte) nach Sensitivität
Im Rahmen des Evaluierungsprozesses haben wir die vom Modell getroffenen Fehleinschätzungen identifiziert und analysiert. Der detaillierte Bericht ermöglicht es dem Data-Science-Team, die zugrundeliegenden Ursachen zu beheben. Dies geschieht, ohne dass die Fehleinschätzungen dem Data-Science-Team offengelegt werden. Alle Fehler werden systematisch protokolliert und in einem „Root-Cause-Analyse-Prozess“ nach Art und Ursache kategorisiert. Ziel ist es, die zugrundeliegenden Ursachen zu verstehen und wiederkehrende Muster zu identifizieren. Dieser Prozess ist kontinuierlich und gewährleistet die kontinuierliche Verbesserung und Anpassungsfähigkeit unseres Modells.
Ein Beispiel für einen solchen Test ist Unsere Analyse von Internetdaten von 2013 bis 2024 mithilfe unseres V4-Modells. Wir haben ab 2013 jedes Jahr eine Million Texte ausgewertet und dabei alle zwischen 2013 und 2020, also vor der Veröffentlichung von KI-Systemen, erkannten Fehlalarme verwendet, um das Modell weiter zu verbessern.
Ähnlich wie Forscher weltweit Wir testen verschiedene KI-Detektorplattformen und tun dies auch weiterhin, um ihre Fähigkeiten und Grenzen zu beurteilen. Wir empfehlen unseren Nutzern daher dringend, Tests in der Praxis durchzuführen. Sobald neue Modelle auf den Markt kommen, werden wir weiterhin die Testmethoden, die Genauigkeit und andere wichtige Aspekte bekannt geben.
Alle Rechte vorbehalten. Durch die Nutzung dieser Website stimmen Sie dem zu Nutzungsbedingungen.