Wir legen größten Wert auf volle Transparenz hinsichtlich der Genauigkeit unseres Textmoderationsmodells, der Raten falsch positiver und falsch negativer Ergebnisse, der Verbesserungspotenziale und weiterer Aspekte, um eine verantwortungsvolle Nutzung und breite Akzeptanz zu gewährleisten. Diese umfassende Analyse zielt darauf ab, die Testmethodik unseres Textmoderationsmodells vollständig transparent darzustellen.
Testdatum: 29. Juni 2025
Veröffentlichungsdatum: 16. September 2025
Getestetes Modell: V1
Das Copyleaks Text Moderation Model v1 wurde einer verblindeten, von zwei Teams durchgeführten Evaluierung anhand von insgesamt 120.000 englischen Texten (50%-Verletzer, 50%-Nichtverletzer) unterzogen, die vollständig vom Trainingsdatensatz getrennt waren.
Die Auswertung zeigt, dass das Modell schädliche Inhalte mit sehr hoher Treffsicherheit identifizieren kann, während harmlose Texte fast nie fälschlicherweise als unschädlich eingestuft werden.
Bei der Verarbeitung des identischen Datensatzes durch drei führende kommerzielle Moderations-APIs (OpenAI, Azure und Google) mit ihren Standard-Schwellenwerten erzeugte Copyleaks weniger falsch positive und falsch negative Ergebnisse, mit einem Vorteil von 4% gegenüber 30% bei allen wichtigen Kennzahlen.
Kennzahlen (QA-Testdatensatz, N = 20.000)
Um ein unvoreingenommenes Bild der Modellleistung zu erhalten, wurde eine verblindete Zweier-Evaluierung durchgeführt. Die Data-Science- und QA-Teams arbeiteten vollständig unabhängig voneinander, d. h. auf unterschiedlichen Rechnern, mit unterschiedlichen Skripten und ohne gemeinsame Daten.
Data-Science-Testset
QA-Testset
Der Data-Science-Datensatz wurde strikt von den ursprünglichen Trainingskorpora getrennt. Der QA-Datensatz umfasst Passagen, die gezielt nach dem Modelltraining erstellt wurden; diese Texte wurden während des Trainings nie verwendet und stammen nicht aus den Trainingskorpora.
Für die Moderationskategorien wurden folgende Definitionen verwendet:
Die in dieser Textmoderationsaufgabe verwendeten Metriken sind:
1. KonfusionsmatrixEine Tabelle, die die Leistung des Modells zusammenfasst und Folgendes anzeigt:
2. GenauigkeitDer Anteil der korrekt klassifizierten Fälle (sowohl der richtig positiven als auch der richtig negativen) an der Gesamtzahl der ausgewerteten Texte.
3. Richtig-Negativ-Rate (TNR)Der Anteil der tatsächlich negativen Fälle, die korrekt als negativ identifiziert werden. Im Kontext der Textmoderation misst TNR die Leistung des Modells bei nicht regelwidrigen Texten.
4. Trefferquote (TPR) / RückrufquoteDer Anteil der tatsächlich positiven Fälle, die korrekt als positiv identifiziert wurden. Im Kontext der Textmoderation misst TPR die Leistung des Modells bei Texten, die gegen die Richtlinien verstoßen.
5. PräzisionDie Präzision gibt den Anteil korrekt vorhergesagter positiver Beobachtungen an allen positiven Vorhersagen an. Im Kontext der Textmoderation misst die Präzision die Zuverlässigkeit des Modells bei der Kennzeichnung von Inhalten; sie zeigt an, wie viele der vom Modell als regelwidrig identifizierten Texte tatsächlich moderiert wurden.
6. F-Beta-WertEs handelt sich um ein gewichtetes harmonisches Mittel aus Präzision und Trefferquote, wobei der Beta-Parameter so eingestellt ist, dass er die Präzision bevorzugt. Diese Priorisierung trägt dazu bei, eine niedrigere Falsch-Positiv-Rate zu erreichen.
Data-Science-Team
Konfusionsmatrix
QA-Team
Zusammenfassung der QA-Testmetriken:
Gesamtgenauigkeit: 0.9923
Präzision: 0.9997
Abrufen: 0.9848
F-Beta (β = 0,5): 0.9967
Direkter Vergleich