Bewertung der Genauigkeit der Copyleaks-Textmoderation

Eine detaillierte Methodik

Wir legen größten Wert auf volle Transparenz hinsichtlich der Genauigkeit unseres Textmoderationsmodells, der Raten falsch positiver und falsch negativer Ergebnisse, der Verbesserungspotenziale und weiterer Aspekte, um eine verantwortungsvolle Nutzung und breite Akzeptanz zu gewährleisten. Diese umfassende Analyse zielt darauf ab, die Testmethodik unseres Textmoderationsmodells vollständig transparent darzustellen.

Testdatum: 29. Juni 2025

Veröffentlichungsdatum: 16. September 2025

Getestetes Modell: V1

Zusammenfassung

Das Copyleaks Text Moderation Model v1 wurde einer verblindeten, von zwei Teams durchgeführten Evaluierung anhand von insgesamt 120.000 englischen Texten (50%-Verletzer, 50%-Nichtverletzer) unterzogen, die vollständig vom Trainingsdatensatz getrennt waren. 

Die Auswertung zeigt, dass das Modell schädliche Inhalte mit sehr hoher Treffsicherheit identifizieren kann, während harmlose Texte fast nie fälschlicherweise als unschädlich eingestuft werden. 

Bei der Verarbeitung des identischen Datensatzes durch drei führende kommerzielle Moderations-APIs (OpenAI, Azure und Google) mit ihren Standard-Schwellenwerten erzeugte Copyleaks weniger falsch positive und falsch negative Ergebnisse, mit einem Vorteil von 4% gegenüber 30% bei allen wichtigen Kennzahlen.

 

Kennzahlen (QA-Testdatensatz, N = 20.000)  

  • Genauigkeit: 99,23 %  
  • Präzision: 99,97 % (3 falsch positive Ergebnisse in 10.000 nicht verletzenden Texten)  
  • Rückruf (TPR): 98.48 %  
  • F-Beta(0,5)-Wert: 99,67 %

Methodik

Um ein unvoreingenommenes Bild der Modellleistung zu erhalten, wurde eine verblindete Zweier-Evaluierung durchgeführt. Die Data-Science- und QA-Teams arbeiteten vollständig unabhängig voneinander, d. h. auf unterschiedlichen Rechnern, mit unterschiedlichen Skripten und ohne gemeinsame Daten. 

1. Erstellung von Testsets

Data-Science-Testset

  • 100.000 englische Textpassagen (50.000 regelkonform / 50.000 regelwidrig)

  • Die Texte wurden zufällig und ohne Zurücklegen aus vier geprüften Quellen ausgewählt: öffentlich zugängliche Social-Media-Beiträge, Nachrichtenartikel, gemeinfreie Literatur und von Copyleaks generierte Grenzfälle. Sämtliches Material ist entweder gemeinfrei oder unterliegt ausdrücklichen Lizenzen.

  • Gegenprüfung mit zwei externen LLMs; nur übereinstimmende Punkte werden beibehalten.

  • Deckung über alle Copyleaks-Versicherungskategorien hinweg

  • Filter zur Sicherstellung der Kennzeichnung: Nur Passagen mit eindeutiger Moderationsbewertung (100%) wurden beibehalten; alle Grenzfälle wurden verworfen. Dies maximiert die Fairness bei direkten Vergleichen und beseitigt Subjektivität in der Bewertung.

QA-Testset

  • 20.000 englische Textpassagen (10.000 nicht verletzende / 10.000 verletzende), die unabhängig von der Qualitätssicherungsabteilung erstellt wurden

  • Mindestlänge von 10 Zeichen; ansonsten gleiches Probenahme-, Kennzeichnungs-, Lizenzherkunfts-, 100%-Endgültigkeitsregel- und Kategorieprotokoll wie beim DS-Set

Der Data-Science-Datensatz wurde strikt von den ursprünglichen Trainingskorpora getrennt. Der QA-Datensatz umfasst Passagen, die gezielt nach dem Modelltraining erstellt wurden; diese Texte wurden während des Trainings nie verwendet und stammen nicht aus den Trainingskorpora.

2. Werkzeugkette und Ausführungsdetails

  • Copyleaks API v1, abgefragt am 24. Juni 2025

  • Endpunkte der Wettbewerber (abgefragt mit identischer Vorverarbeitung am 24. Juni 2025)
    • OpenAI Moderation v2, Standardschwellenwert
    • Azure AI Content Safety Build 2025-06-15
    • Google Perspective API Rev. 2025-06-12, Toxizitätsschwelle = 0,50

  • Vorverarbeitung: Emoji-Erhaltung, keine Stammformreduzierung oder Umwandlung in Kleinbuchstaben

  • Für jeden Durchlauf haben wir die rohe JSON-Antwort aufgezeichnet, ein binäres Ergebnis abgeleitet, eine Konfusionsmatrix (TP, FP, TN, FN) erstellt und anschließend Genauigkeit, Präzision, Trefferquote, TNR und F-Beta(0,5) berechnet.

Definition der Moderationskategorien

Für die Moderationskategorien wurden folgende Definitionen verwendet:

  1. Erwachsene: Explizite Beschreibungen, Hinweise oder Darstellungen sexueller Handlungen oder Verhaltensweisen, die darauf abzielen, sexuelle Erregung hervorzurufen.

  2. GiftigSchädliche Äußerungen, die allgemein beleidigen, herabsetzen oder erniedrigen, ohne sich notwendigerweise gegen eine bestimmte Person zu richten. Dies umfasst jegliche Äußerungen, die darauf abzielen, emotionalen Schaden zuzufügen.

  3. Gewalttätig: Sprache, die zu körperlichem Schaden oder Verletzungen anstiftet oder diese verherrlicht.

  4. ProfanitätVerwendung von starken oder beleidigenden Schimpfwörtern.

  5. Selbstverletzung: Hinweise, die selbstverletzendes Verhalten fördern oder normalisieren.

  6. Belästigung: Gezielte Beleidigung oder Herabwürdigung einer bestimmten Person oder Gruppe, wobei der Fokus auf persönlichen Eigenschaften oder Überzeugungen liegt.

  7. Hassrede: Sprache, die eine Gruppe oder ein Individuum aufgrund angeborener Merkmale dämonisiert oder zu Gewalt gegen sie aufruft und dabei oft zu systematischer Diskriminierung aufruft.

  8. Drogenkonsum: Hinweise, Beschreibungen oder Befürwortungen des Gebrauchs, des Missbrauchs oder des Vertriebs von Drogen in einem schädlichen Kontext, einschließlich illegaler Substanzen oder des Missbrauchs legaler Drogen.

  9. SchusswaffenInhalte, die den Gebrauch, den Besitz oder die Verbreitung von Schusswaffen und anderen Waffen thematisieren, insbesondere wenn solche Diskussionen Gewalt oder unsichere Praktiken fördern oder verursachen könnten.

  10. CybersicherheitInhalte im Zusammenhang mit Computersicherheit, einschließlich Diskussionen über Hacking, Datenlecks und Maßnahmen zum Hacken digitaler Systeme oder zum Erlangen unbefugten Zugriffs.

  11. Andere: Alle anderen Inhalte, die als unangemessen, schädlich oder beleidigend eingestuft werden und nicht unter die oben genannten Kategorien fallen.

Metrikdefinitionen

Die in dieser Textmoderationsaufgabe verwendeten Metriken sind:

1. KonfusionsmatrixEine Tabelle, die die Leistung des Modells zusammenfasst und Folgendes anzeigt:

    1. Richtig Positive (TP): Zu Recht als moderierungsbedürftig gekennzeichnete, gegen die Regeln verstoßende Texte.
    2. Falsch-Positive (FP): Nicht regelwidrige Texte, die fälschlicherweise als moderierungsbedürftig eingestuft wurden.
    3. Richtig Negative (TN): Nicht regelkonforme Texte, die korrekt als nicht moderierungsbedürftig identifiziert wurden.
    4. Falsch Negative (FN): Verstöße begehende Texte, die fälschlicherweise als nicht moderierbedürftig eingestuft wurden.

2. GenauigkeitDer Anteil der korrekt klassifizierten Fälle (sowohl der richtig positiven als auch der richtig negativen) an der Gesamtzahl der ausgewerteten Texte.

Genauigkeit = TP + TN / Gesamtzahl der Texte

3. Richtig-Negativ-Rate (TNR)Der Anteil der tatsächlich negativen Fälle, die korrekt als negativ identifiziert werden. Im Kontext der Textmoderation misst TNR die Leistung des Modells bei nicht regelwidrigen Texten.

TNR = TN / TN + FP

4. Trefferquote (TPR) / RückrufquoteDer Anteil der tatsächlich positiven Fälle, die korrekt als positiv identifiziert wurden. Im Kontext der Textmoderation misst TPR die Leistung des Modells bei Texten, die gegen die Richtlinien verstoßen.

TPR = TP / TP + FN

5. PräzisionDie Präzision gibt den Anteil korrekt vorhergesagter positiver Beobachtungen an allen positiven Vorhersagen an. Im Kontext der Textmoderation misst die Präzision die Zuverlässigkeit des Modells bei der Kennzeichnung von Inhalten; sie zeigt an, wie viele der vom Modell als regelwidrig identifizierten Texte tatsächlich moderiert wurden.

Präzision = TP / TP + FP

6. F-Beta-WertEs handelt sich um ein gewichtetes harmonisches Mittel aus Präzision und Trefferquote, wobei der Beta-Parameter so eingestellt ist, dass er die Präzision bevorzugt. Diese Priorisierung trägt dazu bei, eine niedrigere Falsch-Positiv-Rate zu erreichen.

Ergebnisse

Data-Science-Team

Ergebnisse des Data-Science-Teams

Konfusionsmatrix

QA-Team

Ergebnisse des QA-Teams

Zusammenfassung der QA-Testmetriken:

  • Gesamtgenauigkeit: 0.9923

  • Präzision: 0.9997

  • Abrufen: 0.9848

  • F-Beta (β = 0,5): 0.9967

Direkter Vergleich

Direkter Vergleich
Modellvergleich

Einschränkungen

  • Sprachlicher Geltungsbereich: Dieses Modell und seine Evaluierung beziehen sich ausschließlich auf Englisch.

  • Kontextumfang: Die Moderation erfolgt jeweils für einen einzelnen Textabschnitt, wobei ein Textabschnitt ein in sich abgeschlossener Textteil mit einer bestimmten Anzahl von Tokens ist. Das System speichert keine Informationen über Textabschnitte, Kapitel oder Gesprächsbeiträge hinweg; daher können Verweise wie “wie wir bereits erläutert haben” oder Pronomen, die vom vorherigen Kontext abhängen, übersehen werden.

  • Modalitätsbereich: Dieses Produkt bewertet ausschließlich Text; Bild-, Audio- oder Videoeingaben wurden nicht berücksichtigt.