Copyleaks Metin Düzenlemesinin Doğruluğunun Değerlendirilmesi

Ayrıntılı Bir Metodoloji

Metin Denetim Modelimizin doğruluğu, yanlış pozitif ve yanlış negatif oranları, iyileştirme alanları ve daha fazlası hakkında tam şeffaflık sağlamanın, sorumlu kullanım ve benimsenmesini sağlamak için son derece önemli olduğuna inanıyoruz. Bu kapsamlı analiz, Metin Denetim Modelimizin test metodolojisi konusunda tam şeffaflık sağlamayı amaçlamaktadır.

Sınav tarihi: 29 Haziran 2025

Yayın tarihi: 16 Eylül 2025

Test edilen model: V1

Yönetici Özeti

Copyleaks Metin Düzenleme Modeli v1, eğitim veri setinden tamamen ayrılmış toplam 120.000 İngilizce metin (50% ihlal eden, 50% ihlal etmeyen) üzerinde kör, çift ekip değerlendirmesine tabi tutuldu. 

Değerlendirme, modelin çok yüksek hatırlama oranına sahip zararlı içerikleri tespit edebildiğini ve neredeyse hiç masum metni işaretlemediğini gösteriyor. 

Aynı veri kümesi, üç önde gelen ticari moderasyon API'si (OpenAI, Azure ve Google) aracılığıyla varsayılan eşik değerlerinde işlendiğinde, Copyleaks daha az yanlış pozitif ve yanlış negatif üretti ve temel metriklerde 4%-30%'lik bir avantaja sahip oldu.

 

Anahtar rakamlar (QA test seti, N = 20.000)  

  • Doğruluk: 99.23 %  
  • Kesinlik: 99.97 % (10.000 ihlal içermeyen metinde 3 yanlış pozitif)  
  • Geri Çağırma (TPR): 98.48 %  
  • F-Beta(0.5) puanı: 99.67 %

Metodoloji

Modelin performansına dair tarafsız bir tablo elde etmek için iki ekipten oluşan kör bir değerlendirme gerçekleştirildi. Veri Bilimi ve Kalite Güvence ekipleri, farklı makineler, farklı betikler ve paylaşılan veriler olmadan tamamen izole bir şekilde çalıştı. 

1. Test setlerinin oluşturulması

Veri Bilimi test seti

  • 100.000 İngilizce pasaj (50.000 ihlalsiz / 50.000 ihlalli)

  • Dört doğrulanmış kaynaktan, değiştirilmeden rastgele örneklenen metinler: kamuya açık sosyal medya dökümleri, haber makaleleri, kamuya açık literatür ve Copyleaks tarafından oluşturulan uç durumlar. Tüm materyaller kamuya açıktır veya açık lisanslar altında kullanılmaktadır.

  • İki harici LLM ile çapraz kontrol; yalnızca oybirliğiyle alınan maddeler tutulur

  • Tüm Copyleaks poliçe kategorilerinde kapsam

  • Etiket kesinliği filtresi: Yalnızca moderasyon durumu 100% kesin olan pasajlar tutuldu; sınırda olan metinler atıldı. Bu, birebir karşılaştırmalarda adaleti en üst düzeye çıkarır ve temel gerçeklerden öznelliği uzaklaştırır.

QA test seti

  • Kalite Güvence departmanı tarafından bağımsız olarak hazırlanmış 20.000 İngilizce pasajı (10.000 ihlalsiz / 10.000 ihlalli)

  • Minimum 10 karakter uzunluğunda olmalı; aksi takdirde DS setindekiyle aynı örnekleme, etiketleme, lisans kaynağı, 100% kesin kuralı ve kategori protokolü kullanılmalıdır

Veri Bilimi seti, eğitim için kullanılan orijinal metin gruplarından kesinlikle ayrı tutulmuştur. Kalite Güvence seti, model eğitimi sonrasında özel olarak oluşturulmuş pasajlardan oluşmaktadır; bu metinler eğitim sırasında hiç görülmemiştir ve eğitim metin gruplarından alınmamıştır.

2. Araç zinciri ve uygulama ayrıntıları

  • Copyleaks API v1, 24 Haziran 2025'te sorgulandı

  • Rakip uç noktalar (24 Haziran 2025'te aynı ön işleme tabi tutularak sorgulandı)
    • OpenAI Moderation v2, varsayılan eşik
    • Azure AI İçerik Güvenliği derlemesi 2025-06-15
    • Google Perspective API rev. 2025-06-12, toksisite eşiği = 0,50

  • Ön işleme: emojilerin korunması, kök veya küçük harf kullanımı yok

  • Her çalışma için ham JSON yanıtını kaydettik, ikili bir karar türettik, bir karışıklık matrisi (TP, FP, TN, FN) oluşturduk ve ardından Doğruluk, Hassasiyet, Geri Çağırma, TNR ve F-Beta(0,5) değerlerini hesapladık.

Moderasyon Kategorileri Tanımı

Moderasyon kategorileri için aşağıdaki tanımlar kullanılmıştır:

  1. Yetişkin: Cinsel uyarımı uyandırmayı amaçlayan cinsel eylem veya davranışların açık tanımları, referansları veya tasvirleri.

  2. Zehirli: Belirli bir kişiyi hedef almayan, genel anlamda hakaret, aşağılama veya onur kırıcı nitelikteki zararlı dil. Bu, duygusal zarara yol açmayı amaçlayan her türlü dili kapsar.

  3. Şiddetli: Fiziksel zarar veya yaralanmayı teşvik eden veya yücelten dil.

  4. Küfür: Ağır veya rahatsız edici küfürlerin kullanımı.

  5. Kendi kendine zarar vermek: Kendine zarar verme davranışını teşvik eden veya normalleştiren referanslar.

  6. Taciz: Belirli bir kişiyi veya grubu aşağılayan veya hakaret eden, kişisel özelliklere veya inançlara odaklanan hedefli taciz.

  7. Nefret Söylemi: Bir grubu veya bireyi doğuştan gelen özelliklerine dayanarak şeytanlaştıran veya ona zarar vermeyi teşvik eden, sıklıkla şiddeti veya sistematik ayrımcılığı çağrıştıran dil.

  8. İlaç Kullanımı: Yasadışı maddeler veya yasal uyuşturucuların kötüye kullanımı da dahil olmak üzere, uyuşturucuların zararlı bir bağlamda kullanımı, kötüye kullanımı veya dağıtımına ilişkin referanslar, açıklamalar veya onaylar.

  9. Ateşli silahlar: Özellikle şiddeti veya güvenli olmayan uygulamaları teşvik edebilecek veya bunlara yol açabilecek durumlarda, silahların ve diğer silahların kullanımı, bulundurulması veya dağıtımı hakkında tartışan içerikler.

  10. Siber güvenlik: Bilgisayar güvenliğiyle ilgili içerikler; bilgisayar korsanlığı, veri ihlalleri ve dijital sistemlere izinsiz erişim sağlama veya bu sistemlere izinsiz girme önlemleri hakkındaki tartışmalar.

  11. Diğer: Yukarıdaki kategorilere girmeyen, uygunsuz, zararlı veya saldırgan olduğu düşünülen diğer içerikler.

Metrik Tanımları

Bu metin denetleme görevinde kullanılan ölçütler şunlardır:

1. Karışıklık Matrisi: Modelin performansını özetleyen ve aşağıdakileri gösteren bir tablo:

    1. Gerçek Pozitifler (TP):İhlal eden metinlerin denetime ihtiyaç duyduğu doğru bir şekilde belirlendi.
    2. Yanlış Pozitifler (FP):İhlal içermeyen metinlerin yanlış bir şekilde denetime ihtiyaç duyduğu belirlendi.
    3. Gerçek Negatifler (TN):İhlal içermeyen metinlerin denetime ihtiyaç duymadığı doğru bir şekilde belirlendi.
    4. Yanlış Negatifler (FN): Yanlışlıkla denetime ihtiyaç duymadığı belirlenen metinleri ihlal etmek.

2. Doğruluk: Değerlendirilen toplam metin sayısı içerisinde doğru sınıflandırılan örneklerin (hem gerçek pozitifler hem de gerçek negatifler) oranı.

Doğruluk = TP + TN / Toplam metinler

3. Gerçek Negatif Oran (TNR): Gerçek olumsuz örneklerin doğru bir şekilde olumsuz olarak tanımlanma oranı. Metin Düzenleme bağlamında TNR, modelin ihlal içermeyen metinlerdeki performansını ölçer.

TNR = TN / TN + FP

4. Gerçek Pozitif Oranı (TPR) / Geri Çağırma: Gerçek olumlu örneklerin doğru bir şekilde olumlu olarak tanımlanma oranı. Metin Düzenleme bağlamında TPR, modelin ihlal eden metinlerdeki performansını ölçer.

TPR = TP / TP + FN

5. Hassasiyet: Tüm olumlu tahminler içinde doğru tahmin edilen olumlu gözlemlerin oranı. Metin Düzenlemesi bağlamında, Hassasiyet, modelin içerik işaretlediğinde güvenilirliğini ölçer; model tarafından ihlal olarak belirlenen metinlerden kaçının gerçekten düzenlendiğini bize söyler.

Hassasiyet = TP / TP + FP

6. F-beta Puanı: Beta parametresinin hassasiyeti destekleyecek şekilde ayarlandığı, hassasiyet ve geri çağırmanın ağırlıklı harmonik ortalaması. Bu önceliklendirme, daha düşük bir Yanlış Pozitif Oranına ulaşılmasına yardımcı olur.

Sonuçlar

Veri Bilimi ekibi

Veri Bilimi Ekibi Sonuçları

Karışıklık Matrisi

QA ekibi

QA Ekibi Sonuçları

QA Test Metrikleri Özeti:

  • Genel doğruluk: 0.9923

  • Kesinlik: 0.9997

  • Hatırlamak: 0.9848

  • F-beta (β = 0,5): 0.9967

Başabaş kıyaslama

Baştan Başa
Model Karşılaştırması

Sınırlamalar

  • Dil kapsamı: Bu model ve değerlendirmesi yalnızca İngilizceyi kapsamaktadır.

  • Bağlam kapsamı: Denetim, her seferinde tek bir "parça" üzerinde gerçekleştirilir; burada bir parça, belirli sayıda belirteç içeren, kendi içinde bütünlüklü bir metin parçasıdır. Sistem, parçalar, bölümler veya konuşma sıraları arasında herhangi bir bellek tutmaz; bu nedenle "daha önce açıkladığımız gibi" gibi referanslar veya önceki bağlama bağlı zamirler gözden kaçabilir.

  • Modalite kapsamı: Bu ürün yalnızca metni değerlendirir; görüntü, ses veya video girişi dahil edilmemiştir.