Metin Denetim Modelimizin doğruluğu, yanlış pozitif ve yanlış negatif oranları, iyileştirme alanları ve daha fazlası hakkında tam şeffaflık sağlamanın, sorumlu kullanım ve benimsenmesini sağlamak için son derece önemli olduğuna inanıyoruz. Bu kapsamlı analiz, Metin Denetim Modelimizin test metodolojisi konusunda tam şeffaflık sağlamayı amaçlamaktadır.
Sınav tarihi: 29 Haziran 2025
Yayın tarihi: 16 Eylül 2025
Test edilen model: V1
Copyleaks Metin Düzenleme Modeli v1, eğitim veri setinden tamamen ayrılmış toplam 120.000 İngilizce metin (50% ihlal eden, 50% ihlal etmeyen) üzerinde kör, çift ekip değerlendirmesine tabi tutuldu.
Değerlendirme, modelin çok yüksek hatırlama oranına sahip zararlı içerikleri tespit edebildiğini ve neredeyse hiç masum metni işaretlemediğini gösteriyor.
Aynı veri kümesi, üç önde gelen ticari moderasyon API'si (OpenAI, Azure ve Google) aracılığıyla varsayılan eşik değerlerinde işlendiğinde, Copyleaks daha az yanlış pozitif ve yanlış negatif üretti ve temel metriklerde 4%-30%'lik bir avantaja sahip oldu.
Anahtar rakamlar (QA test seti, N = 20.000)
Modelin performansına dair tarafsız bir tablo elde etmek için iki ekipten oluşan kör bir değerlendirme gerçekleştirildi. Veri Bilimi ve Kalite Güvence ekipleri, farklı makineler, farklı betikler ve paylaşılan veriler olmadan tamamen izole bir şekilde çalıştı.
Veri Bilimi test seti
QA test seti
Veri Bilimi seti, eğitim için kullanılan orijinal metin gruplarından kesinlikle ayrı tutulmuştur. Kalite Güvence seti, model eğitimi sonrasında özel olarak oluşturulmuş pasajlardan oluşmaktadır; bu metinler eğitim sırasında hiç görülmemiştir ve eğitim metin gruplarından alınmamıştır.
Moderasyon kategorileri için aşağıdaki tanımlar kullanılmıştır:
Bu metin denetleme görevinde kullanılan ölçütler şunlardır:
1. Karışıklık Matrisi: Modelin performansını özetleyen ve aşağıdakileri gösteren bir tablo:
2. Doğruluk: Değerlendirilen toplam metin sayısı içerisinde doğru sınıflandırılan örneklerin (hem gerçek pozitifler hem de gerçek negatifler) oranı.
3. Gerçek Negatif Oran (TNR): Gerçek olumsuz örneklerin doğru bir şekilde olumsuz olarak tanımlanma oranı. Metin Düzenleme bağlamında TNR, modelin ihlal içermeyen metinlerdeki performansını ölçer.
4. Gerçek Pozitif Oranı (TPR) / Geri Çağırma: Gerçek olumlu örneklerin doğru bir şekilde olumlu olarak tanımlanma oranı. Metin Düzenleme bağlamında TPR, modelin ihlal eden metinlerdeki performansını ölçer.
5. Hassasiyet: Tüm olumlu tahminler içinde doğru tahmin edilen olumlu gözlemlerin oranı. Metin Düzenlemesi bağlamında, Hassasiyet, modelin içerik işaretlediğinde güvenilirliğini ölçer; model tarafından ihlal olarak belirlenen metinlerden kaçının gerçekten düzenlendiğini bize söyler.
6. F-beta Puanı: Beta parametresinin hassasiyeti destekleyecek şekilde ayarlandığı, hassasiyet ve geri çağırmanın ağırlıklı harmonik ortalaması. Bu önceliklendirme, daha düşük bir Yanlış Pozitif Oranına ulaşılmasına yardımcı olur.
Veri Bilimi ekibi
Karışıklık Matrisi
QA ekibi
QA Test Metrikleri Özeti:
Genel doğruluk: 0.9923
Kesinlik: 0.9997
Hatırlamak: 0.9848
F-beta (β = 0,5): 0.9967
Başabaş kıyaslama