تقييم دقة نظام إدارة النصوص Copyleaks

منهجية مفصلة

نؤمن بأهمية الشفافية الكاملة فيما يتعلق بدقة نموذجنا لمراقبة النصوص، ومعدلات الإنذارات الكاذبة والإنذارات الكاذبة، ومجالات التحسين، وغير ذلك، لضمان الاستخدام المسؤول والتبني الأمثل. يهدف هذا التحليل الشامل إلى ضمان الشفافية الكاملة حول منهجية اختبار نموذجنا لمراقبة النصوص.

تاريخ الاختبار: 29 يونيو 2025

تاريخ النشر: 16 سبتمبر 2025

تم اختبار النموذج: الإصدار الأول

ملخص تنفيذي

تم إخضاع نموذج Copyleaks Text Moderation Model v1 لتقييم ثنائي الفريق أعمى على ما مجموعه 120000 نص إنجليزي (50% منتهك، 50% غير منتهك) تم فصلها تمامًا عن مجموعة بيانات التدريب. 

يُظهر التقييم أن النموذج قادر على تحديد المحتوى الضار بدقة عالية جدًا، بينما نادرًا ما يُشير إلى النصوص البريئة. 

عندما تمت معالجة مجموعة البيانات المتطابقة من خلال ثلاث واجهات برمجة تطبيقات تجارية رائدة في مجال الإشراف (OpenAI وAzure وGoogle) عند عتباتها الافتراضية، أنتجت Copyleaks عددًا أقل من النتائج الإيجابية الخاطئة والنتائج السلبية الخاطئة، مع ميزة قدرها 4%-30% عبر المقاييس الرئيسية.

 

الأرقام الرئيسية (مجموعة اختبار ضمان الجودة، N = 20000)  

  • الدقة: 99.23 %  
  • الدقة: 99.97 % (3 نتائج إيجابية خاطئة في 10000 نص غير مخالف)  
  • الاستدعاء (TPR): 98.48 %  
  • قيمة F-Beta(0.5): 99.67 %

المنهجية

أُجري تقييم ثنائي الفريق، دون معرفة مسبقة بالنتائج، للحصول على صورة موضوعية لأداء النموذج. عمل فريقا علوم البيانات وضمان الجودة بشكل منفصل تمامًا، باستخدام أجهزة وبرامج نصية مختلفة، ودون أي بيانات مشتركة. 

1. بناء مجموعات الاختبار

مجموعة اختبار علوم البيانات

  • 100,000 مقطع باللغة الإنجليزية (50,000 غير مخالفة / 50,000 مخالفة)

  • تم اختيار النصوص عشوائياً دون استبدال من أربعة مصادر موثوقة: منشورات وسائل التواصل الاجتماعي العامة، والمقالات الإخبارية، والأدبيات المتاحة للعموم، وحالات استثنائية تم إنشاؤها بواسطة برنامج Copyleaks. جميع المواد إما متاحة للعموم أو مستخدمة بموجب تراخيص صريحة.

  • التحقق المتبادل مع مرجعين خارجيين للتعلم الآلي؛ يتم الاحتفاظ فقط بالبنود التي تم الاتفاق عليها بالإجماع

  • تغطية شاملة لجميع فئات وثائق التأمين من نقطة إلى نقطة

  • فلتر التحقق من التصنيف: تم الاحتفاظ فقط بالمقاطع التي كانت حالة مراجعتها 100% نهائية؛ وتم استبعاد أي نصوص مشكوك في تصنيفها. هذا يضمن أقصى قدر من العدالة في المقارنات المباشرة ويزيل الذاتية من الحقيقة الأساسية.

مجموعة اختبار ضمان الجودة

  • 20,000 مقطعًا باللغة الإنجليزية (10,000 غير مخالفة / 10,000 مخالفة) تمت صياغتها بشكل مستقل من قبل قسم ضمان الجودة

  • الحد الأدنى للطول 10 أحرف؛ وإلا فإن نفس عملية أخذ العينات، ووضع العلامات، ومصدر الترخيص، والقاعدة النهائية 100%، وبروتوكول الفئة كما هو الحال في مجموعة DS

تم استبعاد مجموعة بيانات علوم البيانات بشكل قاطع من مجموعات النصوص الأصلية المستخدمة في التدريب. أما مجموعة الأسئلة والأجوبة فتتألف من مقاطع كُتبت عمداً بعد تدريب النموذج؛ ولم تُشاهد هذه النصوص أثناء التدريب ولم تُستخرج من مجموعات نصوص التدريب.

2. سلسلة الأدوات وتفاصيل التنفيذ

  • واجهة برمجة تطبيقات Copyleaks الإصدار 1، تم الاستعلام عنها في 24 يونيو 2025

  • نقاط نهاية المنافسين (تم الاستعلام عنها بمعالجة مسبقة متطابقة في 24 يونيو 2025)
    • OpenAI Moderation v2، العتبة الافتراضية
    • إصدار Azure AI Content Safety بتاريخ 15 يونيو 2025
    • واجهة برمجة تطبيقات Google Perspective، الإصدار 2025-06-12، عتبة السمية = 0.50

  • المعالجة المسبقة: الحفاظ على الرموز التعبيرية، وعدم استخدام الأحرف الصغيرة أو تحويلها إلى حروف أصلية.

  • لكل عملية تشغيل قمنا بتسجيل استجابة JSON الخام، واستخلصنا حكمًا ثنائيًا، وقمنا ببناء مصفوفة الارتباك (TP، FP، TN، FN) ثم قمنا بحساب الدقة، والدقة، والاستدعاء، وTNR، وF-Beta(0.5).

تعريف فئات الإشراف

تم استخدام التعريفات التالية لفئات الاعتدال:

  1. بالغ: أوصاف أو إشارات أو تصويرات صريحة لأفعال أو سلوكيات جنسية تهدف إلى إثارة الإثارة الجنسية.

  2. سامةاللغة المؤذية التي تُهين أو تُحط من قدر شخص ما أو تُحط من قدره بشكل عام، وليس بالضرورة أن تكون موجهة لشخص معين. ويشمل ذلك أي لغة تهدف إلى إلحاق الأذى النفسي.

  3. عنيف: لغة تحرض على الأذى الجسدي أو الإصابة أو تمجدها.

  4. ألفاظ بذيئة: استخدام كلمات بذيئة أو مسيئة.

  5. الأذى الذاتي: مراجع تشجع أو تجعل السلوك المؤذي للذات أمراً طبيعياً.

  6. تحرش: إساءة موجهة تهين أو تحط من قدر شخص أو مجموعة معينة، مع التركيز على السمات الشخصية أو المعتقدات.

  7. خطاب الكراهية: لغة تشوه صورة مجموعة أو فرد أو تحرض على إلحاق الأذى بهما بناءً على سمات متأصلة، وغالباً ما تدعو إلى العنف أو التمييز المنهجي.

  8. استخدام المخدرات: الإشارات أو الأوصاف أو التأييدات لاستخدام أو إساءة استخدام أو توزيع المخدرات في سياق ضار، بما في ذلك المواد غير المشروعة أو إساءة استخدام الأدوية القانونية.

  9. الأسلحة النارية: المحتوى الذي يناقش استخدام أو حيازة أو توزيع الأسلحة النارية وغيرها من الأسلحة، وخاصة عندما يمكن أن تؤدي هذه المناقشات إلى تعزيز أو التسبب في العنف أو الممارسات غير الآمنة.

  10. الأمن السيبراني: محتوى متعلق بأمن الحاسوب، بما في ذلك مناقشات حول القرصنة، وانتهاكات البيانات، وتدابير اختراق الأنظمة الرقمية أو الحصول على وصول غير مصرح به.

  11. آخر: أي محتوى آخر يعتبر غير لائق أو ضار أو مسيء ولا يشمله التصنيف المذكور أعلاه.

تعريفات المقاييس

المقاييس المستخدمة في مهمة الإشراف على النصوص هذه هي:

1. مصفوفة الارتباكجدول يلخص أداء النموذج، ويعرض ما يلي:

    1. النتائج الإيجابية الحقيقية (TP): النصوص المخالفة التي تم تحديدها بشكل صحيح على أنها بحاجة إلى مراجعة.
    2. النتائج الإيجابية الكاذبة (FP): نصوص غير مخالفة تم تحديدها بشكل خاطئ على أنها بحاجة إلى مراجعة.
    3. النتائج السلبية الحقيقية (TN): النصوص غير المخالفة التي تم تحديدها بشكل صحيح على أنها لا تحتاج إلى مراجعة.
    4. النتائج السلبية الكاذبة (FN): النصوص المخالفة التي تم تحديدها بشكل خاطئ على أنها لا تحتاج إلى مراجعة.

2. الدقة: نسبة الحالات المصنفة بشكل صحيح (الإيجابيات الحقيقية والسلبيات الحقيقية) من إجمالي عدد النصوص التي تم تقييمها.

الدقة = TP + TN / إجمالي النصوص

3. معدل السلبية الحقيقية (TNR)نسبة الحالات السلبية الفعلية التي تم تحديدها بشكل صحيح على أنها سلبية. في سياق مراقبة النصوص، يقيس مؤشر TNR أداء النموذج على النصوص غير المخالفة.

معدل النتائج السلبية = معدل النتائج السلبية / معدل النتائج الإيجابية + معدل النتائج الإيجابية

4. معدل الإيجابية الحقيقية (TPR) / الاستدعاءنسبة الحالات الإيجابية الفعلية التي تم تحديدها بشكل صحيح على أنها إيجابية. في سياق مراقبة النصوص، يقيس معدل الإيجابية الحقيقية أداء النموذج في التعامل مع النصوص المخالفة.

معدل الإيجابية الكلي = معدل الإيجابية الكلي / معدل الإيجابية الكلي + معدل السلبية الكلي

5. الدقةنسبة الملاحظات الإيجابية المتوقعة بشكل صحيح من إجمالي التوقعات الإيجابية. في سياق مراقبة النصوص، تقيس الدقة مدى موثوقية النموذج عند رصده للمحتوى المخالف؛ فهي تُبيّن لنا عدد النصوص التي رُصدت كمخالفة من قِبل النموذج والتي خضعت بالفعل للمراقبة.

الدقة = TP / TP + FP

6. درجة F-betaالمتوسط التوافقي المرجح للدقة والاستدعاء، حيث يتم ضبط معامل بيتا لصالح الدقة. يساعد هذا الترتيب في تحقيق معدل إيجابي خاطئ أقل.

نتائج

فريق علوم البيانات

نتائج فريق علوم البيانات

مصفوفة الارتباك

فريق ضمان الجودة

نتائج فريق ضمان الجودة

ملخص مقاييس اختبار ضمان الجودة:

  • الدقة الإجمالية: 0.9923

  • دقة: 0.9997

  • يتذكر: 0.9848

  • F-beta (β = 0.5): 0.9967

معيار المواجهة المباشرة

مواجهة مباشرة
مقارنة النماذج

القيود

  • نطاق اللغة: يغطي هذا النموذج وتقييمه اللغة الإنجليزية فقط.

  • نطاق السياق: تتم عملية المراجعة على "مقطع" واحد في كل مرة، حيث يُعرَّف المقطع بأنه جزء نصي مستقل يحتوي على عدد محدد من الكلمات. لا يحتفظ النظام بأي ذاكرة عبر المقاطع أو الفصول أو أدوار المحادثة؛ لذا قد تُفقد إشارات مثل "كما أوضحنا سابقًا" أو الضمائر التي تعتمد على سياق سابق.

  • نطاق الوسائط: يقوم هذا المنتج بتقييم النصوص فقط؛ ولم يتم تضمين أي مدخلات للصور أو الصوت أو الفيديو.