الموارد

تقييم دقة Copyleaks كاشف الذكاء الاصطناعي

منهجية خطوة بخطوة

نؤمن بأهمية الشفافية الكاملة بشأن دقة كاشف الذكاء الاصطناعي، ومعدلات النتائج الإيجابية والسلبية الخاطئة، ومجالات التحسين، وغيرها، لضمان الاستخدام والتبني المسؤولين. يهدف هذا التحليل الشامل إلى ضمان الشفافية الكاملة حول منهجية اختبار نموذج V10 لكاشف الذكاء الاصطناعي.

تاريخ الاختبار: 16 أكتوبر 2025

تاريخ النشر: 12 نوفمبر 2025

تم اختبار النموذج: V10

قام فريق Copyleaks Data Science وQA بإجراء الاختبارات بشكل مستقل لضمان الحصول على نتائج دقيقة وغير متحيزة. اختلفت بيانات الاختبار عن بيانات التدريب ولم تتضمن أي محتوى تم إرساله مسبقًا إلى AI Detector لاكتشاف الذكاء الاصطناعي.

تتألف بيانات الاختبار من نص مكتوب بشريًا مصدره مجموعات بيانات تم التحقق منها ونص تم إنشاؤه بواسطة الذكاء الاصطناعي من نماذج الذكاء الاصطناعي المختلفة. تم إجراء الاختبار باستخدام Copyleaks API.

تشمل المقاييس الدقة الإجمالية، بناءً على معدل تحديد النصوص الصحيح والخاطئ، ومساحة المنطقة تحت منحنى ROC (منحنى خصائص التشغيل للمستقبل)، الذي يفحص معدلات الإيجابية الحقيقية (TPR) ومعدلات الإيجابية الكاذبة (FPR). وتشمل المقاييس الإضافية درجة F1، ومعدل السلبية الحقيقية (TNR)، ومصفوفات الارتباك.

يتحقق الاختبار من أن AI Detector يعرض دقة اكتشاف عالية للتمييز بين النص المكتوب بواسطة الإنسان والنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي مع الحفاظ على معدل إيجابي كاذب منخفض.

عملية التقييم

باستخدام نظام مزدوج القسم، قمنا بتصميم عملية التقييم الخاصة بنا لضمان الجودة والمعايير والموثوقية على أعلى مستوى. لدينا قسمان مستقلان لتقييم النموذج: فريق علوم البيانات وفريق ضمان الجودة. يعمل كل قسم بشكل مستقل مع بيانات وأدوات التقييم الخاصة به ولا يمكنه الوصول إلى عملية التقييم الخاصة بالقسم الآخر. يضمن هذا الفصل أن تكون نتائج التقييم غير متحيزة وموضوعية ودقيقة مع التقاط جميع الأبعاد المحتملة لأداء نموذجنا. من الضروري أيضًا ملاحظة أن بيانات الاختبار منفصلة عن بيانات التدريب، ونحن نختبر نماذجنا فقط على بيانات جديدة لم يروها في الماضي.

المنهجية

لقد قامت فرق ضمان الجودة وعلوم البيانات في Copyleaks' بجمع مجموعة متنوعة من مجموعات بيانات الاختبار بشكل مستقل. تتكون كل مجموعة بيانات اختبار من عدد محدود من النصوص. يتم تحديد العلامة المتوقعة - وهي علامة تشير إلى ما إذا كان نص معين قد كتبه إنسان أم بواسطة الذكاء الاصطناعي - لكل مجموعة بيانات بناءً على مصدر البيانات. تم جمع النصوص البشرية من النصوص المنشورة قبل ظهور أنظمة الذكاء الاصطناعي التوليدية الحديثة أو في وقت لاحق من مصادر موثوقة أخرى تم التحقق منها مرة أخرى من قبل الفريق. تم إنشاء النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام مجموعة متنوعة من نماذج وتقنيات الذكاء الاصطناعي التوليدية.

تم تنفيذ الاختبارات على واجهة برمجة التطبيقات Copyleaks. لقد قمنا بفحص ما إذا كانت مخرجات واجهة برمجة التطبيقات صحيحة لكل نص بناءً على تسمية الهدف، ثم قمنا بتجميع النتائج لحساب مصفوفة الارتباك.

النتائج: فريق علوم البيانات

أجرى فريق علوم البيانات الاختبار المستقل التالي:

  • كانت لغة النصوص هي الإنجليزية، وتم اختبار 300,000 نص مكتوب من قبل البشر و200,000 نص تم إنشاؤه بواسطة الذكاء الاصطناعي من مختلف برامج الماجستير في القانون بشكل إجمالي.
  • تختلف أطوال النصوص، ولكن مجموعات البيانات تحتوي فقط على نصوص يزيد طولها عن 350 حرفًا، وهو الحد الأدنى الذي يقبله منتجنا.

مقاييس التقييم

المقاييس المستخدمة في مهمة تصنيف النص هذه هي:

1. مصفوفة الارتباك: جدول يوضح النتائج الإيجابية الحقيقية (TP)، والنتائج الإيجابية الكاذبة (FP)، والنتائج السلبية الحقيقية (TN)، والنتائج السلبية الكاذبة (FN).

2. الدقة: نسبة النتائج الصحيحة (الإيجابيات الصحيحة والسلبيات الصحيحة) بين إجمالي عدد النصوص التي تم فحصها.

3. معدل السلبية الحقيقية (TNR): نسبة الحالات السلبية الفعلية التي جميع التوقعات سلبية.

في سياق اكتشاف الذكاء الاصطناعي، فإن TNR هي دقة النموذج في النصوص البشرية.

4. (TPR) المعروف أيضًا باسم الاستدعاء: نسبة النتائج الإيجابية الحقيقية في جميع التوقعات الفعلية.

في سياق اكتشاف الذكاء الاصطناعي، فإن TPR هي دقة النموذج في النصوص التي ينشئها الذكاء الاصطناعي.

5.  درجة F-beta: ال المتوسط التوافقي المرجح بين الدقة والاستدعاء، مع تفضيل الدقة أكثر (لأننا نريد تفضيل معدل إيجابي خاطئ أقل).

الجمع بين الذكاء الاصطناعي ومجموعات البيانات البشرية

اسم مجموعة البيانات عدد النصوص عدد النصوص البشرية عدد النصوص التي تم الحصول عليها بواسطة الذكاء الاصطناعي TPR برنامج التعقيم والإخصاء وإعادة التعقيم F-beta(0.5)
مجموعات بيانات داخلية شديدة الصعوبة، بما في ذلك الهجمات المعادية والأدوات الخاصة 500,000 300,000 200,000 0.988 0.999 0.997

النتائج: فريق ضمان الجودة

أجرى فريق ضمان الجودة الاختبار المستقل التالي:

  • كانت لغة النصوص هي الإنجليزية، وتم اختبار 229843 نصًا مكتوبًا بواسطة البشر و18712 نصًا تم إنشاؤها بواسطة الذكاء الاصطناعي من مختلف برامج الماجستير في القانون بشكل إجمالي.
  • تختلف أطوال النصوص، ولكن مجموعات البيانات تحتوي فقط على نصوص يزيد طولها عن 350 حرفًا، وهو الحد الأدنى الذي يقبله منتجنا.

مجموعات البيانات البشرية فقط

اسم مجموعة البيانات عدد النصوص تم التعرف عليه بشكل صحيح على أنه إنسان تم التعرف عليه بشكل خاطئ على أنه ذكاء اصطناعي دقة
نصوص عامة 9,979 9,979 0 1
مقالات، أخبار، مدونات، منشورات على مواقع التواصل الاجتماعي 9,991 9,982 9 0.9991
مجموعة بيانات صفحات الويب على الإنترنت 99,921 99,918 3 0.9999
مقالات الطلاب 10,000 9,998 2 0.9998
أوراق بحثية 99,952 99,906 46 0.9995
المجموع: 229,843 229,783 60 0.9997

مجموعات بيانات الذكاء الاصطناعي فقط

اسم مجموعة البيانات عدد النصوص تم التعرف عليه بشكل خاطئ على أنه إنسان تم التعرف عليه بشكل صحيح على أنه ذكاء اصطناعي دقة
نماذج عائلة OpenAI - نماذج أخرى 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
نماذج عائلة الجوزاء 1,978 7 1,971 0.9964
نماذج عائلة كلود 1,072 1 1,071 0.9991
نماذج عائلة جروك 1,575 0 1,575 1
المجموع: 18,712 148 18,564 0.992

*قد تتغير إصدارات النماذج بمرور الوقت. تم إنشاء النصوص باستخدام الإصدارات الحالية المتاحة من النماذج من شركات الذكاء الاصطناعي التوليدي المذكورة أعلاه.

مستويات الحساسية

منذ الإصدار 7.1، أصبح لدينا ثلاثة مستويات حساسية لنموذج الكشف بالذكاء الاصطناعي. إليكم نتائج اختبار مستويات الحساسية للنموذج في الإصدار 10.

بطاقة تعريف حساسية تعريف النتائج الإيجابية الخاطئة النتائج السلبية الكاذبة
1 أمان إضافي صُممت هذه الطريقة لتقليل النتائج الإيجابية الخاطئة باستخدام مرشحات إضافية تعتمد على تقنية الكشف بالذكاء الاصطناعي.

جيد لاكتشاف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي دون أي تعديل بشري يُذكر.
0.009% 1.36%
2 متوازن (افتراضي -
هذه هي النسخة
ذلك موضح في
النتائج المذكورة أعلاه)
مثالي لاكتشاف محتوى الذكاء الاصطناعي مع تقليل النتائج الإيجابية الخاطئة.

جيد في اكتشاف النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي والتي تحتوي على قدر معتدل من التعديل البشري.
0.026% 0.79%
3 حساسية فائقة تم تصميم نموذجنا الأكثر حساسية لتحديد نص الذكاء الاصطناعي الذي تم وضعه من خلال "مُحَوِّل النص إلى نص بشري" أو مُعَدِّل للنصوص. 0.05% 0.53%

دقة النتائج الإيجابية الصحيحة (نصوص الذكاء الاصطناعي) والنتائج السلبية الصحيحة (نصوص بشرية) حسب مستوى الحساسية

الإيجابيات الحقيقية
السلبيات الحقيقية
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
الحد الأدنى من النتائج الإيجابية الخاطئة (الحساسية 1)
99.21%
99.97%
متوازن (الحساسية 2)
99.47%
99.95%
شديد الحساسية (الحساسية 3)
حساسية

تحليل أخطاء النص البشري والذكاء الاصطناعي

خلال عملية التقييم، قمنا بتحديد وتحليل التقييمات الخاطئة التي أجراها النموذج وإنشاء تقرير مفصل من شأنه تمكين فريق علوم البيانات من تصحيح الأسباب الكامنة وراء ذلك. ويتم ذلك دون الكشف عن التقييمات الخاطئة لفريق علوم البيانات. يتم تسجيل جميع الأخطاء بشكل منهجي وتصنيفها بناءً على طبيعتها وخصائصها في "عملية تحليل السبب الجذري"، والتي تهدف إلى فهم الأسباب الكامنة وتحديد الأنماط المتكررة. هذه العملية مستمرة دائمًا، مما يضمن التحسين المستمر وقابلية التكيف لنموذجنا بمرور الوقت.

أحد الأمثلة على مثل هذا الاختبار هو تحليلنا من بيانات الإنترنت من عام 2013 إلى عام 2024 باستخدام نموذجنا V4. لقد أخذنا عينات من مليون نص من كل عام، بدءًا من عام 2013، باستخدام أي نتائج إيجابية كاذبة تم اكتشافها من عام 2013 إلى عام 2020، قبل إصدار أنظمة الذكاء الاصطناعي، للمساعدة في تحسين النموذج بشكل أكبر.

20 ألف
15 ألف
10 آلاف
5 آلاف
0
عدد النصوص المصنفة على أنها ذكاء اصطناعي
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
سنة

على غرار كيف الباحثين في جميع أنحاء العالم لدينا منصات مختلفة للكشف عن الذكاء الاصطناعي ونستمر في اختبارها لقياس قدراتها وقيودها، ونحن نشجع مستخدمينا تمامًا على إجراء اختبارات في العالم الحقيقي. في النهاية، مع إصدار نماذج جديدة، سنستمر في مشاركة منهجيات الاختبار والدقة والاعتبارات المهمة الأخرى التي يجب أن تكون على دراية بها.