الموارد

تقييم دقة Copyleaks كاشف الذكاء الاصطناعي

منهجية خطوة بخطوة

تاريخ الاختبار: 20 أكتوبر 2024

تاريخ النشر: 19 نوفمبر 2024

تم اختبار النموذج: الإصدار 7.1

نحن نعتقد أنه من المهم أكثر من أي وقت مضى أن نكون شفافين تمامًا بشأن جهاز الكشف عن الذكاء الاصطناعي الدقة ومعدلات النتائج الإيجابية الخاطئة والسلبية الخاطئة ومجالات التحسين والمزيد لضمان الاستخدام المسؤول والتبني. يهدف هذا التحليل الشامل إلى ضمان الشفافية الكاملة حول منهجية اختبار نموذج V7.1 الخاص بـ AI Detector.

قام فريق Copyleaks Data Science وQA بإجراء الاختبارات بشكل مستقل لضمان الحصول على نتائج دقيقة وغير متحيزة. اختلفت بيانات الاختبار عن بيانات التدريب ولم تتضمن أي محتوى تم إرساله مسبقًا إلى AI Detector لاكتشاف الذكاء الاصطناعي.

تتألف بيانات الاختبار من نص مكتوب بشريًا مصدره مجموعات بيانات تم التحقق منها ونص تم إنشاؤه بواسطة الذكاء الاصطناعي من نماذج الذكاء الاصطناعي المختلفة. تم إجراء الاختبار باستخدام Copyleaks API.

تتضمن المقاييس الدقة الشاملة استنادًا إلى معدل التعرف على النص الصحيح والخاطئ، ونتيجة F1، ومعدل السلبية الحقيقية (TNR)، ومعدل الإيجابية الحقيقية (TPR)، والدقة، ومصفوفات الارتباك.

يتحقق الاختبار من أن AI Detector يعرض دقة اكتشاف عالية للتمييز بين النص المكتوب بواسطة الإنسان والنص الذي تم إنشاؤه بواسطة الذكاء الاصطناعي مع الحفاظ على معدل إيجابي كاذب منخفض.

عملية التقييم

باستخدام نظام مزدوج القسم، قمنا بتصميم عملية التقييم الخاصة بنا لضمان الجودة والمعايير والموثوقية على أعلى مستوى. لدينا قسمان مستقلان لتقييم النموذج: فريق علوم البيانات وفريق ضمان الجودة. يعمل كل قسم بشكل مستقل مع بيانات وأدوات التقييم الخاصة به ولا يمكنه الوصول إلى عملية التقييم الخاصة بالقسم الآخر. يضمن هذا الفصل أن تكون نتائج التقييم غير متحيزة وموضوعية ودقيقة مع التقاط جميع الأبعاد المحتملة لأداء نموذجنا. من الضروري أيضًا ملاحظة أن بيانات الاختبار منفصلة عن بيانات التدريب، ونحن نختبر نماذجنا فقط على بيانات جديدة لم يروها في الماضي.

المنهجية

لقد قامت فرق ضمان الجودة وعلوم البيانات في Copyleaks' بجمع مجموعة متنوعة من مجموعات بيانات الاختبار بشكل مستقل. تتكون كل مجموعة بيانات اختبار من عدد محدود من النصوص. يتم تحديد العلامة المتوقعة - وهي علامة تشير إلى ما إذا كان نص معين قد كتبه إنسان أم بواسطة الذكاء الاصطناعي - لكل مجموعة بيانات بناءً على مصدر البيانات. تم جمع النصوص البشرية من النصوص المنشورة قبل ظهور أنظمة الذكاء الاصطناعي التوليدية الحديثة أو في وقت لاحق من مصادر موثوقة أخرى تم التحقق منها مرة أخرى من قبل الفريق. تم إنشاء النصوص التي تم إنشاؤها بواسطة الذكاء الاصطناعي باستخدام مجموعة متنوعة من نماذج وتقنيات الذكاء الاصطناعي التوليدية.

تم تنفيذ الاختبارات على واجهة برمجة التطبيقات Copyleaks. لقد قمنا بفحص ما إذا كانت مخرجات واجهة برمجة التطبيقات صحيحة لكل نص بناءً على تسمية الهدف، ثم قمنا بتجميع النتائج لحساب مصفوفة الارتباك.

النتائج: فريق علوم البيانات

أجرى فريق علوم البيانات الاختبار المستقل التالي: 

  • كانت لغة النصوص هي اللغة الإنجليزية، وتم اختبار 300000 نص مكتوب من قبل البشر و200000 نص تم إنشاؤه بواسطة الذكاء الاصطناعي من مختلف برامج الماجستير في القانون في المجموع. 

     

  • تختلف أطوال النصوص، ولكن مجموعات البيانات تحتوي فقط على نصوص يزيد طولها عن 350 حرفًا، وهو الحد الأدنى الذي يقبله منتجنا.

مقاييس التقييم

المقاييس المستخدمة في مهمة تصنيف النص هذه هي:

1. مصفوفة الارتباك: جدول يوضح TP (الإيجابيات الحقيقية)، FP (الإيجابيات الكاذبة)، TN (السلبيات الحقيقية) وFN (السلبيات الكاذبة).

2. الدقة: نسبة النتائج الحقيقية (الإيجابية والسلبية الحقيقية) بين النتائج إجمالي عدد النصوص التي تم فحصها.

3. TNR: نسبة التنبؤات السلبية الدقيقة في كل التوقعات السلبية.

في سياق اكتشاف الذكاء الاصطناعي، فإن TNR هي دقة النموذج في النصوص البشرية.

4. TPR (المعروف أيضًا باسم الاستدعاء): نسبة النتائج الإيجابية الحقيقية كل التوقعات الفعلية.

في سياق اكتشاف الذكاء الاصطناعي، فإن TPR هي دقة النموذج في النصوص التي ينشئها الذكاء الاصطناعي.

5. نقاط F-beta: المتوسط التوافقي الموزون بين الدقة والتذكير، مع تفضيل الدقة أكثر (حيث أننا نريد تفضيل معدل إيجابي كاذب أقل).

6. ROC-AUC: تقييم التنازل عن ميزة ممن أجل الحصول على أخرى بين TPR وFPR.

الجمع بين الذكاء الاصطناعي ومجموعات البيانات البشرية

مجموعات البيانات المجمعة

النتائج: فريق ضمان الجودة

أجرى فريق ضمان الجودة الاختبار المستقل التالي:

  • كانت لغة النصوص هي اللغة الإنجليزية، وتم اختبار 220 ألف نص مكتوب من قبل البشر و170 ألف نص تم إنشاؤه بواسطة الذكاء الاصطناعي من مختلف برامج الماجستير في القانون في المجموع..

 

  • تختلف أطوال النصوص، ولكن مجموعات البيانات تحتوي فقط على نصوص يزيد طولها عن 350 حرفًا، وهو الحد الأدنى الذي يقبله منتجنا.

مجموعات البيانات البشرية فقط

مجموعة بيانات خاصة بالبشر فقط

مجموعات بيانات الذكاء الاصطناعي فقط

*قد تتغير إصدارات النماذج بمرور الوقت. تم إنشاء النصوص باستخدام أحد الإصدارات المتاحة لنماذج الذكاء الاصطناعي التوليدية المذكورة أعلاه.

مستويات الحساسية

في النموذج v7.1، قدمنا 3 مستويات حساسية لنموذج اكتشاف الذكاء الاصطناعي. وفيما يلي نتائج الاختبار:

مستويات الحساسية

دقة الإيجابيات الحقيقية (نصوص الذكاء الاصطناعي) والسلبيات الحقيقية (نصوص البشر) حسب الحساسية

اختبار مستوى الحساسية

تحليل أخطاء النص البشري والذكاء الاصطناعي

خلال عملية التقييم، قمنا بتحديد وتحليل التقييمات الخاطئة التي أجراها النموذج وإنشاء تقرير مفصل من شأنه تمكين فريق علوم البيانات من تصحيح الأسباب الكامنة وراء ذلك. ويتم ذلك دون الكشف عن التقييمات الخاطئة لفريق علوم البيانات. يتم تسجيل جميع الأخطاء بشكل منهجي وتصنيفها بناءً على طبيعتها وخصائصها في "عملية تحليل السبب الجذري"، والتي تهدف إلى فهم الأسباب الكامنة وتحديد الأنماط المتكررة. هذه العملية مستمرة دائمًا، مما يضمن التحسين المستمر وقابلية التكيف لنموذجنا بمرور الوقت.


أحد الأمثلة على مثل هذا الاختبار هو
تحليلنا من بيانات الإنترنت من عام 2013 إلى عام 2024 باستخدام نموذجنا V4. لقد أخذنا عينات من مليون نص من كل عام، بدءًا من عام 2013، باستخدام أي نتائج إيجابية كاذبة تم اكتشافها من عام 2013 إلى عام 2020، قبل إصدار أنظمة الذكاء الاصطناعي، للمساعدة في تحسين النموذج بشكل أكبر.

على غرار كيف الباحثين في جميع أنحاء العالم لدينا منصات مختلفة للكشف عن الذكاء الاصطناعي ونستمر في اختبارها لقياس قدراتها وقيودها، ونحن نشجع مستخدمينا تمامًا على إجراء اختبارات في العالم الحقيقي. في النهاية، مع إصدار نماذج جديدة، سنستمر في مشاركة منهجيات الاختبار والدقة والاعتبارات المهمة الأخرى التي يجب أن تكون على دراية بها.