تقييم دقة كاشف الصور بتقنية الذكاء الاصطناعي Copyleaks

منهجية خطوة بخطوة

نؤمن بأهمية الشفافية الكاملة بشأن دقة كاشف الصور المدعوم بالذكاء الاصطناعي، بما في ذلك معدلات النتائج الإيجابية والسلبية الخاطئة، بالإضافة إلى المجالات التي تحتاج إلى تحسين، لضمان الاستخدام المسؤول والتبني الأمثل. يهدف هذا التحليل الشامل إلى توفير شفافية كاملة حول منهجية اختبار نموذج كاشف الصور المدعوم بالذكاء الاصطناعي الإصدار 1.1.

صُمم نموذجنا للكشف عن الأجزاء المُعدّلة بواسطة الذكاء الاصطناعي في الصور، وذلك من خلال إنشاء طبقة فوقية للمناطق المكتشفة. وقد أثبتت الاختبارات أن كاشف الصور المدعوم بالذكاء الاصطناعي يحقق دقة عالية في التمييز بين الصور البشرية الحقيقية والصور المُولّدة أو المُعدّلة بواسطة الذكاء الاصطناعي، مع الحفاظ على معدل منخفض للغاية للنتائج الإيجابية الخاطئة.

تاريخ الاختبار: 1 فبراير 2026

تاريخ النشر: 15 فبراير 2026

تم اختبار النموذج: الإصدار 1.1

المنهجية

باستخدام نظام فريقين، صممنا عملية التقييم لدينا لضمان أعلى مستويات الجودة والمعايير والموثوقية. لدينا قسمان مستقلان لتقييم النموذج: فريق علوم البيانات وفريق ضمان الجودة. يعمل كل فريق بشكل مستقل باستخدام بيانات وأدوات التقييم الخاصة به، ولا يطلع على عملية تقييم الفريق الآخر. يضمن هذا الفصل أن تكون نتائج التقييم غير متحيزة وموضوعية ودقيقة. من المهم أيضًا ملاحظة أن جميع بيانات الاختبار منفصلة تمامًا عن بيانات التدريب؛ فنحن نختبر نماذجنا فقط على صور جديدة لم يسبق لها التفاعل مع كاشف الصور المدعوم بالذكاء الاصطناعي. ولضمان بقاء اختباراتنا ذات صلة وتحدّي، نقوم بتحديث مجموعات بيانات التقييم باستمرار لتشمل الصور التي تم إنشاؤها بواسطة أحدث نماذج الذكاء الاصطناعي العام.

بناء مجموعات الاختبار

مع كل إصدار جديد من النموذج، يقوم فريقا ضمان الجودة وعلوم البيانات في Copyleaks بشكل مستقل بجمع وإنشاء مجموعة متنوعة من مجموعات بيانات الاختبار. تتكون كل مجموعة بيانات من عدد محدود من الصور مع تصنيف متوقع يشير إلى مصدرها. تُقسم مجموعات البيانات إلى فئتين:قام فريقا ضمان الجودة وعلوم البيانات في مشروع Copyleaks بشكل مستقل بجمع وإنشاء مجموعة متنوعة من مجموعات بيانات الاختبار. تتكون كل مجموعة بيانات من عدد محدود من الصور مع تصنيف متوقع يشير إلى مصدرها. وتنقسم مجموعات البيانات إلى فئتين:

  • إنسان كامل: صور أصلية تم التقاطها بواسطة كاميرا ولم يتم تعديلها بواسطة الذكاء الاصطناعي التوليدي. تم جمع هذه الصور من مجموعات بيانات تم التحقق منها أو تم إنشاؤها يدويًا.

     

  • الذكاء الاصطناعي الكامل: صور تم إنشاؤها بالكامل بواسطة أحدث نماذج الذكاء الاصطناعي.

تم إنشاء الصور المولدة بواسطة الذكاء الاصطناعي باستخدام مجموعة متنوعة من نماذج الذكاء الاصطناعي التوليدية. أُجريت الاختبارات على واجهة برمجة التطبيقات Copyleaks، وقمنا بتجميع النتائج لحساب أداء النموذج. 

تم إجراء التقييم حصريًا على الصور التي تستوفي هذه المتطلبات الفنية: الحد الأدنى للأبعاد 512 × 512 بكسل، وحجم الملف أقل من 32 ميجابايت، والدقة أقل من 16 ميجابكسل، كما هو محدد في الوثائق.

مقاييس التقييم

يقدم المنتج تنبؤًا على شكل طبقة فوقية للأجزاء التي تم إنشاؤها بواسطة الذكاء الاصطناعي. ثم يتم تقييم الأداء العام بناءً على مدى دقة النموذج في تصنيف الصور، وفقًا لفئتها الحقيقية.

مقاييس الأداء حسب نوع الصورة

ولتوفير مقياس واضح ودقيق للدقة، نستخدم مقاييس مختلفة على مستوى البكسل اعتمادًا على نوع الصورة التي يتم اختبارها:

  • بالنسبة للصور البشرية: المقياس الرئيسي هو مستوى البكسل معدل النتائج الإيجابية الكاذبة (FPR). لكي تُعتبر الصورة الكشف الناجح (النتيجة السلبية الحقيقية)، يجب أن تكون نسبة البكسلات المصنفة بشكل خاطئ على أنها "ذكاء اصطناعي" هي أقل من 5%. يضمن هذا الحد الصارم أن النموذج يتجنب اتهام الصور الأصلية زوراً.

  • بالنسبة للصور المبنية بالذكاء الاصطناعي: المقياس الأساسي هو مستوى البكسل معدل الإيجابية الحقيقية (TPR). لكي تُعتبر الصورة الكشف الناجح (النتيجة الإيجابية الحقيقية)، يجب أن تكون نسبة البكسلات التي تم تحديدها بشكل صحيح على أنها "ذكاء اصطناعي" هي أكبر من 95%. وهذا يضمن أن النموذج يتعرف بشكل شامل على المحتوى المُنشأ بالكامل.

مقاييس التقارير المجمعة

الأرقام الإجمالية للدقة المعروضة في نتائج الجداول، مثل TNR (الدقة البشرية) و TPR (AI), يتم تجميع هذه النتائج من معايير النجاح على مستوى البكسل. على سبيل المثال، نسبة التباين الكلي (TNR) هي النسبة المئوية لجميع صور البشر التي تم اختبارها والتي استوفت بنجاح المعايير التالية: <5% عتبة البكسل الإيجابي الخاطئ.

نتائج

اختبار فريق علوم البيانات

أجرى فريق علوم البيانات الاختبار المستقل التالي على مجموعة بيانات كبيرة ومتنوعة تحتوي على صور ذات دقة متفاوتة، وأجهزة التقاط، ومولدات صور، وأنواع محتوى.

اسم مجموعة البيانات صور بشرية (عددها 31374) صور الذكاء الاصطناعي (عددها 33947)
دقة 98.6% 97.6%

اختبار فريق ضمان الجودة

أجرى فريق ضمان الجودة اختبارًا مستقلًا باستخدام صور تم إنشاؤها خصيصًا للتقييم بعد تدريب النموذج. تتضمن مجموعة بيانات الاختبار صورًا بدقة متفاوتة، تم التقاطها بواسطة أجهزة مختلفة، وتم إنشاؤها بواسطة مولدات صور متنوعة، وتتميز بأنواع محتوى مختلفة.

اسم مجموعة البيانات صور بشرية (عددها 10000) صور الذكاء الاصطناعي (عددها 10000)
دقة 99.3% 98%

تحليل الأخطاء

خلال عملية التقييم، نحدد ونحلل التقييمات غير الصحيحة لتمكين فريق علوم البيانات من تصحيح الأسباب الجذرية. تُسجل جميع الأخطاء وتُصنف بشكل منهجي بناءً على طبيعتها وخصائصها في "عملية تحليل الأسباب الجذرية". تهدف هذه العملية إلى فهم الأسباب الكامنة وراء الأخطاء وتحديد الأنماط المتكررة، مما يضمن التحسين المستمر وقابلية نموذجنا للتكيف. تُستخدم هذه الرؤى لتحسين الإصدارات المستقبلية من النموذج.

القيود

على الرغم من أن نموذجنا يحقق نتائج متطورة، إلا أنه لا يوجد نظام كشف مثالي، ويمكن لنموذجنا أن يرتكب أخطاء، مثل تصنيف مجموعة بكسل معينة بشكل خاطئ.

تم تدريب كاشف الصور المدعوم بالذكاء الاصطناعي خصيصًا لتحديد التلاعبات من أحدث الصور أدوات الذكاء الاصطناعي التوليدي. لا يكتشف النظام حاليًا التعديلات الشائعة الأخرى على الصور، بما في ذلك:

  • التعديلات اليدوية: التغييرات التي يجريها شخص باستخدام برامج تحرير الصور التقليدية مثل فوتوشوب.

     

  • الصور المجمعة: صور تم إنشاؤها من خلال دمج أجزاء من صور أصلية مختلفة.

     

  • فلاتر وتعديلات بسيطة: تطبيق التأثيرات الفوتوغرافية (مثل "العتيق"، الأبيض والأسود) أو التعديلات الأساسية (مثل التوضيح، والتشويش، والقص).