संसाधन

Copyleaks की सटीकता का मूल्यांकन एआई डिटेक्टर

चरण-दर-चरण कार्यप्रणाली

हमारा मानना है कि एआई डिटेक्टर की सटीकता, गलत सकारात्मक और गलत नकारात्मक परिणामों की दर, सुधार के क्षेत्रों आदि के बारे में पूरी तरह से पारदर्शी होना, जिम्मेदार उपयोग और अपनाने को सुनिश्चित करने के लिए पहले से कहीं अधिक महत्वपूर्ण है। इस व्यापक विश्लेषण का उद्देश्य हमारे एआई डिटेक्टर के V10 मॉडल की परीक्षण पद्धति के बारे में पूर्ण पारदर्शिता सुनिश्चित करना है।.

परीक्षा तिथि: 16 अक्टूबर, 2025

प्रकाशित तिथि: 12 नवंबर, 2025

परीक्षण किया गया मॉडल: वी10

Copyleaks डेटा साइंस और QA टीमों ने निष्पक्ष और सटीक परिणाम सुनिश्चित करने के लिए स्वतंत्र रूप से परीक्षण किए। परीक्षण डेटा प्रशिक्षण डेटा से भिन्न था और इसमें AI डिटेक्टर को AI पहचान के लिए पहले से प्रस्तुत की गई कोई सामग्री शामिल नहीं थी।.

परीक्षण डेटा में सत्यापित डेटासेट से प्राप्त मानव-लिखित पाठ और विभिन्न AI मॉडलों से AI-जनित पाठ शामिल थे। परीक्षण Copyleaks API के साथ किया गया था।.

इन मापदंडों में सही और गलत पाठ पहचान की दर पर आधारित समग्र सटीकता और आरओसी-एयूसी (रिसीवर ऑपरेटिंग कैरेक्टरिस्टिक - एरिया अंडर द कर्व) शामिल हैं, जो ट्रू पॉजिटिव रेट (टीपीआर) और फॉल्स पॉजिटिव रेट (एफपीआर) की जांच करता है। अतिरिक्त मापदंडों में एफ1 स्कोर, ट्रू नेगेटिव रेट (टीएनआर) और कन्फ्यूजन मैट्रिक्स शामिल हैं।.

परीक्षण से यह पुष्टि होती है कि एआई डिटेक्टर मानव-लिखित और एआई-जनित पाठ के बीच अंतर करने के लिए उच्च सटीकता प्रदर्शित करता है, जबकि झूठी सकारात्मक दर कम बनाए रखता है।.

मूल्यांकन प्रक्रिया

दो विभागों वाली प्रणाली का उपयोग करते हुए, हमने अपनी मूल्यांकन प्रक्रिया को उच्च स्तरीय गुणवत्ता, मानकों और विश्वसनीयता सुनिश्चित करने के लिए डिज़ाइन किया है। मॉडल का मूल्यांकन करने के लिए हमारे पास दो स्वतंत्र विभाग हैं: डेटा साइंस और QA टीमें। प्रत्येक विभाग अपने मूल्यांकन डेटा और उपकरणों के साथ स्वतंत्र रूप से काम करता है और दूसरे विभाग की मूल्यांकन प्रक्रिया तक उसकी पहुँच नहीं होती है। यह अलगाव सुनिश्चित करता है कि मूल्यांकन परिणाम निष्पक्ष, वस्तुनिष्ठ और सटीक हों, साथ ही हमारे मॉडल के प्रदर्शन के सभी संभावित आयामों को भी शामिल करें। इसके अलावा, यह ध्यान रखना महत्वपूर्ण है कि परीक्षण डेटा को प्रशिक्षण डेटा से अलग रखा जाता है, और हम अपने मॉडलों का परीक्षण केवल नए डेटा पर करते हैं जिसे उन्होंने पहले कभी नहीं देखा है।.

क्रियाविधि

Copyleaks की QA और डेटा साइंस टीमों ने स्वतंत्र रूप से कई परीक्षण डेटासेट एकत्र किए हैं। प्रत्येक परीक्षण डेटासेट में सीमित संख्या में टेक्स्ट शामिल हैं। प्रत्येक डेटासेट का अपेक्षित लेबल—एक मार्कर जो यह दर्शाता है कि कोई विशिष्ट टेक्स्ट मानव द्वारा लिखा गया है या AI द्वारा—डेटा के स्रोत के आधार पर निर्धारित किया जाता है। मानव द्वारा लिखे गए टेक्स्ट आधुनिक जनरेटिव AI सिस्टम के उदय से पहले प्रकाशित टेक्स्ट से या बाद में अन्य विश्वसनीय स्रोतों से एकत्र किए गए थे, जिनकी टीम द्वारा पुनः पुष्टि की गई थी। AI द्वारा जनरेट किए गए टेक्स्ट विभिन्न जनरेटिव AI मॉडल और तकनीकों का उपयोग करके तैयार किए गए थे।.

ये परीक्षण Copyleaks API के विरुद्ध किए गए। हमने जाँच की कि क्या API का आउटपुट लक्ष्य लेबल के आधार पर प्रत्येक पाठ के लिए सही था, और फिर भ्रम मैट्रिक्स की गणना करने के लिए स्कोर को एकत्रित किया।.

परिणाम: डेटा विज्ञान टीम

डेटा साइंस टीम ने निम्नलिखित स्वतंत्र परीक्षण किया:

  • पाठों की भाषा अंग्रेजी थी, और कुल मिलाकर 300,000 मानव-लिखित पाठों और विभिन्न एलएलएम से 200,000 एआई-जनित पाठों का परीक्षण किया गया।.
  • टेक्स्ट की लंबाई अलग-अलग होती है, लेकिन डेटासेट में केवल 350 अक्षरों से अधिक लंबाई वाले टेक्स्ट शामिल हैं - जो कि हमारे उत्पाद द्वारा स्वीकार की जाने वाली न्यूनतम लंबाई है।.

मूल्यांकन मेट्रिक्स

इस टेक्स्ट क्लासिफिकेशन टास्क में उपयोग किए जाने वाले मेट्रिक्स निम्नलिखित हैं:

1. भ्रम मैट्रिक्स: एक तालिका जो टीपी (ट्रू पॉजिटिव), एफपी (फॉल्स पॉजिटिव), टीएन (ट्रू नेगेटिव) और एफएन (फॉल्स नेगेटिव) दर्शाती है।.

2. सटीकता: सही परिणामों (सच्चे सकारात्मक और सच्चे नकारात्मक दोनों) का अनुपात ग्रंथों की कुल संख्या जिनकी जाँच की गई थी।.

3. सच्ची नकारात्मक दर (टीएनआर): वास्तविक नकारात्मक घटनाओं का अनुपात क्या सभी नकारात्मक भविष्यवाणियां हैं?.

एआई डिटेक्शन के संदर्भ में, टीएनआर मानव पाठ पर मॉडल की सटीकता है।.

4. (टीपीआर) जिसे रिकॉल के नाम से भी जाना जाता है: सही सकारात्मक परिणामों का अनुपात सभी वास्तविक भविष्यवाणियाँ।.

एआई डिटेक्शन के संदर्भ में, टीपीआर एआई द्वारा उत्पन्न टेक्स्ट पर मॉडल की सटीकता है।.

5.  एफ-बीटा स्कोर: The प्रेसिजन और रिकॉल के बीच भारित हार्मोनिक माध्य, जिसमें प्रेसिजन को अधिक प्राथमिकता दी जाती है (क्योंकि हम कम फॉल्स पॉजिटिव रेट को प्राथमिकता देना चाहते हैं)।.

संयुक्त AI और मानव डेटासेट

डेटासेट का नाम पाठों की संख्या मानव ग्रंथों की संख्या एआई टेक्स्ट की संख्या टीपीआर टीएनआर एफ-बीटा(0.5)
आंतरिक अत्यंत कठिन डेटासेट, जिनमें विरोधी हमले और विशेष उपकरण शामिल हैं 500,000 300,000 200,000 0.988 0.999 0.997

परिणाम: QA टीम

क्यूए टीम ने निम्नलिखित स्वतंत्र परीक्षण किया:

  • पाठों की भाषा अंग्रेजी थी, और कुल मिलाकर 229,843 मानव-लिखित पाठों और विभिन्न एलएलएम से 18,712 एआई-जनित पाठों का परीक्षण किया गया।.
  • टेक्स्ट की लंबाई अलग-अलग होती है, लेकिन डेटासेट में केवल 350 अक्षरों से अधिक लंबाई वाले टेक्स्ट शामिल हैं - जो कि हमारे उत्पाद द्वारा स्वीकार की जाने वाली न्यूनतम लंबाई है।.

केवल मानव डेटासेट

डेटासेट का नाम पाठों की संख्या सही ढंग से मानव के रूप में पहचाना गया गलती से एआई के रूप में पहचाना गया शुद्धता
सामान्य पाठ 9,979 9,979 0 1
लेख, समाचार, ब्लॉग, सोशल पोस्ट 9,991 9,982 9 0.9991
इंटरनेट वेब पेज डेटासेट 99,921 99,918 3 0.9999
छात्रों के निबंध 10,000 9,998 2 0.9998
शोध पत्र 99,952 99,906 46 0.9995
कुल: 229,843 229,783 60 0.9997

केवल AI डेटासेट

डेटासेट का नाम पाठों की संख्या गलती से मानव के रूप में पहचाना गया एआई के रूप में सही पहचान की गई शुद्धता
ओपनएआई परिवार के मॉडल - अन्य मॉडल 12,880 129 12,751 0.9899
जीपीटी-5 1,207 11 1,196 0.9909
मिथुन परिवार के मॉडल 1,978 7 1,971 0.9964
क्लाउड परिवार के मॉडल 1,072 1 1,071 0.9991
ग्रोक परिवार के मॉडल 1,575 0 1,575 1
कुल: 18,712 148 18,564 0.992

*मॉडल संस्करण समय के साथ बदल सकते हैं। उपरोक्त जनरेटिव एआई कंपनियों के मॉडल के उपलब्ध वर्तमान संस्करणों का उपयोग करके पाठ तैयार किए गए थे।.

संवेदनशीलता स्तर

संस्करण 7.1 से हमारे पास एआई-डिटेक्शन मॉडल के लिए 3 संवेदनशीलता स्तर हैं। मॉडल संस्करण 10 के संवेदनशीलता स्तरों के परीक्षण परिणाम यहां दिए गए हैं।.

पहचान संवेदनशीलता परिभाषा गलत सकारात्मक गलत नकारात्मक
1 अतिरिक्त सुरक्षित अतिरिक्त एआई-आधारित डिटेक्शन फिल्टर का उपयोग करके गलत पॉजिटिव परिणामों को कम करने के लिए डिज़ाइन किया गया है।.

यह न्यूनतम मानवीय संशोधन के साथ एआई द्वारा उत्पन्न टेक्स्ट का पता लगाने में सक्षम है।.
0.009% 1.36%
2 संतुलित (डिफ़ॉल्ट -
यह संस्करण है
जो दिखाया गया है
उपरोक्त परिणाम)
गलत पहचान की संभावना को कम करते हुए एआई सामग्री का पता लगाने के लिए आदर्श।.

यह मध्यम मात्रा में मानवीय संशोधन वाले कृत्रिम बुद्धिमत्ता से उत्पन्न पाठ का पता लगाने के लिए अच्छा है।.
0.026% 0.79%
3 अतिरिक्त संवेदनशील हमारा सबसे संवेदनशील मॉडल एआई टेक्स्ट को चिह्नित करने के लिए डिज़ाइन किया गया था जिसे "ह्यूमनाइज़र" या टेक्स्ट स्पिनर के माध्यम से प्रोसेस किया गया था।. 0.05% 0.53%

संवेदनशीलता स्तर के अनुसार सच्ची सकारात्मकता (एआई-पाठ) और सच्ची नकारात्मकता (मानव-पाठ) की सटीकता

सच्चे सकारात्मक
सच्चे नकारात्मक
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
न्यूनतम गलत सकारात्मक परिणाम (संवेदनशीलता 1)
99.21%
99.97%
संतुलित (संवेदनशीलता 2)
99.47%
99.95%
अत्यधिक संवेदनशील (संवेदनशीलता 3)
संवेदनशीलता

मानव और AI पाठ त्रुटि विश्लेषण

मूल्यांकन प्रक्रिया के दौरान, हमने मॉडल द्वारा किए गए गलत आकलन की पहचान और विश्लेषण किया और एक विस्तृत रिपोर्ट तैयार की, जिससे डेटा साइंस टीम को मूल कारणों को सुधारने में मदद मिलेगी। यह प्रक्रिया गलत आकलन को डेटा साइंस टीम के सामने उजागर किए बिना की गई है। सभी त्रुटियों को व्यवस्थित रूप से लॉग किया जाता है और उनके स्वरूप और प्रकृति के आधार पर "मूल कारण विश्लेषण प्रक्रिया" में वर्गीकृत किया जाता है, जिसका उद्देश्य मूल कारणों को समझना और बार-बार दोहराए जाने वाले पैटर्न की पहचान करना है। यह प्रक्रिया निरंतर चलती रहती है, जिससे समय के साथ हमारे मॉडल में निरंतर सुधार और अनुकूलनशीलता सुनिश्चित होती है।.

ऐसे परीक्षण का एक उदाहरण है हमारा विश्लेषण हमारे V4 मॉडल का उपयोग करके 2013 से 2024 तक के इंटरनेट डेटा का विश्लेषण किया गया। हमने 2013 से शुरू करते हुए, प्रत्येक वर्ष के 10 लाख टेक्स्ट का नमूना लिया, और मॉडल को और बेहतर बनाने में मदद करने के लिए, AI सिस्टम के रिलीज़ होने से पहले, 2013-2020 के बीच पाए गए किसी भी गलत सकारात्मक परिणाम का उपयोग किया।.

20 हज़ार
15k
10k
5 किमी
0
कृत्रिम बुद्धिमत्ता के रूप में चिह्नित ग्रंथों की संख्या (N)
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
वर्ष

इसी तरह दुनिया भर के शोधकर्ताओं विभिन्न एआई डिटेक्टर प्लेटफ़ॉर्म की क्षमताओं और सीमाओं का आकलन करने के लिए उनका परीक्षण करते रहने के बावजूद, हम अपने उपयोगकर्ताओं को वास्तविक दुनिया में परीक्षण करने के लिए पूरी तरह प्रोत्साहित करते हैं। अंततः, जैसे-जैसे नए मॉडल जारी होंगे, हम परीक्षण पद्धतियों, सटीकता और अन्य महत्वपूर्ण बातों को साझा करते रहेंगे।.