Ресурс

Оценка точности Copyleaks ИИ-детектор

Пошаговая методика

Мы считаем, что сейчас как никогда важно обеспечить полную прозрачность в отношении точности AI Detector, количества ложных срабатываний и ложных отрицаний, областей для улучшения и многого другого, чтобы гарантировать ответственное использование и внедрение. Этот всесторонний анализ призван обеспечить полную прозрачность в отношении методологии тестирования модели V10 нашего AI Detector.

Дата тестирования: 16 октября 2025 г.

Дата публикации: 12 ноября 2025 г.

Протестированная модель: В10

Команды Copyleaks по анализу данных и контролю качества независимо друг от друга провели тестирование, чтобы обеспечить объективные и точные результаты. Тестовые данные отличались от обучающих данных и не содержали контента, ранее отправленного в AI Detector для обнаружения ИИ.

В качестве тестовых данных использовались текст, написанный человеком и полученный из проверенных наборов данных, а также текст, сгенерированный искусственным интеллектом с помощью различных моделей ИИ. Тестирование проводилось с использованием API Copyleaks.

В число метрик входят общая точность, основанная на соотношении правильной и неправильной идентификации текста, а также ROC-AUC (Receiver Operating Characteristic – Area Under the Curve), которая анализирует показатели истинно положительных результатов (TPR) и ложноположительных результатов (FPR). Дополнительные метрики включают показатель F1, показатель истинно отрицательных результатов (TNR) и матрицы ошибок.

Тестирование подтверждает, что детектор ИИ демонстрирует высокую точность обнаружения, позволяя различать текст, написанный человеком, и текст, сгенерированный ИИ, при сохранении низкого уровня ложных срабатываний.

Процесс оценки

Используя двухведомственную систему, мы разработали процесс оценки, обеспечивающий высочайший уровень качества, соответствия стандартам и надежности. Модель оценивают два независимых отдела: отдел анализа данных и отдел контроля качества. Каждый отдел работает независимо со своими данными и инструментами оценки и не имеет доступа к процессу оценки другого отдела. Такое разделение гарантирует беспристрастность, объективность и точность результатов оценки, охватывая все возможные аспекты производительности нашей модели. Также важно отметить, что тестовые данные отделены от обучающих данных, и мы тестируем наши модели только на новых данных, которые они ранее не использовали.

Методология

Команды Copyleaks по контролю качества и анализу данных независимо друг от друга собрали множество тестовых наборов данных. Каждый тестовый набор данных состоит из конечного числа текстов. Ожидаемая метка — маркер, указывающий, был ли конкретный текст написан человеком или искусственным интеллектом, — для каждого набора данных определяется на основе источника данных. Тексты, написанные людьми, были собраны из текстов, опубликованных до появления современных систем генеративного ИИ, или позже из других надежных источников, которые были повторно проверены командой. Тексты, сгенерированные ИИ, были созданы с использованием различных моделей и методов генеративного ИИ.

Тесты проводились с использованием API Copyleaks. Мы проверяли корректность выходных данных API для каждого текста на основе целевой метки, а затем суммировали результаты для расчета матрицы ошибок.

Результаты: Команда специалистов по анализу данных

Команда специалистов по анализу данных провела следующее независимое тестирование:

  • Языком текстов был английский, и в общей сложности было протестировано 300 000 текстов, написанных людьми, и 200 000 текстов, сгенерированных искусственным интеллектом, из различных магистерских программ.
  • Длина текста может варьироваться, но наборы данных содержат только тексты длиной более 350 символов — минимального количества, которое принимает наш продукт.

Показатели оценки

В задаче классификации текста используются следующие метрики:

1. Матрица ошибок: Таблица, в которой показаны TP (истинно положительные результаты), FP (ложноположительные результаты), TN (истинно отрицательные результаты) и FN (ложноотрицательные результаты).

2. Точность: Доля истинных результатов (как истинно положительных, так и истинно отрицательных) среди общее количество текстов которые были проверены.

3. Доля истинно отрицательных результатов (TNR): Доля фактически негативных случаев, которые все ли прогнозы негативные.

В контексте обнаружения с помощью ИИ, TNR — это точность модели при работе с текстами, написанными людьми.

4. (TPR, также известный как Recall: Доля истинно положительных результатов в все фактические прогнозы.

В контексте обнаружения с помощью ИИ, TPR — это точность модели при работе с текстами, сгенерированными ИИ.

5.  Показатель F-бета: The Взвешенное гармоническое среднее между точностью и полнотой, с большим упором на точность (поскольку мы хотим добиться более низкой частоты ложноположительных результатов).

Объединенные наборы данных об искусственном интеллекте и данных о человеке

Название набора данных Количество текстов Количество текстов, написанных людьми Количество текстов, созданных с помощью ИИ. ТПР ТНР F-бета(0,5)
Внутренние сверхсложные наборы данных, включая данные об атаках с использованием вредоносного ПО и специальных инструментах. 500,000 300,000 200,000 0.988 0.999 0.997

Результаты: Команда контроля качества

Команда контроля качества провела следующие независимые тесты:

  • Языком текстов был английский, и в общей сложности было протестировано 229 843 текста, написанных людьми, и 18 712 текстов, сгенерированных ИИ, из различных магистерских программ.
  • Длина текста может варьироваться, но наборы данных содержат только тексты длиной более 350 символов — минимального количества, которое принимает наш продукт.

Наборы данных, содержащие только данные о людях

Название набора данных Количество текстов Правильно идентифицировано как человек. Ошибочно идентифицировано как ИИ Точность
Общие тексты 9,979 9,979 0 1
Статьи, новости, блоги, публикации в социальных сетях 9,991 9,982 9 0.9991
Набор данных «Интернет-веб-страницы» 99,921 99,918 3 0.9999
Студенческие эссе 10,000 9,998 2 0.9998
Научные статьи 99,952 99,906 46 0.9995
Общий: 229,843 229,783 60 0.9997

Наборы данных, предназначенные исключительно для ИИ.

Название набора данных Количество текстов Ошибочно идентифицировано как человек. Правильно определено как ИИ Точность
Модели семейства OpenAI - другие модели 12,880 129 12,751 0.9899
ГПТ-5 1,207 11 1,196 0.9909
Модели семейства Близнецов 1,978 7 1,971 0.9964
Модели семьи Клод 1,072 1 1,071 0.9991
Модели семейства Грок 1,575 0 1,575 1
Общий: 18,712 148 18,564 0.992

*Версии моделей могут меняться со временем. Тексты были сгенерированы с использованием доступных текущих версий моделей от вышеупомянутых компаний, занимающихся генеративным искусственным интеллектом.

Уровни чувствительности

Начиная с версии 7.1, у нас есть 3 уровня чувствительности для модели обнаружения ИИ. Вот результаты тестирования уровней чувствительности модели версии 10.

ИДЕНТИФИКАТОР Чувствительность Определение Ложные срабатывания Ложноотрицательные результаты
1 Дополнительная безопасность Разработан для минимизации ложных срабатываний за счет использования дополнительных фильтров на основе искусственного интеллекта.

Подходит для распознавания текста, сгенерированного ИИ, без минимальной ручной обработки.
0.009% 1.36%
2 Сбалансированный (по умолчанию -
это версия
что показано в
(результаты выше)
Идеально подходит для обнаружения контента, созданного с помощью ИИ, с минимизацией ложных срабатываний.

Подходит для распознавания текста, сгенерированного ИИ, с умеренным количеством изменений, внесенных человеком.
0.026% 0.79%
3 Сверхчувствительный Наша наиболее чувствительная модель была разработана для того, чтобы отмечать текст, обработанный искусственным интеллектом с помощью "гуманизатора" или генератора текста. 0.05% 0.53%

Точность истинно положительных результатов (тексты, созданные с помощью ИИ) и истинно отрицательных результатов (тексты, созданные человеком) в зависимости от уровня чувствительности.

истинно положительные результаты
истинно отрицательные
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
Минимальное количество ложных срабатываний (чувствительность 1)
99.21%
99.97%
Сбалансированный (чувствительность 2)
99.47%
99.95%
Сверхчувствительный (чувствительность 3)
Чувствительность

Анализ текстовых ошибок, допущенных человеком и искусственным интеллектом

В процессе оценки мы выявили и проанализировали неверные оценки, сделанные моделью, и создали подробный отчет, который позволит команде специалистов по анализу данных исправить первопричины. Это делается без раскрытия неверных оценок команде специалистов по анализу данных. Все ошибки систематически регистрируются и классифицируются на основе их характера и природы в рамках “процесса анализа первопричин”, целью которого является понимание первопричин и выявление повторяющихся закономерностей. Этот процесс постоянно продолжается, обеспечивая непрерывное улучшение и адаптивность нашей модели с течением времени.

Примером такого теста является наш анализ Мы использовали интернет-данные за период с 2013 по 2024 год, применяя нашу модель V4. Для дальнейшего улучшения модели мы отобрали по 1 миллиону текстовых сообщений за каждый год, начиная с 2013 года, используя все ложные срабатывания, обнаруженные в период с 2013 по 2020 год, до внедрения систем искусственного интеллекта.

20 тыс.
15 тыс.
10 тыс.
0
N текстов, помеченных как ИИ
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
Год

Аналогично тому, как исследователи по всему миру Мы тестируем и продолжаем тестировать различные платформы для обнаружения объектов с помощью ИИ, чтобы оценить их возможности и ограничения, и всячески поощряем наших пользователей проводить тестирование в реальных условиях. В конечном итоге, по мере выпуска новых моделей, мы будем продолжать делиться методологиями тестирования, точностью и другими важными моментами, которые следует учитывать.