リソース

Copyleaksの精度評価 AI検出器

ステップバイステップの方法論

責任ある利用と導入を確実にするために、AI Detectorの精度、誤検知率と誤検知率、改善点などについて、これまで以上に透明性を確保することが重要だと考えています。この包括的な分析は、AI DetectorのV10モデルテスト手法に関する完全な透明性を確保することを目的としています。.

テスト日: 2025年10月16日

公開日: 2025年11月12日

テスト対象モデル: V10

CopyleaksのデータサイエンスチームとQAチームは、偏りのない正確な結果を保証するために、独立してテストを実施しました。テストデータはトレーニングデータとは異なり、AI検出のためにAI Detectorに以前に送信されたコンテンツは含まれていませんでした。.

テストデータは、検証済みデータセットから取得した人間が作成したテキストと、様々なAIモデルから生成されたAIテキストで構成され、Copyleaks APIを用いて実施されました。.

指標には、テキストの正誤識別率に基づく総合精度と、真陽性率(TPR)と偽陽性率(FPR)を検証するROC-AUC(受信者動作特性 - 曲線下面積)が含まれます。その他の指標には、F1スコア、真陰性率(TNR)、混同行列などがあります。.

テストでは、AI 検出器が低い誤検出率を維持しながら、人間が書いたテキストと AI が生成したテキストを区別する高い検出精度を示すことが検証されています。.

評価プロセス

二部門制を採用し、最高レベルの品質、基準、信頼性を確保するための評価プロセスを設計しました。モデルの評価は、データサイエンスチームとQAチームという独立した2つの部門で行われます。各部門はそれぞれ独自の評価データとツールを用いて独立して作業し、他方の評価プロセスにはアクセスできません。この分離により、評価結果は偏りがなく、客観的かつ正確でありながら、モデルのパフォーマンスのあらゆる側面を捉えることができます。また、テストデータはトレーニングデータから分離されており、モデルは過去に使用したことのない新しいデータのみでテストされている点も重要です。.

方法論

CopyleaksのQAチームとデータサイエンスチームは、それぞれ独立して様々なテストデータセットを収集しました。各テストデータセットは、有限数のテキストで構成されています。各データセットの期待ラベル(特定のテキストが人間によって書かれたものかAIによって書かれたものかを示すマーカー)は、データのソースに基づいて決定されます。人間によるテキストは、現代の生成AIシステムが台頭する以前に公開されたテキスト、またはその後、チームによって再検証された他の信頼できるソースから収集されました。AI生成テキストは、様々な生成AIモデルと手法を用いて生成されました。.

テストはCopyleaks APIに対して実行されました。ターゲットラベルに基づいて各テキストに対するAPIの出力が正しいかどうかを確認し、スコアを集計して混同行列を計算しました。.

結果: データサイエンスチーム

データ サイエンス チームは、次の独立したテストを実施しました。

  • テキストの言語は英語で、さまざまな LLM からの人間が書いたテキスト 30 万件と AI が生成したテキスト 20 万件が合計でテストされました。.
  • テキストの長さはさまざまですが、データセットには、当社の製品が受け入れる最小値である 350 文字を超えるテキストのみが含まれています。.

評価指標

このテキスト分類タスクで使用されるメトリックは次のとおりです。

1. 混同行列: TP (真陽性)、FP (偽陽性)、TN (真陰性)、FN (偽陰性) を示す表。.

2. 正確性: 真の結果(真陽性と真陰性の両方)の割合 テキストの総数 チェックされたもの。.

3. 真陰性率(TNR): 実際に否定的な事例の割合は すべては否定的な予測である.

AI 検出の文脈では、TNR は人間のテキストに対するモデルの精度です。.

4. (TPR) 別名リコール: 真陽性結果の割合は 実際の予測すべて。.

AI 検出の文脈では、TPR は AI によって生成されたテキストに対するモデルの精度です。.

5.  Fベータスコア: 適合率と再現率の間の加重調和平均。適合率をより重視します (偽陽性率を低くしたいため)。.

AIと人間のデータセットを組み合わせた

データセットの名前 テキストの数 人間のテキストの数 AIテキストの数 TPR TNR Fベータ(0.5)
敵対的攻撃や特殊ツールを含む内部の超難解データセット 500,000 300,000 200,000 0.988 0.999 0.997

結果: QAチーム

QA チームは次の独立したテストを実施しました。

  • テキストの言語は英語で、さまざまな LLM から人間が書いたテキスト 229,843 件と AI が生成したテキスト 18,712 件が合計でテストされました。.
  • テキストの長さはさまざまですが、データセットには、当社の製品が受け入れる最小値である 350 文字を超えるテキストのみが含まれています。.

人間のみのデータセット

データセットの名前 テキストの数 人間として正しく識別されました AIと誤認される 正確さ
一般的なテキスト 9,979 9,979 0 1
記事、ニュース、ブログ、ソーシャル投稿 9,991 9,982 9 0.9991
インターネットウェブページデータセット 99,921 99,918 3 0.9999
学生のエッセイ 10,000 9,998 2 0.9998
学術論文 99,952 99,906 46 0.9995
合計: 229,843 229,783 60 0.9997

AIのみのデータセット

データセットの名前 テキストの数 誤って人間と認識されました AIとして正しく識別 正確さ
OpenAIファミリーモデル - その他のモデル 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
ジェミニファミリーモデル 1,978 7 1,971 0.9964
クロード家のモデル 1,072 1 1,071 0.9991
Grokファミリーモデル 1,575 0 1,575 1
合計: 18,712 148 18,564 0.992

*モデルのバージョンは変更される場合があります。テキストは、上記の生成AI企業が提供するモデルの最新バージョンを使用して生成されました。.

感度レベル

バージョン7.1以降、AI検出モデルには3つの感度レベルがあります。以下は、モデルバージョン10の各感度レベルのテスト結果です。.

ID 感度 意味 誤検知 偽陰性
1 エクストラセーフ 追加の AI 検出ベースのフィルターを使用して誤検知を最小限に抑えるように設計されています。.

人間による最小限の変更を加えずに AI によって生成されたテキストを検出するのに適しています。.
0.009% 1.36%
2 バランス(デフォルト -
これはバージョンです
それは
上記の結果
誤検知を最小限に抑えながら AI コンテンツを検出するのに最適です。.

適度に人間による変更が加えられた AI 生成テキストを検出するのに適しています。.
0.026% 0.79%
3 超敏感 当社の最も感度の高いモデルは、「ヒューマナイザー」またはテキスト スピナーを経由した AI テキストにフラグを設定するように設計されています。. 0.05% 0.53%

感度レベル別の真陽性(AIテキスト)と真陰性(人間テキスト)の精度

真陽性
真陰性
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
最小偽陽性(感度1)
99.21%
99.97%
バランス(感度2)
99.47%
99.95%
超高感度(感度3)
感度

人間とAIによるテキストエラー分析

評価プロセスにおいて、モデルによる誤った評価を特定・分析し、データサイエンスチームが根本原因を修正できるよう詳細なレポートを作成しました。このレポートは、データサイエンスチームに誤った評価を公開することなく作成されました。すべてのエラーは、「根本原因分析プロセス」において体系的に記録され、その特性と性質に基づいて分類されます。このプロセスは、根本原因の理解と繰り返し発生するパターンの特定を目的としています。このプロセスは常に継続的であり、モデルの継続的な改善と適応性を確保しています。.

そのようなテストの一例としては 私たちの分析 2013年から2024年までのインターネットデータを、V4モデルを用いて分析しました。2013年から開始し、毎年100万件のテキストをサンプリングしました。AIシステムのリリース前の2013年から2020年にかけて検出された誤検知データも活用し、モデルのさらなる改善に役立てました。.

2万
15k
10k
5k
0
AIとしてフラグが付けられたテキストの数
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024

同様に 世界中の研究者 私たちは、様々なAI検出プラットフォームの能力と限界を評価するために、これまでも、そしてこれからもテストを続けていきます。ユーザーの皆様には、ぜひ実環境でのテストをお勧めいたします。最終的には、新しいモデルがリリースされるたびに、テスト方法、精度、その他考慮すべき重要な点について引き続き共有していきます。.