リソース

Copyleaksの精度評価 AI検出器

ステップバイステップの方法論

AI検出器の透明性がこれまで以上に重要だと考えています。 精度、誤検知率と誤検知率、改善点など、責任ある利用と導入を確実にするための包括的な分析を実施します。この包括的な分析は、AI DetectorのV8モデルテスト手法に関する完全な透明性を確保することを目的としています。

テスト日: 2025年1月15日

公開日: 2025年2月18日

テスト対象モデル: V8

CopyleaksのデータサイエンスチームとQAチームは、偏りのない正確な結果を保証するために、独立してテストを実施しました。テストデータはトレーニングデータとは異なり、AI検出のためにAI Detectorに以前に送信されたコンテンツは含まれていませんでした。


テストデータは、検証済みデータセットから取得した人間が作成したテキストと、様々なAIモデルから生成されたAIテキストで構成され、Copyleaks APIを使用して実行されました。

メトリックには、正しいテキスト識別と誤ったテキスト識別の率に基づく全体的な精度、F1 スコア、真陰性率 (TNR)、真陽性率 (TPR)、精度、混同マトリックスが含まれます。

テストでは、AI 検出器が、低い誤検出率を維持しながら、人間が書いたテキストと AI が生成したテキストを区別する高い検出精度を示すことが検証されました。

評価プロセス

二部門制を採用し、最高レベルの品質、基準、信頼性を確保するための評価プロセスを設計しました。モデルの評価は、データサイエンスチームとQAチームという独立した2つの部門で行われます。各部門はそれぞれ独自の評価データとツールを用いて独立して作業し、他方の評価プロセスにはアクセスできません。この分離により、評価結果は偏りがなく、客観的で、正確でありながら、モデルのパフォーマンスのあらゆる側面を捉えることができます。また、テストデータはトレーニングデータから分離されており、モデルは過去に使用したことのない新しいデータのみでテストされている点も重要です。

方法論

CopyleaksのQAチームとデータサイエンスチームは、それぞれ独立して様々なテストデータセットを収集しました。各テストデータセットは、有限数のテキストで構成されています。各データセットの期待ラベル(特定のテキストが人間によって書かれたものかAIによって書かれたものかを示すマーカー)は、データのソースに基づいて決定されます。人間によるテキストは、現代の生成AIシステムが台頭する以前に公開されたテキスト、またはその後、チームによって再検証された他の信頼できるソースから収集されました。AIによって生成されたテキストは、様々な生成AIモデルと手法を用いて生成されました。


テストはCopyleaks APIに対して実行されました。ターゲットラベルに基づいて各テキストに対するAPIの出力が正しいかどうかを確認し、スコアを集計して混同行列を計算しました。

結果: データサイエンスチーム

データ サイエンス チームは、次の独立したテストを実施しました。 

  • テキストの言語は英語で、様々なLLMから人間が書いたテキスト30万件とAIが生成したテキスト20万件が合計でテストされた。. 
  • テキストの長さはさまざまですが、データセットには、当社の製品が受け入れる最小値である 350 文字を超えるテキストのみが含まれています。

評価指標

このテキスト分類タスクで使用されるメトリックは次のとおりです。

1. 混同マトリックス: TP (真陽性)、FP (偽陽性)、TN (真陰性)、FN (偽陰性) を示す表。

2. 正確性: 真の結果(真陽性と真陰性の両方)の割合 テキストの総数 チェックされたもの。

3. TNR: 正確な否定的予測の割合 すべての否定的な予測.

AI 検出の文脈では、TNR は人間のテキストに対するモデルの精度です。

4. TPR(リコールとも呼ばれる): 実際の予測すべて.

AI 検出の文脈では、TPR は AI によって生成されたテキストに対するモデルの精度です。

5. Fベータスコア: 適合率と再現率の間の加重調和平均。適合率を優先する(偽陽性率を低くしたいため).

AIと人間のデータセットを組み合わせた

AIと人間のデータセットを組み合わせた

結果: QAチーム

QA チームは次の独立したテストを実施しました。

  • テキストの言語は英語で、様々なLLMから人間が書いたテキスト22万件とAIが生成したテキスト4万件が合計でテストされた。.
  • テキストの長さはさまざまですが、データセットには、当社の製品が受け入れる最小値である 350 文字を超えるテキストのみが含まれています。

人間のみのデータセット

人間のみのデータセット

AIのみのデータセット

*モデルのバージョンは変更される場合があります。テキストは、上記の生成AIモデルの利用可能なバージョンのいずれかを使用して生成されました。

感度レベル

バージョン7.1以降、AI検出モデルには3つの感度レベルがあります。モデルバージョン8の各感度レベルのテスト結果は次のとおりです。

AI検出感度レベル

感度による真陽性(AIテキスト)と真陰性(人間テキスト)の精度

AI検出感度レベル(真陰性/偽陰性)グラフ

人間とAIによるテキストエラー分析

評価プロセスでは、モデルによる誤った評価を特定・分析し、データサイエンスチームが根本原因を修正できるよう詳細なレポートを作成しました。このレポートは、データサイエンスチームに誤った評価を公開することなく作成されました。すべてのエラーは、「根本原因分析プロセス」において体系的に記録され、その特性と性質に基づいて分類されます。このプロセスは、根本原因の理解と繰り返し発生するパターンの特定を目的としています。このプロセスは常に継続的であり、モデルの継続的な改善と適応性を確保しています。


このようなテストの一例としては 私たちの分析 2013年から2024年までのインターネットデータを、V4モデルを用いて分析しました。2013年から開始し、毎年100万件のテキストをサンプリングしました。AIシステムのリリース前の2013年から2020年までに検出された誤検知データも活用し、モデルのさらなる改善に役立てました。

同様に 世界中の研究者 私たちは、様々なAI検出プラットフォームの能力と限界を評価するために、これまでも、そしてこれからもテストを続けていきます。ユーザーの皆様には、ぜひ実環境でのテストをお勧めいたします。最終的には、新しいモデルがリリースされるたびに、テスト手法、精度、その他考慮すべき重要な点について、引き続き共有していきます。