资源

评估 Copyleaks 的准确性 人工智能探测器

循序渐进的方法

我们认为,AI Detector 的完全透明比以往任何时候都更加重要 准确性、误报率和漏报率、有待改进的领域等,以确保负责任地使用和采用。这项全面的分析旨在确保我们的 AI Detector V8 模型测试方法完全透明。

考试日期: 2025年1月15日

发布日期: 2025年2月18日

测试模型: V8

Copyleaks 数据科学和 QA 团队独立进行测试,以确保结果公正准确。测试数据与训练数据不同,且不包含之前提交给 AI Detector 进行 AI 检测的任何内容。


测试数据包括来自已验证数据集的人工书写文本以及来自各种 AI 模型的 AI 生成文本。测试使用 Copyleaks API 进行。

指标包括基于正确和错误文本识别率的总体准确度、F1 分数、真负率 (TNR)、真正率 (TPR)、准确度和混淆矩阵。

测试验证了 AI 检测器在区分人类书写和 AI 生成的文本方面显示出较高的检测准确率,同时保持较低的误报率。

评估流程

我们采用双部门系统设计评估流程,以确保顶级的质量、标准和可靠性。我们有两个独立的部门负责模型评估:数据科学团队和质量保证团队。每个部门都独立使用各自的评估数据和工具,并且无法访问其他部门的评估流程。这种分离确保了评估结果的公正、客观和准确,同时涵盖了模型性能的所有可能维度。此外,必须注意的是,测试数据与训练数据是分开的,我们只使用模型过去从未见过的新数据来测试它们。

方法论

Copyleaks 的 QA 和数据科学团队独立收集了各种测试数据集。每个测试数据集包含有限数量的文本。每个数据集的预期标签(即指示特定文本是由人类还是人工智能撰写的标记)取决于数据的来源。人类文本收集自现代生成式人工智能系统兴起之前或之后由其他可信来源发表的文本,并经过团队再次验证。人工智能生成的文本则使用各种生成式人工智能模型和技术生成。


测试针对 Copyleaks API 执行。我们根据目标标签检查 API 对每篇文本的输出是否正确,然后将得分汇总起来,计算出混淆矩阵。

成果:数据科学团队

数据科学团队进行了以下独立测试: 

  • 文本语言为英语,共测试了来自各个 LLM 的 300,000 篇人工编写的文本和 200,000 篇 AI 生成的文本. 
  • 文本长度各不相同,但数据集仅包含长度大于 350 个字符的文本 - 这是我们的产品接受的最小长度。

评估指标

此文本分类任务中使用的指标是:

1. 混淆矩阵:显示 TP(真阳性)、FP(假阳性)、TN(真阴性)和 FN(假阴性)的表格。

2. 准确率:真实结果(真阳性和真阴性)的比例 文本总数 已检查。

3. TNR:准确负面预测的比例 所有负面预测.

在人工智能检测的背景下,TNR 是模型对人类文本的准确率。

4. TPR(又称召回率):真实阳性结果在 所有实际预测.

在人工智能检测的背景下,TPR 是模型对人工智能生成文本的准确率。

5. F-beta 分数: 精度和召回率之间的加权调和平均值,更倾向于精度(因为我们希望获得较低的假阳性率).

人工智能与人类数据集的结合

人工智能与人类数据集的结合

结果:QA 团队

质量保证团队进行了以下独立测试:

  • 文本语言为英语,共测试了来自各个法学硕士项目的 220,000 篇人工编写的文本和 40,000 篇人工智能生成的文本.
  • 文本长度各不相同,但数据集仅包含长度大于 350 个字符的文本 - 这是我们的产品接受的最小长度。

仅限人类的数据集

仅限人类的数据集

仅限 AI 的数据集

*模型版本可能会随时间变化。文本是使用上述生成式 AI 模型的某个可用版本生成的。

敏感度等级

自 v7.1 版本起,AI 检测模型的灵敏度级别分为 3 个等级。以下是 v8 模型灵敏度级别的测试结果。

AI 检测灵敏度级别

真阳性(AI文本)和真阴性(人类文本)的灵敏度准确度

AI 检测灵敏度水平真/假阴性图表

人类和人工智能文本错误分析

在评估过程中,我们识别并分析了模型的错误评估,并创建了一份详细的报告,以便数据科学团队纠正其根本原因。这一切都是在不向数据科学团队透露错误评估的情况下进行的。所有错误都会根据其性质和特性进行系统地记录和分类,这被称为“根本原因分析流程”,旨在了解根本原因并识别重复出现的模式。这一流程始终持续进行,确保我们的模型能够持续改进并保持良好的适应性。


这种测试的一个例子是 我们的分析 使用我们的 V4 模型,对 2013 年至 2024 年的互联网数据进行了分析。从 2013 年开始,我们每年都会抽取 100 万条文本样本,并使用 2013 年至 2020 年(在人工智能系统发布之前)检测到的任何误报来进一步改进模型。

类似于如何 世界各地的研究人员 我们一直在测试不同的 AI 检测平台,以评估其能力和局限性,并将继续鼓励用户进行实际测试。最终,随着新模型的发布,我们将继续分享测试方法、准确性以及其他需要注意的重要事项。