资源
我们认为,AI Detector 的完全透明比以往任何时候都更加重要 准确性、误报率和漏报率、有待改进的领域等,以确保负责任地使用和采用。这项全面的分析旨在确保我们的 AI Detector V8 模型测试方法完全透明。
我们采用双部门系统设计评估流程,以确保顶级的质量、标准和可靠性。我们有两个独立的部门负责模型评估:数据科学团队和质量保证团队。每个部门都独立使用各自的评估数据和工具,并且无法访问其他部门的评估流程。这种分离确保了评估结果的公正、客观和准确,同时涵盖了模型性能的所有可能维度。此外,必须注意的是,测试数据与训练数据是分开的,我们只使用模型过去从未见过的新数据来测试它们。
Copyleaks 的 QA 和数据科学团队独立收集了各种测试数据集。每个测试数据集包含有限数量的文本。每个数据集的预期标签(即指示特定文本是由人类还是人工智能撰写的标记)取决于数据的来源。人类文本收集自现代生成式人工智能系统兴起之前或之后由其他可信来源发表的文本,并经过团队再次验证。人工智能生成的文本则使用各种生成式人工智能模型和技术生成。
测试针对 Copyleaks API 执行。我们根据目标标签检查 API 对每篇文本的输出是否正确,然后将得分汇总起来,计算出混淆矩阵。
数据科学团队进行了以下独立测试:
此文本分类任务中使用的指标是:
1. 混淆矩阵:显示 TP(真阳性)、FP(假阳性)、TN(真阴性)和 FN(假阴性)的表格。
2. 准确率:真实结果(真阳性和真阴性)的比例 文本总数 已检查。
3. TNR:准确负面预测的比例 所有负面预测.
在人工智能检测的背景下,TNR 是模型对人类文本的准确率。
4. TPR(又称召回率):真实阳性结果在 所有实际预测.
在人工智能检测的背景下,TPR 是模型对人工智能生成文本的准确率。
5. F-beta 分数: 精度和召回率之间的加权调和平均值,更倾向于精度(因为我们希望获得较低的假阳性率).
质量保证团队进行了以下独立测试:
*模型版本可能会随时间变化。文本是使用上述生成式 AI 模型的某个可用版本生成的。
自 v7.1 版本起,AI 检测模型的灵敏度级别分为 3 个等级。以下是 v8 模型灵敏度级别的测试结果。
真阳性(AI文本)和真阴性(人类文本)的灵敏度准确度
在评估过程中,我们识别并分析了模型的错误评估,并创建了一份详细的报告,以便数据科学团队纠正其根本原因。这一切都是在不向数据科学团队透露错误评估的情况下进行的。所有错误都会根据其性质和特性进行系统地记录和分类,这被称为“根本原因分析流程”,旨在了解根本原因并识别重复出现的模式。这一流程始终持续进行,确保我们的模型能够持续改进并保持良好的适应性。
这种测试的一个例子是 我们的分析 使用我们的 V4 模型,对 2013 年至 2024 年的互联网数据进行了分析。从 2013 年开始,我们每年都会抽取 100 万条文本样本,并使用 2013 年至 2020 年(在人工智能系统发布之前)检测到的任何误报来进一步改进模型。
类似于如何 世界各地的研究人员 我们一直在测试不同的 AI 检测平台,以评估其能力和局限性,并将继续鼓励用户进行实际测试。最终,随着新模型的发布,我们将继续分享测试方法、准确性以及其他需要注意的重要事项。