X

Copyleaks 研究发现近 60% 的 GPT-3.5 输出包含某种形式的抄袭内容

纽约州纽约市 – 2024 年 2 月 22 日 根据 2023 年 报告到 2026 年,几乎 90% 的在线内容将由人工智能生成。由于人工智能内容饱和,人们担心数据污染和不可避免的 模型崩溃 引起人们对人工智能生成的文本的整体质量和可靠性的担忧。

 

此外,人们对原创性的担忧也开始更加广泛。 几起诉讼 关于人工智能侵犯版权和可能抄袭的问题,全球各地的教育机构和企业都在质疑人工智能文本的真实性:它来自哪里?作为原创内容使用是否安全

 

归根结底,AI抄袭了吗?

 

为了找到答案, Copyleaks, 抄袭识别、AI 内容检测和 GenAI 治理领域的领导者, 进行了分析,以确定人工智能生成的内容的原创程度以及是否存在潜在的抄袭程度。

 

要进行此分析:

 

Copyleaks 要求 GPT-3.5 编写 1,045 个输出,平均 412 个字 在所有输出中, 26 个主题:物理、化学、科学、心理学、法律、经济学、生物学、商业研究、工程、会计、地理、数学、计算机科学、体育、世界历史、哲学、英语语言、艺术、体育、统计学、社会科学、自然、音乐、社会学、人文学科、戏剧。 

 

Copyleaks 衡量了所有 26 个受试者中,文本完全相同(一一复制他人的文本并将其当作自己的文本)、细微改动(对源材料进行细微改动的内容,例如改变句子中的动词(例如,从慢到慢))和释义(将别人的想法用自己的话表达出来而不注明原始来源)程度最高的具体输出。 

 

分析的主要发现包括:

 

  • GPT-3.5 输出中有 59.7% 包含某种形式的抄袭内容。所有输出中有 45.7% 包含相同的文本,27.4% 包含微小更改,46.5% 包含改写文本。这也凸显出 GPT-3.5 并未制造“全新”文本;大多数内容来自以前的来源,引发了有关抄袭、版权和知识产权的问题。

     

  • 抄袭率最高的 GPT-3.5 输出是物理学,其中 27.0% 的文本是相同的。其次是化学输出,其中 24.7% 的文本是相同的。

     

  • 该分析还检查了相似度分数。相似度分数是一种 Copyleaks 特定的评分方法,汇总了相同文本、细微更改、释义文本等的比例。0% 分数表示所有内容都是原创的,而 100% 分数则表示没有任何内容是原创的。
     
  • 平均相似度得分最高的学科是物理学(31.3%),其次是心理学(27.7%)和科学(26.7%)。平均相似度得分最低的学科是戏剧(0.9%)、人文学科(2.8%)和英语语言(5.4%)。

     

Copyleaks 首席执行官兼联合创始人 Alon Yamin 表示:“分析提供的见解可以帮助教育机构和组织在检查抄袭时重点关注某些科目,使他们能够根据需要调整方法,以确保解决所有潜在风险和问题。例如,物理、化学、数学和心理学可能需要更深入地研究以识别抄袭文本,而戏剧和人文等其他科目可能不需要那么仔细的审查。”

 

Yamin 补充道:“此外,数据强调了组织需要采用解决方案来检测 AI 生成内容的存在,并提供必要的透明度来防止 AI 内容中存在抄袭行为。包括 AI 和抄袭检测在内的全方位保护可确保遵守版权和许可规定,并确保所有内容的真实性和原创性。”

###

关于 Copyleaks

Copyleaks 是一家基于人工智能的文本分析公司,致力于创建安全的环境以分享想法并自信地学习,全球企业、教育机构和数百万个人使用它来识别 100 多种语言中的潜在抄袭行为,发现人工智能生成的内容,确保负责任地采用生成人工智能,验证真实性和所有权,并支持无错误写作。

如需更多信息,请访问我们的 网站 或关注我们 领英.