Copyleaks 調査により、GPT-3.5 出力のうち 60% 近くに何らかの形で盗用されたコンテンツが含まれていることが判明

ニューヨーク、ニューヨーク – 2024年2月22日 2023年によると 報告2026年までに、オンラインコンテンツの約90%がAIによって生成されると予想されています。AIコンテンツの飽和により、データ汚染と避けられない モデルの崩壊 AI 生成テキストの全体的な品質と信頼性について懸念が生じます。

 

さらに、独創性に関する幅広い懸念も生まれ始めている。 複数の訴訟 AIが著作権を侵害し、盗作の可能性があるとして、世界中の教育機関や企業がAIテキストの信憑性に疑問を抱いています。そのテキストはどこから来たのか?オリジナルコンテンツとして使用しても安全なのか?

 

結局のところ、AIは盗作をするのでしょうか?

 

それを知るには、 Copyleaks, 盗作の特定、AIコンテンツ検出、GenAIガバナンスのリーダー、 AI によって生成されたコンテンツがどの程度オリジナルであり、盗作の可能性がないのかを判断するための分析を実施しました。

 

この分析を実行するには:

 

CopyleaksはGPT-3.5に次のように書いた。 1,045 出力、平均化 412語 すべての出力にわたって、 26 科目: 物理学、化学、科学、心理学、法律、経済学、生物学、ビジネス研究、工学、会計学、地理学、数学、コンピューターサイエンス、スポーツ、世界史、哲学、英語、美術、体育、統計学、社会科学、自然、音楽、社会学、人文科学、演劇。 

 

Copyleaks は、26 の科目すべてにおいて、同一テキスト (他人のテキストを 1 対 1 でコピーし、それを自分のものとして提出したもの)、軽微な変更 (文中の動詞を変更する (例: slow から slowly) など、ソース マテリアルに軽微な変更を加えたコンテンツ)、言い換え (元のソースを明記せずに他人のアイデアを自分の言葉で表現したもの) のレベルが最も高い特定の出力を評価しました。 

 

分析から得られた主な結果は次のとおりです。

 

  • GPT-3.5 出力の 59.7% に、何らかの形式の盗用コンテンツが含まれていました。全出力の 45.7% には同一のテキストが含まれ、27.4% には軽微な変更が含まれ、46.5% には言い換えられたテキストが含まれていました。これは、GPT-3.5 が「まったく新しい」テキストを製造しているわけではないことも示しています。コンテンツのほとんどは以前のソースからのものであり、盗用、著作権、知的財産に関する問題を引き起こしています。

     

  • 盗用率が最も高かった GPT-3.5 の個別出力は物理学で、テキストの 27.0% が同一でした。これに続いて化学の個別出力では、テキストの 24.7% が同一でした。

     

  • 分析では類似度スコアも調べました。類似度スコアは、Copyleaks 固有のスコアリング方法で、同一のテキスト、軽微な変更、言い換えられたテキストなどの割合を集計します。スコアが 0% の場合は、すべてのコンテンツがオリジナルであることを意味し、スコアが 100% の場合は、どのコンテンツもオリジナルではないことを意味します。
     
  • 平均類似度スコアが最も高かった科目は物理学で 31.3%、次いで心理学が 27.7%、科学が 26.7% でした。平均類似度スコアが最も低かった科目は演劇が 0.9%、人文科学が 2.8%、英語が 5.4% でした。

     

「この分析によって得られる知見は、教育機関や組織が盗作をチェックする際に特定の科目に重点を置くのに役立ち、必要に応じてアプローチを調整して、すべての潜在的なリスクと懸念に確実に対処できるようにします」と、Copyleaks の CEO 兼共同創設者であるアロン・ヤミン氏は述べています。「たとえば、物理学、化学、数学、心理学では、盗作されたテキストを特定するために、より詳細な調査が必要になる可能性がありますが、演劇や人文科学などの他の科目では、それほど精査する必要がないかもしれません。」

 

ヤミン氏は次のように付け加えた。「さらに、このデータは、AI 生成コンテンツの存在を検出し、AI コンテンツ内の潜在的な盗作に関する必要な透明性を提供するソリューションを組織が採用する必要があることを強調しています。AI と盗作検出を含む包括的な保護により、著作権とライセンスの遵守が保証され、すべてのコンテンツの真正性と独創性が強化されます。」

###

Copyleaksについて

Copyleaks は、アイデアを共有し、自信を持って学習できる安全な環境の構築に専念しており、世界中の企業、教育機関、何百万人もの個人が、100 を超える言語で潜在的な盗作を特定し、AI 生成コンテンツを発見し、責任ある生成 AI の採用を保証し、信頼性と所有権を検証し、エラーのない文章作成を支援するために使用している AI ベースのテキスト分析会社です。

詳細については、 Webサイト またはフォローしてください リンクトイン.