La ricerca Copyleaks rileva che quasi 60% degli output GPT-3.5 contenevano qualche forma di contenuto plagiato

New York, New York – 22 febbraio 2024 Secondo un 2023 rapportoEntro il 2026, quasi il 90% di tutti i contenuti online sarà generato dall’intelligenza artificiale. Come risultato della saturazione dei contenuti dell’intelligenza artificiale, le preoccupazioni relative all’inquinamento dei dati sono inevitabili collasso del modello sollevare preoccupazioni sulla qualità e l'affidabilità complessive del testo generato dall'intelligenza artificiale.

 

Inoltre, sono iniziate anche preoccupazioni più ampie sull’originalità. Sulla scia di diverse cause legali Per quanto riguarda l’intelligenza artificiale che viola il diritto d’autore e potenzialmente plagia, le istituzioni educative e le imprese di tutto il mondo stanno mettendo in dubbio l’autenticità del testo dell’intelligenza artificiale: da dove ha avuto origine? È sicuro da usare come contenuto originale

 

In definitiva, l’intelligenza artificiale plagia?

 

Per scoprirlo, Copyleaks, il leader nell'identificazione del plagio, nel rilevamento dei contenuti AI e nella governance GenAI, ha condotto un'analisi per determinare il grado in cui i contenuti generati dall'intelligenza artificiale sono originali e privi di potenziale plagio.

 

Per condurre questa analisi:

 

Copyleaks ha chiesto a GPT-3.5 di scrivere 1.045 uscite, media 412 parole su tutte le uscite, in 26 soggetti: Fisica, Chimica, Scienza, Psicologia, Legge, Economia, Biologia, Studi aziendali, Ingegneria, Contabilità, Geografia, Matematica, Informatica, Sport, Storia mondiale, Filosofia, Lingua inglese, Arte, Educazione fisica, Statistica, Scienze sociali, Natura , Musica, Sociologia, Lettere, Teatro. 

 

Copyleaks ha valutato gli output specifici con i livelli più alti di testo identico (una copia uno a uno del testo di qualcun altro spacciato per tuo), modifiche minori (contenuti con piccole alterazioni al materiale originale, come alterare un verbo all'interno di una frase (ad esempio, da lento a lento) e parafrasando (esprimere l'idea di qualcun altro con parole proprie senza citare la fonte originale) in tutti i 26 argomenti. 

 

I principali risultati dell’analisi includono:

 

  • 59.7% degli output GPT-3.5 contenevano qualche forma di contenuto plagiato. 45.7% di tutti gli output conteneva testo identico, 27.4% conteneva modifiche minori e 46.5% aveva testo parafrasato. Ciò evidenzia anche che GPT-3.5 non produce testo "nuovo di zecca"; la maggior parte dei contenuti proviene da una fonte precedente, sollevando problemi relativi al plagio, al copyright e alla proprietà intellettuale.

     

  • Il singolo output GPT-3.5 con la più alta percentuale di plagio era in Fisica, dove 27.0% del testo era identico. Questo è stato seguito da un output di Chimica individuale in cui 24.7% del testo era identico.

     

  • L'analisi ha esaminato anche i punteggi di somiglianza. Il punteggio di somiglianza è un metodo di punteggio specifico di Copyleaks che aggrega la percentuale di testo identico, modifiche minori, testo parafrasato e altro. Un punteggio di 0% significa che tutto il contenuto è originale, mentre un punteggio di 100% significa che nessuno dei contenuti è originale.
     
  • La materia con il punteggio di somiglianza medio più alto è stata Fisica con 31.3%, seguita da vicino da Psicologia con 27.7% e Scienze con 26.7%. Le materie con il punteggio di somiglianza medio più basso erano teatro con 0,9%, discipline umanistiche con 2,8% e lingua inglese con 5,4%.

     

Gli approfondimenti forniti dall’analisi possono aiutare le istituzioni e le organizzazioni educative a porre l’accento su determinati argomenti durante il controllo del plagio, consentendo loro di personalizzare il proprio approccio in base alle necessità per garantire che tutti i potenziali rischi e preoccupazioni siano affrontati”, ha affermato Alon Yamin, CEO e co-fondatore. di Copyleaks. "Ad esempio, fisica, chimica, matematica e psicologia potrebbero richiedere uno sguardo più approfondito per identificare il testo plagiato, mentre altre materie, tra cui teatro e discipline umanistiche, potrebbero richiedere meno controllo."

 

Yamin ha aggiunto: “Inoltre, i dati sottolineano la necessità per le organizzazioni di adottare soluzioni che rilevino la presenza di contenuti generati dall’intelligenza artificiale e forniscano la necessaria trasparenza sul potenziale plagio all’interno dei contenuti dell’intelligenza artificiale. La protezione a spettro completo che include l’intelligenza artificiale e il rilevamento del plagio garantisce la conformità al copyright e alle licenze e conferisce autenticità e originalità a tutti i contenuti”.

###

Circa Copyleaks

Dedicata alla creazione di ambienti sicuri per condividere idee e apprendere in sicurezza, Copyleaks è una società di analisi di testo basata sull'intelligenza artificiale utilizzata da aziende, istituti scolastici e milioni di individui in tutto il mondo per identificare potenziali plagi in oltre 100 lingue, scoprire contenuti generati dall'intelligenza artificiale, garantire l’adozione responsabile dell’intelligenza artificiale generativa, verificare l’autenticità e la proprietà e consentire una scrittura priva di errori.

Per ulteriori informazioni visitate il nostro Sito web o seguici su LinkedIn.