Pesquisa Copyleaks descobre que quase 60% de resultados GPT-3.5 continham alguma forma de conteúdo plagiado

Nova York, NY – 22 de fevereiro de 2024 De acordo com um 2023 relatório, até 2026, quase 90% de todo o conteúdo online será gerado por IA. Como resultado da saturação do conteúdo da IA, preocupações com a poluição de dados e inevitáveis colapso do modelo levantam preocupações sobre a qualidade e confiabilidade geral do texto gerado por IA.

 

Além disso, também começaram preocupações mais amplas sobre a originalidade. No despertar do vários processos em relação à violação de direitos autorais e ao plágio potencial da IA, instituições educacionais e empresas em todo o mundo estão questionando a autenticidade do texto da IA: De onde ele se originou? É seguro usar como conteúdo original

 

Em última análise, a IA plagia?

 

Descobrir, Copyleaks, o líder em identificação de plágio, detecção de conteúdo de IA e governança GenAI, conduziu uma análise para determinar até que ponto o conteúdo gerado por IA é original e livre de plágio potencial.

 

Para realizar esta análise:

 

Copyleaks pediu ao GPT-3.5 para escrever 1.045 saídas, média 412 palavras em todas as saídas, em 26 disciplinas: Física, Química, Ciências, Psicologia, Direito, Economia, Biologia, Estudos de Negócios, Engenharia, Contabilidade, Geografia, Matemática, Ciência da Computação, Esportes, História Mundial, Filosofia, Língua Inglesa, Arte, Educação Física, Estatística, Ciências Sociais, Natureza , Música, Sociologia, Humanidades, Teatro. 

 

O Copyleaks avaliou os resultados específicos com os níveis mais altos de texto idêntico (uma cópia um por um do texto de outra pessoa que é passado como seu), pequenas alterações (conteúdo com pequenas alterações no material de origem, como alterar um verbo dentro de uma frase (por exemplo, lento a lento) e parafraseando (colocar a ideia de outra pessoa em suas próprias palavras sem dar crédito à fonte original) em todos os 26 assuntos. 

 

As principais conclusões da análise incluem:

 

  • 59.7% de saídas GPT-3.5 continham alguma forma de conteúdo plagiado. 45.7% de todas as saídas continham texto idêntico, 27.4% continham pequenas alterações e 46.5% tinham texto parafraseado. Isso também destaca que o GPT-3.5 não está fabricando texto “totalmente novo”; a maior parte do conteúdo vem de uma fonte anterior, levantando questões sobre plágio, direitos autorais e propriedade intelectual.

     

  • A saída individual do GPT-3.5 com maior percentual de plágio foi em Física, onde 27.0% do texto era idêntico. Isto foi seguido por uma produção individual de Química onde 24,7% do texto era idêntico.

     

  • A análise também examinou pontuações de similaridade. A pontuação de similaridade é um método de pontuação específico do Copyleaks que agrega a taxa de texto idêntico, pequenas alterações, texto parafraseado e muito mais. Uma pontuação de 0% significa que todo o conteúdo é original, enquanto uma pontuação de 100% significa que nenhum conteúdo é original.
     
  • A disciplina com maior pontuação média de similaridade foi Física com 31,3%, seguida de perto por Psicologia com 27,7% e Ciências com 26,7%. As disciplinas com menor pontuação média de similaridade foram Teatro com 0,9%, Humanidades com 2,8% e Língua Inglesa com 5,4%.

     

Os insights fornecidos pela análise podem ajudar as instituições e organizações educacionais a colocar ênfase em determinados assuntos ao verificar se há plágio, permitindo-lhes adaptar a sua abordagem conforme necessário para garantir que todos os riscos e preocupações potenciais sejam abordados”, disse Alon Yamin, CEO e cofundador. de Copyleaks. “Por exemplo, Física, Química, Matemática e Psicologia podem exigir um olhar mais aprofundado para identificar textos plagiados, enquanto outras disciplinas, incluindo Teatro e Humanidades, podem exigir menos escrutínio.”

 

Yamin acrescentou: “Além disso, os dados sublinham a necessidade de as organizações adotarem soluções que detectem a presença de conteúdo gerado por IA e forneçam a transparência necessária em torno do potencial plágio no conteúdo de IA. A proteção de espectro total que inclui IA e detecção de plágio garante a conformidade com direitos autorais e licenciamento e capacita autenticidade e originalidade em todo o conteúdo.”

###

Sobre Copyleaks

Dedicada à criação de ambientes seguros para compartilhar ideias e aprender com confiança, a Copyleaks é uma empresa de análise de texto baseada em IA usada por empresas, instituições educacionais e milhões de indivíduos em todo o mundo para identificar possíveis plágios em mais de 100 idiomas, descobrir conteúdo gerado por IA, garanta a adoção responsável de IA generativa, verifique a autenticidade e a propriedade e capacite a escrita sem erros.

Para informações adicionais, visite nosso Local na rede Internet ou siga-nos no LinkedIn.