La investigación de Copyleaks encuentra que casi 60% de resultados de GPT-3.5 contenían algún tipo de contenido plagiado

Nueva York, NY – 22 de febrero de 2024 – Según un 2023 informe, para 2026, casi el 90% de todo el contenido en línea será generado por IA. Como resultado de la saturación de contenido de IA, las preocupaciones sobre la contaminación de datos y la inevitable colapso del modelo plantean preocupaciones sobre la calidad y confiabilidad general del texto generado por IA.

Además, también han comenzado preocupaciones más amplias sobre la originalidad. A raíz de varios juicios Con respecto a la IA que infringe los derechos de autor y potencialmente plagia, las instituciones educativas y las empresas de todo el mundo están cuestionando la autenticidad del texto de IA: ¿de dónde se originó? ¿Es seguro usarlo como contenido original?

En definitiva, ¿la IA plagia?

Descubrir, Copyleaks, el líder en identificación de plagio, detección de contenido de IA y gobernanza de GenAI, realizó un análisis para determinar el grado en que el contenido generado por IA es original y está libre de posible plagio.

Para realizar este análisis:

Copyleaks le pidió a GPT-3.5 que escribiera 1.045 salidas, promediando 412 palabras en todas las salidas, en 26 sujetos: Física, Química, Ciencias, Psicología, Derecho, Economía, Biología, Estudios Empresariales, Ingeniería, Contabilidad, Geografía, Matemáticas, Informática, Deportes, Historia Mundial, Filosofía, Idioma Inglés, Arte, Educación Física, Estadística, Ciencias Sociales, Naturaleza , Música, Sociología, Humanidades, Teatro.

Copyleaks midió los resultados específicos con los niveles más altos de texto idéntico (una copia uno por uno del texto de otra persona que se hace pasar como propio), cambios menores (contenido con modificaciones menores al material original, como alterar un verbo dentro de una oración (por ejemplo, de lento a lento) y parafrasear (poner la idea de otra persona en sus propias palabras sin dar crédito a la fuente original) en los 26 temas.

Los hallazgos clave del análisis incluyen:

59.7% de los resultados de GPT-3.5 contenían algún tipo de contenido plagiado. 45.7% de todos los resultados contenían texto idéntico, 27.4% contenían cambios menores y 46.5% tenían texto parafraseado. Esto también resalta que GPT-3.5 no fabrica texto "nuevo"; la mayor parte del contenido proviene de una fuente anterior, lo que plantea problemas relacionados con el plagio, los derechos de autor y la propiedad intelectual.

La salida individual de GPT-3.5 con el mayor porcentaje de plagio fue en Física, donde 27.0% del texto eran idénticos. A esto le siguió un resultado de Química individual en el que 24,7% del texto eran idénticos.

El análisis también examinó las puntuaciones de similitud. La puntuación de similitud es un método de puntuación específico de Copyleaks que agrega la tasa de texto idéntico, cambios menores, texto parafraseado y más. Una puntuación de 0% significa que todo el contenido es original, mientras que una puntuación de 100% significa que nada del contenido es original.

La materia con el puntaje de similitud promedio más alto fue Física con 31.3%, seguida de cerca por Psicología con 27.7% y Ciencias con 26.7%. Las materias con el puntaje de similitud promedio más bajo fueron Teatro con 0.9%, Humanidades con 2.8% y Lengua Inglesa con 5.4%.

Los conocimientos proporcionados por el análisis pueden ayudar a las instituciones y organizaciones educativas a poner énfasis en ciertos temas al verificar el plagio, permitiéndoles adaptar su enfoque según sea necesario para garantizar que se aborden todos los riesgos e inquietudes potenciales”, dijo Alon Yamin, director ejecutivo y cofundador. de Copyleaks. "Por ejemplo, Física, Química, Matemáticas y Psicología podrían requerir una mirada más profunda para identificar textos plagiados, mientras que otras materias, incluyendo Teatro y Humanidades, podrían requerir menos escrutinio".

Yamin agregó: “Además, los datos subrayan la necesidad de que las organizaciones adopten soluciones que detecten la presencia de contenido generado por IA y proporcionen la transparencia necesaria en torno al posible plagio dentro del contenido de IA. La protección de espectro completo que incluye inteligencia artificial y detección de plagio garantiza el cumplimiento de los derechos de autor y las licencias y potencia la autenticidad y originalidad de todo el contenido”.

###

Acerca de Copyleaks

Dedicada a crear entornos seguros para compartir ideas y aprender con confianza, Copyleaks es una empresa de análisis de texto basada en IA utilizada por empresas, instituciones educativas y millones de personas en todo el mundo para identificar posibles plagios en más de 100 idiomas, descubrir contenido generado por IA, garantice la adopción responsable de la IA generativa, verifique la autenticidad y la propiedad y potencie la escritura sin errores.

Para información adicional, visite nuestro Sitio web o síguenos en LinkedIn.

Productos

integraciones

Casos de uso

Recursos

Últimos blogs

Aprender

La investigación de Copyleaks encuentra que casi 60% de resultados de GPT-3.5 contenían algún tipo de contenido plagiado