Blog Copyleaks

Su destino de aprendizaje para todo lo relacionado con la IA responsable, el plagio y más.

La investigación Copyleaks descubre que el plagio entre los estudiantes continúa a medida que aumenta el uso de la IA desde enero de 2023 hasta enero de 2024

Un año después: ChatGPT y educación

En marzo de 2023, cuatro meses después del revolucionario debut de ChatGPT en la industria, Copyleaks lanzó un estudiar para responder a la pregunta: ¿Qué tan frecuente es el contenido generado por IA en la educación? Al compilar datos anónimos de decenas de miles de estudiantes universitarios y de secundaria en todo el mundo utilizando Copyleaks de enero y febrero de 2023, descubrimos que 11.21% de todas las tareas, desde la escuela secundaria hasta la universidad, contenían algún tipo de contenido generado por IA con un aumento de 95.30%. en uso de enero a febrero.  

Estos hallazgos, junto con varios casos de plagio de alto perfil en la educación superior a finales de 2023 y principios de 2024, nos llevaron a preguntar: ¿cuál es la tendencia actual de las tasas de plagio en la educación más de un año después del lanzamiento de la IA generativa? ? ¿La IA ha impactado o eliminado por completo la necesidad de plagio entre los estudiantes? 

Más de un año después del lanzamiento de ChatGPT, decidimos que era hora de determinar el efecto general que la IA generativa ha tenido en la educación, específicamente las tasas de IA entre las tareas de los estudiantes y cómo la IA ha impactado las tasas de plagio. 

Esto es lo que encontramos.

Para realizar este análisis

Para estudiar las tendencias de plagio y tasas de IA entre los estudiantes desde enero de 2023 hasta enero de 2024, compilamos 13 meses de datos anónimos de decenas de miles de estudiantes universitarios y de secundaria de las mismas instituciones educativas que nuestro estudio anterior, todos los cuales tienen Ha estado utilizando el detector de contenido AI y el detector de plagio desde enero de 2023.


Tasa promedio de IA y plagio durante 13 meses

Si bien la IA generativa podría haber tenido algún impacto en las tasas de plagio entre los estudiantes, ciertamente no lo eliminó. Durante los 13 meses, las tasas de plagio disminuyeron a medida que la IA aumentó gradualmente, pero siguió siendo frecuente.


Enero de 2023 frente a enero de 2024

Tasa de IA

Tasa de plagio


Desglose trimestral de la tasa promedio de IA y plagio

En el primer trimestre de 2023 se produjo un aumento en la IA y el plagio entre los estudiantes en febrero. Sin embargo, en marzo, el plagio disminuyó mientras que la IA siguió aumentando a pesar de que la mayoría de las instituciones educativas prohibían su uso. Durante este tiempo, la siguiente versión de ChatGPT, GPT-4, se lanzó el 14 de marzo de 2023, y Bard de Google (luego rebautizado como Gemini) se lanzó el 21 de marzo de 2023.

El segundo trimestre refleja la estacionalidad educativa, con un aumento en la IA y el plagio en abril y mayo, coincidiendo con los exámenes finales, pero luego una disminución gradual hasta junio.

En el tercer trimestre del año no se produjo una fuerte disminución en el uso de IA entre los estudiantes de todo el año y los que asisten a sesiones de verano. Durante julio de 2023, el porcentaje de trabajos y trabajos escaneados que contenían IA saltó a 23.03% desde 11.18% en junio y se mantuvo alrededor de 3% más que en el segundo trimestre. Sin embargo, el porcentaje de trabajos y trabajos que contenían plagio disminuyó en agosto, pero solo en 4% desde el primer trimestre. A finales de julio, se lanzó al mercado un nuevo modelo de IA, Claude. GrammarlyGO de Grammarly, impulsado por Azure OpenAI, el mismo LLM que impulsa ChatGPT, se lanzó el 25 de agosto de 2023, con una implementación de marketing dirigida principalmente a estudiantes.

El cuarto trimestre registró el aumento promedio más significativo de IA dentro de las tareas de los estudiantes, alcanzando un nuevo máximo en diciembre con 25.39%, en comparación con 11.92% a principios de año. Además, el plagio promedió alrededor de 27% al comienzo del trimestre. Sin embargo, el plagio sufrió una caída significativa en diciembre a 10.54%, posiblemente atribuido a un mayor enfoque en el plagio dentro de la educación luego de un caso de plagio de alto perfil en una importante universidad estadounidense a principios de diciembre. En enero de 2024, la tasa de IA entre los estudiantes había aumentado más de 9% en comparación con enero de 2023, y la tasa de plagio había disminuido en casi 18% en comparación con el año anterior.


Tasa promedio de IA y plagio por país

Enero 2023 – Enero 2024

A lo largo de los 13 meses de datos, existen diferencias geográficas considerables entre el porcentaje de trabajos y tareas de los estudiantes que contienen contenido de IA y plagio.

Porcentaje de artículos que contenían
Contenido generado por IA y plagiado


Tasa promedio de IA y plagio por tipo de escuela

Enero 2023 – Enero 2024

De manera similar, hubo variaciones considerables entre los diferentes tipos de instituciones con respecto al porcentaje de trabajos y tareas de los estudiantes que contenían contenido de IA y plagio.


Tasa promedio de IA y plagio por tipo de universidad

Enero 2023 – Enero 2024

Finalmente, también hubo variaciones considerables entre los tipos de universidades en el porcentaje de trabajos y tareas de los estudiantes que contenían contenido de IA y plagio.


Conclusiones clave

Los datos continúan subrayando la necesidad de que las organizaciones adopten soluciones multifacéticas que detecten tanto la presencia de contenido generado por IA como el posible plagio. Al hacerlo, estas soluciones pueden brindar transparencia sobre posibles plagios, incluido el de la IA generativa. Como muestran los datos, la IA y el plagio comenzaron a fusionarse en cierta medida en la segunda mitad del año, lo que destaca la importancia de tener idea de si el contenido fue escrito por humanos o generado por IA y de dónde se originó. Es por eso que la protección de espectro completo, incluida la inteligencia artificial y la detección de plagio, ayuda a mantener la integridad académica y al mismo tiempo potencia la autenticidad y originalidad de todo el contenido. 

Para ver y descargar una versión PDF de este estudio, haga clic aquí.

Casi 60% de resultados de GTP-3.5 contenían algún tipo de contenido plagiado

La investigación de Copyleaks encuentra que casi 60% de resultados de GPT-3.5 contenían algún tipo de contenido plagiado

Hay una cantidad sin precedentes de contenido generado por IA que ahora satura Internet. Según un 2023 informe, para 2026, casi el 90% de todo el contenido en línea será generado por IA. Como resultado de la saturación del contenido de IA, las preocupaciones sobre la contaminación de datos y la inevitable colapso del modelo plantean preocupaciones sobre la calidad y confiabilidad general del texto generado por IA.

Además, también han comenzado preocupaciones más amplias sobre la originalidad. A raíz de varios juicios Con respecto a la IA que infringe los derechos de autor y potencialmente plagia, las instituciones educativas y las empresas de todo el mundo están cuestionando la autenticidad del texto de IA: ¿de dónde se originó? ¿Es seguro usarlo como contenido original?

En definitiva, ¿la IA plagia?

Para averiguarlo, Copyleaks realizó un análisis para determinar hasta qué punto el contenido generado por IA es original y está libre de posible plagio.

Número de trabajos evaluados para cada materia



Para realizar este análisis:

Le pedimos a GPT-3.5 que escribiera 1.045 salidas, promediando 412 palabras en todas las salidas, en 26 sujetos.


59.7% de resultados de GPT-3.5 contenían algún tipo de contenido plagiado


Física:
Química:
Ciencia:
Psicología:
Ley:
Ciencias económicas:
Biología:
Estudios Empresariales:
Ingeniería:
Contabilidad:
Geografía:
Matemáticas:
Ciencias de la Computación:
Deportes:
Historia mundial:
Filosofía:
Idioma en Inglés:
Arte:
Educación Física:
Estadísticas:
Ciencias Sociales:
Naturaleza:
Música:
Sociología:
Humanidades:
Teatro:

83.7%
68.0%
67.3%
63.3%
57.5%
57.1%
55.1%
51.4%
51.4%
50.0%
49.0%
49.0%
47.5%
42.1%
39.6%
37.5%
37.1%
35.0%
35.0%
32.5%
28.6%
25.0%
22.9%
22.9%
15.0%
14.3%


Matemáticas:
Física:
Psicología:
Ciencia:
Biología:
Química:
Ciencias económicas:
Estudios Empresariales:
Ciencias de la Computación:
Ley:
Estadísticas:
Educación Física:
Deportes:
Contabilidad:
Arte:
Ingeniería:
Filosofía:
Geografía:
Naturaleza:
Historia mundial:
Sociología:
Idioma en Inglés:
Ciencias Sociales:
Música:
Teatro:
Humanidades:

67.4%
57.1%
53.1%
51.0%
49.0%
46.0%
38.8%
37.1%
35.0%
30.0%
30.0%
22.5%
21.1%
20.0%
20.0%
20.0%
17.5%
16.3%
15.0%
12.5%
11.4%
8.6%
8.6%
5.7%
5.7%
0.0%


Física:
Psicología:
Química:
Ciencia:
Biología:
Ciencias de la Computación:
Ciencias económicas:
Estudios Empresariales:
Matemáticas:
Filosofía:
Estadísticas:
Deportes:
Historia mundial:
Contabilidad:
Ley:
Naturaleza:
Educación Física:
Arte:
Ingeniería:
Geografía:
Sociología:
Idioma en Inglés:
Música:
Ciencias Sociales:
Humanidades:
Teatro

79.6%
79.6%
66.0%
65.3%
63.3%
62.5%
59.2%
57.1%
49.0%
47.5%
47.5%
47.4%
45.8%
42.5%
42.5%
40.0%
40.0%
35.0%
34.3%
32.7%
31.4%
28.6%
25.7%
20.0%
15.0%
5.7%


*Texto idéntico: Una copia uno por uno del texto de otra persona que se hace pasar por propio.

**Cambios menores: Contenido con modificaciones menores al material original, como alterar un verbo dentro de una oración (por ejemplo, de lento a lento)

***Texto parafraseado: Poner la idea de otra persona en tus propias palabras sin dar crédito a la fuente original.


Luego, Copyleaks realizó un análisis en profundidad para evaluar los resultados específicos con los niveles más altos de texto idéntico, cambios menores y paráfrasis en los 26 temas.

Texto Idéntico

Nuestro análisis encontró que la salida individual de GPT-3.5 con el mayor porcentaje de plagio fue en Física, donde 27.0% del texto eran idénticos. A esto le siguió un resultado de Química individual en el que 24,7% del texto eran idénticos.

Resultados con los mayores porcentajes de texto idéntico para cada tema


Cambios menores

Los resultados individuales de GPT-3.5 con los porcentajes más altos de cambios menores fueron de Física y Psicología, donde 25.2% de cada resultado respectivo contenían cambios menores.

Resultados con los porcentajes más altos de cambios menores para cada tema


parafraseado

El resultado individual de GPT-3.5 con el mayor porcentaje de parafraseo fue en Ciencias de la Computación, donde se parafraseó un sorprendente 80.7% del texto. A esto le siguió un resultado individual de Física donde se parafraseó 76.3% del texto.

Resultados con el mayor porcentaje de paráfrasis para cada tema


Puntuación de similitud

La puntuación de similitud es un método de puntuación específico de Copyleaks que agrega la tasa de texto idéntico, cambios menores, texto parafraseado y más. Una puntuación de 0% significa que todo el contenido es original, mientras que una puntuación de 100% significa que nada del contenido es original.

Sujetos con el puntaje promedio de similitud más alto y más bajos

La materia con el puntaje de similitud promedio más alto es Física con 31.3%, seguida de cerca por Psicología con 27.7% y Ciencias con 26.7%. Las materias con el puntaje de similitud promedio más bajo son Teatro con 0.9%, Humanidades con 2.8% y Idioma Inglés con 5.4%.


Resultados con la puntuación de similitud más alta para cada tema

En todas las materias, nuestro análisis encontró que el resultado individual de GPT-3.5 con la puntuación de similitud más alta fue en Ciencias de la Computación, con un asombroso 100%, seguido de Física con 92% y Psicología con 88%.


Conclusiones clave

Dado que el contenido generado por IA se expande y continúa saturando Internet, es fundamental contar con soluciones clave. Como muestran los datos de Copyleaks, casi 60% de contenido generado por IA contienen algún tipo de plagio. 

Los conocimientos proporcionados por el análisis pueden ayudar a las instituciones y organizaciones educativas a poner énfasis en ciertos temas al verificar el plagio, permitiéndoles adaptar su enfoque según sea necesario para garantizar que se aborden todos los riesgos e inquietudes potenciales. Por ejemplo; Física, Química, Matemáticas y Psicología pueden requerir una mirada más profunda para identificar textos plagiados, mientras que otras materias, como Teatro y Humanidades, pueden requerir menos escrutinio.

Además, los datos subrayan la necesidad de que las organizaciones adopten soluciones que detecten la presencia de contenido generado por IA y proporcionen la transparencia necesaria en torno al posible plagio dentro del contenido de IA. La protección de espectro completo que incluye inteligencia artificial y detección de plagio garantiza el cumplimiento de los derechos de autor y las licencias y potencia la autenticidad y originalidad de todo el contenido.