Recurso

Evaluación de la precisión del Copyleaks Detector de IA

Una metodología paso a paso

Creemos que es más importante que nunca ser totalmente transparentes sobre la precisión del Detector de IA, las tasas de falsos positivos y falsos negativos, las áreas de mejora y otros aspectos para garantizar un uso y una adopción responsables. Este análisis exhaustivo tiene como objetivo garantizar la total transparencia en torno a la metodología de pruebas del modelo V10 de nuestro Detector de IA.

Fecha de la prueba: 16 de octubre de 2025

Fecha de publicación: 12 de noviembre de 2025

Modelo probado: V10

Los equipos de Ciencia de Datos y Control de Calidad de Copyleaks realizaron pruebas de forma independiente para garantizar resultados imparciales y precisos. Los datos de prueba diferían de los de entrenamiento y no contenían información enviada previamente al Detector de IA para su detección.

Los datos de prueba consistieron en texto escrito por humanos, procedente de conjuntos de datos verificados, y texto generado por IA a partir de diversos modelos de IA. La prueba se realizó con la API Copyleaks.

Las métricas incluyen la precisión general, basada en la tasa de identificación de texto correcto e incorrecto, y el ROC-AUC (Característica Operativa del Receptor - Área Bajo la Curva), que examina las tasas de verdaderos positivos (TPR) y falsos positivos (FPR). Otras métricas incluyen la puntuación F1, la tasa de verdaderos negativos (TNR) y las matrices de confusión.

Las pruebas verifican que el detector de IA muestra una alta precisión de detección para distinguir entre texto escrito por humanos y generado por IA, manteniendo una baja tasa de falsos positivos.

Proceso de evaluación

Utilizando un sistema de dos departamentos, hemos diseñado nuestro proceso de evaluación para garantizar la máxima calidad, estándares y fiabilidad. Contamos con dos departamentos independientes que evalúan el modelo: el equipo de ciencia de datos y el de control de calidad. Cada departamento trabaja de forma independiente con sus datos y herramientas de evaluación y no tiene acceso al proceso de evaluación del otro. Esta separación garantiza que los resultados de la evaluación sean imparciales, objetivos y precisos, a la vez que capturan todas las dimensiones posibles del rendimiento de nuestro modelo. Además, es fundamental tener en cuenta que los datos de prueba están separados de los datos de entrenamiento, y solo probamos nuestros modelos con datos nuevos que no han visto anteriormente.

Metodología

Los equipos de control de calidad y ciencia de datos de Copyleaks recopilaron de forma independiente diversos conjuntos de datos de prueba. Cada conjunto de datos consta de un número finito de textos. La etiqueta esperada (un marcador que indica si un texto específico fue escrito por una persona o por IA) de cada conjunto de datos se determina en función de la fuente de los datos. Los textos humanos se recopilaron de textos publicados antes del auge de los sistemas modernos de IA generativa o posteriormente de otras fuentes confiables que fueron verificadas nuevamente por el equipo. Los textos generados por IA se generaron utilizando diversos modelos y técnicas de IA generativa.

Las pruebas se realizaron con la API Copyleaks. Verificamos si la salida de la API era correcta para cada texto según la etiqueta de destino y, a continuación, agregamos las puntuaciones para calcular la matriz de confusión.

Resultados: Equipo de Ciencia de Datos

El equipo de Ciencia de Datos realizó la siguiente prueba independiente:

  • El idioma de los textos era el inglés, y en total se probaron 300.000 textos escritos por humanos y 200.000 textos generados por IA de varios LLM.
  • La longitud de los textos varía, pero los conjuntos de datos solo contienen textos con longitudes superiores a 350 caracteres, el mínimo que acepta nuestro producto.

Métricas de evaluación

Las métricas que se utilizan en esta tarea de clasificación de texto son:

1. Matriz de confusión: Una tabla que muestra los TP (verdaderos positivos), FP (falsos positivos), TN (verdaderos negativos) y FN (falsos negativos).

2. Precisión: La proporción de resultados verdaderos (tanto verdaderos positivos como verdaderos negativos) entre el número total de textos que fueron comprobados.

3. Tasa de negativos verdaderos (TNR): La proporción de casos negativos reales que son todas las predicciones negativas.

En el contexto de la detección de IA, TNR es la precisión del modelo en textos humanos.

4. (TPR) también conocido como Recall: La proporción de resultados positivos verdaderos en Todas las predicciones reales.

En el contexto de la detección de IA, TPR es la precisión del modelo en los textos generados por IA.

5.  Puntuación F-beta: El media armónica ponderada entre precisión y recuperación, favoreciendo más la precisión (ya que queremos favorecer una tasa de falsos positivos más baja).

Conjuntos de datos combinados de IA y humanos

Nombre del conjunto de datos Número de textos Número de textos humanos Número de textos de IA TPR TNR F-beta(0,5)
Conjuntos de datos internos extraduros, incluidos ataques adversarios y herramientas especiales 500,000 300,000 200,000 0.988 0.999 0.997

Resultados: Equipo de control de calidad

El equipo de control de calidad realizó la siguiente prueba independiente:

  • El idioma de los textos era el inglés, y en total se probaron 229.843 textos escritos por humanos y 18.712 textos generados por IA de varios LLM.
  • La longitud de los textos varía, pero los conjuntos de datos solo contienen textos con longitudes superiores a 350 caracteres, el mínimo que acepta nuestro producto.

Conjuntos de datos exclusivamente humanos

Nombre del conjunto de datos Número de textos Identificado correctamente como humano Identificado incorrectamente como IA Exactitud
Textos generales 9,979 9,979 0 1
Artículos, noticias, blogs, publicaciones en redes sociales 9,991 9,982 9 0.9991
Conjunto de datos de páginas web de Internet 99,921 99,918 3 0.9999
Ensayos de estudiantes 10,000 9,998 2 0.9998
Artículos académicos 99,952 99,906 46 0.9995
Total: 229,843 229,783 60 0.9997

Conjuntos de datos solo de IA

Nombre del conjunto de datos Número de textos Identificado incorrectamente como humano Identificado correctamente como IA Exactitud
Modelos de la familia OpenAI - otros modelos 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
Modelos de la familia Géminis 1,978 7 1,971 0.9964
Modelos de la familia Claude 1,072 1 1,071 0.9991
Modelos de la familia Grok 1,575 0 1,575 1
Total: 18,712 148 18,564 0.992

*Las versiones de los modelos pueden cambiar con el tiempo. Los textos se generaron utilizando las versiones actuales de los modelos de las empresas de IA generativa mencionadas.

Niveles de sensibilidad

Desde la versión 7.1, contamos con tres niveles de sensibilidad para el modelo de detección de IA. Aquí están los resultados de las pruebas para los niveles de sensibilidad del modelo v10.

IDENTIFICACIÓN Sensibilidad Definición Falsos positivos Falsos negativos
1 Extra seguro Diseñado para minimizar los falsos positivos mediante el uso de filtros adicionales basados en detección de IA.

Bueno para detectar texto generado por IA sin una modificación humana mínima.
0.009% 1.36%
2 Equilibrado (predeterminado -
Esta es la versión
que se muestra en
los resultados anteriores)
Ideal para detectar contenido de IA y minimizar los falsos positivos.

Bueno para detectar texto generado por IA con una cantidad moderada de modificación humana.
0.026% 0.79%
3 Extra sensible Nuestro modelo más sensible fue diseñado para marcar el texto de IA que se pasó por un "humanizador" o un girador de texto. 0.05% 0.53%

Precisión de verdaderos positivos (textos de IA) y verdaderos negativos (textos de humanos) por nivel de sensibilidad

verdaderos positivos
verdaderos negativos
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
Mínimo de falsos positivos (sensibilidad 1)
99.21%
99.97%
Equilibrado (sensibilidad 2)
99.47%
99.95%
Extrasensible (sensibilidad 3)
Sensibilidad

Análisis de errores de texto humanos e IA

Durante el proceso de evaluación, identificamos y analizamos las evaluaciones incorrectas realizadas por el modelo y generamos un informe detallado que permitirá al equipo de ciencia de datos corregir las causas subyacentes. Esto se realiza sin exponer las evaluaciones incorrectas al equipo. Todos los errores se registran y categorizan sistemáticamente según su naturaleza en un proceso de análisis de causa raíz, cuyo objetivo es comprender las causas subyacentes e identificar patrones repetidos. Este proceso es continuo, lo que garantiza la mejora continua y la adaptabilidad de nuestro modelo a lo largo del tiempo.

Un ejemplo de este tipo de prueba es nuestro análisis Datos de internet de 2013 a 2024 con nuestro modelo V4. Muestreamos un millón de textos de cada año, a partir de 2013, utilizando los falsos positivos detectados entre 2013 y 2020, antes del lanzamiento de los sistemas de IA, para mejorar aún más el modelo.

20k
15k
10k
5k
0
N de textos marcados como IA
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
Año

Similar a cómo investigadores de todo el mundo Hemos probado y continuamos probando diferentes plataformas de detectores de IA para evaluar sus capacidades y limitaciones. Animamos a nuestros usuarios a realizar pruebas en situaciones reales. A medida que se publiquen nuevos modelos, seguiremos compartiendo las metodologías de prueba, la precisión y otras consideraciones importantes a tener en cuenta.