Recurso

Evaluación de la precisión del Copyleaks Detector de IA

Una metodología paso a paso

Fecha de la prueba: 25 de mayo de 2024

Modelo probado: V5

Creemos que es más importante que nunca ser totalmente transparente sobre las funciones del detector AI. precisión, las tasas de falsos positivos y falsos negativos, áreas de mejora y más para garantizar el uso y la adopción responsables. Este análisis integral tiene como objetivo garantizar una transparencia total en torno a la metodología de prueba del modelo V5 de nuestro detector AI.

Metodología

Los equipos de control de calidad y ciencia de datos de Copyleaks realizaron pruebas de forma independiente para garantizar resultados imparciales y precisos. Los datos de las pruebas diferían de los datos de entrenamiento y no contenían contenido enviado previamente al AI Detector para la detección de IA.

Los datos de prueba consistieron en texto escrito por humanos procedente de conjuntos de datos verificados y texto generado por IA a partir de varios modelos de IA. La prueba se realizó con la API Copyleaks.

Métrica

Las métricas incluyen precisión general basada en la tasa de identificación de texto correcta e incorrecta, además de ROC-AUC (característica operativa del receptor: área bajo la curva), que examina las tasas de verdaderos positivos (TPR) y las tasas de falsos positivos (FPR). Las métricas adicionales incluyen puntuación F1, tasa de verdaderos negativos (TNR), precisión y matrices de confusión.

Resultados

Las pruebas verifican que el detector de IA muestra una alta precisión de detección para distinguir entre texto escrito por humanos y texto generado por IA, manteniendo al mismo tiempo una baja tasa de falsos positivos. 

Proceso de evaluación

Utilizando un sistema de dos departamentos, hemos diseñado nuestro proceso de evaluación para garantizar calidad, estándares y confiabilidad del más alto nivel. Contamos con dos departamentos independientes que evalúan el modelo: los equipos de ciencia de datos y control de calidad. Cada departamento trabaja de forma independiente con sus datos y herramientas de evaluación y no tiene acceso al proceso de evaluación del otro. Esta separación garantiza que los resultados de la evaluación sean imparciales, objetivos y precisos, al tiempo que capturan todas las dimensiones posibles del rendimiento de nuestro modelo. Además, es esencial tener en cuenta que los datos de prueba están separados de los datos de entrenamiento y solo probamos nuestros modelos con datos nuevos que no han visto en el pasado.

Metodología

Los equipos de control de calidad y ciencia de datos de Copyleaks han recopilado de forma independiente una variedad de conjuntos de datos de prueba. Cada conjunto de datos de prueba consta de un número finito de textos. La etiqueta esperada (un marcador que indica si un texto específico fue escrito por un humano o por IA) de cada conjunto de datos se determina en función de la fuente de los datos. Los textos humanos se recopilaron a partir de textos publicados antes del surgimiento de los sistemas modernos de inteligencia artificial generativa o posteriormente por otras fuentes confiables que fueron verificadas nuevamente por el equipo. Los textos generados por IA se generaron utilizando una variedad de modelos y técnicas de IA generativa.

Las pruebas se ejecutaron contra la API Copyleaks. Verificamos si el resultado de la API era correcto para cada texto según la etiqueta de destino y luego agregamos las puntuaciones para calcular la matriz de confusión.

Resultados: Equipo de ciencia de datos

El equipo de ciencia de datos realizó la siguiente prueba independiente: 

  • El idioma de los textos era el inglés, y en total se probaron 250.030 textos escritos por humanos y 123.244 textos generados por IA de varios LLM.. 

  • La longitud de los textos varía, pero los conjuntos de datos contienen solo textos con longitudes superiores a 350 caracteres, el mínimo que acepta nuestro producto.

Métricas de evaluación

Las métricas que se utilizan en esta tarea de clasificación de textos son:

1. Matriz de confusión: Tabla que muestra los TP (verdaderos positivos), FP (falsos positivos), TN (verdaderos negativos) y FN (falsos negativos).

2. Precisión: la proporción de resultados verdaderos (tanto positivos como negativos) entre el número total de textos que fueron comprobados.

3. TNR: La proporción de predicciones negativas precisas en todas las predicciones negativas.

En el contexto de la detección de IA, TNR es la precisión del modelo en textos humanos.

4. TPR (también conocido como Recall): La proporción de resultados positivos verdaderos en todas las predicciones reales.

En el contexto de la detección de IA, TPR es la precisión del modelo en textos generados por IA.

5. Puntuación F-beta: la media armónica ponderada entre precisión y recuperación, favoreciendo más la precisión (ya que queremos favorecer una tasa de falsos positivos más baja).

6. ROC-AUC: Evaluación de la compensación entre TPR y FPR.

Conjuntos de datos humanos y de inteligencia artificial combinados

Resultados: Equipo de control de calidad

El equipo de control de calidad realizó la siguiente prueba independiente:

  • El idioma del texto era el inglés y en total se probaron 320.000 textos escritos por humanos y 162.500 textos generados por IA de varios LLM..

  • La longitud de los textos varía, pero los conjuntos de datos contienen solo textos con longitudes superiores a 350 caracteres, el mínimo que acepta nuestro producto.

Conjuntos de datos exclusivos para humanos

Gráfico de datos para conjuntos de datos exclusivos para humanos

Conjuntos de datos solo de IA

Gráfico de conjuntos de datos solo de IA

*Las versiones del modelo pueden cambiar con el tiempo. Los textos se generaron utilizando una de las versiones disponibles de los modelos de IA generativa anteriores.

Análisis de errores de texto humanos y de IA

Durante el proceso de evaluación, identificamos y analizamos los errores cometidos por el modelo y generamos un informe detallado que permitirá al equipo de ciencia de datos corregir las causas subyacentes de estos errores. Esto se hace sin exponer los errores al equipo de ciencia de datos. Todos los errores se registran y clasifican sistemáticamente según su carácter y naturaleza en un "proceso de análisis de causa raíz", cuyo objetivo es comprender las causas subyacentes e identificar patrones repetidos. Este proceso es siempre continuo, asegurando la mejora y adaptabilidad de nuestro modelo en el tiempo.

Un ejemplo de tal prueba es nuestro análisis de datos de Internet de 2013 a 2024 utilizando nuestro modelo V4. W.Tomamos muestras de 1 millón de textos de cada año, a partir de 2013, utilizando los falsos positivos detectados entre 2013 y 2020, antes del lanzamiento de los sistemas de IA, para ayudar a mejorar aún más el modelo.

Similar a como investigadores de todo el mundo Tenemos y continuamos probando diferentes plataformas de detectores de IA para evaluar sus capacidades y limitaciones, alentamos plenamente a nuestros usuarios a realizar pruebas en el mundo real. En última instancia, a medida que se lancen nuevos modelos, continuaremos compartiendo las metodologías de prueba, la precisión y otras consideraciones importantes a tener en cuenta.