Risorsa

Valutazione dell'accuratezza dell'Copyleaks Rilevatore di intelligenza artificiale

Una metodologia passo dopo passo

Riteniamo che sia più importante che mai essere completamente trasparenti sull'accuratezza dell'AI Detector, sui tassi di falsi positivi e falsi negativi, sulle aree di miglioramento e altro ancora, per garantirne un utilizzo e un'adozione responsabili. Questa analisi completa mira a garantire la massima trasparenza sulla metodologia di test del modello V10 del nostro AI Detector.

Data del test: 16 ottobre 2025

Data di pubblicazione: 12 novembre 2025

Modello testato: V10

I team di Data Science e QA di Copyleaks hanno eseguito test in modo indipendente per garantire risultati imparziali e accurati. I dati dei test differivano dai dati di training e non contenevano alcun contenuto precedentemente inviato ad AI Detector per il rilevamento AI.

I dati di test consistevano in testo scritto da esseri umani proveniente da dataset verificati e testo generato dall'IA da vari modelli di IA. Il test è stato eseguito con l'API Copyleaks.

Le metriche includono l'accuratezza complessiva, basata sul tasso di identificazione corretta e errata del testo, e il ROC-AUC (Receiver Operating Characteristic – Area Under the Curve), che esamina i tassi di veri positivi (TPR) e falsi positivi (FPR). Ulteriori metriche includono il punteggio F1, il tasso di veri negativi (TNR) e le matrici di confusione.

I test verificano che l'AI Detector mostri un'elevata precisione di rilevamento nel distinguere tra testo scritto da esseri umani e testo generato dall'intelligenza artificiale, mantenendo al contempo un basso tasso di falsi positivi.

Processo di valutazione

Utilizzando un sistema a doppio reparto, abbiamo progettato il nostro processo di valutazione per garantire qualità, standard e affidabilità di alto livello. Abbiamo due reparti indipendenti che valutano il modello: i team di data science e QA. Ogni reparto lavora in modo indipendente con i propri dati e strumenti di valutazione e non ha accesso al processo di valutazione dell'altro. Questa separazione garantisce che i risultati della valutazione siano imparziali, oggettivi e accurati, catturando al contempo tutte le possibili dimensioni delle prestazioni del nostro modello. Inoltre, è essenziale notare che i dati di test sono separati dai dati di training e testiamo i nostri modelli solo su nuovi dati che non hanno visto in passato.

Metodologia

I team di QA e Data Science di Copyleaks hanno raccolto in modo indipendente una varietà di set di dati di test. Ogni set di dati di test è costituito da un numero finito di testi. L'etichetta prevista, un marcatore che indica se un testo specifico è stato scritto da un essere umano o da un'IA, di ogni set di dati è determinata in base alla fonte dei dati. I testi umani sono stati raccolti da testi pubblicati prima dell'avvento dei moderni sistemi di IA generativa o in seguito da altre fonti attendibili che sono state nuovamente verificate dal team. I testi generati dall'IA sono stati generati utilizzando una varietà di modelli e tecniche di IA generativa.

I test sono stati eseguiti sull'API Copyleaks. Abbiamo verificato se l'output dell'API fosse corretto per ogni testo in base all'etichetta di destinazione, quindi abbiamo aggregato i punteggi per calcolare la matrice di confusione.

Risultati: Team di Data Science

Il team di Data Science ha condotto il seguente test indipendente:

  • La lingua dei testi era l'inglese e in totale sono stati testati 300.000 testi scritti da esseri umani e 200.000 testi generati dall'intelligenza artificiale provenienti da vari LLM.
  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Metriche di valutazione

Le metriche utilizzate in questa attività di classificazione del testo sono:

1. Matrice di confusione: Una tabella che mostra i TP (veri positivi), FP (falsi positivi), TN (veri negativi) e FN (falsi negativi).

2. Precisione: La proporzione di risultati veri (sia veri positivi che veri negativi) tra il numero totale di testi che sono stati controllati.

3. Tasso di veri negativi (TNR): La proporzione di casi negativi effettivi che sono tutte le previsioni negative.

Nel contesto del rilevamento dell'intelligenza artificiale, il TNR è l'accuratezza del modello sui testi umani.

4. (TPR) noto anche come Richiamo: La proporzione di risultati veramente positivi in tutte le previsioni effettive.

Nel contesto del rilevamento dell'intelligenza artificiale, il TPR è l'accuratezza del modello sui testi generati dall'intelligenza artificiale.

5.  Punteggio F-beta: Il media armonica ponderata tra precisione e richiamo, favorendo maggiormente la precisione (poiché vogliamo favorire un tasso di falsi positivi inferiore).

Insiemi di dati combinati di intelligenza artificiale e umani

Nome del set di dati Numero di testi Numero di testi umani Numero di testi AI TPR TNR F-beta(0,5)
Set di dati interni extra-hard, inclusi attacchi avversari e strumenti speciali 500,000 300,000 200,000 0.988 0.999 0.997

Risultati: Team QA

Il team QA ha condotto il seguente test indipendente:

  • La lingua dei testi era l'inglese e in totale sono stati testati 229.843 testi scritti da esseri umani e 18.712 testi generati dall'intelligenza artificiale provenienti da vari LLM.
  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Set di dati solo umani

Nome del set di dati Numero di testi Correttamente identificato come umano Identificato erroneamente come AI Precisione
Testi generali 9,979 9,979 0 1
Articoli, notizie, blog, post sui social 9,991 9,982 9 0.9991
Set di dati delle pagine Web di Internet 99,921 99,918 3 0.9999
Saggi degli studenti 10,000 9,998 2 0.9998
Articoli accademici 99,952 99,906 46 0.9995
Totale: 229,843 229,783 60 0.9997

Set di dati solo AI

Nome del set di dati Numero di testi Identificato erroneamente come umano Correttamente identificato come AI Precisione
Modelli della famiglia OpenAI - altri modelli 12,880 129 12,751 0.9899
GPT-5 1,207 11 1,196 0.9909
Modelli della famiglia Gemelli 1,978 7 1,971 0.9964
Modelli della famiglia Claude 1,072 1 1,071 0.9991
Modelli della famiglia Grok 1,575 0 1,575 1
Totale: 18,712 148 18,564 0.992

*Le versioni dei modelli potrebbero cambiare nel tempo. I testi sono stati generati utilizzando le versioni attuali disponibili dei modelli delle aziende di intelligenza artificiale generativa sopra menzionate.

Livelli di sensibilità

Dalla versione 7.1 abbiamo 3 livelli di sensibilità per il modello di rilevamento AI. Ecco i risultati dei test per i livelli di sensibilità del modello v10.

ID Sensibilità Definizione falsi positivi Falsi negativi
1 Extra sicuro Progettato per ridurre al minimo i falsi positivi utilizzando filtri aggiuntivi basati sul rilevamento dell'intelligenza artificiale.

Adatto per rilevare testi generati dall'intelligenza artificiale senza la minima modifica umana.
0.009% 1.36%
2 Bilanciato (predefinito -
questa è la versione
che è mostrato in
i risultati sopra)
Ideale per rilevare contenuti di intelligenza artificiale riducendo al minimo i falsi positivi.

Adatto per rilevare testi generati dall'intelligenza artificiale con una moderata quantità di modifiche umane.
0.026% 0.79%
3 Extra sensibile Il nostro modello più sensibile è stato progettato per segnalare il testo AI sottoposto a un "umanizzatore" o a un text spinner. 0.05% 0.53%

Accuratezza dei veri positivi (testi AI) e dei veri negativi (testi umani) per livello di sensibilità

veri positivi
veri negativi
100.00% 99.50% 99.00% 98.50% 98.00%
98.64%
99.99%
Minimo falsi positivi (sensibilità 1)
99.21%
99.97%
Bilanciato (sensibilità 2)
99.47%
99.95%
Extra-sensibile (sensibilità 3)
Sensibilità

Analisi degli errori di testo umani e AI

Durante il processo di valutazione, abbiamo identificato e analizzato le valutazioni errate effettuate dal modello e creato un report dettagliato che consentirà al team di data science di correggere le cause sottostanti. Ciò avviene senza esporre le valutazioni errate al team di data science. Tutti gli errori vengono sistematicamente registrati e categorizzati in base al loro carattere e alla loro natura in un "processo di analisi delle cause profonde", che mira a comprendere le cause sottostanti e identificare schemi ripetuti. Questo processo è sempre in corso, garantendo un miglioramento continuo e l'adattabilità del nostro modello nel tempo.

Un esempio di tale test è la nostra analisi di dati Internet dal 2013 al 2024 utilizzando il nostro modello V4. Abbiamo campionato 1 milione di testi da ogni anno, a partire dal 2013, utilizzando tutti i falsi positivi rilevati dal 2013 al 2020, prima del rilascio dei sistemi di intelligenza artificiale, per contribuire a migliorare ulteriormente il modello.

20mila
15mila
10 mila
5k
0
N di testi contrassegnati come AI
0
2013
2
2014
3
2015
1
2016
0
2017
2
2018
1
2019
2
2020
34
2021
48
2022
579
2023
15,101
2024
Anno

Simile a come ricercatori in tutto il mondo abbiamo e continuiamo a testare diverse piattaforme di rilevamento AI per valutarne le capacità e i limiti, incoraggiamo vivamente i nostri utenti a condurre test nel mondo reale. In definitiva, man mano che vengono rilasciati nuovi modelli, continueremo a condividere le metodologie di test, l'accuratezza e altre considerazioni importanti di cui essere consapevoli.