Risorsa

Valutazione dell'accuratezza dell'Copyleaks Rilevatore di intelligenza artificiale

Una metodologia passo dopo passo

Data del test: 20 ottobre 2024

Data di pubblicazione: 19 novembre 2024

Modello testato: Versione 7.1

Riteniamo che sia più importante che mai essere completamente trasparenti riguardo all'AI Detector accuratezza, tassi di falsi positivi e falsi negativi, aree di miglioramento e altro ancora per garantire un uso e un'adozione responsabili. Questa analisi completa mira a garantire la piena trasparenza sulla metodologia di test del modello V7.1 del nostro AI Detector.

I team di Data Science e QA di Copyleaks hanno eseguito test in modo indipendente per garantire risultati imparziali e accurati. I dati dei test differivano dai dati di training e non contenevano alcun contenuto precedentemente inviato ad AI Detector per il rilevamento AI.

I dati di test consistevano in testo scritto da esseri umani proveniente da dataset verificati e testo generato dall'IA da vari modelli di IA. Il test è stato eseguito con l'API Copyleaks.

Le metriche includono l'accuratezza complessiva basata sul tasso di identificazione corretta e non corretta del testo, il punteggio F1, il tasso di veri negativi (TNR), il tasso di veri positivi (TPR), l'accuratezza e le matrici di confusione.

I test verificano che l'AI Detector mostri un'elevata precisione di rilevamento nel distinguere tra testo scritto da esseri umani e testo generato dall'intelligenza artificiale, mantenendo al contempo un basso tasso di falsi positivi.

Processo di valutazione

Utilizzando un sistema a doppio reparto, abbiamo progettato il nostro processo di valutazione per garantire qualità, standard e affidabilità di alto livello. Abbiamo due reparti indipendenti che valutano il modello: i team di data science e QA. Ogni reparto lavora in modo indipendente con i propri dati e strumenti di valutazione e non ha accesso al processo di valutazione dell'altro. Questa separazione garantisce che i risultati della valutazione siano imparziali, oggettivi e accurati, catturando al contempo tutte le possibili dimensioni delle prestazioni del nostro modello. Inoltre, è essenziale notare che i dati di test sono separati dai dati di training e testiamo i nostri modelli solo su nuovi dati che non hanno visto in passato.

Metodologia

I team di QA e Data Science di Copyleaks hanno raccolto in modo indipendente una varietà di set di dati di test. Ogni set di dati di test è costituito da un numero finito di testi. L'etichetta prevista, un marcatore che indica se un testo specifico è stato scritto da un essere umano o da un'IA, di ogni set di dati è determinata in base alla fonte dei dati. I testi umani sono stati raccolti da testi pubblicati prima dell'avvento dei moderni sistemi di IA generativa o in seguito da altre fonti attendibili che sono state nuovamente verificate dal team. I testi generati dall'IA sono stati generati utilizzando una varietà di modelli e tecniche di IA generativa.

I test sono stati eseguiti sull'API Copyleaks. Abbiamo verificato se l'output dell'API fosse corretto per ogni testo in base all'etichetta di destinazione, quindi abbiamo aggregato i punteggi per calcolare la matrice di confusione.

Risultati: Team di Data Science

Il team di Data Science ha condotto il seguente test indipendente: 

  • La lingua dei testi era l'inglese e sono stati testati in totale 300.000 testi scritti da esseri umani e 200.000 testi generati dall'intelligenza artificiale provenienti da vari LLM.. 

     

  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Metriche di valutazione

Le metriche utilizzate in questa attività di classificazione del testo sono:

1. Matrice di confusione: una tabella che mostra i TP (veri positivi), FP (falsi positivi), TN (veri negativi) e FN (falsi negativi).

2. Precisione: la proporzione di risultati veri (sia veri positivi che veri negativi) tra il numero totale di testi che sono stati controllati.

3. TNR: La proporzione delle previsioni negative accurate in tutte le previsioni negative.

Nel contesto del rilevamento dell'intelligenza artificiale, il TNR è l'accuratezza del modello sui testi umani.

4. TPR (noto anche come Recall): la percentuale di risultati veramente positivi in tutte le previsioni effettive.

Nel contesto del rilevamento dell'intelligenza artificiale, il TPR è l'accuratezza del modello sui testi generati dall'intelligenza artificiale.

5. Punteggio F-beta: Il media armonica ponderata tra precisione e recall, favorendo maggiormente la precisione (poiché vogliamo favorire un tasso di falsi positivi inferiore).

6. ROC-AUC: Valutazione del scambio tra TPR e FPR.

Insiemi di dati combinati di intelligenza artificiale e umani

set di dati combinati

Risultati: Team QA

Il team QA ha condotto il seguente test indipendente:

  • La lingua dei testi era l'inglese e sono stati testati in totale 220.000 testi scritti da esseri umani e 170.000 testi generati dall'intelligenza artificiale provenienti da vari LLM..

 

  • La lunghezza del testo varia, ma i set di dati contengono solo testi con lunghezze superiori a 350 caratteri, il minimo accettato dal nostro prodotto.

Set di dati solo umani

Set di dati solo umani

Set di dati solo AI

*Le versioni del modello potrebbero cambiare nel tempo. I testi sono stati generati utilizzando una delle versioni disponibili dei modelli di IA generativa di cui sopra.

Livelli di sensibilità

Nel modello v7.1 abbiamo introdotto 3 livelli di sensibilità per il modello di rilevamento AI. Ecco i risultati del test:

Livelli di sensibilità

Veri positivi (testi AI) e veri negativi (testi umani): accuratezza per sensibilità

Test del livello di sensibilità

Analisi degli errori di testo umani e AI

Durante il processo di valutazione, abbiamo identificato e analizzato le valutazioni errate effettuate dal modello e creato un report dettagliato che consentirà al team di data science di correggere le cause sottostanti. Ciò avviene senza esporre le valutazioni errate al team di data science. Tutti gli errori vengono sistematicamente registrati e categorizzati in base al loro carattere e alla loro natura in un "processo di analisi delle cause profonde", che mira a comprendere le cause sottostanti e identificare schemi ripetuti. Questo processo è sempre in corso, garantendo un miglioramento continuo e l'adattabilità del nostro modello nel tempo.


Un esempio di tale test è
la nostra analisi di dati Internet dal 2013 al 2024 utilizzando il nostro modello V4. Abbiamo campionato 1 milione di testi da ogni anno, a partire dal 2013, utilizzando tutti i falsi positivi rilevati dal 2013 al 2020, prima del rilascio dei sistemi di intelligenza artificiale, per contribuire a migliorare ulteriormente il modello.

Simile a come ricercatori in tutto il mondo abbiamo e continuiamo a testare diverse piattaforme di rilevamento AI per valutarne le capacità e i limiti, incoraggiamo vivamente i nostri utenti a condurre test nel mondo reale. In definitiva, man mano che vengono rilasciati nuovi modelli, continueremo a condividere le metodologie di test, l'accuratezza e altre considerazioni importanti di cui essere consapevoli.