Le reti neurali battono i CAPTCHA a mani basse

Sophos Italia

6 years ago

Come purtroppo ben sanno tutte le persone che odiano i CAPTCHA, le voci sull’imminente scomparsa dei CAPTCHA (Completely Automated Procedures for Telling Computers and Humans Apart) tendono a esagerare.

Anzi. Nonostante vengano regolarmente sconfitti da attacchi proof-of-concept e tecnologie sostitutive più sofisticate (come reCAPTCHA versione 2 di Google), i CAPTCHA di testo, costituiti da lettere e numeri deformati, si manifestano ancora con una frequenza sorprendente in ogni angolo di Internet.

Ma forse i CAPTCHA di testo sono stati finalmente sconfitti da alcuni gruppi di ricercatori della Northwest University e dell’Università di Pechino, in Cina, e della Lancaster University, nel Regno Unito.

La loro idea, illustrata nel PDF Yet Another Text Captcha Solver: A Generative Adversarial Network Based Approach, consiste nell’attaccare questo tipo di CAPTCHA utilizzando una recente innovazione denominata Generative Adversarial Network (GAN).

Si tratta di una rete neurale formata da due parti, ovvero la rete generativa che sintetizza moltissimi esempi target (ovvero i CAPTCHA di testo) e una rete discriminativa che valuta l’output confrontandolo con esempi reali.

Questo genera un circolo virtuoso in cui la prima rete produce gradualmente simulazioni sempre migliori, mentre la seconda migliora la sua capacità di identificazione.

Quando la seconda parte della rete non riesce più a distinguere fra i CAPTCHA simulati da quelli reali invia tale output a un solutore, che perfeziona ulteriormente le soluzioni simulate basandosi sui sistemi reali.

Efficacia

In passato le reti GAN hanno fornito risultati discreti per i CAPTCHA basati sulle immagini, ma questa sembra essere la prima volta che riescono a ottenere risultati validi anche con gli equivalenti basati su testo.

In totale, i ricercatori hanno collaudato il sistema con 11 CAPTCHA di testo utilizzati da importanti società Internet, con risultati validi al punto da destare serie preoccupazioni.

I più facili da battere sono stati quelli di Sohu (92%), eBay (86,6%), JD.com (86%), Wikipedia (78%) e Microsoft (69,6%), mentre il più difficile è stato Google (3%).

Confrontando i risultati con i 22 CAPTCHA attaccati da altri test, il sistema di questi ricercatori ha nettamente surclassato quello dei concorrenti.

L’aspetto più impressionante è la semplicità con cui i ricercatori sono riusciti a fare tutto questo utilizzando solo 500 CAPTCHA autentici per perfezionare il solutore, al posto dei milioni di esempi necessari in precedenza.

Inoltre, l’operazione ha richiesto solo 0,05 secondi per CAPTCHA, con un umile computer desktop dotato di GPU.

Dott. Zheng Wang della Lancaster University:

Abbiamo dimostrato per la prima volta che un malintenzionato può sferrare velocemente e con la massima facilità un attacco contro un nuovo schema CAPTCHA basato su testo. Questo è preoccupante, perché significa che la prima linea di difesa di molti siti Web non è più affidabile.

Google, ad esempio, ha investito molto nella creazione di nuovi tipi di CAPTCHA (o reCAPTCHA, come Google chiama la sua tecnologia) e di recente è arrivata a decretarne la scomparsa definitiva a favore di un sistema alternativo che modella l’interazione tra un utente (o bot) e i siti Web in modo più generale, per distinguere gli amici dai nemici.

Questo ostacola notevolmente gli attacchi da parte della IA delle reti neurali, perché non ci sono testi o immagini da violare. Ma certamente i ricercatori escogiteranno presto un metodo per simulare il comportamento umano e battere anche questi sistemi.

I CAPTCHA potrebbero avere i giorni contati ma, come i ricercatori con le loro GAN, anche i criminali informatici non getteranno la spugna tanto facilmente.

*Tratto dall’articolo Text CAPTCHAs easily beaten by neural networks sul blog Sophos Naked Security