Prodotti e Servizi PRODOTTI & SERVIZI

Chi legge meglio sulle labbra? Gli umani o l’intelligenza artificiale?

HAL 9000: So che tu e Frank state pensando di disconnettermi, e ho paura di non poter permettere che questo accada.

Astronauta Dave Bowman: Come diavolo ti è venuta quest’idea, HAL?

HAL 9000: Dave, nonostante tutte le vostre precauzioni ho potuto vedere le tue labbra muoversi.

Un po’ in ritardo – nel caso in cui non l’aveste riconosciuto questo dialogo è preso dal film di Stanley Kubrick,  2001 Odissea nello spazio – ma i computer si stanno muovendo rapidamente verso la completa padronanza della lettura labiale.

Non ci sono ancora arrivati. (Non c’è da stupirsi: per l’uomo, la lettura delle labbra è estremamente difficile e altamente soggetta a errori.) Ma nuove ricerche dimostrano chiaramente che essi stanno superando gli esseri umani, e che migliorano velocemente. Quindi, se siete stati ripresi su un CCTV, con o senza audio, presto potrebbe essere decifrato quello di cui stavate parlando.

La lettura labiale è stato il fulcro della ricerca sull’intelligenza artificiale per anni. Due nuovi documenti dalla Oxford University mostrano a che punto si è arrivati.

Nella prima, i ricercatori di informatica dell’Università di Oxford hanno addestrato il loro sistema di intelligenza artificiale LipNet su un insieme faticosamente sviluppato di 29.000 clip di brevi video di formazione che ha offerto lo scenario migliore possibile in assoluto per la lettura labiale.

Secondo quanto sostiene Quartz:

“Ogni persona guardava davanti a sé, era ben illuminata e si esprimeva con una struttura della frase standardizzata.”

Il vocabolario inoltre era opportunamente piccolissimo. I ricercatori quindi hanno testato sia gli umani che LipNet su 300 video “ideali”.

Gli umani hanno riportato un deplorevole tasso di errore del 47,7%. (Pensate di poter fare di meglio? Provatene uno voi stessi.)

LipNet, invece, ha sbagliato solo il 6.6%. La sua precisione del 93,4% ha spazzato via il precedente record del 79,6%.

Che cosa ha permesso questo risultato così positivo? Esso non si limita a interpretare i cambiamenti “spazio-temporali” nella forma della bocca quando un essere umano parla, ma fa anche delle previsioni sulla base dell’intera frase. In questo modo, può utilizzare il contesto della frase per migliorare le sue congetture. Leggete il documento originale per avere dettagli completi.

Quindi, starete pensando: bene, ma il video del mondo reale non è stato creato con tanta cura per la lettura delle labbra. E se ci fosse un video un po’ più realistico?

Per questo, ci rivolgiamo a un documento completamente diverso, con autori del Dipartimento della Oxford University of Engineering Science e del progetto DeepMind di Google. Esso è basato su 5000 ore di notizie e di dibattiti trasmessi dalla BBC, che comprende molti oratori diversi e quasi 17.500 parole diverse (un inglese madrelingua conosce in media tra le 20.000 e le 35.000 parole.) Questo insieme di dati video è meno artificiale di quello di LipNet, ma ancora generalmente ben illuminato, con relativamente poche modifiche o distrazioni.

Dopo aver addestrato il loro nuovo sistema di intelligenza artificiale sul vecchio video della BBC, i ricercatori lo hanno sguinzagliato sui nuovi programmi della BBC. Secondo il New Scientist, esso ha ottenuto il 46,8% di precisione. Niente di spettacolare … ma l’uomo era stato capace solo del 12,4%.

Entrambi i gruppi di ricercatori hanno identificato le opportunità per migliorare i loro sistemi, e Yannis Assael di LipNet sostiene che inizierà a sperimentare con i dati della BBC. La maggior parte concorda sul fatto che, un set di dati più grande e più realistico aiuterà i progressi. E’ solo una questione di tempo prima che vengano raggiunti. Quindi non stupitevi se la lettura labiale dell’intelligenza artificiale migliorerà in modo significativo nel prossimo futuro.

La sorveglianza avanzata è chiaramente una delle possibili applicazioni per questo lavoro – almeno dove i microfoni a lungo raggio non possono fare ancora meglio – ma non è l’unico. A parte la generazione automatizzata di sottotitoli, esso può migliorare gli apparecchi acustici e consentire un migliore riconoscimento vocale in ambienti rumorosi.

Tuttavia, come scrive Jack Clark nella sua newsletter Import AI, in futuro, se si ha qualcosa di rivoluzionario da dire potrebbe essere necessario indossare una maschera.

Lascia un commento

Your email address will not be published. Required fields are marked *