Una studentessa indiana di ingegneria informatica, Privaniali Gupta, ha creato un modello di intelligenza artificiale che attraverso fotogrammi riconosce i segni e li traduce nella lingua parlata, contribuendo a rendere il mondo della tecnologia sempre più inclusivo
Priyanjali Gupta, giovane studentessa indiana di ingegneria informatica, ha creato nel 2022 un modello di intelligenza artificiale che traduce in tempo reale la lingua dei segni americana (ASL) in inglese. Priyanjali è iscritta al terzo anno, specializzazione in data science, al Vellore Institute of Technology, nello stato indiano di Tamil Nadu e – ispirandosi al video sul rilevamento del linguaggio dei segni in tempo reale dell’ingegnere informatico australiano, Nicholas Renotte, e sfruttando l’interfaccia di programmazione di un’applicazione (API) della libreria software Tensorflow che rileva gli oggetti – ha creato il suo modello di tecnologia inclusiva.
Tutto nasce quando la madre, un anno prima, l’aveva spronata, facendola riflettere su cosa avrebbe potuto creare con le sue competenze e conoscenze. E così un giorno – conversando con Alexa – è sorta l’idea della tecnologia inclusiva per contribuire a colmare il divario comunicativo tra soggetti udenti e non udenti. «Il set di dati è stato creato manualmente eseguendo il file Python Image Collection che raccoglie le immagini dalla webcam per i segni “Ciao, Ti amo, Grazie, Per favore, Sì e No”», si legge nel suo post su Github, piattaforma che ospita progetti software. Il suo post su LinkedIn è diventato virale, con più di 65 mila reazioni e 1400 commenti di persone che hanno apprezzato l’idea. «Il modello, per ora, è addestrato su singoli fotogrammi ma per essere in grado di rilevare i video, deve essere addestrato su più fotogrammi e attualmente sto svolgendo delle ricerche in merito», racconta Priyanjali.
Tuttavia, creare un modello di deep learning da zero per il rilevamento dei segni non è semplice. «Creare una rete neurale profonda solo per il rilevamento dei segni è piuttosto complesso», ha dichiarato infatti a Interest Engineering. «Sono solo una studentessa dilettante, ma sto imparando. E credo che prima o poi la nostra comunità open source, che ha molta più esperienza di me, troverà una soluzione».
L’ASL è la terza lingua più parlata negli Stati Uniti dopo l’inglese e lo spagnolo, e anche in Italia la comunità che utilizza la lingua dei segni italiana (LIS) comprende circa 40 mila persone; se si includono anche gli udenti, i numeri raggiungono i 100 mila.
Tuttavia, le applicazioni e le tecnologie per tradurre la lingua in segni nella lingua parlata non hanno ancora preso piede. Eppure, con il boom mondiale della piattaforma Zoom utilizzata per comunicare durante la pandemia, la lingua dei segni è tornata nuovamente sotto i riflettori. Un esempio è il lavoro dei ricercatori di Google Al che hanno anch’essi presentato un modello del rilevamento della lingua dei segni in tempo reale in grado di identificare con accuratezza fino al 91% degli individui segnanti.
«Ricercatori e sviluppatori stanno facendo del loro meglio per trovare una soluzione che possa essere implementata. Tuttavia, credo che il primo passo sia quello di normalizzare il linguaggio dei segni e altre modalità di comunicazione con i disabili speciali e lavorare per colmare il divario di comunicazione», afferma Priyanjali.
Infatti, in un mondo sempre più tecnologicamente avanzato in cui app e dispositivi cercano di facilitare la vita quotidiana, è importante fare ricerca e utilizzare la tecnologia in maniera inclusiva in modo tale da via via diminuire il divario comunicativo agevolando l’inclusione e l’accesso a servizi, troppo spesso difficoltosi, delle persone con disabilità.