Anche il "rinascimento" del riconoscimento vocale parte da Firenze

: 29 Settembre 2013

Ah, Firenze! Culla del rinascimento, dopo 6 secoli, il luogo di un nuovo rinnovamento le cui conseguenze saranno visibili per molti anni.

Nel 2011 si è tenuta proprio in Firenze, Interspeech 2011, la XXII conferenza annuale ISCA (International Speech Communication Association). Il tema di quell'anno era “speech science and technology for real life.” Erano attesi più di 1000 scienziati internazionali con più di 800 relazioni presentate nelle diverse sezioni.

Agli addetti ai lavori non saranno certo sfuggite le importanti novità introdotte in quell'occasione da Microsoft!

I ricercatori di Microfost nell'ambito Speech avevano anticipato alcuni esiti delle loro ricerce pubblicando notizie sul Microsoft Research blog. Per anni, abbiamo sentito che il riconoscimento vocale era prossimo a fare un significativi balzo avanti in termini di accuratezza, robustezza nella comprensione delle frasi. E' finalmente chiaro ed evidente che le reti neurali sono il ponte che permette di attraversare l'abisso che impediva questo passo avanti.

Le soluzioni di riconoscimento vocale ideali devo essere alla nascita speaker-independent, ovvero che non devono richiedere alcun addestramento iniziale (sebbene un adattamento sul profilo successivo sicuramente ne migliora le prestazioni) e che funzionino correttamente in tutti i contesti per i quali ne è previsto l'utilizzo. Una parte dei progressi sono certamente stati fatti dai produttori di microfoni e di schede audio per la fase di acquisizione e digitalizzazione dell'audio. ma, come abbiamo appreso ad Interspeech, le novità più rilevanti che rappresentano un passo avanti per i risultati di oggi e quelli futuri sono racchiusi in tre lettere: DNN, ovvero l'abbreviazione per Deep Neural Networking.

Tutte le soluzioni precedenti erano basate sul riconoscimento delle 'utterance' o 'espressioni' basato su fonemi interpretandoli utilizzando il cosiddetto “context-dependent Gaussian mixture model HMMs (CD-GMM-HMMs)". Dong Yu, un ricercatodre dello speech lab di Microsoft in Redmond, Washington, ha analizzato l'utilizzo di DNN in combinazione con componenti più piccoli (building blocks) delle espressioni verbali chiamati “senomi.” In breve, oggi le piattaforme di calcolo possono utilizzare nuove tecniche di elaborazione (DNN) per comprendere ciò che è stato detto, analizzando componenti più piccole delll'audio ascoltato. La tesi illustrata dal ricercatore di Microsoft, conclude con risultati a dir poco soprendenti. Hanno infatto dimostrato che con l'utilizzo di Deep Neural Networking a vocabolari molto ampi e per la conversione del parlato in testo , ha comportato una riduzione del WER (Word Error Rate) relativo del 33% rispetto ad un modello tradizionale.

Si intuisce che da oggi si apre un nuovo percorso verso la realizzazione di soluzioni di roconoscimento vocale, senza addestramento, con vocabolari molto ampi, garantendo l'accuratezza che da anni ci attendiamo ed una significativa riduzione della latency. E' iniziato un nuovo futuro per il riconoscimento vocale. La tecnologia supererà i limiti che ne avevano impedito l'utilizzo pervasivo atteso fin dalla fine degli anni 90. Quanto tempo occorrerà perché i nuovi algoritmi siano utilizzati in soluzioni commerciali? Meno di quanto possiamo immaginare: il futuro è già oggi. E' solo l'inizio di un nuovo percorso del quale reconice sarà protagonista, per portare i vantaggi offerti da questa nuova tecnologia al servizio dei professionisti.