Il futuro del riconoscimento vocale

: 15 Settembre 2013

Il futuro del riconoscimento vocale è più vicino di quanto possiamo immaginare.

Quando le tecnologie riusciranno ad emulare il riconoscimento e la cmpnrensione umana due saranno gli immediati effetti positivi:

abbattimento di ogni barriera per la condivisione delle informazioni, ricerca e fruibilità dei contenuti. e comunicazioni molto più efficienti.
l'aumento della produzione di informazioni permetterà la creazione di volumi enormi di dati senza struttura (pensieri, idee, memorie, ecc...) comunque ricercabili e accessibili da memorie digitali.

I primi sviluppi nell'ambito del riconoscimento vocale inizia anticipa l'invenzione dei computer moderni di quasi 50 anni.

Alexander Graham Bell era ispirato dagli esperimenti nel trasferimento del parlato a sua moglie che era sorda. inizialmente sperava di poter creare un dispositivo che trasformasse le parole pronunciate in un'immagine interpretabile da un audioleso. Ha quindi prodotto immagini pettrografiche dei suoni, ma la moglie non era in grado di decifrarle. QUella linea di ricerca ha di fatto aperto la strada all del telefono.

Per decenni, gli scienziati hanno sviluppato metodi per il riconoscimento vocale computerizzato, ma le capacità di calcolo ponevano limiti insormontabili. Solo negli anni '90 i computer raggiunsero le prestazioni necessarie affinché il riconoscimento vocale potesse essere reso disponibile all'ambito consumer. Le attuali ricerche rono rivolte a tecnologie che rcorderebbero gli episodi di "Star Trek".

Il DARPA (Defense Advanced Research Projects Agency) ha ben tre team di ricercatori che stanno lavorando al GALE (Global Autonomous Language Exploitation), un programma che gestirebbe flussi di informazioni multilingua, traducendoli. L'obiettivo è quello di sviluppare un software che istantaneamente traduca il testo tra due lingue con un'accuratezza superiore al 90%. Il DARPA sta anche finanziando un altro progetto R&D chiamato TRANSTAC per permettere ai militari di comunicare in modo efficace con le popolazioni civili che parlano una lingua diversa. E' evidente che una tecnologia del genere troverebbe immediata applicazioni a molti ambiti civili, rendendo disponibile un "traduttore universale".

Tutto ciò non è ancora disponibile: è ancora molto complicato realizzare un sistema che combini la traduzione automatica con il riconoscimento vocale.

Secondo un articolo pubblicato da CNN, il progetto GALE è classificato come 'DARPA hard', offero difficile anche utilizzando standard estremi. Perché? Il primo problema è il superamento di barriere ancora alte, come slang, accenti, dialetti e rumori di fondo. Le diverse strutture grammaticali utilizzate della diverse lingue aggiungono un altro problema. Per esempio, la lingua Araba a volte utilizza una sola parola per esprimere un'idea che in italiano può essere spiegata solo con una frase.

Nel futuro, il riconoscimento vocale (spech recognition) diventerà "speech understanding", ovvero la comprensione del significato del parlato. I modelli statistici che permettono ad un computer di comprendere cos'ha detto una persona potrebbero presto capire anche il significato della combinazione di parole. Attualmente occorre un altro passo avanti in termini di capacità di calcolo e di sofisticatezza degli algoritmi. Molti ricercatori concordano nel dire che il riconoscimento vocale apre la via alla vera intelligenza artificiale. Ad oggi possiamo parlare ai computer. Tra pochi anni, saranno in grado di rispondere in modo coerente, avendo compreso il significato delle nostre parole.