Sul device è meglio che in Cloud? Questione di privacy!
Al summit Re-Work Deep Learning di Boston, Chris Lott, un ricercatore di intelligenza artificiale di Qualcomm, ha fornito uno sguardo al lavoro del suo team su un nuovo programma di riconoscimento vocale.
Il sistema, che funziona localmente su uno smartphone o un altro dispositivo portatile, comprende due tipi di reti neurali: una rete neurale ricorrente (RNN), che usa il suo stato interno, o memoria, per elaborare gli input, e una rete neurale convoluzionale, che imita il modello di connettività tra i neuroni nel cervello umano. In media, è in grado di riconoscere parole e frasi, con un'accuratezza del 95%, ha detto Lott.
"Impara dai modelli [e] dal tuo utilizzo del dispositivo", ha affermato. "Può personalizzare il suo comportamento per te."
La maggior parte dei sistemi di riconoscimento vocale oggi esegue la maggior parte dell'elaborazione in cloud. I microfoni e i chip nei telefoni, gli altoparlanti di casa intelligenti come Google Home e gli altoparlanti Echo di Amazon e i computer Windows con l'assistente Cortana di Microsoft abilitano l'ascolto di "hot words" come "OK Google" e "Hey Cortana", che attivano il sistema per eseguire i comandi vocali a venire. Ma non analizzano questi comandi: affidano il task a potenti server remoti che eseguono algoritmi complessi di apprendimento automatico.
Per alcuni utenti, l'utilizzo dei dati vocali elaborati in cloud pone problemi di privacy. Sia l'assistente Alexa di Amazon sia i frammenti di registrazione di Google Assistant, prima di inviarli per l'analisi, conservano i frammenti vocali fino a quando gli utenti scelgono di eliminarli. Entrambe le società affermano di utilizzare le registrazioni audio per migliorare i loro servizi e fornire risposte più personalizzate.
Ma in alcuni casi, le registrazioni non rimangono private. Nel 2016, in Arizona per indagare su un omicidio si è cercato di accedere ai dati vocali di un altoparlante Amazon Echo, che è stato infine condiviso, con il permesso dell'imputato.
L'elaborazione vocale sul dispositivo presenta vantaggi rispetto alla privacy: non è necessario scaricare dati in cloud, risponde immediatamente ai comandi e, poiché non richiede una connessione Internet, è molto più affidabile.
"C'è una forte spinta a realizzare l'intero sistema end-to-end utilizzando reti neurali", ha detto. "È qualcosa che renderà più naturale l'interazione con i dispositivi".
Lott ha ragione. Nel 2016, Google ha creato un sistema di riconoscimento vocale offline 7 volte più veloce del suo sistema online al momento. Il modello, che è stato addestrato su circa 2.000 ore di dati vocali, ha una dimensione di 20,3 megabyte e ha ottenuto una precisione dell'86,5% su uno smartphone.
Ovviamente, il riconoscimento vocale sul dispositivo ha tuttora una serie di limiti. Gli algoritmi progettati per funzionare offline non possono connettersi a Internet per cercare risposte e perdono i miglioramenti possibili nei sistemi basati su cloud che utilizzano set di dati più ampi e diversificati.
Ma Lott pensa che la soluzione di Qualcomm sia la via da seguire. "Un sacco di cose stanno accadendo in Cloud, ma pensiamo che molte dovrebbero accadere direttamente sul dispositivo."