Alexa diventa sempre più brava ad ascoltare: 20% di errori in meno grazie ad un addestramento speciale

Juxhin Radhima

Echo Amazon

Gli scienziati di Amazon Alexa sono riusciti a ridurre del 20% gli errori di riconoscimento vocale e in questo articolo vediamo come hanno fatto.

Le reti neurali profonde richiedono tempo per l’addestramento (e molti dati) e questo è particolarmente vero per i sistemi di riconoscimento vocale.

I modelli convenzionali comprendono migliaia di ore di frammenti vocali trascritti.

Non sorprende quindi che gli scienziati della divisione Alexa di Amazon stiano studiando modi per accelerare il processo e hanno riferito di aver già fatto progressi sostanziali.

In un post di un blog e nel documento di accompagnamento (“Improving Noise Robustness of Automatic Speech Recognition via Parallel Data and Teacher-Student Learning”), Minhua Wu, una scienziata applicata del gruppo Alexa Speech, e suoi colleghi descrivono un riconoscitore vocale che identifica i modelli di dati in modo semi-supervisionato.

Imparando a fare uso di alcuni campioni non etichettati, sostengono che un modello sperimentale addestrato su 800 ore di dati annotati e 7.200 ore di dati non annotati, con un secondo sistema vocale che alimenta gli stessi campioni di dati (ma con rumore generato artificialmente), il design raggiunge una riduzione del 20% nel tasso di errore di riconoscimento rispetto alla linea di riferimento.

“Speriamo di ….. migliorare la robustezza del sistema di riconoscimento vocale”, ha scritto Wu.

Come lei e i suoi colleghi spiegano, i sistemi automatici di riconoscimento vocale sono costituiti da 3 componenti fondamentali: un modello acustico, un modello di pronuncia e un modello linguistico.

Il pezzo acustico prende come input brevi campioni audio, o frame, e per ogni frame produce “migliaia” di probabilità.

Ogni probabilità indica la verosomiglianza che un dato frame appartenga ad una rappresentazione fonetica di basso livello chiamata senone.

Nell’approccio proposto, gli output del modello acustico sono inserite nel modello di pronuncia, che converte le sequenze di senone in possibili parole e passa quelle al modello linguistico, che codifica le probabilità delle sequenze di parole.

Infine, tutti e 3 i sistemi di AI lavorano insieme per trovare la sequenza di parole più probabile dato l’input audio.

Gli autori dell’articolo hanno cercato innanzitutto di ottimizzare la precisione massima del modello acustico e di ridurre al minimo gli errori tra le sequenze di output, soprattutto attraverso la formazione delle sequenze.

Successivamente, hanno aggiunto rumore ai dati di allenamento raccogliendo campioni audio da musica, televisione e altri media ed elaborandoli per simulare l’acustica degli ambienti chiusi.

Per ogni esempio di parlato nel set di allenamento, hanno selezionato casualmente da uno a tre campioni di rumore da aggiungere.

Nei test, il team ha impiegato due corpora aggiuntivi: un set di campioni audio puliti e un set di campioni ai quali hanno aggiunto rumore.

Il modello più performante, dicono, è stato prima ottimizzato secondo l’output per-frame, utilizzando tutte le 8.000 ore di dati con l’aggiunta di rumore e poi addestrato sulle 800 ore di dati annotati.

Relativamente ad un modello addestrato su 800 ore di dati puliti etichettati a mano, si è vista una riduzione del 10% del tasso di errore sui dati dei test puliti, una diminuzione del 29% sui dati dei test rumorosi e una diminuzione del 20% sui dati rumorosi ri-registrati.

La ricerca sarà presentata al International Conference on Acoustics, Speech, and Signal Processing che si terrà a Brighton questa primavera.

Gli investimenti da parte di Amazon per migliorare questa tecnologia non si fermano e sembra ci sia sempre di più l’intenzione di affermarsi come riferimento del mercato vocale.

Come reagiranno Google e gli altri competitor a questi continui miglioramenti di Alexa?

Staremo a vedere…

Noi ci vediamo presto,

Juxhin

CONDIVIDI L’ARTICOLO:

Condividi su facebook
Condividi su twitter
Condividi su linkedin
Condividi su email

Guarda i 6 video gratuiti sulle Skills

Ho preparato sei video gratuiti per spiegarti cosa sono le Skills Alexa, quali sono gli utilizzi di questo strumento e alcuni esempi pratici.

Copyright @JuxhimRadhima

Sei uno YouTuber, un Podcaster o un Blogger?

Ti presento

IL PRIMO TOOL AL MONDO PER LA PUBBLICAZIONE DI CONTENUTI SU AMAZON ALEXA