Rohit Prasad è Vicepresidente e scienziato responsabile di Amazon Alexa, un ruolo che lo porta a dirigere le attività di ricerca e sviluppo sulle tecnologie di riconoscimento vocale, comprensione del linguaggio naturale e machine learning allo scopo di migliorare l’esperienza di utilizzo dei dispositivi Echo da parte dei nostri clienti, grazie alla potenza di Alexa. Oggi risponde per noi a cinque domande sulla tecnologia e sul futuro di Alexa.

Domanda: La DARPA (U. S. Defense Advanced Research Projects Agency, ente statunitense dedicato ai progetti di ricerca avanzata a fini di difesa) iniziò a lavorare sulla tecnologia vocale nei primi anni Settanta del secolo scorso. Perché stiamo oggi sperimentando questa ascesa improvvisa delle tecnologie conversazionali basate sull’AI come Alexa?

Ritratto in bianco e nero di Rohit Prasad, Vicepresidente e scienziato responsabile di Alexa Machine Learning.
Rohit Prasad di Amazon, Vicepresidente e scienziato responsabile di Alexa Machine Learning.

È da quasi cinquant’anni che la tecnologia dell’AI conversazionale viene esplorata attivamente come oggetto di ricerca con l’obiettivo di far diventare le interazioni con le macchine fluide come la comunicazione tra esseri umani. Questa è una delle aree più impegnative dell’intelligenza artificiale, perchè le macchine devono essere dotate di un’intelligenza suprema per capire e comunicare attraverso il linguaggio umano, parlato o scritto che sia, o in abbinamento al tatto o a elementi visivi.

L’espressione vocale come interfaccia uomo-macchina è sempre stata considerata vantaggiosa, ma la barriera che ne ha ostacolato di più l’adozione è la capacità delle macchine di riconoscere e capire gli input vocali non essendo dotate né di mani, né di occhi. Noi la chiamiamo “la sfida del riconoscimento vocale far-field o a distanza”, che consente a un dispositivo ambientale come Echo di riconoscere parole pronunciate a distanza con un elevato grado di precisione.

Con il lancio di Echo nel novembre 2014 abbiamo dimostrato che il riconoscimento vocale far-field può raggiungere un alto grado di accuratezza mediante un mix di algoritmi basati sul machine learning, dati e un’immensa capacità di calcolo.

Un altro motivo importante che promuove l’adozione di Alexa è l’ampia gamma di intenzioni che può capire e a cui può dare risposta, rivoluzionando attività quotidiane come l’accesso e la riproduzione di brani musicali o video, la lettura di libri, il controllo di dispositivi intelligenti per la domotica, la comunicazione con amici e familiari, lo shopping, l’impostazione di promemoria o l’acquisizione delle informazioni di cui l’utente ha bisogno.

Quali sono le tecnologie di AI conversazionale e machine learning più importanti alla base di Alexa?

Alexa è progettata in modo da compiere l’azione migliore per conto dell’utente sulla base della sua interpretazione dell’obiettivo di quella azione. A differenza dei motori di ricerca, non si limita a rispondere con un elenco di dieci link di colore blu tra i quali l’utente deve scegliere; piuttosto, Alexa agisce per conto dell’utente ponendo le necessarie domande clarificatorie. Le tecnologie che rendono possibile il funzionamento di Alexa sono numerose.

Tutto ha inizio dal rilevamento del “comando di attivazione” (wake word) che comunica ad Alexa la necessità di iniziare ad ascoltare le parole che l’utente sta per pronunciare. Il rilevamento di tali comandi di attivazione impiega una tecnologia di deep learning eseguita dal dispositivo stesso per riconoscere la parola scelta dall’utente. Successivamente la tecnologia di riconoscimento vocale far-field (detta ASR, da automatic speech recognition) eseguita sul cloud di Amazon Web Services converte in testo le parole pronunciate dopo il comando di attivazione e determina quando l’utente smette di parlare.

Il successo e l’adozione di Alexa sono estremamente soddisfacenti, ma finora abbiamo solo avuto un assaggio di quello che si può ottenere.
Rohit Prasad, Vicepresidente e scienziato responsabile di Amazon Alexa

Una volta che le parole pronunciate sono state convertite in testo, Alexa si avvale di una tecnologia di comprensione del linguaggio naturale (detta NLU, da natural language understanding) per tradurre tali parole in un’interpretazione strutturata dell’intenzione dell’utente, sulla quale può basarsi per rispondere esercitando una delle oltre 30.000 skills (abilità) create per Alexa da sviluppatori interni ed esterni.

Tale interpretazione strutturata viene usata in abbinamento a diverse forme di contestualizzazione, come il tipo di dispositivo con cui l’utente sta interagendo, le skills che hanno più probabilità di soddisfare l’intenzione dell’utente, o l’identità della persona che sta parlando. Esistono due possibili esiti: la risposta mediante il compimento dell’azione migliore sulla base di un’abilità, o la richiesta all’utente di ulteriori informazioni.
Anche il modo in cui Alexa risponde o i suoni che emette sono cruciali ai fini della naturalezza della conversazione. Questo obiettivo viene raggiunto mediante la tecnologia di sintesi text-to-speech (TTS, da text-to-speech synthesis) che converte serie arbitrarie di parole in un’emissione vocale comprensibile e con un suono naturale.

Un punto che tutte le tecnologie sopracitate hanno in comune è l’enfasi che pongono sul machine learning basato sui dati e sulle rapide inferenze durante l’esecuzione del software al fine di dare una risposta corretta nel più breve tempo possibile. Come scienziati e ingegneri cerchiamo sempre di conciliare questa sana tensione tra correttezza e latenza tra il momento in cui l’utente smette di parlare ad Alexa a quello in cui Alexa risponde.

Come altre tecnologie di intelligenza artificiale, Alexa diventa più intelligente quanto più la usi e quante più cose impara su di te. Che cosa stanno facendo gli scienziati e gli ingegneri di Amazon per far diventare Alexa più intelligente?

Poiché il suo cervello risiede principalmente nel cloud, Alexa diventa più intelligente a ogni interazione. Sfrutta un ventaglio di tecniche di apprendimento: apprendimento supervisionato, semisupervisionato e non supervisionato. L’apprendimento supervisionato è ancora quello più potente, ma non è scalabile, perché non possiamo generare label manuali alla velocità richiesta per migliorare costantemente Alexa a vantaggio dei nostri clienti. I nostri scienziati e ingegneri dunque applicano e inventano continuamente nuove tecniche di apprendimento per ridurre la dipendenza da label manuali per l’addestramento dei nostri modelli statistici. Trasversalmente alle nostre tecnologie è pervasivo, per esempio, il ricorso all’active learning (apprendimento attivo) come tipologia di tecniche di apprendimento semisupervisionate, in base alla quale è il sistema stesso a determinare quale parte dell’interazione richieda un input da parte di un esperto umano. Ci avvaliamo anche dell’apprendimento non supervisionato (che non prevede alcuna risposta basata su label) per rendere Alexa più intelligente, soprattutto per il riconoscimento vocale. Infine ricorriamo anche al transfer learning, permettendo ad Alexa di trasferire quanto appreso in relazione a una skill a un’altra skill o addirittura da una lingua all’altra.

Quali aspetti del modo in cui la ricerca sull’AI conversazionale viene condotta all’interno di Amazon la rendono unica rispetto a tutti gli altri soggetti che se ne stanno occupando?

La cosa che ci distingue da tutti gli altri è il modo in cui approcciamo la ricerca in generale. Ogni problema di ricerca ha origine da una metodologia basata sul procedimento a ritroso, che abbiamo mutuato dall’approccio allo sviluppo di prodotto seguito all’interno di Amazon. L’idea di base è semplice: prima di tutto mettiamo nero su bianco gli obiettivi che la ricerca raggiungerà, se andrà a buon fine, o i modi in cui sarà rivoluzionaria, dopodiché procediamo a ritroso a partire da tali obiettivi per determinare le modalità da seguire nella progettazione degli esperimenti e nella definizione delle milestone per verificare i progressi fatti. Crediamo nella rapida sperimentazione e nell’importanza di validare o confutare le nostre ipotesi prima possibile.

Un altro aspetto davvero unico della ricerca sull’AI conversazionale all’interno di Amazon è che abbiamo un prodotto rivoluzionario come Alexa, che ci permette di validare i nuovi algoritmi e le nuove tecnologie su larga scala. Ciò incrementa ulteriormente la credibilità dei progressi tecnici che descriviamo ai convegni o nelle nostre pubblicazioni su riviste accademiche.

Si può affermare che l’abbinamento tra grandi quantità di dati, una potenza di calcolo quasi infinita, la profonda esperienza del nostro team riguardo ai problemi legati all’AI, dalla quale traiamo continui insegnamenti, e il piacere di prendere dei rischi facciano di Amazon il miglior posto al mondo in cui inseguire i sogni in relazione alla ricerca sull’AI conversazionale.

Quale futuro attende l’AI conversazionale a suo parere?

Sono entusiasta riguardo al futuro dell’AI nel suo complesso. Avrà un profondo impatto sociale e aiuterà gli esseri umani ad apprendere nuove competenze che oggi non riusciamo neppure a immaginare. Per quanto concerne l’AI conversazionale penso che ci troviamo ancora nel “Day One”, nel primo giorno di ricerca. Il successo e l’adozione di Alexa sono estremamente soddisfacenti, ma finora abbiamo avuto solo un assaggio di quello che si può ottenere.

Nei prossimi cinque anni vedremo l’AI conversazionale diventare più intelligente sotto diversi aspetti, a mano a mano che compiremo ulteriori progressi sui fronti del machine learning e del machine reasoning. Grazie a tali progressi vedremo Alexa acquisire una maggiore consapevolezza del contesto nel modo in cui riconoscerà, comprenderà e risponderà alle richieste dell’utente. Alexa diventerà più intelligente a una maggiore velocità, a mano a mano che l’apprendimento non supervisionato diventerà prevalente tra le modalità che segue per apprendere.

Diventerà capace di tenere conversazioni più naturali su argomenti legati alla vita quotidiana e ai fatti del giorno, proprio come gli esseri umani. Questo è l’obiettivo fondamentale del nostro Alexa Prize, una competizione accademica basata sullo sviluppo di “socialbots” in grado di tenere una conversazione di venti minuti con un essere umano in modo coerente e coinvolgente. I nostri clienti hanno effettuato il logging di oltre 100.000 ore di conversazione con i socialbots che hanno vinto l’Alexa Prize nel 2017; i vincitori per il 2018 verranno comunicati online a novembre. È divertente provare a usarli. Basta dire “Alexa, facciamoci una chiacchierata.”