Smart speaker: prove di rivoluzione in corso

Federico Cabitza, professore associato di Interazione uomo-macchina presso il Dipartimento di informatica dell’Università degli Studi di Milano-Bicocca
Federico Cabitza, professore associato di Interazione uomo-macchina presso il Dipartimento di informatica dell’Università degli Studi di Milano-Bicocca

Un’immagine ricorrente, quando si parla di intelligenza artificiale, è quella di HAL 9000, il computer di “2001: Odissea nello spazio”: utile, efficiente, apparentemente fedele e terribilmente inquietante. Sarà forse anche per questo e altri antesignani letterari e cinematografici che questa tecnologia suscita entusiasmi e qualche sospetto, soprattutto oggi che grazie agli assistenti vocali una forma, forse ancora primitiva, di AI ha avuto libero accesso alle nostre case. Abbiamo parlato dei vantaggi e delle conseguenze che questo comporta con Federico Cabitza, professore associato di Interazione uomo-macchina presso il Dipartimento di informatica dell’Università degli Studi di Milano-Bicocca.

Innanzitutto, prof. Cabitza, si aspettava un successo di vendite simile per gli assistenti vocali?
Sinceramente no e forse neanche i produttori se lo immaginavano. Nel 2018 sono stati venduti 56 milioni di speaker nel mondo e sono state superate 30 milioni di unità in Europa. Soprattutto mi ha colpito la rapidità di diffusione di questi dispositivi, che si stima abbiano raggiunto almeno un quarto della popolazione statunitense negli ultimi due anni e che in meno di un anno saranno utilizzati dal 50% della popolazione. Solo un’altra tecnologia ha conosciuto una penetrazione altrettanto repentina.

Lo smartphone?
Sì, è stato introdotto nel 2006 e nel 2007 era utilizzato già da un quarto della popolazione negli Usa. Il PC ha impiegato 16 anni per raggiungere lo stesso risultato, la televisione circa un quarto di secolo, la radio almeno 30 anni. Ovviamente viviamo in un’altra epoca, ma il successo degli smart speaker resta evidentemente eclatante. Vedremo se il loro utilizzo si consoliderà come quello degli smartphone oppure no.

Quindi non è detto che gli assistenti vocali avranno lo stesso impatto sulle nostre vite?
Ogni tecnologia ha il suo percorso, certo rappresentano un salto evolutivo rispetto al passato nell’interazione uomo-macchina, ma lo schermo multitouch non è stato da meno: 15 anni fa non era presente neppure nei laboratori più all’avanguardia, oggi è sulla punta delle dita di tutti.

Impartire comandi a una macchina utilizzando solo la propria voce sembra però davvero qualcosa di rivoluzionario.
Non userei questo termine: si tratta piuttosto dell’ultimo passaggio di un’evoluzione continua, una tappa nel percorso che rende sempre più semplice comunicare con la tecnologia. Non dimentichiamoci però che l’interfaccia non scompare, è solo più rarefatta e che lo smart speaker è solo uno strumento abbastanza semplice che consente di utilizzare sistemi dalle enormi capacità computazionali che sono altrove, nel cloud. Ci sono segnali abbastanza chiari che indicano come questa modalità possa essere presto sorpassata.

In che modo?
Ci sono diversi esempi. Penso al progetto SOLI di Google in cui vengono impiegati micro radar, installabili in smartphone o altri oggetti digitali, in grado di percepire gesti minimi, attraverso i quali è possibile comunicare con un’intelligenza artificiale.

Quindi senza pronunciare neppure un comando.
Bastano piccoli movimenti della mano, un’operazione ancora meno faticosa rispetto all’uso della parola. Un altro progetto che mi ha molto colpito è Alter Ego, realizzato dal MIT.

alteregoDi cosa si tratta?
È un dispositivo indossabile sul viso, ma davvero poco invasivo già allo stato di prototipo, che riconosce gli impercettibili movimenti muscolari che compiamo quando articoliamo mentalmente delle parole. Insomma parliamo tra noi e noi, e la tecnologia risponde; le potenzialità sono notevoli, ma anche i rischi di alienazione e di chiusura in se stessi. Si stanno poi sperimentando intelligenze artificiali in grado di riconoscere le emozioni umane.

Sembra quasi inquietante.
Lo è, ma ci impone un ragionamento complessivo sull’uso della tecnologia. Per esempio, uno strumento in grado di riconoscere le emozioni può essere utilizzato per individuare i sintomi della depressione ed aiutare i medici a formulare una diagnosi oppure può essere addirittura impiegato nella prevenzione dei tentativi di suicidio. Esistono anche campi di applicazione più quotidiani, come nel settore automobilistico.

Per aiutarci a garantire una maggiore sicurezza?
Sì, poniamo il caso che il sistema percepisca segnali di stanchezza o di ebbrezza, oppure di uno stato emotivo non compatibile con la guida, allora può suggerirci di fermarci o addirittura far accostare il veicolo se questo è dotato di un sistema di guida autonoma.

Torniamo agli assistenti vocali, se dovesse indicare i settori che saranno più coinvolti dallo sviluppo di questi strumenti.
Penso principalmente alla domotica e a tutti i contesti in cui possiamo o dobbiamo fare a meno delle mani.

Per esempio?
In auto, come detto, nella supply chain, ma anche in ambito sanitario: i medici farebbero carte false per avere a disposizione un assistente vocale che, mentre visitano il paziente, compila autonomamente le cartelle. Valorizzerei, in sostanza, le applicazioni che magari colpiscono un po’ meno l’immaginazione e riguardano strettamente l’ambito lavorativo, dove possono effettivamente semplificare alcune mansioni, magari con un minore impatto sulla vita privata delle persone.

Oggi però i consumatori sembrano utilizzare ancora questi strumenti per compiti semplici, quasi per gioco.
Il problema è l’efficacia di questi sistemi, cioè la capacità di rispondere correttamente alle esigenze dell’utente. Li chiamiamo assistenti ma non comprendono ancora il tono di voce, l’ironia e, più in generale, il contesto in cui avviene una conversazione. Dovrebbero esibire una capacità conversazionale matura e questa è una prospettiva molto lontana dal realizzarsi.

C’è così tanta strada da fare?
Uno studio empirico della società di consulenza Stone Temple ha dimostrato come Google Assistant sia in grado di comprendere due domande su tre, che sembra apparentemente un buon risultato, ma significa che una volta su tre non capisce nulla e avvia una ricerca sul web. Altri assistenti evidenziano performance anche peggiori. E bisogna precisare che, anche quando rispondono, non sempre lo fanno in modo corretto: Google sbaglia relativamente poco, una volta su 10, mentre Siri cade in errore 4 volte su 10.

Eppure molte analisi sostengono che affideremo a questi strumenti compiti sempre più complessi.
Già lo facciamo, ma i risultati non sono sempre soddisfacenti. Per esempio, qualche tempo fa ho partecipato alla realizzazione di una survey in cui si recensivano alcuni chatbot, utilizzati in ambito diagnostico. Il più celebre è Babylon, di cui si serve il servizio sanitario inglese per offrire alcune prestazioni base, come le consultazioni più veloci. L’indagine ha avuto un esito abbastanza impietoso: non solo il sistema non è stato in grado di offrire un supporto paragonabile a quello di un medico, ma non di rado è incappato in errori davvero gravi, creando falsi allarmi o sottovalutando alcuni sintomi.

Secondo la sua opinione, come evolveranno gli assistenti virtuali: saranno sempre più simili agli umani o no?
Le aziende tenderanno a rendere più umani questi prodotti ed è uno scenario che mi preoccupa.

Perché?
Se l’utente inizia ad attribuire loro un carattere umano, può maturare un senso di fiducia e complicità nei confronti di questi oggetti diventando più vulnerabile ad alcuni pericoli reali, come i possibili attacchi hacker. E poi bisogna considerare l’impatto che l’abuso di questi strumenti può avere nelle relazioni tra esseri umani, ad esempio nella diffusione degli stereotipi di genere.

Un problema che è stato più volte sollevato.
E non in modo pretestuoso. Spesso la voce di questi assistenti è femminile ed è stato giustamente notato come subiscano senza nessuna protesta espressioni umilianti e aggressive. Una ricerca specifica ha voluto analizzare come questi strumenti reagiscano a molestie verbali di tipo sessuale e, in alcuni casi, la risposta è stata addirittura ammiccante o accondiscendete.

Ci sono delle contromisure?
Ne esistono, anche di semplici e immediatamente applicabili. Per esempio il collettivo Virtue Worldwide ha proposto Meet Q la prima voce artificiale “no gender”, che rende impossibile distinguere se il timbro sia maschile o femminile. È open source e i creatori auspicano che venga utilizzata dalle case produttrici degli assistenti vocali, almeno come opzione percorribile.

Si tratta di temi cruciali. È davvero compito delle aziende occuparsene?
Siamo nelle loro mani, anche perché il legislatore sconta spesso un grave ritardo, perché la tecnologia si muove a un passo completamente diverso e molto più veloce. Forse questo iato si ridurrà con il tempo, ma ad oggi tocca ai privati proporre delle soluzioni.

Come?
È fondamentale che non limitino la loro azione etica nella creazione di comitati di esperti, che intervengono a convegni o redigono rapporti, molto più citati che letti e compresi, ma piuttosto che si rendano disponibili a delle verifiche puntuali dei loro processi di qualità e delle modalità con cui gestiscono la privacy. Esistono delle certificazioni sul comportamento etico delle aziende nel realizzare certi sistemi di intelligenza artificiale, anche se nessuno ha assunto lo status di standard de facto. Credo che questo impegno sia, tutto sommato, nel loro interesse.

In che senso?
Un più alto livello di attenzione a queste problematiche si traduce in una leva competitiva sana su cui puntare. Promuovere una seria politica di gestione etica dei propri sistemi produttivi permette di attivare un circuito virtuoso in grado di sollecitare nel consumatore comportamenti d’acquisto più consapevoli delle implicazioni etiche, sociali e sanitarie legate all’uso della tecnologia.

Leggi l’intervista integrale sul numero di novembre della rivista.