Dialogare con un computer. Per decenni, si è fantasticato sugli elaboratori senzienti, in grado di comprendere la voce umana e rispondere di conseguenza. HAL9000 in 2001: Odissea nello spazio o Kitt nel telefilm Supercar sono solo due esempi di sistemi informatici dotati di un’intelligenza artificiale e, soprattutto, di una Voice User Interface (VUI).

Oggi siamo circondati da dispositivi con interfacce vocali, ottenute grazie ai progressi delle tecnologie Text-to-Speech e Natural Language Processing. Basta pensare a come ci rivolgiamo agli assistenti digitali intelligenti con cui interagiamo quotidianamente mentre siamo in casa, in ufficio o in mobilità: “Hey Siri”, “Alexa?”, “Ok Google”

Secondo Search Engine Land, nel 2017 Amazon e Google avevano già venduto complessivamente 44 milioni di dispositivi VUI. Sulla base di queste informazioni, nel gennaio 2018 Juniper Research aveva fatto una stima numericamente importante: entro il 2023, con la crescita della domotica, almeno 275 milioni di dispositivi vocali controlleranno le nostre case. A ben vedere, però, si tratta di un dato che potrebbe facilmente essere ritoccato per eccesso: stando a Mark Mahaney, analista di RBC, Google avrebbe venduto 52 milioni di dispositivi Google Home solo nel corso del 2018. Un mese dopo, a gennaio 2019, è stata la stessa Amazon a rivelare che gli Alexa acquistati dai consumatori fino a quel momento erano 100 milioni. Insomma: facendo due calcoli approssimativi, a gennaio 2019 eravamo già ben oltre i 150 milioni. 

In ottica aziendale, la crescente diffusione di dispositivi e applicazioni “dialoganti” può spingere un team di sviluppo a fare delle riflessioni in avvio di progetto. Se la tendenza globale è quella di andare verso un approccio multicanale, allora ipotizzare sin dalle prime battute la realizzazione di una VUI che affianchi le tradizionali interfacce visive non solo è saggio, ma anche auspicabile.

Perché sviluppare applicazioni VUI

Nella storia delle interfacce siamo passati da modelli computer oriented a configurazioni sempre più umane. Dalle schede perforate alle righe di comando, dalle primissime Graphical User Interface (GUI) a finestre e desktop, la naturalezza delle interfacce è un requisito imprescindibile per computer e dispositivi mobili. 

Non deve dunque sorprendere il boom delle Voice User Interface. Così come un volto amichevole ispira fiducia, anche un dispositivo digitale privo di barriere invoglia maggiormente gli utenti all’uso. Tutto ciò che riduce lo stress cognitivo semplifica la User Experience. Più l’interazione è naturale e immediata, maggiore è la possibilità che i sistemi che la favoriscono siano accolti positivamente dalle persone. 

Le applicazioni con VUI ben sviluppate giocano a favore delle persone perché risultano più veloci, comode, intuitive e umane. Vediamo in dettaglio ogni singola caratteristica.

Velocità e tempi di input ridotti

Le VUI riducono i tempi di input. Svincolati dalla tastiera, dal mouse o dai sistemi touch, le persone possono alleggerire il loro carico di lavoro grazie a sistemi che prevedono dettatura e comandi vocali.

Comodità di utilizzo e sviluppo del multitasking 

La fruizione delle VUI ricorda da vicino i benefici della radio. Permettono alle persone di interagire con i dispositivi mentre fanno “altre cose”: cercare un ristorante o rispondere a un messaggio alla guida della propria vettura è, al tempo stesso, pratico e sicuro.

Intuitività e approccio semplificato

Cosa c’è di più intuitivo del parlato? Nulla come un’interfaccia vocale rende semplice e immediato l’approccio ad una nuova applicazione, anche per gli utenti meno esperti.

Empatia e sicurezza

Per quanto si possa padroneggiare la comunicazione scritta, l’oralità veicola un numero di informazioni secondo solo al face to face. La scelta della voce narrante, del timbro e dei microtesti parlati possono rendere le applicazioni più accoglienti, abbattere le resistenze psicologiche degli utenti meno pratici e garantire un’esperienza positiva.

Come realizzare Voice User Interface efficaci

Chi realizza interfacce vocali deve ispirarsi a ciò che le persone si aspettano da una conversazione telefonica. Al telefono ci basiamo esclusivamente sul parlato per acquisire informazioni, facciamo leva su un determinato modo di parlare e su consuetudini condivise sperando che l’altro capisca quanto stiamo dicendo.  

Elenca le opzioni

Nelle canoniche GUI, l’utente ha a disposizione sullo schermo tutte le possibili scelte. Le applicazioni che dispongono esclusivamente di un’interfaccia vocale, invece, potrebbero dipendere esclusivamente dalle intuizioni dell’utente se non opportunamente guidato. Sulla falsa riga dei risponditori telefonici automatizzati, una VUI ben congeniata permette di chiarire all’utente le regole del gioco: cosa chiedere, come formulare le domande, come muoversi.

Ricorri agli esempi

L’uso del vocale suggerisce implicitamente alle persone di rivolgersi ai dispositivi come fossero amici, partner, familiari. A differenza degli esseri umani, però, applicazioni e dispositivi non possono comprendere il non detto. Hanno bisogno di moltissimi dati per intuire al volo le intenzioni inespresse dietro qualunque richiesta. Voler sapere qual è “il ristorante più vicino” è diverso dal chiedere “Qual è il ristorante più vicino aperto ora”. Oltre a elencare le opzioni, è utile illustrare agli utenti delle domande tipo che meglio sfruttino le potenzialità dello strumento e dell’applicazione.

Ricorda sempre dove sei

Chi scrive gli script delle applicazioni con VUI deve ragionare come un autore radiofonico. Deve pertanto ricordarsi di descrivere sempre il contesto delle risposte che fornisce. Un’applicazione meteo, per esempio, alla domanda “Che tempo fa oggi a Roma” non può limitarsi alla risposta secca - “sereno” – ma formulare la risposta a partire dal quesito – “Le previsioni del tempo per Roma indicano sereno”. 

Limita i risultati

Nella naturalezza di una normale conversazione a voce ci auspichiamo risposte puntuali o al massimo un numero limitato di alternative. Restando nell’ambito della ristorazione, difficilmente ci verrà consigliato un lungo elenco di pizzerie e trattorie dove poter mangiare. In un contesto esclusivamente vocale, la scansione di una lista di elementi può risultare difficile da seguire. È decisamente più performante fornire una breve lista con le risposte più utili – nel nostro esempio i 3 risultati più vicini o più popolari – e dare all’utente la possibilità di leggere le altre solo se lo richiede esplicitamente.

Fornisci feedback visivi e sonori

Una normale conversazione diventa frustrante quando l’altro non ci ascolta o non ci comprende. Distrazione e incomprensioni rendono difficoltose le interazioni con le persone. Per replicare correttamente le conversazioni, le applicazioni con VUI devono fornire feedback che confermino la ricezione dei messaggi e la loro corretta comprensione. Beep, vibrazioni e segnalazioni visive costituiscono tutti quei meccanismi non verbali impercettibili che consentono alle persone di ridurre eventuali ambiguità e incomprensioni.

Voice User Interface: da interazione a conversazione

Le app con VUI avvicinano l’esperienza utente alla Zero UI. Forse in un futuro prossimo considereremo preistoria le interfacce grafiche vecchio stile e lavoreremo esclusivamente con sistemi vocali, magari supportati da forme di intelligenza artificiale in grado di apprendere il linguaggio e di acquisire informazioni paraverbali aggiuntive, come il tono di voce. 

L’esperienza utente si sta trasformando da mediata a immediata. La sfida per sviluppatori e progettisti è far sì che le proprie app forniscano feedback altrettanto immediati, in modo tale da avvicinarsi il più possibile a quella naturalezza tipica delle conversazioni umane.