Voice Interface Design

februari 12, 2019 | Tim Stribos | ,

Tegenwoordig wordt er steeds meer focus gelegd op het creeren van een natuurlijk lijkende menselijke dialoog tussen mens en machine.

Ieder van ons komt spraakinterfaces tegen. Alexa, Google Home, de lift die omroept op welke etage we zijn en de navigatie die “nu naar rechts” roept – iemand moet de tekst voor deze services bedenken. Dit is een nieuwe richting voor interface-ontwerpers, het ontwerpen van de spraakinterface.

 

Wat is VUI?

Spraakinterfaces dan wel VUI (Voice User Interface), is de evolutie van interactie, die handen en ogen vrij maakt voor andere zaken en de invoer of ontvangst van informatie vereenvoudigt. Bijvoorbeeld wanneer we een auto besturen en op dat moment willen weten hoe oud Demi Moore is.

In de afgelopen jaren heeft spraakinteractie zich met sprongen ontwikkeld. Al 20% van alle zoekopdrachten op Google en op mobiele apparaten vinden plaats via spraak. Volgens Gartner zal in 2020, 30% van de zoekopdrachten plaatsvinden zonder scherm. Je kunt het weerbericht beluisteren, de lichten in de woonkamer aanzetten of pizza bestellen. In de toekomst zijn de mogelijkheden bijna oneindig.

Componenten voor spraakinterface

Wat kenmerkt de spraakinterface en wat zijn de verschillen met de gebruikelijke visuele interfaces? Specialisten van de Nielsen Norman Group hebben vijf basistechnologieën voor spraakinterfaces geïdentificeerd:

  1. Spraakinvoer: verzoeken worden met de stem gedaan en niet via het toetsenbord of grafische elementen van het scherminterface.
  2. Natuurlijke taal: gebruikers moeten niet beperkt zijn tot het gebruik van een specifiek vocabulaire of voor een computer geoptimaliseerd woordenboek, maar kunnen de invoer op alle mogelijke manieren structureren, alsof het een gesprek met een persoon is.
  3. Spraakuitvoer: informatie wordt uitgesproken door stem, niet weergegeven op het scherm.ntellectuele interpretatie: voor een goed begrip van gebruikersverzoeken moet de VUI aanvullende informatie gebruiken, zoals de context van gebruik of acties die de gebruiker eerder heeft uitgevoerd.
  4. Facilitering: de VUI voert de acties uit die nodig zijn om de taak van de gebruiker te voltooien die de gebruiker heeft aangevraagd.

Niet alle spraakinterfaces gebruiken alle vijf punten tegelijkertijd. Virtuele toetsenborden op mobiele apparaten bieden bijvoorbeeld alleen taalinvoer. Stemassistenten geven soms informatie op het scherm weer, in plaats van met een stem te spreken.

Met de integratie van alle vijf eigenschappen, krijgen we interacties met twee belangrijke voordelen:

  • De mogelijkheid om doelen te formuleren in natuurlijke taal. Het is niet nodig om met de interface te leren werken en te weten op welke knoppen te drukken.
  • Het vermogen om de doelen van de gebruiker te voorspellen, om ze aan te bieden op basis van contextuele informatie of eerdere acties.

Stem assistenten

De combinatie van alle vijf basistechnologieën en hun integratie is een voorwaarde voor het creëren van een interface die helemaal geen fysieke input vereist. Hoewel we nog steeds ver verwijderd zijn van het ontwerp van een interface die de gedachten van mensen leest, zijn stemassistenten zoals Alexa, Google Assistant, en Siri de eerste stap naar dit doel.

Bijna iedereen heeft al minstens één keer een stem assistent gebruikt. Bijvoorbeeld de stem assistenten die zijn ingebouwd in onze smartphones. We hebben een idee van wat het is en waar het in het algemeen nuttig voor kan zijn. Onderzoek van dezelfde Nielsen Norman Group onthulde de huidige stand van zaken in de markt van assistenten, de nadelen en voordelen van VUI in hun moderne incarnatie. Hier volgen enkele resultaten.

Useability

De studie toonde aan dat stemassistenten slecht voldeden aan alle vijf criteria van spraakinterfaces en hun integratie. Het niveau van bruikbaarheid is – met name in een aantal complexe interacties – zelfs bijna nutteloos. In tegenstelling tot de bedoelingen voor een menselijk georiënteerd ontwerp, moeten gebruikers nadenken over wanneer de stem assistent nuttig zal zijn en wanneer het beter is om het gebruik hiervan te weigeren. Enkel bij een bepaalde formulering weet de stem assistent het juiste verzoek te selecteren. Terwijl het de bedoeling was dat de computer zich moest aanpassen aan de persoon, en niet andersom.

Hieronder vindt u een lijst met hoe assistenten omgaan met elk criterium van de spraakinterface en wat in de toekomst mogelijk wordt gecorrigeerd.

CriteriaHuidige situatieVooruitzichtenOpmerkingen
SpraakinvoerGoed (vooral voor sprekers in moedertaal)Uitstekende vooruitzichten voor verbeteringBijna alles wordt correct herkend (   met uitzondering van eigennamen).
Natuurlijke taalSlechtVerbetering is mogelijk, maar moeilijk te implementerenZinnen met meerdere vragen werken niet. Verschillende formuleringen van dezelfde query produceren verschillende resultaten. Slecht begrip van voornaamwoorden.
SpraakinvoerSlechtBeperkt, met uitzondering van eenvoudige aanvragenMet eenvoudige taken (navigatie, weer) gaat het goed. Voor meer complexe verzoeken is het antwoord vaak onbevredigend.
Intellectuele interpretatieSlechtAanzienlijke verbeteringen zijn mogelijk, maar uiterst moeilijk te implementerenNaast de huidige locatie, contactgegevens of vaak bezochte plaatsen wordt bijna niets gebruikt.
AssistentieSlechtAanzienlijke verbeteringen zijn mogelijkZeer beperkt gebruik van externe informatiebronnen (kalender of e-mail) om mogelijke acties te bepalen die van belang zijn voor de gebruiker.
IntegratieHeel slechtAanzienlijke verbeteringen zijn mogelijk, maar uiterst moeilijk te implementeren.Werkt slecht samen met andere applicaties die beschikbaar zijn op het apparaat. “Skills / actions” gebruiken niet alle beschikbare technologieën.

De meeste gebruikers die deelnamen aan het onderzoek over de stemassistenten, merkten op dat ze deze voornamelijk in twee situaties gebruiken:

  • Wanneer de handen in gebruik zijn, bijvoorbeeld tijdens het rijden of koken;
  • Als het hen lijkt dat het vragen van een stem sneller gaat dan het typen op het toetsenbord en het lezen van het antwoord.

Bijna iedereen geeft aan dat de mogelijkheden van dergelijke services duidelijk zijn, maar ze gebruiken deze niet vaak voor complexe zoekopdrachten.  Ze geven nog de voorkeur aan zoekmachines. Ze hebben het gevoel dat vragen met een duidelijk antwoord wel het juiste resultaat krijgen. Sommige mensen denken dat de stemassistenten een complexe taak kunnen volbrengen, maar daarvoor moeten ze de verzoeken vereenvoudigen en zelf nadenken over hun formulering. De meeste mensen denken dat het niet de moeite waard is om na te denken over hoe je een vraag goed kunt stellen.

Een belangrijk gebied waar stemassistenten de interactie aanzienlijk helpen vereenvoudigen, is tekst-dicteren: lange berichten of zoekopdrachten, vooral op mobiele apparaten. Dicteren lijkt een sneller en handiger alternatief voor het ingeven met een toetsenbord op het scherm. Maar zelfs hier zijn er problemen met de herkenning van specifieke termen, het invoegen van correcte interpunctie en namen.

Voice Interface Design

 

Om alle VUI-problemen in de huidige implementatie op te lossen, is het belangrijk om de juiste aanpak te vinden in de ontwikkeling. Stembesturing is een verbaal proces en directe communicatie met de machine. In een goede spraakinterface moet deze communicatie net zo natuurlijk zijn als met een persoon. Bij het ontwerpen van dergelijke systemen is er veel aandacht voor psychologie, om begrip te krijgen in de kenmerken van het menselijk denken.

Konstantin Samoilov van het Google-onderzoeksteam voor spraakinterfaces sprak in zijn rapport over de kenmerken van VUI-ontwerp. Waar moet rekening mee worden gehouden bij de ontwikkeling ervan en met welke principes moet worden omgegaan:

Vertrouwen

Vertrouwen is geen technische kwestie, maar als dit niet kan worden verkregen, zal de rest van het werk tevergeefs worden gedaan. Zonder vertrouwen zal de gebruiker de VUI simpelweg niet gebruiken om taken uit te voeren. Eerst leren we hoe het systeem werkt en daarna beginnen we er taken aan te delegeren.

Het is niet eenvoudig om een interface te maken die de gebruiker zal vertrouwen, zelfs voor een eenvoudige taak als het instellen van een wekker. Het is één ding om je te verslapen voor een ontbijt op zaterdag, maar wat anders is het missen van een vlucht. Als een persoon niet begrijpt hoe groot de kans is dat het systeem een ​​fout kan maken, gebruikt hij het gewoon niet.

Onzichtbare interface

Onzichtbaarheid is het fundamentele kenmerk van een spraakinterface. We zien geen interface-elementen en weten niet in welk deel ervan, of bij welke stap we zijn.

Elke gebruiker heeft zijn eigen visie op wat de mogelijkheden van het systeem zouden moeten zijn. Het vervangt in wezen de visuele componenten van de interface. Elke systeemreactie op gebruikersacties verandert het mentale beeld van de gebruiker. Om de VUI te laten werken, is het nodig om de gebruiker te helpen het mentale model naar behoeven aan te passen.

Aanpassing van het mentale model

Wanneer het systeem vragen stelt die alleen eenvoudige antwoorden omvatten, bijvoorbeeld “ja / nee”, kan de gebruiker concluderen dat het nogal primitief is en dat alle daaropvolgende opdrachten en antwoorden op dezelfde manier zullen worden geformuleerd.

Als de gebruiker open vragen stelt, dan kunnen de antwoorden van het systeem op verschillende manieren geformuleerd worden. Wanneer de gebruiker deze antwoorden begrijpt, dan zal de gebruiker geneigd zijn alle daaropvolgende interacties met het systeem op hetzelfde niveau op te bouwen.

Menselijkheid

Om op een natuurlijke manier met VUI om te gaan, moet je begrijpen waarom communicatie met andere mensen natuurlijk lijkt. Maar het probleem is dat we het niet weten. Waarom lijkt het gesprek met sommige mensen voor ons natuurlijker dan met anderen? Vanwege welke kenmerken? Zonder dit te weten, is het onmogelijk om deze aspect in het systeem te intregreren.

Een mogelijke uitweg is om een ​​systeem te maken dat, wanneer het feedback ontvangt, zelf begrijpt wat correct is gedaan en wat anders had kunnen worden gedaan. Het systeem zal uitzoeken welke kenmerken belangrijk zijn om een natuurlijke interactie te kunnen genereren.

Persoonlijkheid

Moderne implementaties van VUI laten het toe om het karakter van een persoon te imiteren – vriendelijkheid, gevoel voor humor, intellectualiteit enzovoort. Dit zijn veel verschillende kenmerken en de aanpak van ieder bedrijf voor de implementatie hiervan is anders.

Siri is een project van het bedrijf, waarvan de ideologie is dat alles eenvoudig zou moeten werken. En het werkt echt als de gebruiker snapt hoe het werkt met grammatica en vocabulaire binnen dit systeem. Als dat niet wordt geraden, stopt het systeem zonder enige indicatie van wat er mis is gegaan en hoe de vraagstelling moet worden gecorrigeerd.

Tegelijkertijd wordt grote nadruk gelegd op individualiteit. De stemkwaliteit, grappen en grappige opmerkingen bij het uitvoeren van veel voorkomende taken zijn soms indrukwekkend. Het creëert het gevoel dat we een persoon zijn. De gebruiker ontspant zich en probeert als persoon met Siri te communiceren. Maar wanneer het systeem anders begint te reageren dan verwacht, neemt de perceptie drastisch af. De gebruiker denkt dat zijn acties niet zijn goedgekeurd of dat het systeem hem gewoon uitlacht. En dat is veel erger dan wanneer de gebruiker het systeem gewoon als een systeem of programma ziet.

Google vond het veiliger om niet te proberen individualiteit te imiteren, om te laten zien dat de gebruiker gewoon een hightech softwareproduct gebruikt, zonder een naam (OK, Google).

Spraakinterfaces in het bedrijfsleven

 

Tegenwoordig helpen spraakinterfaces niet alleen gewone gebruikers, maar ook bedrijven om hun problemen op te lossen.

Wat betreft verkoop via VUI zouden volgens Voicebot.ai 26% van de eigenaren van “slimme” sprekers minstens één keer aankopen hebben gedaan met hun hulp. Ongeveer 16% doet dit maandelijks. Maar meestal zijn het eenvoudige consumptiegoederen of -diensten waarvoor geen beoordelingen, foto’s of prijsvergelijkingen met andere leveranciers nodig zijn. Bijvoorbeeld eten bestellen of abonnementen kopen voor audio- / videodiensten.

Een van de belangrijke vragen heeft betrekking op adverteren: zullen stemassistenten geld kunnen verdienen? Dit is in feite een nieuw promotiekanaal, waarvan het nog steeds niet duidelijk is hoe het te gebruiken. We zijn al gewend om visuele reclame mentaal te “filteren” – de zogenaamde “banner blindheid”. Dat is wanneer we eenvoudigweg niet alles opmerken dat lijkt op een banner of contextuele reclame, zonder hiervoor inspanning te leveren. Maar wat zal de reactie zijn als de spraakdialoog met de computer wordt onderbroken door advertenties?

Naast vaardigheden kiezen sommige bedrijven een andere manier om VUI te gebruiken in hun bedrijf: het ontwikkelen van hun eigen software. Dit komt meestal door het onvermogen om stemassistenten te gebruiken. Bijvoorbeeld de dispatching-taxiservice, die niet werkt wanneer de gebruiker belt vanaf een gewone telefoon. In gevallen waar een zeer hoge mate van vertrouwen is vereist, is het ook niet aan te raden om stemassistenten gebruiken.

De toekomst van spraakinterfaces

In de nabije toekomst zal spraakinteractie op bijna alle activiteitengebieden meer voorkomen. Apparaten die spraak kunnen herkennen en genereren, worden snel goedkoper met de ontwikkeling van stemassistenten en de alomtegenwoordige verspreiding van internet. Meestal zullen het echter zeer gespecialiseerde gebruikscasussen zijn. De gebruiker moet bijvoorbeeld begrijpen dat het niet nodig is om de weersvoorspelling te vragen aan een kiosk waar men op een geautomatiseerde manier ijs verkoopt.

Pogingen om het vermogen van stemassistenten om een ​​vraag te beantwoorden of acties te ondernemen die we al kunnen uitvoeren met behulp van de visuele interface worden niet stopgezet. Maar het is onwaarschijnlijk dat dit precies werkt zoals we ons voorstellen. Tijdens de dialoog met medemens stuiten we al vaak op verwarring of miscommunicaties, dit zal hoogstwaarschijnlijk geaccentueerd zijn in de verbale communicatie met een machine. Het probleem van het creëren van “echte” kunstmatige intelligentie, die alle problemen van spraakinteractie volledig zou oplossen, houdt hiermee verband. We begrijpen gewoon niet volledig hoe de hersenen van de mens werken.