11. Weg met het toetsenbord

Marc van Oostendorp

Hoofdstuk uit het boekje Computers en taal, oorspronkelijk verschenen bij Sdu, Den Haag, 1999.

Laten we hopen dat er geen belangengroepering voor computers wordt opgericht, want die zou tot in lengte van dagen protesteren tegen elke advertentie en elke film waarin deze apparaten voorkomen. Neem nu de manier waarop machines in de media praten. Dat is een karikatuur van de werkelijkheid, die overduidelijk alleen bedoeld is om apparaten belachelijk te maken: blikkerig, onhandig en hakkelend. Zo klinken echte computers helemaal niet. Er wordt gezegd dat film- en reclamemakers computergeluiden inderdaad altijd een beetje vervormen, zelfs als ze in de verre toekomst spelen: anders gelooft niemand dat er werkelijk computers aan het woord zijn. Maar als er een computerbelangenvereniging zou zijn, zou deze hiertegen wel wat kunnen inbrengen: je laat de vrouwen in je films toch niet ook allemaal met een kinderstemmetje praten omdat de mensen anders denken dat het verklede mannen zijn?

Ach, die belangenvereniging zou je ook wel weer de mond kunnen snoeren. Want hoe slecht de computers in de film ook praten, lúísteren kunnen ze als de besten. ``Computer, zoek effe voor me op hoe ik zo snel mogelijk thuis kom,'' schreeuwt de acteur nauwelijks verstaanbaar, en meteen antwoordt het apparaat met zijn blikkerige stemmetje. Dat moeten echte apparaten nog maar voor elkaar zien te krijgen. Want de werkelijkheid is omgekeerd aan de sciencefiction: computers kunnen al vrij natuurlijk praten, maar begrijpen wat iemand anders tegen ze zegt, is ze nauwelijks gegeven.

En dat terwijl computers die gesproken taal verstaan voor veel mensen misschien wel nuttiger zijn dan apparaten die kunnen praten. De laatste kunnen natuurlijk de krant of de binnengekomen e-mail lezen en zijn daarom handig voor visueel gehandicapten en automobilisten. Maar wie lezen kan, wil de krant waarschijnlijk liever in zijn handen houden dan helemaal afluisteren. Omdat praten makkelijker is dan schrijven, is de toekomst aan de machine die de mens verstaat.

Een dicteermachine

De tong, de lippen en de stembanden van de mens zijn soepeler dan zijn vingers. Hoe vaardig iemand ook de letters weet te vinden op zijn toetsenbord, hij kan altijd sneller articuleren. Omgekeerd gaat lezen juist vlotter dan luisteren. Het oog ziet een woord sneller dan het oor het hoort. Een lezer kan een tekst makkelijker in zijn geheel bekijken en hij kan die delen overslaan die hem minder interesseren.

Het efficiëntst zou het zijn als de woorden zich rechtstreeks van de mond van de spreker naar het oog van de lezer bewogen. Veel softwarebedrijven proberen daarom een computerprogramma te maken dat spreektaal omzet in letters op het beeldscherm. Mensen sparen geld uit als ze niet meer hoeven te leren omgaan met muis en toetsenbord, maar hun brieven, memo's en e-mailberichten in hun computer kunnen inspreken. De muisarm is dan verleden tijd – door een verstuikte tong is nog nooit iemand arbeidsongeschikt geraakt.

Philips bracht onlangs als een van de eerste bedrijven zo'n computerprogramma uit. Het heet FreeSpeech, al is het volgens Philips ``een product van Nederlanders voor Nederlanders''. Er zijn twee versies. De ene bestaat uit alleen een cd-rom met het computerprogramma, de tweede heeft behalve de cd-rom een apparaatje dat dient als microfoontje, luidsprekertje en alternatieve muis.

Trilling in de lucht

Gesproken taal omzetten in geschreven zinnen is geen sinecure. Een spraakklank is niet meer dan een trilling in de lucht en om bijvoorbeeld een a van een e te onderscheiden is een minutieuze analyse nodig van de manier waarop luchtdeeltjes tegen het trommelvlies botsen: welke boventoon werd achter in de keel van de spreker versterkt? Welke boventoon werd verzwakt door de tong iets op te lichten? Daar komt dan nog bij dat allerlei details van de luchttrillingen buiten beschouwing moeten worden gelaten. Bij veel gesprekken brengt niet alleen de spreker met zijn stembanden de lucht tot trilling maar voeren tegelijkertijd andere mensen ook een gesprek, of staat er in de achtergrond een hond te blaffen of een kind te huilen. Op de een of andere manier weten mensen moeiteloos die luchttrillingen eruit te lichten die er bij het verstaan van hun gesprekspartner toe doen.

Hoe zij zo snel alle benodigde berekeningen kunnen uitvoeren, weet niemand. Computers kunnen dan ook nog lang niet zo feilloos overweg met luchtdeeltjes die tegen een microfoon botsen. Als apparaten gesproken Nederlands kunnen verstaan, zijn ze op de een of andere manier beperkt. De inlichtingendienst van Openbaar Vervoer Reisinformatie (0900-9292) werkt bijvoorbeeld al een tijdje met een computersysteem dat vragen kan begrijpen en beantwoorden over een strak omlijnd onderwerp, namelijk de aankomst- en vertrektijden van treinen. Zodra zijn gesprekspartner over het weer begint, haakt die computer af.

Wie gehaast of moe is en daardoor wat onduidelijk articuleert merkt overigens al snel dat er nog meer beperkingen zijn:

De stem van de computer is blikkerig, zonder dat de belangenvereniging voor computers zich zorgen hoeft te maken. Waarschijnlijk maakt de computer trouwens zijn woorden ook niet zelf. Een dame van vlees en bloed heeft ze waarschijnlijk allemaal op een regenachtige woensdagmiddag in een geluidsstudio ingesproken. De computer hoeft ze alleen maar aan elkaar te plakken.

Het bedrijf OV Reisinformatie geeft meer dan tien miljoen reisadviezen per jaar over de snelste manier om in Nederland met het openbaar vervoer te reizen. Dat betekent soms lange wachttijden en daarom hing in het verleden bijna een derde van alle bellers voortijdig op. Omdat er geen geld was om meer telefonistes in dienst te nemen, heeft het bedrijf een deel van de gesprekken geautomatiseerd.

Alle mogelijke varianten

Het gaat daarbij voorlopig alleen om vragen over de aankomst- en vertrektijden van treinen. Twintig procent van de bellers is inderdaad alleen naar die informatie op zoek. Wie met de bus, de tram, de metro of de veerpont naar het station wil, moet wachten op een informatrice van vlees en bloed.

De beperking tot treintijden is nodig omdat het systeem nu al meer dan genoeg problemen op te lossen heeft. Het heeft een woordenschat van slechts tweeduizend woorden: de namen van de stations in alle mogelijke varianten (`Den Bosch', `'s-Hertogenbosch', `Den Bosch Centraal', `Den Bosch CS'), de namen van dagen (`vandaag', `aanstaande zondag', `veertien juni') en de tijden (`vijf over half twaalf', `elf uur vijfendertig', `een uur of half twaalf'). Het geheugen van het systeem is nog veel groter, want het moet allerlei tongvallen kunnen onderscheiden. Een Limburger moet evengoed worden verstaan als een Groninger, een Hagenaar of een Surinamer. En ook mensen die verkouden zijn of met een dubbele tong spreken, moeten worden begrepen.

Zelfs in een eenvoudig gesprek worden overigens al snel meer dan tweeduizend woorden gebruikt. Gelukkig hoeven niet al die woorden begrepen te worden. Als mensen tegen elkaar praten, zeggen ze allerlei dingen die niet strikt noodzakelijk zijn voor de informatie-uitwisseling. ``Goedemiddag, ik wil graag weten hoe ik vanuit Amsterdam in Zwolle kom.'' In zo'n zin staan maar vier woorden die echt van belang zijn: `vanuit Amsterdam in Zwolle.' De rest is ruis.

Zelfs in die ruis kan echter verwarrende informatie voorkomen. Veel mensen zijn gewend zich aan het begin van een gesprekje voor te stellen. Voor menselijke gesprekspartners is dat geen probleem, maar het wordt verwarrend als iemand bijvoorbeeld Marietje van den Bosch heet. De computer moet dan wel begrijpen dat die laatste twee woorden een naam zijn, en niet de vertrekplaats van Marietje. Ook als iemand zegt dat zij `om een uur of twaalf' wil vertrekken en zij spreekt het woord een op zo'n manier uit dat het zou kunnen worden gehoord als `één'. Dan moet de vertrektijd nog steeds wel rond twaalf uur gezocht worden en niet rond één uur.

Er zijn dus nog wel wat problemen op te lossen. OV Reisinformatie neemt het zekere voor het onzekere: wie na een paar keer over en weer praten, nog steeds geen succes heeft in zijn gesprekje met de computer, wordt automatisch doorverbonden met een telefoniste van vlees en bloed. Niet dat dit succes garandeert: ook de telefoniste weigerde mijn verzoekje om de vertrektijden van de trein naar Oisterwijk te behandelen: ``Wij geven geen informatie over internationale treinen.'' Voor reizen naar Oostenrijk moest ik volgens haar een ander nummer draaien.

Kunt u dat herhalen?

Sinds kort kun je ook met een computer praten om telefoonnumers op te vragen. Je belt 118 en wordt welkom geheten door een computer, die zegt: ``Geef de naam en het adres van de abonnee van wie u het telefoonnumer wilt weten.'' Nadat je aan dat verzoek hebt voldaan, noemt de computer bijna onmiddellijk het telefoonnummer. Bij deze procedure is nog wel een menselijk oor betrokken. Er zijn natuurlijk veel meer achternamen dan plaatsnamen en de computer kan al die woorden, door zoveel mensen uitgesproken, niet uit elkaar houden. Daarom luistert er een telefoniste mee, die naam en adres intikt, waarna de computer het nummer uitspreekt.

Als die telefoniste toch meeluistert, kan ze de beller toch ook wel begroeten en het telefoonnummer doorgeven? Natuurlijk kan ze dat en als ze bijvoorbeeld de uitgesproken naam niet goed verstaan heeft, grijpt ze in: ``Kunt u dat herhalen?'' Het probleem is alleen dat de gewone gesprekjes tussen twee mensen de KPN kennelijk te lang duren. Al dat geklets van `goedemiddag, ik wou graag even iets weten', `nou, en even denken, hoor' en `hartelijk dank en tot de volgende keer dan maar weer' kost het bedrijf geld: intussen had de telefoniste ook weer iemand anders aan een telefoonnummer kunnen helpen. Hoe minder tijd de telefonistes besteden aan iedere klant, des te minder telefonistes er uiteindelijk nodig zijn. Een computer houdt een gesprek beter in de hand en bovendien hoeven de telefonistes maar heel kort bij elk gesprekje betrokken te zijn. De inleiding van de computer hoeven ze niet te beluisteren en terwijl het telefoonnummer wordt uitgesproken, wenden ze zich alweer af. Wie van warm, menselijk contact houdt, moet geen telefoniste meer worden.

Kop koffie

Een computer die met veel mensen kan praten, kan dus niet veel woorden onderscheiden. De beperking van FreeSpeech ligt ergens anders. Dit programma kan het taalgebruik van slechts één persoon verstaan. Die persoon moet bovendien tijd uittrekken om het programma te trainen door hardop een paar door de fabrikant samengestelde tekstjes in de microfoon voor te lezen, zodat de computer al zijn of haar uitspraakeigenaardigheden leert kennen. Volgens Philips zijn daarvoor `minimaal' vijftien minuten nodig. Mijn computer en ik waren bijna drie uur bezig omdat de computer na elke zin die ik sprak een paar minuten moest uitrekenen wat ik had gezegd.

De installatieprocedure leek niet alleen op een ontgroening doordat ze lang duurde. De tekstjes bevatten gedeeltelijk een lofzang op de firma Philips en het zojuist aangeschafte apparaat. Het is een ongemakkelijk gevoel om hardop in je studeerkamer te zeggen dat FreeSpeech een belangrijke technologische doorbraak is, als je de het programma nog helemaal niet aan het werk hebt gezien.

Ook als FreeSpeech eenmaal getraind is, blijft het langzaam. Zeker in het begin kon ik nadat ik twee zinnen had uitgesproken, eerst een kop koffie maken en leegdrinken voordat mijn computer had uitgerekend wat ik had gezegd. Dat zijn veel koppen koffie als je honderd zinnen schrijft. Wel zaten er al meteen weinig fouten in de dictaten. Bovendien had ik FreeSpeech zo ingesteld dat het tijdens het dicteren van zijn en mijn fouten bleef leren. Na een paar uur waren mens en computer meer aan elkaar gewend. Van de mens had zich intussen het opgewonden gevoel meester gemaakt in een sciencefictionverhaal te zijn beland: je kunt een stuk schrijven zonder handen! Over tien jaar bestaan computers alleen uit een plat beeldscherm, een microfoontje en een luidsprekertje!

Schrijven met je stem

Het is nog niet zover. Een stuk schrijven met FreeSpeech is nu nog een hele toer. Als de computer lang bezig is met een zin krijgt de gebruiker het gevoel: laat mij dat maar even zelf intikken. Bovendien moeten de dictaten altijd gecontroleerd en gecorrigeerd worden, en hoewel dat in theorie ook met de stem kan (``Ga naar begin alinea. Ga naar het derde woord. Vervang door nog niet'') vind ik FreeSpeech daarvoor te langzaam. Een woord aanwijzen en zelf even tikken gaat vele malen sneller. Het systeem is vooral geschikt om korte memo's mee te maken, een ruwe opzet voor een e-mail of aantekeningen die op een later tijdstip met de hand kunnen worden uitgewerkt. De steekwoorden staan dan in ieder geval al in een bestand.

Waarschijnlijk eist schrijven met je stem ook nieuwe technieken van de schrijver. Veel mensen hebben een nerveuze schrijfstijl ontwikkeld met hun tekstverwerker: ze schrijven een woord, veranderen een woord dat eerder in de alinea stond, schrijven dan weer twee woorden aan het eind van de alinea, schrappen een hele zin uit een eerdere alinea, enzovoort. Zo kon je nog niet schrijven toen Word en WordPerfect nog niet bestonden. Ook pratend schrijven zal misschien een eigen manier van teksten componeren met zich meebrengen.

Er doen zich ook praktische vragen voor: kun je met een microfoon werken in een kantoortuin? Mijn exemplaar van FreeSpeech raakt al in de war als iemand anders de kamer binnenkomt waar ik zit te werken – misschien ook wel omdat ik anders begin te praten dan wanneer ik alleen ben met mijn computer – maar dat soort problemen valt op te lossen. Ligt er voor de gemiddelde zakenman na een lange treinreis vol telefoongesprekken bij thuiskomst een transcript van alle gevoerde gesprekken naast zijn printer? En hoe moet het met het taalonderwijs op de basisscholen? De kinderen moeten blijven leren lezen, maar zal het ook nodig zijn dat ze zelf letters en woorden kunnen schrijven?

Stenotypiste

Aan het begin van deze eeuw dicteerden bestsellerauteurs hun romans en afdelingshoofden hun zakelijke correspondentie aan een typiste, die steno kende en de tekst daarna kon uitwerken op een moderne typemachine.

Die methode had één nadeel: de stenotypiste moest elke maand worden uitbetaald. Dat was al snel te duur en dus hebben gedurende de hele twintigste eeuw kantoorklerken, leden van raden van bestuur, journalisten, boekhouders, schrijvers en miljoenen anderen met twee vingers hun teksten uit te tikken. FreeSpeech is de voorbode van de volautomatische stenotypiste en daarmee mogelijk van de grootste verandering in het schrijven sinds de uitvinding van de typemachine. Met een systeem als FreeSpeech hoef je in de nabije toekomst niet veel van computers te weten om ze te kunnen gebruiken. Er zal nog heel wat voor nodig zijn om het uiteindelijk te laten gebeuren, maar zo'n systeem is zo aantrekkelijk dat het er ook zal komen. Wie wil, kan de hele dag schrijven, ook als hij door de supermarkt loopt of een berg beklimt. Wat zullen de boeken dik worden.

Leugens

Maar als een apparaat ons kan verstaan, kan het misschien nog wel meer. Ons beter doorzien dan onze medemensen bijvoorbeeld. Dat is nodig ook, want niemand is te vertrouwen. Uit een recent onderzoek blijkt dat mensen per dag gemiddeld zes leugens vertellen. Dat betekent dat we minstens evenveel onwaarheden te horen krijgen; in elk gesprek worden we waarschijnlijk wel een keer misleid. Voor sommigen is die gedachte moeilijk te verkroppen. Sinds een paar maanden kunnen zij een hulpstuk kopen dat pretendeert hen bij te staan in hun persoonlijke strijd voor de waarheid.

Truster is een leugendetector voor thuisgebruik, die het stemgebruik van uw gesprekspartner analyseert om vast te stellen of hij wel de waarheid vertelt. Het pakket bestaat uit twee onderdelen: een kabeltje dat kan worden bevestigd tussen telefoontoestel en computer, en een cd-rom met software. Het is overigens ook mogelijk het systeem te gebruiken met een gewoon microfoontje.

Grenscontroles

De potentiële leugenaar moet eerst een tijdje ontspannen praten. De handleiding stelt voor om hem daarom eerst te vragen: `Hoe gaat het met u?' of `Hoe gaat het met de kinderen?' Vervolgens ontspint zich vanzelf een genoeglijke conversatie. Ondertussen maakt de computer een analyse van de gewone spreektrant van uw partner: hoe hoog spreekt hij? Hoe snel? Hoeveel trilling zit er in zijn stem? Als op deze manier een profiel is samengesteld, kan het echte werk beginnen. U stelt uw gevoelige vraag. Uit de manier waarop het antwoord wordt uitgesproken, kan Truster volgens de fabrikant niet alleen afleiden of uw gesprekspartner gespannen raakt, maar kan hij zelfs onderscheid maken tussen gewone nervositeit en leugens.

De bedenker van Truster is Amir Liberman uit Israël. ``Het idee is eenvoudig'', zei hij toen ik hem opbelde. ``Emoties hebben altijd invloed op iemands stem. Als u een loterij wint, gaat uw stem omhoog. Als u diep moet nadenken over wat u zegt, drukt dat uw stem omlaag. En als iemand liegt, verraadt zijn stem hem ook altijd. Truster geeft in zeker vijfenzeventig procent van de gevallen een juist oordeel over de waarheid van iemands uitspraken.'' Liberman zegt dat hij het programma in eerste instantie gemaakt heeft voor de Israëlische veiligheidsdienst, die het zou gebruiken bij grenscontroles.

Oplichting

Truster is een succes. Bladen als de Financial Times, The Jeruzalem Post en Newsweek publiceerden er enthousiaste beschouwingen over. Ondertussen verscheen het programma in onder andere het Hebreeuws, het Engels, het Spaans, het Italiaans en het Nederlands. Het programma zou gebruikt worden door banken, creditcardmaatschappijen en vliegvelden.

Toch waren de Nederlandse deskundigen aan wie ik begin 1999 voor een artikeltje voor het maandblad Onze Taal om een oordeel vroeg allemaal sceptisch. De Nijmeegse hoogleraar taal- en spraaktechnologie Lou Boves sprak zelfs van ``oplichting'', al had hij het programma nooit gezien. ``Dat hoeft ook niet, want het idee erachter is verkeerd. De makers nemen aan dat de spanning die gepaard gaat met liegen zich bij iedereen op dezelfde manier lichamelijk uit. Het tegendeel is waar. Het is bijvoorbeeld bekend dat sommige mensen juist erg rustig worden onder stress. Uit spraakgeluid kun je in het algemeen maar weinig afleiden over iemands persoonlijkheid of gemoedstoestand. Zelfs hoe oud iemand is, of hoe groot, valt aan zijn of haar stem nauwelijks te horen.''

Amusementswaarde

``De voornaamste waarde van Truster is zijn amusementswaarde'', zei ook Ton Broeders, het hoofd van de afdeling Schrift- en Spraakonderzoek van het Gerechtelijk Laboratorium in Rijswijk. ``Het hele idee klinkt nogal Amerikaans. In de Verenigde Staten heeft men een bijna onbegrensd vertrouwen in apparaten. Voor gerechtelijk onderzoek zijn dat soort systemen zeker veel te onbetrouwbaar.''

Volgens Amir Liberman is het niet verwonderlijk dat spraakdeskundigen niet in zijn pakket geloven. ``Dit is een revolutionaire ontdekking. Fonetici zijn bevooroordeeld. Vraagt u het eens aan een psycholoog.'' Toch bleek ook de Tilburgse psycholoog Jan Boelhouwer weinig geestdriftig. Hij geldt als een deskundige op het gebied van leugendetectors. ``Het is echt onzin'', zegt hij. ``En het zou zelfs gevaarlijke onzin kunnen zijn. Stel je voor dat er bij een sollicitatiegesprek een microfoontje onder de tafel gemonteerd is en dat je wordt afgewezen voor een baan op basis van zo'n analyse. Ik ken geen enkel betrouwbaar onderzoek dat de gedachte achter Truster ondersteunt.''

Ik heb Truster ook zelf bekeken. Hij bleek moeilijk te testen. Moest ik mijn vrienden bellen en hen uithoren over hun privé-leven zonder hun te vertellen wat die klik in de telefoonlijn betekende? Ik besloot een collega in vertrouwen te nemen en te vertellen wat ik onderzocht voor ik hem met een paar lastige kwesties confronteerde. Volgens Truster bleek hij inderdaad een paar keer te liegen. Helaas weigerde mijn collega vervolgens te vertellen of Truster gelijk had. Het probleem is dat het programma volgens de makers alleen goed werkt bij leugens waarbij iets op het spel staat. En als er iets op het spel staat, willen de meeste mensen nu eenmaal niet erkennen dat ze onwaarheid spreken. Met of zonder leugendetector.

Een belangenvereniging voor mensen

Als de mensen elkaar niet hadden gewantrouwd en gehaat, had de computer nooit bestaan. Zonder de Tweede Wereldoorlog was er bijvoorbeeld nooit zoveel geld gestoken in de ontwikkeling van de computer. Internet is voornamelijk een product van de Koude Oorlog, die Amerikaanse geleerden en militairen ertoe aanzetten de bestaande computercapaciteit zo efficiënt mogelijk te benutten. Als er in Minnesota een dure supercomputer vrij was, kon een wetenschapper uit Boston erop werken en zo werd alle apparatuur zoveel mogelijk benut.

De computer is een gevaarlijk wapen. We kunnen het ook voor mooie dingen gebruiken, maar de oorspronkelijke haat en het diepgewortelde wantrouwen blijven op de achtergrond op de loer liggen. Misschien kunnen we in de toekomst van elk gesprek dat we voeren na afloop desgewenst een uitgebreid verslag kunnen lezen: een woordelijke weergave, een korte samenvatting en een psychologisch rapport over de gesteldheid van onze gesprekspartners op elk willekeurig moment. Dat is aantrekkelijk en tegelijkertijd gruwelijk. Misschien wordt het tijd voor een belangenvereniging voor mensen.