9. Vreemde talen in je huiskamer

Marc van Oostendorp

Hoofdstuk uit het boekje Computers en taal, oorspronkelijk verschenen bij Sdu, Den Haag, 1999.

Toen in de jaren twintig van deze eeuw de eerste gesproken films uitkwamen, was het met de zwijgende film snel gedaan. Veel mensen dachten dat deze technologische verandering ook het einde van de alleenheerschappij van Hollywood zou inleiden. Tot nu toe was de Amerikaanse amusementsfilm oppermachtig geweest, ook in Europa. Maar nu zou niemand die films meer kunnen verstaan of op zijn minst zou iedereen worden afgeschrikt door dat afschuwelijke Amerikaanse accent van Laurel en Hardy. Daardoor zou de veel kunstzinniger Europese film eindelijk een eerlijke kans krijgen.

Inderdaad moet in het begin geen enkele Nederlander in de bioscoopzaal hebben verstaan wat er in die films gezegd werd. Tegen alle verwachtingen in bleek dat geen bezwaar. De Amerikaanse geluidsfilms zaten zo vol zang en dans dat er ook nog genoeg te genieten viel als je niet woordelijk verstond wat men op het witte doek allemaal zei. Uiteindelijk is het omgekeerde gebeurd van wat de voorstanders van de Europese film hoopten: de Europeanen hebben massaal Amerikaans geleerd, onder andere door naar Hollywood-films te kijken. Steeds meer Nederlandse films worden in het Engels gemaakt.

Elke nieuwe communicatietechniek die in de loop van deze eeuw geïntroduceerd is, heeft weer iets meer vreemde talen in onze huiskamers gebracht: de film, de radio, de televisie en de telefoon. Internet is daarop geen uitzondering. Het begon als een Amerikaans netwerk en was dus in de eerste jaren vrijwel uitsluitend Engelstalig. Hoewel het Engels nog steeds de belangrijkste taal is, komen er steeds meer andere talen op het net. Sterker nog, er is geen medium waarop zoveel verschillende talen gehoord en gelezen kunnen worden: van humoristische verhaaltjes in het Limburgs tot en met volksliedjes in de Ghanese taal Dagaare; van nieuwsberichten in het Esperanto tot en met weemoedige gedichten in het Twents.

Wie kennis wil maken met vreemde talen en andere culturen kan dus zijn hart ophalen op Internet. Bovendien helpt de computer een handje om in een wereld met zoveel verschillende talen te kunnen leven. Her en der duiken vertaalprogramma's op die beloven een tekst van de ene taal in de andere over te kunnen zetten. Die programma's beloven meestal meer dan ze kunnen waarmaken, maar gelukkig zijn er ook bescheidener middelen. Elektronische vertaalwoordenboeken bijvoorbeeld, die een woord in de ene taal zo omzetten in een willekeurige andere taal.

Engels leren

Maar natuurlijk zijn we daar niet tevreden mee. We willen de computer niet slechts een enkel woord laten vertalen. We willen dat hij hele teksten voor ons omzet van de ene taal in de andere. Vooral organisaties die veel documenten nodig hebben in veel verschillende talen, zijn gebaat bij vertaalmachines. Dat geldt natuurlijk in de eerste plaats voor de Europese Unie, want als er ergens op de wereld een organisatie is die – misschien zelfs tegen beter weten in – de veeltaligheid wil handhaven, dan is het de Unie wel. Omdat die Unie zich waarschijnlijk nog flink gaat uitbreiden, komen er daar steeds meer talen bij: een goudmijntje voor iedereen die een vertaalmachine kan bouwen.

Welnu, wie wil weten of de computers van de Europese Commissie uit en naar het Nederlands kunnen vertalen, moet eerst Engels leren. Veel recente officiële documenten die deze Commissie produceert zijn, bijvoorbeeld via Internet, snel te raadplegen. Alleen staan die teksten daar de eerste tijd vaak alleen in het Engels. Na enkele maanden verschijnen weliswaar vertalingen, maar dan vaak eerst in de `grote talen', Duits en Frans. Wie alleen Nederlands verstaat, is nauwelijks up-to-date.

Die stand van zaken is kenmerkend. Hij laat zien dat goede en snelwerkende vertaalsystemen belangrijk zijn voor de Europese democratie. Op zijn minst de verantwoordelijke ambtenaren en politici moeten de stukken waarop ze hun beleid baseren in hun eigen taal tot zich kunnen nemen. Het recht van Engelstaligen zou wat dit betreft niet groter moeten zijn dan dat van Nederlands-, Frans- of Griekstaligen. Waarom zouden die laatsten zich twéé vormen van ambtelijke terminologie eigen moeten maken: die van hun eigen overheid én die van Europa terwijl voor de Engelsen alles altijd in hun moedertaal toegankelijk is? Nu zijn menselijke vertalers weliswaar vaak erg goed, maar meestal ook duur en langzaam, zodat lang niet alle teksten vertaald kunnen worden en zeker niet onmiddellijk. Wat zou het prettig zijn als iedere ambtenaar van de Unie met één druk op de knop in zijn tekstverwerker een zojuist gemaakt bestand kon opslaan in versies voor alle officiële talen van de Europese Unie.

Zo ver is het nog lang niet. Over de vertaalcomputer wordt al nagedacht sinds in de jaren veertig de eerste computer gebouwd werd, maar met één druk op de knop bereik je niets. Meer dan twintig jaar geleden, in 1976, nam de toenmalige EEG het automatische vertaalsysteem Systran in gebruik, dat al aan de orde kwam in hoofdstuk 6. Dat systeem vertaalt tegenwoordig ongeveer 100.000 bladzijden tekst per jaar voor ambtenaren en politici, zowel bij de Europese instanties (zoals het Europees Parlement en de Europese Commissie) als bij de regeringen van de lidstaten. Het is daarmee waarschijnlijk het productiefste vertaalsysteem van Europa.

Geen prioriteit

Toch is het allesbehalve verfijnd. De uitvoer geeft in het beste geval een globaal idee van de inhoud van het vertaalde document. Het systeem biedt dus niet meer dan een tussenoplossing. Iemand die snel kennis wil nemen van de strekking van een bepaald ambtelijk stuk, kan het door Systran laten vertalen. Daarna kan hij of zij bepalen of de tekst moet worden vertaald door een echte, menselijke, vertaler: de uitvoer van Systran is zelf niet van een te laag niveau om gepubliceerd te worden.

Die vertaler zou vervolgens bij zijn werk gebruik kunnen maken van de ruwe vertaling die het systeem biedt. Zo'n manier van werken, die `postediting' genoemd wordt, is in het verleden ook wel aangeprezen als een groot voordeel van vertaalcomputers. Postediting zou de vertaler veel werk besparen, omdat hij alleen de uitvoer van de computer hoefde bij te vijlen. In de praktijk werkt het niet zo. Professionele vertalers vertalen liever alles zelf, in een keer goed, in plaats dat ze de grove producten van Systran corrigeren.

Voor het Nederlands wordt Systran overigens nauwelijks gebruikt. De nadruk ligt op de drie zogenoemde werktalen van de Europese Commissie: het Engels, het Frans en het Duits. Tussen die drie talen kan naar hartelust vertaald worden: van het Frans naar het Engels, van het Engels naar het Frans, van het Frans naar het Duits, enzovoort. Uit het Nederlands kan Systran helemaal niet vertalen, en naar het Nederlands alleen vanuit het Engels en het Frans, niet uit het Duits. Het eerstgenoemde soort vertaling maakt maar ongeveer anderhalf procent uit van het totaal aantal vertalingen dat in Europa geproduceerd wordt. Uit het Frans wordt iets vaker vertaald: ongeveer 4% van alle vertalingen die Systran in Europa maakt, gaan van die taal naar het Nederlands.

Voor de Europese Commissie hebben vertalingen van en naar het Nederlands ook geen prioriteit. De Commissie geeft van oudsher voorrang aan verbetering van automatische vertalingen tussen de drie werktalen. Onderlinge vertalingen tussen het Frans en het Engels vormen het paradepaardje van Systran. Deze vertalingen geven een behoorlijke indruk van de inhoud van een document. Op dat niveau moeten vertalingen tussen het Duits en het Engels en tussen het Duits en het Frans ook komen. Wie wat meer aandacht wil voor zijn eigen `kleinere' taal, moet zelf investeren. De Nederlandse en de Vlaamse overheid, verenigd in de Nederlandse Taalunie, is dan ook sinds 1994 in overleg met de Commissie over samenwerking om het Nederlands een belangrijker plaats te geven in het vertaalsysteem.

Robuust systeem

Naar welke talen kan het best vertaald worden? Er werd al snel gekozen voor vertalingen vanuit het Nederlands. Nederlandstaligen beheersen over het algemeen voldoende Frans, Duits en Engels om in ieder geval documenten in die talen te kunnen begrijpen. Het is belangrijker om uit het Nederlands naar de drie grote talen te kunnen vertalen. Zo kunnen zoveel mogelijk anderstalige ambtenaren en politici kennisnemen van teksten die in het Nederlands zijn opgesteld.

Al in 1994 stuurden de verantwoordelijke ministers in het Nederlandse taalgebied een intentieverklaring aan de Europese Commissie. Samen zouden ze ongeveer drie ton bijdragen om de gewenste modules aan Systran toe te voegen. Ondertussen was de Europese Commissie echter van gedachten veranderd. Systran was niet langer het enige vertaalsysteem waarmee de officiële Europese instanties zouden werken. Men zou bekijken of andere bedrijven vergelijkbare of misschien zelfs betere computerprogramma's konden leveren.

Systran is een robuust systeem, maar het heeft ook veel problemen. Een zo'n probleem is dat het werkt met aparte modules voor taalparen. De vertalingen van het Frans naar het Engels worden gemaakt door een heel ander programma dan die van het Frans naar het Duits, of van het Duits naar het Engels. Dat betekent dat er evenveel programmamodules nodig zijn als taalparen, en dat betekent weer dat het aantal benodigde modules enorm groeit naarmate het aantal opgenomen talen toeneemt. Hoe meer talen toegevoegd worden, des te harder het aantal taalparen groeit. Ik zal dat eens even voorrekenen. Er staan op dit moment elf landen op de kandidatenlijst om toe te treden tot de Unie. Voorbeelden zijn Polen, Hongarije, Cyprus en Roemenië. Als alle aanvragen gehonoreerd worden, komen er tien talen in de Unie bij. Zelfs als er maar één taal zou worden toegevoegd bij de huidige elf, komen er al tweeëntwintig taalparen bij: er moeten vertalingen gemaakt worden van elk van de elf huidige talen naar die ene nieuwe taal, en omgekeerd. Dat betekent dat er tweeëntwintig nieuwe programmamodules bijbesteld zouden moeten worden bij het Luxemburgse softwarebedrijf dat dit soort modules voor veel geld ontwikkelt. En dat terwijl nog geen fractie van de modules die nu al in gebruik zijn op een zodanig niveau staat dat er ook echt mee te werken valt.

Vertaalprogramma's gescheiden

De zaak loopt al met al snel uit de hand. Het is daarom slim om ook alternatieven te bekijken, al is het maar omdat die voor sommige van de onderontwikkelde taalparen al redelijk tot behoorlijk goed werkende computersystemen hebben gebouwd. Zo heeft het bedrijf Siemens-Nixdorff voor de Belgische federale overheid een systeem ontwikkeld voor de vertaling tussen het Nederlands en het Frans. Dat systeem zou ook in aanmerking komen.

Overigens wordt op deze manier het probleem van Systran nog steeds niet echt opgelost. Nog steeds neemt het aantal benodigde taalmodules toe bij elke nieuwe taal in de Europese Unie. Om dit te beperken zal eerst geprobeerd worden vertaalmodules te maken die Frans, Duits en Engels kunnen vertalen uit en naar de andere officiële talen van de Unie. Het taalpaar Nederlands-Spaans zal volgens die richtlijn dus nog wel even op zich laten wachten.

Aan één voorwaarde zullen de systemen in ieder geval moeten voldoen. Ze moeten het eigenlijke vertaalprogramma gescheiden houden van het vertaalwoordenboek. Een goed vertaalprogramma bestaat op zijn minst uit deze twee onderdelen. Het programma kent de grammaticaregels van de twee talen. De te vertalen woorden zoekt het daarbij op in een tweetalige woordenlijst. Het is van belang om woordenlijst en grammatica uit elkaar te houden, omdat er relatief veel tijd en geld wordt gestoken in de woordenlijst, terwijl de grammaticasoftware, net als alle computerprogramma's nu juist weer snel veroudert. Door een scheiding aan te brengen, voorkom je dat er geld wordt weggegooid.

Helemaal stil zit men in Europa niet. De Europese Commissie werkt aan het nieuwe actieprogramma dat `Meertalige Informatiemaatschappij' genoemd wordt. In het kader van dit programma zullen allerlei projecten worden bekostigd die op de een of andere manier de veeltaligheid in het elektronische tijdperk bevorderen. Systemen voor automatisch vertalen horen daar natuurlijk bij. Er is geen veeltaligheid zonder vertalingen.

Taalprobleem

Zijn andere landen ook al bezig? Nederland en Vlaanderen hebben in ieder geval het voordeel dat ze in de Taalunie samenwerken. Lang niet alle taalgebieden zijn zo goed georganiseerd. Bovendien is ook niet iedereen even geïnteresseerd in taalproblemen. Engeland investeert bijvoorbeeld bijzonder weinig. In zekere zin heeft dat land ook geen investeringen nodig. Die doen anderen wel. Als Nederland en Vlaanderen een programma laten maken om vertalingen te maken uit het Nederlands naar het Engels, profiteren de Engelstaligen daar ook van. Wie het Engels als moedertaal spreekt, hoeft zich geen zorgen te maken over de veeltaligheid. Nu is dat natuurlijk niet echt eerlijk, maar opvallend genoeg spelen dergelijke overwegingen nauwelijks nog een rol als het gaat om beleidsbeslissingen met betrekking tot de taalkeuze. De Franse regering, die de hoop lijkt te hebben opgegeven dat het Frans ooit nog in dezelfde positie als het Engels zou kunnen verkeren, investeert wel veel geld in projecten die de positie van het Frans in de nieuwe media verstevigen. Zo probeert ze in ieder geval een Frans tegenwicht te bieden tegen de hegemonie van het Engels op het wereldwijde Internet. Dat betekent overigens niet dat ze zou investeren in een vertaalprogramma Frans-Nederlands; dat laat men over aan de Nederlandstaligen.

Ook een land als Duitsland heeft voorlopig nog geen belangstelling getoond voor vertalingen uit of naar het Nederlands, terwijl het wel degelijk belang heeft bij ontwikkeling van vertaalmodules. Het Duits is van de drie grote talen het zwakst vertegenwoordigd in Systran, maar de rol van die taal binnen de Europese Unie is de laatste jaren steeds groter geworden. Misschien dat er afspraken te maken zijn dat het Duitstalige taalgebied investeert in een vertaalmodule Duits-Nederlands, zo hopen Nederlandse betrokkenen, in ruil voor ons werk aan een module Nederlands-Duits. Voorlopig is daarover echter nog geen enkel contact gelegd met de eventuele Duitstalige partners.

Haalt het Nederlands 2050?

Wat de grote landen ook doen, het blijft belangrijk dat het Nederlands goed vertegenwoordigd wordt. Daar zijn politieke redenen voor. Door te investeren in automatische vertaalsystemen laat het Nederlandse taalgebied zien dat de rol van het Nederlands als officiële taal van de Europese Unie serieus genomen wordt. Maar er zijn ook andere argumenten. Met deze projecten kunnen we veel kennis opdoen die ook weer bij andere computertoepassingen voor taal- en tekstverwerking zouden kunnen worden gebruikt; toepassingen die het mogelijk maken om efficiënt Nederlandse teksten te bewerken, te raadplegen en te doorzoeken bijvoorbeeld. Naar verwachting worden dergelijke systemen in de toekomst nog veel efficiënter en economisch belangrijker dan ze nu al zijn.

Het is belangrijk dat het Nederlands ook in de moderne technologie een rol blijft spelen. ``Als we het niet opbrengen,'' voorspelde de Nijmeegse hoogleraar spraaktechnologie Lou Boves een paar jaar geleden in zijn inaugurele rede, ``zal het Nederlands als cultuurtaal het jaar 2050 niet halen. Het zal dan zoveel gemakkelijker zijn om teksten te maken in met name het Engels dan in het Nederlands, dat geen enkel bedrijf het zich kan veroorloven om het inefficiënte en ineffectieve Nederlands serieus te nemen.''

Is dat niet een beetje sterk uitgedrukt? Misschien. In ieder geval lijkt het me niet driester dan om in de jaren dertig te zeggen dat de Europese filmindustrie hard zijn best zal moeten om niet ondergesneeuwd te raken door de Amerikaanse. Ondanks het Engels. Computers en Internet kunnen samen onze wereld veeltalig houden als we die middelen goed gebruiken. Het is zo goedkoop om een krant op Internet te publiceren, dat ook kleine talen zich dat nu kunnen veroorloven. Maar taalgemeenschappen die niet aan de slag gaan om er ook wat van te máken, zullen het nog moeilijk krijgen.