Methodologie van de Computerlinguïstiek^*

INHOUD

1. Wat is Computerlinguïstiek?
2. Waarom Computerlinguïstiek?
3. Synthese
4. Analyse
5. Syntaxis en Semantiek
6. Automatisch vertalen
7. Slot

Terug naar hoofdmenu

Terug naar Bibliogafie

In deze bijdrage wordt ingegaan op een aantal zaken van methodologische aard in verband met de discipline Computerlinguïstiek (verder: CL). Er wordt niet gestreefd naar representativiteit voor een of andere speciale verzameling van beoefenaren van het vak noch wordt een karakterisering van dat vak beoogd die voor zoveel mogelijk beoefenaren aanvaardbaar is. Wat ontwikkeld wordt is een persoonlijk getinte interpretatie van de CL zoals die in de loop van een aantal jaren het onderwijs en onderzoek binnen de Afdeling CL van de Faculteit der Letteren aan de KUN is gaan bepalen. Uiteraard zal die karakterisering niet kunnen of mogen plaatshebben zonder positiebepaling ten opzichte van wat andere beoefenaren van het vak hebben gezegd en gedaan.

1. Wat is Computerlinguïstiek ?

Een groot deel van de bezigheden welke tezamen een bepaalde wetenschappelijke activiteit vormen bestaat noodzakelijk uit bezinning op die activiteit zelf. De reflectie brengt vragen naar voren als: wat is de werkelijkheid waarover uitspraken worden gedaan; hoe worden die uitspraken geproduceerd; wat wordt met die uitspraken beoogd? Vragen dus naar object, methode en doel van de CL. Zou deze wetenschap een adekwate naam dragen, dan zou het antwoord op die vragen daarin gesuggereerd moeten zijn. Maar dat is maar zeer ten dele het geval.

Omdat het niet behoort tot wat met dit opstel wordt beoogd kan in dit verband niet uitvoerig worden ingegaan op de relatie van de CL met de informatica en de algebraïsche taalkunde. De informatica of computer science als leer over de afbeelding van automaten, algoritmes en datastructuren op de computer kan beschouwd worden als toeleveringsbedrijf van het instrumentarium en van de theorieën over het gebruik daarvan. De algebraïsche taalkunde of mathematische linguïstiek levert de theoretische grondslagen van formele grammatica's, hun eigenschappen en hun bruikbaarheid voor de toepassing op natuurlijke talen. CL kan gekarakteriseerd worden als die vorm van linguïstiek welke deze relatie aangaat met de informatica en de mathematische linguïstiek,

Laten we beginnen met vast te stellen dat de CL linguïstiek moet zijn, voorlopig in het midden latend wat daaronder precies verstaan moet worden. Wanneer men definieert: "CL is linguïstiek met gebruikmaking van de computer" dan moet het accent vallen niet op dat instrument, maar op linguïstiek. Het spreekt vanzelf dat alleen exacte, automatiseerbare vragen m.b.t. natuurlijke taal kunnen worden beantwoord door middel van een computer en dat daarom slechts dat gedeelte van de taalkundige vragen in beginsel in aanmerking komt om binnen de CL te vallen. Maar zelfs niet iedere vraagstelling die aan deze voorwaarden voldoet voert, zodra die met een computer wordt beantwoord, tot beoefening van de CL. Zoals niet alle uitspraken over een verzameling tekens linguïstische uitspraken zijn, ook al zijn dat tekens van een natuurlijke taal of tekens die gerelateerd zijn aan tekens van (een zin van) een natuurlijke taal, zo zijn niet alle computer-onderzoekingen op zo'n verzameling computerlinguïstische onderzoekingen. Het is mijn standpunt dat bv. automatische data-analyse die betrekking heeft op taalmateriaal niet als zodanig binnen de CL geplaatst mag worden. Kwantitatief computer-onderzoek in enig bestand mag immers niet als CL gekarakteriseerd worden op grond van het feit dat er aan het bestand bepaalde taalkundige kenmerken kleven. Het doen van observaties op zichzelf is nooit het beoefenen van een wetenschap en zo is het doen van waarnemingen in een taal-bestand op zichzelf nooit taalkunde. Taalkundig wordt een vraagstelling pas wanneer ze gerelateerd is aan een taalkundige theorie. Linguïstisch signifikant computergebruik is alleen dan aan de orde wanneer de electronische rekenmachine een rol vervult in het ontwikkelen of testen van een linguïstisch signifikante theorie. De vraag naar de aard van de CL spitst zich daarom aldus toe: van welke aard moet enige (exacte) vraagstelling zijn om van linguïstiek te kunnen spreken en bijgevolg, bij gebruikmaking van een computer voor de beantwoording van die vraagstelling, van CL? Mijn stellingname in deze bijdrage houdt de mening is dat de linguïstiek die door de computerlinguïst wordt beoefend zich bezighoudt met formele theorieën over natuurlijke taal en zich richt op het ontwikkelen en testen van zulke theorieën door middel van electronische rekenmachines. Het is in de tijd waarin wij leven daarbij wel waarschijnlijk maar niet noodzakelijk dat de gehanteerde formele theorie verwantschap zal vertonen met de theorieën uit de scholen van Chomsky of Montague, of mogelijk vergelijkbare andere, die een stempel drukken op het hedendaagse onderzoek. Mijn stellingname sluit niet in dat de CL zich noodzakelijk bezighoudt met de beschrijving van zinnen, zoals binnen de TG en binnen de Montague-grammatica het geval is. Geformaliseerde theorieën over teksten en dialogen, eventueel zich bewegend op het terrein van de pragmatiek, behoren zeker ook tot de CL zodra ze op computers getest gaan worden.

Deze wat polemiserende afbakening van het vakgebied lijkt noodzakelijk in de omstandigheden waarin wij ons bevinden, te weten de ontluikende lente van het computertijdperk. In de nabije toekomst zullen er nauwelijks terreinen van wetenchappelijk onderzoek zijn waar de toepassing van de computer niet om zich heen zal grijpen. De daarmee gepaard gaande euforie brengt vaak de mening mee dat er een heel specifieke variant van de beoefende wetenschap ontstaan is. Dat is meestal een misvatting. Ook m.b.t. de zgn.corpus-linguïstiek mag deze problematiek gesignaleerd worden. Corpus-linguïstiek is de taalkunde die bij haar onderzoek naar de kenmerken van een natuurlijke taal gebruik maakt van grote reeksen geobserveerde zinnen. Een corpus is een bestand met zinnen van een bepaalde natuurlijke taal, verkregen op een zodanige manier dat representativiteit voor een bepaalde populatie gegarandeerd is. Corpuslinguïsten profileren zich graag als empirische taalkundigen: zij gaan voor het beoordelen van een ontworpen grammaticale theorie niet af op onreproduceerbare en onfalsificeerbare intuities van onderzoekers maar van objectieve, voor iedereen controleerbare observaties. Zij confronteren hun theorie met een corpus en zien dan of ze in staat is alle zinnen die daarin voorkomen te verklaren. Het zijn dus niet intuities die verantwoord worden maar een verzameling geobserveerde verschijnselen. Aan de linguïstische intuities van de onderzoeker wordt bij het ontwerpen van de theorie slechts een heuristische rol toegekend.

Onder deze interpretatie is corpuslinguïstiek natuurlijk linguïstiek en dus, indien uitgevoerd met een computer, CL. Het theoretische oogmerk is beslissend. Wanneer het geautomatiseerde corpus echter gebruikt wordt met het doel om relatieve frekwenties van bepaalde taalkundige figuren te bestuderen, bv. met het oog op de ontwikkeling van adekwate onderwijsinstrumenten, kan niet van CL gesproken worden. De vraagstelling immers is dan niet linguïstisch omdat geen linguïstische theorie ter toetsing staat.

Zijdelings mag worden opgemerkt dat Corpuslinguïsten moeilijk staande zullen kunnen houden dat het corpus hun hoofdevidentie is en aan de rol van de intuitie slechts een heuristische functie toekomt. Dat kan gemakkelijk blijken uit de veronderstelde reactie van de onderzoeker tegenover een 'fout' in zijn corpus: het is onvoorstelbaar dat hij zijn model contra-intuitieve eigenchappen zal geven om de objectieve observatie te honoreren.

2. Waarom Computerlinguïstiek?

Waarom echter CL temidden van linguïstiek zonder meer? Wordt de linguïstiek niet op respectable manier beoefend zonder machine? Waarom moet er getest worden met behulp van electronische apparatuur? Alleen maar omdat het toevallig kan? Toch niet omwille van de status van de beoefenaars die daarmee onderscheiden zijn van 'gewone' linguïsten? Het komt wel voor dat wetenschappers over wat extra crediet beschikken bij hun lezers omdat ze zich van zo iets ingewikkelds als een computer bedienen, maar gelukkig wordt dat al minder. Toch is het maatschappelijk gesproken niet zonder belang ontzag en huiver voor dit toppunt van technisch vernuft en kunnen met kracht te bestrijden. Niet vanzelfsprekend CL dus omdat het om een computer gaat, laat staan een prestige-voorsprong voor de gebruikers.

Waarom CL? De vraag mag niet terzijde gelaten worden, hoewel het gevaar bestaat dat in deze samenhang herhaald zal worden wat ik bij een eerdere gelegenheid over de zaak in het midden heb gebracht (Van Bakel, 1981).

Het voornaamste doel van de CL is in het algemeen bij te dragen aan automatisering en geautomatiseerde ondersteuning van menselijke communicatie. Automatisering van menselijke communicatie houdt in dat men in situaties waar zulks wenselijk is bepaalde functies in het menselijk communicatieproces laat overnemen door de machine. Daarbij zijn toepassingen denkbaar waarbij machinale 'spraak' wordt gegenereerd maar ook andere waarbij de zinnen in geschreven (getypte e.d.) vorm worden uitgevoerd. Wat het eerste aangaat kan gedacht worden aan automatische generering van 'gesproken' zinnen als boodschappen aan mensen die vanwege de situatie waarin ze zich bevinden het best met een geluidssignaal kunnen worden benaderd. Men denke aan berichten op een perron, berichten over verkeerssituaties via de radio e.d. Een andere toepassing is het bouwen van systemen die in staat zijn door mensen gesproken zinnen te begrijpen en dienovereenkomstig te handelen. Men denke aan automaten die mondelinge boodschappen kunnen verstaan. Toepassingen waarbij een automaat wordt gebruikt die in staat is vragen in natuurlijke taal te verstaan welke worden ingetoetst, zullen vaak betrekking hebben op grote dataverzamelingen waaruit informatie wordt opgevraagd (vraag-antwoord-systemen). Bij iedere toepassing van de CL komt syntactische analysering en semantische interpretatie van natuurlijke zinnen aan de orde.

De linguïstiek is binnen haar huidige traditie geen toepassingsgerichte wetenschap. Het lijkt er zelfs op dat ze, door de traumatiserende ervaringen met het automatisch-vertaalprogramma uit de jaren 1950-1966 (vgl. Brandt Corstius 1978, 20-24), eerder afwijzend staat tegenover toepassing op rekenmachines. Chomsky, hoewel onder informatici met evenveel eerbied geciteerd als onder taalkundigen, heeft de gedachte dat de formalisering van de taalwetenschap in verband gebracht zou moeten worden met de ontwikkeling van de computer-technologie ver van zich afgeworpen (bv. Chomsky (1966,9)). Met iets teveel nadruk misschien om niet een beetje argwaan te wekken. Chomsky predikt een mentalistisch onderzoekprogramma, gemotiveerd door een beoogd ontraadselen van de geheimen van de menselijke geest, en allerminst met het oog op een instrument in handen van ingenieurs.

Men kan de doelstellingen van de Chomskyaanse taalwetenschap respecteren en toch in één adem vaststellen dat de toepassing misschien niet het oogmerk was, maar dan toch in elk geval wel de schitterende mogelijkheid. Immers, de taalkunde is door haar formalisering en axiomatisering opgenomen in de reeks van exacte, toepasbare kennis leverende wetenschappen en, hoe men daar ook over denkt, zij zal daardoor toegepast worden voor doeleinden waarvoor ze geschikt lijkt. De CL doet toepassingsgericht onderzoek dat daarnaar voert. Zij onderscheidt zich daarbij van zuiver instrumentalistische ondernemingen doordat zij een belangrijk kenmerk van het mentalistische onderzoekprogramma bewaart: theoretisch linguïstische motivatie en daarmee het aestheticum der maximale generalisatie. In het laatste is, zij het in enigszins gewijzigde verpakking, de trouw aan de intuities van de taalgebruiker (de linguïst) behouden.

Hoe kan de formele linguïstiek zoals die sinds Chomsky's Aspects bekend is toegepast worden? Voor de beantwoording van die vraag moeten we bezien op welke manieren formele theorieën over natuurlijke taal op een machine kunnen worden nagebootst op zodanige wijze dat er nuttig gebruik van gemaakt kan worden. Dat gebeurt in de volgende paragrafen.

3. Synthese

Zoals de formele linguïstiek voor een belangrijk deel bestaat in het definiëren van een grammatica die alle zinnen van een natuurlijke taal genereert en geen andere dan deze, zo kan de CL zich richten op het simuleren en testen van zulk een model op een electronische rekenmachine. Dat karwei is echter zonder bepaalde beperkingen niet uitvoerbaar. De bedoeling van het ontwerpen van een generatieve grammatica van een natuurlijke taal moet zijn een definitie te geven van de oneindige verzameling zinnen die de taal vormt. Het testen van zo'n grammatica moet inhouden: nagaan of de gedefinieerde verzameling inderdaad de verzameling is van de zinnen van de beschreven taal. Alleen al de daarvoor benodigde oneindige hoeveelheid tijd is een beletsel voor de verwezenlijking van dat doel. Wat kan de zin zijn van een genererende grammatica? We moeten in dit verband niet al te gemakkelijk een vergelijking maken met het onderzoek binnen de TG. Het oogmerk van de linguïstiek binnen de TG is een model te ontwerpen van wezenlijke kenmerken van het menselijke taalvermogen en zo inzicht te krijgen in de structuur van de taal. De bedoeling is geenszins om een gedetailleerde grammatica te ontwikkelen en die te testen. De individuele door de grammatica gedefinieerde zinnen zijn, na voltooiing van de theorie, oninteressant geworden. Het model dient om een theoretisch inzicht exact te maken en geenszins om formeel getest te worden. Voor de op nuttig gebruik gerichte CL is testen echter wezenlijk. Als dat onmogelijk is heeft zij niets meer op te merken.

Is overigens iedere simulering en test van een genererend model uitgesloten? Het antwoord is nee. We kunnen immers beperkingen invoeren van a) probabilistische en b) semantische aard. Een probabilistische beperking bij een testprocedure bestaat in het laten sturen van het genereringsproces door een toevalsfactor welke op ieder moment dat een keuze gemaakt moet worden beslist hoe er vervolgd moet worden. Wanneer in een NP wel of niet een voorbepaling in de vorm van een adjectiefsgroep kan optreden, beslist een eventueel gewogen loting, afhankelijk van de realiseringskans die in de grammatica meegedefinieerd is, over ja of nee. In deze vorm blijft de testprocedure even oneindig als zonder probabilistiek, maar het voordeel is dat de zinnen die in de grammatica gedefinieerd zijn niet in dezelfde volgorde als waarin ze gedefinieerd zijn worden opgesomd. Wanneer daarbij de kansfactoren worden afgestemd op de eigenschappen van een bepaalde stilistisch gekenmerkte deelverzameling van de beschreven taal, brengt de automaat op een onvoorspelbare manier zinnen voort die een zekere toetsing van het model nl. als theorie over een stijl mogelijk maken. Ook dan blijft echter de methodologische functie van de toetsing problematisch.

Een andere mogelijke beperking op een genereringsproces is van semantische aard. Men kan zich deze voorstellen als de formulering van een of andere 'inhoud' die in de te genereren zin zou moeten worden uitgedrukt. Zulk een procedure lijkt een aantrekkelijke mogelijkheid te bieden voor de evaluering van een ontwikkelde grammatica. Jammer alleen dat ze de vraag impliceert naar een grammatica die 'inhouden' produceert, een genererende grammatica dus waarin oneindig veel inhouden zouden worden opgesomd die men op een of andere wijze zou moeten selecteren om ze aan te bieden als stimulus voor de grammatica die er zinnen van zou maken. De opmerkzame lezer ziet dat het probleem dat ons bezighoudt alleen maar verplaatst is: we komen voor precies dezelfde vraag staan als die we bezig waren te beantwoorden.

Samenvattend: een generatieve grammatica van een natuurlijke taal laat zich niet op acceptabele wijze testen op zijn genererende vermogen. De hypothese dat hij alle zinnen van de beschreven taal produceert laat zich niet falsificeren en ook bij de test of hij geen andere voortbrengt zouden we wel eens oneindig lang kunnen wachten tot er een van te voorschijn komt.

4. Analyse

Onder 'analyse' versta ik 'herkenning' plus 'ontleding'. Een grammatica die herkent is in staat van een bepaalde zin te zeggen of hij wel of niet behoort tot de taal die in de grammatica gedefinieerd is; een grammatica die ontleedt verbindt aan de herkende zin bovendien gegevens over de wijze waarop die door de grammatica gedefinieerd is. Dit laatste houdt in dat de beschouwde zin door de grammatica wordt voorzien van een syntactische structuur.

Voor de toepassing van de taalwetenschap bij automatisering en automatische ondersteuning van menselijke communicatie is nodig dat de aanwezige linguïstische kennis operationeel wordt gemaakt. De automatiseerbaarheid van de grammatica is daarvoor een voorwaarde. Zoals de ervaring uitwijst doen zich echter problemen van kwantitatieve en ook van kwalitatieve aard voor. Syntactische analysering is in het ideale geval de omkering van de generering, maar dat kan slechts bereikt worden door beperkingen op te leggen aan de generatieve regels en/of hun toepassing. De regels van een generatieve grammatica zijn nl. niet noodzakelijk omkeerbaar. Zelfs als dat wel het geval is, hoeft er geen effectieve analyseprocedure te bestaan, d.w.z. een procedure die in een eindig aantal stappen leidt tot de door de generatieve regels gedefinieerde syntactische structuur. Dit is het in de literatuur bekende probleem van de beslisbaarheid. Om een grammatica te kunnen testen op zijn analyserende vermogen zal vereist zijn dat we te maken hebben met een beslisbare taal: een willekeurige zin moet binnen een eindige hoeveelheid tijd gegenereerd en, bij analyserend gebruik van de grammatica, herkend kunnen worden. Ik wil op de kwestie van de beslisbaarheid niet dieper ingaan, omdat we daarmee terecht zouden komen op het specialistische terrein van de mathematische linguïstiek of algebraïsche taalkunde waarvan de relatie tot de CL hierboven bondig werd gekarakteriseerd. Wel wijs ik erop, dat een transformationele taal in het algemeen onbeslisbaar is (vgl. Brandt Corstius 1974, 124-126).

Laten we ervan uitgaan, dat de keuze die ons bezighoudt gaat tussen een beslisbare grammatica genererend gebruikt en eenzelfde grammatica analyserend gebruikt. Zo onaantrekkelijk als de zaken eruit zagen bij het testen van het genererende vermogen van een grammatica, zo aantrekkelijk ziet het eruit bij het analyserende vermogen. Wat is immers vanzelfsprekender dan aan de hand van een reeks proefzinnen, eventueel met veel arglistigheid gekozen om de ontwerper van de grammatica te verrassen, het bereik van de ontworpen theorie te testen? Bij het genereren werd het bewijs gezocht dat de grammatica alle zinnen van de taal definieerde en geen andere. De proef op de som bleek echter niet genomen te kunnen worden. Bij een test van het analyserende vermogen wordt het bewijs van falen geleverd door de eerste de beste zin waarop de grammatica struikelt. Dat kan bij een goede grammatica misschien ook wel eens veel inspanning vergen, maar het is mogelijk zelf de zin heel kritisch uit te selecteren of te bouwen. (Vgl. Brandt Corstius 1978, 172-180).

Samenvattend: van een generatieve grammatica kan, indien die beslisbaar is, het analyserend vermogen op een heel aanvaardbare wijze worden getest. Dat betekent dat het misschien mogelijk zal blijken een systeem te ontwikkelen dat in staat is van een aangeboden zin een uitputtende analyse te geven die gebruikt kan worden bij geautomatiseerde menselijke communicatie en automatische informatie-ontsluiting. Althans, als het mogelijk is de betekenis van een zin exact vast te stellen en expliciet vast te leggen.

5. Syntaxis en Semantiek

Waarvoor dient syntactische annalysering van een aangetroffen zin? ALs de CL pretendeert een toepassingsgerichte discipline te zijn kan de vraag niet ongepast zijn. Hoewel het onmogelijk is om buiten de betekenis om iets zinvols te zeggen over een zin van een natuurlijke taal is het gebruikelijk om onderscheid te maken tussen 'syntaxis' en 'semantiek'. Laten we een ogenblik de aandacht richten op die beide zaken in hun problematische relatie.

De taalkunde streeft naar het verantwoorden van de relatie tussen vorm- en betekenisverschjnselen. Zij is erop gericht te verklaren dat de betekenis van een bepaalde zin is wat die is. Er worden twee grootheden geïntroduceerd: de zin zoals die kan worden waargenomen en datgene wat die zin betekent. Bij een bepaalde zin van een taal hoort een bepaalde betekenis en bij een bepaalde betekenis hoort een bepaalde zin. Zin en betekenis zijn elementen uit verschillende verzamelingen. De grammatica is specifiek de verklaring van de relatie tussen elementen van de ene verzameling en elementen van de andere verzameling.

In dit verband rijzen de vragen: in wat voor termen is de vorm van de zin gegeven; in wat voor termen is de betekenis van de zin gegeven; zijn de zinnen gegeven los van de betekenisen en de betekenissen los van de zinnen, zodat de grammatica er alleen maar de relaties tussen moet leggen? Zoals we zullen zien moeten de antwoorden luiden: de vorm van de zin is gegeven in termen van betekenis; de betekenis is gegeven in termen van de vorm; vorm en betekenis zijn niet los van elkaar gegeven maar worden door de linguïstiek uit elkaar ontward. Dit komt erop neer dat de syntaxis uit de betekenis moet worden afgeleid en de betekenis uit de syntaxis.

De methodologie van de linguïstiek formuleert het zo dat de ontworpen syntactische structuren van de zinnen in overeenstemming moeten zijn met intuities die de 'native speaker' over de zinnen (en dus over hun structuur) heeft. De grondlaag van de syntaxis , de segmentering en hiërarchische structurering van de zin, komt aldus op subjectieve wijze en als onfalsificeerbare grootheid binnen. De semantiek wordt vervolgens door een reeks interpreterende regels aan de elementen van de syntactische structuur gekoppeld. Het Montague-beginsel dat aan iedere syntactische regel één en niet meer dan één betekenis-regel gekoppeld moet zijn lijkt noodzakelijk, ook eventueel binnen het model van de EST (Extended Standard Theory). Dat betekent niet meer of niet minder dan dat de syntaxis semantisch gemotiveerd moet zijn. Ofwel: de syntaxis is qua orientatie semantiek.

Bij het testen van een semantisch-syntactische theorie over zinnen van een natuurlijke taal zal van de op de computer gesimuleerde theorie geëist moeten worden dat die aan de zin de juiste syntactische structuur toekent en vervolgens de daarmee overeenkomende betekenis uitdrukt. De wijze waarop het één zowel als het ander wordt vastgelegd is een bijkomstigheid. De syntactische structuur kan worden afgebeeld in een boomstructuur of in een haakjesschema. Eventueel zou het zelfs nog heel anders kunnen, bv. verbaal. Ook de afbeelding van de semantiek is naar de vorm vrij te kiezen. Alleen zal de notatie expliciet en vrij van ambiguiteiten moeten zijn. Het liefst zal men daarom kiezen voor een formele structuur, die door bepaalde semantische interpretatieregels gerelateerd is aan de syntactische structuur. Binnen de TG gaan de gedachten dan naar de logical form zoals Chomsky (1981) die geeft, bij de Montague-grammatica naar een logische expressie volgens een of andere lambda-calculus (Montague, 1973).

Wat hierbij in het oog springt is dat op deze wijze semantische interpretatie, die het eindpunt zou moeten zijn van de grammaticale bewerking van de zin, weer een ingewikkelde structuur is welke op haar beurt om semantische interpretatie vraagt. Ja, door eenvoudige extrapolatie is in te zien, dat we nooit verder zullen komen dan de zoveelste formele structuur welke om de zoveelste semantische interpretatie zal vragen. En, terugkijkend in die lange reeks, vraagt men zich verbijsterd af welke structuur nu ook weer de laatste syntactische was en waar dus het semantische proces begon: de semantiek is syntactisch van origine.

(...)

We herhalen de vraag van het begin van deze paragraaf: waarvoor dient syntactische analysering van een aangetroffen zin? Het antwoord kan nu luiden: het is een stap in de semantische interpretatie. Zoals taal dient voor betekenis dient syntaxis voor semantiek. Het is duidelijk dat er een volkomen parallellisme noodzakelijk is tussen beide, principieel onderscheidbare procedures. Als de syntaxis niet voldoet aan de eisen die we aan de semantiek stellen, zal hij op semantische gronden verworpen moeten worden. Semantiek die niet aanknoopt bij syntactische structuren zal niet bestaan, want zij is model-immanent of zij is niet. Op toepassing van linguïstische theorieën gerichte CL zal voor de taak staan de betekenis van aangetroffen zinnen, aanknopend bij een theorie over hun syntactische structuur, af te beelden in een andere code waarvan geëist moet worden dat die praktisch of theoretisch betrekkelijk aanvaardbaar is. Iedere code die we kiezen, ook de propositie in een logische taal, zal haar eigen semantiek vergen en dat bedreigt het werk met een eindeloze recursiviteit. Misschien kunnen we die herhaling breken door de semantische interpretatie te doen uitmonden in zinnen van een andere natuurlijke taal. Dan hebben we misschien niet een volkomen eenduidige afbeelding van de betekenis van een zin maar zeer zeker wel eentje die een acceptabel eindpunt van automatische analyse kan zijn. Bovendien komt zo een duidelijke toepasbaarheid van CL in zicht. De stap naar automatisch vertalen lijkt de enige zinvolle mogelijkheid.

6. Automatisch vertalen

Misschien zijn er niet veel wetenschappen, zeker niet als ze zich als exact beschouwen, waar taboe's een rol spelen, maar de linguïstiek is er zo een en het taboe is het automatisch vertalen. Men zegt dat het onmogelijk is. Dat is in zekere zin geruststellend, want meestal is het zo met een taboe dat het om een of andere reden niet mag.

Hierboven werd al gesuggereerd dat het postulaat van de universele communiceerbaarheid van menselijke gedachten en de universele vertaalbaarheid van natuurlijke zinnen noodzakelijk is binnen een linguïstiek die over menselijke taal wil generaliseren. Omdat het onzinnig is de linguïstiek te beperken tot de studie van een of andere natuurlijke taal in het bijzonder, is het onzinnig beide postulaten af te wijzen. Met betrekking tot iedere natuurlijke taal in het bijzonder richt syntactisch onderzoek zich op de betekenis-georienteerde vormen van die taal:

(1): zin => vorm(zin) => betekenis(vorm(zin))

Omdat de betekenis moet worden vastgelegd in een objectieve code kunnen we ook zeggen:

(2): zin => vorm(zin) => (vorm(betekenis(vorm(zin)))

Als we de beschikking zouden hebben over zulke systemen voor verschillende natuurlijke talen, zou er dan een link gelegd kunnen worden tussen de overeenkomstige eindtermen, zodat we daarmee het automatisch vertaalprobleem zouden hebben opgelost? Het is in het voorgaande gesteld en het wordt hier weer duidelijk dat de syntaxis van een taal een verzameling stuk voor stuk betekenis-georienteerde regels zal moeten zijn. Wanneer alle inhouden en dus alle betekenissen universeel communiceerbaar zijn, betekent dat echter nog niet dat iedere taal beschikt over dezelfde reeks van regels. Laten we een voorbeeld bezien. Verschillende talen, o.a. het vroeg-middeleeuwse germaanse dialect Gotisch, beschikken over de getallen enkelvoud, tweevoud, meervoud. Daartegenover staan talen als het Nederlands met de onderscheiding enkelvoud - meervoud.

(3): IÞ Jesus qaÞ im: "hva wileits taujan mik igqis?"
(Maar Jezus sprak tot hen: "Wat wilt gij beiden te doen ik aan u beiden?")
Maar Jezus sprak tot hen: "Wat wilt gij beiden dat ik u beiden doe?" (Marcus X, 36).

Uit (3) blijkt dat de betekenissen weliswaar in beide talen zijn weer te geven maar dat de middelen waarmee het gebeurt niet van hetzelfde type zijn: in het Gotisch vinden we een bepaalde specifieke morfologische vorm van het werkwoord (wileits, wilt gij beiden) waarin o.a. de betekenissen tweede persoon en tweevoud vastliggen; diezelfde betekenissen worden in het Nederlands uitgedrukt voor de helft door het werkwoord (het werkwoord is tweede persoon meervoud) en verder door de subjects-NP gij beiden. Voor het tweevoud ontbreekt in het Nederlands een specifiek vormkenmerk. Bij het pronomen igqis drukt het Gotisch in één morfologisch bouwsel uit wat het Nederlands in een complexe NP u beiden weergeeft. Het zijn dus zeer verschillende vorm-verschijnselen die dezelfde betekenis vastleggen. We kunnen daarom niet zeggen dat aan de syntactische regels van een taal in alle talen via een één op één relatie regels met dezelfde betekenissen beantwoorden. Het is veeleer zo dat dezelfde betekenissen in verschillende talen over het algemeen met andere middelen worden uitgedrukt. Als we alle bouw-voorschriften 'syntactisch' willen noemen, hebben we toch met syntactische verschijnselen op zeer verschillende plaatsen te maken: het lexicale element dat 'willen' betekent draagt, gerealiseerd in de zin, in de ene taal wel en in de andere taal niet het kenmerk voor tweevoud.

Dit voorbeeld laat ook toe een opmerking te maken over ambiguiteit. De Nederlandse zin in (3) blijkt nu naar het Gotisch toe niet ambigu te zijn. Het is echter heel goed denkbaar dat hij zou luiden: Wat wilt gij dat ik u doen zal?, d.w.z. een vorm zou vertonen die onvoldoende informatie bevat om uit de Gotische mogelijkheden, meervoud en tweevoud (en enkelvoud!), een keuze te maken. De Nederlandse zin is dus kennelijk ambigu en wel in een mate die pas zichtbaar wordt door vergelijking van de zin met de mogelijke Gotische equivalenten. Vanuit het Nederlands valt niet te voorzien welke binnen deze taal onbekende betekeniscategorieën onderscheiden zullen worden in een andere natuurlijke taal. Als het Nederlands alle inhouden kan bedekken zullen de betekenissen in andere talen alleen deelverzamelingen, doorsnedes en verenigingen kunnen zijn van de Nederlandse betekenissen. Daarmee wordt de principiële constatering gedaan dat ambiguiteit een relatieve aangelegenheid is: het hangt af van de betekeniscategorieën van de doeltaal bij een vertaalproces, of een zin wel of niet, en zo ja hoe veelvoudig, ambigu is. (vgl. Rolf 1983, 101).

Ook al is het misschien uiteindelijk mogelijk alle betekenisverschijnselen van een natuurlijke taal vast te leggen in regels zoals gesuggereerd in (2), dan is daarmee nog niet het automatisch vertalen gerealiseerd; daarvoor moeten typisch de regels van de ene taal gekoppeld worden aan de regels van de andere taal. Onderzoek naar automatisch vertalen is semantisch onderzoek waarin dit beoogd wordt. Het doel is: met maximaal generaliserende regels uitspraken te doen over de wijze waarop de betekenissen van taal-t' overeenkomen met de betekenissen van taal-t''. Dat betekent een theoretisch linguïstische legitimering van het onderzoek op het gebied van automatisch vertalen. Dit onderzoek zal ook aandacht moeten hebben voor de principiële vraag die oprijst achter het zoëven gesignaleerde probleem van de ambiguiteit: wat is een mogelijke betekeniscategorie in een natuurlijke taal? Die vraag zou beantwoord moeten zijn voordat gedacht kan worden aan de constructie van één universele betekenistheorie over natuurlijke talen. Het ligt niet voor de hand dat in natuurlijke taal ieder denkbaar betekenisonderscheid feitelijk wordt uitgedrukt. Ondenkbaar is bv. dat ergens naast enkelvoud en tweevoud ook een 3-, 4- en 5-voud zou bestaan. Lang niet alle ambiguiteiten ook die bij logische analyse worden gesignaleerd zullen ooit in een natuurlijke taal over een afzonderlijk uitdrukkingsmiddel beschikken. Zulke algemene kwesties van betekenis-theoretische aard komen vanzelfsprekend en noodzakelijk aan de orde bij onderzoek van automatisch vertalen.

Het taboe in de linguïstiek ten aanzien van automatisch vertalen kenmerkt zich hierdoor dat alleen in verband daarmee de principiële mogelijkheid wordt betwijfeld. Laten we vooropstellen dat de vraag of automatisch vertalen mogelijk is de verkeerde vraag is, tenminste wanneer ze als eerste geformuleerd wordt. De enige manier waarop een vraag naar een mogelijkheid binnen een wetenschap aan de orde kan komen is in de vorm van een onderzoekprogramma dat de hypothese van de mogelijkheid test. Wie vooraf stelt dat automatische vertaling tot de onmogelijkheden behoort kan geen waarheid formuleren, eenvoudig omdat wetenschappelijk gesproken waarheid datgene is wat op zijn best uit het wetenschappelijk onderzoek tevoorschijn komt. Voorlopig telt zulk een uitspraak dus niet. Het enige wat telt is de vraag of systematisch onderzoek naar de mogelijkheid van automatisch vertalen op subjectieve gronden wenselijk wordt geacht door de instanties die onderzoek toelaten in de beschaafde wereld. Binnen de wetenschap komt dat neer op: voorstellen formuleren en discussie voeren over de zinvolheid van het voorgestelde onderzoek. In die discussie kan de scepsis gelden als een buiten-wetenschappelijk argument. Dat wil zeggen: als een argument dat binnen de wetenschap niet telt. (Maar dat haar natuurlijke wel kan verhinderen.)

Scepsis over automatisch vertalen is ten onzent het duidelijkst geformuleerd door Brandt Corstius (1978, 20-24). Zijn uiteenzetting laat er niet de minste twijfel over bestaan hoe de auteur denkt over de onderneming: het kan niet. Maar men kan ook vragen naar de waarde van de gehanteerde argumenten, welke afkomstig zijn van Bar-Hillel (1966). Brandt Corstius: "Zijn argumenten komen er in het kort op neer dat voor formeel vertalen behalve een woordenboek ook een encyclopedie nodig is, en wel een encyclopedie waarin alle kennis over de wereld is te vinden. In de zin Ik kocht een piano en een viool die ik onder de arm mee naar huis nam moet je bij vertaling in bepaalde talen weten of dat die op piano en viool, of alleen op viool slaat. Bij elk substantief moet dus vermeld zijn of het onder-de-arm-mee-naar-huis-draagbaar is." Tegen dit argument is meer dan één zinvolle opwerping mogelijk. Ik spreek daarbij natuurlijk niet over automatisch vertalen als commercieel toepasbare aangelegenheid, want daar houd ik me niet mee bezig. Theoretisch linguïstisch kan gesteld worden, dat de gesignaleerde moeilijkheid niet relevant is omdat ze betrekking heeft op de wereld; taalkundig moet geëist worden dat de semantische interpretatie van de zin aan het licht brengt dat hij ambigu is. Als in een of andere taal voor beide lezingen van de voorbeeldzin verschillende vormen vereist worden, zullen die door de automatische vertaler beide moeten worden opgeleverd. Van evenveel gewicht misschien is dat de scepsis die uitgesproken wordt evengoed zou kunnen worden gebruikt om de linguïstiek in het algemeen vaarwel te zeggen. Dat kan aan de hand van een voorbeeld worden aangetood. Bezien we de volgende zinnen:

(4): Heb je die vrouw met dat fototoestel gezien?
Heb je die vrouw met dat fototoestel gefotografeerd?
Heb je die vrouw met dat fototoestel bezeerd?

Voor een correcte analyse van de eerste voorbeeldzin moet de kennis aanwezig zijn dat men met een fototoestel niet ziet: op grond daarvan moet met dat fototoestel als een attribuut binnen een NP geïnterpreteerd worden. Voor de analyse van de tweede zin is de kennis nodig dat men met een fototoestel fotograferen kan. Dan blijven overigens toch nog twee interpretaties mogelijk. De derde zin laat zien dat ook een minder normaal gebruik van een fototoestel tot de kennis moet behoren. Daardoor wordt het mogelijk met dat fototoestel te interpreteren als constituent van de zin, hoewel ook nu de interpretatie als constituent binnen de NP mogelijk is. Dergelijke problemen rijzen voor een deel ook binnen een genererend model: men zal de eerste voorbeeldzin met met dat fototoestel als zinsconstituent moeten uitsluiten. Het is duidelijk dat ook daarvoor uitgebreide kennis over 'de wereld' noodzakelijk wordt. De overwegingen zullen voor niemand grond leveren om verder af te zien van automatische analyse van zinnen of van formele linguïstiek in het algemeen. Men beschouwt de problematiek als van niet-linguïstische aard. Er lijkt geen reden aanwezig om een andere positie te kiezen wanneer het gaat om automatisch vertalen, althans zolang dit beschouwd wordt naar zijn linguïstisch-theoretische aspecten.

Een veel gesignaleerde vraag i.v.m. automatisch vertalen is: moet gestreefd worden naar een paarsgewijze behandeling van talen waartussen men automatische vertaling wenst of moet eerder gezocht worden naar een universele semantische interlingua? De lezer zal begrepen hebben dat dat laatste het enig acceptabele is voor het bereiken van een maximaal generaliserende semantische theorie. Omdat de linguïstiek nog zo jong is, de ervaring met betekenisproblemen zo klein en de problematiek zo groot, lijkt het echter voor de hand te liggen om bescheiden te beginnen. Theoretisch semantisch onderzoek kan al gewichtige resultaten hebben als het streeft naar generaliseringen over een tweetal talen die niet al te dicht bij elkaar staan.

7. Slot

Er zijn nog een aantal andere zaken die de aandacht zouden kunnen krijgen in een opstel over de methodologie van de CL. Met name zou het denkbaar zijn de discipline nader te motiveren en te karakteriseren door concrete toepassingen te beschouwen (zie bv. Landsbergen (1977) en Scha (1983) over vraag-antwoord-systemen). Maar ik geloof dat dat niet nodig is. Van belang is te signaleren dat CL enerzijds toepassingsgericht is, anderzijds theoretisch gemotiveerd. De linguïstiek is nog niet zover gevorderd dat al over toepassingen op grote schaal gedacht kan worden. Zolang een automaat een hoest nog kan verstaan als 'Saturday' past enige bescheidenheid.

Misschien verbaast het sommige lezers ook dat over de computer en de techniek van het vak niet gesproken is. Maar sinds men in opstellen over computergebruik in de taalwetenschap de lezer een op ware grootte afgebeelde ponskaart liet zien is er nogal wat veranderd. De computer begint een gewoon instrument te worden, waarover evenmin geheimzinnig gedaan hoeft te worden als over een koffiezetapparaat of een televisie-toestel. Tegenwoordig weet ieder dat, zoals de schrik voor de automobiel, ook die voor de computer zal slijten. CL is linguïstiek. De machine en het programmeren zijn zaken van ander niveau.

Jan van Bakel, 1983

Noot

* Dit opstel werd gepubliceerd in: Gramma 7 (1983), pag. 100-113. Ik dank Dr. P.A. Coppen voor zijn waardevolle, kritische opmerkingen bij een vroegere versie van dit opstel.

Literatuur

Bakel, J. van (1981), Linguistic Engineering, Verslagen Computerlinguïstiek 2, 138-145.
Chomsky, N. (1966), Topics in the theory of generative grammar, Janua Linguarum, Mouton & Co., The Hague - Paris.
Chomsky, N. (1981), Lectures on government and binding, Foris Publications Dordrecht - Cinnaminson.
Bar-Hillel, Y. (1966), Four lectures on algebraic linguistics and machine translation, In: A. Ghizetti (ed), Automatic translation of language; Papers presented at NATO Summer School, Venice, july 1962. Oxford.
Brandt Corstius, H. (1974), Algebraïsche Taalkunde, Utrecht.
Brandt Corstius, H. (1978), Computer-Taalkunde, Muiderberg.
Landsbergen, S.P.J. (1977), Wat is Computerlinguïstiek? In: B.T. Tervoort (red), Wetenschap & Taal, Muiderberg.
Montague, R (1973), The proper treatment of quantification in ordinary English. In: J. Hintikka e.a. (eds), Approaches to Natural Language, Dordrecht.
Rolf, P.C. (1983), Vertalen van getalsnamen, Verslagen Computerlinhuïstiek 3, 97-113.
Scha, Remko J.H. (1983), Logical foundations for question answering. Diss. Groningen; Philips Research Laboratories, Eindhoven.

Terug naar boven

Methodologie van de Computerlinguïstiek*