Methodologie van de Computerlinguïstiek*
INHOUD
1. Wat is Computerlinguïstiek?
2. Waarom Computerlinguïstiek?
3. Synthese
4. Analyse
5. Syntaxis en Semantiek
6. Automatisch vertalen
7. Slot
Terug naar hoofdmenu
Terug naar Bibliogafie
In deze bijdrage wordt ingegaan op een aantal zaken van
methodologische aard in verband met de discipline Computerlinguïstiek (verder: CL).
Er wordt niet gestreefd naar representativiteit voor een
of andere speciale verzameling van beoefenaren van het vak noch wordt
een karakterisering van dat vak beoogd die voor zoveel mogelijk beoefenaren
aanvaardbaar is. Wat ontwikkeld wordt is een persoonlijk getinte
interpretatie van de CL zoals die in de loop van een aantal jaren het
onderwijs en onderzoek binnen de Afdeling CL van de Faculteit
der Letteren aan de KUN is gaan bepalen. Uiteraard zal die
karakterisering niet kunnen of mogen plaatshebben zonder positiebepaling
ten opzichte van wat andere beoefenaren van het vak hebben gezegd en gedaan.
1. Wat is Computerlinguïstiek ?
Een groot deel van de bezigheden welke tezamen een bepaalde wetenschappelijke
activiteit vormen bestaat noodzakelijk uit bezinning op die
activiteit zelf. De reflectie brengt vragen naar voren als: wat is de
werkelijkheid waarover uitspraken worden gedaan; hoe worden die uitspraken
geproduceerd; wat wordt met die uitspraken beoogd? Vragen
dus naar object, methode en doel van de CL. Zou deze wetenschap een
adekwate naam dragen, dan zou het antwoord op die vragen daarin
gesuggereerd moeten zijn. Maar dat is maar zeer ten dele het geval.
Omdat het niet behoort tot wat met dit opstel wordt beoogd kan in dit
verband niet uitvoerig worden ingegaan op de relatie van de CL met de
informatica en de algebraïsche taalkunde. De informatica of computer
science als leer over de afbeelding van automaten, algoritmes en
datastructuren op de computer kan beschouwd worden als toeleveringsbedrijf
van het instrumentarium en van de theorieën over het gebruik
daarvan. De algebraïsche taalkunde of mathematische linguïstiek levert
de theoretische grondslagen van formele grammatica's, hun eigenschappen
en hun bruikbaarheid voor de toepassing op natuurlijke talen.
CL kan gekarakteriseerd worden als die vorm van linguïstiek welke deze
relatie aangaat met de informatica en de mathematische linguïstiek,
Laten we beginnen met vast te stellen dat de CL linguïstiek moet zijn,
voorlopig in het midden latend wat daaronder precies verstaan moet
worden. Wanneer men definieert: "CL is linguïstiek met gebruikmaking van
de computer" dan moet het accent vallen niet op dat instrument, maar op
linguïstiek. Het spreekt vanzelf dat alleen exacte, automatiseerbare
vragen m.b.t. natuurlijke taal kunnen worden beantwoord
door middel van een computer en dat daarom slechts dat gedeelte van de
taalkundige vragen in beginsel in aanmerking komt om binnen de CL te
vallen. Maar zelfs niet iedere vraagstelling die aan deze voorwaarden
voldoet voert, zodra die met een computer wordt beantwoord, tot beoefening
van de CL. Zoals niet alle uitspraken over een verzameling tekens
linguïstische uitspraken zijn, ook al zijn dat tekens van een natuurlijke taal
of tekens die gerelateerd zijn aan tekens van (een zin
van) een natuurlijke taal, zo zijn niet alle computer-onderzoekingen op
zo'n verzameling computerlinguïstische onderzoekingen. Het is mijn
standpunt dat bv. automatische data-analyse die betrekking heeft op
taalmateriaal niet als zodanig binnen de CL geplaatst mag worden.
Kwantitatief computer-onderzoek in enig bestand mag immers niet als CL
gekarakteriseerd worden op grond van het feit dat er aan het bestand
bepaalde taalkundige kenmerken kleven. Het doen van observaties op
zichzelf is nooit het beoefenen van een wetenschap en zo is het doen
van waarnemingen in een taal-bestand op zichzelf nooit taalkunde.
Taalkundig wordt een vraagstelling pas wanneer ze gerelateerd is aan
een taalkundige theorie. Linguïstisch signifikant computergebruik is
alleen dan aan de orde wanneer de electronische rekenmachine een rol
vervult in het ontwikkelen of testen van een linguïstisch signifikante
theorie. De vraag naar de aard van de CL spitst zich daarom aldus toe:
van welke aard moet enige (exacte) vraagstelling zijn om van linguïstiek
te kunnen spreken en bijgevolg, bij gebruikmaking van een computer
voor de beantwoording van die vraagstelling, van CL? Mijn stellingname
in deze bijdrage houdt de mening is dat de linguïstiek die door de
computerlinguïst wordt beoefend zich bezighoudt met formele theorieën
over natuurlijke taal en zich richt op het ontwikkelen en testen van
zulke theorieën door middel van electronische rekenmachines. Het is in
de tijd waarin wij leven daarbij wel waarschijnlijk maar niet noodzakelijk
dat de gehanteerde formele theorie verwantschap zal vertonen met de
theorieën uit de scholen van Chomsky of Montague, of mogelijk
vergelijkbare andere, die een stempel drukken op het hedendaagse onderzoek.
Mijn stellingname sluit niet in dat de CL zich noodzakelijk
bezighoudt met de beschrijving van zinnen, zoals binnen de TG en binnen
de Montague-grammatica het geval is. Geformaliseerde theorieën
over teksten en dialogen, eventueel zich bewegend op het terrein van
de pragmatiek, behoren zeker ook tot de CL zodra ze op computers
getest gaan worden.
Deze wat polemiserende afbakening van het vakgebied lijkt noodzakelijk
in de omstandigheden waarin wij ons bevinden, te weten de ontluikende
lente van het computertijdperk. In de nabije toekomst zullen er
nauwelijks terreinen van wetenchappelijk onderzoek zijn waar de toepassing
van de computer niet om zich heen zal grijpen. De daarmee gepaard
gaande euforie brengt vaak de mening mee dat er een heel specifieke
variant van de beoefende wetenschap ontstaan is. Dat is meestal een
misvatting. Ook m.b.t. de zgn.corpus-linguïstiek mag deze problematiek
gesignaleerd worden. Corpus-linguïstiek is de taalkunde die bij
haar onderzoek naar de kenmerken van een natuurlijke taal gebruik
maakt van grote reeksen geobserveerde zinnen. Een corpus is een
bestand met zinnen van een bepaalde natuurlijke taal, verkregen op een
zodanige manier dat representativiteit voor een bepaalde populatie
gegarandeerd is. Corpuslinguïsten profileren zich graag als empirische
taalkundigen: zij gaan voor het beoordelen van een ontworpen grammaticale
theorie niet af op onreproduceerbare en onfalsificeerbare
intuities van onderzoekers maar van objectieve, voor iedereen controleerbare
observaties. Zij confronteren hun theorie met een corpus en
zien dan of ze in staat is alle zinnen die daarin voorkomen te
verklaren. Het zijn dus niet intuities die verantwoord worden maar een verzameling
geobserveerde verschijnselen. Aan de linguïstische intuities van de
onderzoeker wordt bij het ontwerpen van de theorie slechts een
heuristische rol toegekend.
Onder deze interpretatie is corpuslinguïstiek natuurlijk linguïstiek en
dus, indien uitgevoerd met een computer, CL. Het theoretische oogmerk
is beslissend. Wanneer het geautomatiseerde corpus echter gebruikt
wordt met het doel om relatieve frekwenties van bepaalde taalkundige
figuren te bestuderen, bv. met het oog op de ontwikkeling van
adekwate onderwijsinstrumenten, kan niet van CL gesproken worden. De
vraagstelling immers is dan niet linguïstisch omdat geen linguïstische
theorie ter toetsing staat.
Zijdelings mag worden opgemerkt dat Corpuslinguïsten moeilijk staande
zullen kunnen houden dat het corpus hun hoofdevidentie is en aan de
rol van de intuitie slechts een heuristische functie toekomt. Dat kan gemakkelijk
blijken uit de veronderstelde reactie van de onderzoeker
tegenover een 'fout' in zijn corpus: het is onvoorstelbaar dat hij zijn
model contra-intuitieve eigenchappen zal geven om de objectieve
observatie te honoreren.
2. Waarom Computerlinguïstiek?
Waarom echter CL temidden van linguïstiek zonder meer? Wordt de
linguïstiek niet op respectable manier beoefend zonder machine? Waarom
moet er getest worden met behulp van electronische apparatuur?
Alleen maar omdat het toevallig kan? Toch niet omwille van de status van
de beoefenaars die daarmee onderscheiden zijn van 'gewone' linguïsten?
Het komt wel voor dat wetenschappers over wat extra crediet beschikken
bij hun lezers omdat ze zich van zo iets ingewikkelds als een
computer bedienen, maar gelukkig wordt dat al minder. Toch is het
maatschappelijk gesproken niet zonder belang ontzag en huiver voor dit
toppunt van technisch vernuft en kunnen met kracht te bestrijden. Niet
vanzelfsprekend CL dus omdat het om een computer gaat, laat staan een
prestige-voorsprong voor de gebruikers.
Waarom CL? De vraag mag niet terzijde gelaten worden, hoewel het
gevaar bestaat dat in deze samenhang herhaald zal worden wat ik bij een eerdere
gelegenheid over de zaak in het midden heb gebracht (Van Bakel, 1981).
Het voornaamste doel van de CL is in het algemeen bij te dragen aan
automatisering en geautomatiseerde ondersteuning van menselijke communicatie.
Automatisering van menselijke communicatie houdt in dat men
in situaties waar zulks wenselijk is bepaalde functies in het menselijk
communicatieproces laat overnemen door de machine. Daarbij zijn
toepassingen denkbaar waarbij machinale 'spraak' wordt gegenereerd maar
ook andere waarbij de zinnen in geschreven (getypte e.d.) vorm worden
uitgevoerd. Wat het eerste aangaat kan gedacht worden aan automatische
generering van 'gesproken' zinnen als boodschappen aan
mensen die vanwege de situatie waarin ze zich bevinden het best met
een geluidssignaal kunnen worden benaderd. Men denke aan berichten
op een perron, berichten over verkeerssituaties via de radio e.d. Een
andere toepassing is het bouwen van systemen die in staat zijn door
mensen gesproken zinnen te begrijpen en dienovereenkomstig te
handelen. Men denke aan automaten die mondelinge boodschappen kunnen
verstaan. Toepassingen waarbij een automaat wordt gebruikt die in
staat is vragen in natuurlijke taal te verstaan welke worden ingetoetst,
zullen vaak betrekking hebben op grote dataverzamelingen waaruit
informatie wordt opgevraagd (vraag-antwoord-systemen). Bij iedere
toepassing van de CL komt syntactische analysering en semantische
interpretatie van natuurlijke zinnen aan de orde.
De linguïstiek is binnen haar huidige traditie geen toepassingsgerichte
wetenschap. Het lijkt er zelfs op dat ze, door de traumatiserende
ervaringen met het automatisch-vertaalprogramma uit de jaren 1950-1966
(vgl. Brandt Corstius 1978, 20-24), eerder afwijzend staat tegenover
toepassing op rekenmachines. Chomsky, hoewel onder informatici met
evenveel eerbied geciteerd als onder taalkundigen, heeft de gedachte
dat de formalisering van de taalwetenschap in verband gebracht zou
moeten worden met de ontwikkeling van de computer-technologie ver
van zich afgeworpen (bv. Chomsky (1966,9)). Met iets teveel nadruk
misschien om niet een beetje argwaan te wekken. Chomsky predikt een
mentalistisch onderzoekprogramma, gemotiveerd door een beoogd
ontraadselen van de geheimen van de menselijke geest, en allerminst met
het oog op een instrument in handen van ingenieurs.
Men kan de doelstellingen van de Chomskyaanse taalwetenschap respecteren
en toch in één adem vaststellen dat de toepassing misschien niet
het oogmerk was, maar dan toch in elk geval wel de schitterende mogelijkheid.
Immers, de taalkunde is door haar formalisering en axiomatisering
opgenomen in de reeks van exacte, toepasbare kennis leverende
wetenschappen en, hoe men daar ook over denkt, zij zal daardoor
toegepast worden voor doeleinden waarvoor ze geschikt lijkt. De
CL doet toepassingsgericht onderzoek dat daarnaar voert. Zij onderscheidt
zich daarbij van zuiver instrumentalistische ondernemingen
doordat zij een belangrijk kenmerk van het mentalistische onderzoekprogramma
bewaart: theoretisch linguïstische motivatie en daarmee het
aestheticum der maximale generalisatie. In het laatste is, zij het in
enigszins gewijzigde verpakking, de trouw aan de intuities van de taalgebruiker
(de linguïst) behouden.
Hoe kan de formele linguïstiek zoals die sinds Chomsky's Aspects
bekend is toegepast worden? Voor de beantwoording van die vraag moeten
we bezien op welke manieren formele theorieën over natuurlijke taal op
een machine kunnen worden nagebootst op zodanige wijze dat er nuttig
gebruik van gemaakt kan worden. Dat gebeurt in de volgende paragrafen.
3. Synthese
Zoals de formele linguïstiek voor een belangrijk deel bestaat in het
definiëren van een grammatica die alle zinnen van een natuurlijke taal
genereert en geen andere dan deze, zo kan de CL zich richten op het
simuleren en testen van zulk een model op een electronische rekenmachine.
Dat karwei is echter zonder bepaalde beperkingen niet uitvoerbaar.
De bedoeling van het ontwerpen van een generatieve grammatica
van een natuurlijke taal moet zijn een definitie te geven van
de oneindige verzameling zinnen die de taal vormt. Het testen van zo'n
grammatica moet inhouden: nagaan of de gedefinieerde verzameling inderdaad
de verzameling is van de zinnen van de beschreven taal. Alleen
al de daarvoor benodigde oneindige hoeveelheid tijd is een beletsel
voor de verwezenlijking van dat doel. Wat kan de zin zijn van een
genererende grammatica? We moeten in dit verband niet al te gemakkelijk
een vergelijking maken met het onderzoek binnen de TG. Het
oogmerk van de linguïstiek binnen de TG is een model te ontwerpen van
wezenlijke kenmerken van het menselijke taalvermogen en zo inzicht te
krijgen in de structuur van de taal. De bedoeling is geenszins om een
gedetailleerde grammatica te ontwikkelen en die te testen. De individuele
door de grammatica gedefinieerde zinnen zijn, na voltooiing van de theorie,
oninteressant geworden. Het model dient om een theoretisch
inzicht exact te maken en geenszins om formeel getest te worden. Voor de
op nuttig gebruik gerichte CL is testen echter wezenlijk. Als dat
onmogelijk is heeft zij niets meer op te merken.
Is overigens iedere simulering en test van een genererend model uitgesloten?
Het antwoord is nee. We kunnen immers beperkingen invoeren
van a) probabilistische en b) semantische aard. Een probabilistische
beperking bij een testprocedure bestaat in het laten sturen van het
genereringsproces door een toevalsfactor welke op ieder moment dat een
keuze gemaakt moet worden beslist hoe er vervolgd moet worden. Wanneer
in een NP wel of niet een voorbepaling in de vorm van een adjectiefsgroep
kan optreden, beslist een eventueel gewogen loting,
afhankelijk van de realiseringskans die in de grammatica meegedefinieerd is,
over ja of nee. In deze vorm blijft de testprocedure even oneindig als
zonder probabilistiek, maar het voordeel is dat de zinnen die in de grammatica
gedefinieerd zijn niet in dezelfde volgorde als waarin ze
gedefinieerd zijn worden opgesomd. Wanneer daarbij de kansfactoren
worden afgestemd op de eigenschappen van een bepaalde stilistisch
gekenmerkte deelverzameling van de beschreven taal, brengt de automaat
op een onvoorspelbare manier zinnen voort die een zekere toetsing van
het model nl. als theorie over een stijl mogelijk maken. Ook dan blijft
echter de methodologische functie van de toetsing problematisch.
Een andere mogelijke beperking op een genereringsproces is van
semantische aard. Men kan zich deze voorstellen als de formulering van
een of andere 'inhoud' die in de te genereren zin zou moeten worden uitgedrukt.
Zulk een procedure lijkt een aantrekkelijke mogelijkheid te
bieden voor de evaluering van een ontwikkelde grammatica. Jammer
alleen dat ze de vraag impliceert naar een grammatica die 'inhouden'
produceert, een genererende grammatica dus waarin oneindig veel
inhouden zouden worden opgesomd die men op een of andere wijze zou moeten
selecteren om ze aan te bieden als stimulus voor de grammatica die
er zinnen van zou maken. De opmerkzame lezer ziet dat het probleem dat
ons bezighoudt alleen maar verplaatst is: we komen voor precies dezelfde
vraag staan als die we bezig waren te beantwoorden.
Samenvattend: een generatieve grammatica van een natuurlijke taal laat
zich niet op acceptabele wijze testen op zijn genererende vermogen. De
hypothese dat hij alle zinnen van de beschreven taal produceert laat
zich niet falsificeren en ook bij de test of hij geen andere voortbrengt
zouden we wel eens oneindig lang kunnen wachten tot er een van te
voorschijn komt.
4. Analyse
Onder 'analyse' versta ik 'herkenning' plus 'ontleding'. Een grammatica
die herkent is in staat van een bepaalde zin te zeggen of hij wel of niet
behoort tot de taal die in de grammatica gedefinieerd is; een grammatica
die ontleedt verbindt aan de herkende zin bovendien gegevens over de
wijze waarop die door de grammatica gedefinieerd is. Dit laatste houdt
in dat de beschouwde zin door de grammatica wordt voorzien van een
syntactische structuur.
Voor de toepassing van de taalwetenschap bij automatisering en
automatische ondersteuning van menselijke communicatie is nodig dat de
aanwezige linguïstische kennis operationeel wordt gemaakt.
De automatiseerbaarheid van de grammatica is daarvoor een voorwaarde. Zoals
de ervaring uitwijst doen zich echter problemen van kwantitatieve en
ook van kwalitatieve aard voor. Syntactische analysering is in het ideale
geval de omkering van de generering, maar dat kan slechts bereikt worden
door beperkingen op te leggen aan de generatieve regels en/of hun
toepassing. De regels van een generatieve grammatica zijn nl. niet
noodzakelijk omkeerbaar. Zelfs als dat wel het geval is, hoeft er geen
effectieve analyseprocedure te bestaan, d.w.z. een procedure die in
een eindig aantal stappen leidt tot de door de generatieve regels gedefinieerde
syntactische structuur. Dit is het in de literatuur bekende probleem
van de beslisbaarheid. Om een grammatica te kunnen testen op
zijn analyserende vermogen zal vereist zijn dat we te maken hebben met
een beslisbare taal: een willekeurige zin moet binnen een eindige
hoeveelheid tijd gegenereerd en, bij analyserend gebruik van de grammatica,
herkend kunnen worden. Ik wil op de kwestie van de
beslisbaarheid niet dieper ingaan, omdat we daarmee terecht zouden komen
op het specialistische terrein van de mathematische linguïstiek of
algebraïsche taalkunde waarvan de relatie tot de CL hierboven bondig
werd gekarakteriseerd. Wel wijs ik erop, dat een transformationele taal
in het algemeen onbeslisbaar is (vgl. Brandt Corstius 1974, 124-126).
Laten we ervan uitgaan, dat de keuze die ons bezighoudt gaat tussen
een beslisbare grammatica genererend gebruikt en eenzelfde grammatica
analyserend gebruikt. Zo onaantrekkelijk als de zaken eruit zagen bij
het testen van het genererende vermogen van een grammatica, zo
aantrekkelijk ziet het eruit bij het analyserende vermogen. Wat is immers
vanzelfsprekender dan aan de hand van een reeks proefzinnen, eventueel
met veel arglistigheid gekozen om de ontwerper van de grammatica te
verrassen, het bereik van de ontworpen theorie te testen? Bij het
genereren werd het bewijs gezocht dat de grammatica alle zinnen van de
taal definieerde en geen andere. De proef op de som bleek echter niet
genomen te kunnen worden. Bij een test van het analyserende vermogen
wordt het bewijs van falen geleverd door de eerste de beste zin waarop
de grammatica struikelt. Dat kan bij een goede grammatica misschien ook
wel eens veel inspanning vergen, maar het is mogelijk zelf de zin
heel kritisch uit te selecteren of te bouwen. (Vgl. Brandt Corstius 1978,
172-180).
Samenvattend: van een generatieve grammatica kan, indien die
beslisbaar is, het analyserend vermogen op een heel aanvaardbare wijze
worden getest. Dat betekent dat het misschien mogelijk zal blijken een
systeem te ontwikkelen dat in staat is van een aangeboden zin een
uitputtende analyse te geven die gebruikt kan worden bij geautomatiseerde
menselijke communicatie en automatische informatie-ontsluiting. Althans,
als het mogelijk is de betekenis van een zin exact vast te stellen en
expliciet vast te leggen.
5. Syntaxis en Semantiek
Waarvoor dient syntactische annalysering van een aangetroffen zin? ALs
de CL pretendeert een toepassingsgerichte discipline te zijn kan de
vraag niet ongepast zijn. Hoewel het onmogelijk is om buiten de betekenis
om iets zinvols te zeggen over een zin van een natuurlijke taal is het
gebruikelijk om onderscheid te maken tussen 'syntaxis' en 'semantiek'.
Laten we een ogenblik de aandacht richten op die beide zaken in hun
problematische relatie.
De taalkunde streeft naar het verantwoorden van de relatie tussen
vorm- en betekenisverschjnselen. Zij is erop gericht te verklaren dat
de betekenis van een bepaalde zin is wat die is. Er worden twee
grootheden geïntroduceerd: de zin zoals die kan worden waargenomen
en datgene wat die zin betekent. Bij een bepaalde zin van een taal hoort
een bepaalde betekenis en bij een bepaalde betekenis hoort een bepaalde
zin. Zin en betekenis zijn elementen uit verschillende verzamelingen.
De grammatica is specifiek de verklaring van de relatie tussen
elementen van de ene verzameling en elementen van de andere verzameling.
In dit verband rijzen de vragen: in wat voor termen is de vorm van de
zin gegeven; in wat voor termen is de betekenis van de zin gegeven;
zijn de zinnen gegeven los van de betekenisen en de betekenissen los
van de zinnen, zodat de grammatica er alleen maar de relaties tussen
moet leggen? Zoals we zullen zien moeten de antwoorden luiden: de vorm
van de zin is gegeven in termen van betekenis; de betekenis is gegeven
in termen van de vorm; vorm en betekenis zijn niet los van elkaar
gegeven maar worden door de linguïstiek uit elkaar ontward. Dit komt erop
neer dat de syntaxis uit de betekenis moet worden afgeleid en de
betekenis uit de syntaxis.
De methodologie van de linguïstiek formuleert het zo dat de ontworpen
syntactische structuren van de zinnen in overeenstemming moeten zijn
met intuities die de 'native speaker' over de zinnen (en dus over hun
structuur) heeft. De grondlaag van de syntaxis , de segmentering en
hiërarchische structurering van de zin, komt aldus op subjectieve wijze
en als onfalsificeerbare grootheid binnen. De semantiek wordt vervolgens
door een reeks interpreterende regels aan de elementen van de syntactische
structuur gekoppeld. Het Montague-beginsel dat aan iedere
syntactische regel één en niet meer dan één betekenis-regel gekoppeld
moet zijn lijkt noodzakelijk, ook eventueel binnen het model van de EST
(Extended Standard Theory). Dat betekent niet meer of niet minder dan dat de syntaxis
semantisch gemotiveerd moet zijn. Ofwel: de syntaxis is qua
orientatie semantiek.
Bij het testen van een semantisch-syntactische theorie over zinnen van
een natuurlijke taal zal van de op de computer gesimuleerde theorie
geëist moeten worden dat die aan de zin de juiste syntactische structuur toekent
en vervolgens de daarmee overeenkomende betekenis uitdrukt.
De wijze waarop het één zowel als het ander wordt vastgelegd is een
bijkomstigheid. De syntactische structuur kan worden afgebeeld in een
boomstructuur of in een haakjesschema. Eventueel zou het zelfs nog
heel anders kunnen, bv. verbaal. Ook de afbeelding van de semantiek
is naar de vorm vrij te kiezen. Alleen zal de notatie expliciet en vrij van
ambiguiteiten moeten zijn. Het liefst zal men daarom kiezen voor een
formele structuur, die door bepaalde semantische interpretatieregels
gerelateerd is aan de syntactische structuur. Binnen de TG gaan de
gedachten dan naar de logical form zoals Chomsky (1981) die geeft, bij de
Montague-grammatica naar een logische expressie volgens een of andere
lambda-calculus (Montague, 1973).
Wat hierbij in het oog springt is dat op deze wijze semantische
interpretatie, die het eindpunt zou moeten zijn van de grammaticale
bewerking van de zin, weer een ingewikkelde structuur is welke op haar
beurt om semantische interpretatie vraagt. Ja, door eenvoudige
extrapolatie is in te zien, dat we nooit verder zullen komen dan de
zoveelste formele structuur welke om de zoveelste semantische
interpretatie zal vragen. En, terugkijkend in die lange reeks, vraagt men
zich verbijsterd af welke structuur nu ook weer de laatste syntactische was
en waar dus het semantische proces begon: de semantiek is
syntactisch van origine.
(...)
We herhalen de vraag van het begin van deze paragraaf: waarvoor dient
syntactische analysering van een aangetroffen zin? Het antwoord kan nu luiden:
het is een stap in de semantische interpretatie. Zoals taal dient
voor betekenis dient syntaxis voor semantiek. Het is duidelijk dat er
een volkomen parallellisme noodzakelijk is tussen beide, principieel
onderscheidbare procedures. Als de syntaxis niet voldoet aan de eisen die we aan
de semantiek stellen, zal hij op semantische gronden verworpen moeten worden.
Semantiek die niet aanknoopt bij syntactische structuren zal niet
bestaan, want zij is model-immanent of zij is niet.
Op toepassing van linguïstische theorieën gerichte CL zal voor de taak
staan de betekenis van aangetroffen zinnen, aanknopend bij een theorie
over hun syntactische structuur, af te beelden in een andere code waarvan
geëist moet worden dat die praktisch of theoretisch betrekkelijk
aanvaardbaar is. Iedere code die we kiezen, ook de propositie in een logische taal,
zal haar eigen semantiek vergen en dat bedreigt het werk met een eindeloze
recursiviteit. Misschien kunnen we die herhaling breken door de semantische
interpretatie te doen uitmonden in zinnen van een andere natuurlijke taal.
Dan hebben we misschien niet een volkomen eenduidige afbeelding van de betekenis
van een zin maar zeer zeker wel eentje die een acceptabel eindpunt
van automatische analyse kan zijn. Bovendien komt zo een duidelijke toepasbaarheid van CL
in zicht. De stap naar automatisch vertalen lijkt de enige zinvolle mogelijkheid.
6. Automatisch vertalen
Misschien zijn er niet veel wetenschappen, zeker niet als ze zich als
exact beschouwen, waar taboe's een rol spelen, maar de linguïstiek is
er zo een en het taboe is het automatisch vertalen. Men zegt dat het onmogelijk
is. Dat is in zekere zin geruststellend, want meestal is het zo
met een taboe dat het om een of andere reden niet mag.
Hierboven werd al gesuggereerd dat het postulaat van de universele
communiceerbaarheid van menselijke gedachten en de universele
vertaalbaarheid van natuurlijke zinnen noodzakelijk is binnen een
linguïstiek die over menselijke taal wil generaliseren. Omdat het onzinnig
is de linguïstiek te beperken tot de studie van een of andere
natuurlijke taal in het bijzonder, is het onzinnig beide postulaten af te
wijzen. Met betrekking tot iedere natuurlijke taal in het bijzonder richt
syntactisch onderzoek zich op de betekenis-georienteerde vormen van
die taal:
- (1)
-
zin => vorm(zin) => betekenis(vorm(zin))
Omdat de betekenis moet worden vastgelegd in een objectieve code kunnen
we ook zeggen:
- (2)
-
zin => vorm(zin) => (vorm(betekenis(vorm(zin)))
Als we de beschikking zouden hebben over zulke systemen voor
verschillende natuurlijke talen, zou er dan een link gelegd kunnen worden
tussen de overeenkomstige eindtermen, zodat we daarmee het automatisch
vertaalprobleem zouden hebben opgelost? Het is in het voorgaande
gesteld en het wordt hier weer duidelijk dat de syntaxis van een taal een
verzameling stuk voor stuk betekenis-georienteerde regels zal moeten
zijn. Wanneer alle inhouden en dus alle betekenissen universeel
communiceerbaar zijn, betekent dat echter nog niet dat iedere taal
beschikt over dezelfde reeks van regels. Laten we een voorbeeld bezien.
Verschillende talen, o.a. het vroeg-middeleeuwse germaanse dialect
Gotisch, beschikken over de getallen enkelvoud, tweevoud, meervoud.
Daartegenover staan talen als het Nederlands met de onderscheiding
enkelvoud - meervoud.
- (3)
-
IÞ Jesus qaÞ im: "hva wileits taujan mik igqis?"
(Maar Jezus sprak tot hen: "Wat wilt gij beiden te doen ik aan u beiden?")
Maar Jezus sprak tot hen: "Wat wilt gij beiden dat ik u beiden doe?"
(Marcus X, 36).
Uit (3) blijkt dat de betekenissen weliswaar in beide talen zijn weer te
geven maar dat de middelen waarmee het gebeurt niet van hetzelfde type zijn:
in het Gotisch vinden we een bepaalde specifieke morfologische
vorm van het werkwoord (wileits, wilt gij beiden) waarin o.a. de
betekenissen tweede persoon en tweevoud vastliggen; diezelfde betekenissen
worden in het Nederlands uitgedrukt voor de helft door het werkwoord
(het werkwoord is tweede persoon meervoud) en verder door de
subjects-NP gij beiden. Voor het tweevoud ontbreekt in het Nederlands
een specifiek vormkenmerk. Bij het pronomen igqis drukt het Gotisch in
één morfologisch bouwsel uit wat het Nederlands in een complexe NP
u beiden weergeeft. Het zijn dus zeer verschillende vorm-verschijnselen
die dezelfde betekenis vastleggen. We kunnen daarom niet zeggen dat
aan de syntactische regels van een taal in alle talen via een één op
één relatie regels met dezelfde betekenissen beantwoorden. Het is veeleer zo
dat dezelfde betekenissen in verschillende talen over het algemeen met
andere middelen worden uitgedrukt. Als we alle bouw-voorschriften
'syntactisch' willen noemen, hebben we toch met syntactische verschijnselen
op zeer verschillende plaatsen te maken: het lexicale element dat
'willen' betekent draagt, gerealiseerd in de zin, in de ene taal wel en in
de andere taal niet het kenmerk voor tweevoud.
Dit voorbeeld laat ook toe een opmerking te maken over ambiguiteit. De
Nederlandse zin in (3) blijkt nu naar het Gotisch toe niet ambigu te
zijn. Het is echter heel goed denkbaar dat hij zou luiden: Wat wilt gij
dat ik u doen zal?, d.w.z. een vorm zou vertonen die onvoldoende
informatie bevat om uit de Gotische mogelijkheden, meervoud en tweevoud
(en enkelvoud!), een keuze te maken. De Nederlandse zin is
dus kennelijk ambigu en wel in een mate die pas zichtbaar wordt door
vergelijking van de zin met de mogelijke Gotische equivalenten. Vanuit
het Nederlands valt niet te voorzien welke binnen deze taal onbekende
betekeniscategorieën onderscheiden zullen worden in een andere
natuurlijke taal. Als het Nederlands alle inhouden kan bedekken zullen de
betekenissen in andere talen alleen deelverzamelingen, doorsnedes en
verenigingen kunnen zijn van de Nederlandse betekenissen. Daarmee
wordt de principiële constatering gedaan dat ambiguiteit een relatieve
aangelegenheid is: het hangt af van de betekeniscategorieën van de
doeltaal bij een vertaalproces, of een zin wel of niet, en zo ja hoe
veelvoudig, ambigu is. (vgl. Rolf 1983, 101).
Ook al is het misschien uiteindelijk mogelijk alle betekenisverschijnselen
van een natuurlijke taal vast te leggen in regels zoals gesuggereerd in
(2), dan is daarmee nog niet het automatisch vertalen gerealiseerd;
daarvoor moeten typisch de regels van de ene taal gekoppeld worden
aan de regels van de andere taal. Onderzoek naar automatisch vertalen
is semantisch onderzoek waarin dit beoogd wordt. Het doel is: met
maximaal generaliserende regels uitspraken te doen over de wijze waarop
de betekenissen van taal-t' overeenkomen met de betekenissen van taal-t''.
Dat betekent een theoretisch linguïstische legitimering van het
onderzoek op het gebied van automatisch vertalen. Dit onderzoek zal ook
aandacht moeten hebben voor de principiële vraag die oprijst achter het
zoëven gesignaleerde probleem van de ambiguiteit: wat is een mogelijke
betekeniscategorie in een natuurlijke taal? Die vraag zou beantwoord
moeten zijn voordat gedacht kan worden aan de constructie van één
universele betekenistheorie over natuurlijke talen. Het ligt niet voor de
hand dat in natuurlijke taal ieder denkbaar betekenisonderscheid
feitelijk wordt uitgedrukt. Ondenkbaar is bv. dat ergens naast
enkelvoud en tweevoud ook een 3-, 4- en 5-voud zou bestaan. Lang niet alle
ambiguiteiten ook die bij logische analyse worden gesignaleerd zullen
ooit in een natuurlijke taal over een afzonderlijk uitdrukkingsmiddel
beschikken. Zulke algemene kwesties van betekenis-theoretische aard komen
vanzelfsprekend en noodzakelijk aan de orde bij onderzoek van
automatisch vertalen.
Het taboe in de linguïstiek ten aanzien van automatisch vertalen
kenmerkt zich hierdoor dat alleen in verband daarmee de principiële
mogelijkheid wordt betwijfeld. Laten we vooropstellen dat de vraag of
automatisch vertalen mogelijk is de verkeerde vraag is, tenminste wanneer
ze als eerste geformuleerd wordt. De enige manier waarop een
vraag naar een mogelijkheid binnen een wetenschap aan de orde kan komen
is in de vorm van een onderzoekprogramma dat de hypothese van
de mogelijkheid test. Wie vooraf stelt dat automatische vertaling tot de
onmogelijkheden behoort kan geen waarheid formuleren, eenvoudig omdat
wetenschappelijk gesproken waarheid datgene is wat op zijn best uit
het wetenschappelijk onderzoek tevoorschijn komt. Voorlopig telt zulk
een uitspraak dus niet. Het enige wat telt is de vraag of systematisch
onderzoek naar de mogelijkheid van automatisch vertalen op subjectieve
gronden wenselijk wordt geacht door de instanties die onderzoek
toelaten in de beschaafde wereld. Binnen de wetenschap komt dat neer op:
voorstellen formuleren en discussie voeren over de zinvolheid van
het voorgestelde onderzoek. In die discussie kan de scepsis gelden als
een buiten-wetenschappelijk argument. Dat wil zeggen: als een argument
dat binnen de wetenschap niet telt. (Maar dat haar natuurlijke
wel kan verhinderen.)
Scepsis over automatisch vertalen is ten onzent het duidelijkst geformuleerd
door Brandt Corstius (1978, 20-24). Zijn uiteenzetting laat er niet de minste
twijfel over bestaan hoe de auteur denkt over de onderneming:
het kan niet. Maar men kan ook vragen naar de waarde van de gehanteerde
argumenten, welke afkomstig zijn van Bar-Hillel (1966).
Brandt Corstius: "Zijn argumenten komen er in het kort op neer dat
voor formeel vertalen behalve een woordenboek ook een encyclopedie
nodig is, en wel een encyclopedie waarin alle kennis over de wereld is
te vinden. In de zin Ik kocht een piano en een viool die ik onder de arm
mee naar huis nam moet je bij vertaling in bepaalde talen weten of dat
die op piano en viool, of alleen op viool slaat.
Bij elk substantief moet dus vermeld zijn of het onder-de-arm-mee-naar-huis-draagbaar
is." Tegen dit argument is meer dan één zinvolle opwerping mogelijk.
Ik spreek daarbij natuurlijk niet over automatisch vertalen als commercieel
toepasbare aangelegenheid, want daar houd ik me niet mee bezig.
Theoretisch linguïstisch kan gesteld worden, dat de gesignaleerde moeilijkheid
niet relevant is omdat ze betrekking heeft op de wereld; taalkundig
moet geëist worden dat de semantische interpretatie van de zin aan het
licht brengt dat hij ambigu is. Als in een of andere taal voor beide
lezingen van de voorbeeldzin verschillende vormen vereist worden,
zullen die door de automatische vertaler beide moeten worden opgeleverd.
Van evenveel gewicht misschien is dat de scepsis die uitgesproken
wordt evengoed zou kunnen worden gebruikt om de linguïstiek in het
algemeen vaarwel te zeggen. Dat kan aan de hand van een voorbeeld
worden aangetood. Bezien we de volgende zinnen:
- (4)
-
Heb je die vrouw met dat fototoestel gezien?
Heb je die vrouw met dat fototoestel gefotografeerd?
Heb je die vrouw met dat fototoestel bezeerd?
Voor een correcte analyse van de eerste voorbeeldzin moet de kennis aanwezig zijn
dat men met een fototoestel niet ziet: op grond daarvan
moet met dat fototoestel als een attribuut binnen een NP
geïnterpreteerd worden. Voor de analyse van de tweede zin is de kennis
nodig dat men met een fototoestel fotograferen kan. Dan blijven
overigens toch nog twee interpretaties mogelijk. De derde zin laat zien dat
ook een minder normaal gebruik van een fototoestel tot de kennis moet behoren.
Daardoor wordt het mogelijk met dat fototoestel te interpreteren
als constituent van de zin, hoewel ook nu de interpretatie
als constituent binnen de NP mogelijk is. Dergelijke problemen rijzen voor
een deel ook binnen een genererend model: men zal de eerste voorbeeldzin
met met dat fototoestel als zinsconstituent moeten uitsluiten.
Het is duidelijk dat ook daarvoor uitgebreide kennis over 'de wereld' noodzakelijk
wordt. De overwegingen zullen voor niemand grond leveren om verder
af te zien van automatische analyse van zinnen of van formele linguïstiek
in het algemeen. Men beschouwt de problematiek als van
niet-linguïstische aard. Er lijkt geen reden aanwezig om een andere positie
te kiezen wanneer het gaat om automatisch vertalen, althans zolang dit beschouwd
wordt naar zijn linguïstisch-theoretische aspecten.
Een veel gesignaleerde vraag i.v.m. automatisch vertalen is: moet gestreefd
worden naar een paarsgewijze behandeling van talen waartussen
men automatische vertaling wenst of moet eerder gezocht worden naar
een universele semantische interlingua? De lezer zal begrepen hebben
dat dat laatste het enig acceptabele is voor het bereiken van een maximaal
generaliserende semantische theorie. Omdat de linguïstiek nog zo
jong is, de ervaring met betekenisproblemen zo klein en de problematiek
zo groot, lijkt het echter voor de hand te liggen om bescheiden te
beginnen. Theoretisch semantisch onderzoek kan al gewichtige
resultaten hebben als het streeft naar generaliseringen over een tweetal
talen die niet al te dicht bij elkaar staan.
7. Slot
Er zijn nog een aantal andere zaken die de aandacht zouden kunnen
krijgen in een opstel over de methodologie van de CL. Met name zou het
denkbaar zijn de discipline nader te motiveren en te karakteriseren door
concrete toepassingen te beschouwen (zie bv. Landsbergen (1977) en Scha (1983)
over vraag-antwoord-systemen). Maar ik geloof dat dat niet
nodig is. Van belang is te signaleren dat CL enerzijds toepassingsgericht
is, anderzijds theoretisch gemotiveerd. De linguïstiek is nog niet
zover gevorderd dat al over toepassingen op grote schaal gedacht kan
worden. Zolang een automaat een hoest nog kan verstaan als 'Saturday'
past enige bescheidenheid.
Misschien verbaast het sommige lezers ook dat over de computer en de
techniek van het vak niet gesproken is. Maar sinds men in opstellen
over computergebruik in de taalwetenschap de lezer een op ware grootte
afgebeelde ponskaart liet zien is er nogal wat veranderd. De computer
begint een gewoon instrument te worden, waarover evenmin geheimzinnig
gedaan hoeft te worden als over een koffiezetapparaat of een
televisie-toestel. Tegenwoordig weet ieder dat, zoals de schrik voor de
automobiel, ook die voor de computer zal slijten. CL is linguïstiek.
De machine en het programmeren zijn zaken van ander niveau.
Jan van Bakel, 1983
Noot
* Dit opstel werd gepubliceerd in: Gramma 7 (1983), pag. 100-113.
Ik dank Dr. P.A. Coppen voor zijn waardevolle, kritische
opmerkingen bij een vroegere versie van dit opstel.
Literatuur
- Bakel, J. van (1981), Linguistic Engineering, Verslagen Computerlinguïstiek 2, 138-145.
- Chomsky, N. (1966), Topics in the theory of generative grammar,
Janua Linguarum, Mouton & Co., The Hague - Paris.
- Chomsky, N. (1981), Lectures on government and binding, Foris Publications
Dordrecht - Cinnaminson.
- Bar-Hillel, Y. (1966), Four lectures on algebraic linguistics and machine translation, In:
A. Ghizetti (ed), Automatic translation of language; Papers presented at NATO Summer School,
Venice, july 1962. Oxford.
- Brandt Corstius, H. (1974), Algebraïsche Taalkunde, Utrecht.
- Brandt Corstius, H. (1978), Computer-Taalkunde, Muiderberg.
- Landsbergen, S.P.J. (1977), Wat is Computerlinguïstiek? In: B.T. Tervoort (red),
Wetenschap & Taal, Muiderberg.
- Montague, R (1973), The proper treatment of quantification in ordinary English. In: J. Hintikka e.a.
(eds), Approaches to Natural Language, Dordrecht.
- Rolf, P.C. (1983), Vertalen van getalsnamen, Verslagen Computerlinhuïstiek 3, 97-113.
- Scha, Remko J.H. (1983), Logical foundations for question answering. Diss. Groningen;
Philips Research Laboratories, Eindhoven.
Terug naar boven