Linguistic Engineering
Terug naar hoofdmenu
|
Deze tekst werd uitgesproken bij de ingebruikneming
van de terminalkamer tevens praktikumlokaal
van de Afdeling Computerlinguïstiek
van de Faculteit der Letteren
KU Nijmegen op 28 september 1979.
|
De vraag naar object, doel en methode van de computerlinguïstiek (CL)
kan niet beantwoord worden zonder een voorafgaand antwoord op de vraag
naar object, doel en methode van de linguïstiek tout court.
En zoals de laatste vraag meerdere antwoorden kent,
alle enigszins verschillend al naargelang aard en
eigenaardigheid van degene die het antwoord geeft, zo
ook de eerste. Bij de gratie van die variatie bestaat
de discussie. Als er een absolute waarheid was zou de
discussie heel wat minder interessant zijn. De
waarheid, zou men kunnen zeggen, is dat zo klein
mogelijke gebied waarbinnen het nog interessant is de
eigen kijk op een of andere werkelijkheid te
verdedigen. Is dat gebied te groot, dan verliest de
discussie haar dwingendheid, zoals het schaakspel
zonder vlag. Is het gebied te klein, dan verdraagt het geen
these en antithese. Er blijft slechts één dogma over.
Als ik over de CL een paar woorden wil zeggen,
gebeurt dat - zoals U wellicht al gemerkt hebt - in
een essayistische toonzetting. Vergeef me. Ik hoop dat
er toch iets kan worden gedacht bij dit toespraakje
dat de moeite waard is. De Afdeling Computerlinguïstiek
laat U vandaag iets zien van wat door de inspanningen
van de faculteit kon worden opgebouwd. Het ziet er allemaal erg fraai uit,
maar U zult het snel met me eens zijn als ik suggereer dat
het maar glas en schittering is. De edelste
schaakstukken laten de meest domme zetten toe. Laten we
dus onze aandacht liever richten op wat hier moet
gebeuren: onderwijs en onderzoek op het terrein van de
CL. En ik beperk me tot het onderzoek, omdat het
onderwijs geen andere doelstelling heeft dan daartoe te voeren.
Voor het antwoord op de vraag naar object, doel en methode
van de CL dus eerst dezelfde vraag m.b.t. de linguïstiek
tout court.
De taalwetenschap is altijd een menswetenschap
geweest. Wat ze ook zou kunnen zijn: het zoeken naar de
algebra m.b.t. bepaalde symbolenreeksen - de zinnen van
een natuurlijke taal - wordt algemeen gewaardeerd
als een tamelijk oninteressante aangelegenheid. Als
we in staat zouden zijn de algebra te karakteriseren die de
juiste definitie (voorspelling) oplevert van een
grote verzameling zinnen, - oneindig groot als U wilt -
zou daaraan ieder belang ontbreken als die beschrijving
niet zou pretenderen iets uit te spreken over de menselijke
taligheid die er de achtergrond en de ondergrond van is.
Taalwetenschap die deze pretentie mist, blijkt altijd na enige tijd
een frustratie. Menigeen van U zal dat zelf meermalen
ervaren hebben. Zo is er heel wat structuralistisch werk
geleverd dat geen andere sensatie nalaat dan de
ontnuchterende vraag: en wat dan nog? Wat zijn we nu verder gekomen?
Waar gaat het eigenlijk om? Maar daar
staat wel tegenover, dat alle spreken over de
menselijke taal ijdel is, zolang er geen
gedetailleerde analyse van zinnen - liefst meer dan
één - mee gepaard gaat. En die analyse voert
altijd weg uit het gebied met duidelijke menselijke referentiepunten.
De beide aspecten, vooreerst dat van de meest
pretentieuze benadering van de menselijke taligheid
als universele eigenschap van de menselijke soort en
vervolgens dat van de uiterst gedetailleerde en
maximaal generaliserende beschrijving van de
structuren van zinnen, zijn verenigd binnen de
transformationeel generatieve taalwetenschap (TGG),
d.w.z. die taalwetenschap die de menselijke taligheid
wil verklaren door de universele vorm daarvan
expliciet te maken in een formele grammatica van een bepaald type.
En binnen die TGG zien we dan de slinger heen en weer gaan
die bij iedere beweging naar de ene kant alles
frustreert wat aan de andere kant zo belangrijk is.
Ik geloof dat ook veel onderwijs op het terrein van de
linguïstiek daarvan de nadelige gevolgen ondervindt.
Het blijkt moeilijk de motivatie voor de taalwetenschap in stand te houden
of tot stand te brengen als formele zaken veel aandacht krijgen,
maar aan de andere kant wordt het onderwijs snel
inadekwaat als het formalisme te weinig nadruk krijgt.
Praten over onze intuities m.b.t. taal zegt helaas
absoluut niets over TGG.
De vraag waarom de taalwetenschap nu feitelijk
zoekt naar formalisering heeft niet alleen eerstejaars
studenten beziggehouden maar ook geavanceerde
theoretici. Misschien zelfs de laatsten meer dan de
eersten, al geven de eersten er wat makkelijker
uitdrukking aan. Het formalisme zou ergens over moeten gaan dat ook op een andere
manier ter sprake kan komen. Het formalisme kan
moeilijk, ondanks zijn zeer specifieke vorm, iets specifieks opleveren.
Waartoe dan dat formalisme? Er zijn al auteurs geweest die zozeer
door zwakheid in de knieholten zijn aangetast dat ze durfden beweren dat
het formalisme alleen maar een andere notatie was voor
wat de taalwetenschap eigenlijk altijd had geweten.
Een ernstige vergissing natuurlijk, al was het alleen
omdat het belang van Chomsky er op beledigende
wijze in wordt gebagatelliseerd. Een volgende en veel
ernstiger oorzaak van mogelijk enige scepsis t.a.v.
formaliseringen is het feit dat het aantal ontwikkelde
formele modellen geleidelijk onrustbarend groot wordt.
Doordat het bij gebrek aan wiskundige bezinning vaak
geheel onduidelijk is of een bepaald nieuw model iets
anders is dan een notationele variant van een ander,
groeit het aantal descriptieve alternatieven
schrikbarend. Misschien is dat ook wel een van de
oorzaken van enig defaitisme dat ik in het linguïstische
kamp meen te bespeuren. Uit defaitisme vlucht men
naar alle kanten weg: naar de logica, de pragmatiek, de
sociolinguïstiek. Juist zoals sommige
schakers overgaan op het go-spel. Deze vergelijking zelf
doet al wel vermoeden dat ik de vlucht niet toejuich.
Ik meen voldoende grond te hebben voor de
overtuiging dat de formele descriptieve taalwetenschap
met kracht moet voortgaan met haar werk en ik zal U zeggen waarom.
Het is een van de meest kenmerkende noodlottigheden van onze
beschaving dat zij alle weten in kunnen en alle kunnen in doen vertaalt.
De weg van Plato naar Archimedes. Als ik dat een noodlottigheid noem
mag men daar evengoed kritiek als berustende instemming
in beluisteren. Ik kan mij voorstellen, bv. omdat ook in mijzelf
een slinger beweegt, dat het schouwende denken hoger gewaardeerd
moet worden dan het actieve, misschien zelfs activistische,
omgaan met de dingen. De wijsgeer zal het laatste zoal niet afkeuren
dan toch zeker altijd voorbarig achten. Maar daartegenover staat
dat het handelen de enige manier is waarop wij kunnen leven.
Het is inderdaad letterlijk een noodlot, een fataliteit. En het is ook wijs
dat niet te miskennen. Als de wetenschap dus
technische wegen kiest, haar toepasbaarheid als oriëntatie neemt,
kan ik haar zeer wel met instemming volgen. Daarom vragen we terecht:
wat is het nut, het praktische nut van de taalwetenschap?
Wat leert ons de taalwetenschap te doen wat we zonder haar niet
zouden kunnen? Wat is haar toepassing?
De school van Chomsky heeft nooit een geheim gemaakt
van haar negatieve houding t.o.v. de toegepaste formele taalwetenschap
die zich een paar decennia geleden heeft sterk gemaakt voor de
vertaalmachine. Chomsky zorgde voor een alternatief mentalistisch
onderzoekskader, waarmee hij misschien niet bedoelde
de grote sommen geld die eerder in de vertaalput waren gezogen voor de
taalwetenschap te behouden, al was dat wel het feitelijke gevolg.
En een tweede gevolg, wat hij ook niet beoogde maar even zeker
wel mogelijk maakte, was de taalwetenschap als techniek.
De vraag naar het waarom van het formaliseren is juist zo klemmend,
omdat de technische mogelijkheden die erdoor ontstaan zich als zo
vanzelfsprekend aandienen dat de school die het formalisme invoert
moeite heeft met overtuiging te ontkennen dat ze dat bedoeld heeft.
Dat ik zoek naar mogelijke technische toepassingen van de geformaliseerde
taalwetenschap komt voort uit twijfel over een mogelijk ander nut van dat vak.
Het nut van de formalisering in de linguïstiek kan niet liggen in het
veroveren van inzicht in de structuur van de menselijke geest. Een formele
grammatica van enigszins acceptabele complexiteit, zij het ook minder machtig
dan transformationeel, is vooreerst al gauw zo volkomen onoverzichtelijk
in zijn structuur en in zijn implicaties, dat het geheel onwaarschijnlijk is
dat bij het kijken naar een eenmaal gevonden geheel adekwate grammatica
ons inzicht in de structuur van de menselijke geest zal oplichten.
Vervolgens is het voorlopig zo, dat er geen enkel uitzicht is
op een adekwaat formeel model dat niet tevens 't allermachtigste is
wat denkbaar is. Zolang dat niet verandert is het antwoord op de vraag naar de
beperking op menselijke talen niets anders dan: die is er niet.
Zodat er niets verklaard is. En tenslotte natuurlijk omdat inzicht
als zodanig nauwelijks als nut gezien kan worden. Inzicht in pure vorm
is belangeloos; begrijpen is een nutteloze wijze van bestaan.
Bij dat alles komt nog dat de wetenschap nimmer meer antwoorden dan
nieuwe vragen gegenereerd heeft; de duisternis die ze voortbrengt neemt
exponentieel toe met het licht dat ze verspreidt, zozeer dat men moeilijk
kan staande houden dat de wetenschap zou streven naar een reductie
van het aantal te beantwoorden vragen. En dat komt dicht bij het
verlaten van de uiteindelijke verklaring als doel van de wetenschap.
Het beoogde inzicht is dus in alle opzichten een illusie, tenzij
men inzicht definieert als: een werkbaar mathematisch model. En dat is
dus heel gebruikelijk.
De formele linguïstiek - zo wil ik poneren - heeft tot doel een
werkbaar mathematisch model te ontwikkelen van de menselijke competentie m.b.t.
enige natuurlijke taal, meer in het algemeen idealiter m.b.t. taal als zodanig.
Werkbaar is een mathematisch model alleen als het in gebruik kan worden getoetst
en dat laatse is alleen mogelijk als het kan vertalen.
Vertalen is de enig denkbare toets op de validiteit van een
linguïstisch model. De formele linguïstiek heeft daarom ten doel
in praktische zin op wetenschappelijke wijze verband te leggen tussen
één individuele zin van een bepaalde taal en
één individuele zin van een andere taal. Dat verband kan uitgedrukt worden
in de formule:
zin-A => zin-a
waarin => betekent 'betekent'. Als het gaat om twee formele talen
die men zelf introduceert, wordt het begrip 'betekent' onafhankelijk en op
axiomatische wijze ingevoerd. Als het gaat om twee natuurlijke talen,
kan men het zodanig invoeren dat het gelijk opgaat met een of andere experimenteel meetbare
grootheid van andere orde. Op dit detail wil ik overigens nu niet ingaan.
De linguïstiek uit de school van Chomsky streeft naar het vastleggen
van dergelijke relaties tussen een natuurlijke taal en een kunsttaal, te weten
die welke gebruikt wordt voor de notaties van de semantische interpretatie,
en dus indirect ook tussen twee natuurlijke talen. Terwijl in de linguïstiek
de zaak overwegend beschouwd is als van secundair gewicht, bestaat bij het
gebruik van kunsttalen (programmeertalen) uiteraard de noodzaak om het semantische
of vertaalprobleem op te lossen. Het zal duidelijk zijn dat de formele behandeling
van natuurlijke talen een slag in de lucht blijft zolang de semantische
component niet op poten gezet is.
De formele taalwetenschap kan nooit praktisch nut hebben
zonder dat het doel van automatisch vertalen bereikt wordt. En dat vertalen
is tevens haar enige praktische nut, zij het dan ook dat het vertalen
zelf opgenomen kan zijn in een reeks handelingen die na de produktie van de
vertaling nog doorgaat. Zo kan men bv. na de produktie van de vertaling
U moet nu direct de brandweer bellen iets bouwen dat controleert of
de toegesprokenen inderdaad de brandweer belt, of dat gewoon zelf de
brandweer belt. Het aandeel van de linguïstiek is echter altijd - en
dat is de kern van mijn stelling - het produceren van een vertaling.
Het is de semantiek die uiteraard eist dat in code-B gezegd wordt
wat de 'betekenis' is van datgene wat zojuist in code-A gezegd werd.
De semantiek is, kan men zeggen, de procedure die naast
de zin in code-A de juiste zin in code-B selecteert.
Wat 'juist' is wordt juist door die procedure gedefinieerd.
De school van Chomsky heeft alleen in schijn het onderzoekprogramma
van de vertaalmachine verlaten. De tot nu toe nog steeds wat
onderontwikkelde semantische component van het formele model
is het centrale onderdeel van de vertaalmachine.
Voor zover de semantische component werkt als syntactisch filter
is het een correctie op de genererende basis; men zou dan ook moeten trachten
die functie over te dragen aan de syntaxis. Het is natuurlijk iedereen
toegestaan om te zeggen dat hij met de TGG niet de vertaalmachine wil
maar eerder een model van wat er 'in ons hoofd zit' en zelfs om te zeggen
dat het model dat hij ontwikkeld heeft een weergave is van wat er
in ons hoofd zit, maar dat is met het oog op wat boven gesteld werd niet
zo relevant.
De taalkunde, U zult het met me eens zijn, moet voor het bereiken van dit
doel geformaliseerd zijn.Slechts in geformaliseerde vorm kan taalkundige
'kennis' toegepast worden in nuttige procedures waarin een vertaling
van een code in natuurlijke taal begrepen is. Het doel van de
formalisering in de linguïstiek is hiermee geheel aangeduid;
een ander zinnig doel lijkt mij ondenkbaar.
Natuurlijk heb ik mij wel afgevraagd of men zich
met opvattingen zoals ik die nu ventileer niet plaatst
buiten de discussieruimte waarin de moderne
taalwetenschap zich voltrekt. Ik krijg uit bepaalde
reacties wel eens de indruk dat dat inderdaad het geval is.
Dat jaagt me dan angst aan, vanzelfsprekend.
Niemand wil graag met zijn bijdrage aan de discussie
tot de ontdekking komen dat hij alleen met zichzelf praat.
Maar hoe ik de zaken ook overweeg, ik kan met de beste wil van de wereld
niets vinden wat door een linguïst van een door mij aangeduide signatuur
anders zou worden gedaan dan door iemand die werkt met de
onderzoeksmotivatie dat de linguïstiek de structuur van de
menselijke geest zal openbaren. Ieder mentalistisch criterium
voor het aanbrengen van een correctie in de ontwikkelde theorie lijkt mij ook voor
die ander valide. De bovengrens van de maximale generalisatie tot alle
natuurlijke talen is ook voor die andere linguïst een wetenschappelijke eis.
Zulke zaken zijn methodologisch van aard en hebben hoegenaamd geen ondersteuning nodig
vanuit extern wetenschappelijke sfeer. Het enige wat dan nog staat als steen des
aanstoots tussen de ene en de andere taalkundige kan de gedachte
van de vertaalmachine zijn. Het is een vies woord, zeker,
en misschien kan het helemaal niet: automatisch vertalen.
Hoewel: dat heb ik ook niet beweerd; dat kunt U gemakkelijk nalezen.
Wat ik wel beweer is , dat het eindpunt van de TGG niet verschilt van
die vertaalmachine. En dan kunnen ze dus hoogstens allebei niet.
Linguïstiek bestaat bij de gratie van de veronderstelling dat het wél kan.
Als op deze manier object, doel en methode van de taalwetenschap
in voldoende mate toegelicht zijn, is ook direct het verhaal over CL af:
daarvoor geldt gewoon hetzelfde. Er is geen enkel relevant verschil
te bedenken tussen linguïstiek en CL. Daarom is CL ook
theoretisch helemaal niets bijzonders. De goede verstaander
zal hieruit niet begrijpen dat het gebruik van de computer voor de
linguïstiek overbodig of onzinnig is. Integendeel. Door het oogmerk
dat bij het beoefenen van formele taalwetenschap uitsluitend kan voorzitten
is het gebruik van electronische apparatuur zo vanzelfsprekend en
noodzakelijk voor de linguïst dat het element 'computer' in de
aanduiding CL redundant is.
Dit alles was theorie. Nu een stukje werkelijkheid.
De linguïstiek gebruikt nog nauwelijks computers en de CL komt nog
nauwelijks aan linguïstiek toe. Een belangrijke oorzaak van het eerste
is een verkeerd idee over het waarom van de formele taalkunde en onvoldoende
informatie over de mogelijkheden van computergebruik voor het testen
van de validiteit van grammaticale theorieën.
Een belangrijke oorzaak van het tweede is de worsteling
met de moeilijke materie van de simulatie op de computer van een
enigszins complexe theorie. Die dingen lijken minstens niet geheel
met elkaar in evenwicht. De mogelijkheden en voordelen van
computertoetsingen zijn zeer groot en groeien bij wijze van spreken met de dag,
zeer bijzonder ook hier in Nijmegen waar we het geluk hebben van een
voortreffelijke ondersteuning van het taalkundig onderzoek
vanuit de afdeling Informatica van de faculteit Wiskunde en Natuurwetenschap.
Maar van de andere kant worstelen we hevig met kwantitatieve problemen,
die het gevolg zijn van nog niet voltooide optimalisering van
beschikbare parser generators. Voor alle werkzaamheden van de taalkundige
is een parser generator een noodzakelijk instrument. Als die zou
bestaan voor een grammatica van het type Chomsky-0,
dan zou de grens tussen linguïstiek en CL geheel wegvallen.
Voor een toetsing van een theorie over een taal zou dan niets anders nodig zijn dan het
inbrengen in de machine van de geschreven vorm van de grammatica
in een notatie die alleen maar consistent zou hoeven te zijn.
En natuurlijk het aanroepen van een programma dat daarmee zou werken.
De taalkundige zou zich dus geheel en al kunnen concentreren op zijn specifieke
vak. Maar zover zijn we nog niet, helaas. Om uit te leggen hoever we wel zijn
moet ik eerst voor sommigen onder U misschien wat verduidelijking geven
over die parser generator.
Een parser generator is een programma dat op basis van een formele
grammatica van een bepaalde taal een parser tot stand brengt. Een parser op zijn
beurt is een programma dat van aangeboden zinnen zegt of ze behoren tot de
taal die gedefinieerd was in de grammatica die zijn vader, de parser generator,
heeft gebruikt om hem, de parser, voort te brengen.
En dat bovendien zegt welke structuur die zinnen dan hebben.
Welnu, voor contextvrije grammatica's hebben we in de zeer nabije toekomst de beschikking over
een aanvaardbare parser generator, aanvaardbaar omdat hij aanvaardbaar snelle parsers
produceert. Voor contextgevoelige grammatica's is het nog lang niet zover.
Om over transformationele grammatica's maar te zwijgen.
Ik wil mijn verhaal beëindigen. Ik vat samen:
De CL doet zich voorlopig voor als een bouwplaats waar hamers, beitels, betonbekistingen,
kiezel, zand, zagen, betonmolens, wapenijzer enz. enz. zonder duidelijke
structuur of samenhang door en langs elkaar verschijnen.
Het gebouw dat opgetrokken wordt is dat van de linguïstiek, ook al
is dat niet altijd goed te zien omdat sommige werklui de hele dag
in bakken met spijkers zitten te graaien. Op een andere plaats is het gebouw
al opgetrokken, zij het nog pas als een eerste model. Wanneer op de
bouwplaats de orde intreedt zullen de bewoners van dat eerste model
hun eigen huis herkennen en onmiddellijk gaan verhuizen.
Het oude model zal dan als een kaartenhuis wegwaaien.
Misschien dat we elkaar dan nog eens spreken. Wat ik vurig hoop.
Jan van Bakel, 1979
Terug naar boven