Linguistic Engineering

Deze tekst werd uitgesproken bij de ingebruikneming van de terminalkamer tevens praktikumlokaal van de Afdeling Computerlinguïstiek van de Faculteit der Letteren KU Nijmegen op 28 september 1979.

De vraag naar object, doel en methode van de computerlinguïstiek (CL) kan niet beantwoord worden zonder een voorafgaand antwoord op de vraag naar object, doel en methode van de linguïstiek tout court. En zoals de laatste vraag meerdere antwoorden kent, alle enigszins verschillend al naargelang aard en eigenaardigheid van degene die het antwoord geeft, zo ook de eerste. Bij de gratie van die variatie bestaat de discussie. Als er een absolute waarheid was zou de discussie heel wat minder interessant zijn. De waarheid, zou men kunnen zeggen, is dat zo klein mogelijke gebied waarbinnen het nog interessant is de eigen kijk op een of andere werkelijkheid te verdedigen. Is dat gebied te groot, dan verliest de discussie haar dwingendheid, zoals het schaakspel zonder vlag. Is het gebied te klein, dan verdraagt het geen these en antithese. Er blijft slechts één dogma over.

Als ik over de CL een paar woorden wil zeggen, gebeurt dat - zoals U wellicht al gemerkt hebt - in een essayistische toonzetting. Vergeef me. Ik hoop dat er toch iets kan worden gedacht bij dit toespraakje dat de moeite waard is. De Afdeling Computerlinguïstiek laat U vandaag iets zien van wat door de inspanningen van de faculteit kon worden opgebouwd. Het ziet er allemaal erg fraai uit, maar U zult het snel met me eens zijn als ik suggereer dat het maar glas en schittering is. De edelste schaakstukken laten de meest domme zetten toe. Laten we dus onze aandacht liever richten op wat hier moet gebeuren: onderwijs en onderzoek op het terrein van de CL. En ik beperk me tot het onderzoek, omdat het onderwijs geen andere doelstelling heeft dan daartoe te voeren. Voor het antwoord op de vraag naar object, doel en methode van de CL dus eerst dezelfde vraag m.b.t. de linguïstiek tout court.

De taalwetenschap is altijd een menswetenschap geweest. Wat ze ook zou kunnen zijn: het zoeken naar de algebra m.b.t. bepaalde symbolenreeksen - de zinnen van een natuurlijke taal - wordt algemeen gewaardeerd als een tamelijk oninteressante aangelegenheid. Als we in staat zouden zijn de algebra te karakteriseren die de juiste definitie (voorspelling) oplevert van een grote verzameling zinnen, - oneindig groot als U wilt - zou daaraan ieder belang ontbreken als die beschrijving niet zou pretenderen iets uit te spreken over de menselijke taligheid die er de achtergrond en de ondergrond van is. Taalwetenschap die deze pretentie mist, blijkt altijd na enige tijd een frustratie. Menigeen van U zal dat zelf meermalen ervaren hebben. Zo is er heel wat structuralistisch werk geleverd dat geen andere sensatie nalaat dan de ontnuchterende vraag: en wat dan nog? Wat zijn we nu verder gekomen? Waar gaat het eigenlijk om? Maar daar staat wel tegenover, dat alle spreken over de menselijke taal ijdel is, zolang er geen gedetailleerde analyse van zinnen - liefst meer dan één - mee gepaard gaat. En die analyse voert altijd weg uit het gebied met duidelijke menselijke referentiepunten.

De beide aspecten, vooreerst dat van de meest pretentieuze benadering van de menselijke taligheid als universele eigenschap van de menselijke soort en vervolgens dat van de uiterst gedetailleerde en maximaal generaliserende beschrijving van de structuren van zinnen, zijn verenigd binnen de transformationeel generatieve taalwetenschap (TGG), d.w.z. die taalwetenschap die de menselijke taligheid wil verklaren door de universele vorm daarvan expliciet te maken in een formele grammatica van een bepaald type. En binnen die TGG zien we dan de slinger heen en weer gaan die bij iedere beweging naar de ene kant alles frustreert wat aan de andere kant zo belangrijk is. Ik geloof dat ook veel onderwijs op het terrein van de linguïstiek daarvan de nadelige gevolgen ondervindt. Het blijkt moeilijk de motivatie voor de taalwetenschap in stand te houden of tot stand te brengen als formele zaken veel aandacht krijgen, maar aan de andere kant wordt het onderwijs snel inadekwaat als het formalisme te weinig nadruk krijgt. Praten over onze intuities m.b.t. taal zegt helaas absoluut niets over TGG.

De vraag waarom de taalwetenschap nu feitelijk zoekt naar formalisering heeft niet alleen eerstejaars studenten beziggehouden maar ook geavanceerde theoretici. Misschien zelfs de laatsten meer dan de eersten, al geven de eersten er wat makkelijker uitdrukking aan. Het formalisme zou ergens over moeten gaan dat ook op een andere manier ter sprake kan komen. Het formalisme kan moeilijk, ondanks zijn zeer specifieke vorm, iets specifieks opleveren. Waartoe dan dat formalisme? Er zijn al auteurs geweest die zozeer door zwakheid in de knieholten zijn aangetast dat ze durfden beweren dat het formalisme alleen maar een andere notatie was voor wat de taalwetenschap eigenlijk altijd had geweten. Een ernstige vergissing natuurlijk, al was het alleen omdat het belang van Chomsky er op beledigende wijze in wordt gebagatelliseerd. Een volgende en veel ernstiger oorzaak van mogelijk enige scepsis t.a.v. formaliseringen is het feit dat het aantal ontwikkelde formele modellen geleidelijk onrustbarend groot wordt. Doordat het bij gebrek aan wiskundige bezinning vaak geheel onduidelijk is of een bepaald nieuw model iets anders is dan een notationele variant van een ander, groeit het aantal descriptieve alternatieven schrikbarend. Misschien is dat ook wel een van de oorzaken van enig defaitisme dat ik in het linguïstische kamp meen te bespeuren. Uit defaitisme vlucht men naar alle kanten weg: naar de logica, de pragmatiek, de sociolinguïstiek. Juist zoals sommige schakers overgaan op het go-spel. Deze vergelijking zelf doet al wel vermoeden dat ik de vlucht niet toejuich. Ik meen voldoende grond te hebben voor de overtuiging dat de formele descriptieve taalwetenschap met kracht moet voortgaan met haar werk en ik zal U zeggen waarom.

Het is een van de meest kenmerkende noodlottigheden van onze beschaving dat zij alle weten in kunnen en alle kunnen in doen vertaalt. De weg van Plato naar Archimedes. Als ik dat een noodlottigheid noem mag men daar evengoed kritiek als berustende instemming in beluisteren. Ik kan mij voorstellen, bv. omdat ook in mijzelf een slinger beweegt, dat het schouwende denken hoger gewaardeerd moet worden dan het actieve, misschien zelfs activistische, omgaan met de dingen. De wijsgeer zal het laatste zoal niet afkeuren dan toch zeker altijd voorbarig achten. Maar daartegenover staat dat het handelen de enige manier is waarop wij kunnen leven. Het is inderdaad letterlijk een noodlot, een fataliteit. En het is ook wijs dat niet te miskennen. Als de wetenschap dus technische wegen kiest, haar toepasbaarheid als oriëntatie neemt, kan ik haar zeer wel met instemming volgen. Daarom vragen we terecht: wat is het nut, het praktische nut van de taalwetenschap? Wat leert ons de taalwetenschap te doen wat we zonder haar niet zouden kunnen? Wat is haar toepassing?

De school van Chomsky heeft nooit een geheim gemaakt van haar negatieve houding t.o.v. de toegepaste formele taalwetenschap die zich een paar decennia geleden heeft sterk gemaakt voor de vertaalmachine. Chomsky zorgde voor een alternatief mentalistisch onderzoekskader, waarmee hij misschien niet bedoelde de grote sommen geld die eerder in de vertaalput waren gezogen voor de taalwetenschap te behouden, al was dat wel het feitelijke gevolg. En een tweede gevolg, wat hij ook niet beoogde maar even zeker wel mogelijk maakte, was de taalwetenschap als techniek. De vraag naar het waarom van het formaliseren is juist zo klemmend, omdat de technische mogelijkheden die erdoor ontstaan zich als zo vanzelfsprekend aandienen dat de school die het formalisme invoert moeite heeft met overtuiging te ontkennen dat ze dat bedoeld heeft.

Dat ik zoek naar mogelijke technische toepassingen van de geformaliseerde taalwetenschap komt voort uit twijfel over een mogelijk ander nut van dat vak. Het nut van de formalisering in de linguïstiek kan niet liggen in het veroveren van inzicht in de structuur van de menselijke geest. Een formele grammatica van enigszins acceptabele complexiteit, zij het ook minder machtig dan transformationeel, is vooreerst al gauw zo volkomen onoverzichtelijk in zijn structuur en in zijn implicaties, dat het geheel onwaarschijnlijk is dat bij het kijken naar een eenmaal gevonden geheel adekwate grammatica ons inzicht in de structuur van de menselijke geest zal oplichten. Vervolgens is het voorlopig zo, dat er geen enkel uitzicht is op een adekwaat formeel model dat niet tevens 't allermachtigste is wat denkbaar is. Zolang dat niet verandert is het antwoord op de vraag naar de beperking op menselijke talen niets anders dan: die is er niet. Zodat er niets verklaard is. En tenslotte natuurlijk omdat inzicht als zodanig nauwelijks als nut gezien kan worden. Inzicht in pure vorm is belangeloos; begrijpen is een nutteloze wijze van bestaan. Bij dat alles komt nog dat de wetenschap nimmer meer antwoorden dan nieuwe vragen gegenereerd heeft; de duisternis die ze voortbrengt neemt exponentieel toe met het licht dat ze verspreidt, zozeer dat men moeilijk kan staande houden dat de wetenschap zou streven naar een reductie van het aantal te beantwoorden vragen. En dat komt dicht bij het verlaten van de uiteindelijke verklaring als doel van de wetenschap. Het beoogde inzicht is dus in alle opzichten een illusie, tenzij men inzicht definieert als: een werkbaar mathematisch model. En dat is dus heel gebruikelijk.

De formele linguïstiek - zo wil ik poneren - heeft tot doel een werkbaar mathematisch model te ontwikkelen van de menselijke competentie m.b.t. enige natuurlijke taal, meer in het algemeen idealiter m.b.t. taal als zodanig. Werkbaar is een mathematisch model alleen als het in gebruik kan worden getoetst en dat laatse is alleen mogelijk als het kan vertalen. Vertalen is de enig denkbare toets op de validiteit van een linguïstisch model. De formele linguïstiek heeft daarom ten doel in praktische zin op wetenschappelijke wijze verband te leggen tussen één individuele zin van een bepaalde taal en één individuele zin van een andere taal. Dat verband kan uitgedrukt worden in de formule:

zin-A => zin-a

waarin => betekent 'betekent'. Als het gaat om twee formele talen die men zelf introduceert, wordt het begrip 'betekent' onafhankelijk en op axiomatische wijze ingevoerd. Als het gaat om twee natuurlijke talen, kan men het zodanig invoeren dat het gelijk opgaat met een of andere experimenteel meetbare grootheid van andere orde. Op dit detail wil ik overigens nu niet ingaan. De linguïstiek uit de school van Chomsky streeft naar het vastleggen van dergelijke relaties tussen een natuurlijke taal en een kunsttaal, te weten die welke gebruikt wordt voor de notaties van de semantische interpretatie, en dus indirect ook tussen twee natuurlijke talen. Terwijl in de linguïstiek de zaak overwegend beschouwd is als van secundair gewicht, bestaat bij het gebruik van kunsttalen (programmeertalen) uiteraard de noodzaak om het semantische of vertaalprobleem op te lossen. Het zal duidelijk zijn dat de formele behandeling van natuurlijke talen een slag in de lucht blijft zolang de semantische component niet op poten gezet is.

De formele taalwetenschap kan nooit praktisch nut hebben zonder dat het doel van automatisch vertalen bereikt wordt. En dat vertalen is tevens haar enige praktische nut, zij het dan ook dat het vertalen zelf opgenomen kan zijn in een reeks handelingen die na de produktie van de vertaling nog doorgaat. Zo kan men bv. na de produktie van de vertaling U moet nu direct de brandweer bellen iets bouwen dat controleert of de toegesprokenen inderdaad de brandweer belt, of dat gewoon zelf de brandweer belt. Het aandeel van de linguïstiek is echter altijd - en dat is de kern van mijn stelling - het produceren van een vertaling. Het is de semantiek die uiteraard eist dat in code-B gezegd wordt wat de 'betekenis' is van datgene wat zojuist in code-A gezegd werd. De semantiek is, kan men zeggen, de procedure die naast de zin in code-A de juiste zin in code-B selecteert. Wat 'juist' is wordt juist door die procedure gedefinieerd. De school van Chomsky heeft alleen in schijn het onderzoekprogramma van de vertaalmachine verlaten. De tot nu toe nog steeds wat onderontwikkelde semantische component van het formele model is het centrale onderdeel van de vertaalmachine. Voor zover de semantische component werkt als syntactisch filter is het een correctie op de genererende basis; men zou dan ook moeten trachten die functie over te dragen aan de syntaxis. Het is natuurlijk iedereen toegestaan om te zeggen dat hij met de TGG niet de vertaalmachine wil maar eerder een model van wat er 'in ons hoofd zit' en zelfs om te zeggen dat het model dat hij ontwikkeld heeft een weergave is van wat er in ons hoofd zit, maar dat is met het oog op wat boven gesteld werd niet zo relevant.

De taalkunde, U zult het met me eens zijn, moet voor het bereiken van dit doel geformaliseerd zijn.Slechts in geformaliseerde vorm kan taalkundige 'kennis' toegepast worden in nuttige procedures waarin een vertaling van een code in natuurlijke taal begrepen is. Het doel van de formalisering in de linguïstiek is hiermee geheel aangeduid; een ander zinnig doel lijkt mij ondenkbaar.

Natuurlijk heb ik mij wel afgevraagd of men zich met opvattingen zoals ik die nu ventileer niet plaatst buiten de discussieruimte waarin de moderne taalwetenschap zich voltrekt. Ik krijg uit bepaalde reacties wel eens de indruk dat dat inderdaad het geval is. Dat jaagt me dan angst aan, vanzelfsprekend. Niemand wil graag met zijn bijdrage aan de discussie tot de ontdekking komen dat hij alleen met zichzelf praat. Maar hoe ik de zaken ook overweeg, ik kan met de beste wil van de wereld niets vinden wat door een linguïst van een door mij aangeduide signatuur anders zou worden gedaan dan door iemand die werkt met de onderzoeksmotivatie dat de linguïstiek de structuur van de menselijke geest zal openbaren. Ieder mentalistisch criterium voor het aanbrengen van een correctie in de ontwikkelde theorie lijkt mij ook voor die ander valide. De bovengrens van de maximale generalisatie tot alle natuurlijke talen is ook voor die andere linguïst een wetenschappelijke eis. Zulke zaken zijn methodologisch van aard en hebben hoegenaamd geen ondersteuning nodig vanuit extern wetenschappelijke sfeer. Het enige wat dan nog staat als steen des aanstoots tussen de ene en de andere taalkundige kan de gedachte van de vertaalmachine zijn. Het is een vies woord, zeker, en misschien kan het helemaal niet: automatisch vertalen. Hoewel: dat heb ik ook niet beweerd; dat kunt U gemakkelijk nalezen. Wat ik wel beweer is , dat het eindpunt van de TGG niet verschilt van die vertaalmachine. En dan kunnen ze dus hoogstens allebei niet. Linguïstiek bestaat bij de gratie van de veronderstelling dat het wél kan.

Als op deze manier object, doel en methode van de taalwetenschap in voldoende mate toegelicht zijn, is ook direct het verhaal over CL af: daarvoor geldt gewoon hetzelfde. Er is geen enkel relevant verschil te bedenken tussen linguïstiek en CL. Daarom is CL ook theoretisch helemaal niets bijzonders. De goede verstaander zal hieruit niet begrijpen dat het gebruik van de computer voor de linguïstiek overbodig of onzinnig is. Integendeel. Door het oogmerk dat bij het beoefenen van formele taalwetenschap uitsluitend kan voorzitten is het gebruik van electronische apparatuur zo vanzelfsprekend en noodzakelijk voor de linguïst dat het element 'computer' in de aanduiding CL redundant is.

Dit alles was theorie. Nu een stukje werkelijkheid. De linguïstiek gebruikt nog nauwelijks computers en de CL komt nog nauwelijks aan linguïstiek toe. Een belangrijke oorzaak van het eerste is een verkeerd idee over het waarom van de formele taalkunde en onvoldoende informatie over de mogelijkheden van computergebruik voor het testen van de validiteit van grammaticale theorieën. Een belangrijke oorzaak van het tweede is de worsteling met de moeilijke materie van de simulatie op de computer van een enigszins complexe theorie. Die dingen lijken minstens niet geheel met elkaar in evenwicht. De mogelijkheden en voordelen van computertoetsingen zijn zeer groot en groeien bij wijze van spreken met de dag, zeer bijzonder ook hier in Nijmegen waar we het geluk hebben van een voortreffelijke ondersteuning van het taalkundig onderzoek vanuit de afdeling Informatica van de faculteit Wiskunde en Natuurwetenschap. Maar van de andere kant worstelen we hevig met kwantitatieve problemen, die het gevolg zijn van nog niet voltooide optimalisering van beschikbare parser generators. Voor alle werkzaamheden van de taalkundige is een parser generator een noodzakelijk instrument. Als die zou bestaan voor een grammatica van het type Chomsky-0, dan zou de grens tussen linguïstiek en CL geheel wegvallen. Voor een toetsing van een theorie over een taal zou dan niets anders nodig zijn dan het inbrengen in de machine van de geschreven vorm van de grammatica in een notatie die alleen maar consistent zou hoeven te zijn. En natuurlijk het aanroepen van een programma dat daarmee zou werken. De taalkundige zou zich dus geheel en al kunnen concentreren op zijn specifieke vak. Maar zover zijn we nog niet, helaas. Om uit te leggen hoever we wel zijn moet ik eerst voor sommigen onder U misschien wat verduidelijking geven over die parser generator.

Een parser generator is een programma dat op basis van een formele grammatica van een bepaalde taal een parser tot stand brengt. Een parser op zijn beurt is een programma dat van aangeboden zinnen zegt of ze behoren tot de taal die gedefinieerd was in de grammatica die zijn vader, de parser generator, heeft gebruikt om hem, de parser, voort te brengen. En dat bovendien zegt welke structuur die zinnen dan hebben. Welnu, voor contextvrije grammatica's hebben we in de zeer nabije toekomst de beschikking over een aanvaardbare parser generator, aanvaardbaar omdat hij aanvaardbaar snelle parsers produceert. Voor contextgevoelige grammatica's is het nog lang niet zover. Om over transformationele grammatica's maar te zwijgen.

Ik wil mijn verhaal beëindigen. Ik vat samen: De CL doet zich voorlopig voor als een bouwplaats waar hamers, beitels, betonbekistingen, kiezel, zand, zagen, betonmolens, wapenijzer enz. enz. zonder duidelijke structuur of samenhang door en langs elkaar verschijnen. Het gebouw dat opgetrokken wordt is dat van de linguïstiek, ook al is dat niet altijd goed te zien omdat sommige werklui de hele dag in bakken met spijkers zitten te graaien. Op een andere plaats is het gebouw al opgetrokken, zij het nog pas als een eerste model. Wanneer op de bouwplaats de orde intreedt zullen de bewoners van dat eerste model hun eigen huis herkennen en onmiddellijk gaan verhuizen. Het oude model zal dan als een kaartenhuis wegwaaien. Misschien dat we elkaar dan nog eens spreken. Wat ik vurig hoop.

Jan van Bakel, 1979

Terug naar boven