Historische Syntaxis en Computerlinguïstiek
College ten afscheid
als Buitengewoon Hoogleraar Computerlinguïstiek
aan de Katholieke Universiteit te Nijmegen
op vrijdag 12 februari 1993
van Prof. Dr. Jan van Bakel

Terug naar hoofdmenu

Terug naar Bibliografie


Mijnheer de Rector Magnificus,
Dames en Heren,

    Eens meienmorgens vroe
    Was ic opgestaen;
    In een scoen boemgaerdekijn
    Soudic spelen gaen.
Dat zijn de eerste regels van een lied van Hertog Jan van Brabant die leefde in de tweede helft van de dertiende eeuw. Ik citeer deze regels niet om Brabant of een van zijn hertogen te eren, noch om met een lenteachtig beeld bij dit afscheid te verwijzen naar langvervlogen en betreurde dagen, maar eenvoudig om U de vraag voor te leggen of wij dat vandaag nog kunnen zeggen: eens meienmorgens vroe. Natuurlijk weten we wel wat het betekent: op een dag in mei in alle vroegte. Dat houdt in dat we de grammatica die deze woordgroep herkent nog in ons brein dragen, maar die kennis is zeker te onderscheiden van een andere, nl. die welke ons in staat stelt zulk een woordgroep te vormen. Wel zeggen we 's avonds laat, 's morgens vroeg. En natuurlijk ook 's maandags en eventueel 's woensdags. Bij saterdags en sondags horen we aan de s nog dat er iets bijzonders mee is, zoals ook bij frijdags. Dat we niet 's donderdags of 's dinsdags zeggen laat wel concluderen dat we met geïsoleerde gevallen te maken hebben. Zeker is, dat een grammatica van het hedendaags Nederlands - dat is een exacte definitie van de vorm van alle mogelijke Nederlandse zinnen - eens meienmorgens vroeg niet mag ''voorspellen''. Maar waaraan ligt dat precies? Is de structuur van de woordgroep uitgesloten? Je zou zeggen van niet, want 's maandags laat klinkt heel gewoon, en dat is ook een groep met een bijvoeglijk naamwoord ( laat), voorafgegaan door een nadere bepaling in de tweede naamval 's maandags. Als er een verandering van de grammatica van het Nederlands in het spel is, waarin bestaat die dan precies?

Wanneer we deze vraag willen beantwoorden moeten we eerst een paar dingen goed definiëren.

Wat is historische syntaxis? Historische syntaxis is een wetenschappelijke subdiscipline van de taalkunde, die beoogt tot uitspraken te komen over de geschiedenis van de syntaxis. Wat deze term nu, voor de tweede keer gebruikt, betekent, is afhankelijk van de theorie die men wil volgen. Sommigen verstaan eronder bepaalde eigenschappen van gehoorde of gelezen zinnen, en wel zulke eigenschappen die de zinsbouw betreffen. Volgens anderen gaat het niet om eigenschappen van waargenomen zinnen maar om een bepaald gedeelte van de menselijke taalkennis, nl. dat deel van die kennis dat verantwoordelijk is voor de zinsstructuur. De eersten zien dus waarneembare zinnen als het object van de taalwetenschap, de anderen de inhoud van de menselijke geest.1

Wanneer we over geschiedenis praten gaat het dus in de ene visie om gebeurtenissen met zinnen, in de andere om gebeurtenissen in de menselijke geest. Met gebeurtenissen worden natuurlijk veranderingen bedoeld, want iets anders valt in de geschiedenis niet voor. Ofwel de zinnen worden anders, of de taalkennis van mensen verandert. Zijn de eerstbedoelden dan niet van mening dat menselijke taalkennis de achtergrond is van de gevormde zinnen? Natuurlijk wel, maar hun bewijsmiddelen zijn de aangetroffen zinnen, terwijl de vertegenwoordigers van het andere standpunt beogen rechtstreeks te spreken over de vorm die het taalvermogen in de menselijke geest heeft. Zij kijken ook wel eens naar zinnen, maar als ze er tegenkomen die hun niet bevallen, is er geen moeilijkheid; ze laten ze eenvoudig vallen en volgen hun intuities. Je kunt het ook zo zeggen: zij maken een principieel onderscheid tussen de menselijke taalkennis en de taalproduktie; bij de produktie kan allerlei gebeuren wat een andere oorsprong heeft dan de eigenlijke taalkennis, b.v. versprekingen, vergissingen, en zo meer.

Hoe groot het verschil ook is tussen beide standpunten, aan het resultaat van het werk is dat niet te zien. De eersten zogoed als de laatsten streven naar zo algemeen mogelijke formuleringen. Die worden bereikt door inductie op waargenomen zinnen, maar kunnen ook als een axioma binnenkomen. Een axioma komt wel ergens vandaan, maar je hoeft het niet te verantwoorden. Je moet alleen zorgen dat er geen verkeerde stellingen (voor de taalkunde: zinnen) uit volgen.

Ik keer terug naar eens meienmorgens vroe. Vast staat dat wij dat niet meer zeggen. Er is dus verschil tussen de 13e-eeuwse zinnen en die van heden. Zou ook de grammatica over het huidige Nederlands moeten verschillen van die over het Middelnederlands? Natuurlijk. Zou dat ook in de syntaxis tot uitdrukking moeten komen, of is het niet een kwestie van zinsbouw-regels? Het lijkt mij toe dat er syntactisch niets aan de hand is, maar dat de verandering op een ander vlak ligt. De tweede naamval van het onbepaalde lidwoord eens is praktisch dood en zijn tegenhanger van bepaaldheid des ernstig bedreigd. Dat ook deze vorm spoedig zal verdwijnen kan gevreesd worden als men de eerder genoemde vormingen beziet. Syntactisch was ten tijde van Jan van Brabant zo goed als nog in het hedendaagse Nederlands een adverbiale woordgroep mogelijk met een adverbiale voorbepaling.2 Een zelfstandig naamwoord of een zelfstandig-naamwoordsgroep in de tweede naamval heeft vaak een adverbiale functie. Zolang de morfologie voor genitieven zorgt, sporadisch zoals nu of overvloedig zoals voorheen, kunnen we de constructie 's avonds laat aantreffen. Zijn er geen genitieven meer, dan vervalt uiteraard een aantal mogelijkheden, maar de syntaxis staat daarbuiten.

Laten we een ander voorbeeld bezien, dat meer dan het vorige syntactische kenmerken heeft:3

  • In can u niet vergronden
    doen si haer moeder niet en vonden,
    wat groter rouwe datsi dreven.
    ( Beatrijs 871-873)
Syntactisch gesproken zien we een hoofdzin met can vergronden en daarvan afhankelijk een bijzin met rouwe driven. Het is weinig twijfelachtig dat de andere bijzin doen si haer moeder niet en vonden hoort bij rouwe driven. Die bijzin moeten we dus opvatten als geplaatst binnen de constructie met dat, ook al heeft dat voegwoord zelf in die constructie een bijzondere plaats doordat het niet voorop staat. Het lijdend voorwerp luidt dus:
  • doen si haer moeder niet en vonden,
    wat groter rouwe datsi dreven.
Opvallend is dat binnen de bijzin, behalve de WH-constituent wat groter rouwe, nog een tweede constituent vóór het voegwoord is geplaatst, nl. Doen si haer moeder niet en vonden. We moeten dus iets als de volgende structuur aannemen:

                                    S'
                                     |
                             ------------------------------
                             COMP                         S
                               |                          |
                  ------------------------------         --------
                  S'                        COMP         NC     V
                  |                           |           |     |
 ---------------------                 ----------------   |     |
 COMP                S                 +WH         COMP   |     |
 |                   |                  |            |    |     |
 |  ---------------------------   -----------        |    |     |
 |  NC     NC      BW   BW    V   +WH      NC        |    |     |
 |  |      |        |    |    |    |       |         |    |     |
 |  |  -----------  |    |    |    |   ------------  |    |     |
doe si haer moeder niet  en vonden wat groter rouwe dat  si  dreven

Ik geef nog enkele voorbeelden, waarin de constructie met dat begint daar waar ik het symbool [ heb toegevoegd.

  1. Het ware mi leet, [ ghesciede u scade,
    dat men mochte segghen dan:
    het quam al bi desen man.
    ( Karel ende Elegast 702 vv.)

  2. plinius spreket ets sine maniere
    [ comet dese worem inden viere
    dat hem .i. venijn hute gaet
    dat dat vier al hute slaet
    ende (...)
    (Maerlant, Naturen Bloeme, 12376 vv.
    Gysseling, II-2 pag. 312-313.)

  3. Den wilden paerden, wil men wanen,
    [ ist dat men ofsnijt die manen,
    dat hem die luxurie ontfaert,
    om datse dat haer verhovaert.
    (Maerlant, Naturen Bloeme, De Bruin, dl. 2, pag. 221)

  4. Davonture seget hier ter steden,
    [ als die gebrodere waren gesceden,
    also als gi mocht horen
    in davonture hier te voren
    vander coninginnen, dat si
    bleef drove ende tongemake daer bi.
    ( Roman van Lancelot, 11173 vv. Jonckbloet)

  5. ... so openbare, [ wie so woude
    ende lesen conde, dat hi las.
    ( Floris ende Blancefloer 1030 vv.)

  6. ... bi derre saken,
    [ als icse dan saghe, dat si woude
    dat ic haers gedinken soude
    ( Floris ende Blancefloer 1214 vv.)

  7. [ No eten no drinken dat hi mochte
    ( Floris ende Blancefloer 1654.)

  8. Doe dede die verman roepen in die port,
    [ ochter enege coman waren,
    die te Babyloniën wilden varen,
    dat si ter havenen voeren daden
    haer gewant ...
    ( Floris ende Blancefloer 1744 vv.)

  9. Ic vruchte oec [ dies ghelike
    dat nu van u soude ghevallen.
    ( Reinaert 2324 vv.)

  10. Met syrapeel datsi ghinghen
    Ende maecten pays van allen dinghen
    (Reinaert 3468 vv.),4)

  11. Noch vintmen liede soe gestade,
    [ wat si hebben, groet of clene,
    dat hen die minne gheeft ghemene
    welde, bliscap ende rouwe
    ( Beatrijs, 54 vv.)

  12. [ Ofmense te priemtide sochte,
    dat mense best daer vinden mochte.
    ( Beatrijs 241 vv.)

  13. Hets wel recht in alder tijt,
    [ wie vore Mariën beelde lijt
    dat hi sijn oghen derwaert sla
    ende segge: Ave, eer hi ga,
    Ave Maria.
    ( Beatrijs, 243 vv.)

  14. Ic mane u god die goede (...)
    [ ocht die stemme die aan mi riep
    hier es comen te minen baten,
    dat sijs niet en moete laten,
    si en come anderwerf tot hare
    ende (...)
    ( Beatrijs, 711 vv.)

Voorbeelden met een WH-component vóór het voegwoord,5 laat ik buiten beschouwing. Zoals bekend betreft het verplaatsing van een +WH-constituent (vragend of betrekkelijk voornaamwoord) naar de zgn. comp-positie, waar ook het voegwoord zich bevindt. In het hedendaagse Nederlands in zgn. ''onzorgvuldig'' taalgebruik laat het verschijnsel zich volop waarnemen: Weet je wat dattie gedaan heeft?, Weet je waarom of dattie niet komt? In ''zorgvuldig'' taalgebruik wordt dat en of na zulke verplaatsingen gedeleerd, maar in het middelnederlands en ''onzorgvuldig'' modern Nederlands kan die delering achterwege blijven. Er bestaat op dit punt dus hoogstens een stilistisch verschil tussen vroeger en nu. In de opgesomde voorbeelden zien we echter andere constituenten naar links van het voegwoord verschuiven, zelfs soms naar links van de reeds verplaatste WH-constituent, zoals voorbeeld (1) duidelijk laat zien.

Komt deze constructie in het hedendaags Nederlands nog voor? Dat ligt er een beetje aan, hoe men dat wenst vast te stellen. Gaat men af op de intuities van de taalkundige, dan is er weinig kans op een positief antwoord. Maar ik geloof, als we ''onzorgvuldig'' taalgebruik accepteren, dat dat tegenwoordig ook nog wel voor kan komen. Ik zeg niet dat de zin die u zojuist beluisterd hebt geen blaam treft, maar zulke constructies treft men aan. Zo kun je in gesproken Nederlands zinnen horen als:

  • (1) Het staat vást, als dit beleid dóórgaat, dat ...
    (TV 3 okt. 1992)
  • (2) Waar het nu om gaat, denk ik, als je een enquête zin wil laten hebben, is dat je kijkt naar de verschillende procedures van regering en kamer en dat je daarvan gaat zeggen: hoe kunnen we dat eventueel verbeteren.
    (NRC 13-2-1985, pag. 3; eerder gehoord voor de TV.)
De intonatie van de eerste zin (1), met twee afzonderlijke accenten, laat duidelijk concluderen dat de bijzin met als een deel is van die met dat en dus een plaats vult binnen de laatste vóór het voegwoord. Een bezwaar tegen de tweede (2) kan zijn, dat de bijzin als je een enquête zin wil laten hebben niet uitgesloten kan worden als bepaling bij waar het nu om gaat. Ik geloof dat dat niet voor de hand ligt. Is het voorbeeld acceptabel, dan vinden we ook hier vooropplaatsing van een bijzin, ja nog extremer: verplaatsing naar de hoofdzin.

Wanneer we zouden vaststellen dat de besproken constructie in het hedendaags Nederlands nog mogelijk is, is ook op dit punt de syntaxis niet veranderd. Stellen we dat het niet meer kan, dan moet nauwkeurige analyse van de verplaatsingen in het oudere en het jongere Nederlands laten zien hoe een regel in detail gewijzigd is. Zulk onderzoek legt uiteraard meer accent op wat blijft dan op wat verdwijnt. Verandering is eigenlijk een weinig interessante zaak: alles immers verandert voortdurend. Interessant is te zien welke beperkingen er op de verandering drukken, m.a.w. wat ondanks alle oppervlakkige veranderingen wezenlijk hetzelfde blijft. Dat het middelnederlands dicht staat bij het minder verzorgde taalgebruik van vandaag, zeg maar bij de spreektaal, wijst erop hoe streng de taalcultuur sinds de renaissance gedisciplineerd is. Maar dat is geen Computerlinguïstische maar een cultuurhistorische, beter misschien nog een sociolinguïstische zaak.

Spreken over Historische syntaxis en Computerlinguïstiek dient uitsluitend te gebeuren in termen van grammatica's als verzamelingen van exacte regels, zoals die in de tegenwoordige linguïstiek bekend zijn. Omdat het er niet toe doet, kan men in het midden laten of dat afbeeldingen zijn van kennis in de menselijke geest, dan wel zo fraai mogelijke generaliseringen over waargenomen zinnen. Voor de duidelijkheid een algemene opmerking over een andere taalkunde, een taalkunde die door mijn uiteenzetting misschien uit het oog verdwijnt of in een kwaad licht komt staan. Behalve de exacte taalkunde, die zich bezighoudt met menselijke taligheid, die gebruik maakt van algebraïsche instrumenten van beschrijving waardoor ze lang geleden door Reichling (1965) als kryptanalytisch formalisme kon worden gehekeld en die zegt de waarneembare zinnen als tweederangs feiten te beschouwen, is er nog een taalkunde der humaniora. Deze maakt studie van cultuurhistorisch en artistiek waardevolle teksten en documenten in Nederlands, Frans, Engels, Duits, Russisch, Arabisch of welke andere taal ook. Samen met hulpdisciplines voor het leren van een of meer historische, regionale, culturele of sociale varianten van zulke talen, voor het interpreteren van teksten en het gebruiken van de daarbij behorende filologische hulpmiddelen, vormt zij de taalkundige component van studierichtingen die Neerlandistiek, Anglistiek of Klassieke talen kunnen heten. Zulke studierichtingen hebben zich in het recente verleden onvoldoende gedistancieerd van en geprofileerd tegenover die exacte linguïstiek , die zich organiseert in centers of excellence en zo hoog over zichzelf denkt dat zij zich al opgenomen waant in sferen van echte science, samen met de fysica en de neurologie. Een waardige distantie had hun betekenis binnen de oude humaniora zeer gediend. Over die taalkunde kan ik niet spreken, want daartoe behoort noch de historische syntaxis,6 noch de Computerlinguïstiek .

We mogen niet aannemen dat we correct kunnen oordelen over oudere fasen van het Nederlands, ook al zullen we er af en toe iets van begrijpen. Daarom is het voor de historische syntaxis evident noodzakelijk observaties m.b.t. gesproken of geschreven zinnen te verzamelen.7 Ik heb voor deze gelegenheid een samenvattende analyse ondernomen van een 16-tal teksten waarnaar in het verleden afzonderlijk aandacht is uitgegaan en waaruit ik hierboven al heb geciteerd.8 Het is mijn bedoeling aldus ter afronding een samenvattende karakterisering en evaluering te beproeven van vroegere werkzaamheden die karakteristiek waren voor de wijze waarop ik mij aanvankelijk het onderzoek op het terrein der historische syntaxis voorstelde.

Toen de computer aan deze universiteit zijn intrede deed, kwam - en niet alleen in mijn hoofd - het idee op: daarmee kunnen we onderzoek doen naar eigenschappen van zinnen en teksten en zo eindelijk inzicht krijgen in hoe de taal in elkaar steekt. Wanneer we erin slagen een goed meetapparaat te bouwen zullen we kunnen meten wat het middelnederlands eigenlijk kenmerkt, wat de renaissance-literatuur enz. enz. Maar de vraag was, hoe we dat zouden moeten aanpakken. Tegenwoordig construeren we daarvoor formele grammatica's die gemakkelijk omgebouwd kunnen worden tot analyserende robots waarmee structuren worden toegekend aan zinnen. Maar zoiets behoorde in het midden van de jaren '60 nog niet tot de mogelijkheden. Het systeem dat ik ontwikkelde omvatte een analyse van een tekst in twee stappen. Vooreerst werd woord voor woord informatie toegevoegd van zowel lexicale als syntactische aard. Eén code gaf aan wat de woordsoort was en een tweede wat voor syntactische grens achter het woord ligt. Hierbij gold: de syntactische grens achter een zin is 0, achter ieder deel van de zin 1, achter ieder deel van een deel 2, enz. En in een tweede stap besliste een computerprogramma over de syntactische karakterisering van de onderscheiden woordgroepen.

Ligt aan zulke syntactische analysering een syntactische theorie ten grondslag? Natuurlijk zit er wel zo'n theorie achter in het hoofd van degene die de coderingen kiest.9 Hij zal bepaalde opvattingen hebben over syntactische structuren en pogen deze in de coderingen op consequente wijze toe te passen.10 Maar die theorie is wel geheel en al onzichtbaar. De systematiek volgens welke syntactische grenzen worden aangeduid ligt nergens vast en zelfs als dat wel het geval zou zijn, is nog geenszins verzekerd dat bij de toepassing geen fouten worden gemaakt. De codes worden eenvoudig per geval ad hoc bepaald, zodat dezelfde woordgroep op verschillende plaatsen - en zeker bij verschillende coderende personen - heel verschillende interpretaties kan krijgen. Ook voor de toekenning van woordsoortcodes bestaat geen garantie voor consequentie en consistentie. De tweede stap van het systeem evenwel is expliciet: de criteria volgens welke een groep NC wordt genoemd, VC of S of hoe dan ook, liggen exact vast in het programma.11

Een gangbare eis die aan een taalkundig systeem wordt aangelegd is, dat het de intuities weerspiegelt van de native speaker. Geldt dat voor syntanal? Neen en dat is juist en noodzakelijk. Noodzakelijk is het omdat de intuities uit het verleden niet meer beschikbaar zijn. Om een voorbeeld te geven: wie kan weten of Coornhert nog een betekenis van localiteit ervoer bij gebruik van het woord daar in ... dat hy in plaatse daar hy ghierigh was, nu warachtelyck mild gheworden is ... (Coornhert, pag. 247)? Wie of dezelfde schrijver in zo kleynen straf (pag. 428) nog de aanwezigheid van een onbepaald lidwoord waarnam? En nogmaals Coornhert: wie weet of voor hem lang in zo lang de reden ende de beradinghe noch onledig zijn (pag. 118) nog een bijwoord van tijd is of deel uitmaakt van een voegwoord zo lang? Bedenk, dat het voegwoord als uit de zin gedeleerd kan zijn.12 En wie die claimen zou dat de intuities gehonoreerd moeten zijn, zou een grammatica ontwerpen die verantwoordt: Nu gheschiet ende bevinden wy zulx daghelyx (Coornhert pag. 118), of - en dit uit het huidige Nederlands - Niet alleen zij zijn, maar iedereen is aan het geheel van die wetgeving onderhevig (NRC 25-3-1988, pag. 9, Th. Joekes). En ik bedoel niet: nadat hij deze zinnen heeft waargenomen, maar tevoren? Het kan dus eenvoudig niet anders.

Maar het is ook juist dat het systeem ter analysering van historische teksten de intuities van de sprekers niet weerspiegelt. Immers, omdat de intuities verschillend zijn, zou het instrument dat de gegevens analyseert voor iedere fase andere eigenschappen moeten hebben; zo wordt het als meetinstrument onmogelijk en, zo mogelijk, ook waardeloos. Een bruikbaar instrument moet zo algemeen zijn dat het alle grammatica's over historische fasen van het Nederlands overkoepelt. Anders gezegd: het moet een of nog beter de doorsnede-grammatica zijn van alle grammatica's uit de Nederlandse taalgeschiedenis. Op die wijze zal het dan overigens wel de doorsnede-intuities over het Nederlands in de loop der eeuwen weergeven. Mogen we zeggen, dat dat voor syntanal geldt, omdat het systeem op iedere zin kan worden toegepast? Als u het betwijfelt bent u niet alleen. De enige theoretische inboedel van syntanal, en dus de enige Computerlinguïstische intuitie, althans op het niveau van het coderen van syntactische grenzen, is de notie dat een zin een ordening van achter elkaar geplaatste delen vertoont, in de tijd of op papier, en dat hetzelfde geldt voor elk van zijn delen. Dat is, hoewel zeer basaal, ook wel wat mager.

Voor mijn samenvattende onderzoek heb ik nu een nieuw programma geschreven dat erg dicht komt bij het oorspronkelijke syntanal. Ik heb over de verkregen boomstructuren van alle zinnen kenmerken gedefinieerd en tellingen verricht. Zo kreeg ik, binnen een corpus van in totaal 72300 woorden,13 een hoeveelheid van 3576 zinnen met elk 64 eigenschappen en daarnaast 2473 NC's uit die zinnen met elk 61 eigenschappen. Tenslotte heb ik statistische berekeningen uitgevoerd ter toetsing van een paar hypothesen die in verband met historisch-syntactische vraagstellingen interessant leken.14

Wat waren die hypothesen? Vooreerst: er heeft een historische ontwikkeling plaatsgehad en die verraadt zich door een of andere geleidelijke verandering in de beschouwde eigenschappen van zinnen en/of NC's. En ten tweede, recht daartegenover: er is eigenlijk niets gebeurd in de loop van de eeuwen. De toetsing houdt voor de eerste hypothese in, dat van alle eigenschappen wordt nagegaan of ze een verandering laten zien die gelijk opgaat met de tijd. Daarvoor kan men de waarden toetsen op eventuele rangcorrelatie met een volgnummer dat aan ieder van de bronnen wordt toegekend of aan een code die de periode aanduidt: middeleeuwen, renaissance, moderne tijd e.d.

Wat blijkt? Noch bij de test tegen het bronnummer, noch bij die tegen de code voor de periode is enige tendens bespeurbaar in de beschouwde bronnen welke wijst op een met de tijd gelijkopgaande verandering.15 De tweede hypothese werd getoetst door een variantie-analyse met als criterium (onafhankelijle variabele) het bronnummer. Wat blijkt? De bronnen discrimineren zeer scherp. Over de oorzaak of oorzaken valt weinig te zeggen. Het kunnen stijlkenmerken zijn die een rol spelen, of het onderwerp, of de schrijver, of het literaire genre, of het beoogde lezerspubliek; en ga zo maar door.

U concludeert dat het onderzoek voor de historische syntaxis als wetenschap van de grammatica geen enkele zin heeft gehad. Ik moet u zeggen: ik kan u geen ongelijk geven. Maar laten we dan ook eens goed nadenken: wat geeft ons eigenlijk reden om te veronderstellen dat een kwantitatief onderzoek tot resultaat zal voeren? Binnen een al of niet expliciete theorie die vastligt in de onderzoekmethode zijn alle zaken gedefinieerd die eventueel gevonden kunnen worden. Van al die verschillende verschijnselen vinden we abundanties, groter of gelijk aan nul. Hoe kan de grootte van een abundantie ooit evidentie leveren voor een historisch-syntactische uitspraak, die immers gaat over structuur van grammatica's? Welk getal kan ooit het antwoord zijn op een Computerlinguïstische vraag? Geen enkel. Misschien was het onderzoek ook in die zin overbodig dat het materiaal voor historisch-syntactische analyse al ruimschoots verzameld is: we beschikken voor observaties over de schatkamers van Stoett (1923) en Weijnen (1971), al moeten we rekening houden met de mogelijkheid dat theoretische bezinning nog naar andere verschijnselen zal doen zoeken.

Ik ben u onderhand wel enige verklaring schuldig. Waarom dat onzinnige onderzoek? En, tweede vraag, waarom geen ander vervolg gekozen op het terrein van de historische syntaxis , nadat de weg van syntanal een Holzweg was gebleken? Zeker wanneer de faculteit der letteren toch, op voorstel van de sectie Nederlands, een leeropdracht historische syntaxis had ingesteld? In de eerste jaren van de geschetste bedrijvigheden verkeerden we, althans hier in Nederland, nog in de nadagen van het structuralisme.16 Het structuralisme is een taalkunde van observaties, documentering van observaties, analysering van observaties, generalisering over observaties. Het waarneembare taalfeit dat in de oren klinkt of zwart op wit manifest is maakt de werkelijkheid uit die wetenschappelijk onderzocht moet worden. Het is de Chomskyaanse revolutie geweest die het kwantitatieve tekstonderzoek voor historische syntaxis heeft achterhaald. (En eigenlijk was het niet eens achterhalen, want we hadden al sinds de jaren '50 gewaarschuwd moeten zijn.) De Transformationeel Generatieve Grammatica (TGG) - zoals toen haar naam nog was - heeft de structuralistische belangstelling voor uitingen ingewisseld tegen belangstelling voor grammatica's en regels, ook op het terrein van de historische grammatica.17 De moderne linguïstiek heeft ons de zin ontstolen en ons te hoop gedreven in de theorie. En wat de tweede vraag aangaat: mijn werkzaamheid op het terrein der historische taalkunde was vanzelfsprekend aanleiding om een historisch toepassingsgebied te noemen in de leeropdracht, maar de sectie Nederlands had met haar voorstel vooral computerale syntactische analyse op het oog.

Sinds de TGG weten we dat een syntactisch geanalyseerd corpus niet vóór maar na linguïstisch onderzoek komt. Wel komt het eventueel vóór stijlonderzoek, genreonderzoek, auteursonderzoek of ander onderzoek van sociolinguïstische aard. Binnen de linguïstiek in strikte zin heeft geen enkele taaluiting - en dat is dus principieel altijd een sociolinguïstisch feit - enig belang, tenzij het ons aanleiding geeft er op linguïstisch interessante wijze over te generaliseren.

De kennismaking met de TGG bracht scherp aan het licht dat syntanal ernstige gebreken vertoonde: de syntactische grenzen werden niet volgens een expliciete theorie gemarkeerd en de woordsoortbenoeming leed aan eenzelfde euvel. De Computerlinguïstiek is typisch het vak dat zich over zulke zaken buigt: hoe ontwerp ik een expliciete syntactische theorie die op de computer kan worden getest op haar theoretische correctheid. Niet met het oog op een nuttige toepassing - en als zodanig komt dus na vandaag de historische syntaxis niet meer in aanmerking - maar louter om bij te dragen aan Computerlinguïstische theorievorming. Exacte theorieën moeten worden getest op machines om te kijken of ze correct zijn. Wie zegt exact te willen wezen en geen test uitvoert, is niet geloofwaardig.

Spreken over Computerlinguïstiek is niet mogelijk, zonder een paar opmerkingen vooraf over een paar algemene zaken. Het doel van Computerlinguïstiek is een computermodel te maken van de manier waarop een mens zijn taal gebruikt. We kunnen daarbij onderscheiden een model van de spreker en een model van de hoorder. De spreker heeft - zo moeten we aannemen - een of andere gedachte die hij in een zin zal gaan uitdrukken. Die gedachte hoort niet bij de taal, ook al lijkt het erop dat ze pas identificeerbaar wordt zodra ze, inwendig of uitwendig, de vorm van taal heeft aangenomen. Het sprekersmodel laat de vorm zien die de zin krijgt, wekt zelfs de indruk de manier te willen tonen waarop die vorm tot stand komt, iets wat niet beoogd wordt, hoewel de TGG de zinnen door regels uit een beginsymbool afleidt. De generatieve grammatica spreekt niet over een genereringsproces in de menselijke geest maar is generatief door haar generatieve definities. Het hoordersmodel gaat uit van zinnen, d.w.z. reeksen van woorden gevolgd door een punt, en analyseert die door er een boomstructuur overheen te leggen waarin hiërarchie en afhankelijkheden worden uitgedrukt. Op basis van die hiërarchische structuur wordt vervolgens een betekenis aan de zin toegekend. Omdat de formele modellen die gebruikt worden in beginsel omkeerbaar zijn, is het verschil spreker - hoorder minder groot dan misschien lijkt. Ook bij analysering komt een generatieve syntaxis te pas.

Toch is het duidelijk moeilijker een computer te laten praten dan om een hoorder erop na te bootsen. Voor spreken moet je hem eerst een hoop ''kennis'' of ''gedachten'' bijbrengen, waaruit een beetje redelijke taal tevoorschijn kan komen. Begin je daaraan, dan blijkt dat je die kennis slechts kunt karakteriseren met behulp van een of andere taal. Die taal moet je ontwikkelen, tezamen met een systeem dat de vertaling levert van iets in die taal naar de vorm die de zin moet krijgen. Zo val je van de ene taal in de andere. Omdat die kennis niet het object is van de linguïst maar eerder van de psycholoog of hooguit de psycholinguïst, is er weinig reden om je op het sprekersmodel te concentreren.

Een computer zinnen laten ''begrijpen'' is interessanter en het is in zekere zin ook makkelijker. Zinnen zijn er genoeg. We gaan uit van menselijke taal en menselijke zinnen. Om problemen van fysische aard te vermijden sluiten we gesproken zinnen uit en nemen we geen echt geschreven of gedrukte zinnen, maar afbeeldingen hiervan op electronische dragers. We ontwikkelen een syntaxis in de vorm van een herschrijfsysteem met behulp waarvan we structuur toekennen aan een zin. En daarna bedenken we semantische regels volgens welke aan die structuur, en dus aan de zin, een betekenis wordt gekoppeld. Alle componenten, dus ook de semantiek, zijn formele systemen en ook die moet op de computer worden nagebootst. De betekenis wordt tenslotte uitgedrukt in een nieuwe taal, en zo zit aan het uiteinde van het herkennende en interpreterende model een even moeilijk stuk als aan het begin van het sprekende. Ook hier komen we de taal niet uit. Een expressie in een artificiële semantische taal als eindfase van het herkenningsproces lijkt echter acceptabel, zodra ze op correctheid onderzocht kan worden, b.v. in een een volgende vertaalslag. Persoonlijk ben ik geneigd te zeggen dat de semantische interpretatie pas definitief aanvaardbaar is, als de zin vertaald is in een tweede natuurlijke taal. Zo stel ik vast dat het semantisch probleem identiek is aan het vertaalprobleem.18

Door de genoemde beperking tot de niet-fysische eigenschappen van taal kan de Computerlinguïstiek slechts een deel zijn van het programma van de Vakgroep Taal en Spraak. Ter linkerzijde van een zinnen-analyserend model hoort de spraakherkenning thuis, ter rechterzijde van een zinnen-genererend model de spraakgenerator. De spraakherkenner neemt geluiden waar en maakt daar spelling van. De spraakgenerator gaat uit van informatie in een machine en zet die om tot een geluidssignaal dat wij herkennen als ''spreken'', wellicht via de tussentrap van de spelling. Zo wordt op een theoretisch consistente wijze het vakgebied Taal en Spraak volledig bedekt. Over toepassingen van de Computerlinguïstiek , noch over die van de spraakanalyse en -synthese - en beide zijn in onze vakgroep ruimschoots aanwezig - wil ik uitweiden.

Een volledig onderzoekprogramma Computerlinguïstiek bestaat uit vier componenten. 1. Definieer de woorden van de taal met hun onafleidbare eigenschappen in een woordenboek of lexicon. 2. Leg de regels vast volgens welke uit elementen van het lexicon in zinnen bruikbare woordvormen worden afgeleid ( morfologische regels). 3. Leg de regels vast hoe uit woordvormen zinnen gebouwd worden ( syntactische regels). 4. Leg de regels vast die bepalen hoe je de zinnen en hun constructies moet verstaan ( semantische regels).

Deze vierdeling moet beschouwd worden als voorgeschreven door algemene, natuurlijke kennis over taal. Het zou wel mogelijk zijn een systeem te bouwen zonder lexicon, waarbij de syntaxis i.p.v. over lexicale categorieën direct over woordvormen spreekt, zodat b.v. alle zinnen met het woord beeld volkomen los van alle zinnen met het woord beelden gedefinieerd zouden zijn. Maar dat zou strijden met het beginsel van de maximale generalisatie: de kennis die bestaat in de notie dat beeld iets met beelden te maken heeft, zou ontbreken. Verder is de grens tussen syntaxis en semantiek misschien arbitrair, omdat het erop lijkt dat het toekennen van een syntactische structuur aan een reeks van woorden een eerste abstracte stap is op de weg van de semantische interpretatie.

Op alle vier terreinen van de Computerlinguïstiekcol die zijn aangeduid - en automatisch vertalen hoort daar vanzelf bij vanwege de identiteit van vertalen en semantisch interpreteren - zijn vanaf de aanvang van de zgn. Afdeling Computerlinguïstiek verkenningen gedaan en systemen gebouwd.19 . Kern van het onderwijsprogramma (voor gevorderden) zowel als voor het onderzoek was een groot lexicaal, morfologisch, syntactisch en semantisch systeem, genoemd amazon-casus, waarin de voornaamste theoretische hypothesen waren uitgedrukt. De functie van dit systeem was een raamwerk te bieden dat enerzijds strenge eisen inhield voor degene die uitbreidingen voorstelde, anderzijds iemand in staat stelde relevant werk te doen, zonder genoodzaakt te zijn bij nul te beginnen. Zo konden ook binnen betrekkelijk korte studieprogramma's interessante nieuwe hypothesen geformuleerd en getoetst worden.

Het is vanouds bekend dat de semantiek, d.i. de leer der betekenis of de betekenisverschijnselen, voor problemen zorgt in de linguïstiek . Brandt Corstius' eerste wet van de computer-taalkunde luidt: Wat men ook doet, de semantiek gooit roet.20 Dat betekent niet dat de semantiek een mysterieuze boze geest is van een vreemde planeet, maar wel dat semantische zaken in het algemeen moeilijk formaliseerbaar zijn. De grens tussen syntaxis en semantiek, zei ik, lijkt wat arbitrair. Men kan een syntactische theorie over de bouw van de zin moeilijk anders begrijpen dan als een poging om betekenisverschijnselen te verantwoorden. De GB-theorie ( government and binding, zoals de meest recente vorm van de oude TGG heet) werkt met de claim van de autonome syntaxis. Die claim houdt in dat alle regels van de syntaxis gemotiveerd zijn zonder enig beroep te doen op of gebruik te maken van betekenisverschijnselen. Dat is een zuiver methodologische zaak, die ertoe voert dat men de betekenisverschijnselen introduceert als interpretatie over de syntactische structuren. Evenmin als de vorm van de generatieve grammatica, met de ontwikkeling van de zin uit het beginsymbool S, bedoelt te beweren dat een zin aldus tot stand komt in de geest van de mens die gaat spreken, bedoelt de interpretatieve syntaxis te beweren dat zo de relatie is tussen gesproken zin en gedachten. (Als beide losgekoppeld zijn mag men niet meer spreken over betekenis, want betekenis is per definitie iets in relatie tot andere verschijnselen, of dat nou verkeersborden zijn of spraakklanken.)

Scherp hiertegenover stelt zich de zgn. generatieve semantiek of semantische syntaxis op.21 Binnen die theorie wordt de generering van zinnen gedefinieerd op basis van semantische representaties. Dit nu komt neer op het binnenhalen in de taal van buiten-talige kennis. Wanneer men dit bezwaar verwerpt, d.w.z. beweert dat die kennis tot de taal behoort, zal men genoodzaakt zijn die representaties door een nieuwe taal te introduceren. Daarvoor is andermaal een syntaxis nodig. De vraag moet zijn, of dat dan wel een autonome, betekenisloze syntaxis mag zijn? Mag dat niet, dan raakt men in een onoplosbare viciositeit. Mag dat wel, dan laat men toe dat de betekenis binnen een systeem door interpretatie tot stand komt. Maar dan kan men zich afvragen, waarom dat niet mag binnen een model voor de menselijke taal zelf.

Een vergissing die vaak wordt gemaakt bestaat hierin dat semantiek wordt gekarakteriseerd als een mechanisme waardoor verband wordt gelegd tussen taal en werkelijkheid. Dat is noodzakelijk onjuist, omdat de werkelijkheid slechts in taal beschikbaar is, ofwel, bij een computermodel, in die elementen van dat model welke geacht worden de werkelijkheid te representeren; ofwel, in ons zenuwstelsel, in die neuronen en neurotransmitters welke geacht worden hetzelfde te doen. Alles ''beelden'' van werkelijkheid, zodra men ze als zodanig interpreteert.

Het is zeker ook een vergissing een formele semantiek te ontwerpen die structureel gedwongen is de wetten van de logica te volgen. De taal permiteert zich tegenover de werkelijkheid en haar veronderstelde logische structuur vrijheden, ongeveer van dezelfde orde als in het grafische werk van van M.C. Escher optreden tegen de wetten van de ruimte: naar boven en naar beneden stromend water, driedimensionaal onmogelijke objecten e.d. Een systeem dat principieel niet in staat is de taal hierin te volgen schiet tekort. Wat hebben we al niet een moeite met hij zat met z'n vinger tussen de deur of daar kijk ik wel naar tussen de middag. Uitleggen dat het in beide gevallen toch eigenlijk om twee dingen gaat berust op ontevredenheid met de taal. En wat zouden we aanmoeten met, wat ik laatst hoorde: ik heb geen oog geslapen? Kan een oog dan geslapen worden?

Voor het beschrijven van de woordbetekenis bestaat al helemaal geen overtuigende theorie. Veel pogingen zijn gedaan om die betekenissen uiteen te leggen in kleinere delen en zeker zijn er syntactische - en dus semantische - argumenten voor bepaalde semantische features als mass, count, animate en andere. Maar een kleinste deeltje, een semon of hoe zullen we het noemen, heeft dat niet opgeleverd. We blijven zitten met een hoop nieuwe woorden, zij het dan ook meestal geschreven met hoofdletters. Allemaal nieuwe bestanddelen van nieuwe taal die ons niet verder brengen. Het lijkt wel of er niets anders bestaat dan taal, woorden voor alles wat buiten ons bereik ligt. En wat we soms menen te vinden in de werkelijkheid neemt ook weer de taalvorm aan, zoals de vier eenletterwoorden van het DNA.

Vaker heb ik mij laten verleiden tot zulke bespiegelingen. Maar dat gebeurt gelukkig altijd pas aan het einde.

Mijnheer de Rector Magnificus,
Dames en Heren,

Zevenendertig jaar van mijn leven ongeveer heb ik aan deze universiteit doorgebracht. Tijdens mijn studie ervoer ik vrees voor de hoge wetenschap, meer dan liefde. Daarom en omdat mijn vader alles moest betalen heb ik mij gehaast om binnen vijf jaar af te studeren. Negen jaar ben ik daarna leraar geweest. Een goede vriend, Jos Brouwers, heeft mij met herhaalde aansporing ertoe gebracht een proefschrift te schrijven, met de argumentatie dat ik onze gemeenschappelijke leermeester Professor Michels daarmee een plezier zou doen en dat ik een gevaarlijke gek zou zijn voor mijzelf als ik het niet deed. Mijn gerespecteerde eerste baas, Toon Weijnen, vond - denk ik zo - in het boek dat ik schreef aanleiding om mij te vragen voor een ZWO-project ter voorbereiding van het Woordenboek van de Brabantse Dialecten en daarna om mij aan deze universiteit te doen benoemen. Zo noem ik voorop een drietal mensen naar wie mijn goede gevoelens en dankbaarheid vandaag uitgaan.

Geen college in mijn leven heeft mij bij de voorbereiding zoveel hoofdbrekens gekost als dit laatste. Bij een gewoon college mag je natuurlijk geen onzin vertellen, maar de mogelijkheid van discussie maakt dat men toch ook wel eens een hachelijke stelling kan betrekken. Graag had ik met u gediscussieerd, al moet ik zeggen dat de snelheid van mijn wapens, voorzover al ooit aanwezig, deerlijk achteruitgaat. Dit is de samenhang waarbinnen ik mijn dank wil uitspreken aan al die studenten, niet alleen aan deze universiteit maar - sta mij toe - ook bij de middelbare opleidingen van Tilburg, Utrecht en Arnhem, die door hun belangstelling en hun weerwerk zoveel geluk hebben gebracht in mijn bestaan als onderwijzer. Ik zou willen dat ze net zoveel van mij hebben geleerd als ik van hen.

Jarenlang heb ik mogen werken binnen de sectie Nederlands. Daar heb ik mij altijd betrekkelijk thuis gevoeld en ik heb getracht dat uit mijn laatste referaat te laten beluisteren. Mijn collega's daar dank ik voor hun vriendschap en verdraagzaamheid. Veel, maar niet alles, van wat haar studenten bezield heeft deed mijn bloed stromen en mijn hart kloppen. De neergang, ja de ondergang die de laatste jaren zich voltrekt, spijt mij diep.

In de Afdeling Computerlinguïstiek hebben wij, staf en studenten gezamenlijk, zowel op het gebied van onderwijs als dat van onderzoek, een aantal jaren dingen gedaan die beantwoordden aan de ideeën die wij hadden over het vak en onze rol daarin. Ik dank Piet Rolf en Peter-Arno Coppen voor hun kameraadschap.

De Vakgroep Taal en Spraak was mijn laatste milieu. Door omstandigheden heb ik in haar reilen en zeilen niet meer intensief geparticipeerd. Ik dank mijn collega's voor de welwillendheid waarmee ze mij wat hebben laten rommelen.

Mijn leeropdracht, eenmaal voorwerp van manipulatie in bezuinigingsoperaties, bestaat nu verder als de tekst van het Onze Vader in het hoofd van een apostaat: een dode letter. Misschien komt dat omdat het ons mankeert aan mondiale bekendheid en erkenning. Ik troost mij met de gedachte dat de idee van een universiteit daarmee in elk geval niets te maken heeft.

Terugtredend uit het ambt treedt men weer in de vertrouwde omgeving die het meest eigen is. En zij die daar zijn, en vooral zij die daar is, vragen: waar ben je toch al die tijd geweest. Mijn lieve kinderen en kleinkinderen en jij, mijn lieve Gonny, ik dank jullie dat je op mij hebt willen wachten. Hier ben ik weer. Laten we, met enige hybris, doen alsof er niets gebeurd is.

Ik dank U allen, dat U hier heeft willen zijn. Ik dank U voor Uw oplettendheid. Ik groet U allen zeer.

Noten

1. Er is nog een derde betekenis van de term syntaxis nl. de taalkundige beschrijving van die syntaxis in de eerste of tweede betekenis.
Terug

2. Misschien is het ook mogelijk het tweede deel bepaling te noemen bij het eerste.
Terug

3. Zie bijlage 1 voor vertalingen van de middelnederlandse voorbeelden.
Terug

4. De verplaatsing treedt hier op in een hoofdzin. Syntactisch beoordeeld is het dezelfde movement als welke in bespreking is. Zie ook voorbeeld (7) hierboven. Vgl. Pieters (1980).
Terug

5. Die figuur is aangetroffen in: Karel ende Elegast (3 maal), Vanden Vos Reynaerde (1 maal), Beatrijs (1 maal), Ruusbroec (3 maal), Gloriant (7 maal)). Vgl. ook Van Bakel (1981).
Terug

6. Overigens, wanneer een theoretisch gemotiveerd linguïst historisch-syntactische uitspraken zou willen doen, bv. over verplaatsingen binnen de bijzin zoals boven besproken, zou hij genoodzaakt zijn kwesties van beïnvloeding uit het latijn en/of frans, zoals behandeld door Verwijs pag. xxii vv., daarbij te betrekken.
Terug

7. In Van Bakel (1976) is aandacht gegeven aan het empirische karakter van de historische taalkunde, zij het met andere accenten dan hier gebeurt.
Terug

8. Verschillende studenten Nederlands hebben in het kader van hun studieprogramma sommige van deze teksten eerder gecodeerd. Het betreft Drs. J. van Maren (Huet en Potgieter), Drs. E. Philippens (Gloriant), Drs. H. van Santen (Bontekoe), Dr. A. Wijngaards (Vestdijk). Hun doeleinden waren eerder stilistisch dan syntactisch. De coderingen werden opnieuw vastgesteld, zodat eventuele fouten thans geheel voor mijn rekening zijn.
Terug

9. In feite golden de opvattingen van Rijpma-Schuriga (1968) als uitgangspunt.
Terug

10. Men bedenke dat structuren zoals boven toegekend aan een aantal middelnederlandse zinnen in het hoofd van de codeerder moesten bestaan, vooraleer ze uitdrukking konden krijgen in de codering en ''gedetecteerd'' konden worden door de boombouwende tweede stap van het systeem.
Terug

11. Het programma syntanal werd beschreven in: Van Bakel (1970). In technische zin was de wijze van karakterisering van de woordgroepen een zgn. bottom-up parsing: er wordt een boomstructuur gebouwd op de hiërarchisch laagste groepen, waarna deze op hun beurt worden opgenomen binnen later gedetecteerde bomen van hogere rang. Als laatste komt dan de karakterisering van de hoogste eenheid, de zin, aan bod.
Terug

12. De problematiek is uitvoerig behandeld in Reuland (1979). Deze studie zou zeer veel aangrijpingspunten kunnen leveren voor historisch-syntactisch onderzoek.
Terug

13. De Reinaert, die 19855 syntanal-woorden telt bij 1301 zinnen, is in het onderzoek vertegenwoordigd door een steekproef van 260 zinnen. In Bijlage 4 wordt een aantal kwantitatieve eigenschappen van de verschillende bronnen opgesomd. Gecodeerde bestanden en alle boomstructuren en analyse-resultaten zijn in computer-leesbare vorm beschikbaar.
Terug

14. Ik dank hartelijk Dr. Martien van 't Hof, Dr. Erik Schils en Dr. Toni Rietveld voor hun adviezen en hulp bij deze onderneming. Martien dank ik bij deze gelegenheid ook voor de prettige samenwerking op het terrein van statistiek en kwantitatieve taalkunde binnen het Instituut Nederlands.
Terug

15. Of misschien toch eentje, zij het met een zeer zwakke signifikantie: het gebruik van het lidwoord van bepaaldheid. Maar dat is natuurlijk weinig boeiend: het middelnederlands kende i.p.v. de en het nog die en dat, en die woorden werden gecodeerd als voornaamwoorden. Geteld als bepaald lidwoord werden wel bider, totten, aenden, opt, den e.d.
Terug

16. De eerste kennismaking met de formele Chomskyaanse taalwetenschap had in onze faculteit plaats door een voordracht van Dr. A. Kraak op 25 april 1967, getiteld Genereren en transformeren. De uitnodiging ging uit van het bestuur van Het Gilde Achter 't Vercken. (Informatie van Mevr. Frieda Wassenberg.)
Terug

17. Vgl. P.C. Muysken, Syntactische veranderingen, in: Koefoed en Van Marle (red.) (1978) pag. 179.
Terug

18. Uitvoeriger werd over de meeste van deze punten gesproken in Van Bakel (1983).
Terug

19. Kortheidshalve worden genoemd: Van Bakel (1975) (vooral syntactisch). Van Bakel (1984) (syntactisch en semantisch). Montague-grammatica en GB-theorie: ZWO project 30-145, afgerond in Coppen (1991). Automatisch vertalen: ZWO-project 30-224, af te ronden in A. Stoop (te verschijnen). Voor meer details zie men de Verslagen Computerlinguïstiek passim.
Terug

20. Brandt Corstius (1978), pag. 110.
Terug

21. Vgl. Seuren (1974) en (1985).
Terug

Terug naar boven