|
Corpus van Middelnederlandse Teksten 0Aan de eerste reeks van wat kortweg het Corpus-Gysseling heet zijn velerlei aspecten van wetenschappelijke werkzaamheid die in een bespreking de aandacht vergen: de verzameling van de bescheiden, de interpretatie en bewerking ervan, de ordening en de wijze van presentatie, de annotatie en de openlegging in analytische registers. Vanzelfsprekend zal het verder gaan niet alleen om karakterisering, maar ook om een poging tot evaluatie van het gepresenteerde. Van de eerste vier delen van het werk, die de teksten bevatten, is een gering aantal pagina's besteed aan een verantwoording van de zijde van de uitgever, in de vorm nl. van een Woord Vooraf van acht en een halve pagina. De lezer vindt daar o.a. gegevens over de geschiedenis van het projekt, dat de uitgave behelst van alle Nederlandse teksten van vóór 1301 die ofwel in origineel ofwel in 13e eeuws afschrift beschikbaar zijn. Hoewel nu alleen de ambtelijke bescheiden worden aangeboden, ligt het in de bedoeling om ook alle literaire handschriften met hun glossen uit te geven. De inspiratie voor het werk ging uit van het Corpus der altdeutschen Originalurkunden bis zum Jahr 1300 van Friedrich Wilhelm, dat verschenen is vanaf 1929. Dit werk bevatte ook de meeste Noordnederlandse en enkele Zuidnederlandse oorkonden. Jozef Van Cleemput, de in 1958 omgekomen Belgische onderzoeker, heeft in 1957 zijn plan ontvouwd om te komen tot de uitgave van een overeenkomstig Nederlands corpus. Dr. Maurits Gysseling heeft sinds 1960, het jaar van de voltooiing van zijn Toponymisch Woordenboek, zijn gehele werkkracht gegeven voor de uitvoering van dat plan. Het is onvoorstelbaar welk een enorme hoeveelheid werk daarvoor door hem persoonlijk moest worden verzet en welk een reeks van deskundigheden daarvoor noodzakelijk waren. De bijna onafzienbare rij van dankbetuigingen laat, mirabile dictu, eerst goed beseffen hoe immens het werk geweest moet zijn. Wat nu verwezenlijkt werd is misschien niet het gestelde doel in zijn volledigheid - dat immers is nauwelijks bereikbaar - maar aangenomen mag wel worden dat het aantal ambtelijke bescheiden dat in de uitgave ontbreekt miniem is (pag. XI, dl. 1). Het gebied dat in het onderzoek betrokken werd is het Middelnederlandse taalgebied met inbegrip van het noordwesten van het department Pas-de-Calais en het Nederrijnse gebied Kleef-Geldern, evenwel zonder de Oudfriese gewesten, met name de provincie Groningen. De einddatum voor opneming van bescheiden is 31 december 1300, een regel die met slechts een gering aantal uitzonderingen werd aangehouden. Wat niet werd opgenomen is het Oudste Goederenregister van Oudenbiezen (1280 -), waaruit overigens wel enkele uittreksels werden opgenomen. Dat register is nl. recentelijk geheel uitgegeven.1 De auteur doet geen moeite het ontbreken van dat register in zijn compilatie nader te verantwoorden. Hij acht dat blijkbaar vanzelfsprekend, zoals ook de bezorgers van de Woordindices dat deden.2 Beneden zullen we terloops op de kwestie terugkomen. Het woord vooraf geeft verder een nauwkeurige beschrijving van de regels die voor het diplomatisch uitgeven werden gehanteerd. De lettertekens u, v, i, j, uu en w werden weergegeven zoals ze aangetroffen werden in de bronnen; accenttekens werden boven a, e, o, u en v behouden, boven de i en j alleen als ze fonetische waarde zouden kunnen hebben; afkortingen werden opgelost doch gecursiveerd, met uitzondering van de Latijnse; de ligaturen voor et werden beide weergegeven met &. Leestekens en het onderscheid hoofdletter/kleine letter werden zo getrouw mogelijk uit de handschriften overgenomen. Evidente schrijffouten werden hersteld. Ook vindt de lezer nauwkeurige toelichting over de wijze waarop werd getracht moeilijk leesbare fragmenten te ontcijferen. Verantwoording vindt men ook van de manier waarop interpolaties, reconstructies en invoegingen van de uitgever in de teksten werden aangeduid. De ordening van de documenten is chronologisch, met dien verstande dat ongedateerde stukken werden ingevoegd op de plaats van de laatst mogelijke ontstaansdatum. In het geval er van dezelfde tekst meer originelen zijn wordt elk daarvan geheel afgedrukt, behalve wanneer de verschillen zo gering zijn dat ze gemakkelijk in voetnoten kunnen worden verantwoord. De verschillende versies worden tezamen onder hetzelfde nummer geplaatst. Onmiddellijk op het woord vooraf volgt een alfabetisch register van schrijfcentra met verwijzingen naar de teksten die daaruit afkomstig zijn. De gepubliceerde documenten zijn doorlopend genummerd. Per nummer geeft de uitgever allerlei aanvullende informatie. Er wordt aangegegeven waar het document zich bevindt, waar het eerder gepubliceerd is, welke hand het schreef, de datering van die hand, welke andere documenten van diezelfde hand zijn, welke zegels zijn aangehecht, wat ze te lezen geven en in welke staat ze zich bevinden. Nuttig zijn ook de korte samenvattingen van de inhoud van het stuk door de uitgever. De annotaties beperken zich tot zuiver handschriftelijke zaken: boven de regel geplaatst, uitgekrabd, de tweede x is door een andere hand met andere inkt toegevoegd, e.d. Er is geen enkele poging gedaan om de zuiver wetenschappelijke staat van het werk te mitigeren door verklarende toelichtingen. Dat is positief te waarderen, want de waarde van de uitgave zou er ten zeerste door gerelativeerd zijn. Wat de lezer nu in handen heeft is de enig denkbare en de best denkbare garantie van het blijvende bezit als de oorspronkelijke stukken ooit verloren mochten gaan. De vroegste bronnen van het Middelnederlands zouden eenvoudig niet op betere wijze gepresenteerd kunnen worden (wel op wat zwaarder papier). De laatste vijf delen, tezamen bevattende 3719 pag. ofwel 56 procent van het geheel, bieden, met een inleiding daarop van de hand van W. Pijnenburg, een viertal indices: 1. een alfabetische index, die alle woordvormen geeft, voorzien van aanduidingen voor alle plaatsen waar ze voorkomen en van hun absolute frekwentie; 2. een retrograde index, waarin zonder verwijzingen alle woordvormen zijn opgenomen, retrograde alfabetisch gerangschikt; 3. een index naar frekwentie, waarin alle woordvormen zijn opgenomen, geordend naar afnemende frekwentie en binnen dezelfde frekwentieklasse alfabetisch; per woordvorm wordt de absolute frekwentie en het rangnummer aangegeven; 4. een index naar woordlengte, waarin alle woordvormen worden gegeven, geordend naar aflopende woordlengte en binnen dezelfde woordlengte-klasse alfabetisch.Over de frekwentielijst wil ik opmerken, dat het ontbreken van sommeringen van alle voorafgaande frekwentieklassen bij iedere frekwentieklassen afzonderlijk een essentieel gebrek is: zolang de totalen niet bekend zijn is het onmogelijk met de gegevens te rekenen. De indices leveren alle informatie die beoogd werd en ze zijn dus volmaakt in hun soort. Men kan zich nochtans afvragen waarom nu juist de genoemde vier indices bij het corpus werden geproduceerd en niet bepaalde andere. Afgezien van de alfabetische index met plaatsaanduidingen verdienen ze nl. als zodanig kritiek. Het feit dat ze werden geproduceerd zal alles te maken hebben met het gemak; aan het nut kan men twijfelen. De bewijslast daaromtrent ligt bij de auteurs: wie bepaalde lijsten produceert moet zelf de zin ervan verantwoorden, ofwel door er zelf iets zinvols mee te doen of door zinvolle veronderstellingen te formuleren over een zinvol gebruik. Maar ook bij de alfabetische index rijzen ernstige vragen. Ik denk niet aan de omstandigheid dat de gebruiker de woordvormen in vele gevallen tevoren moet kennen om van de documentering nut te hebben. Men kan pas nut hebben van een informatie over diehidaer als men weet dat die vorm voorkomt; wie niet weet dat het bestaat zal de vorm niet zoeken. Het ligt echter wel voor de hand dat soort informatie op de koop toe te nemen, ook al is de zin illusoir. Ik heb bedenkingen van andere aard. In deel 5, het eerste van de vijf waarover de indices zich uitstrekken, telde ik voor de woorden die een frekwentie hebben groter dan 1000, de onopzoekbare woorden zou men kunnen zeggen, ongeveer 438 gedrukte pagina's op de 1807 die het deel omvat, Dat is ruim 24 procent van de beschikbare ruimte. Het ging om de woorden: &, al, alles, als, alse, also, an, bi, d, daer, daghe, dar, dat, de, den, der, des, desen, die, dien, dit, doen, een, elke, ende (44855, 116 pag.), enen en es. Zoals men ziet nauweijks woorden waarvoor iemand een woordenboek raadpleegt. De wat akelige conclusie is, dat de ruimte die benodigd is omgekeerd evenredig is met het belang van de informatie. Wil men staande houden dat de informatie toch nuttig is, dan lijkt de wijze waarop b.v. de gebruiksgevallen van ende onder controle van de gebruiker gebracht worden minstens niet erg gelukkig. Het is een extreem geval, maar daaraan zijn theorieën het best te toetsen. Zo volgt onontkoombaar dat de gekozen methode ongeschikt is voor het doel. Wat men nastreeft is kennelijk de gebruiker alle plaatsen aan te reiken waar de woorden waarvoor hij zich interesseert voorkomen. Omdat men niet weet welke dat zijn, geeft men ze allemaal. Dat is logisch, maar het voert in veel gevallen hoegenaamd niet tot het doel. Is het overwegenswaardig bij de volgende publicaties de documentatie voor onopzoekbare woorden dan maar achterwege te laten? Dat is niet zo eenvoudig te bepalen. In de eerste plaats ligt de kwestie bij een kleiner tekstbestand heel anders dan bij een grote hoeveelheid materiaal. De grootheid 'onopzoekbaar' is geen constante. Vervolgens hangt het af van de vraag hoe men zich een woordarchief van het Nederlands voorstelt. Dr. P. van Sterkenburg definieert het als een verzameling woorden uit een corpus van geanalyseerde teksten die al of niet geautomatiseerd zijn.3 Dat maakt nog niet helemaal duidelijk wat men zich bij het INL (Dr. Gysseling staat er kennelijk buiten) voorstelt als men spreekt van "bouwstoffen voor een woordarchief". Hoe ziet dat archief eruit? Is dat een reeks tekstuitgaven met indices? Een reeks woordenboeken? Wil men tegemoetkomen aan iedere wetenschappelijke belangstelling4 dan zal men wellicht de keuze niet tot één van deze kunnen beperken. Het heeft er de schijn van dat de bedoeling is een woordarchief in verschillende brokstukken te publiceren. Dat blijkt b.v. uit de wijze waarop gekozen is met betrekking tot het al of niet opnieuw opnemen van het goederenregister van Oudenbiezen. Wilde men alle woorden van vóór 1301 samenbrengen, dan had dat register weer toegevoegd moeten zijn. Onduidelijk is of het corpus van teksten gezien wordt als een deel van het archief. Is dat niet het geval, dan zouden we ook nog eens indices zonder tekst tegemoet kunnen zien. Is dat onvoorstelbaar, dan gaat het om een woord- en tekstarchief. Maar hoe dan ook, voorlopig lijkt het erop dat de gebruiker een van jaar tot jaar gecompliceerder zoekwerk te wachten staat. Moeilijk voor eens en voor altijd te beantwoorden is de vraag hoe vaak men een eventueel verouderd (of niet meer verkrijgbaar) boek van enige soort opnieuw zal produceren. Wat vaststaat is alleen, dat geen enkele onderzoeker precies zal krijgen wat hij nodig heeft. Misschien wil hij nu juist wel iets weten met betrekking tot zo'n weggelaten onopzoekbaar woord. Het is voor mij volstrekt duidelijk dat er geen heil te verwachten is van de gevolgde methode. Het bestaande WNT blijkt na een eeuw zowel verouderd als onaf; de weg die nu gekozen lijkt te worden met het Corpus-Gysseling ligt niet minder vol dodelijke stenen en is kostbaar bovendien. Het moet wel anders naar het schijnt. Mij dunkt dat alle consequenties getrokken zouden moeten worden uit het feit dat men niet weet in welke woorden de gebruiker geïnteresseerd is. Voor mij is duidelijk wat dat betekent: men geeft de plaatsen niet aan, maar laat de gebruiker zeggen wat hij wenst. Het is weinig orthodox binnen de traditionele lexicografische projecten, maar in een geautomatiseerde omgeving is het in al zijn eenvoud zeer praktiseerbaar. Ik zou in het verband van dit soort kwesties willen bepleiten, dat het INL overweegt af te stappen van de gedachte dat onderdelen van het geplande Woordarchief van de Nederlandse Taal moeten worden gedrukt en uitgegeven. Een aantal jaren geleden heb ik een bespreking gegeven van een werk dat naar zijn methodiek vergelijkbaar was met het nu besprokene.5 Ik heb nog eens nagelezen wat ik daar schreef om te zien of mijn mening correctie behoefde. Een verschil is wel, dat ik intussen boter op mijn hoofd heb door de produktie van een grote woordenlijst in mijn uitgave van de Vlaamse Soldatenbrieven uit de Napoleontische tijd, maar dat mag natuurlijk niet meewegen.6 Hoewel het nu gaat om een reeks documenten die uit een oogpunt van taalhistorie en ook uit algemeen cultuurhistorisch gezichtspunt van onschatbare waarde zijn en van groot gewicht voor de studie van het Middelnederlands, handhaaf ik ten volle wat ik destijds geponeerd heb: men geeft met de indices de gebruiker zowel teveel als te weinig, de verzameling is onuitbreidbaar en rigide. Daar komt bij dat er zonder noodzaak grote sommen geld naar de uitgevers vloeien - geld dat beter besteed kan worden - en dat iedere gebruiker van het materiaal meebetaalt voor wat zijn collega wil weten. Wat ik bepleit houdt ook in dat men afziet van het plan tot publikatie van een Vroegmiddelnederlands Woordenboek (VMNW). Laat ik proberen enigszins gedetailleerd te formuleren wat een m.i. praktischer en waarschijnlijk ook goedkoper en minder bewerkelijk alternatief zou kunnen zijn. Van teksten waarvan is vastgesteld dat ze voor een Woordarchief van de Nederlandse Taal (WANT) geëxcerpeerd zullen worden, worden langs semiautomatische weg (b.v. met een lichtpen op een scherm) de woorden gecodeerd die van belang zijn. De op één plaats gecodeerde woorden worden automatisch overal gecodeerd. De tekst moet dus integraal machine-leesbaar zijn. Dat lijkt geen extra kostbare eis, gezien de waarschijnlijkheid dat dat in de toekomst met het overgrote deel van alle teksten het geval zal zijn. Dr. P. van Sterkenburg heeft er al eens voor gepleit dat het INL de beschikking zou krijgen over machine-leesbare teksten die op drukkerijen als restprodukten fungeren.7 Hij heeft op het belang daarvan voor een WANT gewezen. Langs automatische weg worden vervolgens van de gecodeerde woorden context-records geproduceerd, laten we zeggen ter lengte van een zin. Ieder record wordt automatisch gecodeerd voor: woordvorm, auteur,werk, genre, jaar (en mogelijk nog een paar andere parameters). Het wordt toegevoegd aan een data-base die als ingangen heeft: woordvorm, auteur, werk, genre, jaar (en mogelijk nog een paar andere). Op het instituut waar het WANT berust, het INL dus, werkt een kleine staf voor onderhoud en gebruik van de data-base. De redacteuren zijn permanent bezig met het selecteren van teksten en woorden. Ze schrijven geen taalwetenschappelijke artikelen meer, zoals we aantreffen in het gedrukte WNT dat wij kennen; dat is immers een werkzaamheid die theoretisch van aard is en met archivering niets te maken heeft; bovendien wil iedere onderzoeker toch altijd liever zijn eigen theorie en zijn eigen interpretatie. Het WANT bevat dus niets anders dan bewijsplaatsen en deze ongelemmatiseerd. Het lijkt onwaarschijnlijk dat het mogelijk zou zijn een lemmatiseringsprogramma te ontwerpen dat, toegepast op grote schaal, voor alle soorten Nederlands geschikt zou zijn; ook dergelijke programmatuur voor afzonderlijke fases van het Nederlands is nauwelijks realiseerbaar in zodanige vorm dat een betrekkelijk snelle verwerking gegarandeerd en een acceptabel percentage fouten geproduceerd zou worden. Het eerste is uitgesloten, aangezien een eenduidige lemmatisering voor 99 procent van de zinnen een syntactische analysering vraagt. (Zo zijn in de vorige zin de woorden het, voor en zinnen meerduidig.) Het tweede is onmogelijk omdat voor anderen dan de ontwerpers, zoals iedereen weet, ieder foutenpercentage groter dan nul onaanvaardbaar is. Geen lemmatisering dus.8 Dat is te minder bezwaarlijk als men overweegt dat de bereikte ordening enigermate een theoretische paraplu over de gegevens zou zijn; het is evident dat het materiaal het best zo dicht mogelijk kan blijven bij de status van ruwe, onbewerkte data. Naast de data-base, die het hart van het WANT is, bestaat natuurlijk altijd nog de machine-leesbare collectie van oorspronkelijke teksten. Ze berusten op magnetische tape. Ze vormen een immens databestand dat in deze vorm ook een zeker continu onderhoud vergt. Eén persoon kan die zaak beheren en zonodig belangstellenden door middel van afzonderlijke programmatuur toegang tot een onverkorte tekst geven. Zo kunnen woorden als ende, die buiten de data-base staan, toch voor bepaald onderzoek benaderd worden. Het INL verzorgt via de tijdschriften geregeld berichten over de status van het aanwezige materiaal. Het laat potentiële gebruikers weten langs welke weg men automatisch via eigen terminals vanaf iedere plaats ter wereld het bestand kan benaderen met eigen vragen en hoe men de antwoorden op de eigen printer of op het eigen scherm kan laten verschijnen. Men moet daarvoor natuurlijk een bepaald abonnementsgeld hebben voldaan. Het systeem laat de insolvente abonnee niet meer toe. Gebruikers die niet over een eigen terminal beschikken kunnen schriftelijk verzoeken om het antwoord op bepaalde vragen. Ze sturen een formuliertje in en een functionaris van het INL raadpleegt het systeem. Hij krijgt op bepaald formaat via de printer keurig alle documentatie welke vervolgens wordt opgestuurd naar de gebruiker, die de formulieren netjes opbergt in zijn eigen bibliotheek. Een soort WNT dus, met alleen die dingen waarin hij geïnteresseerd is. En daarvan niet één enkele bewijsplaats uit een of ander werk, geselecteerd door een redacteur die uiteraard niet kan weten wat de gebruiker precies wenst, maar alle voorkomens uit iedere gewenste deelverzameling van de data-base: die woorden, die auteurs, die werken, die jaren, dit genre; of mogelijk nog andere criteria. Ik wil, voor de duidelijkheid en ten overvloede wellicht, wijzen op de mogelijkheid bepaalde aangepaste programmatuur te ontwikkelen waardoor de data-base wordt ondervraagd met betrekking tot een samenhangende reeks van woordvormen tegelijkertijd. De gebruiker die geïnteresseerd is in gebruiksgevallen van zulk een reeks zou die reeks moeten definiëren; het standaardprogramma zou in één enkel zoekproces alle relevante bewijsplaatsen opsporen. Ik ben er mij wel van bewust dat lang niet alles van wat ik suggereer en voorstel nieuw is. Het is mij bekend dat dr. F. de Tollenaere er al lang geleden op heeft gewezen, dat een woordarchief van de Nederlandse taal een bestand op de computer zou zijn dat niet gedrukt zou worden. Maar de praktijk van de laatste jaren doet vrezen, dat, voordat het allemaal functioneert, wel alle delen ervan in het licht gegeven zullen worden. In dat verband zijn mijn opmerkingen wellicht toch niet overbodig. Misschien zal iemand opmerken dat binnen een WANT van boven beschreven structuur geen alfabetische lijst verkregen kan worden van b.v. de woorden die op -igghe eindigen, die uit vijf letters bestaan of die een bepaald aantal malen voorkomen. Dat is inderdaad zo. De opmerking betekent echter dat men zoiets zinvol zou vinden. Als het voorgestelde systeem die wens niet op eenvoudige wijze kan inlossen en ik niettemin het systeem voorstel, betekent dat inderdaad dat ik de wens niet zinvol vind. Als men een WANT aanlegt, werkt men voor het ruime terrein van de linguïstiek en de filologie. Binnen deze terreinen heb ik nog zo weinig gebruik zien maken van gegevens die de laatste drie indices bieden dat ik ernstig betwijfel of het wel zinvol is ze te produceren. In elk geval kunnen de twee of drie belangstellenden beter ad hominem bediend worden dan met een kostbaar vijfdelig werk. In het voorgaande zijn een aantal kritische opmerkingen geplaatst, echter uitsluitend bij de indices en geenszins bij de teksten. Als ik mij vrijmoedig begeef in een discussie over de taken van het INL mag ik nog wel opmerken, dat het mij een uitstekend idee lijkt dat instituut de bezorging van dergelijke teksten als taak toe te denken. De grote hoeveelheid technische kennis en ervaring die verzameld en de mate van professionaliteit die bereikt is kunnen zulk een keuze alleen maar ondersteunen. De overwegend negatieve toonzetting van mijn bespreking vindt zijn grond in de vrees dat het met het INL en zijn activiteiten de verkeerde kant zal opgaan. Het is van het grootste belang dat de mogelijkheden van de automatisering op juiste wijze worden benut. Er is bij meer dan een gelegenheid betoogd dat ieder tijdperk zijn eigen tekstuitgaven en zijn eigen woordenboeken eist. Laten dat voor onze tijd tekstuitgaven zijn van de kwaliteit die Dr. Gysseling ons heeft geboden. En laten het geen woordenboeken meer zijn, maar een universeel geautomatiseerd woordarchief zonder theoretische belasting, in het INL te Leiden. Jan van Bakel, Nijmegen 1980 NotenTerug naar boven0.
Corpus van Middelnederlandse Teksten (tot en met het jaar 1300),
uitgegeven door Maurits Gysseling m.m.v. en van woordindices voorzien door Willy Pijnenburg;
Reeks I: Ambtelijke bescheiden; 9 dln., XXVII en XVII en 6609 pag., f 1500,- of $ 833.35.
Bouwstoffen voor een Woordarchief van de Nederlandse Taal, Martinus Nijhoff, 's-Gravenhage 1977.
Deze boekbespreking werd gepubliceerd in Forum der Letteren 21 (1980) 1 (maart) 56-62.
1.
J. Buntinx en M. Gysseling, Het Oudste Goederenregister van Oudenbiezen (1280 - 1344),
I Tekst; Tongeren 1965. Nr 11 in de reeks Werken uitgegeven door de Koninklijke Commissie
voor Toponymie en Dialectologie. In de reeks Bouwstoffen voor een Woordarchief van de
Nederlandse Taal verscheen hierbij: F. de Tollenaere en W. Pijnenburg, Woordindices
bij (etc.), Martinus Nijhoff, 's-Gravenhage 1977. Dit werk bevat indices van geheel dezelfde
vorm als in het besproken werk opgenomen zijn.
2.
Zie de genoemde publicatie van De Tollenaere - Pijnenburg, pag. 7.
3.
Forum der Letteren, 17 (1976) 23. De definitie, die ik niet helemaal
letterlijk citeer, is niet eenduidig.
4.
Voor het goede begrip: ik spreek hier niet over woordenboeken die een functie hebben in het
onderwijs: een middelnederlands handwoordenboek, een 17e-eeuws woordenboek,
een toneel-woordenboek en wat men zich in deze categorie allemaal zou kunnen voorstellen.
5.
P.K. King, Complete Word-indexes to J. van den Vondel's Bespiegelingen van
Godt en Godtsdienst etc, Spiegel der Letteren, 15 (1973-74), 285.vv.
6.
Trouwens, dat taalgebruik lijkt mij niet erg in aanmerking te komen voor selectie
voor een woordarchief der Nederlandse taal en mag dus afzonderlijk toegankelijk gemaakt worden.
7.
Forum der Letteren, t.a.p. Een stelling in zijn dissertatie had feitelijk dezelfde strekking.
8.
Werkzaamheden voor de ontwikkeling van een programma voor automatische lemmatisering
denk ik mij, als zijnde van morfologische aard, buiten het werkterrein van het INL.
|