Peter-Arno Coppen en Diana van der Ende
Criteria in de Technolinguïstiek

Inleiding

In Van Bakel (1983) wordt een eerste aanzet gegeven tot het bepalen van een methodologie van de computerlinguïstiek. In zo'n eerste aanzet past een ruime aandacht voor het object en het doel van modellen die binnen de computerlinguïstiek ontwikkeld worden. Het spreekt dan ook vanzelf dat Van Bakel met betrekking tot criteria waarmee modellen kunnen worden vergeleken, de volgende uitspraak doet:

" Bij het testen van een semantisch-syntactische theorie over zinnen van een natuurlijke taal zal van de op de computer gesimuleerde theorie geëist moeten worden dat die aan de zin de juiste syntactische structuur toekent en vervolgens de daarmee overeenkomende betekenis uitdrukt."

Wat deze juiste structuur en betekenis precies inhouden, is de vraag waar Van Bakel zich in zijn opstel voornamelijk mee bezighoudt. Het antwoord is, dat structuur en betekenis enerzijds door de toepassing, en anderzijds door de theorie bepaald worden. Met andere woorden: criteria voor het evalueren van taalverwerkende modellen zijn:

1 Zijn de uitkomsten in overeenstemming met de linguïstische theorie?
2 Zijn de uitkomsten adequaat voor de doelstelling waarmee het model ontworpen is?

Het is opvallend, dat geen van de door Van Bakel voorgestelde criteria de interne structuur van taalverwerkende modellen betreft. Men mag hieruit opmaken, dat slechts algemene eisen als helderheid, consistentie en efficiëntie van toepassing zijn¹ . Maar hoe dienen taalverwerkende automaten die dezelfde uitkomsten² geven, beoordeeld te worden? Evaluaties op grond van efficiëntie of compactheid alleen lijken in ieder geval niet het wetenschappelijk juiste antwoord.

Ter beantwoording van deze vraag kan het best een onderscheid gemaakt worden tussen taaltechnologie en technolinguïstiek³ . De taaltechnoloog is voornamelijk geïnteresseerd in de implementatie van taalverwerkende automaten. In de taaltechnologie gelden als belangrijke criteria: bereik van het model, snelheid, compactheid, portabiliteit. De technolinguïst echter is voornamelijk geïnteresseerd in de formalisatie en implementatie van linguïstische theorieën. Het eerste criterium in de technolinguïstiek voor de evaluatie van een taalverwerkend model is dus:

3 Is het model een adequate implementatie van een adequate formalisatie van een linguïstische theorie?

De eisen die de taaltechnologie aan modellen stelt, komen pas op de tweede plaats. Strikt genomen zou een model dat minder feiten beschrijft, maar een betere weergave van de linguïstische theorie is, hoger gewaardeerd worden.

Tot nog toe is de term Computerlinguïstiek gebruikt als verzamelnaam voor taaltechnologie en technolinguïstiek. De meeste wetenschappers die werkzaam waren binnen de automatische taalverwerking konden beschouwd worden als een mengeling van taaltechnoloog en technolinguïst. Beide disciplines zijn aan elkaar gerelateerd door de oeroude gedachte, dat de implementatie die het dichtst bij de linguïstische theorie blijft, op den duur de meest efficiënte zal zijn. Door de hoge vlucht die de technologie de laatste jaren heeft genomen, is echter vaak een technologische oplossing op korte termijn te prefereren boven een theoretische oplossing. Vaak zullen bijvoorbeeld gigantische woordenlijsten kunnen worden gebruikt in plaats van morfologische regels, connectionistische netwerken in plaats van theoretische algoritmen. Op dat moment komt het verschil tussen de taaltechnoloog en de technolinguïst het meest pregnant naar voren.

In dit artikel willen we de methodologie van de technolinguïstiek nader uitwerken langs de lijnen die Van Bakel heeft uitgezet. Daarbij constateren we op de eerste plaats, dat criterium 2 een taaltechnologisch criterium is. In de technolinguïstiek speelt het slechts een ondergeschikte rol⁴ .

Hoe kan men twee taalverwerkende modellen vergelijken, die dezelfde analyse bieden bij dezelfde zinnen? Het antwoord moet zijn: door te kijken naar de modulaire organisatie van het model. De eis moet dan zijn, dat de verschillende (onafhankelijke maar met elkaar interfererende) modules dienen te beantwoorden aan verschillende abstracte theoretische principes. Hoe meer het model daarin slaagt, hoe hoger het gewaardeerd moet worden als technolinguïstische implementatie.

Deze eis dient overigens niet opgevat te worden als de eis dat de modules van de implementatie identiek moeten zijn aan abstracte theoretische principes. Ook dienen abstracte theoretische principes niet verward te worden met formalisaties ervan. Een goed voorbeeld is de regel move alpha. Deze regel is zelf geen abstract theoretisch principe, maar een formalisatie. Het principe is, dat zinsdelen relaties kunnen onderhouden met (eventueel oningevulde) posities in de zin. Move alpha is één manier om dit principe te formaliseren, maar niet de enige. Een implementatie waarbij verschillende instanties van dit principe als aparte module geformaliseerd zijn, beantwoordt net zo goed aan de theorie als een implementatie op basis van de move alpha-formalisatie.

We zien dus, dat de eis dat de verschillende modules van de implementatie aan abstracte theoretische principes dienen te beantwoorden, geen één-op-één-relatie noodzakelijk maakt. Wat wel geëist kan worden is, dat iedere afzonderlijke module⁵ direct gemotiveerd kan worden vanuit een theoretisch principe. Anders geformuleerd komt dit neer op de eis, dat het taalverwerkende model geen enkele regel bevat die niet-linguïstisch gemotiveerd is.

Wanneer we de relatie tussen theoretische principes en geïmplementeerde modules (of regels) beschouwen als een functie F met als domein de verzameling van principes P = {p₁ ... p_n}, en als bereik de verzameling van modules M = {m_i ... m_m}, dan kunnen we de eisen ten aanzien van deze relatie als volgt preciseren:

4 Voor ieder element m_i van M bestaat er ten minste één element p_j uit P, zodanig dat m_i in F(p_j) .

Deze eis garandeert, dat iedere module uit de implementatie gemotiveerd wordt vanuit een linguïstisch principe. Bij uitbreiding kunnen we deze eis nog aanscherpen tot:

5 Voor ieder element m_i van M bestaat er één en slechts één element p_j uit P, zodanig dat m_i in F(p_j) .

Deze eis stelt, dat geen module uit de implementatie gemotiveerd is vanuit twee of meer theoretische principes. Dit kan gesteld worden vanuit de gedachte dat bij een module die vanuit twee principes gemotiveerd is, nooit duidelijk is welk deel van de module vanuit het ene, en welk vanuit het andere principe gemotiveerd kan worden.

De theoretisch interessantere eis dat voor ieder element p_j uit P slechts één element m_i uit M bestaat, zodanig dat m_i in F(p_j) is een eis die waarschijnlijk niet houdbaar is. In dat geval zou er een één-op-één-relatie tussen theoretische principes en modules moeten bestaan.

Samenvattend kunnen we stellen dat bij de evaluatie van technolinguïstische modellen eis 4 het eerst bekeken moet worden, en bij gelijkwaardige modellen met betrekking tot 4 zal 5 de doorslag moeten geven.

In het vervolg van dit artikel willen we deze uitbreiding van de methodologie van de technolinguïstiek aan een concreet voorbeeld illustreren. We zullen laten zien, dat de behandeling van de Raising-to-Subjectconstructie⁶ in verschillende modellen aanleiding geeft tot toepassing van de eis die we net voorgesteld hebben.

Een voorbeeld: Raising to Subject

De theorie

De Raising-to-Subject-constructie is een goed voorbeeld om de modulariteit van de linguïstische theorie te illustreren. Vergelijk het verschil tussen de volgende twee zinnen:

6a Jan belooft een afscheidscollege te geven.
6b Jan schijnt een afscheidscollege te geven.

Er zijn een aantal theoretische principes die relevant zijn voor de beschrijving van deze twee zinnen. We geven ze in een zeer algemene formulering, om te benadrukken dat het ons hier gaat om de abstracte principes in plaats van om de formalisatie hiervan.

Ten eerste is er het principe dat elementen logische relaties onderhouden met werkwoorden. Deze verdeling van logische zinsdelen over de werkwoorden is in beide zinnen verschillend: vergelijk hiertoe de ``iemand/iets-parafrases'' van de beide zinnen:

7a Iemand belooft iets: iemand geeft iets.
7b Iets schijnt: iemand geeft iets.

Het werkwoord beloven kent twee logische zinsdelen, het werkwoord schijnen maar één. Het logisch onderwerp van beloven is Jan, het logisch onderwerp van schijnen is dat Jan een afscheidscollege geeft. In de tweede zin is Jan alleen het logisch onderwerp van geven.

Een tweede principe is, dat sommige zinsdelen met het werkwoord congrueren. De met het werkwoord congruerende zinsdelen in beide zinnen zijn niet dezelfde als de logische onderwerpen:

8a Alle professoren beloven een afscheidscollege te geven.
8b Alle professoren schijnen een afscheidscollege te geven.

Zowel in 6a als in 6b is Jan het congruerende zinsdeel. Uit de gegeven voorbeelden blijkt dus, dat de abstracte notie logisch onderwerp niet altijd samenvalt met de notie congruerend zinsdeel.

Een derde theoretisch principe is, dat afhankelijkheden in zinnen lokaal van karakter zijn. Meer precies wordt aangenomen dat iedere (bij)zin een aparte beregeling kent, en dat de interne vorm van een bijzin geen invloed heeft op de vorm van de hoofdzin.

9a Jan belooft iets.
9b Iets schijnt.

In beide zinnen kan in plaats van iets een bijzin staan met een willekeurige vorm. De interne structuur van de bijzin (welk werkwoord wordt gekozen, welke andere zinsdelen, in welk getal of welke persoon of tijd het werkwoord staat) wordt niet beperkt door de keuze van de hoofdzin.

Tenslotte zijn beide zinnen een illustratie van een vierde principe, namelijk dat er afhankelijkheden bestaan tussen zinsdelen op zekere posities in de zin en andere posities in dezelfde zin. Zo bestaat er zowel in zin 6a als in zin 6b een afhankelijkheid tussen het woord Jan en de positie waar het logisch onderwerp van geven zou moeten staan.

De formalisatie

De in de vorige paragraaf genoemde abstracte principes duiken binnen de formalisatie van de Chomskyaanse Government en Binding theorie⁷ op als subtheorieën die werken op constituentenstructuren die voldoen aan het X-bar-schema.

Het principe van de logische zinsdelen wordt geformaliseerd in de Theta-theorie: ieder werkwoord heeft een aantal⁸ thematische rollen uit te delen, en de Theta-theorie eist dat iedere thematische rol aan precies één zinsdeel wordt uitgedeeld, en dat geen zinsdeel meer dan één thematische rol bezit.

De congruerende zinsdelen worden door verschillende subtheorieën uit de GB-theorie beregeld: ten eerste is er Specifier Head Agreement, een congruentie tussen de kern van de zin, zijnde een abstracte positie waar persoons-, getals- en tijdskenmerken resideren, en de specifier, zijnde de subjectspositie. Daarnaast is er het uitgebreide Projectieprincipe, dat eist dat er een subjectspositie in iedere zin voorkomt. Deze twee principes interfereren met de Casustheorie die stelt dat in een zin m`et persoons-, getals- en tijdskenmerken de kern van de zin⁹ abstracte naamvalskenmerken ontvangt, terwijl dat in een zin zonder persoons-, getals- en tijdskenmerken niet het geval is. Subjectsposities met naamvalskenmerken dienen verder een lexicale invulling te krijgen, terwijl subjectsposities zonder naamvalskenmerken leeg kunnen blijven.

Het lokale karakter van de taalkundige theorie wordt verwoord in het cyclisch principe: taalkundige regels beperken zich tot afzonderlijke domeinen in de constituentenstructuur, terwijl een eenmaal afgewerkt domein niet heroverwogen kan worden.

Afhankelijkheden tussen zinsdelen en posities worden geregeld door de anaforentheorie en de regel move alpha die zinsdelen verplaatst en een anaforische relatie legt tussen landingsplaats(en) en oorspronkelijke positie van het zinsdeel.

De behandeling volgens deze formalisatie van de zinnen 6a en 6b verloopt als volgt: de zin een afscheidscollege te geven heeft geen persoons-, getals- of tijdskenmerken (het is een infinitiefzin), en kent als werkwoord geven. Het uitgebreide projectieprincipe dwingt in deze zin een subjectspositie af. Het werkwoord heeft tenminste twee thematische rollen om uit te delen, waarvan de objectsfunctie naar een afscheidscollege gaat. Dat betekent dat de subjectspositie leeg blijft (hetgeen toegestaan is omdat er geen naamvalskenmerken aanwezig zijn), en dat de agensfunctie aan deze lege subjectspositie wordt toegewezen. De infinitiefzinnen uit 6a en 6b krijgen dus dezelfde structuur toegekend:

10a [e_[agens] een afscheidscollege_[object] te geven]
10b [e_[agens] een afscheidscollege_[object]te geven]

In deze lokale structuur is de status van de lege plaats onduidelijk. De lege plaats kan een spoor zijn van een verplaatst element, of een zgn. PRO. Welk van de twee gekozen moet worden, is afhankelijk van het in de hogere zin gekozen antecedent. Vervult het antecedent een eigen thematische rol, dan is er sprake van PRO, anders is het spoor.

De structuur van beide hoofdzinnen onder het cyclisch principe is:

11 Jan[_agens] belooft [...]_[object]]
12 [Jan schijnt [...]_[object]]

Het verschil is dus hier, dat Jan de agensfunctie van beloven krijgt toegewezen, terwijl schijnen geen agensfunctie uit te delen heeft. Structuur 12 wordt verboden door het Theta-criterium (dat eist dat Jan een thematische functie vervult). Wanneer echter het element Jan het antecedent is van de lege plaats in de bijzin, zal die lege plaats, zoals boven al opgemerkt, in geval van zin 11 gaan fungeren als PRO, en in 12 als spoor. Maar wanneer de lege plaats als spoor fungeert, vervult Jan in 12 de agensfunctie bij het werkwoord geven uit de bijzin. Aldus wordt ook in 12 voldaan aan het Theta-criterium.

De Implementatie

In verschillende versies van het AMAZON/CASUS systeem¹⁰ wordt een verschillende oplossing gekozen voor de implementatie van deze problematiek. Naast deze verschillen zijn er een aantal overeenkomsten. We zullen eerst bespreken wat alle versies gemeen hebben, en vervolgens de verschillen evalueren.

Essentieel aan alle AMAZON/CASUS-implementaties is, dat de Af-fix-gram-ma-ti-ca AMAZON een oppervlakteanalyse van Nederlandse zinnen geeft¹¹ . Deze oppervlakteanalyse is uitgangspunt voor een transformationeel proces uitgevoerd door de module CASUS, dat de semantische interpretatie moet opleveren. Zo'n AMAZON-analyse van bovenstaande zin kan er als volgt uitzien¹² :

                  SE
-------------------------------------------
TOP     PV    MI  CL                     UL
 |       |     |   |                      |
 NP      |     |   |                     W2
 |       |     |   |   ------------------------------------
 |       |     |   |   TOP           MI             CL   UL
 |       |     |   |    |             |              |    |
 |       |     |   |    |             NP             |    |
 |       |     |   |    |              |             |    |
Jan  schijnt   -   -    -  een afscheidscollege  te geven -

De analyse geschiedt door een cyclische iteratie over alle mogelijke volgordes van thetakandidaten¹³ binnen alle mogelijke thetagrids van ieder werkwoord, te beginnen met het minst ingebedde (= hoofdzins-) werkwoord. Schematisch gaat dat als volgt:

Eerste werkwoord is schijnt.
Het eerste (enige) thetagrid voor schijnen vermeldt één thetafunctie [OBJ], te vervullen door een W2 (beknopte bijzin met te), een abstracte NP, of een CC/DAT (finiete bijzin met voegwoord dat).
Kandidaten voor deze functie zijn de NP Jan en de W2 een afscheidscollege te geven. Jan is geen abstracte NP, dus de W2 is de enige acceptabele kandidaat.
Jan krijgt geen thetafunctie, maar staat in topicpositie, dus mag gelowerd worden naar de topicpositie van een ingebedde bijzin¹⁴ .
Tweede werkwoord is geven.
Een van de thetagrids van geven¹⁵ vermeldt een [AGE] en een [OBJ], beide te vervullen door NP.
Kandidaten zijn Jan en een afscheidscollege.
De [AGE] dient, op grond van een redundantieregel, door een [+animate] NP vervuld te worden.
Daarom is Jan de [AGE], en een afscheidscollege de [OBJ].
Alle thetafuncties zijn hiermee afgewerkt, en alle kandidaten hebben een functie gekregen. De zin is OK.

Dit schema vormt de basis van iedere CASUS-implementatie. In iedere implementatie wordt bovendien de congruentie tussen subject en verbum verantwoord door de relevante features van het werkwoord te vergelijken met de features van z'n eerste thetafunctie. Het is hier, dat het probleem met betrekking tot Raising-to-Subject ontstaat. Immers, de eerste (enige) thetafunctie van schijnt is de W2 (de [OBJ] functie), maar dat is niet het element waar schijnt mee congrueert. Het werkwoord schijnt congrueert namelijk met de NP Jan, de [AGE] van de interne bijzin. Maar op het moment dat de cyclus rond schijnt wordt behandeld, is de functie van Jan nog niet bekend, en kan de congruentie niet worden getest.

In de syntax-embedded CASUS-implementatie van Jan van Bakel (Van Bakel 1984) wordt in de eerste cyclus, op grond van het feit dat schijnt een RTS-werkwoord is (Raising To Subject), de agreementtest tot een dummy gereduceerd¹⁶ . In de tweede cyclus wordt, ondanks het feit dat het hier een infinitiefzin betreft, de agreementtest toch uitgevoerd, maar nu met de eerste thetafunctie van geven en het werkwoord schijnt uit de hogere cyclus. Strikt genomen is deze aanpak dus een schending van het cyclisch principe: alhoewel de behandeling van de hogere cyclus is afgesloten, wordt in een lagere cyclus teruggegrepen op informatie uit de hogere cyclus.

De transformationele CASUS-implementatie van Diana van der Ende (Van der Ende 1989) volgt de oorspronkelijke CASUS op de voet. Een verschil is, dat er een aparte regel is ontworpen voor het toekennen van een W2-complement als subject van een RTS-werkwoord. Bij deze toekenning wordt de congruentietest overgeslagen. Omwille van het zuiver lokale karakter van de interpretatie (het cyclisch principe) worden de persoons- en getalsfeatures van het werkwoord in de hogere cyclus doorgegeven naar de W2, en in de lagere cyclus van de W2 naar het werkwoord te geven. In de lagere cyclus vindt vervolgens niet alleen de congruentietest plaats, maar wordt ook een test op nominatieve functie uitgevoerd.

In de CASUS-implementaties van Peter-Arno Coppen, getiteld CASUS90 en CASUS92, wordt een verschillende strategie aangenomen ten aanzien van deze problematiek. CASUS90 volgt de grammatica uit Van der Ende door de congruentietest in de hogere cyclus over te slaan (alhoewel dit niet met een aparte regel geschiedt), en ook door na thetatoekenning de persoons- en getalsfeatures van het werkwoord schijnt via een complex feature [raising] door te geven aan de W2. Eenmaal in de W2-cyclus aangeland, transporteert CASUS90 deze features echter niet naar het werkwoord te geven, maar naar de feature-eisen die gelden voor de eerste thetafunctie van het werkwoord te geven. Hierdoor kan de eerste thetafunctie van geven slechts ingevuld worden door een kandidaat die aan de persoons- en getalseisen van het matrixwerkwoord schijnt voldoet. De nominatief-eis wordt toegevoegd in geval van finiete zinnen, `of infinitiefzinnen met een RTS-markering.

In CASUS92 wordt een andere aanpak gekozen. Het werkwoord schijnt krijgt in zijn thetaframe, genoteerd in het lexicon, twee elementen: een NP zonder thetafunctie, en een infinitiefzin met thetafunctie [OBJ]. Beide krijgen als feature [+arg]. De eerste NP in het thetaframe is vervolgens altijd de NP die de congruentie met een finiet werkwoord vertoont. Wanneer zo'n congruente NP er niet is, wordt de zin op het niveau van schijnt al uitgefilterd. Aan het einde van de cyclus worden alle elementen die niet [+arg] zijn, door het Casusfilter uitgefilterd. Het Theta-criterium test of alle elementen een thetafunctie hebben, of geassocieerd kunnen worden met een element in een lagere cyclus. Het element Jan ontsnapt dus aan het Casusfilter door z'n markering [+arg] , en kan geassocieerd worden met de topic-positie in de ingebedde infinitiefzin, waardoor ook het Thetacriterium de analyse laat passeren. In de bijzin krijgt Jan z'n eigenlijke thetafunctie als [agens] van te geven. In deze cyclus hoeft geen congruentie tussen onderwerp en werkwoord te worden getest, omdat het een infinitiefzin betreft.

De Evaluatie

In alle implementaties van CASUS, behalve in de laatste, zijn de volgende mechanismen nodig om het raising-to-subject-verschijnsel te beregelen:

De congruentietest tussen eerste thetafunctie en werkwoord moet in geval van RTS-werkwoorden en een infinitiefzin als kandidaat overgeslagen worden, of geen effect hebben.
De persoons- en getalsfeatures van het werkwoord moeten overgeheveld worden naar de lagere cyclus, `of vanuit de lagere cyclus moeten deze features bereikbaar zijn.
In de lagere cyclus moet, ondanks het feit dat het hier een infinitiefzin betreft, een congruentietest worden uitgevoerd tussen de eerste thetafunctie en de persoons- en getalsfeatures uit de hoofdzin.

Geen van deze mechanismen is goed te motiveren vanuit een theoretisch principe. Het overslaan van de congruentietest bij RTS-werkwoorden heeft geen onafhankelijke motivatie en past alleen binnen het totale systeem. Het overhevelen van features via de sententiële knoop zou suggereren dat de sententiële knoop zelf bepaalde persoons- en getalskenmerken bevat. Er bestaan geen aanwijzingen hiervoor. Voor het uitvoeren van een congruentietest in de lagere cyclus tenslotte bestaat geen enkel precedent: alleen de RTS-constructie eist zo'n test.

Behalve dat de mechanismen niet onafhankelijk gemotiveerd kunnen worden, schenden ze ook nog het cyclisch principe: de behandeling van de lagere cyclus wordt beïnvloed door eigenschappen uit een reeds afgesloten cyclus.

De implementatie in CASUS92 heeft geen van de boven besproken extra mechanismen nodig. De test op congruentie geschiedt zonder uitzondering in de finiete cyclus, terwijl de infiniete cyclus nooit zo'n test kent. De prijs die hiervoor betaald wordt, is het feature [+arg], dat aangeeft dat een element een argument bij het werkwoord is. Dit feature kan gemotiveerd worden vanuit het verschil tussen de notie subcategorisatie en thetatoekenning. Alle gesubcategoriseerde elementen hebben [+arg], en alle elementen in thetapositie hebben [theta]. Elementen die [+arg] zijn en geen [theta] hebben, zijn non-argumenten: ze fungeren als argument binnen de cyclus waar ze staan, maar ze krijgen hun thetafunctie vanuit een lagere cyclus via een spoor-antecedentrelatie. Aldus is het feature [arg] heel goed vanuit theoretische principes te motiveren.

Samenvattend kunnen we stellen, dat de verschillende CA-SUS-im-ple-men-ta-ties heel goed vergeleken kunnen worden vanuit abstracte theoretische principes. Hoewel ze alle de juiste analyse genereren, bevatten de eerste drie CASUS-implementaties mechanismen die niet gemotiveerd kunnen worden vanuit de theorie. CASUS92 introduceert weliswaar een feature dat consequenties heeft voor het hele model, maar ten eerste kan dit feature heel goed vanuit de theorie gemotiveerd worden, en ten tweede heeft CASUS92 geen enkel ander mechanisme nodig. Hiermee is CASUS92 niet alleen de conceptueel eenvoudigste, maar ook de technolinguïstisch betere implementatie.

Het bovenstaande betekent overigens niet, dat met CASUS92 het laatste woord over raising- en controlestructuren gesproken is. Zo wordt bijvoorbeeld in infinitiefzinnen de congruentietest tussen onderwerp en werkwoord geheel overgeslagen. Voorbeelden uit talen zoals het Frans laten zien, dat ook in deze gevallen sprake is van congruentie:

14 Les pommes me semblent bonnes [t à être cuites dans une casserole]
de appels me lijken goed[+plu] worden gekookt[+plu] in een braadpan
de appels lijken me goed te koken in een braadpan
15 Elle s'est étonnée d' [PRO] être mariée par le maire]
Zij zich is verbaasd [+fem] van worden getrouwd[+fem] door de burgemeester
Zij is verbaasd door de burgemeester getrouwd te worden

Zowel in RTS-constructies als in controlestructuren zien we, dat het werkwoord uit de infinitiefzin congruentie (meervoud, geslacht) vertoont met het subject (hetzij PRO, hetzij spoor). Dat zou betekenen dat de congruentietest altijd werkt maar in het Nederlands geen zichtbare gevolgen heeft omdat op niet-finiete werkwoorden geen relevante vormkenmerken aanwezig zijn.

Besluit

In dit artikel hebben we laten zien, dat een vergelijking van verschillende descriptief adequate implementaties op basis van technolinguïstische criteria heel goed mogelijk is. Wij zijn van mening, dat evaluatie van taalverwerkende modellen op basis van dit soort criteria op den duur interessantere systemen zal opleveren dan kortzichtige snelheidsvergelijkingen of efficiëntieanalyses.

Peter-Arno Coppen & Diana van der Ende

Bibliografie

Bakel, J. van 1983 `Methodologie van de Computerlinguïstiek', in: Gramma 7 1983, pp. 175-188.
idem 1984 Automatic Semantic Interpretation, Dordrecht 1984.
Chomsky, N. 1981 Lectures on Government and Binding, Dordrecht 1981.
Coppen, P.A. 1991a Specifying the Noun Phrase, dissertatie KU Nijmegen, 1991.
idem 1991b `Transformationele analyse van Nederlandse zinnen', in: Gramma 15 1991, pp. 1-22.
Ende, D. van der 1989 De grammatica van CASUS, doctoraalscriptie KU Nijmegen 1989.