Jan van Bakel.



Informatie Computerlinguïstiek

Terug naar hoofdmenu

 


Het onderstaande is de inhoud van een document dat in 1985 binnen de faculteit der letteren van de KUN een rol gespeeld heeft voor de meningsvorming en discussie over de toekomst van het vak Computerlinguïstiek. Destijds werkte een commissie aan een plan voor de ontwikkeling van een studierichting Taal, Spraak en Informatica (TSI).
Jan van Bakel, maart 2000.


De informatie welke hier gegeven wordt over de afdeling Computerlinguïstiek van de faculteit der letteren en over het daar gegeven onderwijs en verrichte onderzoek is gericht op de vakgroep Taal, Spraak en Informatica.

Het doel is inzicht te geven in de aard van de overgangssituatie die voor de afdeling Computerlinguïstiek ontstaat nu het perspectief is dat haar werk op enige termijn zal overgaan in het geheel van de activiteiten van de vakgroep Taal, Spraak en Informatica.

Uiteraard is het doel ook een beoordeling mogelijk te maken van de stellingname die door personen, uit de afdeling Computerlinguïstiek afkomstig, gekozen wordt m.b.t. een aantal kwesties die binnen de vakgroep Taal, Spraak en Informatica aan de orde zijn.

We zullen achtereenvolgens opmerkingen maken over de geschiedenis van de afdeling Computerlinguïstiek, over haar onderwijs en over haar onderzoek.

Geschiedenis

De afdeling Computerlinguïstiek heeft geen formeel kenbaar beginmoment. De eerste aanzetten voor haar ontstaan dateren van het begin van de jaren 70, toen het toenmalige permanent overlegorgaan voor taalkunde (POT) door Dr. J.J.A. van Bakel, medewerker van de sectie Nederlands, benaderd werd met het voorstel over te gaan tot de inrichting van een werkgroep Computational Linguistics binnen deze faculteit. (Nota Computational Linguistics van J. van Bakel dd 7 september 1971; zie de brief van de voorzitter van het POT Dr. J. Nuchelmans, aan het bestuur van de faculteit dd 22 december 1971).

De inspanningen van de door het POT ingestelde Werkgroep Computational Linguistics (bestaande uit J. Aarts, J. van Bakel, H. Dijkstra en W. Knibbeler; zie de documentatie van het POT, bv. de vergadering dd 27 oktober 1972) leidden tot een advies aan de faculteit tot instelling van
- een intersectiaire werkgroep Computational Linguistics
- een bijvak Computational Linguistics.

Deze adviezen kwamen na veel vertraging pas weer aan de orde na instelling van een nieuwe adviescommissie (J. Aarts, J. van Bakel, P.Canoy, A. Kraak) in oktober 1973 en het uitbrengen van een hernieuwd advies in november 1974.

De verlening van een onderwijsopdracht Computerlinguïstiek aan Dr. J.J.A. van Bakel vond voor de eerste maal plaats met ingang van 1 september 1975. De naamgeving Computerlinguïstiek werd door Dr. A. Kraak voorgesteld. De opdracht werd in september 1977 met een nieuwe periode van twee jaar verlengd tot 1 september 1979.

De werkzaamheden voor Computerlinguïstiek werden door Dr. J.J.A. van Bakel lange tijd gecombineerd met taken binnen de sectie Nederlands. Sinds het tijdstip dat hij een leeropdracht Historische Syntaxis van het Nederlands kreeg (1975) (welke discipline door de sectie Nederlands bij haar eerste initiatief in 1970 bedoeld werd als computer-gebaseerd onderzoek in historische teksten naar syntactische taalveranderingen) was door toevallige omstandigheden (een lectoraat, later hoogleraarschap op persoonlijke titel) de situatie gunstig voor de versterking van de positie van het vak binnen de disciplines van de faculteit.

In september 1979 werd door de faculteit het voorstel aan het College van Bestuur gedaan om de onderwijsopdracht Computerlinguïstiek om te zetten in een leeropdracht aan de hoogleraar voor historische syntaxis van het Nederlands. Sindsdien is de sitiuatie ongewijzigd.

De uitvoering van een onderwijsstimuleringsproject door Drs. P.C. Rolf (1977-1979) betekende vooral een verbetering van de infrastructurele omstandigheden van wat toen al informeel de afdeling Computerlinguïstiek werd genoemd.

Vanaf 1979, kan men zeggen, functioneert de afdeling Computerlinguïstiek stabiel. Zowel het onderwijs als het onderzoek kozen vastere banen, waarbij werd voortgebouwd op datgene wat uit vroegere jaren aanwezig was.

Onderwijs

In de huidige situatie is het onderwijs van de afdeling Computerlinguïstiek opgezet in vier componenten:
  1. Basiscursus
  2. Verkenning
  3. Inleiding onderzoek
  4. Onderzoek
Van alle studenten wordt geëist dat ze deze onderdelen in de aangegeven orde volgen. Na voltooiing van ieder van de vier componenten kan met de studie gestopt worden. Als afstudeerders worden binnen de afdeling beschouwd de studenten die de vierde component voltooien.

Het onderwijs Computerlinguïstiek is erop gericht de student in staat te stellen tot het doen van onderzoek m.b.t. taalverwerkende machines of het construeren van toepassingen van zulke machines.

1. Basiscursus

Van beneden af wordt dit doel in de opeenvolgende onderwijscomponennten steeds dichter benaderd. De basiscursus heeft een zuiver methodologisch karakter. Dit wil zeggen dat de student alleen kennismaakt met de methodes die in het vak gebruiikt worden voor het bereiken van de doelstellingen van het vak, Dat betekent:
  1. onderwijs in computergebruik
  2. onderwijs in programmeren
  3. onderwijs in de leer over formele grammatica's
  4. onderwijs in algoritmiek
  5. onderwijs en oefening in het gebruik van formele grammatica's
De basiscursus houdt colleges in gedurende 21 weken (2 uur per week) en computer-praktika in dezelfde periode (2 uur per week). De cursus wordt afgesloten door het uitvoeren van een programmeeropdracht en een grammatica-opdracht. Voor dit laatste bouwt de student naar keuze een analyserende of genererende grammatica waarvan hij vorm en resultaten laat zien.

Binnen de basiscursus wordt intensief gebruik gemaakt van onderwijsondersteunende computer-hulpmiddelen die in de loop der jaren in de afdeling ontwikkeld zijn.

2. Verkenning

De cursus Verkenning beoogt de student zicht te geven op werk op het terrein van de Computerlinguïstiek zoals dat in de literatuur verschijnt. Daarvoor wordt gebruik gemaakt van een uitgebreide reader (ongeveer 600 gemiddelde tijdschriftpagina's) en enkele handboeken (Brandt Corstius Algebraïsche Taalkunde; idem Computer-Taalkunde). De studenten lezen wekelijks bepaalde nummers, welke daarna in de colleges worden uitgelegd en becommentariëerd.

De Verkenning houdt ook een onderdeel programmeren in. Daarbij wordt een aantal programma's die binnen de afdeling in de loop der jaren tot stand zijn gekomen als programma's (d.w.z. niet met het oog op hun doel maar met het oog op hun vorm) geanalyseerd. De gedachte is, dat deze benadering een goede aanvulling is naast het zelf programmeren.

De colleges lopen over een periode van 16 weken met 4 uur college per week.

Ook in deze component van het onderwijs komt het eigen onderzoek van de afdeling niet aan de orde.

Het onderdeel wordt afgerond door het schrijven van een uitvoerig literatuurverslag.

3. Inleiding onderzoek

De derde onderwijscomponent beoogt de student in te leiden in de onderzoeksproblematiek die binnen de vakgroep aan de orde is. Qua doelstelling is deze collegereeks geheel indentiek aan de Verkenning, zij het dat de blik zich concentreert op de directe eigen omgeving.

Methode en doelstellingen van het eigen onderzoek worden, aan de hand van interne en externe publicaties, goeddeels op dezelfde wijze als onder de Verkenning maar nu meer vergezeld van demonstraties, gedetailleerd geanlyseerd en besproken. Daarbij zijn ook de voltooide doctoraalprojecten uit het verleden aan de orde.

4. Onderzoek

In de laatste onderwijscomponent is de activiteit van de student geheel en al gericht op het uitvoeren van een eigen onderzoeksproject in het kader van de onderzoeksproblematiek van de afdeling. Deze activiteit wordt ten dele individueel begeleid door de staf, ten dele ook door besprekingen in het verband van het zogenaamde doctoraal colloquium, een maandelijke bijeenkomst waar het onderzoek van de afdeling, ook dus dat van de stafleden, aan de orde is. Daarmee is een situatie gecreëerd waarin het werk van de student alleen naar zijn status te onderscheiden is van dat van de staf. Bovendien ziet de student voortdurend zijn eigen onderzoek zich bewegen in relatie tot dat van medestudenten en stafleden.

Onderzoek

Het onderzoek van de afdeling Computerlinguïstiek richt zich op morfologische, syntactische en semantische analysering en interpretering van Nederlandse zinnen. Daarbij zijn drie lijnen te onderscheiden:
  1. de lijn AMAZON-CASUS
  2. de lijn SYGMART
  3. de lijn modeltheoretische semantiek (Montague-grammatica).
Wij zullen ons beperken tot enkele opmerkingen.

De lijn AMAZON-CASUS is de oudste lijn. Het syeteem heeft in zijn huidige status weliswaar een grote syntactische en semantische machtigheid maar is toch nog steeds in ontwikkeling. Het doel is methodologisch de mogelijkheden van semantische interpretering te verkennen op basis van een drietraps model: morfologie - syntaxis - semantiek en deze mogelijkheden uiteindelijk ook te toetsen door automatisch vertalen. Hoewel het project nog heel wat verbreding vraagt aan de basis, bevindt de spits van de lijn zich al in de fase van het automatisch vertalen in het lopende project Van Bakel - Stoop - Wever (NWO-SPIN 30-224, 1985).

In de lijn SYGMART zijn de onderzoeksdoeleinden niet anders dan binnen AMAZON-CASUS. Het verschil is van methodologische aard. Het doel van dit onderzoek is na te gaan wat de specifieke mogelijkheden en onmogelijkheden zijn onder het franse systeem SYGMART.

De lijn van de modeltheoretische semantiek is binnen de afdeling geopend door het project Van Bakel - Coppen Semantisch-syntactische analyse van de NP in het Nederlands (ZWO 30-145, 1982-1985). Ook hier zijn de doelstellingen van semantisch-syntactische aard, terwijl ook het perspectief van het automatisch vertalen zich aandient.

Instrumenten

De afdeling Computerlinguïstiek beschikt over een reeks van interessante grammaticale systemen, die zowel binnen het onderwijs alsook het onderzoek een van dag tot dag groeiende nuttige functie vervullen.

Alle hier kortweg op te sommen instrumenten zijn voor ieder gebruiker van de CMS-machine van het URC toegankelijk en te gebruiken. Ze zullen gedemonstreerd worden op de Transfer-dag voor Taal- en Spraaktechnologie (2 mei 1985).

(De afdeling verbiedt kopiëren en overplaatsen op andere machines).

Instrumenten van de afdeling Computerlinguïstiek

  1. Abstracte grammatica-systemen
  2. Concrete grammatica-systemen.
  3. Onderwijssytemen.

1. Abstracte grammatica-systemen kunnen op grond van een aangeboden grammatica een concreet grammatica-systeem bouwen. Abstract betekent dus: zonder kennis over een of andere bepaalde grammatica.

  1. GRAMTSY. Een Vertaler-Interpreter. Het systeem accepteert (netwerken van) transformationele grammatica's in linguïstische notatie en voert deze uit op een gegeven invoer. Complete trace-faciliteiten aanwezig.
  2. GRASP. Een parseersysteem. Accepteert grammatica's in Van Wijngaarden-notatie (met predicaten als mogelijke extensies op de machtigheid) en bouwt deze om tot een parser. Het systeem is modulair georganiseerd en biedt aldus de mogelijkheid van verschillende typen input en/of output (o.a. syntactische structuren).
  3. SNOPAGE. Een systeem dat op grond van een bepaalde grammatica een SNOBOL-programma bouwt, dat een zinsontleder is. Aangeboden zinnen worden voorzien van een sytactische structuur.
  4. BOTTOMUP. Een systeem dat op grond van een bepaalde grammatica zinnen accepteert en voorziet van een syntactische structuur. (SNOPAGE verloopt in 2 stappen, BOTTOMUP in 1 stap).

2. Concrete grammatica-systemen kunnen op grond van grammaticale kennis over een of andere taal zinnen uit die taal ontleden en/of interpreteren.

  1. Morfo-Analyzer. Een systeem dat Nederlandse woordvormen analyseert op basis van basisgrootheden, de zgn. MACRO's. Ook de analyse van samenstellingen is in principe opgelost. De beperkende factor is de analysetijd. Elke analyse wordt gerelateerd aan basiswoordvormen in de vier aangehechte dynamische lexica.
  2. MORANE. Morfologisch analyse-systeem waarbij de eerste slag gebruik maakt van spellingsregels.
  3. MOANDER. Een systeem voor de implementatie van Montague Grammatica's Het systeem doet lexicalisering met een dynamisch lexicon, syntactische analyse en parallel daaraan generering van bijbehorende logische formules. De logische formules tenslotte worden desgewenst omgezet in een of andere natuurlijke taal.
  4. AMAMORPH. Een interactief SNOBOL-programma dat aan woorden van aangeboden Nederlandse zinnen informatie verbindt over woordsoort. Het programma heeft een dynamisch lexicon.
  5. AMAZON80. Een interactief SNOBOL-programma dat aan woorden van aangeboden Nederlandse zinnen informatie verbindt over woordsoort en deze daarna syntactisch ontleedt (voorziet van informatie over de zinsbouw). Het programma heeft een dynamisch lexicon.
  6. AMAZON. Een affix-grammatica over Nederlandse zinnen. Onder een systeem van de sectie Informatioca (W&N) levert AMAZON syntactische ontledingen van zinnen die door AMAMORPH voorzien zijn van informatie over de woordsoorten.
  7. CASUS. Een semantisch interpreterend programma. CASUS levert de betekenis op van zinnen die uit AMAZON komen, indien ze correct zijn.

3. Een onderwijs-systeem is een instrument waarmee de student zijn kennis op een of ander gebied kan toetsen door opdrachten uit te voeren onder controle van kennis die het systeem bevat.

  1. AMOR. Een auteurssysteem voor het ontwerpen van automatische overhoringen. Overhoringen bestaan uit basisvragen en (een netwerk van) eventuele vervolgvragen. Voor testen op het antwoord is de volledige SPITBOL patroonherkenner beschikbaar.
  2. POSCOL1. Een interactief trainingsprogramma voor een SNOBOL/SPITBOL-programmeercursus. Studenten kunnen uit verschillende blokken verschillende kleine opdrachten kiezen, die aan de terminal opgelost moeten worden. Controle geschiedt door daadwerkelijk uitvoeren van de oplossing. Foutmeldingen van het systeem worden onderschept en vertaald naar eenvoudiger meldingen. Het prgramma bevat verder nog een naslag- en een hint-component.
  3. POSCOL2. De grote broer van POSCOL1. Zowel de omgeving als de opdrachten zijn uitgebreid. Ook de oplossingen kunnen wat meer ruimte innemen. De student kan, voordat hij de computer-controle uitvoert, vooraf proefdraaien van z'n oplossing maken. Oplossingen die niet af zijn worden opgeslagen op schijf, zodat men ze later kan afmaken.
  4. ZICOM. Een auteurssysteem voor computer-instructie in het ontleden van Nederlandse zinnen. Bestemd voor onderwijs Nederlands aan de KUN.

Conclusie

Uit dit overzicht blijkt dat binnen de afdeling Computerlinguïstiek een situatie is gegroeid met zeer veel historische residuen. Geheel blijvend buiten iedere poging tot evaluering van dat alles kan gezegd worden, dat al die gegevenheden voor wie in die afdeling onderwijs en onderzoek mede gestalte hebben gegeven, van zo groot gewicht en belang zijn, dat ze door geen ontwikkelingen op het spel gezet mogen worden.

Omdat zeer veel van de beschikbare instrumenten in SNOBOL geschreven zijn, is de noodzaak aanwezig om programmeeronderwijs SNOBOL in het studieprogramma op te nemen. Het laten vallen van SNOBOL zou de weg afsnijden voor de studenten naar een groot deel van de genoemde instrumenten. Dat zou een volkomen onaanvaardbare terugval betekenen.

Aan de leden van de vakgroep Taal, Spraak en Informatica wordt het bovenstaande ter overweging gegeven. De wereld waarin het werk van deze vakgroep zich moet innestelen is niet leeg.

Jan van Bakel
Nijmegen, 19 maart 1985.

Bibliografie Afd. Computerlinguïstiek

  1. Dr. Jan van Bakel,
    Automatische Syntactische Analyse van Nederlandse Teksten, Universitair Rekencentrum KU Nijmegen 1970.
  2. Jan van Bakel,
    Automatische Zinsontleding met de Computer, Interne Publicatie, KU Nijmegen, 1975.
  3. Jan van Bakel e.a.,
    Automatische Lexicalisering, Verslag van de Werkgroep Computerlinguïstiek 1976-1977, Grammarij No. 5, 1977.
  4. Jan van Bakel e.a.,
    Een Poging tot automatische semantische interpretatie Verslagen Computerlinguïstiek 1 (1978).
  5. Jan van Bakel en Sietse Hoogeboom,
    Eksperiment met een Kasusgrammatika, Verslagen Computerlinguïstiek, No. 2 (1981).
  6. Jan van Bakel,
    Een nieuwe versie van AMAZON, Verslagen Computerlinguïstiek, No. 2 (1981).
  7. Jan van Bakel,
    Transformationele Analyse; Thema's van het onderzoekprogramma Computerlinguïstiek KU Nijmegen, Verslagen Computerlinguïstiek, No. 2 (1981).
  8. Jan van Bakel,
    Linguistic Engineering, Faculteit der Letteren KU Nijmegen (28 sept. 1979); ook in: Verslagen Computerlinguïstiek No. 2 (1981).
  9. Jan van Bakel,
    Automatic Semantic Analysis of WH-Movement in Dutch, ITL Review of Applioed Linguistics, 58 (1982), 45-81.
  10. Jan van Bakel,
    Depassivisering e.a. in CASUS(82); Verslagen Computerlinguïstiek No. 3 (1983), 65-73.
  11. Jan van Bakel,
    Methodologie van de Computerlinguïstiek; Gramma, 7 (1983), pag. 100-113.
  12. Jan van Bakel,
    Automatic Semantic Interpretation, A Computer Model of Understanding Natural Language, Foris Dordrecht 1984.
  13. Jan van Bakel,
    Dummy Pronomina - Behandeling van semantisch lege voornaamwoorden in een automatisch semantisch interpreterend systeem; Verslagen Computerlinguïstiek 4(1985), 113-129.
  14. Peter Beinema,
    Natuurlijke taal als communicatiemedium tussen mensen en computerprogrammatuur, doctoraal scriptie Computerlinguïstiek KUN 1983.
  15. Ineke Brus,
    Morfologie van werkwoorden in Sygmart, Verslagen Computerlinguïstiek 4(1985), 1-32.
  16. Peter-Arno Coppen ,
    Een analyse-programmatuur voor composita, Verslagen Computerlinguïstiek 2(1981), 127-137.
  17. Peter-Arno Coppen,
    MORANE, een systeem voor Morfologische Analyse, Verslagen Computerlinguïstiek 3(1983) 1-40.
  18. Peter-Arno Coppen,
    MOANDER"s lange weg, Verslagen Computerlinguïstiek 4(1985), 43-112.
  19. Peter-Arno Coppen,
    De aard van het quantitatieve ER, Nieuwe Taalgids 78(1985) 149-163.
  20. Peter-Arno Coppen,
    GRASP, GRAmmars in Spitbol Patters, The Proceedings of the 1985 International Conference on English Language and Literature Applications of Snobol and Spitbol May 30 - June 1 1985, Dakota State College, Madison SD, 1985, 121-132.
  21. P.A. Coppen, L. Huiskens en P. Wever,
    Nonargumenten en Control, Glot 7()1985), 227-236.
  22. Peter-Arno Coppen, L. Huiskens en F. Schaars,
    Computergestuurd Taalkunde-onderwijs in Nijmegen, Lezing TIN-dag Amsterdam 1985.
  23. Peter-Arno Coppen,
    GRAMTSY, een interpreter voor transformationele grammatica's - een gebruikershandleiding, Inter rapport Afd. Computerlinguïstiek KUN 1985.
  24. Peter-Arno Coppen,
    MOANDER, een systeem voor Automatische Montague Analyse, Eindrapport ZWO-project 30-145, augustus 1985.
  25. Peter-Arno Coppen wn W. Senders,
    Huis-, tuin- en keuken-SPITBOL, Informatie 27(1985), 674-680.
  26. Peter-Arno Coppen,
    Tools for Computational Linguistics, Linguistics in the Netherlands, 1986 (te verschijnen.
  27. Rob Heemels,
    Morfo-Analyzer - een experimenteel morfologisch systeem, doctoraal scriptie Computerlinguïstiek KUN 1985.
  28. Lucie Huiskens en Patrick Wever,
    Reconstructie van scheidbare werkwoorden, Verslagen Computerlinguïstiek 3(1983), 115-123.
  29. Margriet Jagtman en Hans de Wolf,
    AMAZON(85), Verslagen Computerlinguïstiek 4(1985), 33-42.
  30. Harry Klieverik,
    TPASSIEF voor KASUS(82), Verslagen Computerlinguïstiek 3(1983), 41-64.
  31. Toon van Opstal,
    Verbale verstrengeling, doctoraal scriptie Computerlinguïstiek KUN 1983.
  32. Pieter Reintjes,
    Reconstructie van topicalisatie, Verslagen Computerlinguïstiek 3(1983), 74-114.
  33. Piet C. Rolf,
    Vertalen van getalsnamen, Verslagen Computerlinguïstiek 3(1983), 97-114.
  34. P.C. Rolf en R.J. van Rijnsoever,
    Positionele Letterfrekwenties van het Nederlands, Lisse 1984.
  35. P.C. Rolf,
    Beschrijving van het vertaalsysteem SYGMART - Versie 4, intern rapport KUN Afd. Computerlinguïstiek, 1984.
  36. Ben Salemans en Marcel Bouhof,
    REFERENCES: Een theorie over anaforische relaties binnen AMAZON, Verslagen Computerlinguïstiek 2(1981), 58-90.
  37. Walther Senders,
    Automatisch Vertalen Nederlands-Nederlands, doctoraal scriptie Computerlinguïstiek KUN 1984.
  38. Jac Spijkerman e.a.,
    Lemmatisering: Een analyse van de methode van M.L. Hahn, Verslagen Computerlinguïstiek 2(1981), 106-118.
  39. Albert Stoop,
    De implementatie van de NC-Coppen in Amazon en Casus, doctoraal scriptie Computerlinguïstiek KUN 1985.
  40. A. Stoop en P. Wever,
    TRANSIT, Translation System Into Turkish, Linguistics in the Netherlands, 1986 (te verschijnen).
  41. H.L.M. Vullings,
    Woordvorming door middel van Affixen - Een bijdrage tot de morfologie van het Nederlandse zelfstandig naamwoord, bijvoeglijk naamwoord en werkwoord, doctoraal scriptie Nederlands KUN 1981.
  42. P.F.L. Wever,
    Interpretatie van S-complementen onder CASUS,doctoraal scriptie Computerlinguïstiek, KUN 1985.

Terug naar boven