Eesti keele avatud morfoloogiamudel

Ülle Viks
Eesti Keele Instituut

1. Mis on mis

1.1. Avatud morfoloogiamudel

EE määratleb mudelit kui objekti, mis on kindlas vastavuses mingi teise objektiga (originaaliga), asendab seda tunnetamisel ja võimaldab selle kohta saada vahendatud andmeid. Mudelit kasutatakse siis, kui originaali otsene uurimine on võimatu või raskendatud. Inimkeel kuulub kahtlemata selliste objektide hulka, mida saab uurida eelkõige mudelite abil. Järgnevas käsitluses on juttu ühest eesti keele olulisemast allsüsteemist – morfoloogiast – ning selle modelleerimisest ja kirjeldamisest.

Avatud morfoloogiamudel on avatud kahes mõttes. Esiteks tähendab mudeli avatus seda, et tema rakendusulatus ei ole piiratud mingi kindla hulga sõnadega, vaid et süsteem saab hakkama ka talle tundmatute sõnadega – nii nagu inimene oskab käänata-pöörata ka neid sõnu, mida ta kunagi varem kasutanud pole. Inimese morfoloogiapädevusse kuulub teatud hulk sõnavorme, mida ta tunneb ja oskab lauses kasutada, kuid lisaks neile kindlasti ka teatud hulk reegleid, mille abil ta on võimeline täiesti uusi sõnavorme moodustama (või neist aru saama).

Teiseks tähendab mudeli avatus seda, et tema üksikute allsüsteemide elemente on võimalik muuta-täiendada, ilma süsteemi ennast ümber tegemata – nii nagu inimene õpib juurde uusi sõnavorme ja reegleid (või korrigeerib olemasolevaid), sobitades neid olemasolevasse süsteemi. Mehhanismid, mille abil inimene oma morfoloogilist pädevust realiseerib, on püsivamad kui konkreetsed reeglid või sõnavormid.

1.2. Morfoloogiasüsteem

Igas süsteemis on oluline välja tuua: 1) üksused ja nendevahelised seosed e süsteemi struktuur ja 2) protsessid, mis on aluseks süsteemi funktsioneerimisele. Täpsustan nende mõistete sisu avatud morfoloogiamudeli raames (mis ei tähenda, et mõni teine mudel ei võiks samu asju teises valguses näha).

1.2.1. Üksused

Morfoloogiasüsteemi keskne üksus on sõnavorm (ehk lihtsõnavorm), mis koosneb morfeemidest. Leksikaalne morfeem (e tüvi) kannab sõnavormi leksikaalset tähendust ja grammatilised morfeemid (e tunnused ja lõpud) kannavad sõnavormi grammatilisi tähendusi, nt hammas[te[ga → ‘hammas’ & ‘pl’ & ‘kom’. Eesti morfoloogia on suures osas aglutinatiivne, kuid palju on ka fusioonijuhtumeid, kus piirid morfeemide vahel on hägusad. See pole aga siinse käsitluse teema. Avatud morfoloogiamudel piirdub minimaalse morfoloogilise liigendusega, mis jagab sõnavormi kaheks: tüveks ja morfoloogiliseks formatiiviks. Morfoloogiline formatiiv kannab seega kogu morfoloogiliste tähenduste komplekti sõltumata sellest, kas teda saab edasi liigendada või mitte, või kas igal grammatilisel tähendusel on oma fonoloogiline realisatsioon või mitte, nt hammas[tega → ‘hammas’ & ‘pl kom’, hamba[ga → ‘hammas’ & ‘sg kom’.

Tüvi võib edasi alluda tuletusliigendusele, mis jagab tüve juureks ja tuletusmorfeemi(de)ks (nt mõist|mine). Lihtsõnavormist kõrgemal tasandil on liitsõnaliigendus, mis jagab liitsõna täiendsõna(de)ks ja põhisõnaks. Täiendsõnu võib olla mitu (kuni 4, nt all+maa+raud+tee+jaam) ning täiendsõnana võib esineda kas seotud tüvi (nais+koor, lühi+laine, tõmb+lukk) või muutevorm (jalg+ratas, lehe+külg, õige[ks+mõist|mine, kä[tel+kõnd jne). Minimaalsel morfoloogilisel liiigendustasandil käituvad nii tuletised kui liitsõnad komplekssete tüvedena, millele võivad liituda formatiivid (õigeksmõistmise[ga, kätelkõnni[st). Peaaegu iga sõnavormi lõpus võib mingis kontekstis esineda veel liide gi/ki (minu[st_ki, ärka[b_ki, õige[ks+mõist|mise[ga_gi).

Eesti keele sõnavormide üldstruktuuri iseloomustab järgmine skeem, kus iga liigendustasand esindab omaette grammatilist allsüsteemi: liitsõnamoodustus, vormimoodustus e morfoloogia, tuletus e derivatsioon. Avatud morfoloogiamudeli keskne osa on vormimoodustus, kuid sellega liituvad ka tuletus ja liitsõnamoodustus.

Sõnavormi üldstruktuur:

SÕNA SÕNA SÕNA

LIITSÕNA LIHTSÕNA

liitsõnamoodustus

TÄIENDSÕNA* PÕHISÕNA

TÜVI SÕNAVORM SÕNAVORM SÕNAVORM

vormimoodustus

TÜVI FORMATIIV GI/KI

TUNNUS* LÕPP

tuletus

(PREFIKS) JUUR SUFIKS*

esineb ...-na

koosneb ... -st

* üks või mitu üksust

Näidetes kasutatavad tähised:

&
ja
[
morfoloogilise formatiivi piir
+
liitsõnapiir
|
tuletusliite piir
\
fusiivse formatiivi piir
_
gi/ki eelne piir

1.2.2. Protsessid

Morfoloogiasüsteemi kesksed protsessid on sõnavormide süntees ja analüüs. Morfoloogilise sünteesi sisend on algvorm ehk lemma ja sõnavormi grammatilised tähendused (nt JALG & 'pl n') ning väljund on vastav sõnavorm (jalad). Morfoloogilise analüüsi sisend ja väljund on vastupidised: sisendiks on sõnavorm (jalad) ning väljundiks on lemma koos vastavate grammatiliste tähendustega (JALG & 'pl n').

JALG & 'pl n' jalad

lemma & gram. tähendused sõnavorm

JALG & 'pl n' jalad

Sünteesi käigus valitakse sisendi elementidele vastavad üksused: lemmale JALG vastav tüvevariant jala ning grammatiliste tähenduste komplektile ‘pl n’ vastav morfoloogiline formatiiv d. Seejärel ühendatakse need üksused sõnavormiks jalad. Analüüsi käigus liigendatakse sõnavorm potentsiaalseteks üksusteks jala [ d ja leitakse tüvevariandile jala vastav lemma JALG ning formatiivivariandile d vastav grammatiliste tähenduste komplekt ‘pl n’.

Esitatud skeem on nii üldine, et kehtib kõigi morfoloogiasüsteemide puhul. Erinev on ainult see, mis toimub sünteesi ja analüüsi kastide sees. See võib olla lihtne otsing sõnastikus, aga võib olla ka väga keeruline paljude sõnastike ja reeglite võrk.

Analüüsi- ja sünteesiprotsesse võib vaadelda pööratavatena ainult teatava lihtsustuse korral. Protsessid, mis toimuvad sisendi ja väljundi vahel, on kummagi suuna puhul paljuski erinevad. Kuid ometi on tegemist ühe ja sama morfoloogilise allsüsteemiga. Analüüs ja süntees kasutavad samu andmeid ja neid protsesse on võimalik selliselt arvutis realiseerida, et nad kasutavad mitmeid ühiseid programmimooduleid. Seetõttu saab neist ka koos rääkida.

1.2.3. Algvorm

Algvormi valik sõltub morfoloogiamudeli iseloomust ja kirjelduse eesmärkidest ning algvorme võib ka eesti morfoloogiakirjeldustes leida mitmesuguseid, nt

Mõeldav on kasutada eri allsüsteemide kirjeldustes erinevaid algvorme: tüvemuutusreeglite jaoks ühtesid, muuttüüpide käsitlemisel teisi. Nii ei saa aga toimida juhul, kui eesmärgiks on ühtne funktsioneeriv mudel. Avatud morfoloogiasüsteemi algvormiks on valitud sõnastikes kasutatav märksõnavorm ehk lemma: noomenil singulari nominatiiv ja verbil supiin (ma-infinitiiv), sest see annab parima võimaluse siduda omavahel grammatikat ja sõnastikku.

1.3. Sõnastik, grammatika ja erandid

Grammatika ja sõnastik on põhilised komponendid, mis mingil kujul on olemas kõigis morfoloogiasüsteemide kirjeldustes – nii traditsioonilistes kui automaatsetes.

1.3.1. Sõnastik

Sõnastik kujutab endast üksuste loendit, mis sisaldab allsüsteemi seisukohalt vajalikke andmeid iga üksuse kohta. Morfoloogiasõnastikku kuuluvad:

1.3.2. Grammatika

Grammatika sisaldab reegleid, mis kirjeldavad üksuste seoseid ja funktsioneerimist süsteemis. Morfoloogiasüsteemis on kõige olulisemad:

Struktuurireeglid kirjeldavad üksuste kombinatoorikat kahel eri tasandil:

Reegli üldkuju on ‘A & B’ ja see näitab, milline üksus millisega koos esineb ja millises järjestuses. Alljärgnevast kuuluvad struktuurireeglite hulka morfotaktika ja allotaktika reeglid.

Protsessireeglid kirjeldavad üksustega toimuvaid tegevusi ja muutusi süsteemi funktsioneerimisel, st morfoloogilise sünteesi ja analüüsi käigus. Reegli üldkuju on ‘A → B’ ja see näitab, mis millega asendatakse. Alljärgnevast kuuluvad protsessireeglite hulka tüvemuutuste reeglid, lisanäiteks võiks olla transkriptsiooniteisendused.

Tuvastusreeglid kirjeldavad tingimusseoseid üksuste või nende omaduste ja tegevuste vahel. Reegli üldkuju on ‘kui A, siis B’ ja see näitab, mis tingimusel miski esineb või toimub. Tuvastusreeglid kuuluvad sageli muude reeglite koosseisu, nt protsessireegli rakendumistingimuste määramiseks, aga neil on ka iseseisev staatus: tuvastusel põhinevad kitsenduste grammatikad, mis esitavad eri tasandite piiranguid. Alljärgnevast kuuluvad tuvastusreeglite hulka üksustevaheliste piiride tuvastus (silbitus, liitsõnapiirid) ja sõna klassikuulvuse tuvastus (tüüp, sõnaliik).

1.3.3. Erandid

Lisaks reeglitele kuuluvad iga loomuliku keele grammatika juurde ka erandid, mis oma esitusviisi poolest on sõnastikunähtused (sõnavormid). Ükski loomulik keel ei ole täiesti reeglipärane, sest pika arengu käigus on paljud erinevad tegurid jätnud temasse oma jälgi. Uutest nähtustest rääkides ja teiste keelte mõjul tuleb keelde palju uusi sõnu, kuid teatud nihked tekivad aja jooksul ka grammatilises süsteemis.

Erandit saab defineerida reegli kaudu: erand on objekt, mille puhul reegli rakendumistingimused on küll täidetud, kuid mis ometi ei allu reeglile. Nt sõna t`ank võib nimetada häälikumuutusreegli k→g/n_V suhtes erandiks, sest näidatud kontekstis (n ja vokaali vahel) peaks k asenduma g-ga (nagu toimub sõnades l`ank : langi või t`ankima : tangib), aga sõnas t`ank jääb k püsima ja nõrgeneb ainult välde (t`ank : tanki).

Erand on suhteline mõiste: erandite hulk grammatikakirjelduses tuleneb otseselt sellest, kui palju ja kui keerulisi reegleid fikseeritakse. Kui taotleda väga täpseid reegleid ja ammendavat kirjeldust, võib eranditest täiesti loobuda – reegel võib ju kehtida ka üheainsa sõna puhul (sel juhul tuleb tema rakendumistingimusena esitada terve sõna). Kui aga taotleda lihtsaid reegleid ja ülevaatlikku kirjeldust, on ka erandeid rohkem (lähemalt vt Viks 1997).

Erandlikud on keeles kõige tavalisemad ja sagedamini kasutatavad vormid nendest sõnadest, mis kuuluvad üldkasutatava põhisõnavara hulka, nt on (olema), läks (minema), mehed (mees), häid (hea). See hulk on aga oma suhtelisusest hoolimata piiratud: erandeid on võimalik meelde jätta. See aga, mida harva kasutatakse, peab olema reeglipärane. Muidu pole võimalik seda suhtluses kasutada: kõik sõnavormid ei mahu mällu. Eriti oluline on reeglipärasus uute sõnade puhul: inimesed oskavad ka tundmatust sõnast vorme moodustada ja suudavad mõistatada võõra vormi jaoks algvormi (et seda näiteks sõnastikust otsima minna).

1.3.4. Sõnastiku ja grammatika integratsioon

Morfoloogiasõnastik ja grammatika on väga tihedalt seotud: nad kirjeldavad üht ja sama nähtust – morfoloogilist süsteemi –, kuigi teevad seda erineval viisil. Sõnastik sobib paremini individuaalse info jaoks, grammatika sobib paremini üldistuste jaoks, kuigi esitatav ainestik ise on sama. Sõnastik sisaldab iga üksuse kohta andmeid, mis on vajalikud reeglite (grammatika) tööks, grammatika sisaldab reegleid, mis võimaldavad üksusi omavahel siduda. Kui kaks üksust on omavahel seostatavad reegli vahendusel, siis pole tarvidust hoida neid mõlemaid sõnastikus. Piisab, kui sõnastikus on neist üks ja teine saadakse sellest reegli abil. Seega annab grammatika ja sõnastiku sidumine võimaluse vähendada sõnastiku koormust ning muudab keelekirjelduse kokkuvõttes ülevaatlikumaks ja üldisemaks. Mida suurem on reeglite osakaal, seda vähem andmeid on vaja esitada sõnastikus.

Grammatika ja sõnastik üldjuhul ei asenda teineteist, kuid suurem osa morfoloogilisest süsteemist on võimalik ära kirjeldada kas ühe või teise vahenditega. Kumb on ülekaalus, sõltub konkreetse keelekirjelduse suunitlusest. Arvutimudel ei vaja andmete dubleerimist, seevastu inimestele mõeldud käsitlused – nii grammatikad kui sõnastikud – ei saa läbi ilma liiasuseta.

Avatud morfoloogiamudel üritab integreerida grammatika ja sõnastiku erinevad võimalused maksimaalse ökonoomsusega, vältides kirjelduse liiasust. Pearõhk on grammatikal: kõik see, mis on morfoloogias üldine ja reeglipärane, esitatakse formaalsete reeglite kujul, s.o grammatikana, ja ainult need nähtused, mis reeglite alla ei mahu, esitatakse erandite loendina sõnastikus. Seda võib pidada reeglipõhiseks morfoloogiaks üsna äärmuslikul kujul.

2. Grammatika allsüsteemid eesti morfoloogias

Kui morfoloogiasüsteem oleks üles ehitatud ainult sõnastikule – täiesti ilma reegliteta – siis vajaks ta sõnastikku, mis sisaldab kõiki sõnavorme koos täieliku morfoloogilise infoga. Sõnastik 1 on kasutatav ilma reegliteta:

lemma

SL

gr.täh

sõnavorm

JALG

S

sg n

j`alg

JALG

S

sg g

jala

JALG

S

sg p

j`alga

JALG

S

sg ill

jala[sse

...

 

 

 

JALG

S

pl n

jala[d

JALG

S

pl g

j`alga[de

JALG

S

pl g

j`alg\e

JALG

S

pl p

j`alga[sid

JALG

S

pl p

j`alg\u

JALG

S

pl ill

j`alga[desse

...

 

 

 

SÜDA

S

sg n

süda

SÜDA

S

sg g

südame

SÜDA

S

sg p

südan[t

SÜDA

S

sg ill

südame[sse

 

 

 

jne

Kogu morfoloogiline analüüs ja süntees taanduvad sellisel juhul sõnastikuotsingule: JALG ‘S’ & ‘pl g’ – j`algade, j`alge (2 kirjet).

Selline sõnastik oleks hiigelsuur, sest eesti keeles on palju muutevorme. Noomenil on 14-15 käänet ainsuses ja mitmuses, lisaks hulgaliselt paralleelvorme mitmuses. Verbil on ainuüksi lihtvorme ligi 60, lisaks hulk analüütilisi aja- ja eitusevorme. Keskeltläbi on igal eesti sõnal 33 muutevormi (koos liitega gi/ki 66). Samas ei saa sõnavormide sõnastikku kunagi ammendavaks pidada, sest uusi sõnu saab alati juurde teha: tuletada, liita, laenata, välja mõelda jne. Ja igaühel neist on taas oma muutevormid. Seega eesti keele jaoks puhas sõnastikupõhine morfoloogiasüsteem ei sobi.

Edasi vaatame, kuidas erinevate reeglite lisamine aitab vähendada sõnastiku mahtu. Reeglid, mis kirjeldavad morfoloogiasüsteemi struktuuri seaduspärasusi ja süsteemis toimuvaid protsesse, jagunevad oma liigi ja rakendussfääri alusel mitmeks allsüsteemiks, millest igaühel on ka omad erandid ja oma info, mida süsteem oma tööks vajab. Põhilised allsüsteemid (reeglimoodulid), mis on olulised eesti morfoloogia jaoks, on järgmised: morfotaktika, allotaktika, tüvemuutused, tüübituvastus (vt ka Viks 1994), liitsõnapiiri tuvastus.

2.1. Struktuurireeglid: morfotaktika

Kõige universaalsem morfoloogia allsüsteem on morfotaktika. Morfotaktika reeglid määravad ühelt poolt ära kogu keele vormimoodustussüsteemi struktuuri: grammatiliste kategooriate valiku ja realiseerumisvõimalused ning sõnaklassidele vastavad morfoloogilised paradigmad (nt verbi- ja noomeniparadigma). Teiselt poolt määravad morfotaktika reeglid ära sõnavormi sisemise struktuuri: millised üksused millises järjestuses ja mis tingimustel võivad ühes sõnavormis koos esineda, nt noomenil tüvi & arv & kääne. Et avatud morfoloogiamudel grammatilisi morfeeme ei lahuta, siis sama struktuur esineb siin kujul tüvi & arv_kääne. Morfotaktika reeglid laienevad ka tuletistele ja liitsõnadele ning määravad ära sõnamoodustuses osalevate morfeemide kombinatoorika võimalused.

Vormimoodustusse puutuvat morfotaktilist infot esindab sõnastikus sõnaliigi tähis, millele vastavate paradigmade kirjeldused ise on alati väljaspool sõnastikku – grammatikas. Paradigma kirjeldus näitab, millistest liikmetest paradigma koosneb ning millised grammatiliste tähenduste kombinatsioonid on muutevormide (e paradigma liikmete) taga. Iga grammatiliste tähenduste komplektiga seatakse vastavusse tema fonoloogiline realisatsioon – morfoloogiline formatiiv.

Morfotaktika reeglite erandid on näiteks sõnad, mille puhul teatud grammatilised kategooriad jäävad realiseerimata, nt mõlema (sg nom puudub), pronoomen iga (mitmus puudub), pidama ‘kohustatud olema’ (impersonaal ja käskiv kõneviis puuduvad). Või sõnad, millel on mõni täiendav paralleevorm, nt sõnadel jalg, silm, rind on mitmuse omastavas lisavormid, mida teistel sõnadel ei ole: jalge, silme, rinde.

Ainuüksi morfotaktika reeglite abil oleks täiesti võimalik kirjeldada morfoloogiasüsteemi funktsioneerimist (sõnavormide sünteesi ja analüüsi) aglutinatiivsete keelte puhul, kus on küll rohkesti muutevorme, kuid kus üksused ei varieeru. Sel juhul peaks sõnastikus olema lemma koos sõnaliigiga (mis määrab paradigma valiku). Ja reeglid seavad igale grammatilisele tähendusele vastavusse sobiva morfeemi (nt ‘pl g’ – de). Lemma ja morfeemide kokkupanekul saadaksegi sõnavormid.

2.2. Struktuurireeglid: allotaktika

Et eesti keeles võivad varieeruda kõik morfoloogilised üksused, nii tüved kui ka morfoloogilised formatiivid, siis ei piisa nende kombinatoorika kirjeldamiseks morfotaktika reeglitest, mis töötavad üksuste tasemel. Üksused võivad küll anda korrektse morfotaktilise struktuuri, kuid üksuste variandid võivad olla omavahel sobimatud. Näiteks struktuur tüvi & 'pl g' on igati õige. Sõnal LIIGE on kaks tüvevarianti: liige ja l`iikme, mitmuse omastava formatiivil on variandid: te ja de. Seega oleks kokku neli erinevat võimalust variante kombineerida. Korrektne mitmuse omastava vorm selle sõna jaoks on aga ainult üks – l`iikme[te (tugev aste & te), vrd k`iike[de, hõige[te, kolge[de.

Õige valiku tegemiseks on vaja kontrollida variantide omavahelist sobivust. Reegleid, mis kirjeldavad üksusevariantide (allomorfide) valiku ja koosesinemise tingimusi sõnavormis, olen nimetanud morfotaktika eeskujul allotaktika reegliteks (morfotaktika – morfeemide kombinatoorika, allotaktika – allomorfide kombinatoorika).

Kõige ökonoomsem viis allotaktika reeglite esitamiseks on morfoloogiline klassifikatsioon, kus muuttüüp esindab üht võimalikku tüvevariantide ja formatiivivariantide allotaktilist asetust paradigmas: millised variandid millistes muutevormide esinevad. Puhtal kujul allotaktika reegleid esindab VVS-i (Viks 1992) klassifikatsioon, mis liigitab kogu sõnade hulga kolme morfoloogia seisukohalt olulise tunnuse järgi: 1) formatiivivariantide komplekt paradigmas, 2) tüve astmevaheldusmallid, 3) tüve lõpuvaheldusmallid.

Vaheldusmalle on kaks liiki vastavalt tüvemuutuste eri liikidele (astmemuutus ja lõpumuutus, vt lähemalt 2.3.), ja nad iseloomustavad tüvevariantide paigutust paradigmas. Vaheldusmallid kuuluvad klassifikatsiooni liigitusaluste hulka, sest nad on seotud otseselt konkreetsete paradigmaliikmetega ja määravad selle, millises muutevormis millist tüvevarianti kasutada, kuid (NB!) mitte seda, kuidas ühest tüvevariandist teist moodustada. Näiteks järgmised erinevate astmevaheldusmallidega sõnad alluvad kõik samale astmevahelduslikule tüvemuutusele, vrd (tähised allpool):

sg n

sg g

sg p

pl g

v`aat (t)

vaadi (n)

v`aati (t)

v`aati[de (t)

põder (n)

põdra (n)

p`õtra (t)

p`õtra[de (t)

vaade (n)

v`aate (t)

vaade[t (n)

vaade[te (n)

mõõde (n)

m`õõtme (t)

mõõde[t (n)

m`õõtme[te (t)

Samuti võib ka üks lõpumuutus olla seotud erinevate lõpuvaheldusmallidega, vrd

sg n

sg g

sg p

pl g

r`audne (a)

r`audse (b)

r`audse[t (b)

r`audse[te (b)

hobune (a)

hobuse (b)

hobus[t (c)

hobus[te (c)

hammas (a)

h`amba (b)

hammas[t (a)

hammas[te (a)

sipelgas (a)

sipelga (b)

sipelga[t (b)

sipelga[te (b)

Kolme eri tunnuse alusel saadud koondklassifikatsiooni klasse nimetatakse muuttüüpideks. Ühte muuttüüpi kuuluvad sõnad käituvad ühtmoodi kõigi aluseks võetud tunnuste järgi: neil on ühesugused formatiivivariandid kõigis muutevormides ning neil paiknevad tüvevariandid (nii astme- kui ka lõpumuutuse variandid) paradigmas ühtmoodi.

Allotaktilist infot esindab sõnastikus tüübinumber, mis juhatab grammatikas esitatud tüübikirjelduse juurde. Tüübikirjeldus kujutab endast paradigma põhivormide esitust sellisel kujul, mis fikseerib kõik tüübile omased variandikombinatsioonid: iga põhivormi jaoks tema tüvevariant (tüvekoodi kujul) koos konkreetse formatiivivariandiga ([ järel). Tüübikirjeldus näitab ka võimalikku paralleelvormide kasutust (& paralleelvormide vahel) ning vormi puudumist tüübis (X vastavas positsioonis). Näide:

tp

sg n

sg g

sg p

sg adt

pl g

pl p

näide

06

an[

at[

an[t

X

an[te

at[id

vaade

20

a0[

b0[

b0[

b0g[

b0[de

b0[sid

tüvi

22

at[

bn[

bt[

bt[

bt[de

bt[sid & btv\

v`aat

25

at[

bn[

bt[

bt[

bnv\ & bt[de

btv\ & bt[sid

haril`ik

Tüvevarianti esindab tüvekood, mille elemendid osutavad tüvevariandi liigile. Tüvekoodi elemendid on:

Näiteks tugevaastmelisele lemmatüvele vastab tüvekood at; nõrgaastmelisele vokaalmitmuse tüvele, mis baseerub muutetüvel, vastab tüvekood bnv; astmemuutuseta geminaattüvele, mis baseerub lemmatüvel, vastab tüvekood a0g jne.

Tüübikirjeldus annab tavaliselt juhised sõna põhivormide moodustamiseks. Muude paradigmasse kuuluvate vormide (nn analoogiavormide) moodustamine on seotud põhivormidega analoogiareeglite kaudu ega mängi rolli tüüpide eristamisel.

Kombinatoorikareeglite kasutamine muudab süsteemi sõnastiku oluliselt väiksemaks. Kõigi sõnavormide asemel on tarvis esitada ainult kõik tüvevariandid koos oma koodidega. Lisaks tuleb sõnastikku panna aga morfotaktika ja allotaktika reeglite erandid (täiendavad paralleelvormid, erandliku tüvega vormid jms).

Allotaktika reeglite (e klassifikatsiooni) erand ei ole päris ühemõtteline nähtus, sest tüübistik ise ei ole ühemõtteline. Et liigitusaluseid on mitu ja nad on erilaadsed, siis ka saadav klassifikatsioon on tegelikult mitme allklassifikatsiooni ühendus (Viks 1977). Tüübierand on sõna, millel mõni vorm tervikuna või teatud vormide tüved, või teatud vormide formatiivid erinevad sellest, mida allotaktika reegel (tüübikirjeldus) selle tüübi jaoks ette näeb. Suurem osa erandliku sõna muutevormidest moodustatakse täiesti regulaarselt. Nt sõna olema on tulema-tüübi (tüüp 36) erand, sest tal on ainult kahes muutevormis teistsugune kuju `on 'Ind Pr Sg 3' ja 'Ind Pr Pl 3' (vrd `on – tule[b, tule[vad). Kõik muud vormid on tal sarnased tulema-tüübi vastavate vormidega (ole[n – tule[n, `oll[a – t`ull[a, ol[nud – tul[nud jne). Sõna ajama on erandlik tüübi elama (27) suhtes, sest tal on impersonaalis irregulaarne tüvevariant `ae (`ae[takse jne, vrd ela[takse jne).

Sõnastik 2, millega koos töötavad morfotaktika ja allotaktika reeglid, võiks olla selline:

lemma

tüüp_SL

tüvekood

tüvevariant

vormierandid

VAAT

22_S

at

v`aat

 

VAAT

22_S

bt

v`aati

 

VAAT

22_S

bn

vaadi

 

VAAT

22_S

btv

v`aate

 

VAAT

22_S

bnv

vaade

 

JALG

22_S

at

j`alg

 

JALG

22_S

bt

j`alga

 

JALG

22_S

bn

jala

 

JALG

22_S

btv

j`algu

 

JALG

22_S

bnv

jalu

 

 

 

 

 

pl g: & j`alge

 

 

 

 

pl ab: & jaluta

SÜDA

04_S

a0

süda

 

SÜDA

04_S

b0

südame

 

 

 

 

 

sg p: südan[t

HINNE

06_S

an

hinne

 

HINNE

06_S

at

h`inde

 

LUUSTIK

25_S

at

l`uust`ik

 

LUUSTIK

25_S

bt

l`uust`ikku

 

LUUSTIK

25_S

bn

l`uustiku

 

LUUSTIK

25_S

btv

l`uust`ikke

 

LUUSTIK

25_S

bnv

l`uustike

 

NUUSTIK

02_S

a0

nuustik

 

NUUSTIK

02_S

b0

nuustiku

 

Morfotaktika ja allotaktika reegleid rakendades on juba võimalik eesti keele automaatne morfoloogia tööle panna. Nii on VVS-i baasil realiseeritud EKI varasemad analüüsi- (Hein 1994) ja sünteesiprogrammid (Kuusik 1994). VVS-i allotaktika reeglistikku (lisatud on liitsõnareeglid ja osa tuletusreegleid) kasutab ka Filosofti morfoloogiline analüsaator (Kaalep 1996), mis töötab Microsofti Wordi eesti keele spelleris. Kuid morfotaktika ja allotaktika reeglitega piirduv süsteem on veel suletud süsteem, mis suudab sünteesida ja analüüsida ainult neid sõnu, mis on sõnastikus olemas ning on varustatud reeglite tööks vajalike andmetega (sõnaliik, tüübinumber ja võimalikud tüvevariandid koos tüvekoodidega). Iga uus sõna tuleb sõnastikku lisada – ja see nõuab lisatööd inimeselt, kes peab määrama muuttüübi ja sõnaliigi, ning moodustama kõik vajalikud tüvevariandid ja määrama nende tüvekoodid.

2.3. Protsessireeglid: tüvemuutused

Esimene samm avatud süsteemi poole on tüvemuutusreeglite rakendamine (Kuusik 1995, 1996). Tüvemuutuste reeglid moodustavad mitu erinevat allgrammatikat – vastavalt tüvemuutuse liigile. Põhilisi tüvemuutusi on kahte liiki:

Sise- (ehk astme)muutuse puhul seob reegel tüve tugevaastmelist (t) ja nõrgaastmelist (n) varianti. Astmemuutus avaldub sageli ainult välte- (ehk aktsendi)muutuses (m`etsa : metsa), kuid sellega võivad kaasneda ka mitmed tüve sisehäälikute muutused, nt klusiili teisenemine (saade : s`aate), assimilatsioon (k`anda : kanna), konsonandi kadu (`ulgu[ma : ulu[b, jõge : j`õe) jne.

Lõpumuutuse puhul seob reegel sõna algvormi tüve e lemmatüve (a) ja muutetüve (b), mis esineb teistes vormides. Lõpumuutusi on väga erinevaid, nt tüvevokaali lisandumine (isand : isanda, k`and : k`anda), vokaali teisenemine (suvi : suve, jõgi : jõge), konsonandi kadu (sipelgas : sipelga), häälikujärjendi asendumised (kolmas : kolmanda, puder : pudru, vestle[ma : vestel[da) jne.

Mõlemat liiki tüvemuutused on jälgitavad eraldi tüvepaarides (nagu ülaltoodud näidetes), kuid võivad esile tulla ka korraga ühes ja samas tüvevariantide paaris, nt pääse : p`ääsme (lõpumuutus e → me, astmemuutus 2 → 3), kinnas : k`inda (lõpumuutus s → 0, astmemuutused 2 → 3 ja nn → nd), v`aatle[ma : vaadel[da (lõpumuutus le → el, astmemuutused 3 → 2 ja t → d).

Põhilised tüvemuutused ise ei ole otseselt seotud kindlate grammatiliste tähendustega. Üks ja sama tüvevariant esineb tavaliselt mitmes erinevas muutevormis, millel on erinevad grammatilised tähendused, nt hobuse : hobuse[ga : hobuse[d, hobus[t : hobus[tega jne. Üks ja sama tüvemuutusreegel võib toimida noomeni- ja verbimorfoloogias, aga ka derivatsioonis, vrd link : lingi – lonki[ma : longi[b – vanker : vangerda[ma. Variantide seost konkreetsete muutevormidega iseloomustab tüvevaheldus, mida kirjeldavad vaheldusmallid (vt 2.2.).

Tüvemuutuste allsüsteemi on siinses mudelis lülitatud ka kaks grammatiliste tähendustega seotud fusiivse tüvemuutuse liiki, mille korral grammatiline tähendus ei realiseeru selgelt eristatava aglutinatiivse formatiivina, vaid tüvemuutusena. Vokaalmitmuse tüve (v) moodustamisel teiseneb ainsusetüve lõpuvokaal (nn tüvevokaal), nt kavaleri : kavalere, l`ille : l`illi, haril`ikku : haril`ikke, vana : vanu. Aditiivi geminaattüve (g) moodustamisel pikeneb (või tugevneb ja pikeneb) tüve lühike sisekonsonant (kusjuures kaasneb ka sekundaarne aktsendimuutus 1 → 3), nt maja : m`ajja, lume : l`umme, tuba : t`uppa, jõge : j`õkke.

Omaette rühmadena on vormistatud ka mõningad sekundaarsed tüvemuutused, nagu:

Iga tüvemuutuste liik on kirjeldatav omaette reeglite komplektiga, mis moodustavad formaalse allgrammatika, kusjuures kummagi tüvemuutuste suuna jaoks (nt tugev → nõrk ja nõrk → tugev) on eraldi allgrammatika. Grammatika tähis avab ühtlasi ka tema olemuse, nt

G_tn: tugev aste (t)  nõrk aste (n) v`aati : vaadi

G_nt: nõrk aste (n)  tugev aste (t) vaadi : v`aati

G_ab: lemmatüvi (a)  muutetüvi (b) v`aat : v`aati

Tüvemuutuste allgrammatika koosneb osaliselt järjestatud ümberkirjutusreeglitest (rewriting rules). Reegli üldkuju on x → y / z_q, st järjend x asendatakse järjendiga y, juhul kui talle eelneb järjend z ja järgneb järjend q. Suurtäht reeglis tähistab häälikuklassi, mis on reeglite jaoks ära defineeritud, väiketäht on tema ise. Näiteks reegel t → d / N_V tähendab, et asendus t→d toimub kontekstis, kus t ees on klassi N kuuluv täht (N=lnr) ja t järel on vokaal (klass V). Sisend kaarti sobib reegli tingimustega ja väljundiks on tüvevariant kaardi.

Näiteks üks fragment grammatikast G_tn (häälikuklassid: V=aeiouõäöü; Q=kptfš; L=lmnr; J=jv):

Q1Q1 → Q1 / !VV_V

lõppu → lõpu, bluffi → blufi

ss → s / !VVL_V

valssi → valsi

ss → s / VV_V

poissi → poisi

p → b / VV_V

vaapa → vaaba

p → b / VL_V

kulpi → kulbi

p → b / V_JV

lupja → lubja

Kui sisendi kuju vastab reegli tingimustele, aga näidatud muutust ei toimu, siis see tüvevariantide paar on antud reegli suhtes erand. Näiteks kui grammatikas G_ab on reegel 0 → i /VVt_# (# tähistab tüve lõppu), siis reeglipäraselt käituvad i-tüvelised sõnad v`aat : v`aati, p`eet : p`eeti, radikul`iit : radikul`iiti, sal`uut : sal`uuti jne, selle reegli suhtes erandid on aga muude tüvevokaalidega sõnad l`aat : l`aata, l`iit : l`iitu, `eit : `eite jne. Või kui grammatikas G_nt on reegel d → t /ee_i, siis reeglipärased on peedi : p`eeti, ankeedi : ank`eeti, epiteedi : epit`eeti jne, erandid on pleedi : pl`eedi, logopeedi : logop`eedi, mopeedi : mop`eedi jne. Kui selle reegli ette lisada tõkestav reegel d → d / opee_i, siis jääks erandlikuks ainult pleedi : pl`eedi.

Tüvevariantide moodustamise käiku suunab avatud morfoloogiamudelis tüvejuht, mis iga muuttüübi jaoks näitab ära, milline tüvevariant millisega on seotud. Seos on kahesuunaline, nii et sünteesi käigus on tüvejuhti järgides võimalik jõuda algvormi e lemma tüvest iga vajaliku vormi tüvevariandini, ja vastupidi, analüüsi käigus on võimalik jõuda iga konkreetse vormi tüvevariandist lemmatüveni. Näiteks tüübi 22 jaoks kehtestab tüvejuht järgmise skeemi:

at ––– bt ––– bn

| |

btv bnv

Näide:
         → G_ab         → G_tn
vaat (at) ——–— vaati (bt) ———— vaadi (bn)
         ← G_ba         ← G_nt
                 ↓ ↑          ↓ ↑
                 G_0v G_v0        G_0v G_v0
                 vaate (btv)    (vaade) (bnv)

See, milline formaalne allgrammatika läheb käiku mingi tüvevariandi saamiseks, tuletatakse automaatselt tüvekoodide põhjal. Kui on vaja moodustada at-tüvest bt-tüvi (v`aat → v`aati), siis valitakse tüvekoodide erinevate elementide järgi grammatika G_ab (lemmatüvest muutetüvi). Kui on vaja moodustada btv-tüvest bt-tüvi (v`aate → v`aati), siis rakendub grammatika G_v0 (mitmusetüvest ainsusetüvi).

Tüvemuutusreeglite rakendamiseks ei ole vaja täiendavat sõnastikuinfot, sest reeglite rakendumistingimused on reeglis endas fonoloogilise kontekstina antud.

Sõnastikku peavad jääma aga erandid – need tüvevariandid, mida allgrammatikates antud reeglite abil ei saa moodustada või mis moodustuksid valesti. Igal tüvemuutuste allgrammatikal on omad erandid, mis vaadatakse läbi enne reeglite poole pöördumist, ja ühel sõnal võib osa tüvevariante olla erandlikud, osa reeglipärased. Kõige rohkem erandeid annavad tüvevokaali lisamise reeglid allgrammatikas G_ab (laata, liitu, eite jne), kuid küllalt palju aitab siin tuletussufiksite arvestamine reeglite rakendumistingimustes. Sufiksid eelistavad tavaliselt mitte-i-list tüvevokaali, nt -kond : -konda, -us : -use, -ik : -iku, -v : -va, -m : -ma jne, lihttüved eelistavad i-d. Suhteliselt palju erandeid annavad ka nõrgaastmelisest tüvevariandist tugeva astme moodustamise reeglid allgrammatikas G_nt. Eriti tülikad on mõned võõrliited, mis tugevas astmes on erinevad, kuid nõrgas astmes on samakujulised, nt -iidi : -`iiti ja -iidi : -`iidi (vrd kloriidi : klor`iiti ja kloriidi : klor`iidi). Sellisel juhul on reeglisse valitud see sufiks, mis on eesti keeles produktiivsem (kuigi ka selle üle otsustamine pole alati lihtne).

Sõnastik 3, millega koos töötavad lisaks eelmistele ka tüvemuutuste reeglid, võiks olla selline (vrd ka sõnastik 2):

lemma

tüüp_sõnaliik

tüveerandid

VAAT

22_S

 

JALG

22_S

ab_ba j`alg j`alga

 

 

nt_tn jala j`alga

SÜDA

04_S

ab_ba süda südame

HINNE

06_S

 

LUUSTIK

25_S

 

NUUSTIK

02_S

 

Tüvemuutusreeglite lülitamine süsteemi grammatikaossa annab võimaluse hoida sõnastikus iga reeglipärase sõna jaoks ühtainsat tüvekuju (lemmat). Sõnastikuinfoks jääb iga lemma juurde seega ainult sõnaliik ja tüübinumber. Kuigi sõnastik on veel olemas, väheneb sel teel süsteemi sõnastiku maht küllalt palju, sest tüvemuutustega on seotud u ¾ eesti keele sõnavarast, ja ühel sõnal on vähemalt kaks, aga sageli kuni viis tüvevarianti. Tüvemuutuste süsteemi realiseerimine arvutis näitas, et formaalsete reeglitega on võimalik kirjeldada tüvemuutusi u 90% ulatuses VVS-i sõnavarast. Ainult 10% sõnadest on mingi tüvemuutusreegli suhtes erandlikud.

Kuigi kokkuhoid sõnastiku mahus on tuntav, pole süsteem ainult tüvemuutusreeglite abil veel sõnastikust vabaks saanud – sealt on tarvis leida iga sõna jaoks sõnaliik ja muuttüübi number, millest sõltub nii tüvemuutuste kui ka morfotaktika ja allotaktika allsüsteemide töö.

2.4. Tuvastusreeglid: tüübi- ja sõnaliigituvastus

Sõnastikust aitavad päris vabaks saada tuvastusreeglid, mille abil saab kindlaks teha sõna tüübikuuluvuse ja sõnaliigi. Sõna muutmisvõimalused eesti keeles sõltuvad suurel määral sellest, milline on sõna enda fonoloogiline struktuur: mitu silpi on algvormis ja muutetüves, kus on pea- ja kaasrõhk, millises vältes on tüvi, millised häälikud on tüve lõpus, millised on sisehäälikud jne. Kõiki morfoloogia jaoks olulisi tunnuseid saaks reeglite koostamisel arvestada sel juhul, kui sisend oleks morfonoloogilises transkriptsioonis, mis tähistab vähemalt aktsenti (nn kolmandat väldet) ja morfoloogilist rõhku. See eeldab aga sõnastiku olemasolu, või siis automaatset teisendust ortograafiast morfonoloogilisse transkriptsiooni (selle tegemist on EKI-s pisut katsetatud).

Avatud morfoloogiamudel orienteerub tavalisele ortograafiale, et toime tulla suvaliste eestikeelsete sõnadega, mida süsteemisõnastikus pole. Seetõttu kasutatakse reeglites kahte tunnust, mis on igal juhul sõna ortograafilisest kujust automaatselt kättesaadavad: silpide arvu ja sõna lõpuhäälikuid (või -tähti). Silpide arvu sisendsõnas määrab silbitusprogramm, mis kasutab oma tuvastusreegleid ja erandeid. Lõpuhäälikute arv ei ole piiratud ja tegelikult võivad nende hulka olla kaasatud ka sõna sisehäälikud traditsioonilises mõttes. Konkreetsete tähtede kõrval kasutatakse reeglites häälikuklassi tähiseid, kusjuures häälikuklassid on ühised tüvemuutusreeglites kasutatavate klassidega. Tuvastustunnuste kooslust reeglis olen nimetanud struktuurimalliks (vt ka Kuusik, Lind, Viks 1995).

Tuvastusreeglite sisendiks on sõna algvorm e lemma, mis esineb tavalistes leksikonides märksõnana ja mis on ka muidu sõnade nimetamisvormiks. Reeglite väljundiks on muuttüüp ja sõnaliik (VVS-i klassifikatsiooni järgi). Reeglistik jaguneb kaheks põhiliseks allgrammatikaks: eraldi on verbireeglid ja noomenireeglid (viimastega koos on reeglid muutumatute sõnade jaoks). Neile eelneb väike reegliplokk, mis tuvastab, kas sisend on verb või mitte ja suunab sisendsõna edasi vastavalt sellele. Verbi aitab tuvastada lemmavormi (supiini) formatiiv -ma, mis edasise analüüsi jaoks kõrvaldatakse, nii et mõlemad grammatikad töötavad lemmatüvedega.

Reegli kuju on x y → z_q, mida tuleks lugeda nii: kui silpide arv tüves on x ja lõpuhäälikud vastavad järjendile y, siis kuulub sõna muuttüüpi z ja sõnaliiki q. Reegel 2 VV → 26_S ütleb, et kahesilbiline sõna, mille lemmatüve lõpus on 2 vokaali, kuulub tüüpi 26 ja on substantiiv, nt fopaa. Kui sõna võib muutuda kahe eri tüübi järgi, siis on väljundeid kaks ja nende vahel on kas tilde ~ (võrdväärsed paralleeltüübid) või küsimärk ? (esimene paralleeltüüpidest on eelistatum), nt 3 ikkus → 11_S~09_S – nt suutlikkus või 3 VVline → 12_A?10_A – nt tõeline.

Reeglid on järjestatud, nii et konkreetsemad struktuurimallid on eespool ja üldisemad tagapool. Tuvastusreeglite näiteks üks väljavõte noomenigrammatikast koos näidetega (V=vokaal, C=konsonant, Q=kpt):

2 Clik → 25_A

petlik, kunstlik, piinlik

2 CCnik → 25_S

kunstnik

2 VVCnik → 25_S

üürnik

2 VVstik → 25_S

luustik

2 CVQ → 02_S

seelik, tehnik, rästik, taldrik, järsak,

 

tulek, sõiduk, rätsep, vikat, jne

Tuvastusreeglite erandid on sõnad, mille fonoloogiline struktuur vastab reeglites kirjeldatud struktuurimallile, aga muuttüüp (või sõnaliik) on siiski teine. Näiteks ‘2 Clik’ on produktiive adjektiivimall, kuid sama struktuuriga on ka üksikuid substantiive (tüüp on sama), nt ämblik, aadlik, puuslik; struktuurimall ‘2 VVstik’ määrab sõna enamasti tüüpi 25_S, aga sama struktuuriga sõnu leidub ka tüübis 02, nt nuustik, päästik, kaustik.

Kõige raskem on ära tunda muutumatuid sõnu, millel pole spetsiifilist tuletussufiksit, nt all, nõnda, vähe, sest jne. Ortograafilise sõnakuju puhul tekitab suuri raskusi pearõhu leidmine, millest sageli sõltub sõna tüübikuuluvus kõige rohkem, vrd valang (rõhk 1. silbil – tüüp 02) ja volang (rõhk 2. silbil – tüüp 22). Palju erandeid annavad 2-silbilised e-lõpulised sõnad, mis jagunevad mitme tüübi vahel, nt 01: tüüne : tüüne, 02: homne : homse, rase : raseda, 04: tase: taseme, 05: ranne: randme, 06: vanne : vande, 10: vaene vaese, 16: kõne : kõne. Suurem osa neist allub siiski reeglitele, millest kõige produktiivsem on 2 Cne → 02_A (nt homne). Kui lisada veel ne- ja ke-liited pika vokaali järel (reeglid 2 VVne → 10_A, nt vaene, ja 2 VVke → 12_S?10_S, nt lõoke) ja määrata ülejäänud Ce-sõnad tüüpi 06 (reegel 2 Ce → 06_S), siis on suurem osa 2-silbilisi e-sõnu saanud õige tüübimääratluse. Ülejäänud tuleb arvata erandite hulka.

Pärast tüübi- ja sõnaliigi tuvastusreeglite lisamist jäävad sõnastikku ainult erandid (vrd sõnastikud 2 ja 3), (H=lühike konsonant):

SÜDA 04_S (reegel: 2 VHa → 17_S, nagu muda, reha, lisa, ...)

NUUSTIK 02_S (reegel: 2 VVstik → 25_S, nagu luustik, ...)

Tüübituvastuse abil muutubki morfoloogiasüsteem avatuks. Kogu vajalik info süsteemi tööks tehakse kindlaks sõna enda fonoloogilise kuju põhjal ja ainult need sõnad, mille algvormi fonoloogiline struktuur ei võimalda antud reeglite abil tüüpi õigesti määrata (erandid), peavad jääma sõnastikku. Kokkuvõttes väheneb sõnastiku osa morfoloogiasüsteemis oluliselt ja grammatika osa suureneb.

Sõnu, mille ortograafiline algvorm ei sisalda piisavalt infot tüübi määramiseks, on VVS-i sõnade hulgas u 14%. Kui määrata ainult muuttüüp (ilma sõnaliigita), siis kahaneks erandite hulk 7-8%-ni (vt Viks 1995b). Praegused reeglid on häälestatud VVS-i klassifikatsioonile ja sõnaliigimääratlusele, aga kuna reeglid ise on vormistatud tekstifailina, siis sama programmi kasutades saab tuvastada tüüpe ka muude morfoloogiliste süsteemide järgi, kui reeglid ja erandid vastavalt ümber teha.

2.5. Morfoloogiline süntees ja analüüs

Avatud morfoloogiasüsteem funktsioneerib üldjoontes järgmiselt (Viks 1995a). Sünteesi puhul läbib sisendsõna (lemma) kõigepealt tuvastusmooduli, mille reeglid annavad väljundisse muuttüübi ja sõnaliigi. Järgneb tüvemuutuste moodul, kus genereeritakse tüvejuhti järgides kõik vastavas tüübis ettenähtud tüvevariandid (tüvemuutusreeglite abil). Sünteesi lõpetab vormimoodustuse (e kombinatoorika) moodul, kus allotaktika reeglite (tüübikirjelduse) järgi sobitatakse kokku nõutava muutevormi jaoks vajalik tüvevariant ja formatiivivariant (Kuusik, Viks 1998).

JALG & ‘S’ & ‘pl g’

TUVASTUS sõnaliik, tüüp

TÜVEMUUTUSED tüvevariandid

KOMBINATOORIKA sõnavormid

j`alga[de, j`alg\e

Analüüsi puhul kasutatakse neidsamu mooduleid, kuid teise algoritmi järgi. Sõnavormi liigendamisel (kombinatoorika moodul) järgitakse allotaktika reegleid, mille tulemusena saadakse iga eraldatud formatiivivariandi jaoks teatud valik võimalikke tüvevariantide koode. Igast liigendamisel saadud tüvevariandist moodustatakse tüvemuutuste moodulis kõik võimalikud lemmavormid. Lõpuks kontrollitakse tuvastusmoodulis, kas saadud lemmad sobivad vastava tüübi sõnaks.

jalgade

KOMBINATOORIKA tüvi & formatiiv

TÜVEMUUTUSED lemmad

TUVASTUS tüüp, sõnaliik

JALG & ‘22_S’ & ‘pl g’

2.6. Sõnamoodustus

Sõnamoodustuse allsüsteemid – tuletus ja liitsõnamoodustus – kasutavad osaliselt samu reegleid mis vormimoodustus. Ühised on näiteks tüvemuutusreeglid ning tüübi ja sõnaliigi tuvastamise reeglid. Üksused, millega neis allsüsteemides opereeritakse, kuuluvad aga teisele liigendustasandile (vt 1.2.1.) ja seetõttu on ka kombinatoorikareeglid erinevad.

2.6.1. Tuletus

Tuletussüsteemi kombinatoorikareeglid sarnanevad vormimoodustuse allotaktika reeglitele, näidates tuletiste võimalikke struktuure: milline tüve- või juurevariant esineb koos millise tuletussufiksiga (või selle variandiga). Reegleid täiendavad rakendustingimused, mis esitavad eelkõige tuletusaluse sõnaliigipiiranguid, aga ka fonoloogilisi tingimusi. Näiteid:

Tuletusmoodul töötab praegu ainult analüüsiprogrammi koosseisus. Tuletiste sünteesimiseks oleks vaja lisaks ka semantilisi piiranguid, nt tegijanime sufiks ja seostub aktiivset tegevust väljendavate verbidega (vrd esineja, aga mitte pimeneja). Ka analüüsi on kaasatud ainult kõige produktiivsemad ja formaalsemad tuletusreeglid, mis semantilisi piiranguid ei vaja või mille puhul nende puudumine vähem häirib. Semantiliste tingimuste formaliseerimine ei ole võimalik ilma eelneva uurimistööta.

2.6.2. Liitsõnapiiri tuvastus

Kõik vormimoodustuse reeglid töötlevad ainult lihtsõnu. See on eesti keele puhul ka täiesti põhjendatud, sest liitsõnade käänamisel muutub üksnes viimane komponent. Sellest leidub vaid üksikuid kõrvalekaldumisi: arvsõnade esikomponent muutub kolmes esimeses käändes (nt k`aks+kümmend – kahe+k`ümne – k`ahte+kümme[t – kahe+k`ümne[sse) ja paarissõnadel käänduvad mõlemad pooled kõigis käänetes (nt `emb-k`umb – emma-kumma – `emba-k`umba, emma[l-kumma[l; `üks+ainus – ühe+`ainsa – `üht+`ainsa[t – ühe[st+`ainsa[st).

Üldiselt käändub liitsõna nii, nagu tema lõpukomponendile vastav lihtsõna, sõltumata sellest, mitu komponenti liitsõnas kokku on või millises vormis on täiendsõna(d), vrd suusa+h`üppe+mägi (nagu mägi) – suusa+h`üppe+m`äe[le – suusa+h`üppe+mäge[sid – suusa+h`üppe+m`äkke; m`äkke+t`õus (nagu t`õus) – m`äkke+tõusu[ga – m`äkke+t`õus\e jne.

Seega liitsõna lülitamiseks automaatsesse morfoloogiasüsteemi on vaja ainult teha kindlaks tema viimane komponent ning kõik muud reeglimoodulid tegelevad sellega nagu lihtsõnaga (mis võib olla ka tuletis). Liitsõnapiiri tuvastus reeglite abil ei ole aga lihtne ülesanne. See vajab mitut reeglikomplekti ja mitmeid abiloendeid.

Osaliselt aitavad sõnaosade piire leida fonoloogilised reeglid:

Arvesse tulevad ka statistilised reeglid loendite kujul:

Sagedamate liitsõnakomponentide arvestamine toob enamasti kaasa liiga palju piire (maa+lima pro maalima, no+maa[d pro nomaad, pea+mine pro peamine), ja osa pakutud piire tuleb kõrvaldada. Selleks saab kehtestada keelureeglid. Kasulikud on näiteks:

Liitsõnaga seotud reeglistik ei ole EKI mudelis pole veel lõpule viidud (varasem versioon vt Hein 1995). Liitsõnapiiri otsingul tuleb ilmselt rohkem kasutada sõnastike abi, sest liitsõnamoodustuse reeglid ei saa läbi ilma leksikaalse semantikata – see allsüsteem keeles ei ole aga veel piisavalt formaliseeritud.

Liitsõnamoodul töötab praegu samuti ainult analüüsiprogrammis, mis arvestab liitsõnavõimalusega igas morfoloogilise liigenduse tsüklis. Sünteesi puhul peab liitsõnapiiri tuvastus toimuma esimeses järjekorras, sest tüübituvastuse reeglid vajavad viimase komponendi silpide arvu.

3. Avatud morfoloogiamudel arvutis

3.1. Tööpõhimõte

Reeglipõhise morfoloogia üldine tööpõhimõte, mis kehtib kõigi moodulite puhul, on järgmine. Sisendüksust otsitakse kõigepealt mooduli erandite sõnastikust. Kui otsitav üksus on seal olemas, siis saadakse sõnastikust ka vajalik väljund ja reeglid jäetakse vahele. Kui otsitavat üksust sõnastikust ei leita, siis suunatakse sisend reegliplokki, mille väljundiks on soovitav reeglipärane üksus. Reegleid töötlevad spetsiaalsed reeglite interpretaatorid.

Homonüümsete üksuste puhul võib üks homonüümidest olla reeglipärane, teine (teised) mitte. Sel juhul on sõnastikus erandi juures antud vastav viit, ning pärast erandliku vormi väljastamist suunatakse sama sisend edasi ka reegliplokki ja väljundeid saab mitu.

sisend

+



erandid erandlik väljund



reeglid, + −


juhtinfo

reeglipärane väljund

3.2. Nõuded tarkvarale

EKI tahab olla eelkõige teadusasutus, mitte tarkvarafirma. Seetõttu ei ole morfoloogiasüsteemi arendamisel võetud sihiks teha laiatarberakendust, vaid on arvestatud peamiselt uurimisteemadest tulenevaid vajadusi. Et tarkvara on EKI jaoks sekundaarne väljund, siis ei pööra me väga suurt tähelepanu selle tehnilistele parameetritele, vaid eelkõige sisulisele kvaliteedile: pole tähtis et väljund tuleks kiiresti, vaid et ta oleks õige.

Peamised nõuded, mida oleme silmas pidanud, on sellised:

Nende nõuete täitmise teevad võimalikuks 3 põhiprintsiipi, mida avatud morfoloogiamudeli arendamisel on järgitud:

Reeglipõhisus loob võimaluse luua keeleliselt usaldusväärne ja avatud süsteem. Süsteem on üles ehitatud nii, et igale lingvistilisele allsüsteemile vastab oma reeglite interpretaator ning omad reeglid ja erandiloend(id). Iga moodulit saab arendada eraldi, võttes aluseks vastavas valdkonnas tehtud lingvistilised uuringud. Erandite loendi moodustamine toimub paralleelselt reeglite testimisega. Erandite hulk keeles on suhteliselt väike ja kindlapiiriline – need on võimalik esitada lõplike loenditena. Valdav osa keelenähtusi on kirjeldatavad reeglitega, ja eriti käib see uuemate sõnade ja sõnavormide kohta: tundmatu sõna käitub suure tõenäosusega reeglipäraselt.

Avatud süsteem on eesti keele puhul praegu eriti aktuaalne, sest suured muutused ühiskonnas mõjutavad paratamatult ka keelt. Osa nähtusi kaob – kaovad ja ununevad ka sõnad, osa nähtusi tekib – tekivad ka uued sõnad. Uuenenud on ka kontaktid teiste keeltega: vene keele mõju on taandunud ja asendunud inglise (ja kohati ka soome) keele pealetungiga. Aja jooksul hakkab see ka keele grammatilist süsteemi mõjutama, nii et on vaja muuta reegleid.

Andmete ja tarkvara sõltumatus tagab süsteemi paindlikkuse ja avatuse. Tarkvara põhikomponent on reeglite interpretaator, mille jaoks on oluline ainult õige reegliformaat, mitte aga reeglite hulk või sisu. Kõik andmed (reeglid, juhtinfo ja erandisõnastikud) esitatakse tavalise tekstina, mida on võimalik täiendada ja korrigeerida nii, et süsteemi töökorraldus sellest ei muutu.

Nii sõnastikke kui ka reegleid saab kohandada vastavalt sellele allkeelele, mille töötlus parajasti käsil on – olgu selleks siis teaduslik artikkel geneetikast, tolliseaduse tekst või ulmelugu Maavälistest olenditest. Seejuures jääb tarkvara ikka samaks ning olemasolevatele moodulitele saab vajaduse korral lisada uusi. Sama tarkvarasüsteem oleks võimalik panna tööle ka teiste keelte jaoks, kui asendada kõik sõnastikud ja reeglid ning modifitseerida juhtinfot.

Modulaarsus tagab süsteemi paindlikkuse eri rakenduste suhtes ning ühtlasi võimaldab kontrollida süsteemi adekvaatsust. Iga lingvistiline allsüsteem vormistatakse iseseisva programmimoodulina (nn dünaamilise teegina .dll), mida saab teistest programmidest välja kutsuda. Mooduleid saab omavahel erinevalt kombineerida, või ka ükshaaval kasutada – vastavalt konkreetse rakenduse vajadustele. Moodulitel on mitu valitavat töörežiimi, nt tüübituvastus ja tüvemuutused töötavad kas vältega või ilma välteta režiimis (välte arvestamine on oluline nt kõnesünteesis, keeleõppes ja nõudlikumas leksikograafias).

Sellises keerulises modulaarses süsteemis sõltub ühe mooduli väljundi kvaliteedist iga järgmise mooduli töö. Kui süsteemi lõppväljund on pärast mitme mooduli läbimist siiski ootuspärane ja lingvistiliselt korrektne, siis võib oletada, et loodud mudel on vähemalt mingis mõttes adekvaatne tegeliku keelesüsteemiga.

3.3. Tulemused

Töö avatud morfoloogiasüsteemiga algas 1993.a Avatud Eesti Fondi toetusel, hiljem on projekti rahastanud Eesti Teadusfond ja osaliselt keeletehnoloogia sihtprogramm. Süsteem on tegemise käigus koos tegijatega arenenud ja muutunud ning nii mõnigi moodul on saanud uue kuju. Nüüdseks on süsteemi olulisemad moodulid realiseeritud dünaamiliste teekidena ning on EKI koduleheküljele vabaks kasutamiseks välja pandud. Moodulite peamised autorid on Indrek Hein ja Evelin Kuusik.

Morfoloogiamoodulid on EKI serveril 2 paketina:

http://www.eki.ee/tarkvara/:

syllabif silbitus

typedet tüübi ja sõnaliigi tuvastus

stems tüvemuutused, sh lemmatiseerimine

fmsynth morfoloogiline vormisüntees

http://www.eki.ee/keeletehnoloogia/projektid/morfana/:

ana morfoloogiline analüüs

LS-piir liitsõnapiiride tuvastus

Iga mooduliga on näidiseks kaasas ka üks lihtne tarbijaprogramm.

Morfoloogiamooduleid on seni kasutatud peamiselt lingvistilises uurimistöös, nt tüvemuutuste ja tüübituvastuse süsteemide modelleerimisel, silpide andmebaasi loomisel, grammatilise homonüümia uurimisel, sõnavormide kasutuse uurimisel jne. Olulisematest praktilistest rakendustest võiks nimetada grammatilist kirjegeneraatorit, mille abil saab sõnastiku sõnaartiklitesse poolautomaatselt lisada grammatilised andmed (sõnaliik, muuttüüp, muutevormid, üksuste piirid, grammatilised viited jne) eesti märksõnade või vastete jaoks (Kuusik, Lind, Viks 1995; Viks 2000).

Kirjandus

Hein, Indrek 1994. Practical realisation of the morphological analysis. - Automatic Morphology of Estonian 1. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, 29-35.

Hein, Indrek 1995. Rules for finding boundaries in compound words. - Automatic Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, 7-22.

Kaalep, Heiki-Jaan 1996. ESTMORF: A Morphological Analyzer for Estonian - Estonian in the Changing World. Toim. H.Õim. Tartu: Tartu Ülikooli Kirjastus, 43-98.

Kuusik, Evelin 1994. Morphological synthesis of Estonian based on the agglutination strategy. - Automatic Morphology of Estonian 1. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, 36-48.

Kuusik, Evelin 1995. Automatic recognition of the Estonian stem changes. - Automatic Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, 46-71.

Kuusik, Evelin 1996. Eesti tüvemuutuste süsteemi modelleerimine. Magistriväitekiri (käsikiri Eesti Keele Instituudis).

Kuusik, Evelin, Lind, Peeter, Viks, Ülle 1995. An Estonian Morpho-Generator for Dictionaries. (Preprint FU 1995.) Tallinn: Eesti Keele Instituut.

Kuusik, Evelin, Viks, Ülle 1998. Reeglipõhine morfoloogiline süntees. - Arvutimaailm 1, 43-45, 63; 2, 19-21.

Viks, Ülle 1977. Klassifikatoorse morfoloogia põhimõtted. (Preprint KKI-9.) Tallinn: Eesti Keele Instituut.

Viks, Ülle 1978. Morfoloogilise klassifikatsiooni optimeerimisest. - Sõnast tekstini. Tallinn: Eesti Keele Instituut, 91-111.

Viks, Ülle 1992. Väike vormisõnastik I: Sissejuhatus & grammatika; Väike vormisõnastik II: Sõnastik & lisad. Tallinn: Eesti Keele Instituut.

Viks, Ülle 1994. Eesti keele morfoloogiline analüsaator. Automaatanalüüsi võimalused ja võimatused. - Keel ja Kirjandus 3, 150-163.

Viks, Ülle 1995a. About rule-oriented morphology of Estonian. - Abstracts of Posters Presented at the 10th Nordic Conference of Computational Linguistics NODALIDA-95. Helsinki, 28-30.

Viks, Ülle 1995b. Rules for recognition of inflection types. - Automatic Morphology of Estonian 2. (Research Reports.) Toim. Ü.Viks. Tallinn: Eesti Keele Instituut, 23-45.

Viks, Ülle 1997. Erand, reegel ja sõnastik avatud morfoloogiamudelis. - Pühendusteos Huno Rätsepale. (Tartu Ülikooli eesti keele õppetooli toimetised 7.) Toim. M.Erelt, M.Sedrik, E.Uuspõld. Tartu: Tartu Ülikooli Kirjastus, 244-254.

Viks, Ülle 2000. Tools for the Generation of Morphological Entries in Dictionaries. - Proceedings of the 2nd International Conference on Language Resources and Evaluation LREC2000. Athens,

Projekti toetab praegu Eesti Teadusfond (grant 3862).