Skip to main content

Keeleminutid. Mida korpusest saab ja mida ei saa

Eesti Keele Instituut 24. aprill 2023

Keelekorpusteks nimetatakse suuri tekstikogumeid, mida kasutatakse keele uurimiseks ja keeletehnoloogia arendamiseks. Tänapäeval on nende maht eesti keeles juba miljardeid sõnu, mõnes keeles lausa sadu miljardeid. Seda on palju rohkem, kui üks inimene oma elu jooksul lugeda ja kuulata jõuab. Mida neist siis leida võib? Ja kas on asju, mida väga tahaks sealt leida, aga ei leia, küsis EKI direktor Arvi Tavast “Keeleminutises”.

avatud raamatud

Tartu Ülikooli teadlane Heiki-Jaan Kaalep on juba aastakümneid korpustest uurinud, milliseid vorme sõnadest moodustatakse. Praktilise külje pealt on tema töö meile andnud paljudes rakendustes kasutatava õigekirjakontrolli, mis oskab suvalise sõnavormi kohta öelda, kas see on mõne eesti keeles oleva sõna vorm või mitte.

Selgub aga, et lisaks saab korpusest ootamatuidki andmeid selle kohta, kuidas inimene neid vorme moodustab. Inimene tõenäoliselt ei hoia sõna kõiki vorme mälus, vaid suudab mõne juba tuntud vormi alusel moodustada ka ülejäänud. Oleme harjunud mõtlema, et see tuntu on sõna algvorm, mille leiab sõnastikest. Nimisõnade puhul võib see tõepoolest nii olla, sest ainsuse nimetav kääne (raamat) ongi kõige levinum ja omastav (raamatu) kohe järgmine. Tegusõnadest aga kohtame muid vorme algvormist palju rohkem: on kolmkümmend korda sagemini kui olema, teha viis korda sagemini kui tegema. Kuidas me siis neid vorme moodustada oskame  kas on korpus vildakas ja tegelikus keeles esinevad sagemini siiski algvormid olema ja tegema? Või vajab arendamist hoopis meie ettekujutus keelesüsteemist?

Inimeste kõnepruugid on erinevad. Ka seda erinevust on võimalik uurida, et saada keelesüsteemi ja selle arengu kohta rohkem teada. Lisaks aga saab uurida konkreetse inimese keelekasutust. Tulemuste hulgas on jälle üllatusi, nimelt kannavad keel ja kõne lisaks muule ka olulist infot inimese tervisliku seisundi kohta. Näiteks väljakujunenud Alzheimeri tõbe tunnevad automaatsed meetodid keelekasutuse põhjal juba päris täpselt ära. Ulla Petti teeb aga Cambridge’i Ülikoolis doktoritööd selle tõve väga varaste märkide tuvastamisest, mis võimaldaks inimestel selle ravimatu haigusega paremini toime tulla. Muidugi tõstatab loodav tehnoloogia mitmeid eetilisi küsimusi, mis alles vajavad lahendamist, seoses näiteks tööandjate ja kindlustusfirmade juurdepääsuga uuringutulemustele või lihtsalt meetodi usaldusväärsusega.

Need on vaid kaks teemat 20. rakenduslingvistika konverentsilt, mis toimub 27.28. aprillil ja mida kõik huvilised on oodatud veebis vaatama.

Lugu on ilmunud ERRi kultuuriportaalis 24.04.2023.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!