Mis on tekstikorpus? - EKI teatmik

Sisukord

Lühidalt

Tekstikorpus on mahukas kirjalikest või suulistest tekstidest koosnev elektrooniline andmekogu. Tekstikorpusi kasutatakse keele uurimisel, kirjeldamisel ja keelemuutuste jälgimisel, näiteks uute sõnade ja tähenduste tuvastamiseks, ent ka loomuliku keele töötluses.

Pikemalt

Korpust kasutatakse tänapäeval ka sõnaraamatute koostamisel, et saada keele kohta autentset infot. Keeleandmete uurimiseks korpuses kasutatakse spetsiaalseid programme ehk korpuspäringusüsteeme (nt Sketch Engine, KORP), mis võimaldavad mitmekülgselt analüüsida sõnade kasutust ja sõnakasutuse muutumist. Korpustest avaneb keeleuurijale ja sõnaraamatukoostajale pilt tegelikust keelekasutusest.

Korpused võivad sisaldada ühe keele tekste (siis on tegemist ükskeelse korpusega) või mitme keele tekste (mitmekeelne korpus). Esimene digitaalne kirjaliku keele korpus oli 1960. aastatel loodud Browni korpus (täisnimi: A Standard Corpus of Present-Day Edited American English for Use with Digital Computers), mis sisaldas 1961. aastal avaldatud kirjalikest tekstidest kogutud ühte miljonit Ameerika inglise sõna. Esimene eesti keele korpus oli baaskorpus, mille Tartu Ülikool lõi 1990. aastatel Browni korpuse eeskujul. See sisaldab 1980-ndatel avaldatud tekstikatkeid samuti ühe miljoni sõna mahus.

Eesti keele ühendkorpuste sari

Eesti keele ühendkorpus on kaasaegseim, mahukaim ja žanriliselt mitmekesiseim eestikeelsete digitekstide kogu. Esimese ühendkorpuse kogusime Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös kokku 2013. aastal. Jätkuvas koostöös on ühendkorpuste sarjas valminud praeguseks juba viis versiooni: eesti keele ühendkorpus 2013, 2017, 2019, 2021 ja 2023 (vt tabel 1). Uuendame ühendkorpust iga kahe aasta tagant.

Seni uusim, 2023. aasta versioon sisaldab 3,8 miljardit sõnet. See on nii mahukas, et annab esindusliku ülevaate tänapäeva eesti keele kasutusest. Samuti on sealt võimalik kasutusnäiteid leida ka väga madala sagedusega keelenähtuste kohta.

Tabel 1. Eesti keele ühendkorpuste suurused

	sõnesid*	lauseid	lõike	dokumente
ühendkorpus 2023	3,8 mld	255 mln	83 mln	15 mln
ühendkorpus 2021	2,9 mld	197 mln	64 mln	12 mln
ühendkorpus 2019	1,8 mld	120 mln	35 mln	6 mln
ühendkorpus 2017	1,3 mld	88 mln	27 mln	3 mln
ühendkorpus 2013	563 mln	38 mln	7,5 mln	700 tuh

* Sõne ehk tekstisõna on tekstis esinev sõna (nt jooksma) või selle muutevorm (nt jooksin, joostud). Tekstikorpuse suuruse mõõtühikuna kasutataksegi tavaliselt sõnesid.

Kuidas tekstid korpusesse saavad?

Sõnastikukoostajad on sõnade tähenduste ja kasutusmustrite uurimisel ikka toetunud keeleandmetele. Algselt kasutati keeleallikana sedelkartoteeke, mis sisaldasid käsitsi üles kirjutatud sõnasedeleid. Arvutite tulekuga hakati sisse skaneerima paberil avaldatud tekste, et need masinloetaval kujul ära märgendada ning korpusesse üles laadida. Tänapäeval on tekstide kogumise põhiallikaks saanud aga hoopis internet, sest eritüübilisi tekste on seal palju, nende allalaadimine kiire ja töötlemine lihtne.

Tekste kogub veebist spetsiaalne tööriist ehk kroolija, mis alustab tekstide kogumist usaldusväärsetelt veebilehtedelt, mille korpusekspert on käsitsi tuvastanud. Kokkukogutud tekstid puhastatakse üleliigsest: kustutatakse muukeelsed ja automaattõlkelised tekstid, mittetekstiline materjal (pildid, tabelid, hüperlingid) jms, samuti eemaldatakse identsed dokumendid.

Kõik tekstides esinevad sõnad varustatakse morfoloogilise infoga: määratakse tema algvorm ja sõnaliik, eristatakse muutelõpud. Näiteks sõnavormi lambaid algvorm on lammas, sõnaliik nimisõna ja muutevorm mitmuse osastav. Eesti keele ühendkorpus on alates 2021. aastast märgendatud ka süntaktiliselt. See tähendab seda, et igale sõnale on lisatud märgend tema süntaktilise funktsiooni kohta lauses (nt kas tegemist on aluse, öeldise või sihitisega).

Mis tekstid korpuses on?

Suure osa ühendkorpuse mahust moodustavad veebist kogutud avalikud tekstid. Oma olemuselt on see niisiis veebikorpus. Ühendkorpus sisaldab ka Tartu Ülikoolis loodud eesti keele koondkorpust ja tasakaalus korpust, mis sisaldavad tekste 1990. aastate algusest kuni 2008. aastani. Seega saab ühendkorpusest eestlaste keelekasutust vähemal või rohkemal määral uurida ligikaudu 30 aasta lõikes.

Meediaportaalide ja perioodikaväljaannete tekstid. Neid on korpuses kõige rohkem. Esikolmikus on Delfi, Postimees ja Õhtuleht, viiendal kohal ERRi portaal, kümnendal Saarte Hääl. Esindatud on paljud teisedki päeva- ja nädalalehed ning ajakirjad, näiteks Eesti Ekspress, Eesti Päevaleht, Maaleht, Äripäev, Õpetajate Leht, Sirp, Horisont, Tehnikamaailm, Eesti Loodus, Pealinn, Kesknädal, Lääne Elu, Eesti Kirik, Hiiu Leht, Põhjarannik jpm.

Ametlikud ja haldustekstid. Ametlikud tekstid on kogutud näiteks Riigi Teataja, Euroopa Parlamendi, Riigikohtu kodulehelt, aga ka teistelt valitsuse ja riigiametite kodulehtedelt (nt Riigikogu, Vabariigi Valitsus, Vabariigi Presidendi Kantselei, Riigikontroll, Õiguskantsleri Kantselei, Välisministeerium, Rahandusministeerium, Haridus- ja Teadusministeerium, Majandus- ja Kommunikatsiooniministeerium, Keskkonnaministeerium, Kaitseministeerium, Siseministeerium, Sotsiaalministeerium, Maksu- ja Tolliamet, Politsei- ja Piirivalveamet, Statistikaamet, Töötukassa, Terviseamet, Maanteeamet, Maa-amet, Transpordiamet, Riigi Infosüsteemi Amet, Eesti Keele Instituut jm). Lisaks sisaldab korpus näiteks Eesti Vabariigi põhiseaduse kommenteeritud väljaannet. Palju tekste on kogutud ka näiteks linnade jm haldusüksuste kodulehtedelt (tallinn.ee, tartu.ee).

Asutuste kodulehed ja veebipoed. Korpus sisaldab ka palju tekste ülikoolide (Tartu Ülikool, Eesti Maaülikool, Tallinna Tehnikaülikool), muuseumide ja teatrite kodulehtedelt (Kirjandusmuuseum, Eesti Kunsti Muuseum, Vanemuine, Linnateater), era- ja suurfirmade kodulehtedelt (TV3, Apollo, LHV), aga ka veebipoodidest (Kaup24, Photopoint, Tradehouse).

Ilukirjandus. Selle lisamiseks oleme teinud eraldi jõupingutusi. Kui vanemad tekstid on autoriõiguste alt vabastatud, siis uuemad mitte. Seepärast tuleb enne materjali korpusesse lisamist esmalt tegeleda autoriõiguste ja intellektuaalse omandi õigusega. EKI koostöö kirjastustega jätkub: eesti keele ühendkorpus 2023 sisaldab ligikaudu 1700 kirjandusteost, sh nii uuemat (aastatest 2000–2023) kui ka vanemat (aastatest 1864–1945) ilukirjandust, nii algupäraseid kui ka tõlketeoseid. Näiteks on seal teoseid August Kitzbergi, Eduard Bornhöhe, Eduard Vilde, A. H. Tammsaare, Juhan Liivi, Indrek Hargla, Andrus Kiviräha, Karen Orlau, Tõnu Õnnepalu, Lehte Hainsalu jt sulest. Võrdluseks: ühendkorpus 2021 sisaldas ligikaudu 400 kirjandusteost.

Teaduskeel. Seda on kogutud näiteks teadusajakirjadest Keel ja Kirjandus, Eesti ja soome-ugri keeleteaduse ajakiri, Eesti Rakenduslingvistika Ühingu aastaraamat, Lähivõrdlusi, Methis: Studia Humaniora Estonica, LingVaria, Folklore, Eesti Arst, Eesti Haridusteaduste Ajakiri, Ajalooline Ajakiri, Mäetagused, Estonian Journal of Earth Sciences, Eesti Majanduspoliitilised Väitlused ning Agraarteadus. Samuti sisaldab ühendkorpus kogu eestikeelset Vikipeediat.

Blogid ja foorumid. Eesti keelt on kogutud ka blogidest (nt Mallukas, Marimell, Paljas Porgand, Päevakera; poliitikute jm avaliku elu tegelaste blogidest (nt Tunne Kelam, Kaja Kallas, Henn Põlluaas, Varro Vooglaid, Yoko Alender, Urmas Paet, Simo Runnel) ning foorumitest (nt Matkafoorum, Fotofoorum, Ulmefoorum, Elektroonikafoorum). Paljudes blogides ja foorumites kasutatakse rohkem toimetamata keelt, mis annab keeleuurijale huvitavat infot tegeliku keelekasutuse kohta. Kuna netis kasutusel oleval kirjalikul keelel on palju suulise keele jooni, korvab blogide ja foorumite keelekasutus mõnevõrra suulise keele puudumist ühendkorpusest.

Kas korpus saab olla esinduslik ja tasakaalus?

Ühendkorpusele on ette heidetud seda, et see pole piisavalt esinduslik ehk ei sisalda kõiki tekstitüüpe, mis antud kultuuris antud ajavahemikul olemas on, ega tasakaalus ehk nende tekstitüüpide esindatus korpuses ei vasta nende esindatusele antud kultuuris. Esinduslikkust ja tasakaalustatust on korpuste puhul aga väga keeruline tagada. Esiteks on keeruline defineerida inimrühmi, kelle keelekasutust korpus peaks esindama − nende arv on piiramatu ning omadused teadmata. Kuna iga kultuuri inimrühmad muutuvad ja kasvavad pidevalt, siis on ka loogiliselt võimatu saavutada eri tekstitüüpide korrektset vahekorda tekstikorpuses. Ka tasakaalustatuse saavutamine sisaldab endas palju subjektiivseid otsuseid, näiteks missuguseid tekste korpusesse võtta ning millised finantsilised ja juriidilised faktorid korpuse loomist mõjutavad.

Ka 2000. aastatel Tartu Ülikoolis loodud koondkorpus − suurim eesti keele korpus enne ühendkorpuste tulekut − polnud samuti tasakaalus ega esinduslik. Seal olid ülekaalus ajalehetekstid (u 75%), internetisuhtluse keelekasutus moodustas kogumahust 9%, ilukirjandus ja teadustekstid kumbki 2%. Ka ühendkorpuses on ülekaalus perioodikatekstid, järgnevad foorumite ja blogide keel. Ilukirjandus ja teaduskeel on ühendkorpuses vaeslapse rollis − esimest neist on ühendkorpuses pisut üle 4%, teist alla ühe protsendi.

Kuidas korpust kasutatakse sõnaraamatu koostamisel ja keeleuurimisel?

Sõnaraamatute koostamisel on pidevalt uuenevaid tekstikorpusi kasutatud juba alates 1980-ndatest. Eestis hakati sõnaraamatutöö jaoks alates 1990-ndatest kasutama Tartu Ülikoolis loodud tasakaalus korpust (lisaks alates 1955. a kogutud sedelkogule). Käsitsi koostatud sedelite kogumine lõpetati 2000. aastal, sest see ei suutnud enam võistelda keeleandmete kogumisega arvutite abil. 4,3 mln suurust sedelkogu (XX sajandi eesti kirjakeele arhiivi) võiks võrrelda umbes 50 mln sõna sisaldava korpusega, kui võtta lause keskmiseks pikkuseks 8–10 sõna. Sõnaraamatu aluseks oleva andmekogu jaoks on 50-miljoniline korpus kaugelt liiga väike (vrd tekstikorpuste andmeid tabelis 1).

Sõnavara muutub ja täieneb keeles kõige kiiremini – EKI ühendsõnastiku jaoks on kõik selle sõnad analüüsitud eesti keele tekstikorpuse põhjal. Ühendsõnastikku ei lisata ühtki uut keelendit ilma seda tekstikorpuse najal hindamata.

Samamoodi kasutatakse korpust keeleuurimisel. Kui näiteks sõnamoodustuse uurimine on varem toetunud sõnaraamatutele, siis nüüd on see muutunud korpuspõhiseks. Süntaksiuurijad on korpusest „eesti keele süntaksi kohta saadud märkimisväärsel hulgal uusi tulemusi”.

Keelekorralduses võimaldavad korpuse andmed süstemaatiliselt jälgida keelekasutust ning normingute ja soovituste kinnistumist keeles ning vajadusel on võimalik ebakõlasid korrigeerida.

Eesti keele ühendkorpus on žanriliselt mitmekesiseim allikas tänapäeva eesti keele uurimiseks, mille allkorpustest saab omakorda eraldi päringuid teha. Tekstikorpustest avaneb leksikograafile ja keeleuurijale pilt tegelikust keelekasutusest, mida on võimalik valdkondade kaupa analüüsida. Korpuse andmed luuakse küll (pool)automaatselt, ent korpusandmeid hindavad ja kokkuvõtte teevad ikka inimesed – leksikograafid ja keeleteadlased.

Kirjandus

Koppel, Kristina; Kallas, Jelena 2022. Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu. Eesti Rakenduslingvistika Ühingu aastaraamat = Estonian papers in applied linguistics, 18, 207−228. DOI: 10.5128/ERYa18.12.
Koppel, Kristina 2024. UUS REKORD ⟩ Eesti keel kaardistati ligi 4 miljardi sõna mahus. Postimees 24.01.2024.
Koppel, Kristina 2024. Keeleminutid. Digi-Tammsaare kinnipüüdmise tõde ja õigus. ERR Kultuur 29.01.2024.
Langemets, Margit; Koppel, Kristina; Jürviste, Madis 2024. Eesti keele pesa. Sirp. (9). 09.02.2024.
Kasik, Reet 2015. Sõnamoodustus. Eesti keele varamu I. Tartu: Tartu Ülikooli Kirjastus, 2015.
Eesti keele süntaks. Toimetanud Mati Erelt ja Helle Metslang. Eesti keele varamu III. Tartu: Tartu Ülikooli Kirjastus, 2017.

Koostanud Kristina Koppel ja Margit Langemets

Anna tagasisidet