Skip to main content

EKI keelekool 26.02.2022. Kui palju on eesti keeles sõnu?

Eesti Keele Instituut 26. veebruar 2022

Keeleuurijad, rõõmustage! Kohe-kohe saab avalikuks uus, varasemast palju mahukam eestikeelsete tekstide kogu ehk keelekorpus. Eesti keele ühendkorpusest 2021, mis on abiks eesti keele uurimisel ja kirjeldamisel, kirjutab Eesti Keele Instituudi vanemarvutileksikograaf Kristina Koppel. 

Oled kunagi mõelnud, kui palju on eesti keeles sõnu? Meid EKIs huvitab see väga. Vastuse saamisega aitab meid eestikeelsete tekstide kogu ehk keelekorpus. Nimelt, uude, peagi avalikuks saavasse eesti keele ühendkorpusesse 2021 kogusime eelmise aasta lõpu seisuga sõnu kokku 2,4 miljardit – just nii palju sõnu praegu eesti keeles teada ongi.

kristina artikkel

Esimese ühendkorpuse (2013) kogumisega alustasime EKIs pea 10 aastat tagasi. Sellest ajast saadik oleme korpuse sisu regulaarselt uuendanud. Selleks rehitseme iga kahe aasta tagant läbi kogu eestikeelse veebi, kogudes sealt kokku kõik eestikeelsed tekstid. Nii on kümne aastaga eesti keele ühendkorpuse maht kasvanud 464 miljonilt sõnalt 2,4 miljardi sõnani. See on päris hüppeline kasv, kui mõelda, et 1970ndatel arvati eesti kirjakeeles (oskus- ja murdekeelt arvestamata) olevat umbes 700 000 sõna.

Korpusest on peale uute (ja ka vanade) sõnade leidmise palju kasu muudegi keelenähtuste uurimisel ja kirjeldamisel, samuti keelemuutuste jälgimisel. Korpusest näeme, kuidas keelt päriselt kasutatakse. See omakorda aitab meil koostada ajakohast sõnaraamatut, EKI ühendsõnastikku Sõnaveebis. Seal kirjeldame eelkõige tänapäeva eesti keelt. Korpusandmete analüüsimine on sõnastiku koostajate igapäevane töö ka seepärast, et sõnastikku tehes ei saa toetuda ainult oma sisetundele. Uurida tuleb paljude inimeste ühist keelekasutust.

Iga korpusele toetuv sõnastik on pisut korpuse nägu. Seepärast on oluline, et see oleks võimalikult suur ja mitmekesine. Tänapäeval on põhiliseks keeleandmete kogumise allikaks saanud veeb – selle rehitsemine on odav ja kiire ning andmemahud suured. Kõige mahukama osa ühendkorpusest moodustavad perioodikaväljaannete (nt Postimees, Horisont, Sirp) ning meediaportaalide (nt Delfi, Femme) artiklid. Neile järgnevad blogi- ja foorumipostitused, eestikeelse Vikipeedia artiklid ning avalikud teadusartiklid kõikidest teaduse valdkondadest. Uude korpusesse oleme oluliselt juurde lisanud ka (ilu- ja aime)kirjandust, samuti reisikirju, käsiraamatuid jm. Seega võib öelda, et ühendkorpus sisaldab normingulist kirjakeelt ja argikeelt, kirjandus- ja teaduskeelt.

Nii nagu kõiki eestikeelseid sõnu ei jõua paraku mitte kunagi sõnastikus registreerida, ei jõua kõik eestikeelsed sõnad mitte kunagi ka ühendkorpusesse. Veebist on võimalik kätte saada vaid murdosa keeleandmetest, väga palju sõnu jääb tasulistesse uudistesse ning avalikkuse eest peidetud (sotsiaalmeedia)postitustesse, aga ka autoriõigustega kaitstud teostesse kinni.

Nii on tegelik vastus pealkirjas esitatud küsimusele, et me ei tea. Sest kõiki sõnu ei olegi võimalik kokku lugeda. Küll aga teame, et sõnu on eesti keeles kindlasti väga palju rohkem kui 2,4 miljardit.

Ilmunud ajalehes Postimees 26.02.2022.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!