Skip to main content

Keeletehnoloogia vajab kütust, aga kas Eestil on seda piisavalt?

Eesti Keele Instituut 20. aprill 2026

Eesti digiriigi vaatest tekib küsimus, kas ja kuivõrd on võimalik arendada keeletehnoloogiaid, kus riigi võimekus – vaid ülikoolide kui selgelt teadusasutuste näol – võib olla innovatsiooni peamise eestvedajana vähene. Mis saab siis, kui ülikooli prioriteedid on teised?

Aastaid on räägitud Eestist kui digiriigist. Näiteks on Maailma Terviseorganisatsioon tõstnud esile Eestit, kes käivitas ühe esimese riigina 2008. aastal elektroonilise dokumendisüsteemi, mis hõlmas üksikisiku haiguslugu sünnist surmani.

Täna koostab Keskkonnaagentuur satelliidipõhistel jääproduktidel põhineva kaardirakenduse alusel jääkaarti, Ravimiamet kasutab oma kratti väljamõeldud ravimi nimede sobivuse hindamiseks, rahvusringhääling võimaldab artikleid „kuulata“ ning näiteks Tervisekassa pakub arstidele lisatuge, hindamaks ravimite koostoimeid uute ravimite väljakirjutamisel. Seda innovatiivsete lahenduste jada võib seejuures pikalt jätkata.

Uudse lahenduse väljatöötamiseks on vajalik esmalt seda arendada, õpetada ja testida. Treenimiseks on vaja alati teatud tüüpi andmeid ning mida kvaliteetsemad need on, seda parem. Hea keeletehnoloogia algab heast andmestikust, see välistab valekäitumise ja kvaliteedivead. Nii on andmed sisuliselt tehnoloogia arendamisel selle hädavajalikuks kütuseks, mille najal uudsed lahendused üldse tekivad.

Isikuandmete töötlemisel tuleb arvestada eraelu kaitse ja keeleandmete treenimisel autoriõigusega. Mõlemal juhul tuleb leida tasakaal isikute õiguste ja teaduse ning innovatsiooni kui avaliku huvi vahel.

Ühelt poolt on isikuandmete kaitse üldmäärus ehk IKÜM andmetöötlemise põhimõtetes juba selgelt sätestanud, et kuigi isikuandmeid kogutakse täpselt kindlaks määratletud eesmärkidel, siis sõltumata sellest, milleks isikuandmeid algselt koguti, ei peeta nende andmete hilisemat töötlemist teadusuuringutes esialgse eesmärgiga vastuolus olevaks (IKÜM art 5 lg 1(a) (b)). Määruse selgitustes rõhutatakse eraldi, et näiteks registritest saadava teabe sidumise teel võivad teadlased saada uut ja väärtuslikku teadmist.

Ka autoriõiguse seadus sätestab mitmed erandid, seejuures teose vaba kasutamisõiguse teadusuuringutes teksti- ja andmekaeveks, ilma autori nõusolekuta ja tasu maksmata. Erand võimaldab teha teadus- ja kultuuripärandiasutusel teksti- ja andmekaeve meetodil teadust viisil, kus autoriõigustega kaitstud teostest võib teha koopia ja selle andmestikuks lahti tükeldada, et automatiseeritud analüüsimeetodil uurida digitaalkujul mustreid, suundumusi ja korrelatsioone (AutÕS § 171 lg 1, § 191).

Viidatud teksti- ja andmekaeve erandi kavandamisel autoriõigusega kaitstud teoste kasutamiseks, märkis ekspertrühm 2018. aastal Euroopa Parlamendi tellitud analüüsis, et erandi sõnastamisel liialt kitsalt võib see kahjustada idufirmade ja üksikteadlaste võimalust valdkonda edendada.

Samas analüüsis seati küsimuse alla erandi kasutamine läbi juurdepääsu, kui see eeldab sisuliselt „tellimust“ – õiguste omaja võib seada sedasi ebamugavaid ja piiravaid tingimusi, samuti arvutada erandi kasutuse abonenttasu sisse. Seejuures ei saa kõik teadusasutused omandada litsentse kõikidest andmebaasidest. Ometi on tänaseks need samad küsimused laual.

Keelemudelite kiire kasutuselevõtt on tõstatanud ühiskonnas praktilised küsimused just autoriõiguste erandi kontekstis: kes on teadusasutus, kas AI treenimine on üldse teaduserandiga hõlmatud, mida tähendab juurdepääs või kui suures mahus tuleks koopiate tegemist jaatada?

Euroopa Liidu Intellektuaalomandi Ameti 2025. aasta uuring tõdeb, et kohtuasju on algatatud Ameerika Ühendriikides, kuid juhtumeid on esitatud nii Hiinas, Kanadas, Ühendkuningriigis, Indias kui ka Euroopa Liidus (kolm Saksamaal ja üks Prantsusmaal). Euroopa Liidus on teinud Saksa kohtud kaks otsust – nn LAION-i (2024) ja GEMA (2025) lahendid.

Saksa mittetulundusühing LAION on ühing, kes tegi üldsusele tasuta kättesaadavaks andmekogu, milles sisaldub ligi 6 miljardit pildi-teksti paari. Vaadeldud andmekogu koosnes tabelist, milles olid hüperlingid internetis avalikult kättesaadavatele piltidele või pildifailidele, samuti teave iga pildi kohta ning andmekogu võis kasutada generatiivse tehisintellekti koolitamiseks.

Kohtu hinnangul võimaldabki teksti- ja andmekaeve ühe või mitme digitaalse või digiteeritud teose automatiseeritud analüüsi, et uurida mustreid, suundumusi ja seoseid, seetõttu kuulus ka tegevus lubatud erandi alla. Kuna tegevus toimus mitteärilisel eesmärgil ja tasuta, on hetkel olemas vähemalt üks lahend, mille kohaselt võib teadusasutuse erandi alusel tegutseda ka MTÜ – ta võis kasutada erandi alusel suures koguses autoriõigustega kaitstud teoseid, et mustreid ja seoseid uurida.

GEMA lahendis esitas Saksa ühing GEMA hagi OpenAI gruppi kuuluvate tehisintellekti arendajate vastu, sest kasutatavates mudelites esines laulusõnu üheksast tuntud laulust. Siin sedastas kohus, et erand kohaldub vaid tegevusele, mis hõlmab treeningandmete kokkupanekut ning reproduktsioonide teisendamist ja salvestamist üksnes analüütilistel eesmärkidel, kuid teabe avalikustamine ei olnud lubatud. Seejuures ei kaalunud kohus, kas treenimine oli lubatud, kuivõrd kohtu hinnangul ei olnud sel juhul tegemist teadusasutusega.

Eesti digiriigi vaatest tekib küsimus, kas ja kuivõrd on võimalik arendada keeletehnoloogiaid, kus riigi võimekus – vaid ülikoolide kui selgelt teadusasutuste näol – võib olla innovatsiooni peamise eestvedajana vähene. Mis saab siis, kui ülikooli prioriteedid on teised? Või kus ükski mittetulundusühing keele edendamisest ei hooli?

Eesti keele püsimajäämine on riigi asi, tagada tuleb see, et eestikeelsed rakendused oleksid kättesaadavad, ning laiemalt tagada keele säilimine. Andmeteta ei õpi ükski tehnoloogia. Keele hoidmisel ja arendamisel ei piisa üksnes sellest, et eesti keel on riigikeel, vaid selleks on vaja teha ka toetavaid tegevusi, et erinevad tehnoloogilised lahendused kasutaksid korrektset eesti keelt ja keelekasutus ei hääbuks.

Nagu rõhutavad põhiseaduse kommentaaride autorid: tagada tuleb eesti keele igakülgne arenemine teadus- ja kultuurkeelena, mis tähendab, et keel oleks käibel kõigil olulistel elualadel ja omaks selleks vajalikke väljendusvahendeid.

Ilmunud 17.04.2026 https://geenius.delfi.ee/artikkel/120569104/keeletehnoloogia-vajab-kutust-aga-kas-eestil-on-seda-piisavalt

Nele Nisu

Andmeõiguse ja -poliitika juht
Keeletehnoloogia osakond
Nele Nisu

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!