Keeleminutid. Kumb on halvem olla, joomakaru või joomakoer?
Sõnaraamatu formaat nõuab koostajatelt konkreetsete valikute tegemist, ehkki keel rangesse vormi alati mahtuda ei taha. Sellest, et sõnaraamatukoostajat võivad edaspidi keelekorpuse uurimise kõrval aidata ka suured keelemudelid, kirjutas “Keeleminutites” Eesti Keele Instituudi ja Tartu Ülikooli teadur Lydia Risberg.
Huvitav, kas Kristjan Jaak Petersoni oleks sõimatud joomakaruks või joomakoeraks, kui peaks täiustama tema luulerida “Mind mu sõber sõimab, et ma tahan juua”? Aga mis seal üldse vahet on? Sellele vastamiseks lähen ajas paar kuud tagasi, veebruarisse 2026, mil need sõnad olid EKI ühendsõnastikusesitatud pisut teisiti kui praegu. Nimelt oli joomakaru märgitud halvustavaks sõnaks, aga joomakoer kõnekeelseks. Ühed napsutajad mõlemad – kas karud on siis halvemad kui koerad?
Selgus, et erinev esitus oli kõigest tehniline aps: 1991. a seletava sõnaraamatu vihikus (samuti 2. trükis EKSS 2009) olid mõlemad märgitud halvustavaks sõnaks joodiku kohta, aga EKI ühendsõnastikku jõudis joomakoerkõnekeelsena. Nende sõnadega olid tegelenud erinevad koostajad eri aegadel, sõnad polnud töölauale üheskoos jõudnud. Kui erinevuse nüüd avastasime, uurisime keelekorpusest järele, kuidas neid tänapäeval kasutatakse. Seda oli lihtne teha, sest joomakaru esines üksnes 11 lauses ja joomakoer kuues. Nende põhjal, nagu näiteks “Joomakarud satuvad aina harvem riigi koikule” ja “Päevasel ajal pole pargis ei koeri ega joomakoeri”, ei paistnud need halvustavad. Nõnda on nad mõlemad nüüd märgitud kõnekeelseks.
Kahe sõna korral, mida ühtlasi esineb korpuses väga vähe, on lihtne asi korda ajada. Kuid EKI ühendsõnastikku on lisatud palju sarnase tähendusega sõnu, kohati on kümneid või isegi sadu sõnu ühes pesas koos. Ka alkoholisõbra kohta käivaid sõnu on väga palju: alkoholisõltlane ja alkoholilembene, alkohoolik ja joodik, samuti napsi- või napsuarmastaja, napsilembene, napsisõber, napsitaja; kõnekeelselt öeldakse lausjoodik, marujoodik, mudajoodik ja sopajoodik, saab olla ka joomakõri, õli, pump või viinapump, ja paljut muudki.
Neid sõnu leidub keelekorpuses (väga) paljudes lausetes ning osadel neist on ka rohkem kui üks tähendus: näiteks õli tähendab esmajoones viite muud asja ja alles kuuendana alkoholisõpra. Nii läheks sõnaraamatukoostajal äärmiselt kaua aega, et kõikide selles pesas olevate sõnade kasutus just alkohooliku tähenduses keelekorpusest üle vaadata. Samuti võib nähtud lausete tõlgendamine inimesiti erineda: üks leiab lauseid lugedes, et tegu on kõnekeelse sõnaga, teine ehk leiaks samu lauseid nähes, et tegu on halvustavalt kasutatud sõnaga. Ja ega iga kord polegi võimalik üheselt öelda, mida lausete peale kokku arvama peaks.
Selle ülesandega võib abi olla suurtest keelemudelitest. Oleme EKI teadusprojekti töörühmas teinud mitu katset, millest viimases keskendusime justnimelt samatähenduslike sõnade registritele. Suurtest keelemudelitest on abi juba sellega, et leida korpusest kiiresti üles laused konkreetsete sõnatähenduste kohta. Meie katses oli ligi 300 sõna – inimesel läinuks kindlasti paar nädalat aega, et leida iga sõna kohta lauseid just selles ühes otsitavas tähenduses. Mudel tegi töö meie eest ära mõne tunniga.
Üldiselt on Anthropicu, Google’i ja OpenAI suured keelemudelid meie katsetes andnud häid tulemusi, kui need on pidanud tegema valikuid selle kohta, millises registris on sõnu etteantud kontekstis kasutatud. Viimases katses andis parima tulemuse Gemini 3.1 Pro, mille valikutest ligi 90% sobiksid sõnaraamatus esitamiseks. Niisiis võib öelda, et mudelid on sellist sorti kategoriseerimisülesandes üpris head (teksti tootmisega võivad lood teised olla). Tänu sellele saab sõnaraamatukoostaja kasutada neid abivahendina, et tal oleks lihtsam konteksti põhjal otsustada, missugune registrimärgend sõnatähendusele sõnaraamatus lisada – või see lisamata jätta.
Vaata ka Lydia Risbergi jt ettekannet “Registrisegadus sõnaraamatu sünonüümipesades. Kas suured keelemudelid on lahendus?” (Eesti Rakenduslingvistika Ühingu kevadkonverents, 23.04.2026).
Lugu ilmus 04.05.2026 ERR-i kultuuriportaalis.