Keeleminutid. Keele tulevik algab andmetest

Helen Kaljumäe, Martin Eessalu 31. märts 2025

Keeleandmete kvaliteet ja kättesaadavus on muutunud keskseks küsimuseks ajastul, mil suurte keelemudelite areng mõjutab otseselt iga väikekeele püsimist ja kasutatavust, kirjutasid EKI keeletehnoloog Helen Kaljumäe ja EKI teadus- ja arendusjuht Martin Eessalu “Keeleminutites”.

Uue Eesti teadustaristu teekaardi perioodi alguses sai senine Eesti Keeleressursside Keskus uue sisu ja fookuse: Keeleandmete Teadustaristu (KeTa). KeTa ühendab keeleandmed, nende analüüsi ning selle teaduse, kus keeleandmetel on keskne roll – olgu see keeletehnoloogia, digihumanitaaria või sotsiaalteadused. Fookuses on kogu keeleandmete elutsükkel ning üha enam ka keele erinevad väljendusvormid nagu tekst, kõne, viipekeel või pildid ja videod.

Keeleandmete kvaliteet ja kättesaadavus on muutunud keskseks küsimuseks ajastul, mil suurte keelemudelite areng mõjutab otseselt iga väikekeele püsimist ja kasutatavust. Eesti keele jaoks tähendab see, et kui soovime, et suurtel andmehulkadel treenitud tehisintellekt meid mõistaks ja meie keeles toimiks, peame eri tüüpi keeleandmeid süstemaatiliselt koguma, jagama ja ka kasutama.

Suured keelemudelid on ammu kohal ja nende mõju järjest suureneb. Veebruarikuus välja kuulutatud TI-Hüppe algatuse raames saavad juba viie kuu pärast 20 000 kooliõpilast ligipääsu tehisintellekti rakendustele – ja seda keskkonnas, kus on kõrged ootused keelelise ja sisulise täpsuse osas. Kui mudel ei toimi eesti keeles hästi, ei pruugi ka vastused olla usaldusväärsed – olgu teemaks eesti kirjandusteose analüüs või gümnaasiumiastme matemaatikaülesande lahendamine. Selleks, et tehisintellekt suudaks meid toetada just eesti keeles, on vaja oluliselt rohkem keeleandmeid ning süsteemset lähenemist nende kogumisele ja kasutatavaks tegemisele. Just seda KeTa teebki: tagab keeleandmete usaldusväärse ja turvalise elutsükli ning töövoo, et tehisintellekti arendamisel seistaks võimalikult vähe keeleliste kitsaskohtade ja puudulike sisendite taga. Hästi korraldatud andmetaristu ei ole taustateenus, vaid otsene panus eesti keele tulevikku.

Ainult tekstimassiividest enam tehisintellekti treenimiseks ei piisa: tehisintellekt juba tegutseb maailmas, kus keel ja tähendus avalduvad mitmel moel. Me räägime, kuulame, viipleme, kasutame pilte ja videoid, et edasi anda tähendusi. Just sellist multimodaalset mõistmist ootame ka tehisintellektilt. Seetõttu on KeTa ülesanne tuua keeleandmetesse üha hoogsamalt sisse ka kõne, viipekeel ja muud visuaalsed vormid – tagamaks, et multimodaalsed keelemudelid mõistaksid meie rikast keelt ja kultuuriruumi nii selle mitmeilmelistes väljendusviisides kui ka ajas muutuvates kasutusviisides.

KeTa võtab kuju ajal, mil keelelt oodatakse rohkem kui kunagi varem. Just nüüd on vaja taristut, mis värske hooga toetab keele elujõudu, arengut ja kohalolu ka digitaalses tulevikus. Keele püsimine ei ole iseenesestmõistetav, aga hästi korraldatud teadustaristu annab meile selles mängus tugeva lähtekoha.

Lugu ilmus 31.03.2025 ERR-i kultuuriportaalis.

Helen Kaljumäe

Keeletehnoloogia teenuste valdkonna juht

Keeletehnoloogia osakond

Martin Eessalu

Teadus- ja arendusjuht

Tugiteenused

Kas leidsid, et sisu on kasulik?

Jah

Sinu tagasiside on meieni jõudnud. Aitäh!