EKI ekspert: nüüd hoogustub väiksemate keelte võitlus elu ja surma peale

Eesti Keele Instituut 22. mai 2023

Me ei ole kaugel tehnoloogilisest võimalusest, et räägin telefonisse juttu oma emakeeles, aga välismaalsest vestluskaaslane kuuleb minu häält rääkimas soravalt tema emakeeles, kirjutas “Mälupanga” loos meie tootejuht Martin Luts.

Seni on pigem vähe teadvustatud, et ChatGPT ilmumine tähendas kõige muu kõrval ka revolutsiooni automaatse tõlkimise tehnoloogias. Sedalaadi digimasinad (erialakeeles suured keelemudelid – see termin tasub meelde jätta) suudavad tekste tõlkida hüppeliselt täpsemalt kui mistahes senised masintõlkerakendused.

Suured keelemudelid on tõlke kvaliteedis juba seljatanud nii Google Translate’i kui isegi meile olulistes keelesuundades paremad Tõlkevärava ja Neurotõlke. Eesti jaoks on sellel kas väga head või väga halvad tagajärjed – sõltuvalt sellest, kuidas otsustame ise edasi tegutseda.

Sest ühest keelest teise tõlkimine on keelte õppimise aluseks. Reaalselt toimiva ja võimalikult tõhusa eesti keele õppe riiklik-rahvuslikku tähtsust pole aga vast vaja selgitada.

Masin tõlgib, inimene aitab – kui vaja

Põhimõtteliselt oleme ChatGPT-taseme tehnoloogiaga jõudnud olukorda, kus masin suudab tõlkida juba inimesest tõhusamalt. Kui varem kasutas inimtõlk masina abi, siis nüüd liigume kiiresti sinna, et masin annab aeg-ajalt märku inimesele, kui kusagil oleks vaja keerukam koht üle vaadata. Aga 99% tõlkemahust teevad suured keelemudelid ära juba inimesest paremini.

Keelemudel ise suudab tõlkida kirjalikku teksti. Aga kui appi võtta ka teisi rakendusi, mille aluseks on keeletehnoloogia viimaste aastate läbimurded, siis saab suurte keelemudelite abil tõlkida ka suulist kõnet otse inimesest eristamatuks tehiskõneks.

Sealjuures lubavad uued tehnoloogiad teha igaühel oma häälest kerge vaevaga digikoopia ning panna digitõlgi võõrkeelt rääkima inimese enda häälega. Seega me ei ole kaugel sellest, et räägin telefonisse juttu ühes keeles, aga vestluskaaslane kuuleb oma telefonist minu häält rääkimas soravas tema emakeeles.

Samuti suudavad suured keelemudelid analüüsida kiiresti hiigelsuuri tekstihulki ja leida, kuidas inimesed omavahelises suhtluses erinevatele sõnadele-lausetele tavaliselt vastavad. Ning nagu kasvõi ChatGPT näitab, sellest piisab, et täitsa rahuldavalt imiteerida chat’i kaudu vestlevat inimest.

Kirjeldatut kokku liites saame tulemuseks tehnoloogia, mis avab enneolematud võimalused mugavaks ja samas (eilsete võimaluste mõõdupuu järgi) ulmeliselt tulemuslikuks keeleõppeks.

Teatavasti on võõrkeelt kõige loomulikum ja tõhusam õppida keelekeskkonnas viibides, selle keele kandjatega suheldes. Aga nüüd saab mistahes keele kandjaks ja täpselt parasjagu vajalikul tasemel vestluspartneriks kehastuda sinu telefon või arvuti.

Saad kirjutada ja saada vahetut tagasisidet, kuidas oleks õigem. Saad rääkida (laheneb igihaljas probleem, et pole keelepraktikat!) nii, et tehistaip lobiseb sulle rõõmsalt vastu, samas näed ka ekraanilt oma vigu ja juhiseid paremini ütlemiseks. Masin tuvastab, mis laadi õppe- ja suhtlusviisi puhul arened kiiremini ja püsid keeleõppe juures kauem, ning kohendab oma käitumist vastavalt.

Seega inimkond on keeletehnoloogia arendamisega jõudnud niikaugele, et kiiresti ja hästi (aina) uu(t)e võõrkeel(t)e omandamine muutub jõukohaseks igaühele.

Siin on aga üks suur ja Eesti jaoks kriitiline konks. Enam-vähem iseenesest realiseerub potentsiaal ainult maailma kõige enam levinud keelte puhul. Kõigi ülejäänud keelte – ja isegi riigikeelte tasemel on neid valdav enamik – kandjad peaksid aga muutuma valvsaks, sest mida lihtsam on omandada suurkeeli, seda rohkem rääkijaid need saavad. Aga (väiksemad) keeled, mis ei suuda end uudse keeletehnoloogia abil mugavalt õpitavaks teha, on tõenäoliselt määratud ajapikku veelgi kahanema.

Eesti keele tee suurkeeleks

Nii nagu Eesti riigikaitses mängivad olulist rolli tihe koostöö liitlastega ning vabatahtlike energia ja entusiasmi kaasamine, peaksid samad asjad olema ka selle strateegia keskmes, mis toob eesti keele äsja alanud uuest keeleajastust välja ühena võitjatest.

Esiteks, liitlasteks peame värbama võimalikult palju riike, kelle riigikeelt ähvardab samuti suurte keelemudelite võimalustest mahajäämine. Neid on näiteks Euroopa Liiduski enamus.

Probleem on meil ühine: enamik veebis vabalt leitavat sisu on maailma hiigelkeeltes. Lihtsalt internetti läbi tuulav masin areneb vaikimisi hästi „mõistma“ ainult neid keeli ja nende kultuurikonteksti. Niimoodi kanduks maailmas paraku endiselt liiga palju tooni andev suurriikide imperialism üle ka keeletehnoloogiasse.

Ülejäänud keeled peaks seljad kokku panema ning ühiselt välja arendama enda suured keelemudelid (ChatGPT-laadsed digimasinad), kus on materjali teadlikult valitud nii, et esindatud oleksid kõik keeled. Hiina keele digimudel ei tohiks olla puhtalt rahvaarvu põhjal 1000 korda võimekam kui eesti keele oma.

Teiseks, mistahes suur keelemudel on siiski ainult tööriist. Ja tööriistu saab ümber ehitada, oma vajaduste järgi timmida.

Julgust annavad hiljutised katsed meist kolm korda väiksema islandi keelega. Väikese hulga hästi organiseeritud ja motiveeritud vabatahtlike abil oli võimalik anda uuele GPT-4 keelemudelile sisendit nii, et süsteem „õppis“ juba lühikese ajaga tundma keele eripärasid ja „oskas“ islandi keelt hüppeliselt paremini.

Areng aina kiireneb. Masinate keeleoskuse arenguhüpete vahe oli esmalt 40, siis 20 ja nüüd juba ainult kuus-seitse aastat. Eesti keele esindatuse tagamiseks tuleb vajalikud sihid seada ja otsused teha eile. Või hiljemalt täna.

Neli ajastut. Tagasivaade masintõlke ajalukku

Kuidas oleme samm-sammult välja jõudnud sinna, et arvuti „oskab“ erinevaid inimkeeli?

Arvutite kasutamine tõlkimiseks algas juba 1950. aastatel. Tollal nägid lingvistide ja programmeerijate tiimid vaeva, et defineerida aina uusi reegleid, kuidas viia mõne konkreetse keele lause üle nii-öelda neutraalsele kujule ning tollest omakorda sihtkeelde. Piltlikult öeldes sarnanes tulemus inimese tõlgitule samavõrd nagu sõnaraamat elavale inimkeelele, ehk siis mitte kuigivõrd.
1990. aastatel muudeti lähenemist: loodi hiigelsuured andmebaasid, kus olid miljonid inimeste tõlgitud samad laused eri keeltes. Kasutusse läksid näiteks õigusaktid ja väga palju rahvusvahelise levikuga ilukirjandust. Toimus ülisuur hüpe tõlke kvaliteedis – keele toimimise reegleid pole võimalik ammendavalt kirjeldada, aga statistilise analüüsiga sai sel moel genereerida enamasti rahuldavaid tõlkeid. Küll aga toimis see hästi ainult lähedaste keelte vahel, näiteks hispaania-portugali või prantsuse-itaalia. Mäletame ju isegi, kui jube oli veel kümmekonna aasta tagune eesti-inglise Google’i tõlge.
Kolmas ajastu koitis, kui 2010. aastate keskpaiku arenes töökindlaks tehislike närvivõrkude tehnoloogia. Ka see eeldas samamoodi suuri hulki tõlkelausete paare eri keelte vahel. Küll aga muutusid reeglid, mille järgi arvuti andmeid töötles, märksa komplekssemaks – süsteem suudeti tööle panna mõnevõrra sarnaselt inimaju tööpõhimõtetele, kust tuli ka tehnoloogia nimetus.
2022. aasta lõpus, napi poole aasta eest, näitas ChatGPT, et kätte on jõudnud masintõlke neljas ja seni viimane ajastu – suurte keelemudelite aeg. Ka tehisnärvivõrkude tehnoloogia tõlkis siiski vaid ühe lause kaupa, suured keelemudelid arvestavad aga kogu tõlgitavat teksti tervikuna. Ning mis kõige tähtsam – esmakordselt ei piirdu arvuti „teadmine“ teksti ümbritseva maailma kohta teksti ega rööplausetega, vaid konteksti jaoks kasutab masin kogu infot, mida saab internetist leida. See on toonud kaasa murrangu – nüansitäpsus, kujundlikkus, varjundid jm, mida varem peeti arvutitele kättesaamatult inimlikuks, on kasvõi ChatGPT tõlgetes olemas. Ning need muutuvad aina paremaks. Vastavalt on võimalik enneolematult ladusaks muuta ka puhtalt arvutis või nutitelefonis toimuv keeleõpe.

“Mälupank“ on rubriik, kus arutatakse identiteedi ja mälu seisukohast olulisi teemasid, mis on otseselt või kaudselt seotud Eestiga. Artikkel ilmus Eesti Päevalehes 22.05.2023.

Kas leidsid, et sisu on kasulik?

Jah

Sinu tagasiside on meieni jõudnud. Aitäh!