EKI ekspert: ChatGPT vajab su vanaema armastuskirju, et olla õige eestlane

Eesti Keele Instituut 8. mai 2023

See, kas ChatGPT ja teised uued äpid hakkavad eesti kultuurist aru saama, sõltub sellest, kui palju erinevaid seni digimaailmale kaugeid ja näiliselt väheolulisi tekste me neile näitame, kirjutas “Mälupanga” loos meie keeletehnoloog Helen Kaljumäe.

Juba on paljud märganud ja kuulutanud, et ChatGPT eesti kultuuri suurt ei mõista. Ajab omavahel sassi meie kirjandusklassika tegelasi, ei saa aru viidetest „Kevadele“ ega „Tujurikkujale“. Jääb hätta rikkalikuma eesti keelega, piltlike väljendite ja kõnekäändudega.

Seda erinevalt ingliskeelsest kultuuriruumist, mille puhul oskab tark digimasin vastuseid koostada niimoodi, nagu oleks üles kasvanud inglaste-ameeriklastega samas liivakastis mängides ning samu raamatuid lugedes ja filme-sarju vaadates.

Milles siis asi ja kuidas panna ChatGPT-laadsed digirobotid ka eesti kultuuri tundma? Kuidas me teeme ChatGPT-st õige eestlase?

Sellele küsimusele vastamiseks tuleb esmalt aru saada, kuidas ChatGPT üldse töötab.

Kuidas see masin oskab vastata?

ChatGPT ja teiste sarnaste rakenduste keskne loogika on hämmastavalt lihtsakoeline. Arvuti ei tee meie küsimustele vastates muud, kui otsib, milline oleks kõige tavalisem või ootuspärasem järgmine sõna, mida sellise küsimuse peale ekraanile kuvada. Andmestikuks, kust masin seda järgmist sõna otsib, on tal juba tuvastatud kõikvõimalikud (kokku miljardid!) seosed eri sõnade ja fraaside vahel. Ja neid tuvastas masin, kammides monotoonselt läbi hoomamatult suuri hulki inimeste loodud tekste. Tuhandeid, miljoneidki tekste lühisõnumitest romaanideni.

Näiteks küsides ChatGPT käest „Mis värvi on Eesti lipp?“, leiab masin sekundi murdosaga suure hulga erinevaid seoseid selle fraasi ja teiste sõnade ning fraaside vahel. Need seosed on masin varem talletanud tekstidest, kus leidub selline või sarnane küsimus või kirjeldus. Neis tekstides järgneb sellisele fraasile erinevaid sõnu, aga sõnad „sinine“, „must“ ja „valge“ tõusevad sageduselt esile.

Samuti joonistub suure hulga ChatGPT-le kättesaadavate eestikeelsete tekstide põhjal välja, kuidas on vastused umbes sellise kujuga küsimustele sagedamini struktureeritud. Ja niimoodi, olles varem ülisuurest hulgast tekstidest esinevaid sõnu otsinud ja kokku lugenud, seabki ChatGPT vastuseks ritta eestikeelsed sõnad: „Eesti lipu värvid on sinine, must ja valge.“ Masin ei „mõista“ ega „saa aru“ millestki. Toimub lihtsalt ülikiire ja ülimahukas statistiline analüüs.

Väga põhimõttelisel tasandil ei tee ChatGPT seega midagi muud kui samasugust tekstiotsingut, mida teeme me kõik sageli dokumentidest midagi otsides. See, et vastuseks tulevad vaat et inimlikud laused, sünnib tänu sellele, et tegu pole siiski ainult nii minimalistliku sõna kaupa otsimise ja kõige sagedasemate vastete ritta ladumisega. Ülisuur hulk loogilisi seoseid (erialakeeles parameetreid) määrab, kuidas masin nii-öelda tunneb ära sünonüüme, kuidas toimetab korraga rohkem kui ühe sõnaga (erialakeeles tähelepanu mehhanism) ja nii edasi.

Samuti võtab ChatGPT oma vastusesse iga järgneva sõna paikapanemisel arvesse ka omaenda seni koostatud vastuseosa, mida võrdleb omakorda tuhandete ja miljonite inimese loodud tekstidega. Kihte, kitsendusi ja nüansse on palju.

Aga asja iva on sellegipoolest see, et kui inimene annab ChatGPT-le ette lause (näiteks „Mis värvi on Eesti lipp?“ – või ka: „Kas Vargamäe Andresele meeldiks „Savvusanna sõsarad“?‘‘), siis masin toodab vastuse, olles läbi tuulanud kogu talle kättesaadavaks tehtud tekstimassiivi, et leida, mis sõnad inimestevahelises suhtluses kõige tõenäolisemalt järgneksid.

See ei saa ju olla kõik!?

Sageli kostetakse eelnevat kuuldes, et ei, midagi peab seal tehistaibus veel peidus olema – tundub uskumatu, et pelgalt sellise masinliku tekstide läbikammimisega on võimalik anda vastuseid, kust paistab (seni vähemalt inglise keele puhul) kultuuritundlikkust ja isegi huumorimeelt. „Vestlus“ ChatGPT-ga ju tundub peaaegu inimlik.

See on aga tegelikult üks põhjusi, miks ChatGPT on teadlaste seas nii suurt furoori tekitanud. Tundub, et üsna kogemata on ChatGPT ja teiste sarnaste virtuaalsete keelemudelitega komistatud otsa sellele, et inimkeel ei pruugigi olla nii ülikeeruline ja lõpuni hoomamatu nähtus, nagu on sageli arvatud. Sest nagu praktika nüüd näitab: muidugi kompleksne, aga siiski piiritletud digisüsteem suudab „toota“ inimesest sisuliselt eristamatuid keelelisi vastuseid.

Seega on selgitus ChatGPT „müsteeriumile“ pigem see, et inimkeel on oma olemuselt süstemaatilisem ja „lihtsam“, kui arvatud, mitte pole arvutivõrgu sügavustes tärganud (kuri) digiteadvus.

ChatGPT vajab su vanaema armastuskirju

Siit järeldub aga eesti keele ja kultuuri jaoks väga hea uudis: ChatGPT ja teiste sarnaste uudsete digimasinate eesti keele „oskus“ ja eesti kultuuri „tundmine“ sõltub üksnes sellest, kui palju eestikeelseid (ja seeläbi eesti kultuuri kandvaid) tekste suudame neile kättesaadavaks teha.

Kui ChatGPT ei saa praegu veel hästi aru Vargamäe Andresest või savvusanna sõsaratest, siis on põhjuseks see, et otsing kõigis tal olemasolevates eestikeelsetes tekstides ei anna piisavalt palju sarnaseid, teatud mõttes korduvaid vasteid, kust paistaksid statistilised mustrid.

Kuna ChatGPT, olles pelk arvutiprogramm, ei „loe“ tekste ega omanda „teadmisi“, vaid sisuliselt lihtsalt otsib sõnu ja arvutab nende sagedusi, siis kehtib põhimõte, et mida rohkem, seda uhkem. Et „saada aru“, kes on Vargamäe Andres, ning osata teda sümbolina oma „arutlustes“ kasutada (nagu enamik eestlasi oskab), peab ChatGPT pääsema ligi soovitatavalt tuhandetele tekstidele, kus Vargamäe Andresest on juttu.

Sama loogika kehtib ka kõige muu kohta. Kui tahame, et uue aja digirobotid „tunneksid“ eesti kultuuri, peame neile ette söötma massiliselt erinevaid eesti kultuuri kandvaid tekste.

Eesti keeleruumi suurust arvestades tähendab see, et käiku peab minema kõik. Eesti keeles on kirjutatud üle 400 aasta. Kõik tekstid, mis vähegi säilinud, tuleks digiteerida ning teha veebis vabalt leitavaks ja kättesaadavaks. Nii jõuab eesti keel ja eesti kultuur ka järgmiste ChatGPT-laadsete rakenduste andmestikku. Ning otsekui võluväel „oskabki“ järgmine imeäpp meiega „rääkida“ nii Kalevipojast, Läti Henrikust, apteeker Melchiorist, laulupeost ja metsavendadest kui ka „Tujurikkujast“ ja Eesti Laulust.

Oma üliolulise panuse saavad siin anda kõik. Riik ja suured asutused saavad otsustada digiteerida ning avalikustada arhiivide ja raamatukogude materjale. Aga ka igaüks meist saab skännida ja pilve laadida mistahes tekste, mis muidu jääksid digirobotite õpivarast välja.

Mida mitmekesisem ja rikkalikum ühiselt kokku kantud (ehk siis – veebis vabalt leitavaks tehtud) tekstivara on, seda nii-öelda kultuursemaks ja tundlikumaks eestlaseks ChatGPT saab. Nii et tõepoolest võib näiteks sinu vanadest koolikirjanditest või su vanaema armastuskirjadest sõltuda, kuidas eesti keelel ja kultuuril digiajastul läheb.

“Mälupank“ on rubriik, kus arutatakse identiteedi ja mälu seisukohast olulisi teemasid, mis on otseselt või kaudselt seotud Eestiga. Artikkel ilmus Eesti Päevalehes 08.05.2023.

Kas leidsid, et sisu on kasulik?

Jah

Sinu tagasiside on meieni jõudnud. Aitäh!