Skip to main content

Keeleminutid. Kui hästi on päris hästi? Keelemudelite hindamisest

Eesti Keele Instituut 11. september 2023

EKI keeletehnoloogid Eleri Aedmaa ja Helen Kaljumäe ning tootejuht Martin Luts selgitavad seekordsetes “Keeleminutites”, kui oluline on keeleteadlike inimeste roll paremate keelemudelite arendamisel.

masinate opetamine

Loe läbi Meta AI jt loodud andmestikust BELEBELE pärinev tekst ning vasta selle põhjal ka juuresolevale küsimusele:

15. sajandi paiku oli Eesti põhjaosa suuresti Saksamaa kultuuri mõju all. Mõned saksa mungad tahtsid jumalat kohalikule rahvale lähemale tuua, seega leiutasid nad eesti kirjakeele. See põhines Saksa tähestikul ja lisatud oli üks tähemärk, Õõ. Aja möödudes sulandusid kokku paljud sõnad, mis olid saksa keelest laenatud. See oli valgustusajastu algus.

Mis mõjutas eesti keelt?

1. Täht Õõ
2. Saksa tähestik
3. Saksa mungad
4. Jumal

Keele säilimiseks on ülioluline keele kasutamine läbi aegade – ka nn tehisintellektiajastul, mil suhelda saab ka masinaga, eriti hea, kui sellisega, mis meie keele- ja kultuuriruumi mõistab. Eespool toodud tekstilõik-küsimus on üks näide ligi tuhandest seesugusest paarist, millega pannakse proovile arvuti ja suurte keelemudelite oskus loetud teksti mõista. Andmestiku BELEBELE aluseks on mitmekeelsed, kuid üht ja sama infot sisaldavad tekstikatkendid, mis pärinevad masintõlke hindamiseks loodud FLORES-200 andmestikust. Iga ingliskeelse algselt Wikimedia projektidest pärineva tekstilõigu põhjal moodustati sellele vastav valikvastustega küsimus ning märgiti ära üks õige vastus. Küsimused ja vastusevariandid tõlgiti seejärel ekspertide abiga 121 keelde. Pea tuhatkonnast küsimusest on vaid kaks seotud eesti keele ja kultuuriga. Suuri keelemudeleid treenitakse ja hinnatakse selliste “rahvusvaheliste”, tihti masintõlgitud andmestikega, millel puudub sügavam side meie (või misiganes teise mitte-inglise) keele ja kultuuri tundmisega. Selliste mudelite roll tehisintellekti arengus on aga sama ilmne kui tehisaru üha kasvav osakaal meie töö- ja eraelus. 

Mudeleid treenitakse paratamatult esmajärjekorras suurtele keeltele – seda soodustab võrreldes väiksemate keeltega suurem hulk kättesaadavaid (treening)andmeid, rohkem teemakohast teadust ning üleüldine kõrgem huvi. Siiski on olemas hulk mitmekeelseid mudeleid, mis on küll omandanud teatava eesti keele oskuse, kuid nii nagu võõrkeelse kirjanduse eestindused on sellised keelemudelid sisult ingliskeelse mõttemaailmaga ja vaid pinnalt eestikeelsed. “Teatav eesti keele oskus” on umbkaudne hinnang, millele saab oma subjektiivse väärtuse omistada igaüks, kes mõne juturobotiga tutvust teeb. Asjaolu, et me ei saa siin ja praegu anda objektiivset ülevaadet keelemudelite võimekusest, tuleneb sellest, et mudelite kvaliteedi hindamiseks vajalike heade võrdlusandmete koostamine Eesti Keele Instituudis alles käib. Küll aga on selline materjal hädavajalik, et testida, kui heas eesti keeles meie kultuuri ja üldist eluolu arvesse võtvat suhtlust on (suured) keelemudelid tegelikult võimelised pidama.  

Kvaliteetsed treeningandmed tagavad hea keelemudeli. Tõepärase pildi mudeli võimekusest aga saab vaid siis, kui mudelit hinnata läbimõeldult koostatud võrdlusandmetega. Selliste andmete puhul ei piisa üldjuhul ainult internetis leiduva teksti kokkukraapimisest, vaid neid koostades tuleb hoolikat kontrollida andmete vastavust hinnatavale ülesandele ning andmete sisu ja õigsust, tihti on vaja andmetele info lisamist. 

Selleks kõigeks on vaja keeleteadlike, aga ka erinevat sisu loovate ja seda jagavate inimeste abi. Seega, hea lugeja, kui sul on huvi lüüa kaasa suurte keelemudelite eesti keele oskuse taseme tõstmises, näiteks mitteavalike andmete meiega jagamise näol, siis võta Eesti Keele Instituudiga ühendust. Soovi ja vajaduse korral tagame andmete konfidentsiaalsuse. 

Lõpetuseks üks küsimus esitatuna tulevikust: 

21. sajandi lõpuks oli inimese ja tehisintellekti vaheline suhtlus võimalik paarisajas suuremas ellujäänud inimkeeles. Tänu sisuloojatele, tõlkidele-toimetajatele ja vikipedistidele omandasid suured keelemudelid oskuse arutleda ka eesti keeles, tundes hästi eestlaste ajalugu ja kultuuri. See oli eesti keele kui digisuurkeele sünd.

Mis võimaldas tehisintellektil saada selgeks eesti keel?

1. Täht Õõ
2. Keeletehnoloogid
3. Kõik keeleteadlikud inimesed
4. Riigikogu

Lugu on ilmunud ERRi kultuuriportaalis 11.09.2023.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!