Skip to main content

EKI keelekool 15.01.2022. Kes küll selle teksti lõi?

Eesti Keele Instituut 15. jaanuar 2022

Igal tekstil on autor. Kui teksti kirjutab tehisintellekti lahendus ehk kratt, siis kelle mõtteid tema väljendab? Kas sellist kirjutist saab usaldada? See ulmelisena kõlav tulevik on märkamatult kohale jõudmas. Tehisintellektist, mis loob tekste, kirjutab Eesti Keele Instituudi keeletehnoloog Tiiu Üksik. 

Automaatne tekstiloome tähendab, et sisendi (märksõna, numbri, tekstikatke või ka pildi) põhjal genereeritakse uut teksti. Üks esimesi tekstiloomekratte oli 1960ndate virtuaalterapeut ELIZA. Ta pööras kasutaja vastuse ümber küsimuseks, jättes mulje, nagu mõistaks vastaja muret. Keerukamate küsimuste puhul jäi aga kiiresti jänni.

tiiu artikkel

Automaatne tekstiloome on kaasaegsete krattide osa. Vestlusrobotid tervitavad külastajat pea iga veebipoe lehel. Aktsiahuvilised leiavad automaatselt genereeritud ingliskeelseid artikleid turukõikumiste kohta. Sarnaseid “robotkirjutisi” leiab ka ilmateadete, haiguslugude, aga näiteks ka Inforegistri artiklite hulgast. Enamasti on aluseks mallid, milles olevad lüngad täidetakse sobivate andmetega.

Lünkade täitmiseks sõnastab reeglid koodiks inimene. Masinõppe puhul tuleb need programmil endal tuletada. Eelduseks on suur hulk hästi valitud treeningmaterjali – mida rohkem, seda ladusamalt õpib programm suhtlema. Kui unustame andmetesse lisada näiteks lihtminevikus laused, ei oska ka masin neid hiljem luua. Kui aga materjali hulka satub palju vihakõnet, kipub ka loodud tekst olema solvav.

Masinõppes on olulised ka parameetrid, mida treenimise käigus optimeeritakse. Mida enam neid on, seda rohkem arvutusjõudu on tarvis. Tänase seisuga suurim, Nvidia ja Microsofti koostöös valminud närvivõrkudel põhinev keelemudel MT-NLG kasutab 530 miljardit parameetrit. See oskab eelkäijatest paremini lõpetada lauseid, vastata küsimustele, otsida tekstist vajalikku infot jpm. Veebis saab katsetada suuruselt teise, OpenAI 2020. aastal loodud GPT-3 (175 miljardit parameetrit) avatud lähtekoodiga alternatiivi GPT-J. See jätkab kasutaja sisestatud teksti suuremates keeltes üldiselt küllaltki usutavalt. GPT-3 kirjutas 2020. aasta septembris The Guardianile provokatiivse pealkirjaga artikli, mis puudutab muuhulgas tehisintellekti ohutuse ja õigustega seotud küsimusi. Teema olulisust märgib, et Euroopa Liit on asunud tehisintellekti reguleerima.

Vastused tehisintellekti ja tekstiloomet puudutavatele küsimustele pole siiani päris selged. Eesti keele tuleviku seisukohalt on oluline, et saaksime masinatega emakeeles suhelda. Eesti keelele MT-NLG-sarnaset mudelit ei ole, kuna selle loomine eeldab tohutut hulka treeningmaterjale ja võimsaid arvuteid, mille käigushoidmine on energiakulukas. Tekstiloomet rakendavatest lahendustest on aga riikliku keeletehnoloogia programmi toel valmimas näiteks valdkondlik masintõlkesüsteem, avalike teenuste virtuaalassistent #bürokratt, teksti sisukokkuvõtja ja lihtsustaja. 

Ilmunud ajalehes Postimees 15.01.2022.

FOTO: Huang Zongzhi via www.imago-images.deKas tehisintellekti saab tekstiloomel usaldada? Kelle mõtteid ta väljendab?

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!