Skip to main content

Keeleminutid. Ettevaatust, mürgine masintõlge!

Eesti Keele Instituut 31. jaanuar 2023

Masintõlge on tänaseks päevaks eesti keele jaoks piisavalt küps, et seda tarbe- ja ametitekstide tõlkimiseks kasutada. Siiski võib masintõlge mõnikord ka õelalt mürgiseks muutuda. Masintõlke toimimise plussidest ja miinustest räägib lähemalt EKI tõlketehnoloogiate juht Martin Luts.

Üks esimesi katseid masina abil eesti keelt tõlkida võib ulatuda 99 aasta taha, kui veebruaris 1924 demonstreeris Johannes Waher mehaanilise sõnaraamatu tüüpi kirjutusmasin-tõlgi prototüüpi. Elektronarvutite leiutamisel eelmise sajandi viiekümnendatel aastatel alustati neile loomulike ehk inimkeelte õpetamist. Probleemile läheneti kui täiskasvanu keeleõppe ülesandele: kirjeldame masinale kõikvõimalikke keelereegleid ja talletame tema mällu sõnastike elektroonilised versioonid. Lähenemine küll töötas, aga tulemus ei olnud eriti kvaliteetne.

tolkevarav

Viimastel aastatel luuakse tehisnärvivõrkudel töötavaid masintõlkesüsteeme, mis justkui jäljendavad inimese ajustruktuure. Võrgud treenitakse miljonite lausete ja nende teiskeelsete vastetega. Tõlkekvaliteet on varasemate lähenemistega võrreldes oluliselt kasvanud, andes mõne keelepaari ja lihtsama valdkonna jaoks inimtõlgiga võrdväärseid tulemusi. Siin on aga ohukoht – masinal puudub kriitikameel ja ta võib kõrvuti hästi tõlgitud tekstiosadega anda kohati vigaseid lauseid. Olles „õppinud“ tõlkima oma algoritmidele söödetud varieeruva kvaliteediga tekstimassiividest, olles olemuselt statistiline ja tõenäosuslik, on tulemus hüpleva tasemega. Osa masintõlke tehtud vigadest on vähemolulised ja ei sega teksti mõtte mõistmisel (näiteks vale käände-pöörde valik, mittetavapärane sõnajärjestus, stiilivead), osa vigadest põhjustavad tõsisemaid tagajärgi: masintõlkes võib muutuda tõlgitava teksti mõte ja kui see on rüütatud grammatiliselt korrektsesse ja ladusasse vormi, on seda raske märgata.

Masintõlkesüsteemid peavad suutma adekvaatselt tõlkida mistahes sisu ja stiiliga lähteteksti, olenemata selle valdkonnast või registrist, samal ajal peavad tõlked  jääma truuks lähtesisule ega tohiks lisada tõlkeprotsessi käigus elemente, mida tõlgitavas tekstis ei leidu. Kui lähtetekst juba on (inim)autori poolt koostatud mürgisena, peabki masin selle tõlkima sama mürgiselt, andes edasi nii algse mõtte kui ka jäljendama selle stiili. Kui aga masintõlkes lisandub toksiline sisu (näiteks hispaaniakeelne viernes negro on tõlgitud neegrireedeks, kuigi see tähendab musta reedet), mida algses tekstis ei leidu, võivad sellel olla õiguslikud või majanduslikud tagajärjed ja mainekahju.

Automaattõlge toodab harvaesinevaid ja kahetsusväärseid juhtumeid, kus vigane masintõlge võib sisaldada solvanguid, roppusi ning õhutada vihkamist ja vägivalda üksikisiku või mõne rühma (nt rahvuse, usutunnistuse) suunal. Selline tegevus on meie põhiseaduse paragrahv 12 järgi keelatud ja karistatav. Kuidas karistada tehisintellekti?

Uuringute järgi võib masintõlkes lisanduva mürgisuse määr olla pea olematu või kuni viis protsenti, väheste keeleandmestikega keelte (sh eesti) puhul on see määr kõrgem. Eesti Keele Instituut uurib võimalusi, tõstmaks masintõlke kvaliteeti ja vähendada selle erapoolikust, kallutatust ja mürgisust. Masintõlke kasutajatele kehtib ikka reegel – usalda masinat, aga kontrolli. Masintõlgitud teksti kasutamisel tasub kaaluda inimesepoolset järeltoimetamist või tõlkele lahtiütleja lisamist: „Tõlgitud masintõlke abil. Masintõlge võib sisaldada vigu.“.

Lugu on ilmunud ERRi kultuuriportaalis 30.01.2023.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!