Keeleminutid. Kas ka robotid naeravad?

Eesti Keele Instituut 27. märts 2023

Inimkõne on inimese supervõime: me anname heliga edasi informatsiooni ja tundevarjundeid ning suudame muuta oma rääkimisviisi vastavalt suhtlusolukorrale, kuulajale või teemale, et kuulajaid paremini mõjutada, rõhutas EKI vanemteadur Liisi Piits “Keeleminutites”.

Kodus söögilauas lapsega rääkides on meie kõnestiil väga erinev sellest, mida konverentsil ettekannet pidades kasutame, isegi kui teemad võivad olla sarnased. Ja söögilauavestlusest erineb ka õhtune unejutulugemine, kuigi kodune keskkond ja kuulaja on samad.

Kuidas anda see inimese supervõime edasi masinatele? Masinate rääkima panemiseks kasutatakse tekst-kõne-sünteesi. See on tehnoloogia, mis muudab kirjaliku teksti kõneks. Eestikeelseid sünteeshääli on juba päris palju kasutatud, eriti kirjalikuna mõeldud tekstide, nt uudiste, õppetekstide ja ilukirjanduse ettelugemiseks. Aga sünteeshääli on järjest enam vaja ka süsteemides, kus kõne peaks kõlama nii, nagu oleks tegu loomuliku vestlusega: robotitega kõneledes, juhtudel, kui inimese enda kõnevõime on häiritud ja ta kasutab suhtluses abivahendina kõnesüntesaatorit, subtiitrite ettelugemisel, kõne-kõneks tõlke puhul jms.

Kuidas õpetada robotile loomulikku vestlusstiili? Eesti Keele Instituudis lõppes aastane arendusprojekt, mille käigus loodi vestlusstiilis rääkiv kõnesüntesaator. Selleks kasutati Eestis esmakordselt vestlust, mitte loetud kõnet. Kõigi tänapäevaste kõnesüntesaatorite loomiseks on vaja kõnet ja sellele vastavat teksti. Kui senini kasutati masinate treenimisel alati loetud kõnet, st alguses oli tekst, mille keegi ette luges, siis vestlusstiilis häälte loomiseks oli kõigepealt olemas kõne ja seejärel lõime sellele vastava teksti.

Kui etteloetud kõne puhul on mõtted juba tekstina olemas, siis vestluse puhul luuakse kõnelemisega samaaegselt ka seda, mida öelda tahetakse. Nii on tavaline mõttepauside täitmine erinevate täitesõnade või venitustega, sõnakordused, kõnetempo muutused, lõpetamata laused jpm. Lisaks on sageli vestluses ka emotsioone, nt naeru.

Me kasutasimegi vestlusstiilis kõnesünteesi loomiseks vestlussaadet, kus lisaks tavalisele tekstile märgendasime eraldi ka täidetud mõttepausid ja naeru. Saadud mees- ja naishääled (vt spontaanseid hääli) õppisid ära vestlusele omase kõnestiili ja neid hinnati vestlusroboti jaoks sobivamaks kui loetud kõne põhjal treenitud sünteeshääli. Muuhulgas õppisid hääled täidetud mõttepause tegema, nt kui lisada sünteesitavasse teksti ee, siis see kõlab loomuliku mõttepausina. Naerda need hääled siiski veel ei oska, seda on robotitel vaja veel õppida.

Lugu on ilmunud ERRi kultuuriportaalis 27.03.2023.

Kas leidsid, et sisu on kasulik?

Jah

Sinu tagasiside on meieni jõudnud. Aitäh!