Skip to main content

EKI keelekool 16.04.2022. Sõnapilvedest vihakõne tuvastamiseni

Eesti Keele Instituut 17. aprill 2022

Tekste on niivõrd suur hulk, et käsitsi neid enam ammu läbi töötada ei jõua. Õnneks ei peagi. Tekstiandmete automaatsest analüüsist, mis aitab tekstidest olulisima teadmuse üles leida, kirjutab Eesti Keele Instituudi keeletehnoloog Eleri Aedmaa.

Andmed on igal pool. Suure osa neist moodustavad numbrite, piltide, videomaterjali, helisalvestiste jms kõrval kõiksugust teksti sisaldavad andmed ehk tekstiandmed, näiteks kirjandusteosed, uudised, seadused, veebifoorumid, klientide kirjalik tagasiside, blogid, sõnumid, tviidid jne. Tekstiandmete heast kättesaadavusest on võimalik võita väga erinevate valdkondade esindajatel.

eleri artikkel

Tekstiandmetest väärtusliku informatsiooni automaatset eraldamist nimetatakse tekstianalüüsiks ja -kaeveks. Tihtipeale kasutatakse neid termineid sünonüümidena, kuid leidub ka käsitlusi, kus tekstikaevet peetakse pealiskaudseks tekstianalüüsiks. Lisaks eristatakse tekstianalüütika mõistet, mis hõlmab tekstianalüüsi lahendusi, mis suudavad suurt hulka tekstiandmeid hallata, analüüsida ja nendes leiduvat olulist teadmust ka ülevaatlikult esitada.

Tekstiandmete sisu varieerub, nad esinevad üldjuhul struktureerimata kujul ja väga erinevates (faili)formaatides. Suure hulga tekstiandmete analüüs eeldab keeletehnoloogiliste vahendite abi, et võimalikult kiiresti ja lihtsalt välja kaevata eesmärgile vastav informatsioon. 

Keeleuurijad saavad huvipakkuva keelenähtuse uurimisel rakendada erinevaid grammatilise analüüsi vahendeid (nt morfoloogiline või süntaksianalüsaator), mis tuvastavad sõnaliike, algvorme, lauseliikmeid jne. Ometi pole grammatilise analüüsi vahendid vaid keeleteaduslikuks kasutamiseks – ka näiteks sõnapilvede koostamisel aitab algvormide leidja ehk lemmatiseerija vältida olukorda, et neis ei korduks ühe sõna erinevad vormid (nt keel, keele, keelt). Sõnapilved saab veelgi paremaks, kui eemaldada sealt sisutühjad sõnad (nt sidesõnad) – ka see on automaatselt tehtav.

Grammatiline analüüs on paljude teiste tekstianalüüsi ülesannete lahendamisel silmale nähtamatuks abimeheks. Üheks seesuguseks on näiteks meelestatuse analüüs, mis võimaldab erinevaid tekstilõike automaatselt kategoriseerida positiivseks, negatiivseks ja neutraalseks (või enamateks klassideks). Näiteks saavad ettevõtted kasutajate nii otse kui sotsiaalmeedias antud tagasiside põhjal kiire ülevaate inimeste hoiakutest nende toote/teenuse suhtes. Niisamuti on tekstikaeve abil võimalik klassifitseerida näiteks e-kirju nendes sisalduva teema järgi ning seejärel automaatselt suunata kiri inimeseni, kes sellele vastata oskab. Tekstianalüüsi rakendatakse ka spämmkirjade filtreerimisel, vihakõne tuvastamisel, küberkuritegevuse ja terviseriskide ennetamisel ja mitmel pool mujal.

Need üksikud näited sellest, kuidas tekstikaeve saab enda või ühiskonna heaks tööle panna, võiks inspireerida neid, kes oma tekstiandmetega pole veel midagi peale hakanud. Ideede põrgatamiseks võib lahkesti ühendust võtta EKI keeletehnoloogia kompetentsikeskusega.

 

Artikkel ilmunud ajalehes Postimees 16.04.2022.

Foto: Shutterstock

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!