Skip to main content

EKI keelekool 11.06.2022. Kroolin nagu jaksan – veebis

Eesti Keele Instituut 11. juuni 2022

“Kõik, mis internetti paned, sinna ka jääb,” hoiatatakse. Alates 2000ndatest, mil tekstid veebi kolima hakkasid, on neid regulaarselt talletatud. Veebist tekstide kogumisest ehk veebi kroolimisest kirjutab Eesti Keele Instituudi keeletehnoloog Tiiu Üksik.

Igaüks võib veebi kroolida. Eeltingimuseks on oskus kirjutada vastav programm, mis automaatselt URL-e mööda ühelt lehelt teisele liigub, vajaliku tekstimaterjali välja selekteerib ja salvestab.

tiiu artikkel

Vajadus nii spetsiifilisemate (näiteks Facebooki postitused) kui ka pea kogu veebi hõlmavate tekstikorpuste ehk elektrooniliste tekstikogude järele on kasvav: lisaks sellele, et need on uurimismaterjaliks keeleteadlastele ja aluseks erinevate keeletehnoloogiate väljatöötamisel, on need ka vajalikud eraettevõtetele. Näiteks võimaldab sotsiaalmeediapostituste kroolimine ettevõttel filtreerida automaatselt informatsiooni oma klientide eelistuste (millest nad räägivad ja milline on nende meelestatus) ja kasutajakogemuse ning toodete tagasiside kohta. Sotsiaalmeedia peegeldab kõige kiiremini ka turumuutusi ja võimaldab jälgida konkurente. Tekstidest leitud info põhjal on ettevõttel võimalik paremini planeerida oma tegevust.

Enne hoogsalt kroolima asumist tasuks kõigepealt uurida, kas ehk on sinu vajadustele vastav korpus juba olemas. Näiteks Eesti Keele Instituudi ja Lexical Computing Ltd. koostöös loodud eesti keele ühendkorpus 2021 (2,9 miljardit sõnet, 197 miljonit lauset) sisaldab mitmeid alamkorpusi, muuhulgas eri aastatel kogutud eesti keele veebikorpusi, mis moodustavad ühendkorpuse mahust üle 90%. Sealt leiab muuhulgas blogisid, foorumipostitusi, perioodikaväljaandeid jmt.

Samuti tasub meeles pidada, et kuigi koguda võib igasuguseid tekste, siis nende kasutamisele võib esineda piiranguid. Autoriõigustega kaetud tekste tohib kasutada vaid õppe- ja teadustöö eesmärgil. Tekstis leiduvad tundlikud isikuandmed tuleks enne korpuse avalikustamist anonümiseerida. Ka seda protsessi on otstarbekas automatiseerida.

Et tekstist endale vajalikku infot saada, tuleb see kõigepealt struktureerida ja märgendada. Esimese etapina määratakse lausepiirid ja tuvastatakse sõnavormid. Selleks sobib näiteks Tartu Ülikoolis loodud EstNLTK teek. Veebis kohtame ka palju ebastandartset keelt – sellega teevad automaatmärgendajad sageli rohkem vigu (teatav eksimisprotsent on paratamatu) ja vaja võib olla inimese järelkontrolli. Sellegipoolest on suure koguse keeleandmete automaattöötlus otstarbekam, kui selleks inimtööjõu kasutamine. Tuleb ka otsustada, millised metaandmed (nt allikas, avaldamiskuupäev, autor jne) on vajalikud tekstile lisada.

Sel viisil korrastatud tekste on võimalik analüüsida näiteks korpuspäringusüsteemi KORP (korp.keeleressursid.ee) või Sketch Engine (sketchengine.eu) abil või luua hoopis endale sobiv tekstianalüüsi keskkond. Päringusüsteemide kasutajaliidesed võimaldavad paari klikiga tuvastada statistilisi mustreid, mida saab kasutada keele uurimiseks või ettevõtte tulevikuotsuste tegemiseks.

Ilmunud ajalehes Postimees 11.06.2022.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!