8. mail toimus Eesti Keele Instituudi sõnaliigiseminar “Kvantitatiivsed vastused kvalitatiivsetele küsimustele? Mitmesused korpusandmestikus”. Seminar oli rahvusvaheline ning ettekannete teemad puudutasid sõnaliikide rolli loomulike keelte automaattöötluses.
EKI keelekool 19.06.2021. Sõnaliigid ja arvutilingvistika
Geda Paulsen
Miks üldse rääkida sõnaliikidest? Kas näiteks tekstikogude ehk korpuste töötluses ei ole see «antiikne» teema juba ammendunud? Kas vormilt ja tähenduselt sarnaste sõnade rühmitamine on üldse vajalik? Plenaarettekandega “Morfoloogia [keele vormistik – G. P.] on loomulike keelte töötluse lahendamata probleem” seminari avanud Masaryki ülikooli arvutilingvist Miloš Jakubíček tõdes, et arvutilingvistika kuumad teemad on tehisintellekt, autorsuse tuvastamine, tekstide sisukokkuvõtete tegemine, masintõlge jne. Keelekorpuse alusanalüüs ehk vormistiku- ja sõnaliigimärgendus ei ole aga siiani lahendatud küsimus. See on mõneti alahinnatudki ülesanne, osalt seetõttu, et olemasolevad lahendused annavad pealtnäha väga häid tulemusi. Näiteks inglise ja prantsuse keele korpusandmete töötlemine eri mudelitega annab esialgu kõrgena tunduva 96–98-protsendise täpsuse. Tähele tuleb aga panna, et see näitab analüüsi õigsust sõnede tasemel, lausetasemel on täpsus kõigest 50 protsenti, mis tähendab, et pooltes analüüsitud korpuse lausetest on üks või rohkemgi vale sõnaliigitähisega sõna! See mõjutab mõistagi kõiki järgmise astme korpusanalüüsi tulemusi. Lisaks ei ole need keeled vormistikult kõige rikkamad.
Edasi loe siit. (Postimees, 19.06.2021)