Skip to main content

Hange: E2 õppijamaterjali süntaktilise parsimise hindamiskorpuse koostamine ja parsimiskvaliteedi hindamismetoodika väljatöötamine

Eesti Keele Instituudi ESF programmi “Eesti keele õpe ja keeleõppe arendamine” raames kutsume teid esitama pakkumuse hankele „E2 õppijamaterjali süntaktilise parsimise hindamiskorpuse koostamine ja parsimiskvaliteedi hindamismetoodika väljatöötamine“.

Hanke eesmärk

Hanke eesmärk on EKI L2 õppijakorpuse alamosa (EKIL2GramPar1) süntaktiline ühestamine, hindamiskorpuse (GOLD-standard) koostamine ning hindamismetoodika väljatöötamine, mis võimaldab õppijamaterjali parsimismudelite võrdlevat hindamist.

Hanke sisu

  1. EKIL2GramPar grammatiline ühestamine. Hindamiskorpuse (GOLD-standard) loomine. Ühestamisele kuuluvad:
    • Lemma
    • Sõnaliik
    • Morfoloogiline analüüs
    • Süntaktiline analüüs
    • Sõltuvussuhte liik 
  2. Hindamismetoodika väljatöötamine, mis võimaldab võrrelda erinevate parserite tulemuslikkust õppijamaterjalide süntaktilises analüüsis. See peab võimaldama:
    • Hinnata parserite vastavust kvaliteedikriteeriumidele (parsimistulemuse vastavust määratud sihttasemele). Mõistlikud sihttasemed tuleks määrata järgmiste kategooriate osas: Lemma, POS, UAS (unlabeled attachment score), LAS (labeled attachment score) (vt Huang jt (2018)).
    • Võrrelda erinevate parserite tulemuslikkust materjalide õppijamaterjalide parsimisel.
    • Tulemust hinnata tervikteksti parsimise kontekstis.
    • Tulemust hinnata lause parsimise kontekstis.
    • Tulemust hinnata erinevat tüüpi keelevigade mõju osas parsimistulemusele. Seda käsitletakse põhimõttel “kui keeleviga lauses korrigeerida, siis kas parsimistulemus paraneb” (vt Huang jt (2018)). Vajalik korpusinfo on selle osaliselt korrigeeritud lausete alaosas. 

Hanke tulemusena on kogu EKIL2GramPar korpusmaterjali grammatiline märgendus ühestatud ning välja töötatud hindamismetoodika, mis vastab eelpool kirjeldatud nõuetele.

Töö maht ja periood

  • Märgendatava materjali hulk: 7962 lauset.
  • Hindamismetoodika väljatöötamine vastavalt eelpool toodud nõuetele.
  • Eeldatav töö periood: kuni kaks kuud lepingu sõlmimise hetkest.
  • Kogu korpusmaterjal läbib topeltmärgenduse. Märgenduserinevuste korral otsustamise viis jääb projektijuhi otsustada.

Pakkujale esitatavad nõuded

  • Pakkuja meeskond peab koosnema vähemalt kahest inimesest:
    • Projektijuht: doktorikraadi omandanud või seda omandamas isik. Doktori- või magistrikraad peab olema keeleteaduses või sellele lähedasel erialal. Varasem kogemus korpusmaterjalide süntaktilise ühestamisega ja automaatparserite rakendamisega ja hindamisega.
    • Projektijuhi valikul märgendaja(d) (ka projektijuht võib olla märgendaja): Vähemalt magistrikraadi omandamas. Omandatud või omandatav magistrikraad (või kõrgem kraad) peab olema keeleteaduses või sellele lähedasel erialal. 

Pakkumise tähtaeg

21. märts 2025

Pakkumisperioodil on pakkujal õigus pöörduda hankija poole täpsustavate küsimustega ning pärida ligipääsu korpusega tutvumiseks.

Töö valmimise tähtaeg

Kaks kuud alates hankelepingu sõlmimisest.

Pakkumuse esitamine

Pakkumus tuleb esitada etteantud vormil e-posti aadressile kristjan.suluste@eki.ee hiljemalt 21. märtsiks 2025. Kõigi pakkujatega võetakse ühendust ning hanketulemused avalikustatakse hiljemalt 31. märts 2025.

Eduka pakkumuse valiku kriteerium on madalaim hind.

Viited

Huang, Y., Murakami, A., Alexopoulou, T., & Korhonen, A. (2018). Dependency parsing of learner English. https://doi.org/10.17863/CAM.23072


  1. Täitja kasutusse antakse EKIL2GramPar aluskorpus, mis kokku sisaldab 7962 lauset 7., 9. ja 12. klassi eesti keel teise keelena õppijate tasemetöö- ja eksamisooritustest. Õppijamaterjalid on nii algtekstidena kui ka nende täielike ning osaliste parandustena (genereeritud ERRANT-M2 formaadis veamärgenduse alusel lause veaparanduste kas täielikul või valikulisel rakendamisel). Iga lause kohta on esitatud eraldi selle tekstiline kuju ja ConLL-U formaat. ↩︎

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!