Skip to main content

Hanke “E2 õppijamaterjali süntaktilise parsimise hindamiskorpuse koostamine ja parsimiskvaliteedi hindamise metoodika väljatöötamine”

Haridus- ja Teadusministeerium viib Euroopa Liidu kaasrahastatud programmi „Eesti keele õpe ja keeleõppe arendamine“ raames läbi hanke „E2 õppijamaterjali süntaktilise parsimise hindamiskorpuse koostamine ja parsimiskvaliteedi hindamise metoodika väljatöötamine“.

Hanke eesmärk on luua hindamiskorpus ja metoodika, mida saab kasutada grammatikaparserite soorituse hindamiseks eesti keelt teise keelena (E2) õppijate tekstide töötlemisel.

Tellija annab täitjale kasutada E2 õppijate veamärgendatud andmestiku, mille põhjal töötatakse välja:

  • süntaktilise parsimise hindamiskorpus ehk andmestik, mille abil saab mõõta parserite täpsust E2 tekstide puhul, ning
  • metoodika, mis määratleb parsimiskvaliteedi hindamise ja benchmarkimise põhimõtted.

Benchmarkide rakendamist endas hange ei hõlma.

Hanke sisu

Töö aluseks on alusandmestik, mis põhineb EKI korpusel error-annotated Estonian L2 learner corpus (version 2) – eesti keele õppijakeele veamärgendatud andmestikul.
Andmestik on salvestatud vrt-formaadis ja sisaldab:

  • süntaktilist infot (parser: estonian-edt-ud-2.15-241121),
  • veamärgendusinfot (ERRANT-M2 formaadil).

Hange viiakse ellu kahes etapis:

I etapp

  • Täitja koostab teisenduskoodi, mis põhineb Tellija antud alusandmestikul (kood antakse üle Tellijale).
  • Teisenduskoodi abil luuakse:
    • süntaktilise märgenduseta võrdlusandmestik (vordlusandmestik_synt_ilma);
    • süntaktilise automaatmärgendusega võrdlusandmestik (vordlusandmestik_synt_auto), mis genereeritakse esimese andmestiku põhjal.
  • Nende andmestike vorm ja nendega seotud tegevused on täpsustatud hanke pakkumuskutse peatükis „Protsessielemendid (andmestikud, kood, metoodika) ja protsesside kirjeldus“.

II etapp

  • Viimistletakse ja ühestatakse grammatilised märgendused automaatmärgendusega andmestikus (vordlusandmestik_synt_auto).
  • Selle tulemusel valmib süntaktilise käsitsimärgendusega võrdlusandmestik (vordlusandmestik_synt_yhest) – hindamisandmestik, mille abil saab hinnata erinevate grammatikaparserite täpsust E2 õppijamaterjalide parsimisel.
  • Täitja töötab välja metoodilised alused, mis määratlevad, kuidas loodud korpust rakendada parsimise hindamiseks ja benchmarkimiseks. Täpsemad metoodika kirjeldused on toodud hanke pakkumuskutse peatükis „Metoodika“.

Pakkujale ja pakkumusele esitatavad nõuded

Pakkuja esitab pakkumuses

  • Projektiplaani

  • Projektijuhi ja programmeerija CV ja kinnitus rollile vastavuse kohta.

Pakkuja meeskond

Pakkuja meeskonnas peavad olema tagatud järgmised rollid:

  • Projektijuht: doktorikraadi omandanud või seda omandamas isik. Doktori- või magistrikraad peab olema keeleteaduses või sellele lähedasel erialal. Varasem (viimase 48 kuu jooksul) peab olema kogemus süntaktilist ühestamist puudutavate projektide juhtimise või täitmisega.
  • Programmeerija: IT-alase kõrg- või rakenduskõrgharidusega (või seda hetkel omandav) inimene, kellel on tõestatav varasem arendaja rolli täitmise kogemus vähemalt kahe keeletehnoloogiat puudutava projekti juures. Projektides töötamise kogemuse alternatiivina võib olla ka vähemalt 24 kuud arendajana töötamise töökogemust (samas vastates eelmainitud hariduskriteeriumidele).
  • Projektijuhi valikul märgendaja(d): vähemalt magistrant. Omandatud või omandatav magistrikraad (või kõrgem kraad) peab olema keeleteaduses või sellele lähedasel erialal.

Üks inimene võib täita ka mitut rolli (näiteks projektijuht võib täita ka programmeerija ja/või märgendaja rolli), kuid eraldi inimesed peavad olema vähemalt kahele rollile.

Projektiplaan

Projektiplaanis on kirjeldatud hanke läbiviimise tööplaan, pakkumuskutses kirjeldatud andmestike loomise ja metoodika väljatöötamist puudutavate eesmärkide saavutamise kirjeldus. Esitatavas projektiplaanis peab kirjelduma järgmine:

  • Hanke jooksul teostatavate tegevuste sisu ja ajaline jaotus. Kirjeldus antakse hanke kummagi etapi vaates. Tegevused on esitatud kindla algus- ja lõpptähtajaga (võttes aluseks nädalates kestvuse alates etapi perioodi algusest). Ülevaade esitatakse Gantti graafikul.
  • Materjalide süntaktiliseks parsimiseks (Võrdlusandmestik_koos_sünt andmestiku loomiseks) kasutatava parseri eelistus ja selle valimise põhjendus.
  • Ühestamise läbiviimise metoodilised ja korralduslikud alused. Selles on kirjeldatud, mille osas ühestatakse, milliseid failivorminguid kasutatakse, mitme märgendajaga töö toimub ja kuidas lahendatakse erinevused märgendajate vahel.
  • Mh tuuakse välja, kuidas kavatsetakse toimida erinevaid analüüsivõimalusi (parsimisvõimalusi) pakkuvate lausete ühestamisel. Tuuakse näiteid kolmest sellisest lausest ja erinevates ConLL-U (või võrreldavas failiformaadis) failides kirjeldatakse nende erinevad analüüsivõimalused.

  • Hindamis- ja benchmarkimismetoodika väljatöötamise esmased uurimisküsimused ja lahendatavad probleemid.

Esitatava projektiplaani alusel hinnatakse pakkuja suutlikkust projekti teostada ja hanke eesmärke saavutada. Kui tellija hindab esitatud projektiplaani sellele esitatud nõuetele mittevastavaks, siis on tal õigus esitatud pakkumine tagasi lükata.

Esitatud projektiplaan arutatakse läbi ja kooskõlastatakse tööde algusetapis. Täpsustatud ja kooskõlastatud projektiplaan võetakse tööde teostamise aluseks, kuid kahepoolsel kokkuleppel võib sellesse projekti teostamise vältel teha ka jooksvalt muudatusi.

Pakkumise tähtaeg

  • 3. november 2025
  • Pakkumisperioodil on pakkujal õigus pöörduda hankija poole täpsustavate küsimustega ning pärida võimalust aluskorpusega tutvumiseks.

Eduka pakkumuse valiku kriteerium

  • Hanke maksimaalne eeldatav maksumus on 29 900.- (ilma käibemaksuta).
  • Kaalutakse ainult nende pakkumiste vahel, mille Tellija tunnistab projektiplaani ja pakkuja meeskonna alusel tingimustele vastavaks. Mittevastavaks tunnistamise korral Tellija annab tagasisidet otsuse põhjuste kohta.
  • Madalaim hind
  • Pakkumus tuleb esitada e-posti aadressile kristjan.suluste@eki.ee hiljemalt ülaltoodud tähtajaks. Kõigi pakkujatega võetakse ühendust ja tehakse tulemus teatavaks hiljemalt 17. november 2025.
  • Samaväärsete pakkumiste korral tehakse valik liisuheitmise meetodil.

Hankedokumendid ja pakkumuse vorm


Kontakt:
Kristjan Suluste
projektijuht
kristjan.suluste@eki.ee  

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!