Skip to main content

PRG 1978

Expanding the scope of a multi-purpose lexicographic resource to grammar and L2 competence

Uue aja sõnastik: grammatika ja keelepädevuse kirjeldamine integreeritud multifunktsionaalses leksikograafilises ressursis

The aim of the project is to develop theoretical and methodological foundations for the representation of grammar and linguistic competence in an integrated multi-purpose lexicographic resource created at the Institute of the Estonian Language, and, more generally, to advance lexicographic theory and methodology. We will employ the idea of the lexicon as a linking device (of fragments of different linguistic representations as syntax and semantics). Our long-term aim is to have a single data source that provides a comprehensive and empirically reliable description of the Estonian language for different user groups (native speakers, learners, researchers, developers of NLP applications, etc.) via API and a customised search interface. In addition to lexicographic theory and methodology, the project’s results will contribute to the description of Estonian and to usage-based and construction-based linguistic theory.

Projekti raames töötatakse välja teoreetilised ja metodoloogilised eeldused sõnavara ja grammatika seoste ning teise ja võõrkeele lingvistilise pädevuse kirjeldamiseks ühtses multifunktsionaalses leksikograafilises ressursis. Projekt viib edasi korpus-  ja  arvutileksikograafia  uusimaid  suundumusi  ja  täidab  lünga  eesti  keele  õppimise  ja  õpetamise  ressurssides, lähtudes kasutuspõhisest ja konstruktsioonipõhisest lähenemis-viisist keeleteooriale ja keele omandamise teooriale ning leksikograafiale.  Projekt  tugineb  Eesti  Keele  Instituudi  pikaajalisele  sõnaraamatutöö  traditsioonile  ning  selle  tulemusirakendatakse  Eesti  Keele  Instituudi  leksikograafilises  ressursis  Ekilex,  mis  pakub  otsinguliidese  ja  API  kaudu  erikasutaja-gruppidele terviklikku eesti keele kirjeldust. Lisaks leksikograafia teooriale ja metodoloogiale annavad projektitulemused panuse eesti keele kirjeldamisse ning kasutus- ja konstruktsioonipõhisesse keele-teooriasse.

Team

Keeleline teadmine ei jagune leksikoniks ja grammatikaks, vaid moodustab ühe erineva üldisusastmega sümboolsete üksuste võrgustiku. Seetõttu tuleb sõnaraamatut ja seal sõnaliigimärgenditega indekseeritavat traditsioonilist grammatikat paratamatult täiendada n-ö “konstruktikoniga”, kus on võimalik kirjeldada ka produktiivsete konstruktsioonide vormi, tähendust ja kombinatoorseid omadusi.

Heete Sahkai. 2008
Eesti rakenduslingvistika ühingu aastaraamat 4, 171–186

Work packages (WP)

  • WP 1 Methods and tools for the identification of grammatical constructions and their lexicographic description
  • WP2 Methods and tools for the identification and description of proficiency level information
  • WP 3 Revision of the Ekilex data model and the design of the Sõnaveeb interface
  • WP 4 Scientific events
  • WP 5 Dissemination 

Related projects

(Co-)organized workshops

Conferences and workshops

Applications

  • Noun D-index calculator / Käändsõna D-indeksi kalkulaator Kalkulaator näitab, kas ja kuivõrd erineb käändsõna suhteline sagedus Ühendkorpuses 2019 käändsõnadele üldisest omasest suhtelisest sagedusest. Sagedusnormid on arvutatud tuginedes varem avaldatud statistikale käändekategooriate esinemisest eestikeelsetes tekstides. Suhtelise sageduse lävend DI = 0,130 on seatud empiiriliselt võrreldes normaalse jaotusega ning paradigmadest irduma kippuvate sõnavormide suhtelise sageduse näitajaid. Lävendist suurema suhtelise sagedusega vormid on varustatud sildiga „kriitiline“. Kalkulaatori näit on heuristik, mis osutab statistilisele tendentsile. Sõnavormi leksikograafilise staatuse üle otsustamine jääb leksikograafi ülesandeks, kes kaalutleb sõnavormi morfosüntaktilisi, semantilisi ja paradigmaatilisi jm omadusi. Normide arvutamise ning kalkulaatori loomise protseduurid on kirjeldatud artiklites: Vainik, Ene; Paulsen, Geda; Lohk, Ahti (2021a). Käändevormist sõnaks: mida näitab sagedus? Eesti Rakenduslingvistika Ühingu aastaraamat = Estonian papers in applied linguistics, 17, 285−307. DOI: 10.5128/ERYa17.16. Vainik, Ene; Lohk, Ahti; Paulsen, Geda (2021b). The Distribution Index Calculator for Estonian. Electronic lexicography in the 21st century. Proceedings of the eLex 2021 conference.: eLex 2021 conference: Post-editing lexicography; 5–7 July 2021, virtual. Ed. Kosem, I., Cukr, M., Jakubíček, M., Kallas, J., Krek, S. & Tiberius, C. Brno: Lexical Computing CZ, s.r.o, 121−138. Paulsen, Geda; Vainik, Ene; Lohk, Ahti; Tuulik, Maria (2021). Catching lexemes. The case of Estonian noun-based ambiforms. Electronic lexicography in the 21st century. Proceedings of the eLex 2021 conference.: eLex 2021 conference: Post-editing lexicography; 5–7 July 2021, virtual. Ed. Kosem, I., Cukr, M., Jakubíček, M., Kallas, J., Krek, S. & Tiberius, C. Brno: Lexical Computing CZ, s.r.o, 288−311.
  • Adjective similarity calculator
  • Eesti freimileksikon (Tartu Ülikool)
  • Sõnastiku- ja terminibaas Ekilex 
  • Sõnaveebi “Õpetajate tööriistad” 
  • ruMab 

How to cite

This work was supported by the Estonian Research Council grant (PRG 1978). / Uurimistööd on finantseerinud Eesti Teadusagentuur (PRG 1978).

Funded by the Estonian Research Council.

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!