Expanding the scope of a multi-purpose lexicographic resource to grammar and L2 competence
Uue aja sõnastik: grammatika ja keelepädevuse kirjeldamine integreeritud multifunktsionaalses leksikograafilises ressursis
The aim of the project is to develop theoretical and methodological foundations for the representation of grammar and linguistic competence in an integrated multi-purpose lexicographic resource created at the Institute of the Estonian Language, and, more generally, to advance lexicographic theory and methodology. We will employ the idea of the lexicon as a linking device (of fragments of different linguistic representations as syntax and semantics). Our long-term aim is to have a single data source that provides a comprehensive and empirically reliable description of the Estonian language for different user groups (native speakers, learners, researchers, developers of NLP applications, etc.) via API and a customised search interface. In addition to lexicographic theory and methodology, the project’s results will contribute to the description of Estonian and to usage-based and construction-based linguistic theory.
Projekti raames töötatakse välja teoreetilised ja metodoloogilised eeldused sõnavara ja grammatika seoste ning teise ja võõrkeele lingvistilise pädevuse kirjeldamiseks ühtses multifunktsionaalses leksikograafilises ressursis. Projekt viib edasi korpus- ja arvutileksikograafia uusimaid suundumusi ja täidab lünga eesti keele õppimise ja õpetamise ressurssides, lähtudes kasutuspõhisest ja konstruktsioonipõhisest lähenemis-viisist keeleteooriale ja keele omandamise teooriale ning leksikograafiale. Projekt tugineb Eesti Keele Instituudi pikaajalisele sõnaraamatutöö traditsioonile ning selle tulemusirakendatakse Eesti Keele Instituudi leksikograafilises ressursis Ekilex, mis pakub otsinguliidese ja API kaudu erikasutaja-gruppidele terviklikku eesti keele kirjeldust. Lisaks leksikograafia teooriale ja metodoloogiale annavad projektitulemused panuse eesti keele kirjeldamisse ning kasutus- ja konstruktsioonipõhisesse keele-teooriasse.
- Jelena Kallas, PhD
- Ene Vainik, PhD
- Geda Paulsen, PhD
- Heete Sahkai, PhD
- Kristina Koppel, PhD
- Raili Pool, PhD
- Arvi Tavast, PhD
- Katrin Tsepelina
PhD students
- Kertu Saul (PhD student)
- Kelly Lilles (PhD student)
- Natalia Vaiss (PhD student)
- Mai Raet (PhD student)
- Pilvi Alp (PhD student) (kuni 2024)
- Maria Tuulik, PhD
- Tõnis Nurk, BA
- Ahti Lohk, PhD
- Ahto Kiil, (BA student)
Keeleline teadmine ei jagune leksikoniks ja grammatikaks, vaid moodustab ühe erineva üldisusastmega sümboolsete üksuste võrgustiku. Seetõttu tuleb sõnaraamatut ja seal sõnaliigimärgenditega indekseeritavat traditsioonilist grammatikat paratamatult täiendada n-ö “konstruktikoniga”, kus on võimalik kirjeldada ka produktiivsete konstruktsioonide vormi, tähendust ja kombinatoorseid omadusi.
Heete Sahkai. 2008
Eesti rakenduslingvistika ühingu aastaraamat 4, 171–186
Work packages (WP)
- WP 1 Methods and tools for the identification of grammatical constructions and their lexicographic description
- WP2 Methods and tools for the identification and description of proficiency level information
- WP 3 Revision of the Ekilex data model and the design of the Sõnaveeb interface
- WP 4 Scientific events
- WP 5 Dissemination
Related projects
- The project integrates the results and ideas from an earlier project (PSG227) “Redefining Estonian parts of speech: a corpus-driven approach“ carried out at the Institute of the Estonian Language (2019-2022)
- CA22126 – European Network On Lexical Innovation (ENEOLI) 2023-2027
- CA21167 – Universality, diversity and idiosyncrasy in language technology (UniDive) 2022-2026
- CA22115 – A Multilingual Repository of Phraseme Constructions in Central and Eastern European Languages (PhraConRep) 2023-2027
- European network for Web-centred linguistic data science (CA18209) 2019-2023
- European Network for Combining Language Learning with Crowdsourcing Techniques (CA16105) 2017-2021
(Co-)organized workshops
- NLP4CALL 2025 Workshop at NoDaLiDa/Baltic-HLT 2025 conference (March 2025)
- From a dictionary to a constructicon – how to represent the syntax-lexicon continuum in a digital resource? Workshop at EAAL2024 conference (April 2024) Video
- Linking Lexicographic and Language Learning Resources (4LR). Workshop at LDK 2023 (September 2023)
- Lexicography and CEFR: Linking lexicographic resources and language proficiency levels. Workshop at eLex2023 (June 2023)
How to cite
This work was supported by the Estonian Research Council grant (PRG 1978). / Uurimistööd on finantseerinud Eesti Teadusagentuur (PRG 1978).
Funded by the Estonian Research Council.