Skip to main content

Keeleminutid. Elektroonilised paberkorpused

Liis Ermus 16. juuni 2025

Kartoteegid olid 20. sajandil oluliseks töövahendiks sõnavara kogumisel ja sõnaraamatutöös. Nüüd on esimesed kartoteegid jõudnud ka digitaalsele kujule, kirjutab “Keeleminutites” EKI teadur ja arhiivi juht Liis Ermus.

Keelekorpus on kirjalikest või suulistest tekstidest koosnev elektrooniline andmekogu keeleteaduses. Enne elektroonilisi korpusi kasutati suuremahuliste keeleandmete, enamasti sõnavara, kogumiseks ja süstematiseerimiseks kartoteeke. Kartoteek on nagu paberist keelekorpus, kus vajalik info on kirjas väikestel paberilehtedel – sedelitel, mis on süstematiseeritud enamasti tähestikuliselt märksõnade järgi. Lisaks märksõnale on sedelil info näiteks grammatiliste vormide kohta, seletus ja näitelause.

Suuremad kartoteegid on mahult võrreldavad varaste elektrooniliste korpustega. Näiteks Eesti Keele Instituudi eesti kirjakeele kartoteegis on umbes 4,3 miljonit, eesti murrete tähestikulises koondkartoteegis aga 2,7 miljonit sedelit, mis kõik sisaldavad vähemalt ühte sõna, enamasti rohkem. Selliste kartoteekide koostamine võttis aastaid või aastakümneid paljude inimeste tööd.

Üldkeele sõnavara kogumiseks ja uurimiseks sobiv materjal, mis on suurelt jaolt trükitud kujul, muutus arvutiga töödeldavaks juba mitu kümnendit tagasi ja kirjakeele kartoteegid on saanud mõnevõrra museaalse väärtuse (kuigi vahel siiski on ka neid vaja). Murdekeel on talletatud enamasti käsikirjaliselt ja kirja pandud üsna keerulises transkriptsioonisüsteemis, mille arvutile loetavale kujule viimine on väga töömahukas. Seetõttu on murrete uurimisel paberist kartoteegid jätkuvalt aktiivses kasutuses.

Kartoteegi kasutamiseks tuleb minna arhiivi ja sobrada vahel tundide kaupa tolmuseid pabereid täis sahtlites. Tihti kaasneb reis teise linna või riiki. Iga kord pole see võimalik. Selleks, et materjale oleks võimalik kasutada ka kodust lahkumata, on EKI eesti murrete ja soome-ugri keelte arhiivi (EMSUKA) kartoteeke umbes 15 aastat viidud digitaalsele kujule. Juba mitu aastat on veebi kaudu kättesaadavad olnud kohanimekartoteek ja mõisteline sõnavarakogu. Viimati jõudsid veebi ka eesti murrete tähestikulise koondkartoteegi sedelid, järge ootab Wiedemanni sõnavarakogu.

Siiski on esialgu tegemist piltide vaatamisega ning vajalik info tuleb uurijal endal sealt üles otsida ja välja lugeda, täpselt nagu paberist kartoteegis. Et kogude kasutamine veel kiiremaks ja mugavamaks teha, on vaja neis leiduvad andmed viia masinale arusaadavale kujule, mille järgi oleks võimalik teha täpsemaid otsinguid. Seda on tehtud kohanimekartoteegis, kuhu otsingusüsteemi jaoks lisati elektrooniliselt loetav info käsitsi. Selline töö on omakorda väga töömahukas ja nõuab oskusi transkriptsiooni ja erinevate käekirjade lugemiseks. Järgnevate kogude masinloetavaks tegemisel tulevad loodetavasti appi juba käekirjatuvastus ja suured keelemudelid.

Lugu ilmus 16.06.2025 ERR-i kultuuriportaalis.

Liis Ermus

Arhiivi juht – teadur
Keeleajaloo, murrete ja soome-ugri keelte osakond
Liis Ermus

Kas leidsid, et sisu on kasulik?

Jah
Ei
Sinu tagasiside on meieni jõudnud. Aitäh!