Keeleminutid. Kas tehisarul on liiga hea mälu?

Silver Vapper 6. oktoober 2025

Kas ChatGPT suudab tsiteerida tervet “Harry Potteri” peatükki? Kas ta teab peast kõiki New York Timesi artikleid? Aga Tähekese? Või äkki koguni tervet “Tõe ja õiguse” esimest köidet? Sellest, mida, kui palju ja kuidas suured keelemudelid olemasolevaid teoseid tunnevad, kirjutas EKI keeletehnoloog Silver Vapper.

Mõni aeg tagasi ilmus uuring, kuidas Google’i teadlased meelitasid 200 dollari eest ChatGPT-st välja üle 10 000 päheõpitud tekstijupi¹. Need olid aga enamasti lühikesed fraasid, mitte tervikteosed. Miks aga nii? Tegelikult on asi matemaatiliselt üpris “lihtne”.

Värske uuring sellest suvest² näitas, et suurtel keelemudelitel on kindel nö mahutavuspiirang – umbes 3,6 bitti parameetri kohta. Mis see tähendab? 1,5 miljardi parameetriga mudel mahutab kokku umbes 675 megabaiti toorandmeid. Võrdluseks võib mõelda, et ainuüksi seesamune eelnevalt mainitud “Tõe ja õiguse” esimene köide võtaks tekstifailina enda alla umbes 2 megabaiti. Kui mudel peaks salvestama kogu Tammsaare loomingu pluss veel miljoneid teisi tekste, oleks see nagu üritada mahutada tervet raamatukogu tikutoosi.

Keeletehnoloogia vaatenurgast on probleem veelgi huvitavam. Mudelid õpivad oma olemusest tingituna pähe peamiselt seda, mis sageli kordub.³ Just selle pärast võivad mudelid “mäletada” Harry Potteri tsitaate – need lihtsalt esinevad internetis sadades kui mitte tuhandetes kohtades ning seega omavad tõenäoliselt suurt sagedust ka keelemudelite treeningandmetes. Seevastu näiteks Oskar Lutsu või Jaan Krossi teoseid mudel tõenäoliselt peast ei tea. Miks? Eesti keele osakaal on suurte keelemudelite treeningmaterjalis juba praegu nii tilluke, et meie kirjandusklassika üksühene reprodutseerimine nende abil on sisuliselt võimatu.

Hiljutises New York Timesi kohtuasjas ChatGPT looja OpenAI vastu selgus veel üks oluline detail: “peaaegu sõna-sõnalise reprodutseerimise” esile kutsumine nõudis kümneid tuhandeid spetsiaalselt konstrueeritud päringuid⁴. Tavaline kasutaja, kes keelemudeliga lihtsalt vestleb, ei suuda seda teha.

Kuid autorite pahameel ja skepsis on arusaadavad, sest nagu näidetest selgub, siis keelemudelid kahtlemata mäletavad enda treeningmaterjalide sisu, lihtsalt üldjuhul mitte terviklikult ja mastaapselt. Sellele vaatamata peavad keelemudelite arendajad pidevat vaeva nägema ning kontrollima, et mudel ei reprodutseeriks pikemaid tekstilõike, mis võiks autoriõiguste rikkumise alla kvalifitseeruda.

Mida see tähendab tavakasutajale? Suures pildid ikkagi seda, et tehisaru ei ole digitaalne koopiamasin, vaid mustrite õppija. Ta suudab kirjutada Tammsaare stiilis, ilma et peaks “Tõde ja õigust” peast teadma.

[1] Carlini, N., Ippolito, D., Jagielski, M., et al. (2023). “Extracting Training Data from ChatGPT.”
[2] Morris, J., Sitawarin, C., Guo, C., et al. (2025). “How much do language models memorize?
[3] Ma I., Domingo I.,Krone-Martins A. „Memorization: A Close Look at Books” (2025)
[4] NYT v. OpenAI (2024) „The New York Times Company v. OpenAI Inc. and Microsoft Corporation”. (2024)

Lugu ilmus 06.10.2025 ERRi kultuuriportaalis.

Kas leidsid, et sisu on kasulik?

Jah

Sinu tagasiside on meieni jõudnud. Aitäh!