Íslensk málgögn

„Íslensk málgögn“ eru safn stafrænna málgagna, þ.e. margvíslegra gagna um íslenskt mál (textagagna, tölfræðigagna, hljóðskráa, myndefnis), sem hafa orðið til á undanförnum árum í ýmsum rannsóknarverkefnum sem flest hafa verið styrkt af Rannsóknasjóði. Málfræðilegar rannsóknir hafa breyst mikið á undanförnum árum, samfara þróun upplýsinga- og tölvutækni. Breytingarnar koma ekki síst fram í því að vægi megindlegra rannsókna hefur aukist mjög og frá því um síðustu aldamót hafa langflestar íslenskar málfræðirannsóknir verið megindlegar að verulegu leyti – byggst á víðtækri gagnasöfnun og tölfræðilegri úrvinnslu gagnanna. Sem dæmi má nefna tvær viðamestu rannsóknir sem hafa verið gerðar á íslensku máli og báðar fengu öndvegisstyrk Rannsóknasjóðs – „Tilbrigði í setningagerð“ 2005-2007 og „Greining á málfræðilegum afleiðingum stafræns málsambýlis“ 2016-2019.

Í mörgum af þessum rannsóknum hafa orðið til gífurlega mikil og fjölbreytt gögn – málgögn – sem flest eru á stafrænu formi. Þessi gögn eru einkum af fernum toga. Í fyrsta lagi ýmiss konar textagögn, t.d. spurningakannanir af ýmsu tagi og svör við þeim, uppskriftir samtala og viðtala við börn og fullorðna, uppskriftir texta frá eldri málstigum o.fl. Í öðru lagi tölfræðileg gögn – einkum skrár úr SPSS, Excel og R, sem geyma töluleg gögn og margvíslega úrvinnslu úr ýmsum rannsóknum. Í þriðja lagi hljóðskrár – t.d. samtöl og viðtöl við börn og fullorðna, upptökur úr framburðarrannsóknum og hljóðfræðirannsóknum o.fl. Í fjórða lagi er svo myndefni, einkum myndir sem hafa verið notaðar í framburðarrannsóknum og myndir af framburðarspjöldum.

Þessi gögn eru nú yfirleitt varðveitt hjá stjórnendum þeirra verkefna þar sem þau urðu til, og eru þar ekki aðgengileg öðrum nema með sérstöku leyfi og atbeina verkefnisstjóranna (sem í sumum tilvikum eru hættir störfum). Skipulag á varðveislu gagnanna er oft laust í reipunum, gögnin eru á mismunandi formi, lýsigögn oftast af skornum skammti, og stundum er að finna í gögnunum persónugreinanlegar upplýsingar sem ekki er heimilt að gera opinberar. Það er því oft umtalsverð fyrirhöfn fyrir verkefnisstjóra að veita aðgang að gögnum sínum, og ekki síður fyrirhöfn fyrir notendur að setja sig inn í skipulag þeirra og átta sig á þeim.

„Íslensk málgögn“ munu skapa margvíslega nýja möguleika í rannsóknum. Söfnun og tölfræðileg úrvinnsla mállegra gagna er geysilega tímafrek og dýr. Í nokkrum af þeim rannsóknarverkefnum sem munu leggja til gögn hefur gagnasöfnun t.d. farið fram víða um land (og jafnvel erlendis, í Færeyjum og Vesturheimi) með tilheyrandi ferðakostnaði. Í þessum gögnum liggja því mikil verðmæti og það er til mikils að vinna að ná betri nýtingu út úr þessum gögnum. Umsækjendur telja að hér gefist einstakt tækifæri til að útvega þeim sem fást við rannsóknir á íslensku máli mikil verðmæt gögn með litlum tilkostnaði.

Í flestum tilvikum hafa gögnin nýst vel til þess sem þau voru upphaflega ætluð, og skilað fjölmörgum bókum og fræðigreinum. En mikið af þeim gæti nýst áfram, væru þau aðgengileg – bæði til áframhaldandi rannsókna á sama sviði og ekki síður til annars konar rannsókna en þau voru upphaflega ætluð til. Þeir sem búa yfir gögnunum eru oftast fúsir til að opna þau og gera þau aðgengileg en skortir bolmagn og aðstöðu til þess. Iðulega þarf að leggja talsverða vinnu í að tilreiða gögnin þannig að hægt sé að opna þau öllum – semja ítarleg lýsigögn, fjarlægja persónugreinanlegar upplýsingar, koma gögnunum á staðlað form o.fl. Þetta er vinna sem umráðamenn gagnanna geta ekki tekið á sig nema að litlu leyti.

Að auki þarf að tryggja örugga vistun gagnanna og varanlegt aðgengi að þeim. Með þátttöku Íslands í evrópska innviðaverkefninu CLARIN ERIC og uppsetningu CLARIN-miðstöðvar á Íslandi er kominn vettvangur til að vista gögnin varanlega og tryggja aðgang að þeim til frambúðar. Sá aðgangur verður með mismunandi móti eftir eðli gagnanna. Í flestum tilvikum verður hægt að hlaða þeim niður til áframhaldandi vinnslu án sérstakra takmarkana, en notendur verða þó að samþykkja sérstakt notkunarleyfi, sem getur verið misjafnlega takmarkandi, sem skilyrði fyrir niðurhali. Textagögn verða einnig gerð leitarbær í hugbúnaðinum Korp.

Aðstandendur verkefnisins fást við fjölbreyttar rannsóknir á sviði íslenskrar málfræði, talmeinafræði og máltækni og munu nýta gögnin í rannsóknum sínum og vísa nemendum sínum á þau. En einnig er ljóst að fjöldi annarra fræðimanna, innan lands og erlendis, mun nýta gögnin ef þau eru gerð aðgengileg. Þar skiptir máli vistun þeirra á CLARIN-miðstöðinni þar sem þau verða skráð í gagnagrunn CLARIN og lýsigögn þeirra – og í sumum tilvikum gögnin sjálf – þar með hluti af leitargrunni CLARIN. Til að auðvelda erlendum fræðimönnum notkun gagnanna verða lýsigögnin bæði á íslensku og ensku.

Í sumum tilvikum hafa möguleikarnir sem gögnin bjóða upp á til að rannsaka það sem þau voru upphaflega gerð fyrir ekki verið fullnýttir. Þannig má nefna að Margrét Guðmundsdóttir doktorsnemi hefur tölvuskráð upplýsingar á framburðarspjöldum Björns Guðfinnssonar frá því um 1940, sem varðveitt eru í Landsbókasafni – Háskólabókasafni, og sýnt fram á að úr þeim gögnum má lesa meiri og nákvæmari upplýsingar um íslenskar framburðarmállýskur fyrir miðja 20. öld en áður hafði verið gert, þótt á sínum tíma hafi verið gefnar út tvær bækur um niðurstöður rannsóknar Björns. Miklar ónýttar upplýsingar til viðbótar mætti enn vinna úr spjöldunum.

Einnig má nefna að Höskuldur Þráinsson prófessor emeritus hefur gert mikinn fjölda SPSS-skráa með tölfræðilegum gögnum úr verkefnunum „Tilbrigði í setningagerð“ sem unnið var að frá 2005-2007 og „Tilbrigði í færeyskri setningagerð“ sem unnið var að frá 2008-2009. Þótt gefnar hafi verið út þrjár bækur með niðurstöðum fyrrnefnda verkefnisins, auk fjölda greina og ritgerða um bæði verkefnin, er enn að finna miklar og fjölbreyttar upplýsingar í þessum skrám sem ekki hefur verið unnið úr.

Í öðrum tilvikum geta gögnin nýst til annars en þeim var upphaflega ætlað. Hér má aftur taka dæmi af framburðarrannsókn Björns Guðfinnssonar um 1940 og verkefninu „Rannsókn á íslensku nútímamáli“ (RÍN) upp úr 1980. Bæði þessi verkefni skiluðu niðurstöðum sem birtust á prenti á sínum tíma, í bókum og greinum. En vegna þess að frumgögn Björns voru varðveitt var hægt að nýta þau til samanburðar við RÍN-rannsóknina til að kortleggja breytingar á framburði Íslendinga yfir 40 ára tímabil mun betur en ef eingöngu hefði þurft að miða við útgefnar niðurstöður rannsókna Björns.

Gögn úr báðum þessum rannsóknum voru síðan notuð í verkefninu „Málbreytingar í rauntíma í íslensku hljóðkerfi og setningagerð“ (RAUN) á árunum 2010-2012. Þar var hægt að rekja breytingar á framburði sama fólks yfir 70 ára tímabil sem er einstakt í heiminum. Í síðastnefnda verkefninu var einnig athuguð þróun ákveðinnar setningafræðilegrar breytingar („nýju þolmyndarinnar“ eða „nýju ópersónulegu setningagerðarinnar“), sem Sigríður Sigurjónsdóttir og Joan Maling rannsökuðu fyrst í máli barna 1999-2000, og síðan var aftur rannsökuð í máli sumra sömu einstaklinganna – sem þá voru um tvítugt.

Þessi endurnýting rannsóknargagna var möguleg vegna þess að sömu fræðimenn stóðu að henni og höfðu unnið upphaflegu rannsóknirnar – eða þá að eldri gögn voru aðgengileg þótt mikla vinnu þyrfti að leggja í að gera þau nýtileg til samanburðar, eins og tilfellið var með gögn Björns Guðfinnssonar. En vitanlega er óæskilegt og hamlandi að endurnýting rannsóknargagna sé bundin við upphaflega safnendur gagnanna. Mikilvægt er að aðrir fræðimenn, innan lands og erlendis, hafi greiðan aðgang að þessum gögnum og geti nýtt þau í margvíslegum rannsóknum.

Það hefur sýnt sig að erlendir fræðimenn hafa nýtt sér íslensk málleg gögn sem hafa verið gerð aðgengileg. Gott dæmi um það er að tvær doktorsritgerðir sem varðar voru í lok síðasta árs, önnur við háskólann í Manchester á Englandi en hin við háskólann í Konstanz í Þýskalandi, byggjast algerlega á Sögulega íslenska trjábankanum (IcePaHC) sem var gerður innan öndvegisverkefnisins „Hagkvæm máltækni utan ensku“ sem Rannsóknasjóður styrkti árin 2009-2011. Trjábankinn hefur frá upphafi (2011) verið öllum aðgengilegur til niðurhals.

Á undanförnum árum og áratugum hafa gögn úr þeim rannsóknum sem munu leggja efni til „Íslenskra málgagna“ nýst á mjög fjölbreyttan hátt í námi og kennslu í íslensku og almennum málvísindum – í aragrúa námskeiðsritgerða og verkefna, fjölda BA- og MA-ritgerða, og stöku doktorsritgerðum. Í sumum tilvikum hafa ritgerðarhöfundar verið sjálfir að vinna við viðkomandi rannsókn og þannig haft beinan og milliliðalausan aðgang að gögnum, en í öðrum tilvikum hafa þeir fengið aðgang að gögnunum hjá verkefnisstjórum. Slíkt er þó oft snúið og getur kostað verulega vinnu bæði fyrir umsjónarmann gagnanna og ritgerðarhöfund, eins og áður er rakið.

Með opnu aðgengi að gögnum, samræmdu gagnasniði og stöðluðum lýsigögnum, verður margfalt auðveldara en áður að láta stúdenta vinna með gögnin á ýmsan hátt, bæði í smærri námskeiðsverkefnum og stærri ritgerðum – námskeiðsritgerðum, BA- og MA-ritgerðum og jafnvel doktorsritgerðum. En einnig skapast nýir möguleikar til vinnu með gögnin – hægt verður að láta stúdenta bera gögn úr mismunandi rannsóknum saman á ýmsan hátt, skoða þróun málbreytinga o.s.frv. Þetta verður því alger gullkista til þjálfunar stúdenta í sjálfstæðri vinnu með fjölbreytileg málleg gögn, og það er vitaskuld mjög hvetjandi fyrir stúdenta að fá tækifæri til að svara spurningum sem ekki hefur verið svarað áður.

Vistun gagnanna á CLARIN-miðstöðinni og tenging við gagnanet CLARIN gerir það að verkum að fræðimenn erlendis fá vitneskju um gögnin og eiga greiðan aðgang að þeim. CLARIN-miðstöðin sér um að koma gögnunum fyrir í því tæknilega umhverfi sem þar verður til staðar (CLARIN technical centre) og tengja þau við CLARIN-netið.