Íslenskar orðtíðnirannsóknir

Stundum veltir fólk því fyrir sér hver séu algengustu orðin í íslensku. Því er núna hægt að svara, en áður þarf samt að átta sig á því að orðið orð er margrætt – hefur a.m.k. þrjár merkingar sem hér skipta máli. Í fyrsta lagi er merkingin ‘uppflettiorð’ sem felur í sér grunnmynd (uppflettimynd, orðabókarmynd) orðsins og allar beygingarmyndir þess. Undir uppflettiorðið eiga falla þannig auk uppflettimyndarinnar beygingarmyndir eins og á, eigum, átti, ætti, o.s.frv. En myndin á getur auðvitað líka verið forsetningin á, nafnorðið á, og beygingarmynd af nafnorðinu ær.

Önnur merking orðsins er svo ‘orðmynd’ – tiltekinn stafa- eða hljóðastrengur, óháð málfræðilegri greiningu. Þannig er á ein og sama orðmyndin hvort sem hún tilheyrir sögninni eiga, forsetningunni á, nafnorðinu á eða nafnorðinu ær. Þriðja merkingin er svo ‘lesmálsorð’ – orð í texta. Þetta er sú merking sem á við þegar lengd texta er tilgreind – ef sagt er t.d. að ritgerð eigi að vera þúsund orð merkir það ekki að í henni eigi að koma fyrir þúsund mismunandi lesmálsorð eða orðmyndir, heldur að fjöldi lesmálsorða eigi að vera þúsund. Þá er hver orðmynd talin í hvert skipti sem hún kemur fyrir.

Tölvur hafa gert það ákaflega auðvelt að telja fjölda lesmálsorða og orðmynda. Talning uppflettiorða er hins vegar miklu flóknari vegna þess að hún krefst málfræðilegrar greiningar, til að hægt sé t.d. að fella dæmin um orðmyndina á undir rétta uppflettimynd út frá setningafræðilegri stöðu þeirra og stundum líka merkingu. Slíka greiningu þurfti til skamms tíma að gera í höndunum, en nú er kominn greiningarhugbúnaður (fyrir íslensku t.d. IceNLP og Greynir) sem greinir orðin vélrænt. Slík greining verður aldrei fullkomlega rétt, en þó yfirleitt nógu nákvæm til að hún gagnist til flestra þarfa.

Fyrstu stóru tíðnikönnun á íslenskum textum gerði Ársæll Sigurðsson skólastjóri og birti niðurstöður sínar í Menntamálum árið 1940. Tilgangur hennar var hagnýtur; „að finna leið til að gera stafsetningarkennsluna aðgengilegri og raunhæfari en áður, en þó vænlegri til betri árangurs“. Textarnir voru úr stílum barna, sendibréfum fullorðinna, lesbókum, náttúrufræði, sögu og landafræði, alls um 100 þúsund lesmálsorð. En vandaðasta tíðnikönnun á íslenskum textum var unnin hjá Orðabók Háskólans en niðurstöður hennar birtust í Íslenskri orðtíðnibók 1991. Hún byggðist á um 500 þúsund lesmálsorðum úr fimm mismunandi textategundum.

Á árunum 2004-2012 var komið upp hjá Árnastofnun miklu textasafni, Markaðri íslenskri málheild – samtals um 25 milljónir lesmálsorða. Textarnir eru margfalt fjölbreyttari en í Íslenskri orðtíðnibók, og skiptast í 23 flokka. Frá 2005 hefur svo Risamálheild verið byggð upp hjá Árnastofnun og hefur nú að geyma 1,64 milljarða lesmálsorða úr ýmsum áttum. Á henni byggist Orðtíðnivefur Árnastofnunar sem nú tekur til tæplega 1,4 milljarðs lesmálsorða. Vegna stærðar og fjölbreytni þessara safna má því vinna úr þeim ábyggilegar upplýsingar um íslenska orðtíðni. Þó er stór galli að í þeim er mjög lítið af talmáli.