Karllægni orðabóka og gervigreindartexta

Í Vísi í dag er áhugaverð frétt af umræðum um karllægni íslenskunnar á opunarviðburði Ungra athafnakvenna um daginn. Þar er haft eftir Maríu Guðjónsdóttur formanni félagsins: „Þegar orðið athafnamaður er skoðað í orðaneti Árnastofnunar koma upp fullt af orðum til að lýsa því hvað athafnamaður er.“ Sem dæmi um þessi orð eru nefnd forstjóri, fjárfestir, ráðherra, kvótakóngur, brautryðjandi, viðskiptamaður, bankastjóri, þingmaður, útgerðarmaður og mjög mörg önnur orð. Og María bætir við: „En þegar orðið athafnakona er skoðað í orðanetinu, koma upp fimm orð: Framtakssemi, umbrotamaður, athafnamaður, umsvifamaður og umsýslumaður“ sem eru „auðvitað ekki lýsandi fyrir orðið athafnakona í nútímasamfélagi að sögn Maríu.“

Hér er komið að eilífum vanda höfunda og ritstjóra orðabóka. Orðabækur eru yfirleitt lýsandi – þær endurspegla málið eins og það er notað í þeim heimildum sem liggja til grundvallar. Þær heimildir eru yfirleitt að megninu til prentaðir textar, og fram undir þetta hafa karlmenn skrifað meginhluta þess sem hefur birst á prenti – á Íslandi og víðast hvar. Þessir textar eru ekki bara skrifaðir af körlum, frá sjónarhorni karla – þeir fjalla líka að verulegu leyti um karla. Vissulega hefur þetta breyst töluvert á síðustu árum, og vissulega nýta orðabækur einnig heimildir úr töluðu máli. En það breytir því ekki að nánast óhjákvæmilegt er að lýsandi orðabækur hafi karlaslagsíðu – ekki vegna þess að það sé ritstjórnarstefna, heldur vegna efniviðarins.

Lýsandi orðabækur eru þannig yfirleitt íhaldssamar í eðli sínu – stuðla að því að viðhalda ríkjandi viðhorfi og gildum. En í sumum tilvikum eru orðabækur ekki eingöngu lýsandi, byggjast ekki eingöngu á málnotkun í þeim textum sem liggja að baki, heldur er þar að einhverju leyti beitt meðvitaðri stýringu, byggðri á einhverri hugmyndafræði. Íslenskar orðabækur eru yfirleitt mestanpart lýsandi en þó má þar finna dæmi um málstýringu. Í fyrstu tveim útgáfum Íslenskrar orðabókar, frá 1963 og 1982, eru t.d. ýmis orð sem þykja „vafasöm“ af einhverjum ástæðum merkt með spurningarmerki sem táknar „vont mál, orð eða merking sem forðast ber í íslensku“. Þetta hefur hins vegar verið mildað í nýjustu útgáfunni, frá 2002.

Auðvitað felst líka (dulin og jafnvel ómeðvituð) málstýring í vali þeirra orða sem rata inn í orðabækur. Á seinustu árum hafa að vísu orðið til margvísleg gögn, t.d.  tíðniupplýsingar, sem hægt er að byggja orðaval á að einhverju leyti. En samt er óhjákvæmilegt að huglægt mat ritstjóra ráði þar einhverju, og það huglæga mat byggist m.a. á meðvituðum og ómeðvituðum hugmyndum og viðhorfum. Á t.d. að skýra orð sem finnast í (eldri) textum en þykja nú óviðurkvæmileg – orð eins og kynvillingur, negri, fáviti og önnur slík? Eða á að sleppa þeim? Á að taka með ný orð sem ekki hafa unnið sér mikla hefð en skipta máli fyrir ákveðna hópa – orð eins og kvár, stálp, leghafi og önnur slík? Um þetta má deila – og er deilt.

Í áðurnefndu viðtali segir formaður Ungra athafnakvenna: „Við viljum skora á Árnastofnun að ráðast í breytingar en það er ekkert meint öðruvísi en góðfúslega. Því að öll þróun og umbætur byggir svolítið á því að við séum öll að hjálpast að og það er okkar viðhorf hjá UAK; að benda Árnastofnun á að bæta úr í orðanetinu eins og til dæmis varðandi lýsingu á því hvað orðið athafnakona stendur fyrir.“ Þarna er sem sé verið að biðja um stýringu – biðja um að lýsingu orðsins athafnakona (eða í þessu tilviki tengdum orðum) í Íslensku orðaneti verði breytt handvirkt, þrátt fyrir að þær breytingar eigi sér ekki stoð í þeim textum sem orðanetið byggir á. Þetta er í sjálfu sér mjög skiljanleg ósk, en ekki ljóst hvort og hvernig eigi að verða við henni.

En þessi vandi er ekki bundinn við orðabækur. Í fyrra var t.d. töluvert fjallað um kynjahalla í þýðingum Google Translate á íslensku og þar var ástæðan hin sama – þýðingarvélin byggir á textum og þýðingum sem hún hefur aðgang að og sá kynjahalli sem þar er endurspeglast í þýðingunum. Sami vandi kemur upp, eiginlega í öðru veldi, nú á tímum gervigreindar. Gervigreindin vinnur úr þeim textum sem aðgengilegir eru, og þeir eru sama marki brenndir og textarnir sem orðabækur byggjast á – þeir eru að meirihluta skrifaðir af körlum, um karla. Ef ekkert er að gert ganga því viðhorf og viðmið karlanna aftur í þeim textum sem gervigreindin semur. Þetta er þekkt og mikið rætt vandamál sem verður að leysa – en það er ekki auðvelt.