Posted on Færðu inn athugasemd

Máltækni í þágu samfélagsins

Þótt nokkur verkefni á sviði máltækni hafi verið unnin hér á landi undir lok 20. aldar má segja að skipuleg uppbygging íslenskrar máltækni hafi hafist fyrir rúmum 20 árum með út­tekt á ástandi og horfum í íslenskri tungu­tækni eins og sviðið var kallað þá. Tungu­tækni – skýrsla starfshóps kom út snemma árs 1999 en þar var áætlað að það kostaði u.þ.b. einn milljarð króna að gera íslenska mál­tækni sjálf­bæra. Að teknu tilliti til verðlagsbreytinga er þetta reyndar svipuð upphæð og nú er gert ráð fyrir að verja til verkefnisins.

Í kjölfar skýrslunnar kom ríkið á fót sérstakri tungutækniáætlun sem fékk sam­tals 133 milljónir króna á fjárlögum ár­anna 2000-2004. Fyrir það fé voru unn­in eða sett af stað ýmis verkefni sem sum lognuðust út af, önnur lögðu drög að seinni tíma starfi á þessu sviði, og enn önnur eru enn í fullu gildi. Því fór þó fjarri að íslensk máltækni væri orðin sjálf­bær þegar áætluninni lauk og næstu 10 ár var ekki sett neitt fé á fjárlögum í ís­lenska máltækni en með fáeinum styrkjum úr Rann­sóknasjóði, m.a. einum öndvegis­styrk, tókst að halda lífi í rannsóknar- og þróunarstarfi.

Þáttaskil urðu með þátttöku Íslands í evrópska META-NET verkefninu árin 2011-2013. Megin­markmið þess voru annars vegar að gera ítarlega úttekt á stöðu máltækni fyrir 30 evrópsk tungu­mál, og hins vegar að byggja upp og gera að­gengileg hvers kyns málleg gagnasöfn og hugbúnað fyrir þessi mál. Á Íslandi tókst að safna saman og byggja upp marg­vísleg gögn á þess­um tíma. Þau voru gerð aðgengileg í varðveislusafninu META-SHARE en einnig var settur upp vefurinn málföng.is þar sem hægt er að nálgast þessi gögn.

Auk þess var skrifuð ítarleg skýrsla, ein af 30 í sama sniði: Íslenska á stafrænni öld. Þegar niður­stöður skýrslnanna voru bornar saman kom í ljós að íslenska stæði næstverst málanna 30 hvað varðar mál­tækni. Þessar niðurstöður vöktu töluverða at­hygli hér á landi og voru m.a. rædd­ar á Alþingi. Það er óhætt að segja að skýrslan hafi verið einn helsti hvatinn að þings­álykt­un sem var samþykkt einróma 2014 um gerð áætlunar um uppbyggingu ís­lenskrar mál­tækni og leiddi að lokum til skýrslunnar Máltækni fyrir ís­lensku 2018-2022 – Verkáætlun.

Þátttakan í META-NET sýndi okkur mikilvægi alþjóðlegs samstarfs á þessu sviði og í mál­tækni­skýrslunni var lagt til að Ísland gerðist aðili að evrópska inn­viðaverk­efninu CLARIN ERIC. Það var sett á stofn til að staðla og gera aðgengi­leg gagna­söfn til nota í rann­sóknum á sviði félags- og hugvís­inda, en þessi gagna­söfn geta einnig nýst í mál­tækni og þess vegna er aðild að CLARIN mjög gagnleg. Ísland er þegar orðið áheyrnaraðili að sam­starf­inu og nú hefur íslenskum lögum verið breytt þannig að Ísland gæti sótt um fulla aðild.

Samstarfsnetið European Language Re­source Coordination hefur verið í gangi undanfarin fjögur ár. Það gengur einkum út á að afla mállegra gagna frá opinberum stofn­­un­um til nota í vél­rænum þýðing­um og nýta þau í opinberri þjónustu. Annað samstarfs­net er European Lan­guage Grid sem er nýtt og snýst aðallega um gögn sem nýt­ast fyrir­tækjum í iðnaði og við­skipta­­lífi. Ísland tekur þátt í báðum þessum netum sem skiptir gífurlegu máli til að geta fylgst með þróuninni, fengið aðgang að gögnum og þekkingu og komið okkar eigin gögnum á framfæri.

Máltækniáætlunin sem nú er verið að setja af stað mun kosta á þriðja milljarð króna. Þótt það sé ekki stór hluti af heild­ar­útgjöldum ríkissjóðs er þetta mikið fé, a.m.k. í samanburði við það sem við sem vinnum með íslenskt mál erum vön að sjá. Ég er samt sannfærður um að fáar fjár­fest­ingar borga sig betur og þjóðin á eftir að fá þetta margfalt til baka. Í huga margra tengist þetta verkefni fyrst og fremst verndun og varðveislu íslensk­unn­ar og hún verður vitanlega ekki metin til fjár. En máltækni er mikilvæg af fjöl­mörgum öðrum ástæðum og ég nefni örfá dæmi:

  • Fyrir jafnrétti og mannréttindi – máltækni getur skipt sköpum fyrir fjölmarga sem búa við ein­hvers kon­ar hömlun eða skerð­ingu, auðveldar þeim að ferðast um, bætir aðgengi þeirra að margs kyns þjón­ustu og lífsgæðum og getur gert þeim kleift að taka fullan þátt í daglegu lífi og starfi.
  • Fyrir tækniþróun og ný­sköp­un – máltækni er alþjóðleg og innan mál­tækniverkefnisins gefst íslensk­um fyrir­tækjum tækifæri til að vinna með vísindamönnum að þróun nýrrar tækni og af­urða sem geta nýst á alþjóðlegum mark­aði, auk þess sem aðferðirnar nýtast víðar en í máltækni.
  • Fyrir hagkvæmni og hagræð­ingu í rekstri – með hjálp talgreiningar, tal­gerv­ingar og gervi­greind­­ar geta fyrir­tæki sem reka þjón­ustu­ver t.d. látið tölvur sinna verulegum hluta aðstoðar­beiðna sem bæði lækkar kostnað og styttir biðtíma og eykur þannig ánægju viðskiptavina.
  • Fyrir skilvirkni í opinberri þjónustu – með notkun máltækni má hraða samskiptum milli opinberra aðila innbyrðis en fyrst og fremst stórbæta og auðvelda að­gengi almennings að þjónustu opin­berra stofnana og hraða afgreiðslu erinda og fyrirspurna.
  • Fyrir hraða og öryggi í heilbrigðisþjónustu – með notkun mál­tækni við greiningu og lýsingu rann­sókn­ar­­gagna og hvers kyns skráningu og miðlun upplýsinga má hraða upplýsinga­streymi og þannig flýta fyrir sjúk­dóms­grein­ingu og auka líkur á lækn­ingu.
  • Fyrir al­manna­varn­ir við náttúruvá – með sjálf­virk­um textaskrifum og vélrænum þýð­ing­um má t.d. koma upplýsingum um yfir­vof­andi eldgos eða flóð á fjölda tungumála til ferðamanna hvar sem þeir eru staddir og bæta samskipti milli viðbragðsaðila innbyrðis og við almenning.

Tölvutæknin er nú orðin fléttuð inn í flestar daglegar athafnir okkar. Tungu­málið er helsta sam­skiptatæki okkar á öllum sviðum mannlífsins og þess vegna þurfum við máltækni á öllum svið­um – íslenska máltækni. Uppbygging hennar og þróun er sannarlega í þágu samfélagsins.

Posted on Færðu inn athugasemd

Að og af

Forsetningarnar og af eru oft notaðar í sömu sam­bönd­um þótt önnur þyki venjulega „réttari“ en hin. Í Málfars­bank­an­um er löng upptalning á samböndum þar sem talið er rétt að nota , og önnur samsvarandi fyrir af. Þessi dæma­fjöldi sýnir glöggt að tilfinning málnotenda fyrir því hvora for­setn­inguna „eigi“ að nota er iðulega á reiki. Þótt ég sé í flest­um tilvikum vanur að nota þá forsetningu sem er talin „rétt“ átta ég mig ekki á því hvort ég er alltaf alinn upp við þá notkun eða hef tileinkað mér hana í skóla.

Framburðarmunur og af er sáralítill og oft enginn í eðli­legu tali. Önghljóðin ð og f (v) eru venjulega frekar veik í enda orða — sérstaklega áherslulítilla orða eins og for­setn­inga. Það er því mjög algengt að báðar for­setn­ing­arn­ar verði bara sérhljóðið a í framburði og þess vegna tök­um við örugglega sjaldnast eftir því þótt sagt sé þar sem við ættum von á af og öfugt. En í rituðu máli kemur mun­urinn vitanlega fram. Þegar framburðar­mun­ur­inn er svona lítill verður að reiða sig á merkingu til að velja milli for­setn­inganna — eða hreinlega læra í hvaða sam­böndum hvor á að vera.

Grunnmerking er ʻí áttina tilʼ en grunnmerking af er ʻfrá, burtʼ samkvæmt Íslenskri orðsifjabók. Þar sem þessi grunn­merk­ing er skýr verður þess ekki vart að forsetningunum sé blandað saman — það er aldrei sagt *ég gekk í átt af húsinu eða *ég tók bókina að honum svo að ég viti. En þegar ekki ligg­ur í aug­um uppi að önnur hvor þessi grunnmerking eigi við má búast við víxl­um, þannig að af sé notað þar sem hefð er fyrir , og öfugt. Þarna er mál­tilfinning fólks oft mismunandi. Sumum finnst t.d. augljóst að það sé leitað að einhverju vegna þess að við leitina sé verið að reyna að komast ʻí áttina tilʼ þess sem leitað er. En fjöldi dæma um leita af sýnir að því fer fjarri að allir málnotendur skynji þessa merkingu í í þessu sam­bandi.

Ef dæmum Málfarsbankans er flett upp á tímarit.is sést að víxlin má í mörgum tilvikum rekja aftur til 19. aldar. Í sumum til­vik­um er „ranga“ notkunin eldri og/eða algeng­ari en sú „rétta“. Þannig eru hátt í helmingi fleiri dæmi um ríkur af en hið „rétta“ ríkur að, og elsta dæmið um af er þremur ára­tugum eldra en elsta dæmið um . Heldur fleiri dæmi eru um auðugur af en hið „rétta“ auðugur að, og einnig heldur fleiri dæmi um snauður af en hið „rétta“ snauður að. Ýmis fleiri dæmi mætti nefna.

Eitt af því sem ýtir undir þessi víxl er það að stundum „á“ að nota mismunandi forsetningu með sama nafnorði eftir því hver sögnin er. Þannig er talið „rétt“ að segja hafa ánægju af, hafa gagn af, hafa gaman af o.fl., en hins vegar „á“ að segja það er ánægja að þessu, það er gagn að þessu, það er gaman að þessu o.s.frv. Svipað er með forsetningu með nafnorðinu tilefni — það „á“ að segja að gefnu tilefni, en hins vegar af þessu tilefni, kunnur að góðu en hins vegar kunnur af verkum sínum, frægur að endemum en frægur af hernaði sínum, o.fl. Það er svo sem ekkert undarlegt að mál­notendur blandi þessu saman, enda merkingarmunur ekki alltaf skýr. „Á alllöngum kenn­ara­ferli mínum tókst mér fremur illa að færa nemendum heim sanninn um það að orðasambandið að yfirlögðu ráði vís­aði (augljóslega) til tíma en í orða­sam­band­inu af ásettu ráði fælist háttarmerking en ég kann þó ekki betri skýringu“ segir Jón G. Friðjónsson.

Mér finnst mikilvægt að halda í merkingarmuninn milli og af, sem vísað er til hér að framan. En þar sem grunn­merk­ingin er óskýr eða alls ekki fyrir hendi finnst mér satt að segja ekki skipta miklu máli hvor forsetningin er notuð. Ef fólk hefur vanist notk­un annarrar forsetningarinnar þótt hin sé talin „rétt“ sé ég enga ástæðu til að breyta því. Ég er t.d. vanur að tala um að gera mikið af einhverju og töluvert fleiri dæmi eru um það á tímarit.is en gera mikið sem er talið „rétt“. En „þessi villa er rótgróin“ segir Gísli Jóns­son — ég held bara mínu striki.

Posted on Færðu inn athugasemd

Language Technology News – Iceland

Even though language technology work in Iceland started around the turn of the century, I think it is fair to say that Iceland’s participation in META-NET was a landmark in Icelandic language technology. The White Paper on Icelandic highlighted the alarming status of Icelandic language technology. Icelandic was one of only four languages receiving the lowest score in all four categories that were evaluated. At that time, the prospects of Icelandic LT were not good.

Following the publication of the White Paper, we started extensive lobbying and propaganda for Icelandic LT. In recent years, the prospective future of the Icelandic language has become the subject of much discussion in Iceland and even internationally. A number of influential newspapers have recently published articles on Icelandic in the digital age. These articles emphasize the threats that the digital revolution poses for Icelandic and other small languages.

We have made efforts to establish contacts with the big international IT companies in order to try to persuade them to include Icelandic in their products. Last year, the President of Iceland visited Microsoft headquarters in Seattle, accompanied by representatives from Language technology, both from academia and the private sector. On that occasion, Microsoft announced that Icelandic had been added to Microsoft Translator, which the President is testing here.

However, the campaign has of course mainly been fought within Iceland. The alarming results of the White Paper were discussed in the Icelandic Parliament in 2012 as you see on this picture. In 2014, the Parliament unanimously adopted a resolution on the necessity of making Icelandic usable in the digital domain. In 2016, three language technology experts were commissioned to develop a detailed five-year Project Plan for Icelandic language technology.

The Project Plan which was delivered in June 2017 proposes that emphasis be laid on five core tasks. Other proposals include the establishment of a competitive research and development fund, CLARIN ERIC membership, and strengthening of LT education. In the policy statement of the current Government, it is explicitly stated that the Project Plan will be implemented and financed. The estimated total cost of the project is around 20.2 million Euros.

In August 2018, the Ministry of Education, Science and Culture commissioned the self-owned foundation Almannarómur to conduct the five above-mentioned core tasks. A month ago, on September 4, a contract was signed between Almannarómur and the SÍM Consortium that will carry out the research and development work necessary for this project. The deliverables of the project will be stored and distributed by the CLARIN-IS Centre.

The LT Project Plan execution emphasizes getting industry involved as early as possible in the process. This is reflected in the SÍM consortium which consists of three academic institutions, the National Broadcasting Service, the Association of the Visually Impaired, and four private IT companies. Thus, the consortium comprises practically all institutions, companies, and people that have been working on language technology in Iceland for the past two decades.

Following the proposal in the Project Plan, Iceland has now joined CLARIN ERIC – only as an observer, but Icelandic law has now been changed so Iceland can apply for full membership. In 2007, the University of Iceland and Reykjavík University established a joint master’s program in Language Technology. This program has now been resurrected and strengthened and a number of students are enrolled. Furthermore, three LT PhD-students have started their studies.

The Research and Development Fund has already given out a few relatively small grants, and some project supported by the fund are well underway. It is expected that larger three-year grants will be advertised in the course of the next few months. The SÍM Consortium has been firmly established and work on all the core tasks has started already or will start in the near future. The consortium members are busy planning the project and recruiting and training staff.

The Icelandic Language Technology Project Plan is very ambitious and in order for it to go through, we will need all the advice and assistance we can get. International cooperation is of utmost importance, and we are confident that participation in the European Language Grid will be very valuable for our work in the next few years. So at the moment, the future of Icelandic Language Technology looks promising!

 

Posted on Færðu inn athugasemd

Málvillur

Ég hef stundum fjallað um íslenskan málstaðal og frávik frá honum. Þessi frávik, þau tilbrigði sem samræmast ekki staðlinum, eru kölluð málvillur, þrátt fyrir að talsverður hluti þeirra sem eiga íslensku að móðurmáli – í sumum tilvikum meirihluti – noti þau. En hugum aðeins að því hvað við erum að segja með þessu. Erum við að segja að fólk sem elst upp í íslensku málumhverfi og tileinkar sér íslensku á máltökuskeiði kunni ekki íslensku? Getur málbreyting sem hefur náð til umtalsverðs hluta málnotenda verið villa? Hvaða vit er í því? Athugið að málstaðallinn sem notaður er til að skilgreina villurnar er mannanna verk, og það er á margan hátt tilviljanakennt hvað rataði inn í hann. Margar breytingar sem orðið hafa frá fornmáli komust inn í staðalinn og eru viðurkenndar og ekki taldar villur.

Þetta táknar ekki að rétt sé að viðurkenna öll afbrigði frá staðlinum, eða vísa hugtakinu málvilla út í hafsauga. Mér finnst alltaf best að nota skilgreiningu nefndar um „málvöndun og framburðarkennslu í grunnskólum“ frá 1986: „rétt mál er það sem er í samræmi við málvenju, rangt er það sem brýtur í bága við málvenju“. Í samræmi við þetta er alveg eðlilegt að kalla tilviljanakennd og einstaklingsbundin frávik frá staðlinum málvillur, en ef frávikin eru farin að ná til hóps af fólki og börn farin að tileinka sér þau á máltökuskeiði er eðlilegt að tala um málbreytingu en ekki villu. Það er að mínu mati mjög brýnt að breyta málstaðlinum sem hefur gilt undanfarna öld, viðurkenna staðreyndir og taka inn í staðalinn ýmsar breytingar sem hafa verið í gangi og verða ekki stöðvaðar.

Það má nefnilega ekki vera þannig að einhverjum hópum eða einstaklingum í samfélaginu finnist ís­lensk­an ekki gera ráð fyrir sér, og það má ekki heldur vera þannig að einhverjum finnist gert lítið úr því máli og þeirri málnotkun sem þau eru alin upp við eða hafa vanist. Þótt sumir tali svolítið öðruvísi íslensku en þá sem ég ólst upp við í norðlenskri sveit fyrir 50-60 árum gefur það mér engan rétt til að fordæma íslensku annarra eða líta niður á hana. Íslenskan er nefnilega alls konar. App er líka íslenska. Mér langar er líka íslenska. Hán er líka íslenska. Og síðast en ekki síst: Íslenska með hreim og beygingarvillum er líka íslenska.

Posted on Færðu inn athugasemd

Er íslenska erfið?

Í fyrra hafði blaðið Grapevine, sem gefið er út á ensku í Reykjavík, samband við mig og bað mig að svara spurningunni „Why is Icelandic such a difficult language to learn?“ eða „Hvers vegna er íslenska svona erfið?“. Þetta er goðsögn sem margir þekkja, að íslenska sé með erfiðustu málum. Vissulega er ýmislegt í íslensku sem getur verið snúið, en það fer þó að talsverðu leyti eftir móðurmáli málnemans og þeim tungumálum sem hann hefur haft kynni af.

Íslenska er t.d. talin tiltölulega erfið fyrir fólk með ensku að móðurmáli enda hefur hún ríkulegar beygingar miðað við ensku, en slíkt ætti ekki að koma t.d. fólki af slavneskum uppruna á óvart. Það eru ákveðin sérkenni í íslensku hljóðkerfi og setningagerð sem geta vafist fyrir útlendingum, en þegar á heildina er litið er varla hægt að segja að íslenska sé erfiðari en gengur og gerist um tungumál.

En hitt er vissulega rétt að mörgum útlendingum finnst íslenska erfið og hika við að tala hana við Íslendinga. Ég held að ein ástæðan fyrir því sé sú að Íslendingar eru ekki – eða hafa ekki verið – sérlega umburðarlyndir gagnvart beygingarvillum, erlendum hreim, og öðrum merkjum um ófullkomna íslensku. Ísland var til skamms tíma eintyngt samfélag og við vorum því ekki vön því að heyra útlendinga reyna að tala málið og hætti til að gagnrýna tilraunir þeirra til þess harkalega.

En málfærni fæst ekki nema með æfingu, og til að ná valdi á tungumáli þurfum við að fá tækifæri til að nota það við mismunandi aðstæður. Útlendingar kvarta oft yfir því að það sé ómögulegt að læra íslensku af Íslendingum því að þeir skipta svo oft yfir í ensku um leið og þeir átta sig á því að viðmælandinn talar íslensku ekki reiprennandi. Þetta þarf að breytast – við þurfum að vera þolinmóðari og umburðarlyndari gagnvart ófullkominni íslensku. Íslenska er alls konar.

Posted on Ein athugasemd

Mikilvægi íslensku í umhverfi barna

Ég heyrði í gær sagt frá frístundaheimili í grónu hverfi hér í borginni þar sem meginhluti starfsfólks er ekki íslenskumælandi og talar við börnin á ensku. Þetta leiðir til þess að börnin tala að einhverju leyti ensku sín á milli. Ég tek fram að ég hef þessa sögu ekki frá fyrstu hendi og hef ekki sannreynt hana. Við skulum þess vegna ganga út frá því að þetta sé ekki svona en huga samt að því hvaða afleiðingar það gæti haft ef slíkar aðstæður kæmu upp.

Eins og Elín Þöll Þórðardóttir prófessor í talmeinafræði benti á í nýlegu viðtali er talið að „til að eiga mögu­leika á að til­einka sér ís­lensku þurfi tví­tyngd börn að verja 50% af vöku­tíma sín­um í ís­lensku mál­um­hverfi“. Ef einhver börn á umræddu frístundaheimili væru frá heimilum þar sem íslenska er ekki heimilismál kæmust þau því hvergi í kynni við íslensku nema í skólanum. En í viðtalinu var bent á að skóladagurinn á Íslandi nær því ekki að vera 50% vökustunda. Með þessu móti værum við því að ala upp börn sem ekki næðu móðurmálsfærni í íslensku, þrátt fyrir að hafa kannski búið hér alla ævi.

Og það er alls ekki víst að börnin næðu móðurmálsfærni í nokkru öðru máli heldur. Þau eru hluta dagsins í skólanum þar sem íslenska er notuð, en síðan á frístundaheimili þar sem aðallega er talað við þau á ensku, og tíminn sem þau hafa með foreldrum sínum þegar þau koma heim er einfaldlega ekki nógu langur til að byggja upp móðurmálsfærni í heimilismálinu, auk þess sem trúlegt er að þau eyði talsverðum hluta hans í enskum málheimi – sjónvarpi, tölvuleikjum o.s.frv. Rannsóknir sýna að móðurmálsfærni í einhverju tungumáli er forsenda fyrir því að læra önnur mál vel – en skiptir líka miklu máli fyrir margs konar kunnáttu og þroska s.s. tilfinningagreind, verkgreind o.fl.

Það skiptir þess vegna gífurlegu máli að sjá til þess að börn sem alast upp á Íslandi hafi sem mesta íslensku í umhverfi sínu. Mörg börn verja umtalsverðum hluta vökustunda sinna á frístundaheimilum og það er mjög alvarlegt mál ef samskipti þar fara ekki fram á íslensku að mestu leyti. Þess vegna verður að tryggja að starfsfólk á slíkum heimilum sé íslenskumælandi. Ég veit að það er auðvelt að túlka þetta sem útlendingaandúð eða -hræðslu en það er ekki það sem málið snýst um. Og eins og útskýrt er hér að framan snýst það ekki heldur um framtíð íslenskunnar þótt hún sé vissulega mikilvæg.

Þetta snýst nefnilega fyrst og fremst um velferð barna – að þau fái tækifæri til að öðlast móðurmálsfærni í tungumálinu sem er notað í samfélaginu í stað þess að vaxa upp án raunverulegs móðurmáls og vera dæmd til að detta út úr skólakerfinu og sitja föst í láglaunastörfum án þess að vera virkir þátttakendur í lýðræðislegu samfélagi. Slíkar aðstæður eru gróðrarstía fyrir stéttaskiptingu, lýðskrum, rasisma og hvers kyns fordóma.

Posted on Færðu inn athugasemd

Stafsetning og læsileiki texta

Það er enginn vafi á því að séríslenskir bókstafir hafa talsvert tákngildi í sjálfs­mynd Ís­lend­inga. En skipta þeir einhverju máli fyrir þróun tungumálsins? Stafir eru bara tákn – þeir eru ekki tungumálið sjálft. Það er samkomulagsatriði hvaða form við notum til að tákna hljóð málsins. Íslendingar – og íslenskan – komust vel af án ð í 400 ár. Á fyrstu árum netsins var ekki hægt að nota íslenska stafi þegar tölvupóstur var send­ur til útlanda. Þennan póst skrifaði ég t.d. snemma árs 1993:

Það var svo sem ekkert mál að venja sig á þetta. Flest lá tiltölulega beint við – maður skrifaði broddlausa stafi í stað broddstafa, d í stað ð, th eða bara t í stað þ, ae í stað æ og oe eða bara o í stað ö. Nú er oftast ekkert mál að nota íslensku í tölvupósti og yfir­leitt á netinu, en það er þó ekki alveg einhlítt. Íslensku stafirnir eru ekki heldur alltaf til taks í símum. En yfirleitt vefst ekkert fyrir manni að skrifa eða skilja texta án þeirra þótt vissulega geti komið upp vafamál í túlkun einstöku sinn­um. En þýðir þetta að íslensku stafirnir séu óþarfir, og við gætum losað okkur við þá án þess að það ylli nokkrum vandkvæðum? Það myndi vissulega leysa ýmis vandamál og koma í veg fyrir alls konar umstang og kostnað. En hefði það einhver áhrif á þróun málsins?

Það má halda því fram að stafsetning sé límið í íslenskri málsögu. Stafsetningin er íhaldssöm og eltir ekki ýmsar hljóðbreytingar sem verða í töluðu máli. Gott dæmi um þetta er broddur yfir sérhljóðstáknum sem táknaði langt hljóð í fornu máli eins og gert var ráð fyrir í tillögum Fyrsta málfræðingsins. Síðan hefur sérhljóðakerfi málsins breyst í grundvallaratriðum og brodduð og broddlaus sérhljóðstákn standa nú ekki lengur fyrir löng og stutt afbrigði sömu hljóða, heldur tvö ólík hljóð – brodd­uðu táknin oft fyrir tvíhljóð. Þetta truflar okkur ekkert og fæstir vita nokkuð af því; en það leiðir til þess að við getum lesið mörg hundruð ára gamla texta þótt sumir þættir tungumálsins hafi í raun gerbreyst.

Það er alþekkt að stafsetning getur haft veruleg áhrif á það hversu aðgengilegir textar eru fyrir almenning. Árið 1943 skrifaði Kristinn E. Andrésson grein í Tímarit Máls og menningar um lög þau sem Alþingi setti 1941 og bönnuðu að íslensk fornrit væru gefin út með annarri staf­setningu en „samræmdri stafsetningu fornri“. Kristinn sagði: „Engri erlendri þjóð dettur í hug að fylgja gamalli stafsetningu í nýjum útgáfum af klassiskum ritum fyrir almenning. Enskum útgefendum t.d. dettur ekki í hug að vera að fæla þjóð sína frá lestri á leikritum Shakespeares með því að prenta þau með úreltri stafsetningu.“

Í viðtali í Sunnudagsblaði Tímans 1966 var Árni Böðvarsson cand.mag. spurður hvort hann teldi að samræmd stafsetning forn fældi fólk frá lestri fornrita. Hann svaraði: „Það er ekkert efamál, að svo er. Ég tel, að öll slík rit, sem ætluð eru almenn­ingi, ættu að vera í búningi nútímamáls, að því er tekur til stafsetningar og orðmynda.“

En það þarf ekki að leita til fornsagna. Fyrir nokkrum árum sköpuðust talsverðar umræður um minnk­andi lestur á verkum Halldórs Laxness á Facebook-síðu Illuga Jökulssonar og bloggi Egils Helgasonar. Í þeim umræðum sagði útgefandi bókanna, Jóhann Páll Valdimarsson: „Lestur á verkum hans í skólum hefur skroppið mikið saman og við höfum gert könnun meðal kennara. Eitt af því sem ástæða er til að velta fyrir sér er hvort gefa eigi verk hans út með nútímastafsetningu fyrir skólana. Sú hugmynd fékk að vísu ekki mikinn stuðning meðal kennara og ég efast ekki um að mörgum þyki það helgispjöll en mín skoðun er sú að Laxness muni ekki lifa með nýjum kynslóðum nema stafsetning sé færð til nútímahorfs. Það hrökkva svo margir frá bókum hans vegna hennar.“

Nú hafa tvær af helstu skáldsögum Halldórs verið gefnar út með venjulegri stafsetningu til að auðvelda ungu fólki lesturinn. Þó er stafsetning Halldórs ekki svo verulega frábrugðin fyrirskipaðri skóla­stafsetn­ingu. Hann skrifar svokallaða „breiða sérhljóða“ á undan ng og nk í orðum eins og lángur, leingi, laung; hann skrifar ekki tvöfaldan samhljóða á undan sam­hljóða, í orðum eins og skemtun, trygð, alt; og hann skrifar í einu orði ýmis sambönd sem eiga að vera í tvennu lagi samkvæmt stafsetningarreglum, s.s. einsog, uppá. Fáein atriði til viðbótar má tína til, en munurinn er sannast sagna ekki ýkja mikill. Ef hann nægir þrátt fyrir það til að fæla marga lesendur frá er auðvelt að ímynda sér að brottfall íslenskra stafa, þar með talinna broddstafa, hefði gífurleg áhrif.

Í umfjöllun Morgunblaðsins um „Tyrkjarán hið nýja“ 1992 var m.a. rætt við Baldur Jónsson prófessor sem þá var forstöðumaður Íslenskrar málstöðvar. Þar segist Baldur óttast „að einhverjir landar okkar leggi til að stafirnir verði felldir úr íslensku máli þar sem það taki því ekki að leggja í kostnaðarsamar breytingar. „Slíkt myndi hreinlega um­turna ásýnd íslensks ritmáls og smám saman gera okkur erfitt fyrir um lestur rita sem nú þegar hafa verið gefin út. Næsta skref gæti svo allt eins orðið tillaga um að leggja málið niður.“.“

Eins og áður segir er í sjálfu sér ekkert vandamál að láta bókstafi enska stafrófsins duga til að skrifa íslensku. Út af fyrir sig myndi það ekki breyta tungumálinu sjálfu – aðeins táknun þess og yfirbragði. En þetta myndi það leiða til þess að allir íslenskir textar fram að þeim tíma, allt frá fornmáli til 21. aldar, yrðu meira og minna óað­gengi­legir fyrir þá sem ælust upp við hina nýju stafsetningu. Þetta hefði ófyrirsjáanleg áhrif á íslenska menningu og ryfi samhengið í íslenskri málsögu, en stafsetning er límið í henni eins og áður segir. Það má búast við því að róttækar breytingar yrðu á tungumálinu í kjölfar slíks rofs. Erum við tilbúin að taka þá áhættu?

Posted on Færðu inn athugasemd

Um upphaf Beygingarlýsingar íslensks nútímamáls

Það er sérlega ánægjulegt að fá að segja nokkur orð um forsögu og upphaf Beygingarlýsingar íslensks nútímamáls sem hér er verið að opna í nýrri og endurbættri gerð. Ég stend nefnilega í þeirri meiningu að ég beri einhvern hluta ábyrgðarinnar á upphafi þessa verks. Kristín Bjarna­dóttir var nemandi minn í fyrsta námskeiðinu sem ég kenndi í íslensku, veturinn 1982-1983. Á vormisseri var viðfangsefnið einkum beygingar- og orðmyndunarfræði – ég var þá að skrifa kennslubókina Íslenska orðhlutafræði sem ég tíndi í nemendur jafnóðum. Ég er ekki frá því að áhuga Kristínar á orðum, gerð þeirra og hegðun, megi að einhverju leyti rekja til þessa nám­skeiðs. Beygingarlýsingin er náttúrulega barn Krist­ínar og sé þessi skilningur minn réttur má ég því kannski með vissum hætti kallast afi Beyg­ingar­lýsingar­innar.

Þetta var vorið 1983 og nú verð ég að hlaupa yfir 18 ár þótt ýmislegt hafi gerst á þeim árum sem segja mætti frá ef tími væri til. En í lok ágúst 2001 kom tilkynning á póstlista sem ég var á um að sænski máltækni­háskólinn, Swedish Graduate School of Language Technology, sem tók til starfa þetta haust, byði tvö námskeið sem unnt væri að taka í fjarnámi með staðlotum. Nemendur utan Svíþjóðar gátu sótt um að sækja þessi námskeið, og það sem skipti öllu máli – það var hugsanlegt að fá styrk til ferða og uppihalds úr norrænu máltækniáætluninni sem þá var í gangi. Við Kristín höfð­um oft rætt sameiginlegan áhuga okkar á máltækni – sem var nefnd tungutækni í þá daga – og ég hafði því samband við hana til að segja henni frá þessu.

Um sama leyti fékk ég póst frá Sigrúnu Helgadóttur, sem þá var nýhætt störfum á Hagstofu Íslands, og vildi spyrjast fyrir um máltæknikennslu sem til stóð að hæfist við Háskóla Íslands. Ég sagði henni frá sænska skólanum og þrem vikum síðar vorum við fjórir Íslendingar – Kristín, Sigrún, Auður Þórunn Rögnvaldsdóttir og ég – komin til Gautaborgar á staðlotu í námskeiði sem hét „Natural Language Processing“. Við sátum svo sveitt við verkefnavinnu allt haustið en námskeiðinu lauk með ráðstefnu í Växjö í janúar 2002. Þetta námskeið varð afdrifa­ríkt og markaði í raun upphaf reglulegs akademísks máltæknistarfs á Íslandi því að við héldum öll áfram að vinna á þessu sviði sem við hefðum varla gert án námskeiðsins, a.m.k. ekki Sigrún sem var einn helsti burðarás íslensks máltæknistarfs næstu 15 ár. Auk þess komumst við þar í kynni við ýmislegt fólk sem hjálpaði okkur af stað og við höfum síðan verið í meira og minna sambandi við.

Þetta sama haust, 2001, var svo auglýst í fyrsta skipti eftir umsóknum um styrki úr tungutækni­verkefni menntamálaráðuneytisins. Við fjögur, sem kölluðum okkur Málgreiningarhópinn eftir heimkomuna frá Gautaborg og verkefnavinnu í námskeiðinu, vorum svo uppveðruð og áhuga­söm að við áttum frumkvæði að þremur umsóknum sem sendar voru inn um miðjan desember. Við fengum Orðabók Háskólans í lið með okkur sem lá beint við – gögnin sem við ætluðum að byggja á voru þar, Kristín vann þar, og ég var stjórnarformaður Orðabókarinnar um þær mundir. Vorið 2002 ákvað svo menntamálaráðherra að styrkja tvær þessara umsókna.

Önnur þeirra umsókna sem fengu styrk var um gerð þjálfunarlíkans fyrir íslenskan markara og byggðist á því að í iðrum tölvukerfis Orðabókarinnar leyndust grunnskrár sem gerðar höfðu verið fyrir Íslenska orðtíðnibók áratug áður. Það var hrein heppni að þessar skrár höfðu varð­veist því að enginn sá gagnsemi þeirra fyrir, en þær urðu í raun undirstaða allrar vélrænnar mál­fræðigreiningar á íslensku næstu 15 árin – og að nokkru leyti enn. Þessi umsókn var send í nafni Orðabókar Háskólans og Málgreiningarhópsins. Umsóknin sem ekki fékk brautargengi í þetta skipti var um gerð íslenskrar málheildar – það verkefni fékk ekki styrk fyrr en þremur árum síðar og varð á endanum að Markaðri íslenskri málheild. Þess má geta að orðin mark, mark­ari, mörkun og málheild urðu öll til við samningu þessara umsókna um miðjan desember 2001.

Hin umsóknin sem fékk styrk var send í nafni Orðabókar Háskólans og Eddu útgáfa, en rík áhersla var lögð á að fyrirtæki tækju þátt í verkefnunum til að tryggja að þau nýttust við gerð mál­tækni­búnaðar. Sú umsókn var hugarsmíð Kristínar sem hafði lengi haft áhuga á að vinna slíkt verk en þarna komu loks forsendur til þess. Kristín var vitanlega búin að vinna að beyg­ingar­legri greiningu og lýsingu árum saman, einkum í tengslum við hið svokallaða norræna verkefni hjá Orðabókinni sem var undanfari ISLEX og svo við endurskoðun Íslenskrar orða­bókar á vegum Máls og menningar. Hún samdi því þessa umsókn að mestu, í ein­hverju samráði við Mörð Árnason sem þá var ritstjóri Íslenskrar orðabókar. Kristín hafði þá þegar lagt drög að beygingarlýsingunni, komið upp miklu hráefni í hana og hafði nokkuð mótaðar hugmyndir um hvað hún vildi gera. Í umsókninni frá því í desember 2001 koma megin­einkenni verksins fram en þar segir í byrjun:

Sótt er um styrk til gerðar beygingarlýsingar íslensks nútímamáls. Markmið er að koma upp beygingarlýsingu á tölvutæku formi sem birt verður í tölvuútgáfu Íslenskrar orðabókar […] frá Eddu hf. og á vefsíðu Orðabókar Háskólans […]. Aðgangur að beygingarupplýsingunum í formi beygingardæma yrði öllum frjáls án endurgjalds á heimasíðu Orðabókarinnar. Jafnframt yrði til tölvutæk beygingarlýsing sem yrði föl til nota í verkefni af ýmsu tagi.

Þarna var sem sé þegar í upphafi lögð áhersla á hið tvíþætta gildi Beygingarlýsingarinnar – annars vegar sem uppflettigagn fyrir almenning og hins vegar sem gagnasafn til nota í mál­tækni­verkefnum.

Þetta var haustið 2001 og nú eru aftur liðin 18 ár. Á þeim tíma hefur margt gerst sem ég ætla ekki að rekja en læt nægja að nefna að Kristín hefur verið óþreytandi í að byggja Beygingar­lýsinguna upp, auka og bæta. Það hefur skilað sér í því að Beygingarlýsingin hefur fullkomlega staðið undir þeim vonum sem við gerðum okkur í upphafi og þeim fyrirheitum sem gefin voru, enda er hún annars vegar eitt mikilvægasta og mest notaða stuðningsgagn íslenskra málnot­enda, og hins vegar ein meginundirstaða þróunar í íslenskri máltækni. Sú staða mun enn styrkj­ast með þessari nýju gerð.

Posted on Færðu inn athugasemd

Íslenskir stafir og sjálfsmynd Íslendinga

Það má færa rök að því að séríslenskir stafir hafi orðið að einhvers konar tákni fyrir sjálfs­mynd Íslendinga. Um það má nefna fáein greini­leg dæmi frá seinni árum, en dæmin eru örugg­lega mun fleiri.

Þegar Mímir, félag stúdenta í íslenskum fræðum við Háskóla Íslands, hóf útgáfu sam­nefnds tíma­rits 1962, voru stafirnir þ og ð látnir mynda forsíðumynd ritsins. Þessi forsíða var notuð í 10 ár, og þegar skipt var um forsíðumynd var sú nýja einnig byggð á þ og ð og notuð í 14 ár, til 1986. Í fyrsta blaðinu stendur á bls. 2: „Kápu og vinnu­teikningar gerði Hallgrímur Tryggva­son“ sem var prentari í Prentsmiðju Jóns Helga­sonar þar sem blaðið var prentað og virðist oft hafa séð um umbrot og hönnun. Þegar skipt er um forsíðumynd 1972 stendur að forsíðuteikninguna hafi gert „Baldvin Björns­son, teiknari, af smekkvísi“. Í hvorugt skiptið er forsíðan skýrð nokkuð nánar. Hvaðan skyldi hugmyndin að forsíðunni hafa komið? Var þetta hugmynd frá ritstjórn blaðsins, eða hugmynd Hallgríms prentara? Hvort sem heldur var er augljóst að þessir bókstafir þóttu eiga vel við á forsíðu blaðs íslenskunema.

Kringum 1990 stóð mikið stríð um að halda íslenskum stöfum í alþjóðlegum stafa­töflum. Þar skipti mestu máli staðall sem nefnist ISO 8859-1 Latin 1, sem átti að hafa að geyma alla stafi sem notaðir eru í vesturevrópskum tungumálum. Íslenskir stafir höfðu komist inn í þessa töflu 1987 en 1992 var verið að víkka hana út og þá lögðu fulltrúar Tyrkja hjá Alþjóða staðlaráðinu (International Standard Organization, ISO) fram tillögu um að stafirnir þð og ý yrðu felldir brott úr töflunni en tyrkneskir stafir settir í staðinn. Um þetta varð mikil umræða á Íslandi og m.a. beitti Jón Baldvin Hanni­balsson utanríkisráðherra sér fyrir því á vettvangi Evrópska efnahagssvæðisins að íslenskum stöfum yrði haldið inni. Talað var um tillögu Tyrkja sem „Tyrkjarán hið síðara“ og sagt að hún væri „alvarleg atlaga að íslensku máli og menningu“. Á teikningu sem birtist með frétt um málið í Morgunblaðinu má sjá víking halda á þ.

Árið 2000 setti þáverandi menntamálaráðherra, Björn Bjarnason, af stað svonefnt tungu­tækni­átak, sem ætlað var til að gera íslensku gjaldgenga í tölvuheiminum. Átak­inu var stýrt af sérstakri verkefnisstjórn og komið var upp vefsíðu og sérstöku merki fyrir það. Á þessum tíma var mikið rætt um vanda við notkun séríslenskra stafa í tölv­um og farsímum og kannski hefur það haft áhrif á það hvernig merkið varð – bókstaf­ur­inn ð. A.m.k. er ljóst að merkið á að höfða til þessarar sérstöðu íslenskunnar og mikil­vægis þess fyrir sjálfsmynd þjóðarinnar að hún sé virt.

Það er ekkert auðvelt að myndgera tungumál. Teiknarar eða hönnuðir sem fá það verkefni að hanna kápu á bók um íslensku, eða merki stofnunar eða verkefnis á sviði íslensku, eru ekki öfundsverðir. En þessi dæmi sýna að séríslensku bókstafirnir þ og ð nýtast stundum í þessum tilgangi. Og eins og kunnugt er hefur nýlega verið skrifuð heil bók um ð; ð ævisaga.

Posted on Færðu inn athugasemd

Gildi tungumálsins

­Í hverju tungumáli felast menningarverðmæti. Sérhvert tungumál er einstakt á einhvern hátt – orðaforði þess, setningagerð og hljóðkerfi eru frábrugðin öllum öðrum tungumálum, merk­ingar­blæbrigðin sem það getur tjáð geyma reynslu kynslóðanna og eru önnur en í öðrum málum. Tungumál sem deyr er að eilífu glatað – þótt við höfum um það miklar ritheimildir og upptökur, sem sjaldnast er, verður það aldrei endurvakið í sömu mynd því að tungumál lærist ekki til hlítar nema berast frá manni til manns – frá foreldrum til barna.

Sérhvert tungumál er líka merkilegt og einstakt frá fræðilegu sjónarmiði vegna þess að það getur hjálpað okkur að komast að einhverju um eðli mannlegs máls. Íslenska er t.d. viðfangsefni fræðimanna víða um heim og dæmi úr íslensku eru notuð í kennslu í miklum fjölda erlendra háskóla. Ástæðan er ekki síst sú að íslenskan er náskyld ensku og lík henni á margan hátt, þannig að auðvelt er að bera málin saman og láta sérkenni íslenskunnar í beygingum og setn­inga­­gerð varpa ljósi á eðli mismunar málanna og ýmissa fyrirbæra í þeim.

Á Íslandi er tungumálið er líka beintenging okkar við sögu og menningu þjóðarinnar fyrr á tímum. Íslendingar njóta þeirra forréttinda umfram flestar aðrar þjóðir að geta tiltölulega auð­veld­lega lesið texta allar götur frá upphafi ritaldar fyrir 900 árum, án þess að þeir séu þýddir á nútímamál. Ef íslenskan tekur róttækum breytingum, eða hættir að vera lifandi tungumál, missum við ekki bara bein tengsl við Hávamál og Njálu, heldur líka við Íslenskan aðal og Íslandsklukkuna, Engla alheimsins og Kalda­ljós, og meira að segja Ungfrú Ísland og Sextíu kíló af sólskini.

Vitanlega er tungumálið ekki síður félagslegt fyrirbæri – langsamlega mikil­vægasta sam­skipta­tæki okkar við annað fólk. Þess vegna má það ekki staðna, heldur þarf að vera lifandi og laga sig að þörfum samfélagsins á hverjum tíma. Hún verður að þola tilbrigði í fram­burði, beyg­ingum og setningagerð, og að ný orð komi inn í málið og gömul orð fái nýja merkingu. Hún má ekki verða einkaeign ákveðinna hópa, og það má ekki nota hana og tilbrigði í beitingu hennar til að mismuna fólki eða skipa því í andstæðar fylkingar. Við þurfum að styðja þau sem vilja lifa og starfa í íslensku samfélagi til að ná góðu valdi á þessu mikilvæga samskiptatæki en megum ekki láta takmarkaða íslenskukunnáttu fólks bitna á því á nokkurn hátt.

En síðast en ekki síst er tungumálið útrás fyrir tilfinningar okkar – ást og gleði, hatur og reiði, sorg og hryggð, vonir og þrár – en líka tæki okkar til sköpunar, miðlunar og frjórrar hugsunar. Tungumál sem við tileinkum okkur á máltökuskeiði, móður­mál okkar, er hluti af okkur sjálfum, einkaeign okkar jafnframt því að vera sam­eign alls málsamfélagsins og í vissum skilningi alls mannkyns. Þetta hljómar eins og þversögn – og er þversögn. Það er ekki einfalt að umgangast málið þannig að öll hlutverk þess séu höfð í heiðri.

Það er samt það sem við þurfum að reyna að gera – með umburðar­lyndi, virðingu og tillitssemi að leiðarljósi. En því miður skortir oft á það í umræðum um tungumálið. Fjöldi fólks stundar það að hnýta í málfar annarra sem tala ekki eins og þessum sjálfskipuðu verndurum tungunnar þykir rétt – fólks sem fylgir ekki hinum óopinbera íslenska málstaðli.  Íslenskan – daglegt mál – hefur breyst talsvert undanfarna öld. Ýmsar málbreytingar hafa komið upp og breiðst út, og jafnvel náð til verulegs hluta landsmanna, án þess að verða hluti af staðlinum.

Það sem ekki á að segja, þau afbrigði sem samræmast ekki staðlinum, eru kölluð málvillur, þrátt fyrir að talsverður hluti þeirra sem eiga íslensku að móðurmáli – í sumum tilvikum meirihluti – noti þau. En hugum aðeins að því hvað við erum að segja með þessu. Erum við að segja að fólk sem elst upp í íslensku málumhverfi og tileinkar sér íslensku á máltökuskeiði kunni ekki íslensku? Getur málbreyting sem hefur náð til umtalsverðs hluta málnotenda verið villa? Hvaða vit er í því?