Posted on Færðu inn athugasemd

Að og af

Forsetningarnar og af eru oft notaðar í sömu sam­bönd­um þótt önnur þyki venjulega „réttari“ en hin. Í Málfars­bank­an­um er löng upptalning á samböndum þar sem talið er rétt að nota , og önnur samsvarandi fyrir af. Þessi dæma­fjöldi sýnir glöggt að tilfinning málnotenda fyrir því hvora for­setn­inguna „eigi“ að nota er iðulega á reiki. Þótt ég sé í flest­um tilvikum vanur að nota þá forsetningu sem er talin „rétt“ átta ég mig ekki á því hvort ég er alltaf alinn upp við þá notkun eða hef tileinkað mér hana í skóla.

Framburðarmunur og af er sáralítill og oft enginn í eðli­legu tali. Önghljóðin ð og f (v) eru venjulega frekar veik í enda orða — sérstaklega áherslulítilla orða eins og for­setn­inga. Það er því mjög algengt að báðar for­setn­ing­arn­ar verði bara sérhljóðið a í framburði og þess vegna tök­um við örugglega sjaldnast eftir því þótt sagt sé þar sem við ættum von á af og öfugt. En í rituðu máli kemur mun­urinn vitanlega fram. Þegar framburðar­mun­ur­inn er svona lítill verður að reiða sig á merkingu til að velja milli for­setn­inganna — eða hreinlega læra í hvaða sam­böndum hvor á að vera.

Grunnmerking er ʻí áttina tilʼ en grunnmerking af er ʻfrá, burtʼ samkvæmt Íslenskri orðsifjabók. Þar sem þessi grunn­merk­ing er skýr verður þess ekki vart að forsetningunum sé blandað saman — það er aldrei sagt *ég gekk í átt af húsinu eða *ég tók bókina að honum svo að ég viti. En þegar ekki ligg­ur í aug­um uppi að önnur hvor þessi grunnmerking eigi við má búast við víxl­um, þannig að af sé notað þar sem hefð er fyrir , og öfugt. Þarna er mál­tilfinning fólks oft mismunandi. Sumum finnst t.d. augljóst að það sé leitað að einhverju vegna þess að við leitina sé verið að reyna að komast ʻí áttina tilʼ þess sem leitað er. En fjöldi dæma um leita af sýnir að því fer fjarri að allir málnotendur skynji þessa merkingu í í þessu sam­bandi.

Ef dæmum Málfarsbankans er flett upp á tímarit.is sést að víxlin má í mörgum tilvikum rekja aftur til 19. aldar. Í sumum til­vik­um er „ranga“ notkunin eldri og/eða algeng­ari en sú „rétta“. Þannig eru hátt í helmingi fleiri dæmi um ríkur af en hið „rétta“ ríkur að, og elsta dæmið um af er þremur ára­tugum eldra en elsta dæmið um . Heldur fleiri dæmi eru um auðugur af en hið „rétta“ auðugur að, og einnig heldur fleiri dæmi um snauður af en hið „rétta“ snauður að. Ýmis fleiri dæmi mætti nefna.

Eitt af því sem ýtir undir þessi víxl er það að stundum „á“ að nota mismunandi forsetningu með sama nafnorði eftir því hver sögnin er. Þannig er talið „rétt“ að segja hafa ánægju af, hafa gagn af, hafa gaman af o.fl., en hins vegar „á“ að segja það er ánægja að þessu, það er gagn að þessu, það er gaman að þessu o.s.frv. Svipað er með forsetningu með nafnorðinu tilefni — það „á“ að segja að gefnu tilefni, en hins vegar af þessu tilefni, kunnur að góðu en hins vegar kunnur af verkum sínum, frægur að endemum en frægur af hernaði sínum, o.fl. Það er svo sem ekkert undarlegt að mál­notendur blandi þessu saman, enda merkingarmunur ekki alltaf skýr. „Á alllöngum kenn­ara­ferli mínum tókst mér fremur illa að færa nemendum heim sanninn um það að orðasambandið að yfirlögðu ráði vís­aði (augljóslega) til tíma en í orða­sam­band­inu af ásettu ráði fælist háttarmerking en ég kann þó ekki betri skýringu“ segir Jón G. Friðjónsson.

Mér finnst mikilvægt að halda í merkingarmuninn milli og af, sem vísað er til hér að framan. En þar sem grunn­merk­ingin er óskýr eða alls ekki fyrir hendi finnst mér satt að segja ekki skipta miklu máli hvor forsetningin er notuð. Ef fólk hefur vanist notk­un annarrar forsetningarinnar þótt hin sé talin „rétt“ sé ég enga ástæðu til að breyta því. Ég er t.d. vanur að tala um að gera mikið af einhverju og töluvert fleiri dæmi eru um það á tímarit.is en gera mikið sem er talið „rétt“. En „þessi villa er rótgróin“ segir Gísli Jóns­son — ég held bara mínu striki.

Posted on Færðu inn athugasemd

Language Technology News – Iceland

Even though language technology work in Iceland started around the turn of the century, I think it is fair to say that Iceland’s participation in META-NET was a landmark in Icelandic language technology. The White Paper on Icelandic highlighted the alarming status of Icelandic language technology. Icelandic was one of only four languages receiving the lowest score in all four categories that were evaluated. At that time, the prospects of Icelandic LT were not good.

Following the publication of the White Paper, we started extensive lobbying and propaganda for Icelandic LT. In recent years, the prospective future of the Icelandic language has become the subject of much discussion in Iceland and even internationally. A number of influential newspapers have recently published articles on Icelandic in the digital age. These articles emphasize the threats that the digital revolution poses for Icelandic and other small languages.

We have made efforts to establish contacts with the big international IT companies in order to try to persuade them to include Icelandic in their products. Last year, the President of Iceland visited Microsoft headquarters in Seattle, accompanied by representatives from Language technology, both from academia and the private sector. On that occasion, Microsoft announced that Icelandic had been added to Microsoft Translator, which the President is testing here.

However, the campaign has of course mainly been fought within Iceland. The alarming results of the White Paper were discussed in the Icelandic Parliament in 2012 as you see on this picture. In 2014, the Parliament unanimously adopted a resolution on the necessity of making Icelandic usable in the digital domain. In 2016, three language technology experts were commissioned to develop a detailed five-year Project Plan for Icelandic language technology.

The Project Plan which was delivered in June 2017 proposes that emphasis be laid on five core tasks. Other proposals include the establishment of a competitive research and development fund, CLARIN ERIC membership, and strengthening of LT education. In the policy statement of the current Government, it is explicitly stated that the Project Plan will be implemented and financed. The estimated total cost of the project is around 20.2 million Euros.

In August 2018, the Ministry of Education, Science and Culture commissioned the self-owned foundation Almannarómur to conduct the five above-mentioned core tasks. A month ago, on September 4, a contract was signed between Almannarómur and the SÍM Consortium that will carry out the research and development work necessary for this project. The deliverables of the project will be stored and distributed by the CLARIN-IS Centre.

The LT Project Plan execution emphasizes getting industry involved as early as possible in the process. This is reflected in the SÍM consortium which consists of three academic institutions, the National Broadcasting Service, the Association of the Visually Impaired, and four private IT companies. Thus, the consortium comprises practically all institutions, companies, and people that have been working on language technology in Iceland for the past two decades.

Following the proposal in the Project Plan, Iceland has now joined CLARIN ERIC – only as an observer, but Icelandic law has now been changed so Iceland can apply for full membership. In 2007, the University of Iceland and Reykjavík University established a joint master’s program in Language Technology. This program has now been resurrected and strengthened and a number of students are enrolled. Furthermore, three LT PhD-students have started their studies.

The Research and Development Fund has already given out a few relatively small grants, and some project supported by the fund are well underway. It is expected that larger three-year grants will be advertised in the course of the next few months. The SÍM Consortium has been firmly established and work on all the core tasks has started already or will start in the near future. The consortium members are busy planning the project and recruiting and training staff.

The Icelandic Language Technology Project Plan is very ambitious and in order for it to go through, we will need all the advice and assistance we can get. International cooperation is of utmost importance, and we are confident that participation in the European Language Grid will be very valuable for our work in the next few years. So at the moment, the future of Icelandic Language Technology looks promising!

 

Posted on Færðu inn athugasemd

Málvillur

Ég hef stundum fjallað um íslenskan málstaðal og frávik frá honum. Þessi frávik, þau tilbrigði sem samræmast ekki staðlinum, eru kölluð málvillur, þrátt fyrir að talsverður hluti þeirra sem eiga íslensku að móðurmáli – í sumum tilvikum meirihluti – noti þau. En hugum aðeins að því hvað við erum að segja með þessu. Erum við að segja að fólk sem elst upp í íslensku málumhverfi og tileinkar sér íslensku á máltökuskeiði kunni ekki íslensku? Getur málbreyting sem hefur náð til umtalsverðs hluta málnotenda verið villa? Hvaða vit er í því? Athugið að málstaðallinn sem notaður er til að skilgreina villurnar er mannanna verk, og það er á margan hátt tilviljanakennt hvað rataði inn í hann. Margar breytingar sem orðið hafa frá fornmáli komust inn í staðalinn og eru viðurkenndar og ekki taldar villur.

Þetta táknar ekki að rétt sé að viðurkenna öll afbrigði frá staðlinum, eða vísa hugtakinu málvilla út í hafsauga. Mér finnst alltaf best að nota skilgreiningu nefndar um „málvöndun og framburðarkennslu í grunnskólum“ frá 1986: „rétt mál er það sem er í samræmi við málvenju, rangt er það sem brýtur í bága við málvenju“. Í samræmi við þetta er alveg eðlilegt að kalla tilviljanakennd og einstaklingsbundin frávik frá staðlinum málvillur, en ef frávikin eru farin að ná til hóps af fólki og börn farin að tileinka sér þau á máltökuskeiði er eðlilegt að tala um málbreytingu en ekki villu. Það er að mínu mati mjög brýnt að breyta málstaðlinum sem hefur gilt undanfarna öld, viðurkenna staðreyndir og taka inn í staðalinn ýmsar breytingar sem hafa verið í gangi og verða ekki stöðvaðar.

Það má nefnilega ekki vera þannig að einhverjum hópum eða einstaklingum í samfélaginu finnist ís­lensk­an ekki gera ráð fyrir sér, og það má ekki heldur vera þannig að einhverjum finnist gert lítið úr því máli og þeirri málnotkun sem þau eru alin upp við eða hafa vanist. Þótt sumir tali svolítið öðruvísi íslensku en þá sem ég ólst upp við í norðlenskri sveit fyrir 50-60 árum gefur það mér engan rétt til að fordæma íslensku annarra eða líta niður á hana. Íslenskan er nefnilega alls konar. App er líka íslenska. Mér langar er líka íslenska. Hán er líka íslenska. Og síðast en ekki síst: Íslenska með hreim og beygingarvillum er líka íslenska.

Posted on Færðu inn athugasemd

Er íslenska erfið?

Í fyrra hafði blaðið Grapevine, sem gefið er út á ensku í Reykjavík, samband við mig og bað mig að svara spurningunni „Why is Icelandic such a difficult language to learn?“ eða „Hvers vegna er íslenska svona erfið?“. Þetta er goðsögn sem margir þekkja, að íslenska sé með erfiðustu málum. Vissulega er ýmislegt í íslensku sem getur verið snúið, en það fer þó að talsverðu leyti eftir móðurmáli málnemans og þeim tungumálum sem hann hefur haft kynni af.

Íslenska er t.d. talin tiltölulega erfið fyrir fólk með ensku að móðurmáli enda hefur hún ríkulegar beygingar miðað við ensku, en slíkt ætti ekki að koma t.d. fólki af slavneskum uppruna á óvart. Það eru ákveðin sérkenni í íslensku hljóðkerfi og setningagerð sem geta vafist fyrir útlendingum, en þegar á heildina er litið er varla hægt að segja að íslenska sé erfiðari en gengur og gerist um tungumál.

En hitt er vissulega rétt að mörgum útlendingum finnst íslenska erfið og hika við að tala hana við Íslendinga. Ég held að ein ástæðan fyrir því sé sú að Íslendingar eru ekki – eða hafa ekki verið – sérlega umburðarlyndir gagnvart beygingarvillum, erlendum hreim, og öðrum merkjum um ófullkomna íslensku. Ísland var til skamms tíma eintyngt samfélag og við vorum því ekki vön því að heyra útlendinga reyna að tala málið og hætti til að gagnrýna tilraunir þeirra til þess harkalega.

En málfærni fæst ekki nema með æfingu, og til að ná valdi á tungumáli þurfum við að fá tækifæri til að nota það við mismunandi aðstæður. Útlendingar kvarta oft yfir því að það sé ómögulegt að læra íslensku af Íslendingum því að þeir skipta svo oft yfir í ensku um leið og þeir átta sig á því að viðmælandinn talar íslensku ekki reiprennandi. Þetta þarf að breytast – við þurfum að vera þolinmóðari og umburðarlyndari gagnvart ófullkominni íslensku. Íslenska er alls konar.

Posted on Ein athugasemd

Mikilvægi íslensku í umhverfi barna

Ég heyrði í gær sagt frá frístundaheimili í grónu hverfi hér í borginni þar sem meginhluti starfsfólks er ekki íslenskumælandi og talar við börnin á ensku. Þetta leiðir til þess að börnin tala að einhverju leyti ensku sín á milli. Ég tek fram að ég hef þessa sögu ekki frá fyrstu hendi og hef ekki sannreynt hana. Við skulum þess vegna ganga út frá því að þetta sé ekki svona en huga samt að því hvaða afleiðingar það gæti haft ef slíkar aðstæður kæmu upp.

Eins og Elín Þöll Þórðardóttir prófessor í talmeinafræði benti á í nýlegu viðtali er talið að „til að eiga mögu­leika á að til­einka sér ís­lensku þurfi tví­tyngd börn að verja 50% af vöku­tíma sín­um í ís­lensku mál­um­hverfi“. Ef einhver börn á umræddu frístundaheimili væru frá heimilum þar sem íslenska er ekki heimilismál kæmust þau því hvergi í kynni við íslensku nema í skólanum. En í viðtalinu var bent á að skóladagurinn á Íslandi nær því ekki að vera 50% vökustunda. Með þessu móti værum við því að ala upp börn sem ekki næðu móðurmálsfærni í íslensku, þrátt fyrir að hafa kannski búið hér alla ævi.

Og það er alls ekki víst að börnin næðu móðurmálsfærni í nokkru öðru máli heldur. Þau eru hluta dagsins í skólanum þar sem íslenska er notuð, en síðan á frístundaheimili þar sem aðallega er talað við þau á ensku, og tíminn sem þau hafa með foreldrum sínum þegar þau koma heim er einfaldlega ekki nógu langur til að byggja upp móðurmálsfærni í heimilismálinu, auk þess sem trúlegt er að þau eyði talsverðum hluta hans í enskum málheimi – sjónvarpi, tölvuleikjum o.s.frv. Rannsóknir sýna að móðurmálsfærni í einhverju tungumáli er forsenda fyrir því að læra önnur mál vel – en skiptir líka miklu máli fyrir margs konar kunnáttu og þroska s.s. tilfinningagreind, verkgreind o.fl.

Það skiptir þess vegna gífurlegu máli að sjá til þess að börn sem alast upp á Íslandi hafi sem mesta íslensku í umhverfi sínu. Mörg börn verja umtalsverðum hluta vökustunda sinna á frístundaheimilum og það er mjög alvarlegt mál ef samskipti þar fara ekki fram á íslensku að mestu leyti. Þess vegna verður að tryggja að starfsfólk á slíkum heimilum sé íslenskumælandi. Ég veit að það er auðvelt að túlka þetta sem útlendingaandúð eða -hræðslu en það er ekki það sem málið snýst um. Og eins og útskýrt er hér að framan snýst það ekki heldur um framtíð íslenskunnar þótt hún sé vissulega mikilvæg.

Þetta snýst nefnilega fyrst og fremst um velferð barna – að þau fái tækifæri til að öðlast móðurmálsfærni í tungumálinu sem er notað í samfélaginu í stað þess að vaxa upp án raunverulegs móðurmáls og vera dæmd til að detta út úr skólakerfinu og sitja föst í láglaunastörfum án þess að vera virkir þátttakendur í lýðræðislegu samfélagi. Slíkar aðstæður eru gróðrarstía fyrir stéttaskiptingu, lýðskrum, rasisma og hvers kyns fordóma.

Posted on Færðu inn athugasemd

Stafsetning og læsileiki texta

Það er enginn vafi á því að séríslenskir bókstafir hafa talsvert tákngildi í sjálfs­mynd Ís­lend­inga. En skipta þeir einhverju máli fyrir þróun tungumálsins? Stafir eru bara tákn – þeir eru ekki tungumálið sjálft. Það er samkomulagsatriði hvaða form við notum til að tákna hljóð málsins. Íslendingar – og íslenskan – komust vel af án ð í 400 ár. Á fyrstu árum netsins var ekki hægt að nota íslenska stafi þegar tölvupóstur var send­ur til útlanda. Þennan póst skrifaði ég t.d. snemma árs 1993:

Það var svo sem ekkert mál að venja sig á þetta. Flest lá tiltölulega beint við – maður skrifaði broddlausa stafi í stað broddstafa, d í stað ð, th eða bara t í stað þ, ae í stað æ og oe eða bara o í stað ö. Nú er oftast ekkert mál að nota íslensku í tölvupósti og yfir­leitt á netinu, en það er þó ekki alveg einhlítt. Íslensku stafirnir eru ekki heldur alltaf til taks í símum. En yfirleitt vefst ekkert fyrir manni að skrifa eða skilja texta án þeirra þótt vissulega geti komið upp vafamál í túlkun einstöku sinn­um. En þýðir þetta að íslensku stafirnir séu óþarfir, og við gætum losað okkur við þá án þess að það ylli nokkrum vandkvæðum? Það myndi vissulega leysa ýmis vandamál og koma í veg fyrir alls konar umstang og kostnað. En hefði það einhver áhrif á þróun málsins?

Það má halda því fram að stafsetning sé límið í íslenskri málsögu. Stafsetningin er íhaldssöm og eltir ekki ýmsar hljóðbreytingar sem verða í töluðu máli. Gott dæmi um þetta er broddur yfir sérhljóðstáknum sem táknaði langt hljóð í fornu máli eins og gert var ráð fyrir í tillögum Fyrsta málfræðingsins. Síðan hefur sérhljóðakerfi málsins breyst í grundvallaratriðum og brodduð og broddlaus sérhljóðstákn standa nú ekki lengur fyrir löng og stutt afbrigði sömu hljóða, heldur tvö ólík hljóð – brodd­uðu táknin oft fyrir tvíhljóð. Þetta truflar okkur ekkert og fæstir vita nokkuð af því; en það leiðir til þess að við getum lesið mörg hundruð ára gamla texta þótt sumir þættir tungumálsins hafi í raun gerbreyst.

Það er alþekkt að stafsetning getur haft veruleg áhrif á það hversu aðgengilegir textar eru fyrir almenning. Árið 1943 skrifaði Kristinn E. Andrésson grein í Tímarit Máls og menningar um lög þau sem Alþingi setti 1941 og bönnuðu að íslensk fornrit væru gefin út með annarri staf­setningu en „samræmdri stafsetningu fornri“. Kristinn sagði: „Engri erlendri þjóð dettur í hug að fylgja gamalli stafsetningu í nýjum útgáfum af klassiskum ritum fyrir almenning. Enskum útgefendum t.d. dettur ekki í hug að vera að fæla þjóð sína frá lestri á leikritum Shakespeares með því að prenta þau með úreltri stafsetningu.“

Í viðtali í Sunnudagsblaði Tímans 1966 var Árni Böðvarsson cand.mag. spurður hvort hann teldi að samræmd stafsetning forn fældi fólk frá lestri fornrita. Hann svaraði: „Það er ekkert efamál, að svo er. Ég tel, að öll slík rit, sem ætluð eru almenn­ingi, ættu að vera í búningi nútímamáls, að því er tekur til stafsetningar og orðmynda.“

En það þarf ekki að leita til fornsagna. Fyrir nokkrum árum sköpuðust talsverðar umræður um minnk­andi lestur á verkum Halldórs Laxness á Facebook-síðu Illuga Jökulssonar og bloggi Egils Helgasonar. Í þeim umræðum sagði útgefandi bókanna, Jóhann Páll Valdimarsson: „Lestur á verkum hans í skólum hefur skroppið mikið saman og við höfum gert könnun meðal kennara. Eitt af því sem ástæða er til að velta fyrir sér er hvort gefa eigi verk hans út með nútímastafsetningu fyrir skólana. Sú hugmynd fékk að vísu ekki mikinn stuðning meðal kennara og ég efast ekki um að mörgum þyki það helgispjöll en mín skoðun er sú að Laxness muni ekki lifa með nýjum kynslóðum nema stafsetning sé færð til nútímahorfs. Það hrökkva svo margir frá bókum hans vegna hennar.“

Nú hafa tvær af helstu skáldsögum Halldórs verið gefnar út með venjulegri stafsetningu til að auðvelda ungu fólki lesturinn. Þó er stafsetning Halldórs ekki svo verulega frábrugðin fyrirskipaðri skóla­stafsetn­ingu. Hann skrifar svokallaða „breiða sérhljóða“ á undan ng og nk í orðum eins og lángur, leingi, laung; hann skrifar ekki tvöfaldan samhljóða á undan sam­hljóða, í orðum eins og skemtun, trygð, alt; og hann skrifar í einu orði ýmis sambönd sem eiga að vera í tvennu lagi samkvæmt stafsetningarreglum, s.s. einsog, uppá. Fáein atriði til viðbótar má tína til, en munurinn er sannast sagna ekki ýkja mikill. Ef hann nægir þrátt fyrir það til að fæla marga lesendur frá er auðvelt að ímynda sér að brottfall íslenskra stafa, þar með talinna broddstafa, hefði gífurleg áhrif.

Í umfjöllun Morgunblaðsins um „Tyrkjarán hið nýja“ 1992 var m.a. rætt við Baldur Jónsson prófessor sem þá var forstöðumaður Íslenskrar málstöðvar. Þar segist Baldur óttast „að einhverjir landar okkar leggi til að stafirnir verði felldir úr íslensku máli þar sem það taki því ekki að leggja í kostnaðarsamar breytingar. „Slíkt myndi hreinlega um­turna ásýnd íslensks ritmáls og smám saman gera okkur erfitt fyrir um lestur rita sem nú þegar hafa verið gefin út. Næsta skref gæti svo allt eins orðið tillaga um að leggja málið niður.“.“

Eins og áður segir er í sjálfu sér ekkert vandamál að láta bókstafi enska stafrófsins duga til að skrifa íslensku. Út af fyrir sig myndi það ekki breyta tungumálinu sjálfu – aðeins táknun þess og yfirbragði. En þetta myndi það leiða til þess að allir íslenskir textar fram að þeim tíma, allt frá fornmáli til 21. aldar, yrðu meira og minna óað­gengi­legir fyrir þá sem ælust upp við hina nýju stafsetningu. Þetta hefði ófyrirsjáanleg áhrif á íslenska menningu og ryfi samhengið í íslenskri málsögu, en stafsetning er límið í henni eins og áður segir. Það má búast við því að róttækar breytingar yrðu á tungumálinu í kjölfar slíks rofs. Erum við tilbúin að taka þá áhættu?

Posted on Færðu inn athugasemd

Um upphaf Beygingarlýsingar íslensks nútímamáls

Það er sérlega ánægjulegt að fá að segja nokkur orð um forsögu og upphaf Beygingarlýsingar íslensks nútímamáls sem hér er verið að opna í nýrri og endurbættri gerð. Ég stend nefnilega í þeirri meiningu að ég beri einhvern hluta ábyrgðarinnar á upphafi þessa verks. Kristín Bjarna­dóttir var nemandi minn í fyrsta námskeiðinu sem ég kenndi í íslensku, veturinn 1982-1983. Á vormisseri var viðfangsefnið einkum beygingar- og orðmyndunarfræði – ég var þá að skrifa kennslubókina Íslenska orðhlutafræði sem ég tíndi í nemendur jafnóðum. Ég er ekki frá því að áhuga Kristínar á orðum, gerð þeirra og hegðun, megi að einhverju leyti rekja til þessa nám­skeiðs. Beygingarlýsingin er náttúrulega barn Krist­ínar og sé þessi skilningur minn réttur má ég því kannski með vissum hætti kallast afi Beyg­ingar­lýsingar­innar.

Þetta var vorið 1983 og nú verð ég að hlaupa yfir 18 ár þótt ýmislegt hafi gerst á þeim árum sem segja mætti frá ef tími væri til. En í lok ágúst 2001 kom tilkynning á póstlista sem ég var á um að sænski máltækni­háskólinn, Swedish Graduate School of Language Technology, sem tók til starfa þetta haust, byði tvö námskeið sem unnt væri að taka í fjarnámi með staðlotum. Nemendur utan Svíþjóðar gátu sótt um að sækja þessi námskeið, og það sem skipti öllu máli – það var hugsanlegt að fá styrk til ferða og uppihalds úr norrænu máltækniáætluninni sem þá var í gangi. Við Kristín höfð­um oft rætt sameiginlegan áhuga okkar á máltækni – sem var nefnd tungutækni í þá daga – og ég hafði því samband við hana til að segja henni frá þessu.

Um sama leyti fékk ég póst frá Sigrúnu Helgadóttur, sem þá var nýhætt störfum á Hagstofu Íslands, og vildi spyrjast fyrir um máltæknikennslu sem til stóð að hæfist við Háskóla Íslands. Ég sagði henni frá sænska skólanum og þrem vikum síðar vorum við fjórir Íslendingar – Kristín, Sigrún, Auður Þórunn Rögnvaldsdóttir og ég – komin til Gautaborgar á staðlotu í námskeiði sem hét „Natural Language Processing“. Við sátum svo sveitt við verkefnavinnu allt haustið en námskeiðinu lauk með ráðstefnu í Växjö í janúar 2002. Þetta námskeið varð afdrifa­ríkt og markaði í raun upphaf reglulegs akademísks máltæknistarfs á Íslandi því að við héldum öll áfram að vinna á þessu sviði sem við hefðum varla gert án námskeiðsins, a.m.k. ekki Sigrún sem var einn helsti burðarás íslensks máltæknistarfs næstu 15 ár. Auk þess komumst við þar í kynni við ýmislegt fólk sem hjálpaði okkur af stað og við höfum síðan verið í meira og minna sambandi við.

Þetta sama haust, 2001, var svo auglýst í fyrsta skipti eftir umsóknum um styrki úr tungutækni­verkefni menntamálaráðuneytisins. Við fjögur, sem kölluðum okkur Málgreiningarhópinn eftir heimkomuna frá Gautaborg og verkefnavinnu í námskeiðinu, vorum svo uppveðruð og áhuga­söm að við áttum frumkvæði að þremur umsóknum sem sendar voru inn um miðjan desember. Við fengum Orðabók Háskólans í lið með okkur sem lá beint við – gögnin sem við ætluðum að byggja á voru þar, Kristín vann þar, og ég var stjórnarformaður Orðabókarinnar um þær mundir. Vorið 2002 ákvað svo menntamálaráðherra að styrkja tvær þessara umsókna.

Önnur þeirra umsókna sem fengu styrk var um gerð þjálfunarlíkans fyrir íslenskan markara og byggðist á því að í iðrum tölvukerfis Orðabókarinnar leyndust grunnskrár sem gerðar höfðu verið fyrir Íslenska orðtíðnibók áratug áður. Það var hrein heppni að þessar skrár höfðu varð­veist því að enginn sá gagnsemi þeirra fyrir, en þær urðu í raun undirstaða allrar vélrænnar mál­fræðigreiningar á íslensku næstu 15 árin – og að nokkru leyti enn. Þessi umsókn var send í nafni Orðabókar Háskólans og Málgreiningarhópsins. Umsóknin sem ekki fékk brautargengi í þetta skipti var um gerð íslenskrar málheildar – það verkefni fékk ekki styrk fyrr en þremur árum síðar og varð á endanum að Markaðri íslenskri málheild. Þess má geta að orðin mark, mark­ari, mörkun og málheild urðu öll til við samningu þessara umsókna um miðjan desember 2001.

Hin umsóknin sem fékk styrk var send í nafni Orðabókar Háskólans og Eddu útgáfa, en rík áhersla var lögð á að fyrirtæki tækju þátt í verkefnunum til að tryggja að þau nýttust við gerð mál­tækni­búnaðar. Sú umsókn var hugarsmíð Kristínar sem hafði lengi haft áhuga á að vinna slíkt verk en þarna komu loks forsendur til þess. Kristín var vitanlega búin að vinna að beyg­ingar­legri greiningu og lýsingu árum saman, einkum í tengslum við hið svokallaða norræna verkefni hjá Orðabókinni sem var undanfari ISLEX og svo við endurskoðun Íslenskrar orða­bókar á vegum Máls og menningar. Hún samdi því þessa umsókn að mestu, í ein­hverju samráði við Mörð Árnason sem þá var ritstjóri Íslenskrar orðabókar. Kristín hafði þá þegar lagt drög að beygingarlýsingunni, komið upp miklu hráefni í hana og hafði nokkuð mótaðar hugmyndir um hvað hún vildi gera. Í umsókninni frá því í desember 2001 koma megin­einkenni verksins fram en þar segir í byrjun:

Sótt er um styrk til gerðar beygingarlýsingar íslensks nútímamáls. Markmið er að koma upp beygingarlýsingu á tölvutæku formi sem birt verður í tölvuútgáfu Íslenskrar orðabókar […] frá Eddu hf. og á vefsíðu Orðabókar Háskólans […]. Aðgangur að beygingarupplýsingunum í formi beygingardæma yrði öllum frjáls án endurgjalds á heimasíðu Orðabókarinnar. Jafnframt yrði til tölvutæk beygingarlýsing sem yrði föl til nota í verkefni af ýmsu tagi.

Þarna var sem sé þegar í upphafi lögð áhersla á hið tvíþætta gildi Beygingarlýsingarinnar – annars vegar sem uppflettigagn fyrir almenning og hins vegar sem gagnasafn til nota í mál­tækni­verkefnum.

Þetta var haustið 2001 og nú eru aftur liðin 18 ár. Á þeim tíma hefur margt gerst sem ég ætla ekki að rekja en læt nægja að nefna að Kristín hefur verið óþreytandi í að byggja Beygingar­lýsinguna upp, auka og bæta. Það hefur skilað sér í því að Beygingarlýsingin hefur fullkomlega staðið undir þeim vonum sem við gerðum okkur í upphafi og þeim fyrirheitum sem gefin voru, enda er hún annars vegar eitt mikilvægasta og mest notaða stuðningsgagn íslenskra málnot­enda, og hins vegar ein meginundirstaða þróunar í íslenskri máltækni. Sú staða mun enn styrkj­ast með þessari nýju gerð.

Posted on Færðu inn athugasemd

Íslenskir stafir og sjálfsmynd Íslendinga

Það má færa rök að því að séríslenskir stafir hafi orðið að einhvers konar tákni fyrir sjálfs­mynd Íslendinga. Um það má nefna fáein greini­leg dæmi frá seinni árum, en dæmin eru örugg­lega mun fleiri.

Þegar Mímir, félag stúdenta í íslenskum fræðum við Háskóla Íslands, hóf útgáfu sam­nefnds tíma­rits 1962, voru stafirnir þ og ð látnir mynda forsíðumynd ritsins. Þessi forsíða var notuð í 10 ár, og þegar skipt var um forsíðumynd var sú nýja einnig byggð á þ og ð og notuð í 14 ár, til 1986. Í fyrsta blaðinu stendur á bls. 2: „Kápu og vinnu­teikningar gerði Hallgrímur Tryggva­son“ sem var prentari í Prentsmiðju Jóns Helga­sonar þar sem blaðið var prentað og virðist oft hafa séð um umbrot og hönnun. Þegar skipt er um forsíðumynd 1972 stendur að forsíðuteikninguna hafi gert „Baldvin Björns­son, teiknari, af smekkvísi“. Í hvorugt skiptið er forsíðan skýrð nokkuð nánar. Hvaðan skyldi hugmyndin að forsíðunni hafa komið? Var þetta hugmynd frá ritstjórn blaðsins, eða hugmynd Hallgríms prentara? Hvort sem heldur var er augljóst að þessir bókstafir þóttu eiga vel við á forsíðu blaðs íslenskunema.

Kringum 1990 stóð mikið stríð um að halda íslenskum stöfum í alþjóðlegum stafa­töflum. Þar skipti mestu máli staðall sem nefnist ISO 8859-1 Latin 1, sem átti að hafa að geyma alla stafi sem notaðir eru í vesturevrópskum tungumálum. Íslenskir stafir höfðu komist inn í þessa töflu 1987 en 1992 var verið að víkka hana út og þá lögðu fulltrúar Tyrkja hjá Alþjóða staðlaráðinu (International Standard Organization, ISO) fram tillögu um að stafirnir þð og ý yrðu felldir brott úr töflunni en tyrkneskir stafir settir í staðinn. Um þetta varð mikil umræða á Íslandi og m.a. beitti Jón Baldvin Hanni­balsson utanríkisráðherra sér fyrir því á vettvangi Evrópska efnahagssvæðisins að íslenskum stöfum yrði haldið inni. Talað var um tillögu Tyrkja sem „Tyrkjarán hið síðara“ og sagt að hún væri „alvarleg atlaga að íslensku máli og menningu“. Á teikningu sem birtist með frétt um málið í Morgunblaðinu má sjá víking halda á þ.

Árið 2000 setti þáverandi menntamálaráðherra, Björn Bjarnason, af stað svonefnt tungu­tækni­átak, sem ætlað var til að gera íslensku gjaldgenga í tölvuheiminum. Átak­inu var stýrt af sérstakri verkefnisstjórn og komið var upp vefsíðu og sérstöku merki fyrir það. Á þessum tíma var mikið rætt um vanda við notkun séríslenskra stafa í tölv­um og farsímum og kannski hefur það haft áhrif á það hvernig merkið varð – bókstaf­ur­inn ð. A.m.k. er ljóst að merkið á að höfða til þessarar sérstöðu íslenskunnar og mikil­vægis þess fyrir sjálfsmynd þjóðarinnar að hún sé virt.

Það er ekkert auðvelt að myndgera tungumál. Teiknarar eða hönnuðir sem fá það verkefni að hanna kápu á bók um íslensku, eða merki stofnunar eða verkefnis á sviði íslensku, eru ekki öfundsverðir. En þessi dæmi sýna að séríslensku bókstafirnir þ og ð nýtast stundum í þessum tilgangi. Og eins og kunnugt er hefur nýlega verið skrifuð heil bók um ð; ð ævisaga.

Posted on Færðu inn athugasemd

Gildi tungumálsins

­Í hverju tungumáli felast menningarverðmæti. Sérhvert tungumál er einstakt á einhvern hátt – orðaforði þess, setningagerð og hljóðkerfi eru frábrugðin öllum öðrum tungumálum, merk­ingar­blæbrigðin sem það getur tjáð geyma reynslu kynslóðanna og eru önnur en í öðrum málum. Tungumál sem deyr er að eilífu glatað – þótt við höfum um það miklar ritheimildir og upptökur, sem sjaldnast er, verður það aldrei endurvakið í sömu mynd því að tungumál lærist ekki til hlítar nema berast frá manni til manns – frá foreldrum til barna.

Sérhvert tungumál er líka merkilegt og einstakt frá fræðilegu sjónarmiði vegna þess að það getur hjálpað okkur að komast að einhverju um eðli mannlegs máls. Íslenska er t.d. viðfangsefni fræðimanna víða um heim og dæmi úr íslensku eru notuð í kennslu í miklum fjölda erlendra háskóla. Ástæðan er ekki síst sú að íslenskan er náskyld ensku og lík henni á margan hátt, þannig að auðvelt er að bera málin saman og láta sérkenni íslenskunnar í beygingum og setn­inga­­gerð varpa ljósi á eðli mismunar málanna og ýmissa fyrirbæra í þeim.

Á Íslandi er tungumálið er líka beintenging okkar við sögu og menningu þjóðarinnar fyrr á tímum. Íslendingar njóta þeirra forréttinda umfram flestar aðrar þjóðir að geta tiltölulega auð­veld­lega lesið texta allar götur frá upphafi ritaldar fyrir 900 árum, án þess að þeir séu þýddir á nútímamál. Ef íslenskan tekur róttækum breytingum, eða hættir að vera lifandi tungumál, missum við ekki bara bein tengsl við Hávamál og Njálu, heldur líka við Íslenskan aðal og Íslandsklukkuna, Engla alheimsins og Kalda­ljós, og meira að segja Ungfrú Ísland og Sextíu kíló af sólskini.

Vitanlega er tungumálið ekki síður félagslegt fyrirbæri – langsamlega mikil­vægasta sam­skipta­tæki okkar við annað fólk. Þess vegna má það ekki staðna, heldur þarf að vera lifandi og laga sig að þörfum samfélagsins á hverjum tíma. Hún verður að þola tilbrigði í fram­burði, beyg­ingum og setningagerð, og að ný orð komi inn í málið og gömul orð fái nýja merkingu. Hún má ekki verða einkaeign ákveðinna hópa, og það má ekki nota hana og tilbrigði í beitingu hennar til að mismuna fólki eða skipa því í andstæðar fylkingar. Við þurfum að styðja þau sem vilja lifa og starfa í íslensku samfélagi til að ná góðu valdi á þessu mikilvæga samskiptatæki en megum ekki láta takmarkaða íslenskukunnáttu fólks bitna á því á nokkurn hátt.

En síðast en ekki síst er tungumálið útrás fyrir tilfinningar okkar – ást og gleði, hatur og reiði, sorg og hryggð, vonir og þrár – en líka tæki okkar til sköpunar, miðlunar og frjórrar hugsunar. Tungumál sem við tileinkum okkur á máltökuskeiði, móður­mál okkar, er hluti af okkur sjálfum, einkaeign okkar jafnframt því að vera sam­eign alls málsamfélagsins og í vissum skilningi alls mannkyns. Þetta hljómar eins og þversögn – og er þversögn. Það er ekki einfalt að umgangast málið þannig að öll hlutverk þess séu höfð í heiðri.

Það er samt það sem við þurfum að reyna að gera – með umburðar­lyndi, virðingu og tillitssemi að leiðarljósi. En því miður skortir oft á það í umræðum um tungumálið. Fjöldi fólks stundar það að hnýta í málfar annarra sem tala ekki eins og þessum sjálfskipuðu verndurum tungunnar þykir rétt – fólks sem fylgir ekki hinum óopinbera íslenska málstaðli.  Íslenskan – daglegt mál – hefur breyst talsvert undanfarna öld. Ýmsar málbreytingar hafa komið upp og breiðst út, og jafnvel náð til verulegs hluta landsmanna, án þess að verða hluti af staðlinum.

Það sem ekki á að segja, þau afbrigði sem samræmast ekki staðlinum, eru kölluð málvillur, þrátt fyrir að talsverður hluti þeirra sem eiga íslensku að móðurmáli – í sumum tilvikum meirihluti – noti þau. En hugum aðeins að því hvað við erum að segja með þessu. Erum við að segja að fólk sem elst upp í íslensku málumhverfi og tileinkar sér íslensku á máltökuskeiði kunni ekki íslensku? Getur málbreyting sem hefur náð til umtalsverðs hluta málnotenda verið villa? Hvaða vit er í því?

Posted on Færðu inn athugasemd

Ekki segja ráddi heldur réði ... eða hvað?

Eins og alkunna er gera börn á máltökuskeiði ýmsar villur sem margar hverjar stafa af því að þau alhæfa reglur sem þau eru búin að tileinka sér en átta sig ekki á takmörkunum reglnanna eða undantekningum frá þeim. Ein algengasta villan af þessu tagi er að beygja allar sagnir veikt – segja bítaði eða bítti í stað beit, hlaupti eða hlaupaði í stað hljóp, standaði í stað stóð, drekkti í stað drakk, látti í stað lét – og svo er það ráddi. Í alþekktum söngtexta um það sem er bannað segir að ekki megi „tína blómin sem eru út í beði og ekki segja ráddi heldur réði“.

Það myndi augljóslega spilla bæði rími og hrynjandi ef þarna væri réð en ekki réði, en það er samt það sem „á“ að segja samkvæmt íslenskum málstaðli eins og hann birtist t.d. í Málfarsbankanum þar sem segir: „Farið er að nota þátíðarmyndirnar „réði“, „réðir“, „réði“ í eintölu. Það er óheppileg þróun vegna þess að þær falla saman við viðtengingarhátt þátíðar. Hún réð hann í vinnu. Margir voru á móti því að hún réði hann.“ Það var líka hamrað á þessu í ábendingunum Gætum tungunnar sem voru gefnar út í kveri 1984 og birtust einnig í blöðum.

Það er svolítið sérkennilegt að segja „Farið er að nota“ – með því er gefið í skyn að þetta sé nýbreytni frá síðustu árum. En raunin er sú að þetta er margra alda gamalt. Elsta dæmi um réði á tímarit.is er frá 1833 en elsta dæmi um réð frá 1859, og réði hefur lengst af síðan verið mun algengara. Það er líka ofmælt að það sé „óheppileg þróun“ að nota þátíðina réði vegna þess að þá falli framsöguháttur og viðtengingarháttur saman. Það er nefnilega það sem gerist í öllum sögnum sem enda á -aði í þátíð – sem eru meginþorri sagna í málinu. Við segjum ég kallaði og þótt ég kallaði, ég talaði og þótt ég talaði o.s.frv.

Ég held að óhætt sé að segja að þátíðin réð sé mörgum framandi – a.m.k. í töluðu máli, þótt ýmsum hafi væntanlega lærst að nota hana í riti. Það má benda á að í Málvöndunarþættinum á Facebook sýnist mér að aldrei hafi verið gerð athugasemd við notkun réði í stað réð. Í þeim hópi er fólk þó vant að láta frá sér heyra ef það verður var við eitthvað sem það telur rangt. Þar eð allir hljóta að hafa heyrt þátíðina réði notaða ótal sinnum dreg ég þá ályktun að fólk átti sig ekki á því að hún er talin röng – annars myndi heyrast hljóð úr horni.

Hitt er annað mál að ekki er alltaf gott að vita hvort verið er að nota réð eða réði. Þannig er réð(i) t.d. oft notað með neitun – ég réð(i) ekki við þetta. Þá fellur i-ið brott á undan sérhljóði samkvæmt almennum reglum, þannig að þótt fólk sé raunverulega að nota myndina réði kemur hún út sem réð. Í þessu sambandi er athyglisvert að bæði á tímarit.is og í Risamálheildinni eru dæmin um réði 70% af samanlagðri tíðni réð við og réði við. Hins vegar eru dæmin um réði ekki nema 55% af samanlagðri tíðni réð ekki við og réði ekki við. Samhengið hefur greinilega áhrif á hvor myndin er notuð.

Sjálfur lærði ég einhvern tíma að það „ætti“ að nota réð en ekki réði og geri það stundum í rituðu máli. Það er þó í algerri andstöðu við málkennd mína – hann réð þessu ekki og ég réð ekki við þetta orkar á mig sem rangt mál. Þetta er eitt af þeim dæmum þar sem málstaðallinn er í ósamræmi við málkennd og málnotkun verulegs hluta málnotenda. Mér finnst fráleitt að kalla þátíðina réði ranga og myndi ekki gera athugasemd við hana í ritgerðum nemenda ef ég væri enn að kenna. Í þessu tilviki sýnist mér einboðið að viðurkenna orðinn hlut og sættast við réði – en sjálfsagt að gera athugasemd við ráddi.