Máltækni

Máltækni er tiltölulega nýlegt orð í íslensku – þýðing á því sem á ensku nefnist language technology. Einnig hefur orðið tungutækni verið notað um sama hugtak. Í stuttu máli má segja að með máltækni sé átt við hvers kyns samvinnu tungumáls og tölvutækni sem hefur einhvern hagnýtan tilgang; beinist að því að hanna eða útbúa einhvern hugbúnað eða tæki sem nýtist mönnum í starfi eða leik. Þessi samvinna hefur tvær hliðar og felst annars vegar í notkun tölvutækninnar í þágu tungumálsins; hins vegar í notkun tungumálsins í þágu tölvutækninnar.

Það er hægt að nýta tölvu- og upplýsingatækni á ýmsan hátt til þess að auðvelda mönnum að nota tungumálið. Þar má nefna ýmiss konar leiðréttingarforrit fyrir stafsetningu og málfar. Slíkur búnaður fylgir til dæmis algengum forritapökkum eins og Microsoft Office og LibreOffice á ýmsum tungumálum. Einnig er hægt að sækja viðbætur af þessu tagi fyrir ýmsa vafra. Íslensk stafsetningarleiðréttingarforrit eru til, svo sem Púki og Skrambi, en ekkert málfræðileiðréttingarforrit er til fyrir íslensku.

Hér má einnig telja ýmiss konar hjálpartæki handa fólki sem á erfitt með mál eða lestur sökum einhvers konar fötlunar. Talgervill, sem er búnaður sem les upp ritaðan texta, var fyrst gerður fyrir íslensku um 1990 en nýjasti talgervillinn kom á markaðinn 2012. Hann var gerður á vegum Blindrafélagsins og býr yfir tveimur röddum, karlmannsrödd sem nefnist Karl og kvenmannsrödd sem nefnist Dóra.

Talgreinir breytir töluðu máli í ritaðan texta. Slíkur búnaður fyrir íslensku var gerður árið 2012 í samvinnu Google við íslenska aðila og er nú í símum með Android-stýrikerfi og í Google Chrome-vafranum. Hægt er að nota talgreininn við leit á netinu, til að skrifa smáskilaboð og tölvupóst, minnisatriði og fleira. Einnig er hægt að prófa talgreini á vef Háskólans í Reykjavík. Slíkur búnaður getur vitaskuld nýst öllum málnotendum en ekki síst fólki sem eru hreyfihamlað og á erfitt með að nota lyklaborð til að rita texta.

Eitt veigamesta svið máltækni eru vélrænar þýðingar, þar sem hugbúnaður er notaður til að þýða texta af einu máli á annað. Google Translate er þekktasti búnaðurinn á þessu sviði og getur þýtt milli fjölda tungumála, þar á meðal milli íslensku og annarra mála. Gæði þýðinganna eru misjöfn en fara vaxandi eftir því sem búnaðurinn er lengur í notkun og hefur fleiri gögn til að læra af. Ekkert gott þýðingarforrit hefur enn verið þróað fyrir íslensku.

En tungumálið er ekki bara þiggjandi í samvinnu við tölvutæknina. Það er líka notað á margvíslegan hátt til að gera tæknina aðgengilegri og auðvelda mönnum að nýta sér hana. Þar má nefna ýmiss konar þjónustuver þar sem tölva hlustar á erindi notandans og greinir merkingu þess. Sú greining er síðan send til gagnabanka, þar sem er að finna svör við margvíslegum fyrirspurnum, og viðeigandi svar sótt í bankann. Því svari er svo breytt í eðlilega setningu og hún send til tölvubúnaðar sem les hana fyrir notandann. Þetta ferli er alsjálfvirkt og byggist á margvíslegri og flókinni greiningu á tali notandans; hljóðgreiningu, orðgreiningu, setningagreiningu, merkingargreiningu og fleira.

Einnig má nefna notkun málsins við stjórn tölva og ýmiss konar tölvustýrðra tækja. Það fer mjög í vöxt að slíkum tækjum sé stjórnað með venjulegu máli, annað hvort rituðu eða töluðu. Skipanir eru þá ýmist slegnar inn á lyklaborð eða talaðar í hljóðnema, í stað þess að ýta á takka eða velja kost í valmynd. Þetta mun á næstunni taka til sífellt fjölbreyttari tækja, svo sem ýmiss konar framleiðslutækja, heimilistækja og bíla. En slík tæki skilja yfirleitt ekki íslensku – enn sem komið er.

Til að tölvur og tæki skilji íslensku slíkt þarf að byggja upp þekkingargrunna sem hafa að geyma margvíslegar og nákvæmar upplýsingar um tungumálið. Til að hægt sé að þróa forrit til málfarsleiðréttingar þarf til dæmis að liggja fyrir nákvæm og ítarleg greining á íslenskri setningagerð – mun nákvæmari og ítarlegri en finna má í handbókum og kennslubókum. Það er ekki hægt að útbúa leiðréttingarforrit nema skrá nákvæmlega hvaða setningagerðir eru leyfilegar í málinu og hverjar ekki og jafnframt semja lýsingu á því hvernig eigi að lagfæra það sem betur má fara.

Sprenging í hagnýtingu gervigreindar og vélræns náms á síðustu árum hefur leitt til þess að mikilvægasta forsenda þess að þróa máltæknibúnað er nú gríðarstór málleg gagnasöfn – orðasöfn, textasöfn, hljóðsöfn og fleira. Þær aðferðir sem nú eru mest notaðar byggjast á því að tölvur eru látnar lesa gríðarlega mikið af gögnum og læra af þeim – finna í þeim mynstur sem þær geta síðan notað til að byggja upp þekkingargrunna um tungumálið. Þessa þekkingargrunna er svo aftur hægt að nýta í gerð margs kyns hugbúnaðar til málvinnslu, svo sem leiðréttingabúnaðar, þýðingaforrita, talgervla, talgreina og svo framvegis.

Uppbyggingarstarf í máltækni er dýrt. Það kostar jafnmikið að koma upp máltækni fyrir íslensku og fyrir tungumál milljónaþjóða. Margs konar máltæknibúnaður er vissulega góð markaðsvara og skilar miklum tekjum sem standa undir háum þróunarkostnaði – ef markaðurinn er nógu stór. En því er ekki að heilsa á Íslandi. Vegna smæðar markaðarins er ljóst að það verður seint arðvænlegt að þróa dýran máltæknibúnað fyrir íslensku. Vilji Íslendingar að íslenska sé nothæf innan tölvu- og upplýsingatækninnar þarf opinber stuðningur við þróunarstarf að koma til.

Þegar mikilvægi máltækni fyrir íslensku er metið verður að líta til þess að upplýsingatæknin er orðin mikilvægur þáttur í daglegu lífi alls almennings í landinu. Ef ekki verður hægt að nota íslensku á öllum sviðum upplýsingatækninnar kemur upp splunkuný staða, sem ekki á sér hliðstæðu fyrr í málsögunni. Þá verður orðið til mikilvægt svið í daglegu lífi venjulegs fólks, þar sem móðurmálið er gagnslítið eða ónothæft. Hvaða áhrif hefði slíkt umdæmistap á málnotendur og málsamfélagið? Hvað gæti gerst ef móðurmálið yrði ekki lengur nothæft í nýrri tækni og öðru sem er nýtt og spennandi; á sviðum þar sem nýsköpun af ýmsu tagi á sér stað; og á sviðum þar sem ný atvinnutækifæri bjóðast?

En íslensk máltækni hefur ekki eingöngu gildi fyrir tungumálið og varðveislu þess. Málnotendurnir og hagsmunir þeirra skipta ekki síður máli. Það er mannréttindamál að geta notað móðurmálið á öllum sviðum daglegs lífs, bæði í starfi og leik – líka innan upplýsingatækninnar. Til að svo megi verða þarf allur algengur hugbúnaður að vera á íslensku, leiðréttingarhugbúnaður fyrir íslenskan texta þarf að vera til, það þarf að vera hægt að tala við ýmis tölvustýrð tæki á íslensku, til þurfa að vera þýðingarforrit sem geta þýtt milli íslensku og annarra mála, og málnotendur þurfa að eiga aðgang að hugbúnaði sem getur unnið flóknar upplýsingar úr texta- og gagnasöfnum og leitað í þeim á margvíslegan hátt. Enn vantar mikið upp á að þessi markmið náist.