Tímamót í íslenskri máltækni

Frétt ársins ef ekki áratugarins á sviði íslensks máls er sú að íslenska hafi verið valin, eitt tungumála auk ensku, til þróunar á nýrri kynslóð gervigreindarmállíkans OpenAI. Þótt ég hafi ekki komið nálægt þeirri vinnu sem liggur þar að baki finnst mér þetta sérstaklega ánægjulegt eftir að hafa varið vinnutíma mínum undanfarinn aldarfjórðung að talsverðu leyti í íslenska máltækni og tekið þátt í fjölda þróunarverkefna og samstarfsneta á því sviði. Oft fannst manni lítið miða og takmarkaður skilningur ríkja á mikilvægi þessa starfs en nú er bjart fram undan.

Árið 1998, fyrir 25 árum, fékk Rögnvaldur Ólafsson dósent okkur Þorgeir Sigurðsson til liðs við sig til að semja skýrslu um stöðu og framtíð íslenskrar tungutækni eins og þetta svið var þá nefnt. Á laugardagskvöldi þá um haustið settist ég við tölvuna og samdi eftirfarandi lista um tíu verkefni sem ég lagði til að unnið yrði að.

  1. Ákveðnum aðilum (stofnunum eða fyrirtækjum) verði falin ábyrgð á einstökum verkefnum.
  2. Helstu tölvuforrit á almennum markaði verði á íslensku (Windows, Word, Excel; Netscape, Internet Explorer; Eudora; ...)
  3. Unnt verði að nota íslenska bókstafi (áéíóúýðþæöÁÉÍÓÚÝÐÞÆÖ) við allar aðstæður; í tölvum, GSM-símum o.s.frv.
  4. Til verði góð hjálparforrit við ritun texta á íslensku, s.s. orðskiptiforrit, stafsetningarleiðréttingarforrit, málfarsleiðréttingarforrit o.fl.
  5. Til verði góður íslenskur talgervill sem geti lesið upp íslenskan texta með skýrum og auðskiljanlegum framburði og eðlilegu tónfalli.
  6. Komið verði upp stórri tölvutækri textaheild með íslenskum textum af sem fjölbreyttustum toga til að byggja áframhaldandi vinnu á.
  7. Komið verði upp fullgreindu orðasafni (með málfræðilegri og merkingarlegri greiningu) til nota í áframhaldandi vinnu.
  8. Unnið verði að þróun talgreiningar fyrir íslensku, með það að markmiði að til verði forrit sem geti túlkað eðlilegt íslenskt tal.
  9. Unnið verði að þróun málgreiningar fyrir íslensku, með það að markmiði að geta greint íslenskan texta í orðflokka og setningarliði.
  10. Unnið verði að þróun forrita til vélrænna þýðinga milli íslensku og annarra tungumála, m.a. til að auðvelda leit í gagnabönkum.

Þessi listi rataði með smávægilegum breytingum inn í skýrsluna sem við skiluðum af okkur vorið eftir. Mér finnst hann hafa staðist tímans tönn nokkuð vel, en það er fyrst núna, í lok máltækniverkefnis stjórnvalda, sem segja má að allir þessir verkþættir séu komnir í viðunandi horf. Það er svo forsenda þess að hægt sé að halda áfram, m.a. í samstarfi við alþjóðleg tæknifyrirtæki eins og tilkynnt var um í dag. Framtíð íslenskrar máltækni er björt!