Máltækni

Haustið 1998 tók ég sæti í starfshópi sem gerði úttekt á íslenskri máltækni (tungutækni), og allt frá því hef ég varið stórum hluta rannsóknartíma míns í ýmis verkefni á því sviði. Ég var í verkefnisstjórn stórra verkefna sem Tungutæknisjóður styrkti; íslensks markara, markaðrar íslenskrar málheildar, íslensks talgreinis og íslensks talgervils. Ég hef einnig tekið þátt í norrænum samstarfsnetum og verkefnum á þessu sviði; NorDokNet, NLTNet, Nordisk Netordbog og Tværsproglig søgning på tekster og ordbøger. Ég hef skrifað nokkrar yfirlitsgreinar um íslenska máltækni, bæði á íslensku og ensku (sjá hér að neðan).

Frá 2005 hef ég unnið að ýmsum samstarfsverkefnum á sviði máltækni í samstarfi við Hrafn Loftsson lektor í Háskólanum í Reykjavík og Sigrúnu Helgadóttur tölfræðing á Stofnun Árna Magnússonar í íslenskum fræðum o.fl. Helstu verkefnin eru hlutaþáttari fyrir íslensku, samhengisháð ritvilluleit og aukin mörkunarnákvæmni íslensks texta. Þessi verkefni hafa verið kynnt í allnokkrum erindum á alþjóðlegum ráðstefnum og í ráðstefnuritum (sjá hér að neðan).

Í ársbyrjun 2009 var rannsóknarhóp okkar veittur þriggja ára öndvegisstyrkur Rannsóknasjóðs, samtals tæpar 45 milljónir króna, til verkefnisins Viable Language Technology Beyond English. Verkefnið hafði að meginmarkmiði að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beyg­ingamálum. Það skiptist í þrjá verkþætti. Ég stýrði þeim umfangsmesta sem fólst í því að smíða trjábanka (setningafræðilega greint textasafn) fyrir íslensku - Sögulegan íslenskan trjábanka (Icelandic Parsed Historical Corpus, IcePaHC). Verkið var unnið í samvinnu við Joel Wallenberg nýdoktor hjá Málvísindastofnun en auk hans unnu að því meistaranemarnir Anton Karl Ingason og Einar Freyr Sigurðsson.

Frá 1. febrúar 2011 - 31. janúar 2013 stýrði ég íslenska hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Markmið þess var að efla málleg gagnasöfn sem nýst geti í margvíslegum máltækniverkefnum og skapa þannig tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu upplýsinga.

Vorið 2010 tók ég sæti í verkefnisstjórn um gerð nýs íslensks talgervils sem Blindrafélagið beitti sér fyrir og var tilbúinn árið 2012. Árið 2011 tók ég einnig þátt í undirbúningi að gerð nýs íslensks talgreinis sem Máltæknisetur, Háskólinn í Reykjavík og Google unnu að. Frá 2014 hef ég tekið þátt í starfi sjálfseignarstofnunarinnar Almannarómur sem hefur það að markmiði að standa fyrir gerð máltæknilausna fyrir íslensku.

Árið 2015 var ég í forsvari fyrir hóp sem fékk styrk úr Innviðasjóði til að koma upp risastórri íslenskri málheild. Steinþór Steingrímsson, Sigrún Helgadóttir o.fl. unnu verkið að mestu leyti. Risamálheildin var svo opnuð vorið 2018.

Rit og fyrirlestrar sem tengjast þessu rannsóknarsviði

  1. Steinþór Steingrímsson, Sigrún Helgadóttir, Eiríkur Rögnvaldsson, Starkaður Barkarson og Jón Guðnason. 2018. Risamálheild: A Very Large Icelandic Text Corpus. Proceedings of LREC 2018, s. 4361-4366. Myazaki, Japan.
  2. Steinþór Steingrímsson, Jón Guðnason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2017. Málrómur: A Manually Verified Corpus of Recorded Icelandic Speech. Proceedings of the 21st Nordic Conference of Computational Linguistics (NODALIDA-2015), s.237-240. Linköping, Linköping University Electronic Press.
  3. Eiríkur Rögnvaldsson. 2016. Stafrænt líf íslenskunnar – eða stafrænn dauði? Tölvumál41,1:6-7.
  4. Eiríkur Rögnvaldsson. 2015. Verður íslenska gjaldgeng í stafrænum heimi? Hugrás, vefrit Hugvísindasviðs, 29. október.
  5. Steinþór Steingrímsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2015. Analysing Inconsistencies and Errors in PoS Tagging in two Icelandic Gold Standards. Proceedings of the 20th Nordic Conference of Computational Linguistics (NODALIDA-2015). Vilnius.
  6. Georg Rehm, Hans Uszkoreit, Sophia Ananiadou, Núria Bel, Audronė Bielevičienė, Lars Borin, António Branco, Gerhard Budin, Nicoletta Calzolari, Walter Daelemans, Radovan Garabík, Marko Grobelnik, Carmen Garcia-Mateo, Josef van Genabith, Jan Hajic, Inma Hernaez, John Judge, Svetla Koeva, Simon Krek, Cvetana Krstev, Krister Linden, Bernardo Magnini, Joseph Mariani, John McNaught, Maite Melero, Monica Monachini, Asuncion Moreno, Jan Odijk, Maciej Ogrodniczuk, Piotr Pezik, Stelios Piperidis, Adam Przepiórkowski, Eiríkur Rögnvaldsson, Michael Rosner, Bolette Pedersen, Inguna Skadina, Koenraad De Smedt, Marko Tadić, Paul Thompson, Dan Tufiș, Tamás Váradi, Andrejs Vasiļjevs, Kadri Vider og Jolanta Zabarskaite. 2014. The Strategic Impact of META-NET on the Regional, National and International Level. Proceedings of LREC 2014, s. 1517-1524. Reykjavík.
  7. Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson og Joel C. Wallenberg. 2014. Rapid Deployment of Phrase Structure Parsing for Related Languages: A Case Study of Insular Scandinavian. Proceedings of LREC 2014, s. 91-95. Reykjavík.
  8. Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2014. Correcting Errors in a New Gold Standard for Tagging Icelandic Text. Proceedings of LREC 2014, s. 2944-2948. Reykjavík.
  9. Þórhallur Eyþórsson, Lars Borin, Dag Haug og Eiríkur Rögnvaldsson (ritstj.). 2013. Proceedings of the Workshop on Computational Historical Linguistics at NODALIDA 2013. NEALT Proceedings Series 18. Linköping Electronic Conference Proceedings, Linköping.
  10. De Smedt, Koenraad, Lars Borin, Krister Lindén, Bente Maegaard, Eiríkur Rögnvaldsson og Kadri Vider (ritstj.). 2013. Proceedings of the Workshop on Nordic Language Research Infrastructure at NODALIDA 2013. NEALT Proceedings Series 20. Linköping Electronic Conference Proceedings, Linköping.
  11. Pedersen, Bolette Sandford, Lars Borin, Markus Forsberg, Neeme Kahusk, Krister Lindén, Jyrki Niemi, Niklas Nisbeth, Lars Nygaard, Heili Orav, Hiríkur Rögnvaldsson, Mitchel Seaton, Kadri Vider og Kaarlo Voionmaa. 2013. Nordic and Baltic wordnets aligned and compared through “WordTies”. Oepen, Stephan, Kristin Hagen og Janne Bondi Johannessen (ritstj.): Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), May 22–24, 2013, Oslo University, Norway, s. 147-162. NEALT Proceedings Series 16. Linköping Electronic Conference Proceedings, Linköping.
  12. Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2013. Language Resources for Icelandic. De Smedt, Koenraad, Lars Borin, Krister Lindén, Bente Maegaard, Eiríkur Rögnvaldsson og Kadri Vider (ritstj.): Proceedings of the Workshop on Nordic Language Research Infrastructure at NODALIDA 2013, s. 60-76. NEALT Proceedings Series 20. Linköping Electronic Conference Proceedings, Linköping.
  13. Eiríkur Rögnvaldsson. 2013. Chomsky og gagnamálfræði. Höskuldur Þráinsson og Matthew Whelpton (ritstj.): Chomsky: Mál, sál og samfélag, s. 197-206. Háskólaútgáfan, Reykjavík.
  14. Eiríkur Rögnvaldsson. 2013. Talmál og tilbrigði. Skráning, mörkun og setningafræðileg nýting talmálsgagna. Höskuldur Þráinsson, Ásgrímur Angantýsson og Einar Freyr Sigurðsson (ritstj.): Tilbrigði í íslenskri setningagerð I, s. 69-82. Málvísindastofnun Háskóla Íslands og Háskólaútgáfan, Reykjavík.
  15. Jón Guðnason, Oddur Kjartansson, Jökull Jóhannsson, Elín Carstensdóttir, Hannes Högni Vilhjálmsson, Hrafn Loftsson, Sigrún Helgadóttir, Kristín M. Jóhannsdóttir og Eiríkur Rögnvaldsson. 2012. Almannarómur: An Open Icelandic Speech Corpus. Proceedings of SLTU '12, 3rd Workshop on Spoken Languages Technologies for Under-Resourced Languages, Cape Town, Suður-Afríku.
  16. Vasiljevs, Andrejs, Markus Forsberg, Tatiana Gornostay, Dorte H. Hansen, Kristín M. Jóhannsdóttir, Krister Lindén, Gunn I. Lyse, Lene Offersgaard, Ville Oksanen, Sussi Olsen, Bolette S. Pedersen, Eiríkur Rögnvaldsson, Roberts Rozis, Inguna Skadina og Koenraad de Smedt. 2012. Creation of an Open Shared Language Resource Repository in the Nordic and Baltic Countries. Proceedings of LREC 2012, Istanbúl, Tyrklandi.
  17. Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, Istanbúl, Tyrklandi.
  18. Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of “Language Technology for Normalization of Less-Resourced Languages”, workshop at the 8th International Conference on Language Resources and Evaluation, LREC 2012, Istanbúl, Tyrklandi.
  19. Pedersen, Bolette Sandford, Lars Borin, Markus Forsberg, Krister Lindén, Heili Orav og Eiríkur Rögnvaldsson. 2012. Linking and Validating Nordic and Baltic Wordnets - A Multilingual Action in META-NORD. Proceedings of the Global Wordnet Conference, Matsue, Japan.
  20. Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Sigrún Helgadóttir og Steinþór Steingrímsson. 2012. Íslensk tunga á stafrænni öld / The Icelandic Language in the Digital Age. META-NET White Paper Series. Springer, Berlín.
  21. Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2011. Creating a Dual-Purpose Treebank. Proceedings of the ACRH Workshop, Heidelberg, 5 Jan. 2012. Journal for Language Technology and Computational Linguistics 26,2:141-152.
  22. Skadina, Inguna, Andrejs Vasiljevs, Lars Borin, Koenraad De Smedt, Krister Lindén and Eiríkur Rögnvaldsson. 2011. META-NORD: Towards Sharing of Language Resources in Nordic and Baltic Countries. Proceedings of Workshop on Language Resources, Technology and Services in the Sharing Paradigm, s. 117-114. Chiang Mai, Thailandi.
  23. Eiríkur Rögnvaldsson. 2011. Íslensk talkennsl og talgerving. Hugrás, vefrit Hugvísindasviðs, 4. nóvember.
  24. Wallenberg, Joel C., Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC). Version 0.9. http://www.linguist.is/icelandic_treebank
  25. Eiríkur Rögnvaldsson. 2011. Margmála evrópskt máltæknisamstarf. Hugrás, vefrit Hugvísindasviðs, 6. maí.
  26. Eiríkur Rögnvaldsson. 2011. Kann tölvan þín íslensku? Hugrás, vefrit Hugvísindasviðs, 10. mars.
  27. Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2011. Using a morphological database to increase the accuracy in PoS tagging. Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), s. 49-55. Hissar, Búlgaríu.
  28. de Smedt, Koenraad, og Eiríkur Rögnvaldsson. 2011. The META-NORD language reports. Moshagen, Sjur Nørstebø, og Per Langgård (ritstj.): Proceedings of the NODALIDA 2011 Workshop Visibility and Availability of LT Resources, s. 23-27. NEALT Proceeding Series 13. Northern European Association for Language Technology (NEALT), Tartu University Library.
  29. Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Steinþór Steingrímsson, Hrafn Loftsson og Sigrún Helgadóttir. 2011. Languages in the European Information Society - Icelandic. META-NET DFKI Projektbüro, Berlín.
  30. Eiríkur Rögnvaldsson. 2011. Icelandic Language Technology: An Overview. Stickel, Gerhard, og Tamás Váradi (ritstj.): Language, Languages and New Technologies: ICT in the Service of Languages. Contributions to the Annual Conference 2010 of EFNIL in Thessaloniki, s. 187-195. (Duisburger Arbeiten zur Sprach- und Kulturwissenschaft, 87). Lang, Frankfurt am Main.
  31. Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.
  32. Eiríkur Rögnvaldsson, Anton Karl Ingason og Einar Freyr Sigurðsson. 2011. Coping with Variation in the Icelandic Parsed Historical Corpus (IcePaHC). Johannessen, Janne Bondi (ritstj.): Language Variation Infrastructure. Papers on selected projects, s. 97-111. Oslo Studies in Language 3.2. University of Oslo, Osló.
  33. Eiríkur Rögnvaldsson. 2010. The State of Icelandic LT. Clarin Newsletter 11-12:17.
  34. Hrafn Loftsson, Eiríkur Rögnvaldsson og Sigrún Helgadóttir (ritstj.). 2010. Advances in Natural Language Processing: 7th International Conference on NLP, Icetal 2010, Reykjavik, Iceland, August 16-18, 2010, Proceedings. Springer, Berlín.
  35. Eiríkur Rögnvaldsson. 2010. Íslenska, upplýsingatækni og máltækni – fortíð og framtíð. [Óprentuð grein.]
  36. Eiríkur Rögnvaldsson. 2010. Sprogteknologiske ressourcer for islandsk leksikografi. LexicoNordica 17:181-195.
  37. Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 53-60. Valetta, Möltu.
  38. Domeij, Rickard, Kimmo Koskenniemi, Steven Krauwer, Bente Maegaard, Eiríkur Rögnvaldsson og Koenraad de Smedt (ritstj.). 2009. Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources. Northern European Association for Language Technology (NEALT), Tartu University Library.
  39. Eiríkur Rögnvaldsson. 2009. Máltækni og málstefna – íslenska innan upplýsingatækninnar. Skíma 1:40-43.
  40. Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS Tagging Accuracy of Icelandic Text. Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 103-110. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
  41. Anton Karl Ingason, Skúli Bernhard Jóhannsson, Eiríkur Rögnvaldsson, Hrafn Loftsson og Sigrún Helgadóttir. 2009. Context-Sensitive Spelling Correction and Rich Morphology. Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 231-234. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
  42. Eiríkur Rögnvaldsson, Hrafn Loftsson, Kristín Bjarnadóttir, Sigrún Helgadóttir, Anna Björk Nikulásdóttir, Matthew Whelpton og Anton Karl Ingason. 2009. Icelandic Language Resources and Technology: Status and Prospects. Domeij, Rickard, Kimmo Koskenniemi, Steven Krauwer, Bente Maegaard, Eiríkur Rögnvaldsson og Koenraad de Smedt (ritstj.): Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources, s. 27-32. Northern European Association for Language Technology (NEALT), Tartu University Library.
  43. Eiríkur Rögnvaldsson. 2008. Framtíð íslensku innan upplýsingatækninnar. [Óprentuð grein.]
  44. Anton Karl Ingason, Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI). Raante, Arne, og Bengt Nordström (ritstj.): Advances in Natural Language Processing, s. 205-216. (Lecture Notes in Computer Science, Vol. 5221.) Springer, Berlín.
  45. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. Linguistic Richness and Technical Aspects of an Incremental Finite-state Parser. Partial Parsing 2008. Between Chunking and Deep Parsing, s. 1-6. LREC 2008 workshop. Marrakech, Marokkó.
  46. Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2008. Morphological Tagging of Old Norse Texts and Its Use in Studying Syntactic Variation and Change. 2nd Workshop on Language Technology for Cultural Heritage Data, s. 40-46. LREC 2008 workshop. Marrakech, Marokkó.
  47. Eiríkur Rögnvaldsson. 2008. Icelandic Language Technology Ten Years Later. Collaboration: Interoperability between People in the Creation of Language Resources for Less-resourced Languages, s. 1-5. SALTMIL workshop, LREC 2008. Marrakech, Marokkó.
  48. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: a Natural Language Processing Toolkit for Icelandic. INTERSPEECH-2007, s. 1533-1536.
  49. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceParser: An Incremental Finite-State Parser for Icelandic. Nivre, Joakim, Heiki-Jaan Kaalep, Kadri Muischnek og Mare Koit (ritstj.): NODALIDA 2007 Conference Proceedings, s. 128–135. University of Tartu, Tartu.
  50. Eiríkur Rögnvaldsson. 2007. Textasöfn og setningagerð: Greining og leit. Orð og tunga 9:51–73.
  51. Eiríkur Rögnvaldsson, Björn Kristinsson og Sæmundur Þorsteinsson. 2006. Nýr íslenskur þulur að koma á markað. UT-blaðið 20. janúar, s. 26.
  52. Eiríkur Rögnvaldsson. 2006. Tungutækniverkefni sem Orðabók Háskólans tekur þátt í. Orð og tunga 8:57-59.
  53. Eiríkur Rögnvaldsson. 2006. Íslenska og upplýsingatækni. Morgunblaðið 8. febrúar, s. 30.
  54. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2006. A Shallow Syntactic Annotation Scheme for Icelandic Text. Technical Report RUTR-SSE06004, Department of Computer Science, Reykjavik University, Reykjavík.
  55. Eiríkur Rögnvaldsson. 2006. The Corpus of Spoken Icelandic and Its Morpho­syn­tac­tic Annotation. Peter Juel Henrichsen & Peter Rossen Skadhauge (ritstj.): Treebanking for Discourse and Speech. Proceedings of the NODALIDA 2005 Special Session on Treebanks for Spoken Language and Discourse. Copenhagen Studies in Lan­guage 32, s. 133-145. Samfundslitteratur, Copenhagen.
  56. Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2005. Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic. Veggspjald á NODALIDA, Joensuu, 20.-21. maí.
  57. Eiríkur Rögnvaldsson. 2005. The Status and Prospects of Icelandic Language Technology. [Óprentuð grein.]
  58. Fersøe, Hanne, Eiríkur Rögnvaldsson og Koenraad de Smedt. 2005. NorDokNet – Network of Nordic Documentation Centres – Contacts to Future Baltic Partners. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2005:13-23.
  59. Eiríkur Rögnvaldsson. 2005. Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2004:31-33.
  60. Eiríkur Rögnvaldsson. 2005. Setningafræði í tungutækni. Höskuldur Þráinsson (ritstj.) Setningar. Handbók um setningafræði, bls. 670-676. (Íslensk tunga III.) Almenna bókafélagið, Reykjavík.
  61. Eiríkur Rögnvaldsson. 2005. Staða íslenskrar tungutækni við lok tungutækniátaks. Tölvumál 24.2.
  62. Eiríkur Rögnvaldsson. 2004. Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:29-30.
  63. Eiríkur Rögnvaldsson. 2004. The Icelandic Speech Recognition Project Hjal. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:239-242.
  64. Eiríkur Rögnvaldsson. 2003. Phonetic Transcription Guideline: Icelandic. ScanSoft Inc.
  65. Eiríkur Rögnvaldsson, Auður Þórunn Rögnvaldsdóttir, Kristín Bjarnadóttir og Sigrún Helgadóttir. 2002b. Vélræn málfræðigreining með námfúsum markara. Orð og tunga 6:1-9.
  66. Eiríkur Rögnvaldsson. 2002. The Icelandic m-TBL Experiment: m-TBL Rules for Icelandic Compared to English Rules. [Óprentuð grein.]
  67. Eiríkur Rögnvaldsson. 2001. Tungumál, tölvur og tungutækni. Íslenskt mál 23:71-93.
  68. Eiríkur Rögnvaldsson. 2001. Mál og tölvur. Þórunn Blöndal og Heimir Pálsson (ritstj.): Alfræði íslenskrar tungu. [Margmiðlunardiskur.] Lýðveldissjóður og Námsgagnastofnun, Reykjavík.
  69. Rögnvaldur Ólafsson og Eiríkur Rögnvaldsson. 1999. Skýrsla um tungutækni. Tölvumál 24,3:30-32.
  70. Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson. 1999. Tungutækni. Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík.
  71. Eiríkur Rögnvaldsson. 1998. Tungutækni. Mímir 46:69-71.
  72. Eiríkur Rögnvaldsson. 1998. Informationsteknologien og små sprogsamfund. Sprog i Norden, s. 82-93.

Haustið 1998 tók ég sæti í starfshópi sem gerði úttekt á íslenskri máltækni (tungutækni) (1999), og allt frá því hef ég varið meginhluta rannsóknartíma míns í ýmis verkefni á því sviði. Ég var í verkefnisstjórn stórra verkefna sem Tungutæknisjóður styrkti; íslensks markara, markaðrar íslenskrar málheildar, íslensks talgreinis og íslensks talgervils. Ég hef einnig tekið þátt í norrænum samstarfsnetum og verkefnum á þessu sviði; NorDokNet, NLTNet, Nordisk Netordbog og Tværsproglig søgning på tekster og ordbøger. Ég hef skrifað yfirlitsgreinar um íslenska máltækni, bæði á íslensku og ensku.

Frá 2005 hef ég unnið að ýmsum samstarfsverkefnum á sviði máltækni í samstarfi við Hrafn Loftsson lektor í Háskólanum í Reykjavík og Sigrúnu Helgadóttur tölfræðing á Stofnun Árna Magnússonar í íslenskum fræðum, Anton Karl Ingason meistaranema í máltækni o.fl. Helstu verkefnin eru hlutaþáttari fyrir íslensku, samhengisháð ritvilluleit og aukin mörkunarnákvæmni íslensks texta. Þessi verkefni hafa verið kynnt í allnokkrum erindum á alþjóðlegum ráðstefnum og birst í ráðstefnuritum.

Í ársbyrjun 2009 var rannsóknarhóp okkar veittur þriggja ára öndvegisstyrkur Rannsóknasjóðs, samtals tæpar 45 milljónir króna, til verkefnisins Viable Language Technology Beyond English. Verkefnið hefur að meginmarkmiði að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beyg­ingamálum. Það skiptist í þrjá verkþætti. Ég stýri þeim umfangsmesta sem felst í því að smíða trjábanka (setningafræðilega greint textasafn) fyrir íslensku. Verkið er unnið í samvinnu við Joel Wallenberg nýdoktor hjá Málvísindastofnun en auk hans vinna að því meistaranemarnir Anton Karl Ingason og Einar Freyr Sigurðsson.

Frá 1. febrúar 2011 stýri ég íslenska hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Markmið þess er að efla málleg gagnasöfn sem nýst geti í margvíslegum máltækniverkefnum og skapa þannig tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu upplýsinga.

Rit og fyrirlestrar sem tengjast þessu rannsóknarsviði

2011c: Icelandic Language Technology: An Overview. Væntanlegt í EFNIL Proceedings 2010.
2011b: Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. (Ásamt Sigrúnu Helgadóttur.) Væntanlegt í Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage. Springer, Berlín.
2011a: Coping with Variation in the Icelandic Diachronic Treebank. (Ásamt Antoni Karli Ingasyni og Einari Frey Sigurðssyni.) Væntanlegt í Oslo Studies in Language.
2010f: Advances in Natural Language Processing: 7th International Conference on NLP, Icetal 2010, Reykjavik, Iceland, August 16-18, 2010, Proceedings. Ritstj. Hrafn Loftsson, Eiríkur Rögnvaldsson og Sigrún Helgadóttir. Springer, Berlín.
2010e: Íslenska, upplýsingatækni og máltækni – fortíð og framtíð. [Óprentuð grein.]
2010d: Sprogteknologiske ressourcer for islandsk leksikografi. LexicoNordica 17:181-195.
2010c: Developing a PoS-tagged corpus using existing tools. (Ásamt Hrafni Loftssyni, Jökli H. Yngvasyni og Sigrúnu Helgadóttur.) Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 53-60. Valetta, Möltu.
2009e: Máltækni og málstefna – íslenska innan upplýsingatækninnar. Skíma 1:40-43.
2009c: Improving the PoS Tagging Accuracy of Icelandic Text. (Ásamt Hrafni Loftssyni, Idu Kramarczyk og Sigrúnu Helgadóttur.) Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 103-110. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
2009b: Context-Sensitive Spelling Correction and Rich Morphology. (Ásamt Antoni Karli Ingasyni, Skúla Bernhard Jóhannssyni, Hrafni Loftssyni og Sigrúnu Helgadóttur.) Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 231-234. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
2009a: Icelandic Language Resources and Technology: Status and Prospects. (Ásamt Hrafni Loftssyni, Kristínu Bjarnadóttur, Sigrúnu Helgadóttur, Önnu Björk Nikulásdóttur, Matthew Whelpton og Antoni Karli Ingasyni.) Domeij, Rickard, Kimmo Koskenniemi, Steven Krauwer, Bente Maegaard, Eiríkur Rögnvaldsson og Koenraad de Smedt (ritstj.): Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources ,s. 27-32. Northern European Association for Language Technology (NEALT), Tartu University Library.
2008g: A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI). (Ásamt Antoni Karli Ingasyni, Hrafni Loftssyni og Sigrúnu Helgadóttur.) Raante, Arne, og Bengt Nordström (ritstj.): Advances in Natural Language Processing, s. 205-216. (Lecture Notes in Computer Science, Vol. 5221.) Springer, Berlín.
2008f: Linguistic Richness and Technical Aspects of an Incremental Finite-state Parser. (Ásamt Hrafni Loftssyni.) Partial Parsing 2008. Between Chunking and Deep Parsing, s. 1-6. LREC 2008 workshop. Marrakech, Marokkó.
2008e: Morphological Tagging of Old Norse Texts and Its Use in Studying Syntactic Variation and Change. (Ásamt Sigrúnu Helgadóttur.) 2nd Workshop on Language Technology for Cultural Heritage Data, s. 40-46. LREC 2008 workshop. Marrakech, Marokkó.
2008d: Icelandic Language Technology Ten Years Later. Collaboration: Interoperability between People in the Creation of Language Resources for Less-resourced Languages, s. 1-5. SALTMIL workshop, LREC 2008. Marrakech, Marokkó.
2007d: IceNLP: a Natural Language Processing Toolkit for Icelandic. (Ásamt Hrafni Loftssyni.) INTERSPEECH-2007, s. 1533-1536.
2007b: IceParser: An Incremental Finite-State Parser for Icelandic. (Ásamt Hrafni Loftssyni.) Nivre, Joakim, Heiki-Jaan Kaalep, Kadri Muischnek og Mare Koit (ritstj.): NODALIDA 2007 Conference Proceedings, s. 128–135. University of Tartu, Tartu.
2007a: Textasöfn og setningagerð: Greining og leit. Orð og tunga 9:51–73.
2006f: Íslenska og upplýsingatækni. Morgunblaðið 8. febrúar, s. 30.
2006e: Nýr íslenskur þulur að koma á markað. (Ásamt Birni Kristinssyni og Sæmundi Þorsteinssyni.) Morgunblaðið 20. janúar.
2006c: A Shallow Syntactic Annotation Scheme for Icelandic Text. (Ásamt Hrafni Loftssyni.) Technical Report RUTR-SSE06004, Department of Computer Science, Reykjavik University, Reykjavík.
2006a: The Corpus of Spoken Icelandic and Its Morpho­syn­tac­tic Annotation. Peter Juel Henrichsen & Peter Rossen Skadhauge (ritstj.): Treebanking for Discourse and Speech. Proceedings of the NODALIDA 2005 Special Session on Treebanks for Spoken Language and Discourse. Copenhagen Studies in Lan­guage 32, s. 133-145. Samfundslitteratur, Copenhagen.
2005g: Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic. (Ásamt Sigrúnu Helgadóttur.) Veggspjald á NODALIDA, Joensuu, 20.-21. maí.
2005e: NorDokNet – Network of Nordic Documentation Centres – Contacts to Future Baltic Partners. (Ásamt Hanne Fersøe og Koenraad de Smedt.) Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2005:13-23.
2005d: Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2004:31-33.
2005c: Setningafræði í tungutækni. Höskuldur Þráinsson (ritstj.) Setningar. Handbók um setningafræði, bls. 670-676. (Íslensk tunga III.) Almenna bókafélagið, Reykjavík.
2005a: Staða íslenskrar tungutækni við lok tungutækniátaks. Tölvumál 24.2.
2004b: Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:29-30.
2004a: The Icelandic Speech Recognition Project Hjal. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:239-242.
2003: Phonetic Transcription Guideline: Icelandic. ScanSoft Inc.
2002e: Corpus of Spoken Icelandic (ÍS-TAL). Henrik Holmboe (ritstj.): Nordisk Sprog­teknologi. Årbog 2001:43-44.
2002b: Vélræn málfræðigreining með námfúsum markara. (Ásamt Auði Þórunni Rögnvaldsdóttur, Kristínu Bjarnadóttur og Sigrúnu Helgadóttur.) Orð og tunga 6:1-9.
2002a: The Icelandic m-TBL Experiment: m-TBL Rules for Icelandic Compared to English Rules. [Óprentuð ritgerð.]
2001f: Tungumál, tölvur og tungutækni. Íslenskt mál 23:71-93.
2001b: Mál og tölvur. Þórunn Blöndal og Heimir Pálsson (ritstj.): Alfræði íslenskrar tungu. [Margmiðlunardiskur.] Lýðveldissjóður og Námsgagnastofnun, Reykjavík.
1999b: Skýrsla um tungutækni. (Ásamt Rögnvaldi Ólafssyni.) Tölvumál 24.
1999a: Tungutækni. Skýrsla starfshóps. (Ásamt Rögnvaldi Ólafssyni og Þorgeiri Sigurðssyni.) Menntamálaráðuneytið, Reykjavík.
1998b: Informationsteknologien og små sprogsamfund. Sprog i Norden, s. 82-93.
1990k: Papers from the Seventh Scandinavian Conference of Computational Linguistics. Ed. by Jörgen Pind & Eiríkur Rögnvaldsson. Institute of Lexicography & Institute of Linguistics, Reykjavík.