Máltækni

Haustið 1998 tók ég sæti í starfshópi sem gerði úttekt á íslenskri máltækni (tungutækni), og allt frá því hef ég varið meginhluta rannsóknartíma míns í ýmis verkefni á því sviði. Ég var í verkefnisstjórn stórra verkefna sem Tungutæknisjóður styrkti; íslensks markara, markaðrar íslenskrar málheildar, íslensks talgreinis og íslensks talgervils. Ég hef einnig tekið þátt í norrænum samstarfsnetum og verkefnum á þessu sviði; NorDokNet, NLTNet, Nordisk Netordbog og Tværsproglig søgning på tekster og ordbøger. Ég hef skrifað nokkrar yfirlitsgreinar um íslenska máltækni, bæði á íslensku og ensku (sjá hér að neðan).

Frá 2005 hef ég unnið að ýmsum samstarfsverkefnum á sviði máltækni í samstarfi við Hrafn Loftsson lektor í Háskólanum í Reykjavík og Sigrúnu Helgadóttur tölfræðing á Stofnun Árna Magnússonar í íslenskum fræðum o.fl. Helstu verkefnin eru hlutaþáttari fyrir íslensku, samhengisháð ritvilluleit og aukin mörkunarnákvæmni íslensks texta. Þessi verkefni hafa verið kynnt í allnokkrum erindum á alþjóðlegum ráðstefnum og í ráðstefnuritum (sjá hér að neðan).

Í ársbyrjun 2009 var rannsóknarhóp okkar veittur þriggja ára öndvegisstyrkur Rannsóknasjóðs, samtals tæpar 45 milljónir króna, til verkefnisins Viable Language Technology Beyond English. Verkefnið hafði að meginmarkmiði að þróa vísindalegar máltækniaðferðir sem henta auðlindalitlum tungumálum, einkum beyg­ingamálum. Það skiptist í þrjá verkþætti. Ég stýrði þeim umfangsmesta sem fólst í því að smíða trjábanka (setningafræðilega greint textasafn) fyrir íslensku – Sögulegan íslenskan trjábanka (Icelandic Parsed Historical Corpus, IcePaHC). Verkið var unnið í samvinnu við Joel Wallenberg nýdoktor hjá Málvísindastofnun en auk hans unnu að því meistaranemarnir Anton Karl Ingason og Einar Freyr Sigurðsson.

Frá 1. febrúar 2011 – 31. janúar 2013 stýrði ég íslenska hluta verkefnisins META-NORD sem er samstarfsverkefni Norðurlanda og Eystrasaltslanda og hluti af META-NET. Markmið þess var að efla málleg gagnasöfn sem nýst geti í margvíslegum máltækniverkefnum og skapa þannig tæknilegar forsendur fyrir margmála upplýsingasamfélagi í Evrópu þar sem allir geti notað móðurmál sitt við öflun og úrvinnslu upplýsinga.

Vorið 2010 tók ég sæti í verkefnisstjórn um gerð nýs íslensks talgervils sem Blindrafélagið beitti sér fyrir og var tilbúinn árið 2012. Árið 2011 tók ég einnig þátt í undirbúningi að gerð nýs íslensks talgreinis sem Máltæknisetur, Háskólinn í Reykjavík og Google unnu að. Frá 2013 tek ég þátt í undirbúningi að stofnun sjálfseignarfélagsins Almannarómur sem hefur það að markmiði að standa fyrir gerð máltæknilausna fyrir íslensku.

Rit og fyrirlestrar sem tengjast þessu rannsóknarsviði

  1. Georg Rehm, Hans Uszkoreit, Sophia Ananiadou, Núria Bel, Audronė Bielevičienė, Lars Borin, António Branco, Gerhard Budin, Nicoletta Calzolari, Walter Daelemans, Radovan Garabík, Marko Grobelnik, Carmen Garcia-Mateo, Josef van Genabith, Jan Hajic, Inma Hernaez, John Judge, Svetla Koeva, Simon Krek, Cvetana Krstev, Krister Linden, Bernardo Magnini, Joseph Mariani, John McNaught, Maite Melero, Monica Monachini, Asuncion Moreno, Jan Odijk, Maciej Ogrodniczuk, Piotr Pezik, Stelios Piperidis, Adam Przepiórkowski, Eiríkur Rögnvaldsson, Michael Rosner, Bolette Pedersen, Inguna Skadina, Koenraad De Smedt, Marko Tadić, Paul Thompson, Dan Tufiș, Tamás Váradi, Andrejs Vasiļjevs, Kadri Vider og Jolanta Zabarskaite. 2014. The Strategic Impact of META-NET on the Regional, National and International Level. Proceedings of LREC 2014, s. 1517-1524. Reykjavík.
  2. Anton Karl Ingason, Hrafn Loftsson, Eiríkur Rögnvaldsson, Einar Freyr Sigurðsson og Joel C. Wallenberg. 2014. Rapid Deployment of Phrase Structure Parsing for Related Languages: A Case Study of Insular Scandinavian. Proceedings of LREC 2014, s. 91-95. Reykjavík.
  3. Sigrún Helgadóttir, Hrafn Loftsson og Eiríkur Rögnvaldsson. 2014. Correcting Errors in a New Gold Standard for Tagging Icelandic Text. Proceedings of LREC 2014, s. 2944-2948. Reykjavík.
  4. Þórhallur Eyþórsson, Lars Borin, Dag Haug og Eiríkur Rögnvaldsson (ritstj.). 2013. Proceedings of the Workshop on Computational Historical Linguistics at NODALIDA 2013. NEALT Proceedings Series 18. Linköping Electronic Conference Proceedings, Linköping.
  5. De Smedt, Koenraad, Lars Borin, Krister Lindén, Bente Maegaard, Eiríkur Rögnvaldsson og Kadri Vider (ritstj.). 2013. Proceedings of the Workshop on Nordic Language Research Infrastructure at NODALIDA 2013. NEALT Proceedings Series 20. Linköping Electronic Conference Proceedings, Linköping.
  6. Pedersen, Bolette Sandford, Lars Borin, Markus Forsberg, Neeme Kahusk, Krister Lindén, Jyrki Niemi, Niklas Nisbeth, Lars Nygaard, Heili Orav, Hiríkur Rögnvaldsson, Mitchel Seaton, Kadri Vider og Kaarlo Voionmaa. 2013. Nordic and Baltic wordnets aligned and compared through “WordTies”. Oepen, Stephan, Kristin Hagen og Janne Bondi Johannessen (ritstj.): Proceedings of the 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), May 22–24, 2013, Oslo University, Norway, s. 147-162. NEALT Proceedings Series 16. Linköping Electronic Conference Proceedings, Linköping.
  7. Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2013. Language Resources for Icelandic. De Smedt, Koenraad, Lars Borin, Krister Lindén, Bente Maegaard, Eiríkur Rögnvaldsson og Kadri Vider (ritstj.): Proceedings of the Workshop on Nordic Language Research Infrastructure at NODALIDA 2013, s. 60-76. NEALT Proceedings Series 20. Linköping Electronic Conference Proceedings, Linköping.
  8. Eiríkur Rögnvaldsson. 2013. Chomsky og gagnamálfræði. Höskuldur Þráinsson og Matthew Whelpton (ritstj.): Chomsky: Mál, sál og samfélag, s. 197-206. Háskólaútgáfan, Reykjavík.
  9. Eiríkur Rögnvaldsson. 2013. Talmál og tilbrigði. Skráning, mörkun og setningafræðileg nýting talmálsgagna. Höskuldur Þráinsson, Ásgrímur Angantýsson og Einar Freyr Sigurðsson (ritstj.): Tilbrigði í íslenskri setningagerð I, s. 69-82. Málvísindastofnun Háskóla Íslands og Háskólaútgáfan, Reykjavík.
  10. Jón Guðnason, Oddur Kjartansson, Jökull Jóhannsson, Elín Carstensdóttir, Hannes Högni Vilhjálmsson, Hrafn Loftsson, Sigrún Helgadóttir, Kristín M. Jóhannsdóttir og Eiríkur Rögnvaldsson. 2012. Almannarómur: An Open Icelandic Speech Corpus. Proceedings of SLTU ’12, 3rd Workshop on Spoken Languages Technologies for Under-Resourced Languages, Cape Town, Suður-Afríku.
  11. Vasiljevs, Andrejs, Markus Forsberg, Tatiana Gornostay, Dorte H. Hansen, Kristín M. Jóhannsdóttir, Krister Lindén, Gunn I. Lyse, Lene Offersgaard, Ville Oksanen, Sussi Olsen, Bolette S. Pedersen, Eiríkur Rögnvaldsson, Roberts Rozis, Inguna Skadina og Koenraad de Smedt. 2012. Creation of an Open Shared Language Resource Repository in the Nordic and Baltic Countries. Proceedings of LREC 2012, Istanbúl, Tyrklandi.
  12. Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2012. The Icelandic Parsed Historical Corpus (IcePaHC). Proceedings of LREC 2012, Istanbúl, Tyrklandi.
  13. Sigrún Helgadóttir, Ásta Svavarsdóttir, Eiríkur Rögnvaldsson, Kristín Bjarnadóttir og Hrafn Loftsson. 2012. The Tagged Icelandic Corpus (MÍM). Proceedings of “Language Technology for Normalization of Less-Resourced Languages”, workshop at the 8th International Conference on Language Resources and Evaluation, LREC 2012, Istanbúl, Tyrklandi.
  14. Pedersen, Bolette Sandford, Lars Borin, Markus Forsberg, Krister Lindén, Heili Orav og Eiríkur Rögnvaldsson. 2012. Linking and Validating Nordic and Baltic Wordnets – A Multilingual Action in META-NORD. Proceedings of the Global Wordnet Conference, Matsue, Japan.
  15. Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Sigrún Helgadóttir og Steinþór Steingrímsson. 2012. Íslensk tunga á stafrænni öld / The Icelandic Language in the Digital Age. META-NET White Paper Series. Springer, Berlín.
  16. Eiríkur Rögnvaldsson, Anton Karl Ingason, Einar Freyr Sigurðsson og Joel Wallenberg. 2011. Creating a Dual-Purpose Treebank. Proceedings of the ACRH Workshop, Heidelberg, 5 Jan. 2012. Journal for Language Technology and Computational Linguistics 26,2:141-152.
  17. Skadina, Inguna, Andrejs Vasiljevs, Lars Borin, Koenraad De Smedt, Krister Lindén and Eiríkur Rögnvaldsson. 2011. META-NORD: Towards Sharing of Language Resources in Nordic and Baltic Countries. Proceedings of Workshop on Language Resources, Technology and Services in the Sharing Paradigm, s. 117-114. Chiang Mai, Thailandi.
  18. Eiríkur Rögnvaldsson. 2011. Íslensk talkennsl og talgerving. Hugrás, vefrit Hugvísindasviðs, 4. nóvember.
  19. Wallenberg, Joel C., Anton Karl Ingason, Einar Freyr Sigurðsson og Eiríkur Rögnvaldsson. 2011. Icelandic Parsed Historical Corpus (IcePaHC). Version 0.9. http://www.linguist.is/icelandic_treebank
  20. Eiríkur Rögnvaldsson. 2011. Margmála evrópskt máltæknisamstarf. Hugrás, vefrit Hugvísindasviðs, 6. maí.
  21. Eiríkur Rögnvaldsson. 2011. Kann tölvan þín íslensku? Hugrás, vefrit Hugvísindasviðs, 10. mars.
  22. Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2011. Using a morphological database to increase the accuracy in PoS tagging. Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), s. 49-55. Hissar, Búlgaríu.
  23. de Smedt, Koenraad, og Eiríkur Rögnvaldsson. 2011. The META-NORD language reports. Moshagen, Sjur Nørstebø, og Per Langgård (ritstj.): Proceedings of the NODALIDA 2011 Workshop Visibility and Availability of LT Resources, s. 23-27. NEALT Proceeding Series 13. Northern European Association for Language Technology (NEALT), Tartu University Library.
  24. Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Steinþór Steingrímsson, Hrafn Loftsson og Sigrún Helgadóttir. 2011. Languages in the European Information Society – Icelandic. META-NET DFKI Projektbüro, Berlín.
  25. Eiríkur Rögnvaldsson. 2011. Icelandic Language Technology: An Overview. Stickel, Gerhard, og Tamás Váradi (ritstj.): Language, Languages and New Technologies: ICT in the Service of Languages. Contributions to the Annual Conference 2010 of EFNIL in Thessaloniki, s. 187-195. (Duisburger Arbeiten zur Sprach- und Kulturwissenschaft, 87). Lang, Frankfurt am Main.
  26. Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2011. Morphosyntactic Tagging of Old Icelandic Texts and Its Use in Studying Syntactic Variation and Change. Sporleder, Caroline, Antal P.J. van den Bosch og Kalliopi A. Zervanou (ritstj:): Language Technology for Cultural Heritage: Selected Papers from the LaTeCH Workshop Series, s. 63-76. Springer, Berlín.
  27. Eiríkur Rögnvaldsson, Anton Karl Ingason og Einar Freyr Sigurðsson. 2011. Coping with Variation in the Icelandic Parsed Historical Corpus (IcePaHC). Johannessen, Janne Bondi (ritstj.): Language Variation Infrastructure. Papers on selected projects, s. 97-111. Oslo Studies in Language 3.2. University of Oslo, Osló.
  28. Eiríkur Rögnvaldsson. 2010. The State of Icelandic LT. Clarin Newsletter 11-12:17.
  29. Hrafn Loftsson, Eiríkur Rögnvaldsson og Sigrún Helgadóttir (ritstj.). 2010. Advances in Natural Language Processing: 7th International Conference on NLP, Icetal 2010, Reykjavik, Iceland, August 16-18, 2010, Proceedings. Springer, Berlín.
  30. Eiríkur Rögnvaldsson. 2010. Íslenska, upplýsingatækni og máltækni – fortíð og framtíð. [Óprentuð grein.]
  31. Eiríkur Rögnvaldsson. 2010. Sprogteknologiske ressourcer for islandsk leksikografi. LexicoNordica 17:181-195.
  32. Hrafn Loftsson, Jökull H. Yngvason, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2010. Developing a PoS-tagged corpus using existing tools. Sarasola, Kepa, Francis M. Tyers og Mikel L. Forcada (ritstj.): 7th SaLTMiL Workshop on Creation and Use of Basic Lexical Resources for Less-Resourced Languages, LREC 2010, s. 53-60. Valetta, Möltu.
  33. Domeij, Rickard, Kimmo Koskenniemi, Steven Krauwer, Bente Maegaard, Eiríkur Rögnvaldsson og Koenraad de Smedt (ritstj.). 2009. Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources. Northern European Association for Language Technology (NEALT), Tartu University Library.
  34. Eiríkur Rögnvaldsson. 2009. Máltækni og málstefna – íslenska innan upplýsingatækninnar. Skíma 1:40-43.
  35. Hrafn Loftsson, Ida Kramarczyk, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2009. Improving the PoS Tagging Accuracy of Icelandic Text. Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 103-110. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
  36. Anton Karl Ingason, Skúli Bernhard Jóhannsson, Eiríkur Rögnvaldsson, Hrafn Loftsson og Sigrún Helgadóttir. 2009. Context-Sensitive Spelling Correction and Rich Morphology. Jokinen, Kristiina, og Eckhard Bick (ritstj.): Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009, s. 231-234. NEALT Proceeding Series 4. Northern European Association for Language Technology (NEALT), Tartu University Library.
  37. Eiríkur Rögnvaldsson, Hrafn Loftsson, Kristín Bjarnadóttir, Sigrún Helgadóttir, Anna Björk Nikulásdóttir, Matthew Whelpton og Anton Karl Ingason. 2009. Icelandic Language Resources and Technology: Status and Prospects. Domeij, Rickard, Kimmo Koskenniemi, Steven Krauwer, Bente Maegaard, Eiríkur Rögnvaldsson og Koenraad de Smedt (ritstj.): Proceedings of the NODALIDA 2009 workshop Nordic Perspectives on the CLARIN Infrastructure of Language Resources, s. 27-32. Northern European Association for Language Technology (NEALT), Tartu University Library.
  38. Eiríkur Rögnvaldsson. 2008. Framtíð íslensku innan upplýsingatækninnar. [Óprentuð grein.]
  39. Anton Karl Ingason, Hrafn Loftsson, Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2008. A Mixed Method Lemmatization Algorithm Using a Hierarchy of Linguistic Identities (HOLI). Raante, Arne, og Bengt Nordström (ritstj.): Advances in Natural Language Processing, s. 205-216. (Lecture Notes in Computer Science, Vol. 5221.) Springer, Berlín.
  40. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2008. Linguistic Richness and Technical Aspects of an Incremental Finite-state Parser. Partial Parsing 2008. Between Chunking and Deep Parsing, s. 1-6. LREC 2008 workshop. Marrakech, Marokkó.
  41. Eiríkur Rögnvaldsson og Sigrún Helgadóttir. 2008. Morphological Tagging of Old Norse Texts and Its Use in Studying Syntactic Variation and Change. 2nd Workshop on Language Technology for Cultural Heritage Data, s. 40-46. LREC 2008 workshop. Marrakech, Marokkó.
  42. Eiríkur Rögnvaldsson. 2008. Icelandic Language Technology Ten Years Later. Collaboration: Interoperability between People in the Creation of Language Resources for Less-resourced Languages, s. 1-5. SALTMIL workshop, LREC 2008. Marrakech, Marokkó.
  43. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceNLP: a Natural Language Processing Toolkit for Icelandic. INTERSPEECH-2007, s. 1533-1536.
  44. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2007. IceParser: An Incremental Finite-State Parser for Icelandic. Nivre, Joakim, Heiki-Jaan Kaalep, Kadri Muischnek og Mare Koit (ritstj.): NODALIDA 2007 Conference Proceedings, s. 128–135. University of Tartu, Tartu.
  45. Eiríkur Rögnvaldsson. 2007. Textasöfn og setningagerð: Greining og leit. Orð og tunga 9:51–73.
  46. Eiríkur Rögnvaldsson, Björn Kristinsson og Sæmundur Þorsteinsson. 2006. Nýr íslenskur þulur að koma á markað. UT-blaðið 20. janúar, s. 26.
  47. Eiríkur Rögnvaldsson. 2006. Tungutækniverkefni sem Orðabók Háskólans tekur þátt í. Orð og tunga 8:57-59.
  48. Eiríkur Rögnvaldsson. 2006. Íslenska og upplýsingatækni. Morgunblaðið 8. febrúar, s. 30.
  49. Hrafn Loftsson og Eiríkur Rögnvaldsson. 2006. A Shallow Syntactic Annotation Scheme for Icelandic Text. Technical Report RUTR-SSE06004, Department of Computer Science, Reykjavik University, Reykjavík.
  50. Eiríkur Rögnvaldsson. 2006. The Corpus of Spoken Icelandic and Its Morpho­syn­tac­tic Annotation. Peter Juel Henrichsen & Peter Rossen Skadhauge (ritstj.): Treebanking for Discourse and Speech. Proceedings of the NODALIDA 2005 Special Session on Treebanks for Spoken Language and Discourse. Copenhagen Studies in Lan­guage 32, s. 133-145. Samfundslitteratur, Copenhagen.
  51. Sigrún Helgadóttir og Eiríkur Rögnvaldsson. 2005. Testing Data-Driven Learning Algorithms for PoS Tagging of Icelandic. Veggspjald á NODALIDA, Joensuu, 20.-21. maí.
  52. Eiríkur Rögnvaldsson. 2005. The Status and Prospects of Icelandic Language Technology. [Óprentuð grein.]
  53. Fersøe, Hanne, Eiríkur Rögnvaldsson og Koenraad de Smedt. 2005. NorDokNet – Network of Nordic Documentation Centres – Contacts to Future Baltic Partners. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2005:13-23.
  54. Eiríkur Rögnvaldsson. 2005. Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2004:31-33.
  55. Eiríkur Rögnvaldsson. 2005. Setningafræði í tungutækni. Höskuldur Þráinsson (ritstj.) Setningar. Handbók um setningafræði, bls. 670-676. (Íslensk tunga III.) Almenna bókafélagið, Reykjavík.
  56. Eiríkur Rögnvaldsson. 2005. Staða íslenskrar tungutækni við lok tungutækniátaks. Tölvumál 24.2.
  57. Eiríkur Rögnvaldsson. 2004. Icelandic Documentation Center for Language Technology. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:29-30.
  58. Eiríkur Rögnvaldsson. 2004. The Icelandic Speech Recognition Project Hjal. Henrik Holmboe (ritstj.): Nordisk Sprogteknologi. Årbog 2003:239-242.
  59. Eiríkur Rögnvaldsson. 2003. Phonetic Transcription Guideline: Icelandic. ScanSoft Inc.
  60. Eiríkur Rögnvaldsson, Auður Þórunn Rögnvaldsdóttir, Kristín Bjarnadóttir og Sigrún Helgadóttir. 2002b. Vélræn málfræðigreining með námfúsum markara. Orð og tunga 6:1-9.
  61. Eiríkur Rögnvaldsson. 2002. The Icelandic m-TBL Experiment: m-TBL Rules for Icelandic Compared to English Rules. [Óprentuð grein.]
  62. Eiríkur Rögnvaldsson. 2001. Tungumál, tölvur og tungutækni. Íslenskt mál 23:71-93.
  63. Eiríkur Rögnvaldsson. 2001. Mál og tölvur. Þórunn Blöndal og Heimir Pálsson (ritstj.): Alfræði íslenskrar tungu. [Margmiðlunardiskur.] Lýðveldissjóður og Námsgagnastofnun, Reykjavík.
  64. Rögnvaldur Ólafsson og Eiríkur Rögnvaldsson. 1999. Skýrsla um tungutækni. Tölvumál 24,3:30-32.
  65. Rögnvaldur Ólafsson, Eiríkur Rögnvaldsson og Þorgeir Sigurðsson. 1999. Tungutækni. Skýrsla starfshóps. Menntamálaráðuneytið, Reykjavík.
  66. Eiríkur Rögnvaldsson. 1998. Tungutækni. Mímir 46:69-71.
  67. Eiríkur Rögnvaldsson. 1998. Informationsteknologien og små sprogsamfund. Sprog i Norden, s. 82-93.