en English is Íslenska

Thesis (Bachelor's)

Reykjavík University > Tæknisvið / School of Technology > BSc Tölvunarfræðideild / Department of Computer Science >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1946/32311

Title: 
  • Named entity recogniser – an Icelandic prototype
  • Title is in Icelandic Nafnaþekkjari – íslensk frumgerð
Degree: 
  • Bachelor's
Abstract: 
  • Abstract is in Icelandic

    Nafnaþekkjari finnur og flokkar sérnöfn í texta. Hann er eitt af grunnverkfærum máltækni, einkum við þróun hugbúnaðar til upplýsingaútdráttar. Hér er kynnt til sögunnar frumgerð að íslenskum nafnaþekkjara sem er útfærður með gervitauganeti. Forsenda þjálfunar á slíkum netum er að til sé málheild þar sem sérnöfn eru auðkennd og rétt flokkuð. Slík þjálfunarmálheild hefur ekki verið til fyrir íslensku og var gerð hennar hluti af þessu verkefni. Við útfærslu nafnaþekkjarans var notuð tilbúin lausn sem kallast NeuroNER og er sérstaklega hönnuð með sérnafnaflokkun í huga. Niðurstöðurnar benda til þess að þetta sé raunhæf aðferð til að greina sérnöfn í íslensku (F1=81,3%), sérstaklega með tilliti til þess að þjálfunarmálheildin er ekki stór. Orðavigrar búnir til úr mun stærri málheild reyndust bæta niðurstöðurnar mjög, og eru verðugt rannsóknarefni.

  • A named entity recogniser finds named entities (proper nouns) in a text, and labels them by category. It is a fundamental tool in natural language processing, in particular in the development of information extraction systems. In this paper, we present a prototype of a named entity recogniser for Icelandic, based on artificial neural networks. The training of such networks requires a textual corpus where named entities have been labelled. As no such corpus exists for Icelandic, its creation is a subject of this project. The recogniser was built using NeuroNER, a software package designed for named entity recognition. The results indicate that this is a viable approach towards recognition of named entities in Icelandic (F1=81.3%), especially considering the moderate size of the training corpus. Word embeddings, created from a much larger unlabelled corpus, turned out to improve the results greatly, warranting further study.

Accepted: 
  • Jan 31, 2019
URI: 
  • http://hdl.handle.net/1946/32311


Files in This Item:
Filename Size VisibilityDescriptionFormat 
BSc_lokaskyrsla_Sigurjon_Svanhvit.pdf2.82 MBOpenComplete TextPDFView/Open