is Íslenska en English

Lokaverkefni (Bakkalár)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > BSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/32311

Titill: 
  • Titill er á ensku Named entity recogniser – an Icelandic prototype
  • Nafnaþekkjari – íslensk frumgerð
Námsstig: 
  • Bakkalár
Leiðbeinandi: 
Útdráttur: 
  • Nafnaþekkjari finnur og flokkar sérnöfn í texta. Hann er eitt af grunnverkfærum máltækni, einkum við þróun hugbúnaðar til upplýsingaútdráttar. Hér er kynnt til sögunnar frumgerð að íslenskum nafnaþekkjara sem er útfærður með gervitauganeti. Forsenda þjálfunar á slíkum netum er að til sé málheild þar sem sérnöfn eru auðkennd og rétt flokkuð. Slík þjálfunarmálheild hefur ekki verið til fyrir íslensku og var gerð hennar hluti af þessu verkefni. Við útfærslu nafnaþekkjarans var notuð tilbúin lausn sem kallast NeuroNER og er sérstaklega hönnuð með sérnafnaflokkun í huga. Niðurstöðurnar benda til þess að þetta sé raunhæf aðferð til að greina sérnöfn í íslensku (F1=81,3%), sérstaklega með tilliti til þess að þjálfunarmálheildin er ekki stór. Orðavigrar búnir til úr mun stærri málheild reyndust bæta niðurstöðurnar mjög, og eru verðugt rannsóknarefni.

  • Útdráttur er á ensku

    A named entity recogniser finds named entities (proper nouns) in a text, and labels them by category. It is a fundamental tool in natural language processing, in particular in the development of information extraction systems. In this paper, we present a prototype of a named entity recogniser for Icelandic, based on artificial neural networks. The training of such networks requires a textual corpus where named entities have been labelled. As no such corpus exists for Icelandic, its creation is a subject of this project. The recogniser was built using NeuroNER, a software package designed for named entity recognition. The results indicate that this is a viable approach towards recognition of named entities in Icelandic (F1=81.3%), especially considering the moderate size of the training corpus. Word embeddings, created from a much larger unlabelled corpus, turned out to improve the results greatly, warranting further study.

Samþykkt: 
  • 31.1.2019
URI: 
  • http://hdl.handle.net/1946/32311


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
BSc_lokaskyrsla_Sigurjon_Svanhvit.pdf2.82 MBOpinnHeildartextiPDFSkoða/Opna