is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/36562

Titill: 
  • Titill er á ensku Named entity recognition for Icelandic : annotated corpus and neural models
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    Named entity recognition (NER) is the task of automatically extracting and classifying the names of people, places, companies, etc. from text, and can additionally include numerical entities, such as dates and monetary amounts. NER is an important preprocessing step in various natural language processing tasks, such as in question answering, machine translation, and speech recognition, but can prove a difficult task, especially in highly-inflected languages where each entity can have many different surface forms.
    We have annotated all named entities in a text corpus of one million tokens to create the first annotated NER corpus for Icelandic, containing around 48,000 named entities. The data has then been used for training neural networks to annotate named entities in unseen texts.
    This work consists mainly of two parts: the annotation phase and the neural network training phase. For the annotation phase, gazetteers of Icelandic named entities were collected and used to extract and classify as many entities as possible. Regular expressions and other heuristics were also applied in this preprocessing step. These pre-classified results were then manually reviewed. The corpus, MIM-GOLD, is a tagged and balanced Icelandic corpus sampled from thirteen different text types, containing a variety of named entities. The entity types that have been annotated are: Person, Location, Organization, Miscellaneous, Date, Time, Money, and Percent.
    In the neural model training phase, a bidirectional LSTM recurrent neural network was trained on the annotated corpus, using word embeddings trained from a larger text source as external input. We trained on different sizes of the corpus, to gain an understanding of how increasing corpus sizes affects the results. We report an F1 score of 83.65% for all entity types when trained on the whole corpus.
    Experiments with different corpus sizes show a clear advantage in using the whole dataset, but viable results can also be obtained from smaller training sets. The different corpus text genres also allow for selecting the domains that best fit the purpose of the application each time. The corpus and models will be made publicly available, and we hope they will help in moving the rapidly developing Icelandic language technology field even further.

  • Nafnakennsl („named entity recognition“), er svið innan máltækni sem felst í því að finna og flokka sérnöfn, þ.e. nöfn á fólki, stöðum, fyrirtækjum o.fl. með sjálfvirkum hætti. Stundum eru enn fremur flokkaðar ýmsar tölulegar einingar, svo sem dagsetningar og upphæðir. Nafnakennsl eru eitt af grunnverkfærum máltækni og mikilvægt skref fyrir ýmis viðfangsefni hennar, svo sem spurningasvörun, vélþýðingar og talgreiningu. Þetta er þó ekki einfalt verkefni, sér í lagi þegar um er að ræða beygingamál eins og íslensku þar sem hvert sérnafn getur haft margar birtingarmyndir.
    Hér er kynnt mörkun á öllum sérnöfnum og ýmsum tölulegum einingum í milljón orða málheild, Gullstaðlinum. Þetta er fyrsta íslenska nafnakennslamálheildin, og inniheldur yfir 48.000 nafnaeiningar. Þessi nýju gögn hafa enn fremur verið notuð til þjálfunar á tauganetslíkönum til þess að finna og flokka nafnaeiningarnar í áður óséðum texta.
    Verkefnið er tvíþætt: annars vegar snýst það um mörkun málheildarinnar, hins vegar um þjálfun tauganetslíkananna. Við mörkunina var notast við reglulegar segðir og ýmsa lista með íslenskum sérnöfnum til að flokka sem flest nöfn í textanum sjálfvirkt, áður en öll milljón orðin voru lesin yfir til að tryggja rétta mörkun. Gullstaðallinn, sem notaður var sem grunnur að þessari nafnakennslamálheild, er mörkuð og jafnvæg („balanced“) málheild sem samanstendur af þrettán textaflokkum þar sem fjölbreytt sérnöfn koma fyrir. Þær nafnaeiningar sem markaðar voru í málheildinni eru eftirfar- andi: Person, Location, Organization, Miscellaneous, Date, Time, Money og Percent.
    Í þjálfunarfasanum voru tauganet af gerðinni „bidirectional LSTM RNN“ þjálfuð á nafnakennslamálheildinni. Að auki var notast við orðavigra forþjálfaða á mun stærri málheild sem viðbótarinntak. Málheildinni var skipt upp í mismunandi þjálfunarstærðir, til þess að komast að því hvernig niðurstöður þróast með meiri gögnum. Niðurstöðurnar úr þjálfun með stærsta þjálfunarsettinu á öllum flokkum gefa 83,65% F1.
    Tilraunir með þjálfun á mismunandi stærðum sýna að meiri gögn skila betri árangri, en að einnig má þjálfa með minna magni af gögnum, eða jafnvel ákveðnum textaflokkum og fá frambærilegar niðurstöður. Málheildin og líkönin verða gerð opinber og munu vonandi koma að gagni í einhverjum þeirra fjölmörgu verkefna sem nú eru í vinnslu á sviði íslenskrar máltækni.

Styrktaraðili: 
  • Markáætlun í tungu og tækni 2019, styrknúmer 180027-5301.
Athugasemdir: 
  • Málheildin er aðgengileg á http://www.malfong.is/?pg=mim_gold_ner
Samþykkt: 
  • 25.6.2020
URI: 
  • http://hdl.handle.net/1946/36562


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_thesis_svanhvit_2020_NER_online_version.pdf828.64 kBOpinnHeildartextiPDFSkoða/Opna