is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/37548

Titill: 
  • Titill er á ensku Named entity recognition for Icelandic: comparing and combining different machine learning methods
  • Nafnakennsl fyrir íslensku: samanburður og samsetning mismunandi vélnámsaðferða.
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    Named Entity Recognition (NER) is the task of identifying person names, places, organizations, and other Named Entities in text. This can also include some numerical entities like dates, amounts of money and percentages. NER is often an important step in other Natural Language Processing tasks, like in question answering or machine translation. NER is a subtask of Information Extraction.
    A neural model for NER has already been implemented for Icelandic (NeuroNER), but this is as far as we know, the only previous Machine Learning (ML) model for the task in the Icelandic language. The goal of this project was to develop other ML methods that could then be compared with the neural model. The purpose of this was to provide a better knowledge on the status of NER in the Icelandic language, for helping the task move forward in the future.
    The first model that was picked was a semi-supervised model that combined both shallow language features with unsupervised word clusters (ixa-pipes). The second model was a Conditional Random Field (CRF) model that used word features, but also made use of gazetteers. These models, in addition to the neural model, were then combined in a single NER system, where a vote between the three decided the output (CombiTagger). We trained these methods on training sets of varying sizes, but the
    evaluation was done on a fixed and identical set throughout all the experiments.
    These methods were then tested on a dataset we created with texts provided by Nasdaq Iceland. These texts mostly included news announcements and corporate reports, and are suitable for testing how the models perform in a real world scenario. Moreover, the texts can be used to see how well the models generalize what they have learned
    by measuring their performance on data that is of considerable difference from the training data.
    Our evaluation shows that it is possible to come very close to the performance of a neural model like NeuroNER with non-neural models like the CRF and the ixa-pipes models, when tested on a dataset from the same corpus as the training data. However, when tested on the Nasdaq data, the non-neural models seemed to fall behind, the neural model seems to generalize better. This can be explained by the fact that Deep
    Neural Networks (DNNs) trained with gradient descent have been shown to naturally generalize better than more shallow ML models. We showed that with using systems like CombiTagger, models can be combined together with a simple voting system, that would perform better than the individual models combined in it as CombiTagger obtained the F1-score of 86.18 on our test-set, which at this time would be the best published result of any NER system in Icelandic. This improvement can be explained
    by the fact that different classifiers have the tendency to produce different errors, and they can therefore cancel out each other’s weak points.

  • Nafnakennsl er verkefnið að bera kennsl á nöfn af fólki, stöðum, samtökum og öðrum nefndum einingum í rituðu máli. Þetta getur einnig innifalið tölulegar einingar, eins og dagsetningar, fjárupphæðir og prósentur. Nafnakennsl er oft mikilvægt skref í öðrum málvinnsluverkefnum, eins og spurningasvörun eða vélþýðingum. Nafnakennsl er undirverkefni af upplýsingaútdrætti.
    Nú þegar hefur verið útfært tauganetslíkan fyrir nafnakennsl á íslensku (NeuroNER), en þetta er eina vélnámslíkanið fyrir verkefnið á íslensku eftir því sem við best vitum.
    Markmiðið með þessu verkefni var að útfæra aðrar vélnámsaðferðir sem væri hægt að bera samana við tauganetslíkanið. Tilgangurinn með því var að afla þekkingar um stöðu nafnakennsls á íslensku og að efla framþróun á því sviði í framtíðinni.
    Fyrsta líkanið sem við völdum var hálfleiðbeint (“semi-supervised”) líkan sem blandar saman grunnum máleinkennum setninga og óleiðbeindum orðaþyrpingum (“unsupervised word clusters”) (ixa-pipes). Seinna líkanið var skilyrt slembisvæðislíkan (“conditional random fields”) sem notaði bæði orðaeinkenni og nafnalista. Þessi tvö líkön, til viðbótar við tauganetslíkanið, voru síðan sameinuð í eitt stakt nafnakennslakerfi, þar sem kosning á milli þeirra þriggja ákvarðar úttakið (CombiTagger). Við þjálfuðum þessi líkön á þjálfunarmengi af mismunandi stærðum, héldum mengi prófunargagnanna í sömu stærð og alveg óbreyttu í gegnum allar okkar tilraunir.
    Þessi líkön voru síðan prófuð á gagnamengi sem við bjuggum til útfrá textum sem við fengum frá Kauphöll Íslands. Þessir textar innihéldu að mestu leyti fréttatilkynningar og fyrirtækjaskýrslur og voru hentugir til þess meta frammistöðu líkananna við raunverulegar aðstæður. Þar að auki gátum við notað textana til að meta hversu vel þessum líkönum tókst að alhæfa það sem þau höfðu lært með því að mæla framistöðu
    þeirra á málgögnum nokkuð frábrugðnum gögnunum í þjálfunarmenginu.
    Okkar niðurstöður sýna að það er mögulegt að komast mjög nálægt framnistöðu tauganetslíkans á borð við NeuroNER með hefðbundnari líkönum á borð við skilyrta slembisvæðislíkanið og ixa-pipe líkanið, þegar þau eru metin á málgögnum úr sömu málheild og þjálfunargögnin eru tekin úr. Þegar prófanir voru keyrðar á Kauphallargögnunum þá reyndust hefðbundnari líkönin hins vegar dragast aftur úr, það leit út eins og
    tauganetslíkanið alhæfði betur. Þetta er hægt að útskýra með þeirri staðreynd að sýnt hefur verið fram á að djúp tauganet þjálfuð með stigulaðferðinni alhæfi betur heldur en grynnri vélnámslíkön. Við sýndum fram á að kerfi á borð við CombiTagger getur sameinað líkön með einfaldri kosningu, sem nær betri árangri heldur en sérhvert stakt
    líkan sem það notar. CombiTagger náði 86.18 F1-skori á okkar prófunarmengi, sem er, á þeirri stundu sem þetta er skrifað, besta birta niðurstaða fyrir nafnakennsl á íslensku.
    Það er hægt að útskýra þessa bætingu með þeirri staðreynd að mismunandi líkön hafa tilhneigingu til þess að framkalla mismunandi villur, og þar af leiðandi er hægt að nota þau til að vinna saman gegn veikleikum hvors annars.

Styrktaraðili: 
  • Markáætlun í tungu og tækni 2019, styrknúmer 180027-5301.
Samþykkt: 
  • 26.1.2021
URI: 
  • http://hdl.handle.net/1946/37548


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_NER_FINAL_VERSION.pdf677.74 kBOpinnHeildartextiPDFSkoða/Opna