is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: https://hdl.handle.net/1946/42017

Titill: 
  • Titill er á ensku Entity linking for Icelandic
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    Entity Linking (EL) is the task of automatically disambiguating named entities (NEs) (Person, Organisation, Location, and Miscellaneous) in texts based on the context in which they appear. EL is considered a challenging task since NEs appearing in texts may be ambiguous and may often have many surface forms.
    The goal of this thesis is three-fold: First, to develop an annotated EL corpus for Icelandic. Second, to establish a baseline EL model for Icelandic that can be used for comparison purposes in future research. Third, to incorporate an entity-aware mechanism into an Icelandic language model for the purpose of better representing entities within it.
    We annotate roughly 25 thousand NEs in the MIM-GOLD-NER corpus with Wikipedia links and, as a result, publish the first EL corpus, MIM-GOLD-EL, for Icelandic. We use mGENRE, a multilingual sequence-to-sequence EL model, to annotate MIMGOLD-EL and improve our results using Wikipedia API Search. Using our combined methods, we are able to cover 53.9% of MIM-GOLD-NER.
    We fine-tune and evaluate three types of Transformer-based models on the MIM-GOLD-EL corpus. We develop baseline models, by fine-tuning ConvBERT-base and ELECTRA-base, which achieve an accuracy of 74.69% when using up to 16 candidates per entity mention.
    We continue the pre-training of an Icelandic language model, IceBERT-igc, using an entity-aware mechanism and an entity-annotated corpus from Wikipedia, and call the resulting model IceLUKE. Two versions are pre-trained, one focused on entity-related natural language processing (NLP) tasks, and the other focused on EL. We find that IceLUKE, pre-trained for entity-related NLP tasks, achieves an F1 score of 82.55%, outperforming IceBERT-igc by 6.24 percentage points when fine-tuned and evaluated on MIM-GOLD-NER containing eight NE types. Finally, using IceLUKE pre-trained for EL, we obtain an accuracy score of 88.37% and 90.13% for the local and global context versions of MIM-GOLD-EL, respectively.
    Our experiments show that MIM-GOLD-EL can be used for the training and evaluation of EL models for Icelandic. They also show that when it comes to accuracy the entityaware IceLUKE outperforms IceBERT-igc by 15.10 percentage points when evaluated on MIM-GOLD-EL.

  • Nafnaeinræðing (e. Entity Linking) er svið innan máltækni sem felst í því að einræða nafnaeiningar (mannanöfn (Person), fyrirtæki og stofnanir (Organisation), staði (Location), og ýmislegt (Miscellaneous)) í texta á sjálfvirkan hátt. Nafnaeinræðing þykir erfitt verkefni að leysa þar sem nafnaeiningar eiga það til að vera tvíræðar og geta komið fyrir í texta á mismunandi formi.
    Markmið þessarar ritgerðar er þríþætt. Í fyrsta lagi að marka íslenska málheild fyrir nafnaeinræðingu. Í öðru lagi að koma á fót grunnlíkani (e. baseline model) fyrir framtíðarrannsóknir á þessu sviði. Í þriðja lagi að innvinkla nafna-meðvitaða (e. entityaware) aðferð í íslenskt mállíkan í þeim tilgangi að gefa nafnaeiningum meira vægi.
    Við mörkum rúmlega 25 þúsund nafnaeiningar í MIM-GOLD-NER málheildinni með tengingu í Wikipedia og gefum út fyrstu íslensku málheildina fyrir nafnaeinræðingu, MIM-GOLD-EL. Við nýtum okkur mGENRE, fjöltyngt runu-til-runu nafnaeinræðingarmállíkan, við að marka MIM-GOLD-EL og bætum svo niðurstöður okkar með notkun á Wikipedia API Search. Með því að nota þessar tvær aðferðir tekst okkur að marka 53,9% af MIM-GOLD-NER.
    Við notum MIM-GOLD-EL til þess að fínstilla og leggja mat á þrjár tegundir íslenskra Transformer mállíkana. Við þróum grunnlíkön, ConvBERT-base og ELECTRA-base, sem ná 74,69% nákvæmni þegar notast er við allt að 16 kandídata til einræðingar.
    Við höldum áfram forþjálfun á íslensku mállíkani, IceBERT-igc, með því að nota nafnameðvitaða aðferð og nafnamarkaða málheild sem fengin er frá Wikipedia. Mállíkanið sem af þessu leiðir köllum við IceLUKE. Tvær útgáfur eru forþjálfaðar, sú fyrri beint að nafna-miðuðum máltækniverkefnum, og sú seinni sérstaklega beint að nafnaeinræðingu. Enn fremur, með því að nota fyrri útgáfu IceLUKE á MIM-GOLD-NER málheildina sem inniheldur átta tegundir nafnaeininga, tekst okkur að ná 82,55% F1 skori, 6,24 prósentustiga aukningu samanborið við IceBERT-igc. Að lokum, með því að nota seinni útgáfu IceLUKE tekst okkur að ná nákvæmni upp á 88,37% þegar notast er við útgáfu af MIM-GOLD-EL sem tekur tillit til staðbundins samhengis (e. local context), og 90,13% þegar notast er við útgáfu af MIM-GOLD-EL sem tekur tillit til svæðisbundins samhengis (e. global context).
    Tilraunir okkar sýna fram á að hægt sé að nota MIM-GOLD-EL til þess að fínstilla og meta íslensk nafnaeinræðingarlíkön. Þær sýna einnig að við náum fram 15,10 prósentustiga aukningu á nákvæmni við það að innvinkla nafna-meðvitaða aðferð þegar íslenskt mállíkan er forþjálfað, fínstillt og metið á MIM-GOLD-EL.

Styrktaraðili: 
  • Markáætlun í tungu og tækni 2021, styrknúmer 200075-5301.
Samþykkt: 
  • 14.6.2022
URI: 
  • http://hdl.handle.net/1946/42017


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Entity_Linking_for_Icelandic_Benedikt_Geir_Johannesson.pdf806.46 kBOpinnHeildartextiPDFSkoða/Opna