is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Hugvísindasvið > Meistaraprófsritgerðir - Hugvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/37025

Titill: 
  • A Faroese part-of-speech tagger built with Icelandic methods. Data preperation, training and evaluation
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Þessi ritgerð lýsir þróun nákvæms málfræðimarkara fyrir færeysku. Til að ná slíku fram var íslenski tauganetsmarkarinn ABLTagger, sem hefur náð besta birta árangri í íslenskri málfræðimörkun, þjálfaður á færeyskri markaðri málheild sem kennd er við dagblaðið Sosialurin og inniheldur u.þ.b. 100.000 lesmálsorð. Færeyska mörkunarlíkanið notast við nýja Bráðabirgðabeygingarlýsingu færeysks nútímamáls (BBFN) til að betrumbæta mörkunina en beygingarlýsingin inniheldur beygingargögn fyrir um 67,488 færeysk orð, samtals u.þ.b. milljón stakar beygingarmyndir. Þessi aðferð skilaði mörkunarlíkani fyrir færeysku sem nær 91,40% mörkunarnákvæmni, sem er besti birti árangur í sjálfvirkri málfræðimörkun á færeysku. Mörkunarlíkanið, beygingarlýsingin, tillaga að endurbættu færeysku markamengi og yfirfarin Sosialurin málheild eru allt afurðir þessa verkefnis og eru gerðar aðgengilegar, svo þær megi nýtast sem best í frekari rannsóknum í færeyskri máltækni.
    Efnisorð: Færeyska, Máltækni, Málfræðimörkun, Tauganet.

  • Útdráttur er á ensku

    This thesis describes the development of a dedicated, high-accuracy part-of-speech (PoS) tagging solution for Faroese. To achieve this, a state-of-the-art neural PoS tagger for Icelandic, ABLTagger, was trained on the 100,000 word Sosialurin PoS-tagged corpus for Faroese, standardised with methods previously applied to Icelandic corpora. This tagger was supplemented with a novel Experimental Database of Faroese Inflection (EDFM), which contains morphological information on 67,488 Faroese words with about one million inflectional forms. This approach produced a PoS-tagging model for Faroese which achieves a 91.40% overall accuracy when evaluated with 10-fold cross validation, which is currently the highest accuracy for a dedicated Faroese PoS-tagging implementation. The tagging model, morphological database, proposed revised PoS tagset for Faroese as well as a revised and standardised Sosialurin corpus are all presented as products of this project and are made available for use in further research in Faroese language technology.

Samþykkt: 
  • 10.9.2020
URI: 
  • http://hdl.handle.net/1946/37025


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
ma-yfirlysing.pdf204.73 kBLokaðurYfirlýsingPDF
ma.pdf646.58 kBOpinnHeildartextiPDFSkoða/Opna