is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/7420

Titill: 
  • Titill er á ensku Improving the tagging accuracy of Icelandic text
  • Aukin mörkunarnákvæmni íslensks texta
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    In this thesis, four attempts to improve the tagging accuracy for Icelandic text are presented. All of them were tested on IceTagger, a linguistic rule-based tagger with a tagging accuracy of 91.59%, and TnT, a data-driven tagger with a tagging accuracy of 90.45% for Icelandic. The first attempt was to reduce the number of tags in the Icelandic tagset. Various different reductions were tested. The set which gave the best result improved the tagging accuracy for IceTagger by 1.19% and for TnT by 1.45%. The second attempt was to use a larger dictionary which improved tagging by 0.56% for IceTagger and 0.69% for TnT. The third attempt was to improve tagging accuracy by integrating a lemmatizer for Icelandic into IceTagger to use for unknown wordforms of words which already appear in the lexicon in a different form. This did not show any noteworthy results. The last attempt was a combination of taggers. We used 7 taggers, IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT and MXPOST, and tested various combinations of them. The best combination, consisting of 5 taggers, gave a tagging accuracy of 93.74%, and 94.14% using a bigger dictionary. Lastly, the best combination, using a bigger dictionary and a reduced tagset, resulted in 94.99% accuracy.

  • Fjórar aðferðir voru notaðar í þessu verkefni til að hækka nákvæmni markara fyrir íslenskan texta. Allar fjórar aðferðinar voru prófaðar á IceTagger, sem er málfræðilegur reglumarkari, en hann nær 91.59% nákvæmni og svo TnT, sem er gagnamarkari sem nær 90.45% nákvæmni fyrir íslensku. Fyrsta aðferðin var að minnka stærð íslenska markamengisins. Nokkrir möguleikar á minnku ðu markamengi voru prófaðir en breytingar á markamenginu sem ákveðnar voru hækkuðu nákvæmni um 1.19% fyrir IceTagger og um 1.45% fyrir TnT. Önnur aðferðin var að nota stærra orðasafn sem hækkaði nákvæmni um 0.56% fyrir IceTagger og um 0.69% fyrir TnT. Þriðja aðferðin var að setja lemmara inn í IceTagger til að leita að lemmu óþekktra orðmynda og fletta því svo upp í orðasafninu. Þetta bar engan árangur. Fjórða aðferðin var að sameina sjö mismunandi markara: IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT og MXPOST. Við prófuðum marga möguleika og fundum að besti árangur fékkst með samsetningu 5 markara. Nákvæmni hækkaði í 93.74% en 94.14% með notkun á stærra orðasafninu. Að lokum, með því að nota besta sameinaða markarann, stærri orðabók og minkað markamengi jókst nákvæmni í 94.99%.

Athugasemdir: 
  • Tölvunarfræði, Thesis
Samþykkt: 
  • 25.1.2011
URI: 
  • http://hdl.handle.net/1946/7420


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_Ida-Kramarczyk.pdf441.84 kBOpinnHeildartextiPDFSkoða/Opna