EnglishisÍslenska

Member institutions

Search in


ThesisReykjavík University>Tölvunarfræðideild>Meistaraprófsritgerðir>

Please use this identifier to cite or link to this item: http://hdl.handle.net/1946/7420

Titles
  • Improving the tagging accuracy of Icelandic text

  • is

    Aukin mörkunarnákvæmni íslensks texta

Published
June 2009
Abstracts
  • In this thesis, four attempts to improve the tagging accuracy for Icelandic text are presented. All of them were tested on IceTagger, a linguistic rule-based tagger with a tagging accuracy of 91.59%, and TnT, a data-driven tagger with a tagging accuracy of 90.45% for Icelandic. The first attempt was to reduce the number of tags in the Icelandic tagset. Various different reductions were tested. The set which gave the best result improved the tagging accuracy for IceTagger by 1.19% and for TnT by 1.45%. The second attempt was to use a larger dictionary which improved tagging by 0.56% for IceTagger and 0.69% for TnT. The third attempt was to improve tagging accuracy by integrating a lemmatizer for Icelandic into IceTagger to use for unknown wordforms of words which already appear in the lexicon in a different form. This did not show any noteworthy results. The last attempt was a combination of taggers. We used 7 taggers, IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT and MXPOST, and tested various combinations of them. The best combination, consisting of 5 taggers, gave a tagging accuracy of 93.74%, and 94.14% using a bigger dictionary. Lastly, the best combination, using a bigger dictionary and a reduced tagset, resulted in 94.99% accuracy.

  • is

    Fjórar aðferðir voru notaðar í þessu verkefni til að hækka nákvæmni markara fyrir íslenskan texta. Allar fjórar aðferðinar voru prófaðar á IceTagger, sem er málfræðilegur reglumarkari, en hann nær 91.59% nákvæmni og svo TnT, sem er gagnamarkari sem nær 90.45% nákvæmni fyrir íslensku. Fyrsta aðferðin var að minnka stærð íslenska markamengisins. Nokkrir möguleikar á minnku ðu markamengi voru prófaðir en breytingar á markamenginu sem ákveðnar voru hækkuðu nákvæmni um 1.19% fyrir IceTagger og um 1.45% fyrir TnT. Önnur aðferðin var að nota stærra orðasafn sem hækkaði nákvæmni um 0.56% fyrir IceTagger og um 0.69% fyrir TnT. Þriðja aðferðin var að setja lemmara inn í IceTagger til að leita að lemmu óþekktra orðmynda og fletta því svo upp í orðasafninu. Þetta bar engan árangur. Fjórða aðferðin var að sameina sjö mismunandi markara: IceTagger, BI+WC+CT, TnT, fnTBL, TreeTagger, MBT og MXPOST. Við prófuðum marga möguleika og fundum að besti árangur fékkst með samsetningu 5 markara. Nákvæmni hækkaði í 93.74% en 94.14% með notkun á stærra orðasafninu. Að lokum, með því að nota besta sameinaða markarann, stærri orðabók og minkað markamengi jókst nákvæmni í 94.99%.

Comments
is

Tölvunarfræði, Thesis

Issued Date
25/01/2011


Artifacts
Name[Sortable]Size[Sortable]Visibility[Sortable]Description[Sortable]Format
MSc_Ida-Kramarczyk.pdf452KBOpen Complete Text PDF View/Open