en English is Íslenska

Thesis Reykjavík University > Tölvunarfræðideild > BSc verkefni >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1946/9883

Title: 
  • Tagging and parsing a large corpus
  • is Mörkun og þáttun stórrar málheildar
Submitted: 
  • May 2010
Abstract: 
  • This report is a product of a research where we tried to use existing language processing tools on a larger collection of Icelandic sentences than they had faced before. We hit many barriers on the way due to software errors, limitations in the software and due to the corpus we worked with. Unfortunately we had to resort to sidestep some of the problems with hacks but it resulted in a large collection of tagged and parsed sentences. We also managed to produce information regarding the frequency of words which could enhance the precision of current language processing tools.

  • is

    Þessi skýrsla er afurð rannsóknar þar sem reynt er að beita núverandi máltæknitólum á stærra safn af íslenskum setningum en áður hefur verið farið út í. Við rákumst á ýmsar hindranir á leiðinni vegna hugbúnaðarvillna, takmarkana í hugbúnaðnum og vegna safnsins sem við unnum með. Því miður þurftum við að sneiða hjá vandamálunum með ýmsum krókaleiðum en það leiddi til þess að nú er tilbúið stórt safn af mörkuðum og þáttum setningum. Einnig söfnuðum við upplýsingum um tíðni orða sem gætu bætt nákvæmni máltæknitóla.

Description: 
  • is Tölvunarfræði
Accepted: 
  • Aug 30, 2011
URI: 
  • http://hdl.handle.net/1946/9883


Files in This Item:
Filename Size VisibilityDescriptionFormat 
Research report - final.pdf220.24 kBOpenHeildartextiPDFView/Open

Note: I, the author of this report, allow unrestricted copying of this report as far as the law permits.