is Íslenska en English

Lokaverkefni (Bakkalár)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > BSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: https://hdl.handle.net/1946/9883

Titill: 
  • Titill er á ensku Tagging and parsing a large corpus
  • Mörkun og þáttun stórrar málheildar
Námsstig: 
  • Bakkalár
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    This report is a product of a research where we tried to use existing language processing tools on a larger collection of Icelandic sentences than they had faced before. We hit many barriers on the way due to software errors, limitations in the software and due to the corpus we worked with. Unfortunately we had to resort to sidestep some of the problems with hacks but it resulted in a large collection of tagged and parsed sentences. We also managed to produce information regarding the frequency of words which could enhance the precision of current language processing tools.

  • Þessi skýrsla er afurð rannsóknar þar sem reynt er að beita núverandi máltæknitólum á stærra safn af íslenskum setningum en áður hefur verið farið út í. Við rákumst á ýmsar hindranir á leiðinni vegna hugbúnaðarvillna, takmarkana í hugbúnaðnum og vegna safnsins sem við unnum með. Því miður þurftum við að sneiða hjá vandamálunum með ýmsum krókaleiðum en það leiddi til þess að nú er tilbúið stórt safn af mörkuðum og þáttum setningum. Einnig söfnuðum við upplýsingum um tíðni orða sem gætu bætt nákvæmni máltæknitóla.

Samþykkt: 
  • 30.8.2011
URI: 
  • http://hdl.handle.net/1946/9883


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Research report - final.pdf220.24 kBOpinnHeildartextiPDFSkoða/Opna

Athugsemd: en I, the author of this report, allow unrestricted copying of this report as far as the law permits.