is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Hugvísindasvið > Meistaraprófsritgerðir - Hugvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/35227

Titill: 
  • Íslensk taugaþáttunarpípa: Þjálfun, mat og afurðir
Námsstig: 
  • Meistara
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Miklar framfarir hafa orðið á sviði máltækni síðustu áratugi samfara almennri tækniþróun. Tungumál eru misvel búin að þessu leyti en mjög breytilegt er hversu mikið af máltæknitólum og -gögnum er til fyrir einstaka tungumál. Síðasta áratuginn hefur íslenskum máltæknitólum farið fjölgandi og nákvæmni þeirra aukist en enn hefur ekki verið gefinn út þáttari sem skilar djúpri þáttun með mikilli mældri nákvæmni.
    Í þessari ritgerð er þróun, mati og afurðum nýrrar íslenskrar þáttunarpípu lýst. Pípan tekur inn hreinan íslenskan texta og skilar af sér þáttaðri hliðstæðu hans, en með slíkri pípu verður þáttun aðgengileg fyrir stærri hóp fólks en ella. Pípan sér um að forvinna, þátta og eftirvinna textann og notendur þurfa þannig ekki að vinna textann frekar. Pípan inniheldur taugaþáttara en notkun tauganeta hafa bætt þáttunarlíkön auk þess sem þáttarinn er hraðvirkur og gerir því þáttun umfangsmikils texta fýsilega. Uppbyggingu þáttunarpípunnar er lýst sem og þjálfun taugaþáttarans og niðurstöðum þeirrar þjálfunar. Þá er tveimur afurðum þáttunarpípunnar lýst, tveimur nýjum trjábönkum sem samanstanda samtals af um 525 milljónum orða. Allar afurðir þessarar vinnu eru gefnar út með opnu leyfi og geta þannig nýst sem flestum, til notkunar og frekari þróunar.

  • Útdráttur er á ensku

    Language technology has seen much progress in the last decades following general technological development. Languages vary in how well-equipped they are and a great difference is in how much natural language processing tools and data are available for each language. Icelandic tools for natural language processing have grown in number in the last decade and their accuracy has improved but no parser which delivers a deep and accurate parse has been made available as of yet.
    This thesis describes a new Icelandic parsing pipeline, its development, evaluation and the corpora resulting from it. The parsing pipeline takes as input raw Icelandic text and delivers its parsed counterpart and with it, parsing becomes available for a large group of people. The pipeline preprocesses, parses and postprocesses the text and thereby, users do not have to process the text any further. A state-of-the-art neural parser is included which delivers a fast parse, making the parsing of large texts feasible. The parsing pipeline‘s structure is described along with the parser‘s training and evaluation. Corpora which have been created using the pipeline are described, two new treebanks which consist of approximately 525 million words in total. The parsing pipeline along with the two treebanks are open-source, making them as useful as possible for anyone interested, for use and further development.

Samþykkt: 
  • 12.5.2020
URI: 
  • http://hdl.handle.net/1946/35227


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
islensk_taugathattunarpipa.pdf1.26 MBOpinnHeildartextiPDFSkoða/Opna
yfirlysing.pdf351.38 kBLokaðurYfirlýsingPDF