en English is Íslenska

Thesis (Master's)

University of Iceland > Hugvísindasvið > Meistaraprófsritgerðir - Hugvísindasvið >

Please use this identifier to cite or link to this item: https://hdl.handle.net/1946/34784

Title: 
  • A Parallel Icelandic Dependency Treebank: Creation, Annotation and Evaluation
  • Title is in Icelandic Íslensk samhliða málheild byggð á venslamálfræði
Degree: 
  • Master's
Abstract: 
  • Abstract is in Icelandic

    Þessi ritgerð lýsir gerð, greiningu og mælingum á íslenskum samhliða venslatrjábanka. Þessi trjábanki inniheldur setningafræðilega greiningu sem er nauðsynleg bæði fyrir þróun á þáttara og setningafræðilegar rannsóknir. Þáttarar sem byggja á setningagreiningu eru gagnlegir í margvíslegar tegundir af textavinnslu í upplýsingatækni og eru aðal stoðgögnin fyrir þjálfun á gagnadrifnum þátturum. Samhliða málheildir hafa aðallega verið notaðar í þjálfun á þýðingarkerfum en einnig er hægt að nota þau í uppbyggingu á orðabókum og skjalaflokkun á ólíkum tungumálum. Þessi fyrsti samhliða venslatrjábanki fyrir íslensku sem er kynntur hér er til á 19 öðrum tungumálum og byggir á alþjóðaverkefninu Universal Dependencies (UD). Rannsóknir á þvermállegum líkönum hafa aukist verulega síðan UD verkefnið var sett á laggirnar og það er vænlegt skref fyrir tungumál eins og íslensku að verða hluti af alþjóðlegri rannsóknarvinnu. Mikil vinna felst í því að búa til nýjan trjábanka og þess vegna er mikilvægt að nýta sér aðgengilegar aðferðir og hagnýt gögn. Í þessari ritgerð prófa ég aðferð til að forvinna setningafræðileg vensl með því að nota aflexíkalíserað líkan. Lýsing á venslamálfræði fyrir íslensku samkvæmt UD greiningarskemanu er skjalað hér í viðauka og nýi íslenski trjábankinn, Icelandic PUD, verður gefinn út með UD verkefninu, útgáfu 2.6.

  • This thesis describes the creation, annotation and evaluation of an Icelandic dependency treebank. This treebank holds syntactic annotation that is necessary for parser development and grammar research. Syntactic parsers are useful in various types of information technology applications and treebanks are the essential training data for data--driven natural language parsers. Parallel corpora have been mainly used for training machine translation systems but can also be used for creating dictionaries and ontologies, and multilingual and cross--lingual document classification. This first Icelandic parallel dependency treebank presented here is aligned with 19 other languages and is based on the Universal Dependencies (UD) annotation scheme. Studies on cross-lingual modeling have been growing constantly since the first UD treebanks were published and it could be a beneficial step for less-resource languages like Icelandic to become a part of this international research. Creating a treebank can be an extremely laborious task and it is therefore important to utilize accessible methods and data applicable for research. Here the method of preprocessing syntactic relations using delexicalized parsing was explored. The description of dependency grammar for Icelandic according to the UD annotation scheme is documented in appendix and the Icelandic parallel UD corpus, Icelandic PUD, will be published as part of the UD project, version 2.6.

Accepted: 
  • Jan 9, 2020
URI: 
  • http://hdl.handle.net/1946/34784


Files in This Item:
Filename Size VisibilityDescriptionFormat 
yfirlysing_HildurJonsdottir.pdf37.84 kBLockedDeclaration of AccessPDF
MA_HildurJonsdottir.pdf1.01 MBOpenComplete TextPDFView/Open