Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/25924
Í þessari ritgerð er fjallað um tilraun til sjálfvirks upplýsingaútdráttar í textum um veðurfar og náttúruhamfarir. Þær upplýsingar sem fundust voru tengdar saman í svokallaða ramma til að skapa heildstæða mynd af þeim upplýsingum sem leynast í textunum. Hönnun rammanna miðaði við að auðvelt væri að færa þá á milli sérsviða, svo söfnun orða í orðasafn og mynstranna sem saman mynda rammana er sjálfvirk. Einu gögnin sem þarf fyrir sköpun ramma fyrir nýtt sérsvið, fyrir utan forritið sem búið var til fyrir verkefnið, er safn texta sem teljast innan sérsviðsins og skilgreindir merkingarflokkar fyrir útdrættina sem lýsa hlutverki þeirra.
Markmið verkefnisins er að efla uppýsingamiðlun til nýbúa og var gerð tilraun til að þýða þær upplýsingar sem rammarnir finna yfir á pólsku, en flestir erlendir ríkisborgarar á Íslandi koma frá Póllandi. Vélrænar þýðingar eru á lista yfir forgangsverkefni í Íslenskri málstefnu frá 2009, Íslenska til alls, og í skýrslu nefndar um notkun íslensku í stafrænni upplýsingatækni er sagt „mikilvægt fyrir Íslendinga að þróa þýðingarkerfi sem byggir á opnum hugbúnaði og opnum gögnum“. Samkvæmt hvítbók META-NET, Íslensk tunga á stafrænni öld er ekki til flókinn hugbúnaður til textagreiningar og málmyndunar fyrir íslensku. Verkefnið sem hér er rætt er stórt skref á þeirri vegferð að þróa slíkan hugbúnað. Þannig stuðlar verkefnið að framgangi íslenskrar máltækni (Eiríkur Rögnvaldsson, Kristín M. Jóhannsdóttir, Sigrún Helgadóttir og Steinþór Steingrímsson, 2012).
Niðurstöður fyrir gerð rammanna gefa F-gildið 17,6%, en athuga skal að þar er miðað við allar upplýsingar sem textarnir fela í sér, ekki einungis þær upplýsingar sem rammarnir eru hannaðir til að draga út. Ef aðeins þeir rammar sem rétt eru myndaðir eru skoðaðir fæst F-gildið 52,2%. Ekki er til sambærilegt kerfi fyrir íslensku en niðurstöður fyrir svipuð kerfi fyrir ensku fá F-gildi á bilinu 41% til 51%.
Niðurstöður fyrir þýðingarhlutann miða einungis við þá ramma sem finnast fyrir textana og gefa PER-gildið 71,9%. Google Translate, sem var eina þýðingarkerfið sem þýddi frá íslensku yfir á pólsku, fékk PER-gildið 47%.
This thesis presents an experiment with automatic information retrieval from texts concerning weather and natural disasters. To create a coherent picture from the information retrieved from the texts so-called information frames were used to create connections between the pieces of information. The design of the information frames aims at making them easy to transfer between domains, so the lexicon and the patterns needed to build the frames are collected automatically. All that is needed to create frames for a new domain is a corpus of texts inside the domain and definitions of the semantic categories extracted information falls into.
The purpose of the project is to increase and speed up the flow of information to immigrants. Experiments were made to translate the information the frames collect automatically to Polish, as most immigrants in Iceland come from Poland. The development of open-source machine translation has been named as a priority for Icelandic. No complicated software for the analysis and generation of text exists for Icelandic, so this project is a big step in that progress. As such, the project promotes the progress of language technology for Icelandic.
Results for the creation of frames give an F-score of 17,6%, but it should be noted that the answer key took into consideration all information found in the texts tested, not just the information the frames were capable of finding. If only correct frames are examined, an F-score of 52,2% is found. No comparable system exists for Icelandic but similar systems for English have an F-score of 41-51%.
Results for the translation part of the project get a PER value of 71,9%. The only comparable system for translating from Icelandic to Polish, Google Translate, gets a PER value of 47%.
Skráarnafn | Stærð | Aðgangur | Lýsing | Skráartegund | |
---|---|---|---|---|---|
yfirlýsing.pdf | 327.81 kB | Lokaður | Yfirlýsing | ||
Ritgerðin.pdf | 1.29 MB | Opinn | Heildartexti | Skoða/Opna |