is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Verkfræði- og náttúruvísindasvið > Meistaraprófsritgerðir - Verkfræði- og náttúruvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/34874

Titill: 
  • Hugbúnaður til sjálfvirkrar íðorðaleitar innan íslenskra fagtexta
Námsstig: 
  • Meistara
Útdráttur: 
  • Í þessari ritgerð er fjallað um hugbúnað sem framkvæmir sjálfvirka íðorðaleit í íslenskum fagtextum. Farið er yfir fræðin sem liggja að baki íðorðum og íðorðaleit, hvaða áhrif íslenskt mál hefur á svona verk, og hvaða hugbúnaðarval stendur nú þegar til boða fyrir íðorðaleit. Þá er lýst hlutverki hugbúnaðarins í samhengi við verkefni á vegum Stofnunar Árna Magnússonar í íslenskum fræðum (Árnastofnunar) og hvaða skilyrði fylgja því verkefni. Með tilliti til ofangreindra atriða er tilgreint hvaða aðferðaflokkar og stuðningsforrit urðu fyrir valinu og hvers vegna ákveðið var að ráðast í smíði á leitarhugbúnaði frá grunni. Næst er rakin hönnun hugbúnaðarins sjálfs. Farið er yfir aðal hluta hans - forvinnslu, málvinnslu, tölfræðivinnslu og úttak - og lýst útfærslu hvers fyrir sig með tilliti til þeirra ákveðnu aðferða sem valdar hafa verið og fræðanna sem liggja þeim að baki. Þá er rædd aðferðafræði mælinga, virkni hugbúnaðarins er prófuð og farið er yfir niðurstöður þar að lútandi. Hugbúnaðurinn reynist virka vel fyrir það hlutverk sem honum var ætlað; aðferðirnar sem hann beitir gefa af sér áreiðanlegar niðurstöður samkvæmt prófunum, og þau stuðningsforrit sem hann reiðir sig á standast þær kröfur sem til þeirra eru gerðar. Að lokum er litið aftur yfir þróunarferlið, auk þess sem ræddir eru möguleikar á viðbótarvirkni fyrir hugbúnaðinn.

  • Útdráttur er á ensku

    This thesis presents software that performs automatic term extraction on domain-specific Icelandic-language texts. The conditions that accompany software development in this kind of context are explored, including current theories on extraction methodologies, the most impactful features of the Icelandic language, and the availability of existing software in this field. In addition, we describe the part our software plays in a terminology project launched by The Árni Magnússon Institute for Icelandic Studies (AMI), and the conditions to be considered in that context. In light of the above, we describe why and how we decided to construct the aforementioned software from scratch. The software's design is subsequently delineated. We review its primary sections - preprocessing, linguistic processing, statistical processing, and output - and describe each one in terms of what methods we chose and why, and how they were implemented. Testing methodologies are discussed, after which we review the results of testing the software's functionality. We find that the software performs well in the role for which it was intended. The methodology it employs delivers dependable results, and the support programs it relies on for certain aspects of its functionality are found to perform satisfactorily. Lastly, we review the development process, and discuss future possibilities for additional functionality in this kind of program.

Styrktaraðili: 
  • Stofnun Árna Magnússonar í íslenskum fræðum
Samþykkt: 
  • 15.1.2020
URI: 
  • http://hdl.handle.net/1946/34874


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Meistaraverkefni-Lokaritgerd.pdf1.38 MBOpinnHeildartextiPDFSkoða/Opna
Skemman-yfirlysing.pdf316.92 kBLokaðurYfirlýsingPDF