is Íslenska en English

Lokaverkefni (Meistara)

Háskóli Íslands > Verkfræði- og náttúruvísindasvið > Meistaraprófsritgerðir - Verkfræði- og náttúruvísindasvið >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/39966

Titill: 
  • Sjálfvirk svörun spurninga á íslensku
  • Titill er á ensku Automated methods for Question-Answering in Icelandic
Námsstig: 
  • Meistara
Leiðbeinandi: 
Efnisorð: 
Útdráttur: 
  • Útdráttur er á ensku

    Question Answering (QA) is the automated task of providing an answer to a question posed in human language. Whether through search engines or speech controlled home assistants it has become a tightly integrated part of many peoples' daily routine at work or home. In recent years, these methods have improved greatly for commonly spoken languages such as English. This can almost wholly be attributed to advances in sequence modeling using deep neural networks, an increase in computing power, and the creation of large data sets suitable for training.
    In this thesis, such QA methods are described, implemented and evaluated for Icelandic. The methods applied are a statistical approach based on term frequency, a current standard practices approach using a neural language model for Icelandic and a modern variant using pre-encoded phrase lookup. A new QA corpus and Icelandic language models are also presented.
    The result is a baseline for extractive QA in Icelandic, where an answer is highlighted in a single document or larger corpora. Finally, a cross-lingual extension of the phrase lookup method is investigated and adapted for Icelandic QA. In this system, questions can be asked in Icelandic and are answered with segments from the English Wikipedia. This system is then adapted to answer Icelandic questions in Icelandic using segments from the Icelandic Wikipedia, taking advantage of a bilingual language model.

  • Verkefni spurningasvörunar felst í því að svara spurning settum fram á mannlegu máli með sjálfvirkum hætti. Notkun slíkra kerfa er orðin hluti af daglegu lífi margra sem reiða sig á leitarvélar og raddstýringu. Á undanförnum árum hefur þessum aðferðum fleygt fram fyrir algeng tungumál á borð við ensku. Því er að mestu að þakka byltingu í notkun djúpra tauganeta, aukins reikniafls og tilkomu stórra málheilda sem henta til þjálfunar á líkönum.
    Í þessu verkefni eru slík spurningarsvörunarkerfi útfærð og metin fyrir íslensku. Kerfin byggja á tölfræðiupplýsingum, hefðbundnum tauganetaaðferðum og nýstárlegri aðferðum með forgreyptum textarunum til uppflettingar. Jafnframt er ný málheild fyrir spurningasvörun kynnt ásamt mállíkönum fyrir íslensku.
    Með þessu fæst grunnlína til viðmiðunar í frammistöðu á spurningasvörun fyrir íslensku þar sem svar er merkt inn í texta, bæði þegar leitað er að svari í einu tilteknu skjali og í opinni leit í mörgum skjölum. Að lokum er kynnt aðferð til að útbúa þvermála spurningarsvörunarkefi. Hún er sannreynd með því að útbúa slíkt kerfi sem tekur við spurningum á íslensku en veitir svör fengin upp úr enska hluta Wikipedia alfræðiorðabókarinnar. Það kerfi er svo aðlagað svo unnt sé að svara spurningum á íslensku upp úr íslenska Wikipedia. Þetta er gert mögulegt með notkun á tvímála mállíkani.

Tengd vefslóð: 
Samþykkt: 
  • 30.9.2021
URI: 
  • http://hdl.handle.net/1946/39966


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
Automated_methods_for_QA_in_Icelandic_VS_MSc_2021.pdf1.03 MBOpinnHeildartextiPDFSkoða/Opna
yfirlysing.jpg5.26 MBLokaðurYfirlýsingJPG