is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/37543

Titill: 
  • Titill er á ensku Spoken language understanding for Icelandic Airline Reservation System, and translated corpus
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    Natural language understanding (NLU) or spoken language understanding (SLU) is one of the main components in a spoken dialog system (SDS).
    The goal of an SLU is to automatically create structured data from the natural text from a spoken utterance.
    In an airline reservation system (ARS), the SLU’s primary goal is to extract essential information such as the departure location, the destination, dates, and time.
    For the past three decades, the Airline Travel Information System (ATIS) corpus has been used as a benchmark dataset for English SLU for ARS.
    We have translated all the ATIS text corpus to Icelandic to create a benchmark SLU dataset for Icelandic ARS.
    The dataset was used to create a baseline n-gram language model for slot-filling (SF), as well as to create a neural network for intent determination (ID) to tag and classify unseen texts.
    This work consists of two parts. The first part is to create the ICE-ATIS dataset by translating the samples from the ATIS text corpus to Icelandic and reannotate them accordingly. The second part is to create SF and ID for Icelandic ARS.
    When creating the n-gram language model for SF, a unigram, bigram, and a trigram models were created and evaluated. We report F1 as high as 88.9% running the models on the test set from the ICE-ATIS dataset.
    Likewise, for the shallow feedforward neural network (FFNN) used for ID, we report F1 score of 87.2% using bag-of-words embedding (BOW).
    The ICE-ATIS corpus, code, and models will be made publicly available to strengthen Icelandic language technology further.

  • Málskilningarkerfi eða talmálsskilningarkerfi er ein af mörgum stoðum samræðukerfa.
    Megin hlutverk talmálskilningarkerfa er að útbúa mótuð gögn út frá náttúrulegum texta sem fenginn er út frá talaðri segð.
    Í flugbókunarkerfum sem styðja við samræðukerfi er hlutverk talmálsskilningarkerfis að draga fram upplýsingar eins og brottfararstað, áfangastað og aðrar mikilvægar upplýsingar eins og dagsetningar og tíma.
    Síðastliðna þrjá áratugi hefur ATIS gagnasafnið verið notað sem viðmiðunarmálheild fyrir talmálsskilningarkerfi í flugbókunarkerfum á ensku.
    Við höfum þýtt ATIS yfir á íslensku til þess að getað notað gagnasafnið sem viðmiðunarmálheild fyrir m.a. talmálsskilningarkerfi í íslensku flugbókunarkerfi.
    Verkefnið skiptist í tvo hluta. Fyrsti hluturinn fór í að útbúa ICE-ATIS, íslenska útgáfu af ATIS málheildinni með því að þýða öll gögnin og endurmarka þau. Síðari hlutur verkefnisins fór í að búa til n-gram mállíkön útfrá ICE-ATIS sem voru notuð til að útbúa talmálsskilningarkerfi fyrir flugbókunarkerfi á íslensku. Málheildin var síðan notuð til að útbúa grunnmállíkön sem má nota til viðmiðunar í frekari rannsóknum.
    Þessi mállíkön geta annað hvort verið notuð til þess að marka texta sem má notast við til að fylla út í dálka eða til að flokka segðir út frá áformi segðarinnar.
    Við útbjuggum þrjú n-gram mállíkön til að marka texta. Niðurstöður gáfu okkur að F1 gilidið næði allt að 88.9% með því að keyra mállíkönin á áður óséðum texta. Til auks við mállíkönin bjuggum við til grunnt tauganetslíkan til áformsflokkunar og náðum F1 gildinu allt að 87.2% með því að nota orðapokainnfellingu.
    Málheildin, kóði, og líkön munu öll vera gefin út opinberlega til þess að styðja við frekari þróun á sviði íslenskrar máltækni.

Styrktaraðili: 
  • Icelandair
Samþykkt: 
  • 26.1.2021
URI: 
  • http://hdl.handle.net/1946/37543


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_Hlodversson_2021.pdf1.07 MBOpinnHeildartextiPDFSkoða/Opna