is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: https://hdl.handle.net/1946/42020

Titill: 
  • Titill er á ensku ASR-based pronunciation assessment for non-native Icelandic speech
  • Talgreining notuð til að gera mat á framburði einstaklinga sem hafa ekki íslensku að móðurmáli
Námsstig: 
  • Meistara
Leiðbeinandi: 
Útdráttur: 
  • Útdráttur er á ensku

    This thesis explores pronunciation assessment based on Automatic Speech Recognition (ASR) systems.
    We extract pronunciation scores, specifically Goodness of Pronunciation, from a trained ASR system and use these as input to train a pronunciation classifier. The classifier rates each sound (phoneme) in a speech sample as either a correct pronunciation or a mispronunciation. Training the classifier only requires an ASR system and an ASR data set of native speech. It therefore does not require any manually annotated pronunciation scores for training.
    To evaluate the classifier, we created an evaluation set with artificially induced mispronunciations. We induce artificial mispronunciations in the native-speaker data, based on a list of phoneme substitutions that are commonly mispronounced by non-native speakers. While other researchers have used a predetermined list of phoneme substitutions commonly mispronounced by non-native speakers, we propose and use a method that automatically determines the list by comparing ASR recognition on native and non-native speech, rather than relying on external linguistic knowledge.
    This artificially created evaluation set is then used to evaluate whether the artificial mispronunciations were correctly identified as mispronunciations. On the artificial evaluation test set, the classifier outperforms a baseline model.

  • Í þessari ritgerð skoðum við framburðarmat sem gert er með talgreiningu.
    Við tökum mælistikuna fyrir gæði framburðar úr þjálfuðu talgreiningarkerfi og notum sem inntak til að þjálfa framburðarflokkara. Flokkarinn merkir hvert hljóð (hljóðan) í talsýni sem annaðhvort réttan eða rangan framburð. Til að þjálfa flokkarann þarf einungis talgreiningarkerfi og gagnasafn með talgreint móðurmál. Hann þarf því enga handmerkta framburðarmælingu fyrir þjálfun.
    Til að meta flokkarann bjuggum við til matssafn með röngum framburði sem framkallaður var með tilbúnum hætti. Við bjuggum til orð í móðurmálsgagnasafninu sem byggja á lista af framburðarvillum sem þeir sem hafa íslensku ekki að móðurmáli gera gjarnan. Í öðrum rannsóknum hafa verið notaðir fyrirfram ákveðnir listar af þessum framburðarvillum. Við leggjum hins vegar til og notum aðferð sem ákvarðar listann sjálfvirkt með því að bera saman talgreiningu á tali þeirra sem hafa íslensku að móðurmáli og annarra frekar en að reiða okkur á utanaðkomandi tungumálakunnáttu.
    Þetta tilbúna matssafn er svo notað til að meta hvort tilbúnu framburðarvillurnar séu rétt greindar sem framburðarvillur. Flokkarinn okkar skilar betri niðurstöðum fyrir verkefnið en grunnlíkan.

Samþykkt: 
  • 14.6.2022
URI: 
  • http://hdl.handle.net/1946/42020


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
ASR_thesis_LO_June_2022.pdf4,35 MBOpinnHeildartextiPDFSkoða/Opna