en English is Íslenska

Thesis (Master's)

Reykjavík University > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Please use this identifier to cite or link to this item: http://hdl.handle.net/1946/42020

Title: 
  • ASR-based pronunciation assessment for non-native Icelandic speech
  • Title is in Icelandic Talgreining notuð til að gera mat á framburði einstaklinga sem hafa ekki íslensku að móðurmáli
Degree: 
  • Master's
Abstract: 
  • This thesis explores pronunciation assessment based on Automatic Speech Recognition (ASR) systems.
    We extract pronunciation scores, specifically Goodness of Pronunciation, from a trained ASR system and use these as input to train a pronunciation classifier. The classifier rates each sound (phoneme) in a speech sample as either a correct pronunciation or a mispronunciation. Training the classifier only requires an ASR system and an ASR data set of native speech. It therefore does not require any manually annotated pronunciation scores for training.
    To evaluate the classifier, we created an evaluation set with artificially induced mispronunciations. We induce artificial mispronunciations in the native-speaker data, based on a list of phoneme substitutions that are commonly mispronounced by non-native speakers. While other researchers have used a predetermined list of phoneme substitutions commonly mispronounced by non-native speakers, we propose and use a method that automatically determines the list by comparing ASR recognition on native and non-native speech, rather than relying on external linguistic knowledge.
    This artificially created evaluation set is then used to evaluate whether the artificial mispronunciations were correctly identified as mispronunciations. On the artificial evaluation test set, the classifier outperforms a baseline model.

  • Abstract is in Icelandic

    Í þessari ritgerð skoðum við framburðarmat sem gert er með talgreiningu.
    Við tökum mælistikuna fyrir gæði framburðar úr þjálfuðu talgreiningarkerfi og notum sem inntak til að þjálfa framburðarflokkara. Flokkarinn merkir hvert hljóð (hljóðan) í talsýni sem annaðhvort réttan eða rangan framburð. Til að þjálfa flokkarann þarf einungis talgreiningarkerfi og gagnasafn með talgreint móðurmál. Hann þarf því enga handmerkta framburðarmælingu fyrir þjálfun.
    Til að meta flokkarann bjuggum við til matssafn með röngum framburði sem framkallaður var með tilbúnum hætti. Við bjuggum til orð í móðurmálsgagnasafninu sem byggja á lista af framburðarvillum sem þeir sem hafa íslensku ekki að móðurmáli gera gjarnan. Í öðrum rannsóknum hafa verið notaðir fyrirfram ákveðnir listar af þessum framburðarvillum. Við leggjum hins vegar til og notum aðferð sem ákvarðar listann sjálfvirkt með því að bera saman talgreiningu á tali þeirra sem hafa íslensku að móðurmáli og annarra frekar en að reiða okkur á utanaðkomandi tungumálakunnáttu.
    Þetta tilbúna matssafn er svo notað til að meta hvort tilbúnu framburðarvillurnar séu rétt greindar sem framburðarvillur. Flokkarinn okkar skilar betri niðurstöðum fyrir verkefnið en grunnlíkan.

Accepted: 
  • Jun 14, 2022
URI: 
  • http://hdl.handle.net/1946/42020


Files in This Item:
Filename Size VisibilityDescriptionFormat 
ASR_thesis_LO_June_2022.pdf4.35 MBOpenComplete TextPDFView/Open