ÍslenskaenEnglish

Aðilar að Skemmunni

Leit eftir:


LokaverkefniHáskólinn í Reykjavík>Tækni- og verkfræðideild>MSc verkefni>

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/12717

Titill

Speaker Localization and Identification

Leiðbeinandi
Útgáfa
Apríl 2012
Útdrættir
  • Hljóðgreining nýtist fólki ýmist í samskiptum eða til að bregðast við áreiti úr umhverfinu.
    Vélmenni ættu að vera jafn góð ef ekki betri en menn í þvi að greina umhverfi sitt. Einnig ættu þau að geta aðgreint hljóð betur en menn. Vélmenni ættu að geta greint staðsetningu hljóðgjafa, snúið höfðinu og fengið sýnilegar upplýsingar um hljóðgjafann.
    Þessu verkefni er skipt niður i þrjá hluta.
    Fyrsti hluti: er hljóðgreining gerð á YOHO gagnagrunninn fyrir þrjár mismunandi aðferðir til séreinkenna öflunar.
    Mel cepstum framsetning (MFCC).
    Öfug Mel cepstrum framsetning (RMFCC).
    Mel cepstrum framsetning á raddlind sem fundin er með "iterative adaptive inverting filtering" (IAIF).
    Blönduð Gássísk líkön eru notuð á séreinkenna vigrana í öllum tilvikum. Villuhlutfall var 10.13% fyrir MFCC, 30.96% fyrir RMFCC og 62.04% fyrir IAIF. Með því að blanda saman MFCC og RMFCC þá er villuhlutfallið lækkað í 8.81%.
    Annar hluti: felst í þvi að greina og finna staðsetningar hljóðgjafa fyrir nýjan gagnagrunn sem er tekinn upp með Kinect skynjara. Tímamunur er áætlaður með GCC-PHAT og samsvarandi snúningur metinn. Fyrir hljóðgreiningu er notað MFCC einkenni og Gássisk líkön, villuhlutfall var 24.67%. Fyrir staðsetningar þá var meðaltals villa 3.09° +- 3.92° án þess að glugga merki.
    Þriðji hluti: fjallar svo um rauntímagreiningu hljóðgjafa og staðsetning þeirra. Villuhlutfall og meðaltals staðsetninga skekkja sem fall af gluggastærð er sýnd.

  • en

    Recognizing and locating sounds is a crucial part of human awareness and communications. Humanoid robots should be as aware as humans or better and their artificial auditory system should have better speech separation than humans are capable of doing. The humanoids should be able to recognize who is speaking and have the ability to turn their head such that a visual information of that speaker could be obtained.
    This project is separated into three parts.
    First: speaker recognition is done on the YOHO database comparing three different feature extraction methods:
    Mel frequency cepstrum coefficients (MFCC)
    Reversed mel frequency cepstrum coefficients (RMFCC)
    MFCC on voice source obtained with Iterative adaptive inverse filtering (IAIF)
    Each of the features are trained using Gaussian mixture models (GMM). The misclassification rate for each of the methods were found to be: 10.13% for MFCC, 30.96% for RMFCC and 62.04% for IAIF. Also by mixing MFCC and RMFCC methods the traditional MFCC method is improved by 13% and a misclassification rate of 8.81% is obtained.
    Second: the locations and speaker identification for a new database which was recorded with a Kinect sensor are estimated. Generalized cross correlation with phase transform (GCC-PHAT) for time difference estimation was used to locate speakers, and MFCC using GMM were used to recognize the speakers.
    A misclassification rate of 24.67% was obtained and a location accuracy of 3.09° +- 3.92° without windowing.
    Third: the misclassification rate and localization errors as a function of window size are estimated for the new database and the real time behaviour of the speaker recognition and localization methods obtained.

Birting
7.8.2012


Skrár
NafnRaðanlegtStærðHækkandiAðgangurRaðanlegtLýsingRaðanlegtSkráartegund
Speaker Localizati... .pdf808KBOpinn Heildartexti PDF Skoða/Opna