is Íslenska en English

Lokaverkefni (Meistara)

Háskólinn í Reykjavík > Tæknisvið / School of Technology > MSc Tölvunarfræðideild / Department of Computer Science >

Vinsamlegast notið þetta auðkenni þegar þið vitnið til verksins eða tengið í það: http://hdl.handle.net/1946/7429

Titill: 
  • Titill er á ensku A distributed dialog architecture with learning
  • Samskiptagreind fyrir vitverur
Námsstig: 
  • Meistara
Útdráttur: 
  • Útdráttur er á ensku

    A wide range of conversational skills is required for conducting a fluid dynamic dialogue. Giving a computer controlled agent turntaking skills that function at a realtime pace in a human-like manner has been both a practical and theoretical goal of speech technology research for decades. Control of response timing - knowing when it is appropriate to interrupt, yield the turn, start responding, and the like - is one of the challenges in this endeavor. This thesis describes the use of machine learning to aid in the realtime classification and use of valid auditory perceptual cues for taking turns. A dialog system using these methods has been implemented and tested in dynamic interaction with itself and with humans. Results show that the system’s performance is very close to human speakers with regards to the timing of turntaking, correctly taking turns in as short as 235 msecs. In human conversation 70% of between-speaker silences are shorter than 500 msec. The system developed here approaches this, with 60% of between-speaker silences shorter than 500, learning this in online training sessions in roughly 80 turns.

  • Rannsóknir á margþátta samskiptakerfum sem herma eftir mannlegri samskiptahegðun eru fremur skammt á veg komnar og eðlileg munnleg samskipti við tölvur að sama skapi framtíðarsýn. Margslungnir samskiptahæfileikar eru nauðsynlegir til að vera gjaldgengur í opnum og óheftum samræðum. Stýring á svartíma - það að vita hvenær er viðeigandi að svara, þegja, grípa frammí o.sv.frv. - er eitt af lykil atriðunum að settu marki. Fólk notar ýmis merki eins og t.d. ítónun til að gefa til kynna hvort það sé að gefa orðið eða ekki. Þessi merki má greina á margfalt skemmri tíma en innihald tals. Kerfið sem hér hefur verið þróað notar lærdómsaðferðir til að aðlagast samskiptahegðun viðmælandans með því að læra sjálfvirkt á ítónun og raddblæ hans. Kerfið hefur verið útfært og prófað í samræðum við sjálft sig og við fólk. Niðurstöður sýna að kerfið kemst mjög nálægt mannlegri hegðun hvað varðar svartíma. Lengd þagna milli viðmælenda í samtölum fólks eru í 70% tilvika styttri en 500 millisekúndur. Kerfið nálgast þetta, með 60% þagna styttri en 500 msek og allt að 30% styttri en 300 msek.

Samþykkt: 
  • 25.1.2011
URI: 
  • http://hdl.handle.net/1946/7429


Skrár
Skráarnafn Stærð AðgangurLýsingSkráartegund 
MSc_Gudny-Ragna-Jonsdottir.pdf2.33 MBOpinnHeildartextiPDFSkoða/Opna