Content area
Full Text
Összefoglalás
Ismert megfigyelés, hogy az akusztikus és a vizuális jel időbeli elcsúszása befolyásolja a beszéd érthetőségét. Számos publikáció tárgyalja, hogy az érthetőséget eltérően befolyásolja, hogy a hang késik vagy siet a képhez viszonyítva. Ezek az eredmények rendszerint szu bjektív teszteken alapulnak, és nem adnak magyarázatot a különbségre. Nem világos, hogy a jelenség percepciós vagy produkciós eredetű. Ebben a cikkben egy kétmódusú, gépi beszéd felismerési kísérletben tanulmányozzuk az audiovizuális aszimmetriát, kiküszöbölve a kísérleti alanyok percepciós tapasztalatát. Az eredményeket az audiovizuális beszédszintézis természetességének fokozására használjuk.
Kulcsszavak: beszéd percepció, beszéd produkció, multi modalitás, audiovizuális beszédszintézis
Abstract
The temporal synchrony of auditory and visual signals is known to affect the perception of audio visual speech. Several papers have discussed the asymmetry of acoustic and visual timing cues. These results are usually based on subjective intelligibility tests and the reason is remained obscure. It is not clear that the observation is perception or production origin. In this paper the effect of audio-visual asynchrony is studied in an automatic bimodal speech recognition task, eliminating the perception expertise of observers. Results are utilized to improve naturalness of audio visual speech synthesis.
Keywords: speech perception, speech production, multimodality, audio visual speech synthesis
1.Bevezetés
Az emberi beszédfelismerést nagymértékben befolyásolja a beszélő látványa. A beszélő szájmozgásának megfigyelése javítja a beszéd érthetőségét különösen zajos környezetben és a hallássérültek esetében. Amikor kétmódusú - akusztikus és vizuális - beszédfelismerést végzünk, jobban toleráljuk az akusztikus jel késését, mint a sietését, mivel ez utóbbi nem fordul elő természetes körülmények között. Magyarázhatja a különbséget percepciós tapasztalatunk: A hang terjedési sebessége messze elmarad a fényétől. Figyelembe véve a hang 330 méter/szekundum terjedési sebességét, 13,2 méter távolságról hallgatva a beszélőt, egy TV képkocka (40 ms) a kép és a hang között az időkésleltetés. A hangerősítők és kivetítők világában ennél nagyobb késleltetésű hanggal is gyakorlatra tehetünk szert a kétmódusú felismerésben. Ez a percepciós tapasztalat magyarázhatja, hogy a hang késése kevésbé rontja a beszédértést, mint a sietése.
A produkció oldali indokokat erősíti az ismert megfigyelés, hogy az artikulációs mozgások megelőzik a hang megjelenését, a hangképző szervek már előre készülnek a következő hang kimondására.
2.Korábbi kutatási eredmények
McGrath és Summerfield az akusztikus és a vizuális jel integrációját vizsgálta, a két mod alitás közötti időeltolódás hatásaira koncentrálva [1]. Mondatok audiovizuális felismerését vizsgálták az akusztikus jel késleltetésének...