ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Dosažené výsledky

2004

 • nahrána audiovizuální databáze HSCAVC pro 100 řečníků
 • databáze slouží k ověřování metod audiovizuálního rozpoznávání
 • složení řečníků: 39 mužů 61 žen
 • databáze obsahuje 200 foneticky vyvážených vět

2005

 • proveden přepis promluv v audiovizuální databázi HSCAVC
 • vytvořen algoritmus pro nalezení hlavy, očí a trů řečníka běhen promluvy
 • algoritmus je založen na metodě headtrackingu a liptrackingu prezentované na konferenci SPECOM2004 [1] a ICLSP2004 [2]
 • provedeno první předzpracování korpusu HSCAVC
 • pro každou nahrávku byla určena pozice středu rtů a veliskost oblasti zájmu
 • výsledky plus popis nahrávání korpusu byly prezentovány na konferenci AVSP2005 [3]
 • vylepšen algoritmus nalezení rtů o přesné nalezení vnitřní a vnější kontury rtů
 • byla využita metoda ACM (active contour model)
 • vylepšení algoritmu nalezení rtů o zpracování vnitřku úst
 • dodány algortimy pro detekci zubů a jazyka uvnitř úst
 • vytvořena první parametrizace vizuálních promluv založená na metodě DCT
 • DCT koeficienty jsou používány jako standardní parametrizace vizuálních složky řeči
 • vyzkoušení DCT parametrizace na anglickém audio vizuální korpusu XM2VTSDB
 • bylo provedeno rozpoznávání číslic v souvyslích větách s úspěšností 55%
 • tato úspěšnost odpovídá výsledků z článku [4]
 • DCT paramtrizace bude použita k porovnání úspěšnosti námi navržené parametrizace
 • provedena analýza českých fonémů z hlediska vizuální informace
 • analýza byla provedena pro 3 řečníky
 • bylo nalezeno 13 vizémových skupin podobně jako to uvádí literatura pro výuku odezírání řeči
 • výsedky byly prezentovány na konferenci SPECOM2005 [5]
 • návrh vlastní parametrizace vizuální složky řeči
 • parametrizace je založena na geometrickém popisu rtů a jejich okolí tak aby bylo možné využít poznatky expertů na odezírání řeči
 • parametrizace je navržena s ohledem na nezávislost na řečníkovi
 • [1] Detection of Face Position and 3D Orientation in 2D image SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences, Speech Informatics Group, 2004
 • [2] Císař P., Železný M., Krňoul Z. 3D Lip-tracking for Lip-reading in Real Applications Proceedings of the ICSLP 2004, Jeju, Republic of Korea, 2004
 • [3] Císař P., Kanis J., Krňoul Z., Müller L., Zelinka J., Železný M. DESIGN AND RECORDING OF CZECH SPEECH CORPUSAVSP2005, Canada, Vancouver Island, 2005
 • [4] X. Liu, Y. Zhao, X. Pi, L. Liang, and A. V. Nefian, Audio-visual continuous speech recognition using a coupled hidden Markov model" in Proc. Int. Conf. Spoken Language Processing, 2002
 • [5] Krňoul Z., Železný M., Císař P., Holas J. Viseme Analysis for Speech-Driven Facial Animation for Czech Audio-Visual Speech Synthesis Wire Communication Laboratory, University of Patras, Greece, 2005