ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Dosažené výsledky

2004

  • nahrána audiovizuální databáze HSCAVC pro 100 řečníků
  • databáze slouží k ověřování metod audiovizuálního rozpoznávání
  • složení řečníků: 39 mužů 61 žen
  • databáze obsahuje 200 foneticky vyvážených vět

2005

  • proveden přepis promluv v audiovizuální databázi HSCAVC
  • vytvořen algoritmus pro nalezení hlavy, očí a trů řečníka běhen promluvy
  • algoritmus je založen na metodě headtrackingu a liptrackingu prezentované na konferenci SPECOM2004 [1] a ICLSP2004 [2]
  • provedeno první předzpracování korpusu HSCAVC
  • pro každou nahrávku byla určena pozice středu rtů a veliskost oblasti zájmu
  • výsledky plus popis nahrávání korpusu byly prezentovány na konferenci AVSP2005 [3]
  • vylepšen algoritmus nalezení rtů o přesné nalezení vnitřní a vnější kontury rtů
  • byla využita metoda ACM (active contour model)
  • vylepšení algoritmu nalezení rtů o zpracování vnitřku úst
  • dodány algortimy pro detekci zubů a jazyka uvnitř úst
  • vytvořena první parametrizace vizuálních promluv založená na metodě DCT
  • DCT koeficienty jsou používány jako standardní parametrizace vizuálních složky řeči
  • vyzkoušení DCT parametrizace na anglickém audio vizuální korpusu XM2VTSDB
  • bylo provedeno rozpoznávání číslic v souvyslích větách s úspěšností 55%
  • tato úspěšnost odpovídá výsledků z článku [4]
  • DCT paramtrizace bude použita k porovnání úspěšnosti námi navržené parametrizace
  • provedena analýza českých fonémů z hlediska vizuální informace
  • analýza byla provedena pro 3 řečníky
  • bylo nalezeno 13 vizémových skupin podobně jako to uvádí literatura pro výuku odezírání řeči
  • výsedky byly prezentovány na konferenci SPECOM2005 [5]
  • návrh vlastní parametrizace vizuální složky řeči
  • parametrizace je založena na geometrickém popisu rtů a jejich okolí tak aby bylo možné využít poznatky expertů na odezírání řeči
  • parametrizace je navržena s ohledem na nezávislost na řečníkovi
  • [1] Detection of Face Position and 3D Orientation in 2D image SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences, Speech Informatics Group, 2004
  • [2] Císař P., Železný M., Krňoul Z. 3D Lip-tracking for Lip-reading in Real Applications Proceedings of the ICSLP 2004, Jeju, Republic of Korea, 2004
  • [3] Císař P., Kanis J., Krňoul Z., Müller L., Zelinka J., Železný M. DESIGN AND RECORDING OF CZECH SPEECH CORPUSAVSP2005, Canada, Vancouver Island, 2005
  • [4] X. Liu, Y. Zhao, X. Pi, L. Liang, and A. V. Nefian, Audio-visual continuous speech recognition using a coupled hidden Markov model" in Proc. Int. Conf. Spoken Language Processing, 2002
  • [5] Krňoul Z., Železný M., Císař P., Holas J. Viseme Analysis for Speech-Driven Facial Animation for Czech Audio-Visual Speech Synthesis Wire Communication Laboratory, University of Patras, Greece, 2005