ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Audio vizuální korpus

Audio vizuální korpus: Abychom mohli ověřit námi navržené metody audio vizuálního rozpoznávání, vytvořili jsem databázi laboratorních audio vizuálních nahrávek neboť existuje pouze jedna audiovizuální databáze pro český jazyk (nepoužitelná pro naše účely). Databáze byla nahrána tak, aby její zpracování (nalezení hlavy, nalezení rtů) bylo co nejednodušší a co nejpřesnější. Na této databázi budou provedeny testy audiovizuální rozpoznávání spojité řeči.

Parametry korpusu:

  • Počet řeníků: 100 řečníků, 39 mužů, 61 žen
  • Jazyk: čestina
  • Počet promluv: 200 pro každého řečníka, prvních 50 společných pro všechny.
  • Typ promluv: spojitá řeč, foneticky vyvážené věty
  • Video záznam: čelní pohled, 720*576*25fps, DV codec
  • Akusitcký záznam: 2 mikrofony, 44kHz, 16 bit, PCM

Akutický a vizuální záznam byly nahrány odděleně a pro jejich synchronizaci byla použita klapka. Všechny promluvy byly ručně přepsány a bylo provedeno předzpracování video záznamu. Předzpracování provedlo nalezení hlavy řečníka a oblasti zájmu ROI (oblast rtů). Veškeré tyto informace byly uloženy na DVD.

Nahrávání korpusu
Obrázek 13: Nahrávání korpusu.
Řečníci
Obrázek 14: Řečníci.