ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Popis rtů pro rozpoznávní

Jestliže jsme získali kontury rtů, můžeme provést výpočet popisu vizuální složky řeči (získání příznaků). Popis nám vlastně převádí jednotlivé tvary rtů, nastavení jazyka atd. na čísla. Vizuální složka řeči se velmi liší pro různé řečníky. Ne každý člověk, kterému je dobře rozumět z akustické složky řeči, musí mít dobře odezřetelné mluvní obrazy. Popis vizuální složky řeči by měl být nezávislý na řečníkovi. To znamená, že popis je podobný pro různé řečníky a stejné fonémy. Na druhou stranu musí být popis dostatečně odlišný pro odlišné fonémy u jednoho řečníka. Existují dva základní druhy popisů: obrazový, tvarový. Popis založený na obraze pracuje s celou oblastí ROI. Jako popis bere jednotlivé body této oblasti a pomocí metod redukce informace (nadbytečné) se snaží získat popis. Metody založené na tvaru potřebují získat konturu rtů. Po té se snaží popsat jednotlivé části obličeje, které jsou důležité při odezírání (okrouhlost rtů, výška rtů, šířka rtů)

Popis
Obrázek 11: Náš popis je založen na znalostech experta, který umí odezírat ze rtů. Jednotlivé příznaky se snaží popsat dominantní vizuální část pro jednotlivé fonémy. Příznaky jsou zvoleny tak, aby nepopisovali konkrétní velikosti rtů (šířka, výška), neboť ta je závislá na řečníkovi. Jedním z příznaků je dotyk horního a dolního rtu. Tento příznak je důležitý pro skupinu fonémů p,b,m. Další příznak je okrouhlost rtů (o,u). Mezi další příznaky patří dotyk horních zubů a spodního rtu, pozice horních zubů, pozice dolních zubů, pozice jazyka, pohyb horního rtu, pohyb dolního rtu, pohyb a deformace oblastí kolem úst, pohyb brady, tvar rtů, vzájemné polohy jednotlivých částí.
Zuby
Obrázek 12: Velice důležitou složkou vizuální informace je viditelnost a pozice jednotlivých částí uvnitř úst. Viditelné jsou pouze zuby a částečně jazyk. Pozici těchto objektů zjišťujeme pomocí analýzy jedné řádky vnitřku rtů. Tato řádka nese všechny potřebné informace o zbytku úst, protože pohyb zubů a jazyka se během promluvy odehrává pouze ve vertikální oblasti. Pohyby v horizontálním směru nemají pro řeč význam. Analýza řádky je založena na vyhledávání maxim a minim v šedotónové reprezentaci.

Ukázky nalezení kontury rtů: