ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Řešitel

Ing. Císař Petr <pcisar1@kky.zcu.cz>

Audiovizuální rozpoznávání řeči

Jedná se o úlohu rozpoznávání řeči počítačem, v níž je využíváno obou složek řeči: akustické složky a vizuální složky. Řeč je produkována řečovým ústrojím a výsledkem produkce řeči člověkem je akustický signál, který můžeme slyšet a pohyb řečového ústrojí, který můžeme vidět. Bohužel viditelnou část hlasového ústrojí představují pouze rty, zuby, jazyk a tváře člověka. Proto vizuální složka řeči obsahuje méně informace než akustická složka řeči. Vizuální složku řeči využívají nejen lidé se sluchovým postižením (odezírání ze rtů), ale používáme ji nevědomě všichni v běžné komunikaci především v hlučných prostředích.

Schéma

Schéma audiovizuálního rozpoznávání řeči
Obrázek 1: Schéma audiovizuálního rozpoznávání řeči. Celý proces rozpoznávání se skládá ze dvou částí. Akustická část a vizuální část. Tyto dvě větve procesu mohou být vzájemně propojeny v některých bodech procesu. Vizuální část se skládá ze tří základních bloků. Blok nalezení oblasti zájmu: stará se o nalezení hlavy řečníka a určení polohy úst v obraze. Blok parametrizace: jeho úkolem je vhodně popsat vizuální řeč tak aby tento popis obsahoval co nejvíce informace o řeči a žádnou informaci o řečníkovi (do tohoto bloku patří i pod blok nalezení rtů). Blok rozpoznávání: provádí kombinaci akustického a vizuálního popisu řeči a samotné rozpoznávání.

Problém rozpoznávání řeči v hlučných prostředích. Akustický šum ovlivňuje pouze akustickou složku řeči a proto se vizuální rozpoznávání využívá právě jako podpora akustického rozpoznávání v hlučných prostředích.

Jak využít vizuální informaci
Obrázek 2: Jak využít vizuální informaci.

Definice

Audio vizuální rozpoznávání řeči, je rozpoznávání řeči člověkem nebo strojem při němž je využívána jak akustická tak vizuální část řeči. Vizuální složkou řeči rozumíme viditelnou část řečového traktu. Protože k tvorbě řeči přispívá i část řečového traktu, která není viditelná, obsahuje vizuální složka řeči méně informace o řeči než akustická složka řeči. Vizuální složku řeči používají především lidé sluchově postižení. Pro neslyšící je vizuální část řeči jediná informace o řeči. Odezírání je tedy rozpoznávání řeči z vizuální složky řeči. Odezírání však používají i lidé, kteří nejsou sluchově postiženi. Používají ho k zvýšení úspěšnosti rozpoznávání řeči tam kde je akustická složka řeči zatížena šumem. Při rozpoznávání řeči počítačem se vizuální složka řeči používá také jako podpora rozpoznávání z akustické složky řeči. Tak jako v jiných úlohách i při audiovizuálním rozpoznávání řeči počítačem se vychází ze zkušeností lidských expertů na odezírání. Sluchově postižení dosahují úspěšnosti odezírání maximálně 60-80% v závislosti na podmínkách odezírání. Nejdůležitější podmínky odezírání jsou kvalita vizuální řeči řečníka (správná artikulace), úhel pohledu, osvětlení, stav odezírajícího člověka atd. Kvalita vizuální řeči člověka je velmi závislá na řečníkovi. Je dokázáno že člověk, kterému je dobře rozumět z akustické složky řeči nemusí mít dobře odezřetelnou vizuální řeč. Při učení řeči totiž nemáme zpětnou odezvu zda je naše vizuální řeč správná či nikoliv. V úloze odezírání se jako základní řečové jednotky používají vizémy. Vizém je skupina fonémů, které mají podobný řečový obraz (vizuální složku řeči). Například fonémy p,b,m tvoří jedem vizém. Pro češtinu se většinou uvádí 13 různých vizémů. Podobnosti jednotlivých vizémů jsou způsobeny menším množstvím informace o řeči obsažené ve vizuální složce řeči. Velkým problémem při odezírání je tzv. ovlivňování jednotlivých vizémů vyslovených v jenom slově (koartikulace). Z tohoto hlediska rozdělujeme vizémy na ovlivňované a ovlivňující. Podle toho jak po sobě následují ve slově se může změnit mluvní obraz vizému v důsledku působení okolních vizémů. Tento jev odezírání velmi ztěžuje.

Jaká hláska se skrývá pod obrázkem
Obrázek 3: Jaká hláska se skrývá pod obrázkem? Zde si můžete ověřit zda dokážete určit promlouvanou hlásku jen podle obrázku. Najeďte na obrázek a zobrazí se hláska?