ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální syntéza řeči

Vizuální řeč

Je dobře známo, že odezírání ze rtů je nutnou podmínkou porozumění řeči sluchově postižených lidí. Ti používají specifických tvarů tváře zejména pak rtů k získání informací o promluvě. Ale i pro normálně slyšící jedince pomáhá vizuální vjem k lepšímu porozumění. Již v roce 1935 pak Cotton uvedl, že vizuální řeč je důležitou částí vizuálního slyšení normálně slyšících i když v těchto případech je vždy dominantním akustický vjem. Proto můžeme konstatovat, že vizuální řeč je přirozenou částí verbální mezilidské komunikace.

Do vizuální řeči můžeme zahrnout všechny řečové projevy, které můžeme vnímat zrakem na tváři řečníka. Kompletní vizuální informace je zprostředkována tvarem a pohybem rtů, brady, zubů, tváří a krku. Vizuální a akustické projevy jsou z principu jejich vzniku synchronizované. Důkazem o přínosu vizuální řeči k celkovému porozumění jsou prováděné audio-vizuální studie vnímání řeči. Výsledek takové studie můžeme vidět např. na obr1. Studie ukazuje vjem audio-vizuální řeči za různých stupňů degradace akustické informace. Studie se provádí nejčastěji s plně slyšícími jedinci ve formě poslechových testů. Krajní hodnota v grafu pak ukazuje úspěšnost porozumění řeči pouze ze rtů, neboť porozumění akustické složce je díky šumu nulováno.

Studie audio-vizuálního vnímání řeči
Obrázek 1: Ukázková studie audio-vizuálního vnímání řeči.

Další důkazem toho, že každý člověk vnímá vizuální řeč je tzv. "McGurkův efekt". Pan Harry Mc Gurk jako první zpozoroval dvojí vnímání řeči na promluvě slabiky /ba/. Experiment spočíval ve spojení akustické promluvy slabiky /ba/ a vizuální promluvy slabiky /ga/. Spojení bylo samozřejmě synchronizované. Pozorovatel tedy slyšel /ba/ a na tváři řečníka viděl /ga/. Výsledkem vnímání této přirozeně nemožné řeči je slabika /da/. Toto dokazuje to, že lidský mozek nějak kombinuje oba vjemy obr2.

Multimodální vjem řeči
Obrázek 2: Multimodální vjem řeči.

Obrácené pořadí, tj. akustické /ga/ a vizuální /ba/ však nezpůsobuje vnímání /da/, ale jakési /bga/. To může být jednoduše vysvětleno velmi dobrým vizuálním vjemem hlásky /b/ (nezaměnitelné zavření úst). Existují i další kombinace, např. jedna z nejsilnějších kombinací je /ma/ + /ka/ = /na/.

Co je vizém

Při vytváření řeči člověk vytváří věty ze slov a slova z vhodných hlásek a při tom využívá artikulačních orgánů. Obecně můžeme říci, že každá česká hláska, tak jak ji známe, je vyrobena z nějaké konfigurace artikulačních orgánů. Z definice vizuální řeči pak budeme přihlížet jen na lidským okem viditelné části artikulačních orgánů. Toto je však je podmnožina všech možných artikulačních tvarů. Z tohoto důvodu je vizuální podoba některých českých hlásek podobná a právě skupinám těchto hlásek se říká vizémy. Známe tedy vizém /p,b,m/, který využívá stejné nastavení rtů nebo vizém pro sykavky /s,z,c/ atd.