ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální syntéza řeči

Vytváření modelu tváře pro konkrétního člověka.

Jedním z cílů je také přizpůsobení modelu tváře konkrétnímu člověku. Zde v prvé řadě nutné řešit tvarové změny modelu podle dané tváře a dále pak věrně zachytit i barvu pokožky.

Můžeme zde např. popsat fotometrickou 3D rekonstrukci lidské tváře. Rekonstrukcí je myšleno získání a změření geometrické polohy trojrozměrných bodů na povrchu tváře. Tyto body pak v počítači představují povrch lidské tváře. Ke každému bodu mohou být přiřazeny informace o barvě povrchu tváře tzv. textura. V tomto případě pak získáme 3D texturovaný povrch, který realisticky zachycuje tvář snímaného člověka.

Metoda rekonstrukce

Jako jeden z možných postupů 3D rekonstrukce je zvolen stereo-záznam tváře a pomocný paprsek (tzv. rekonstrukce 3D tvaru pomocí proužkového osvětlení). Stereo-záznam je časová sekvence snímků synchronizována s postupným posunem paprsku po povrchu tváře.

Jeden ze sekvence snímků můžeme vidět na obr. 6 a ukázku záznamu.

Stereo-záznam
Obrázek 6: Stereo-záznam. Zde vidíme dva pohledy na tvář obsažené v jednom obraze a zachycené jednou kamerou v jednom okamžiku.

Na tvář je promítán úzký paprsek světla, který je v digitalizovaném obraze detekován a dále zpracováván.

Vertikální paprsek osvětlující povrch tváře
Obrázek 7: Vertikální paprsek osvětlující povrch tváře získaný v jednou časovém okamžiku. Tento paprsek nám pomůže při hledání korespondencí při stereo-vidění.

Snímací soustava

Snímací soustava se skládala z jedné kamery, soustavy zrcadel, zdroje paprsku a kalibrační desky. Rozmístění částí soustavy vidíme na obr.8. Soustava čtyř zrcadel nám umožní pohled na tvář ze dvou stran složit do jednoho pohledu kamery.

Schéma snímací soustavy
Obrázek 8: Schéma snímací soustavy. Kamerou C je s pomocí soustavy zrcadel SM získán levý LV a pravý RV pohled na snímaný objekt. Na snímaný objekt je zároveň promítán paprsek R ze zdroje RS.

Lineární kalibrace kamery z množiny známých bodů

Pro kalibraci je použito kalibrační desky. Desky představují dvě na sebe kolmé části rovin. Obě části jsou pokryty kalibračními body. Vzniklá síť bodů má předem zvolené měřítko. Desky byly umístěny tak, aby byly viděny oběma pohledy. Kalibrační desku zobrazenou kamerou přes soustavu zrcadel vidíme na obr.9.

Kalibrační desky a body použité pro kalibraci Body použité pro kalibraci
Obrázek 9: Kalibrační desky a body použité pro kalibraci. Na pravém obrázku vidíme body použité pro kalibraci.

Pro kalibraci je možné nalézt např. 100 kalibračních bodů v každém pohledu. Při znalosti skutečné geometrické 3D poloze těchto bodů můžeme provést kalibraci kamery pro oba pohledy. Takto kalibrovaná kamera nám umožňuje 3D rekonstrukci zmíněných proužků.

Zpracování digitalizovaného obrazu

K dosažení dobrého výsledku je potřeba nalézt v každém pohledu a v každém sekvenčním snímku pomocný paprsek. V nejjednodušším případě můžeme použít zpracování obrazu pomocí metody prahování. Na obr.10 vidíme takto zpracovaný obraz.

Obrazová rovina zpracovaná metodou prahování.
Obrázek 10: Obrazová rovina zpracovaná metodou prahování.

Epipolární geometrie

Pro 3D stereo rekonstrukci je potřeba znát sobě odpovídající body. Jde tedy o nalezení tzv. korespondencí. Zde s výhodou je využit pomocný paprsek. Tento paprsek nám jednoznačně určuje sobě navzájem korespondující body z levého a pravého pohledu. Umíme tedy sestrojit pro každý obrazový bod z levého pohledu epipolární přímku v pravém pohledu.

Epipolární přímky pravého pohledu pro kalibrační body levého pohledu.
Obrázek 11: Epipolární přímky pravého pohledu pro kalibrační body levého pohledu.

Nyní umíme nalézt pro každý snímek ze zaznamenané sekvence sobě korespondující obrazové body, které jsou již vhodné pro získání 3D souřadnic.

3D rekonstrukce

Pro každý snímek máme množinu korespondujících bodů získáme 3D souřadnice těchto bodů. Postupně toto provedeme pro každý snímek ze zaznamenané sekvence. Pro každou polohu paprsku získáme část 3D tváře (jakýsi plátek). Vykreslíme-li získané body z celé sekvence, vytvoří se nám 3D povrch tváře. Se znalostí souřadnic bodů v levém či pravém pohledu můžeme přiřadit každému bodu informaci o barvě textury. Takto získané body tvoří síť kopírující povrch tváře.

Vykreslení všech zrekonstruovaných 3D bodů Každému bodu je přiřazena informace o barvě textury
Obrázek 12: Vykreslení všech zrekonstruovaných 3D bodů z čelního a bočního pohledu. Každému bodu je přiřazena informace o barvě textury.

3D povrch se v počítačové grafice nejčastěji modeluje pomocí trojúhelníků. Pro získání povrchu je síť bodů zbytečně hustá. Výsledek vhodného výběru bodů a spočtení všech trojúhelníků můžeme uchovávat např. podle specifikace VRML (nástroj pro modelování virtuální reality na internetu). Získaný model tváře může být dále doplněn o model zubů, jazyka a očí popř. zbytku hlavy a krku a někdy i těla. To je v případě syntézy znakové řeči.

Popis povrchu tváře
Obrázek 13: Popis povrchu tváře, zubů a jazyka pomocí trojúhelníkové sítě s nanešenou texturou.

Mále-li získaný model tváře, můžeme se pokusit o jeho rozpohybování. Tato důležitá část audio-vizuální syntézy obsahuje stále spoustu problémů, jde hlavně o animaci deformací pokožky.