ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální syntéza řeči

Syntéza vizuální řeči - animace tváře

Prostředek ke ztvárnění vizuální řeči může být nějaká animace lidské hlavy či alespoň tváře, nazývaná také "Mluvící hlava".

Jedna z posledních verzí česky mluvící hlavy vyvíjené na Západočeské univerzitě.
Obrázek 3: Jedna z posledních verzí české mluvící hlavy.

Existuje několik přístupů řešení tohoto problému. Jsou navřeny syntézy používající klasický záznam promluvy lidské hlavy, syntéza je pak provedena spojováním vhodných částí těchto záznamů podle libovolného textu. Výhodou je veliká realističnost, nevýhodou pak velmi omezené ovládání animace, jako např. otočení hlavy, přiblížení, doplňování emocí apod. Dalším přístupem jsou 3D mluvicí hlavy. Jde o pravé animace využívající nějaký model tváře, popř. model celé hlavy a očí, zubů, jazyka atd. Aby model mohl vytvářet vizuální řeč, musí být nějak řízen. Nejčastěji se setkáváme s tzv. parametrickým řízením. V tomto případě jde o to, že model je rozdělen na jednotlivé části, které podléhají určitému parametru. Hodnota tohoto parametru pak určuje míru změny (deformace) dané části. Např. můžeme uvést řízení pohybu levého koutku rtů, kdy jím můžeme posouvat ve všech třech směrech. Názor na to, jak parametrizace má vypadat však není ucelen. Existují řízení tváře velmi blízké anatomické podstatě tváře, modelování kostí, svalů a pokožky a naproti tomu více praktické parametrizace, které jsou vhodně přizpůsobené animaci řeči. I známí standard kódování videa MPEG-4, popisující obecně kompresi audio-vizuálních dat, obsahuje parametrizaci tváře.

Vizuální syntéza češtiny.

Syntéza vizuální podoby češtiny na Západočeské univerzitě má relativně krátkou historii. První zmínky nalezneme v roce 2002, kdy vznikla první verze mluvící hlavy. S tímto zrozením souviselo hodně dílčích problémů. První věcí bylo zaznamenání audio-vizuální české řeči, dále pak následovalo zpracování záznamu, 3D rekonstrukce dat, výběr řečových jednotek, jejich reprezentace a uložení, návrh animace a modelu a s tím spojená parametrizace a synchronizace s akustickým signálem až po vlastní vykreslování.

Historicky první model mluvicí hlavy Audio-vizuální záznam řeči
Obrázek 4: Historicky první model mluvicí hlavy, vpravo pak audio-vizuální záznam řeči.

Celý proces můžeme jednoduše shrnout do následujícího schéma, kde blok TTS představuje syntézu akustického signálu (to co slyšíme), blok syntéza udává změny, které provede animace tváře.

Schéma procesu syntézy vizuální řeči
Obrázek 5: Podrobné schéma procesu syntézy vizuální řeči.

Další vývoj směřoval k doplnění dalších důležitých artikulačních částí, které první model neobsahoval. Jedná se o model jazyka a zubů. Tyto části hrají důležitou roli při vnímání a vyhodnocování hlásek, především pak hlásek /f/,/s/,/l/ apod., kde se zuby a jazyk přímo podílejí na vytváření konkrétního vizému.