ČeskyEnglish
Západočeská univerzita v Plzni

Akustická syntéza řeči

Řešitel

Ing. Matoušek Jindřich, Ph.D. <zdkrnoul@kky.zcu.cz>

Akustická syntéza řeči vytváří řečový signál - vlastní mluvenou řeč. Jako doprovodná složka modelu mluvící hlavy či systému zpracování znakové řeči může pomáhat například lidem s menším postižením sluchu, kteří by tak mohli současně využívat informace vizuální, získané odezíráním modelu mluvící hlavy (zejména rtů), i akustické, obsažené ve vytvářeném řečovém signálu. Neocenitelné služby může syntetizér řeči poskytnout i jinak handicapovaným lidem: němí lidé nebo lidé s poruchami hlasu mohou k vytváření "své" řeči využívat svůj "osobní" systém syntézy řeči; lidé, kteří ztratili řeč například po mozkové mrtvici, mohou využít technologii založenou na modelu mluvící hlavy pro výuku řeči. Významné uplatnění může najít i například k výuce znakové řeči sluchově nepostižených.

Cílem akustické syntézy řeči je vytvářet řeč, a to v takové formě a kvalitě, aby obvykle co nejvěrněji kopírovala řečové charakteristiky konkrétního člověka; tedy nejen samotný hlas a jeho kvalitu, ale i styl mluvení atd. Jde o časově nejnáročnější část tvorby mluvící hlavy. K automatickému vytváření řeči se využívá technologie syntézy řeči z textu (z anglického text-to-speech, TTS) - nejobecnější a také nejtěžší úloha syntézy řeči, jejímž úkolem je převést libovolný text na odpovídající řeč. Díky technologii TTS "může" mluvící hlava "ozvučit" libovolný text - tj. může vyslovit libovolnou promluvu. Jde o sadu speciálních modulů a algoritmů, které zajišťují automatický převod psaného textu na mluvenou řeč. Zahrnují zpracování textu (např. analýza a normalizace), převod textu do výslovnostní podoby (tj. fonetickou transkripci a generování průběhů prozodických vlastností řeči), tvorbu inventáře akustických jednotek a vlastní metodu vytváření řeči.

TTS
Obrázek 1: Obecné schéma systému konkatenační syntézy řeči z textu.

Pro potřeby českého TTS systému jsme vyvinuli unikátní metodiku vysoce kvalitní syntézy řeči. Systém je založen na tzv. konkatenační syntéze řeči, v současné době celosvětově nejúspěšnějším a nejpoužívanějším přístupu k syntéze řeči. Stručně řečeno, základním principem tohoto přístupu je reprezentace důležitých akustických událostí lidské řeči pomocí tzv. řečových jednotek či segmentů řeči. Výsledná řeč pak vzniká konkatenací, tj. řetězením těchto řečových jednotek. Vhodnými řečovými jednotkami jsou přitom jednotky subslovní, např. hlásky (nejčastěji posazené do kontextu okolních hlásek - tzv. trifóny) nebo difóny (zjednodušeně řečeno jde o jednotky začínající v polovině jedné hlásky a končící v polovině hlásky následující).

Units
Obrázek 2: Ukázky řečových jednotek.

Klíčem k úspěšné syntéze řeči je pečlivá příprava inventáře řečových jednotek - tj. segmentů řeči, s kterými syntetizér řeči pracuje. Protože kvalita výsledné syntetické řeči do značné míry závisí na bohatosti řečových segmentů obsažených v inventáři a přesnosti, s jakou jsou tyto segmenty extrahovány z referenčních promluv, používáme metodiku automatické konstrukce inventáře na základě velkého množství reálných řečových promluv. Automatizace je důležitým aspektem našeho systému, neboť umožňuje v krátkém časovém horizontu (řádově dny) vytvořit velice precizní a akusticky a lingvisticky "bohaté" (je možné použít obrovské řečové korpusy - desítky hodin řeči) inventáře akustických jednotek, které pak do značné míry přispívají k vysoké kvalitě vytvářené řeči. Jde o tzv. korpusově orientovanou konkatenační syntézu řeči, neboť právě řečový korpus (tj. sada reálných řečových promluv vyslovených jedním řečníkem, jehož hlasem pak syntetizér řeči mluví, a jejich reprezentace v ortografické, fonetické, spektrální či prozodické oblasti) je základním materiálem pro vytvoření inventáře řečových jednotek. Náš systém je prvním a dosud jediným syntetizérem řeči v ČR, který tuto technologii nové generace využívá. Významným kritériem kvality je přirozenost vytvářené syntetické řeči. Přirozenost řeči přitom do značné míry závisí na kvalitě modelování tzv. prozodických charakteristik řeči (zjednodušeně řečeno popisují vývoj melodie promluvy a hlasitost a trvání jednotlivých segmentů řeči). Pro náš systém jsme navrhli unikátní metodu modelování a výběru přirozených průběhů prozodických vlastností řeči opět extrahovaných z reálných řečových promluv.

Akustická složka v podobě obecného TTS systému může i odděleně od modelu mluvící hlavy najít široké uplatnění v hlasových dialogových systémech od různých telefonních služeb typu automatického čtení SMS zpráv až po čtení e-mailů, elektronických dokumentů, knih apod (viz http://voice.zcu.cz či http://www.kky.zcu.cz/cs/research-fields/acoustic-speech-synthesis).