ČeskyEnglish
Západočeská univerzita v Plzni

Audiovizuální zpracování řeči

Nalezení hlavy a oblasti zájmu ROI

Detekce hlavy slouží k nalezení tzv. oblasti zájmu (většinou rty a okolí označované jako ROI) pro každý snímek video záznamu promluvy. Metody nalezení hlavy je možné rozdělit na dva základní přístupy. Metody založené na vyhledávání významných bodů 301KB [pdf] EN a metody založené na vyhledávání tváří 482KB [pdf] EN. Metody založené na vyhledávání významných bodů se orientují na nalezení očí, nosních dírek, úst, obočí , a dalších relativně odlišných bodů lidské hlavy. Podle jejich umístění potom určují oblast zájmu. Metody vyhledávání tváří prohledávají jednotlivé části obrazu a porovnávají tyto části se vzory obličejů a pozadí získaných ze vzorových obrazů. Složitost úlohy závisí na možnostech pohybu hlavy řečníka, na osvětlení scény či na pozadí scény. Pro naši úlohu (laboratorní databáze)jsme zvolili následující omezující podmínky :pohyby hlavy jsou minimální, osvětlení je konstantní a pozadí tvoří jednolitá modrá plocha. Postup řešení:

Lidská kůže
Obrázek 4: Metody nalezení hlavy využívají charakteristické barvy lidské kůže. Barva lidské kůže je ve speciální barevné reprezentaci YCBCR velice podobná pro velkou množinu lidí a proto známe-li hodnotu barvy kůže , můžeme pomocí prahování získat binární obraz hlavy řečníka [1]. Barva kůže je získána z jednoho framu promluvy daného řečníka.
Oči
Obrázek 5: Jestliže známe přibližný tvar hlavy provedeme nalezení významných bodů. Jako první nalezneme oči. Pro každého řečníka vytvoříme vzor pro levé a pravé oko. Protože známe umístění očí na obličeji a nalezený tvar obličeje, můžeme určit přibližné místo výskytu (červené obdelníky). Oči vyhledáváme pomocí metody srovnávání se vzorem. Oko se nachází v místě největší shody vzoru a obrazu.
Ústa
Obrázek 6: Další významný bod představují ústa řečníka. Zde využijeme toho že ústa by měli být vždy červenější než okolní kůže. Můžeme přibližně určit pozici úst protože známe pozice očí. Z této oblasti spočítáme histogram pro barevnou složku CR z reprezentace barev YCBCR. Víme že v této oblasti se nacházejí dva dominantní objekty: kůže a ústa. Těmto objektům odpovídají i objekty v histogramu. Můžeme tedy automaticky nalézt práh, oddělující oba objekty od sebe. Pomocí metody prahování získáme binární objekt rtů řečníka.
ROI
Obrázek 7: Posledním krokem je určení oblasti zájmu. Oblast zájmu představují rty a nejbližší okolí. Musíme určit střed oblasti S, natočení hlavy a velikost ROI VZ.