DISERTAČNÍ PRÁCE OPRAVENÁ VERZE

Transkript

1 FAKULTA APLIKOVANÝCH VĚD DISERTAČNÍ PRÁCE OPRAVENÁ VERZE PLZEŇ, 2006 Ing. Petr Císař

2 Fakulta aplikovaných věd DISERTAČNÍ PRÁCE k získání akademického titulu doktor v oboru kybernetika Ing. Petr Císař Využití metod odezírání ze rtů pro podporu rozpoznávání řeči Školitel: Dr. Ing. Vlasta Radová Datum státní doktorské zkoušky: 2005 Datum odevzdání práce: 2006 V Plzni, 2006

3 Poděkování Děkuji panu Ing. Miloši Železnému PhD. za jeho vedení a odborné konzultace. Za odborné konzultace také děkuji Ing. Zdeňku Krňoulovi. Dále bych chtěl poděkovat své rodině a všem mým blízkým za podporu a porozumění. - i -

4 Prohlášení Disertační práci jsem vypracoval samostatně pouze s použitím literatury a konzultací. Tato práce vznikla v rámci mé činnosti na projektu Grantové agentury akademie věd ČR s názvem Multimodální zpracování lidské znakové a mluvené řeči počítačem pro komunikaci člověk-stroj číslo 1ET ii -

5 Anotace Využití metod odezírání ze rtů pro podporu rozpoznávání řeči Disertační práce se zabývá problematikou vizuálního a audiovizuálního rozpoznávání řeči. Protože je tato oblast velmi široká je práce zaměřena především na návrh nové vizuální parametrizace a její otestování na rozsáhlé audiovizuální databázi. Motivací k řešení této části problematiky je nedostatečné probádání popisu vizuální složky řeči. Proto je cílem práce prostudovat tvorbu vizuální řeči a metody odezírání ze rtů člověkem a využít těchto poznatků k vytvoření nové parametrizace vizuální složky řeči. Aby mohl být splněn hlavní cíl disertace musely být realizovány jednotlivé pod úkoly nutné pro vytvoření celého systému vizuálního a audiovizuálního rozpoznávání řeči. Nejprve byly tedy nastudovány možnosti parametrizace vizuální řeči a postupy vedoucí k získání těchto parametrizací a vybrány nejlepší metody, které jsou popsány v kapitole 2. Na základě těchto poznatků byla nahrána audiovizuální databáze pro český jazyk, která slouží ke studiu vizuální složky a experimentům pro ověření úspěšnosti navržené parametrizace. Databáze a její zpracování je popsáno v kapitole 3.2. Po získání databáze vhodné pro jednoduché získání obrazových i tvarových parametrizací, byl prostudován princip tvorby vizuální řeči a metod odezírání ze rtů. Informace byly čerpány nejen z dostupné literatury, ale i z osobních konzultací se specialistkami v daných oborech. Na základě studia bylo vybráno několik především tvarově orientovaných příznaků, které by měli zachycovat odlišnosti mezi jednotlivými základními řečovými jednotkami a měli by být nezávislé na řečníkovi. Tyto příznaky byly dále upraveny tak, aby bylo možné je získat nějakou automatickou metodou. Parametrizace popisuje jak tvar rtů (vnitřní i vnější kontura) tak okolí a především vnitřek úst. Celý proces návrhu vizuálních příznaků je popsán v kapitole 3.1. Pro získání navržené parametrizace muselo být vytvořeno několik metod zpracování vizuální složky řeči. Jako první byla vytvořena metoda pro nalezení vnitřní a vnější kontury rtů, založená na metodě ACM (aktivní tvarový model), která byla kombinována s metodou automatického prahování. Kombinace těchto dvou metod zajistily získání popisu tvaru vnitřní a vnější kontury rtů pomocí 10 příznaků. Druhá z metod zpracování vizuální složky měla za úkol určit pozici objektů vnitřku úst ( jazyk, horní zuby, dolní zuby a mezera). Kvalitní určení pozic těchto objektů je velmi důležité pro odlišení souhlásek. Metoda byla založena na barevné analýze úzkého proužku uprostřed rtů. Výsledkem metody je procentní zastoupení jednotlivých objektů vnitřku úst. Aby bylo možné realizovat obě metody musel být nejprve vizuální záznam předzpracován metodou nalezení pozice oblasti zájmu v obraze (oblast kolem úst). Díky vlastnostem scény audiovizuální databáze mohl být použit jednoduchý postup nalezení hlavy pomocí metody eliminace pozadí a následné nalezení pozic očí a úst.pomocí výstupů popsaných metod je možné získat všechny navržené vizuální příznaky. Jednotlivé metody jsou popsány v kapitole 3.3. V rámci této kapitoly je popsán postup získání základních řečových jednotek pro vizuální složku řeči tzv. vizémů. V poslední části práce jsou popsány provedené experimenty na třech různých audiovizuálních databázích. V těchto experimentech je porovnána nově navržená parametrizace s běžně používanou obrazově orientovanou parametrizací. Přínos navržené parametrizace je ověřena na české i na anglické databází pro úlohu vizuálního a audiovizuálního rozpoznávání. Z výsledků experimentů je zřejmé, že navržená parametrizace zlepšuje úspěšnost rozpoznávání řeči oproti běžně používané parametrizaci. Přednost navržené parametrizace je především v popisu vnitřku úst a tvaru vnitřní a vnější kontury rtů. V závěru je konstatováno, že cíle disertační práce byly splněny. - iii -

6 Obsah: 1 Úvod Vizuální a audiovizuální rozpoznávání řeči Struktura audiovizuálního rozpoznávání řeči Cíle disertační práce Stav poznání Vizuální parametrizace Obrazově orientovaná parametrizace Kosinová, Fourierova, vlnková transformace Analýza hlavních komponent (PCA) Lineární diskriminační analýza (LDA) Tvarově orientovaná parametrizace Geometrické příznaky Příznaky vycházející z modelu rtů Kombinace tvarových a obrazových Metody používané pro předzpracování obrazu Headtracking a lokalizace ROI Skin-color Liptracking Klasické metody zpracování obrazu bez využití modelu rtů Deformovatelné vzory Snakes Aktivní tvarový model Aktivní vzhledový model D liptracking Následné zpracování Rozpoznávání Vizuální rozpoznávání Audio-vizuální rozpoznávání Kombinace příznaků Kombinace rozhodnutí Nastavování vah Adaptace na řečníka Databáze Výsledky metod na různých úlohách a srovnávací výsledky parametrizací Vizuální ASR Audio-vizuální ASR Experimenty na databázi IBM ViaVoice Popis systému Výsledky Adaptace na řečníka Shrnutí Vlastní přínos Parametrizace Popis problémů stávajících parametrizací Obrazově orientované parametrizace Tvarově orientované parametrizace Kombinovaná parametrizace Výběr tvarově orientovaných příznaků Tvorba řeči Odezírání řeči Popis vybraných příznaků iv -

7 3.2 Audiovizuální databáze Prvotní experimenty Databáze pro určení vizémových skupin pro český jazyk Laboratorní audiovizuální databáze Zpracování databáze Nalezení oblasti zájmu ROI Liptracking Nalezení vnitřku úst Výpočet obrazových příznaků DCT Výpočet akustických příznaků Databáze pro určení vizémů Experimenty Experimenty na databázi XM2VTSDB Experimenty na ruské databázi Experimenty na databázi UWB-05-HSCAVC Zhodnocení experimentů Možná vylepšení Závěr Seznam publikovaných prací Publikace ve sbornících Rigorózní práce Diplomová práce Literatura Seznam zkratek Přílohy v -

8 Seznam obrázků: Obrázek 1. Schéma audiovizuálního rozpoznávání... 3 Obrázek 2. Obrazové příznaky. Dva po sobě jdoucí snímky, jejich rozdílový obraz a příznaky optického toku, přejato z [27]... 6 Obrázek 3. Geometrické příznaky. Vlevo parametry šířka a výška rtů pro nalezenou hranici rtů. Uprostřed Původní hranice a její rekonstrukce při použití 1, 2, 3 a 20 Fourierových koeficientů. Vpravo Průběhy parametru výška rtů pro dvě různá slova (řádky) a různé řečníky (sloupce), přejato z [68]... 9 Obrázek 4. Headtracking použitím vzorových modelů a jejich vyhledávání v neznámém obraze, převzato z [85] Obrázek 5. Headtracking pomocí přímého vyhledávání významných bodů. Nalezení hlavy a rtů, použití modelu rozložení pro nalezení očí, nalezené body, převzato z [81] Obrázek 6. Extrakce ROI. Nalezení významných bodů v databázi IBM Via Voice TM pomocí [77], odpovídající oblasti úst pro jednotlivé řečníky, převzato z [61] Obrázek 7. Vlevo Histogram bodů kůže pro složku C R a C G, Vpravo Výsledek nelezení hlavy pomocí metody skin-color Obrázek 8. Extrakce rtů pomocí barvy a informace o změně jasu mezi následujícími snímky. Složka I, složka H, naprahovaná složka H, rozdílový obraz složek I, výsledný tvar nalezených rtů, převzato z [47] Obrázek 9. Extrakce rtů pomocí vzorů. Model vzoru tvořený 6 body, šedotónový obraz rtů, detekce hran v obraze pro levou stranu modelu, výsledky nalezení rtů, převzato z [80] Obrázek 10. Snakes. Model řízený body definovanými uživatelem, výsledky vyhledávání, převzato z [4] Obrázek 11. Extrakce rtů pomocí ASM. Rozložení bodů v trénovací množině, určení změny polohy bodu modelu vzhledem k danému obrazu, přizpůsobení celého modelu, tvar modelu pro změnu prvních tří parametrů vektoru b, převzato z [15] Obrázek 12. Vlevo Deformace středního tvaru modelu při použití jednotlivých parametrů 1-4, vpravo přechod ret-kůže pro daný bod modelu, převzato z [49] Obrázek 13. Extrakce hlavy řečníka pomocí AAP. Obraz trénovací množiny s označenými 122 body modelu, výsledný model pro změnu prvních 4 parametrů vektoru c (± 3 sd), převzato z [14] Obrázek 14. Vyhledávání 3D modelu. Původní obraz, mapa objektů v chromatických barvách, nasazení středního modelu, směry deformací modelu, výsledný model, model při natočení hlavy, projekce modelu do roviny xy, převzato z [5] Obrázek 15. Schéma extrakce 3 druhů příznaků následované interpolací příznaků na 100 Hz, normalizací přes celou promluvu, získáním dynamické informace o řeči řetězením vektorů a úpravou příznakového vektoru pomocí LDA a MLLT, převzato z [69] Obrázek 16 Strom zaměnitelností pro souhlásky a samohlásky, převzato z [61] Obrázek 17. Schéma kombinace informací pomocí kombinací příznaků. Pospojování příznaků - AV pospojování, Hierarchická lineární diskriminační extrakce AV HiLDA, změna audio příznaků AV enhancement, převzato z [69] Obrázek 18. Schéma kombinace rozhodnutí, převzato z Obrázek 19. Model HMM pro střední integraci. Vlevo více proudové HMM synchronní pro jednotlivé třídy a asynchronní pro jednotlivé stavy. Vpravo odpovídající smíšené HMM, převzato z Obrázek 20. Příklady audio-vizuálních databází. Zleva doprava XM2VTSDB, Huang (infračervená kamera), CUAVE, ViaVoice TM, převzato z [57],[32],[62],[69] Obrázek 21. Schéma systému audio-vizuálního rozpoznávání použitého pro experimenty s databází ViaVoice TM, převzato z [69] Obrázek 22. Výsledky rozpoznávání pomocí různých druhů kombinace informace pro úlohy zašuměných dat pro LVCSR a Číslice. Metody AV-enh, AV pospoj a AV-HiLDA představují kombinaci příznaků a metoda AV-MS-joint kombinaci rozhodnutí. Ukazatelem úspěšnosti metod je SNR gain, který je vztažen vždy k hodnotě WER pro audio podmínky 10 db. Všechny metody využití audio-vizuální kombinace vylepšují rozpoznávání při zašuměném audio signálu, převzato z [65] Obrázek 23. Řečový trakt, převzato z [41] vi -

9 Obrázek 24. Změna tvaru rtů pří výslovnosti samohlásek od zaostřených po zaokrouhlené, převzato z [41] Obrázek 25. Zobrazení překážky výdechového proudu v průběhu výslovnosti vytvořené jazykem. Černá barva představuje místa dotyku jazyka a horního patra, převzato z [41] Obrázek 26. Postavení jazyka při tvorbě samohlásek, převzato z [41] Obrázek 27. Vybrané příznaky popisující vizuální složku řeči Obrázek 28. Ukázka vizuální databáze pro rozpoznávání izolovaných slov Obrázek 29. Ukázka audiovizuální databáze promluv řidiče automobilu Obrázek 30. Vlevo Stereo pohled na řečníka s nalepenými body odpovídajícími bodům modelu rtů, nalezené pozice bodů v obraze, rekonstruované 3D souřadnice bodů, vpravo výsledky nalezení vnější a vnitřní kontury rtů pomocí 3D modelu a její projekce do bočního pohledu Obrázek 31. Vlevo schéma snímacího zařízení, vpravo dva pohledy na řečníka složené do jednoho snímku, na obličeji jsou nalepeny reflexní body Obrázek 32. Ukázka audiovizuální databáze UWB-05-HSCAVC Obrázek 33. Rozložení celého snímku na sudý a lichý půlsnímek, na půlsnímcích vpravo je znatelný pohyb rtů během sejmutí půlsnímků a to se projevuje na složeném snímku vlevo Obrázek 34. Vlevo ukázka nahrávání AV databáze, vpravo nahoře vzory očí, vpravo dole ručně vybrané body kůže pro stanovení barvy kůže Obrázek 35. Nalezení oblasti zájmu, 1 výběr vzoru pro pozadí, 2 naprahovaný objekt hlavy, 3 ořez podle šířky středu objektu, 4 nalezení očí pomocí vzorů, výběr oblasti výskytu úst a jejich nalezení Obrázek 36. Ukázka ROI, 1 velmi malý horní ret, 2 přesvětlení některých částí rtů, 3 podobná barva horního rtu a kůže, 4 vousy Obrázek 37. Ukázka histogramů a zobrazení ROI pro různé reprezentace obrazu (R, G, B, Hue, chromatická červená, chromatická zelená, šedotónová, R/G) Obrázek 38. Ukázka nalezení vnitřní a vnější kontury rtů: 1 ROI, 2 naprahovaný obraz, 3 vybrání největšího objektu, 4 přidání objektů pomocí tvaru rtů z předchozího kroku, 5 rozšířený konvexní obal vnější kontury rtů, 6 obraz upravený pomocí vyprahování vnitřku úst a odstranění děr pod a nad hranicí vnitřku úst, 7 získání vnitřku úst obarvením okolí úst, 8 hranice vnitřku rtů, 9 konvexní obal vnitřku úst, 10 výsledný hrubý tvar rtů, 11 výsledný tvar rtů upravený pomocí modelu Obrázek 39. Nalezení prahu J V a hranic vnitřku úst, 1 výběr části rtů pro nalezení hranic vnitřku (žlutá čára = hranice vnitřku), 2 průběh součtů šedi pro jednotlivé řádky výběru, červená = nalezená maxima, modrá = nalezená minima, šedivá = pozice hranic vnitřku úst Obrázek 40. Ukázka rozmístění bodů modelu rtů, 1 rozmístění bodů na vzorovém tvaru rtů, 2 umístění bodů vnitřní kontury nezávislé na vnější kontuře, 3 umístění bodů vnitřní kontury závislé na vnější kontuře Obrázek 41. Ukázka vzorových tvarů rtů obsažených v trénovací množině. Vnější kontura je označena bíle a vnitřní černě Obrázek 42. Ukázka deformace tvaru rtů při změně jednotlivých parametrů řídícího vektoru Obrázek 43. Ukázka opravy tvaru rtů pomocí modelu, černo bílý obraz binární obraz nalezených rtů upravený pomocí konvexního obalu, barevný obraz výsledný tvar trů po použití modelu rtů Obrázek 44. Nalezení objektů vnitřku úst: 1 výběr úzkého proužku vnitřku úst, 2 průběh šedotónových hodnot vybraného proužku s nalezenými extrémy, 3 nalezené extrémy zanesené do obrazu (zelený křížek = odhad pozice dolních zubů, červený křížek = odhad pozice horních zubů, bílý křížek = nový odhad pozice horních zubů po jejich nalezení), 4 binární obraz rtů z modelu, 5 naprahovaný obraz jazyka a mezery (bílá = jazyk, šedivá = mezera), výběr oblastí pro dohledání jazyka (červená) a mezery (žlutá), 6 nalezené středy a rozměry objektů (bílá = horní zuby, zelená = jazyk, modrá = dolní zuby) Obrázek 45. Nalezení středu úst jako bodu uprostřed vzdálenosti středů horní a dolní vnitřní kontury Obrázek 46. Ukázka zpracování ROI pomocí DCT transformace, 1 původní ROI, 2 ROI zmenšený na velikost 64*64 bodů v šedotónové reprezentaci, 3 ROI po zpětné Kosinové transformaci (15 DCT) vii -

10 Obrázek 47. Ukázka zpracování vnitřku úst pomocí DCT transformace, 1 původní ROI, 2 vybraná oblast vnitřku úst, 3 normalizace na velikost 64*64 bodů v šedotónové reprezentaci, 4 obraz vnitřku po zpětné Kosinové transformaci (4 DCT) Obrázek 48. Vzdálenost tvarů reprezentujících fonémy vykreslená pomocí dendrogramu Obrázek 49 Ukázka databáze XM2VTSDB, 1 původní videozáznam, 2 nalezení očí a středu úst, 3 nalezení vnitřní a vnější kontury rtů Obrázek 50. Ukázka ruské databáze Obrázek 51. Ukázka nalezení vnitřní a vnější kontury rtů Obrázek 52. Ukázka chybného nalezení vnitřní a vnější kontury rtů Obrázek 53. Ukázka nalezení objektů vnitřku úst, bílá horní zuby, modrá dolní zuby, zelená jazyk, černá mezera Obrázek 54. Ukázka chybného nalezení objektů vnitřku úst, bílá horní zuby, modrá dolní zuby, zelená jazyk, černá mezera Obrázek 55. Ukázka zpracování databáze pro nalezení vizuálních řečových jednotek viii -

11 Seznam tabulek: Tabulka 1. Typy kombinace příznaků a jejich další možnosti Tabulka 2. Shrnutí metod V ASR Tabulka 3. Výsledky metod A-V ASR. Výsledky rozpoznávání jednotlivých metod jsou uvedeny ve formátu nezašuměná data / podmínky pro zašuměná data / výsledky pro zašuměná data v daných podmínkách Tabulka 4. Audio-vizuální databáze a její rozdělení na jednotlivé části. Části představují trénovací, held-out, adaptační, testovací množiny (vždy je uveden počet promluv, délka trvání celé množiny v hodinách, počet řečníků). Pro úlohu rozpoznávání spojité řeči s velkým slovníkem (LVCSR) a pro úlohu rozpoznávání pospojovaných číslic (Číslice) byla pořízen normální a poškozený záznam. Pro úlohu normální Číslice je množina Held-out a adaptační množina identická. Pro úlohu rozpoznávání z poškozených dat byla z důvodu nedostatku použitelných dat použita metoda adaptace modelů HMM natrénovaných pomocí dat z normální části databáze Tabulka 5. Porovnání výsledků rozpoznávání pro různé vizuální příznaky pro úlohu LVCSR nezávislého na řečníkovi. Výsledky rozpoznávání jsou uvedeny jako chyba rozpoznávání v %. Pro rozpoznávání je použita modifikovaná mřížka, která byla předem získána pouze pomocí MFCC příznaků získaných ze zašuměných audio dat (8.5 db SNR). Pro možnost porovnání je uvedena WER pro charakteristické mřížky (Oracle, Anti-oracle, LM nejlepší cesta založené pouze na jazykovém modelu) Tabulka 6. Výsledky audio-vizuálního rozpoznávání pro úlohu LVCSR pro různé metody kombinace informace Tabulka 7. Výsledky rozpoznávání pro úlohu LVCSR a Číslice pro různé metody na části databáze ViaVoice TM Poškozené. Výsledky jsou uvedeny v % WER pro rozpoznávání využitím audio (A), vizuální (V) a audio vizuální informace (AV). Metody využívají modelů HMM natrénovaných pomocí Normální části databáze a poté provedou adaptaci pomocí části Poškozené. Metody MLLR a MAP provádí adaptaci modelů HMM, metoda Mat provádí adaptaci celého systému ASR Tabulka 8. Rozdělení hlásek z hlediska místa tvoření, převzato z [43] Tabulka 9. Příslušnost fonému k jednotlivým vizémových třídám Tabulka 10 Výsledky vizuálního a audiovizuálního rozpoznávání pro obrazově orientované parametrizace Tabulka 11. Výsledky vizuálního a audiovizuálního rozpoznávání pro mnou navržené parametrizace kombinující tvarově a obrazově orientované příznaky Tabulka 12. Výsledky vizuálního rozpoznávání s použitím vizémů a audiovizuálního rozpoznávání při zašuměném akustickém řečovém signálu (0dB) Tabulka 13. Popis uplatnění zubů, jazyka a tvaru rtů při tvorbě jednotlivých vizémů, 0 = objekt není přítomen Tabulka 14. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis ROI Tabulka 15. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis vnitřku úst ix -

12 Úvod 1 Úvod 1.1 Vizuální a audiovizuální rozpoznávání řeči S rozvojem výpočetní techniky a počítačových algoritmů jsme dospěli do bodu v němž bylo nutné začít řešit otázky komunikace mezi strojem a jeho uživatelem, tedy člověkem. Jednou z oblastí komunikace stroj a člověk se stalo automatické rozpoznávání řeči (angl. automatic speech recognition, ASR). Úloha ASR je řešena již od šedesátých let minulého století až do dnešních dnů. Během těchto let došlo k posunu od rozpoznávání řeči na úlohách izolovaných slov s jedním řečníkem přes rozpoznávání spojité řeči s malým a středním slovníkem až po úlohy automatického rozpoznávání řeči s velkým slovníkem (deseti tisíce slov) nezávislé na řečníkovy (angl. large vocobulary continuous speech recognition, LVCSR). Nejlepší metody ASR dosahují v současnosti velmi vysokých úspěšností rozpoznávání. Je však třeba podotknout, že takto vysoká úspěšnost rozpoznávání je často podmíněna dodržením omezujících podmínek pro danou úlohu. Mezi nejčastější omezující podmínky systémů ASR a tím i slabiny těchto metod patří závislost na kanálu, prostředí a typu řeči (rozdíly mezi řečníky). Vlivem prostředí je myšlena úroveň šumu, který degraduje řečový akustický signál. Bylo navrženo mnoho postupů pro eliminaci vlivu kanálu, pozadí a řečníka jako např. filtrace akustického signálu, použití vybraných frekvenčních pásem či kombinace rozhodnutí více klasifikátorů pracujících s odlišnými parametrizacemi. Všechny tyto metody však pracovaly se stále stejným akustickým signálem a proto je jejich využití omezené. Jako další možnost vylepšení výsledků ASR především v prostředí zatíženém šumem se ukázalo využití vizuální složky řeči. Vizuální řečová informace je tvořena viditelnou částí artikulačních orgánů člověka. Mezi tyto orgány patří především rty, tváře, částečně zuby a jazyk a zprostředkovaně i hlasivky (pohyb hlasivek je viditelný na krku pohybem ohryzku). Do vizuální složky je však nutné zahrnout i mimiku obličeje, pohyb hlavy a celého těla řečníka (tato část vizuální informace je však více spjata s prozodií řeči než s informací o promlouvaném textu). Vizuální složka zahrnuje informace o řečové promluvě, informace o řečníkovi a informace o prostředí. Je obecně známo, že člověk pro komunikaci využívá nejen akustickou, ale i vizuální složku řeči. U normálně slyšících osob se využití vizuální složky řeči projevuje především v hlučných prostředích. U lidí s poruchou sluchu či úplně hluchých se využití vizuální složky zdůrazňuje i v prostředích bez akustického šumu. Schopnost člověka rozpoznávat řeč pomocí vizuální složky je nazývána odezírání ze rtů (angl. lipreading 1 ). Příspěvek vizuální složky řeči k porozumění řeči ověřil Sumby již v roce To, že vizuální složka ovlivňuje výsledné porozumění promluvě, ukazuje tzv. McGurg efekt (McGurk 1976). Důkaz je založen na předkládání odlišné vizuální složky řeči (promluva ga) a akustické složky řeči (promluva ba) posluchači. Posluchač v tomto případě celkový vjem vyhodnotí jako promluvu da. Tím je demonstrováno, že vizuální složka ovlivňuje porozumění řeči. Základní přínos vizuální složky pro rozpoznávání řeči je možné rozdělit do tří oblastí. Jedná se o možnost lokalizace řečníka (pohyb rtů řečníka), informaci o jednotlivých řečových segmentech (slova, fonémy) a informaci o poloze viditelných částí artikulačních orgánů. Při strojovém rozpoznávání řeči z vizuální složky je tato představována většinou videozáznamem řečníka pomocí komerčně používané videokamery. Snímanou scénu představuje čelní pohled na řečníka, kdy je zabírána především jeho hlava. Vizuální informace, jak již bylo zmíněno, je tvořena pouze viditelnou částí artikulačních orgánů, a proto obsahuje méně informace o promluvě než akustická složka řeči. Dosavadní experimenty toto tvrzení potvrzují, neboť rozpoznávání z vizuální složky nedosahuje takové úspěšnosti jako rozpoznávání z akustické složky v prostředí bez šumu [21][58][86]. Vizuální složka není ovlivněna akustickým šumem, a proto se využívá především jako podpora akustického rozpoznávání řeči v hlučných prostředích. První ASR systém využívající obou informací byl vyvinut v roce 1984 [63]. Další postup se soustředil na porozumění zpracování vizuální 1 označení lipreading (čtení ze rtů) není přesné, neboť pro rozpoznávání řeči je využívána celá oblast tváře a proto je vhodnější označení speechreading - 1 -

13 Úvod složky řeči a kombinace vizuální a akustické řečové informace člověkem a aplikace těchto poznatků pro ASR. Bohužel se doposud podařilo porozumět těmto procesům pouze částečně. Mezi hlavní neznámé v úloze audiovizuálního rozpoznávání řeči patří výběr vhodné parametrizace vizuální složky a proces kombinace akustické a vizuální informace. Poznatky z oblasti vizuálního rozpoznávání řeči je možné aplikovat i v oblastech rozpoznávání řečníka, komprese řečového signálu či rekonstrukce akustického řečového signálu. Hlavní motivací této práce je, že stávající metody vizuálního rozpoznávání řeči většinou využívají tzv. obrazovou parametrizaci vizuální složky. Tato parametrizace nejčastěji popisuje obrazové body určité oblasti zájmu (angl. region of interest, ROI) obsahující ústa a okolí pomocí malé množiny příznaků získaných některou z metod komprese obrazu či redukce dimenze příznakového vektoru. Metody nepracují s poznatky z oblasti tvorby řeči či s poznatky expertů na odezírání řeči. U tohoto druhu parametrizace není zřejmé s jakou částí vizuální řečové informace pracuje, neboť z vypočtené parametrizace toto není možné určit. Hluší lidé přitom využívají odezírání ze rtů jako jediný prostředek pro rozpoznání řeči a jejich dovednost odezírat je založena právě na znalosti procesu tvorby řeči z pohledu vizuální složky. To zahrnuje především znalost tvarů rtů, postavení zubů a jazyka či pohyb brady pro danou promluvu. Další motivací je, že systémy vizuálního rozpoznávání řeči jsou vyvíjeny především pro anglický jazyk. Audiovizuálním rozpoznáváním češtiny se v České republice zabývá pouze katedra Kybernetiky fakulty aplikovaných věd na Západočeské univerzitě v Plzni a pracoviště v Liberci. Cílem disertační práce je proto prostudovat zákonitosti tvorby řeči z hlediska vizuální složky řeči a metody lidského odezírání řeči. Pomocí těchto znalostí navrhnout novou parametrizaci vizuální složky řeči a experimentálně vyzkoušet přínos této parametrizace na úlohách vizuálního a audiovizuálního rozpoznávání řeči. Disertační práci jsem rozdělil do pěti základních kapitol: Úvod, Stav poznání, Vlastní přínos, Experimenty a Závěr. V kapitole Úvod je čtenář seznámen s problematikou audiovizuálního rozpoznávání a cíli disertační práce. Část Stav poznání přibližuje metody využívané pro audiovizuální rozpoznávání a uvádí přehled používaných databází a výsledků dosažených v posledních 10 letech výzkumu ve světě. Kapitola Vlastní přínos popisuje mnou navržené či použité metody pro nalezení hlavy řečníka, nalezení vnitřní a vnější kontury rtů a analýzu vnitřku úst, dále kapitola popisuje poznatky získané studiem tvorby vizuální řeči a metod odezírání. Nejdůležitější částí je představení vlastní parametrizace vizuální složky řeči založené především na tvarovém popisu. Kapitola s názvem Experimenty obsahuje popis a výsledky jednotlivých úloh vizuálního a audiovizuálního rozpoznávání porovnávající moji parametrizaci s obvykle používanými parametrizacemi pro různé podmínky. V poslední kapitole Závěr jsou shrnuty hlavní výsledky disertační práce. Tyto výsledky jsou konfrontovány s definovanými předpoklady a je zde proveden rozbor dalších možných vylepšení celého systému audiovizuálního rozpoznávání

14 Úvod 1.2 Struktura audiovizuálního rozpoznávání řeči Obrázek 1. Schéma audiovizuálního rozpoznávání Celý proces audiovizuálního rozpoznávání řeči lze rozdělit na 3 základní časti: výpočet akustických příznaků, výpočet vizuálních příznaků a kombinace akustické a vizuální informace plus proces rozpoznávání. Schéma AV rozpoznávání řeči je znázorněno na obrázku 1. Výpočet akustických a vizuálních příznaků probíhá odděleně, jestliže tedy nechceme provádět AV rozpoznávání, ale pouze rozpoznávání řeči z vizuální složky řeči, pak stačí ignorovat akustické příznaky a k rozpoznávání použít pouze vizuální a naopak. Audiovizuální rozpoznávání využívá k výpočtu akustických příznaků poznatků z oblasti rozpoznávání řeči z akustické složky. Tyto postupy jsou osvědčené a je možné je pouze přejmout, neboť výpočet akustických příznaků probíhá odděleně od výpočtu vizuálních příznaků. Blok výpočet akustických příznaků může obsahovat některé další pod bloky jako je například potlačení šumu či kanálu. Akustické příznaky je však možné vypočítat i bez těchto předzpracování. Nejčastěji používaným typem akustických příznaků jsou PLP nebo MFCC koeficienty. Výstupem tohoto bloku je příznakový vektor popisující akustický řečový signál. Vstupem bloku výpočet vizuálních příznaků je videozáznam promluvy řečníka. Obvykle tento záznam obsahuje celou hlavu řečníka z čelního pohledu. Takovýto pohled na řečníka je nejvíce používaný [54][31][47][76]. Vizuální příznaky se snaží popsat viditelnou část artikulačních orgánů během promluvy a čelní pohled obsahující oblast úst a jejich okolí (tváře, brada, krk) toto umožňuje. Existují i jiné možnosti pohledu na řečníka. Například v článku [93] je použit boční pohled. Abychom mohli provést samotný výpočet vizuálních příznaků potřebujeme v každém snímku videozáznamu nalézt oblast zájmu, která již většinou obsahuje artikulační orgány (nejčastěji rty a jejich nejbližší okolí) [45][18][88]. Krok nalezení ROI je založen na metodě sledování hlavy člověka ve videozáznamu (angl. headtracking). Základní metody headtrackingu jsou popsány v kapitole Nalezení ROI je velice složitou úlohou vezmeme-li v úvahu že hlava řečníka se pohybuje v 3D prostoru, kde se jas a pozadí může měnit velmi rychle. Krok nalezení ROI lze vyřešit i vhodným výběrem pohledu na řečníka, který již obsahuje pouze ROI. V článku [33] je využita kamera upevněná na hlavě řečníka, která snímá pouze oblast úst. Toto zjednodušení zpracování ovšem přináší omezení uživatele takového systému rozpoznávání řeči. Výstupem metody headtracking je tedy nalezená oblast ROI. Další zpracování vizuálního signálu již závisí na typu vizuálních příznaků. Vizuální příznaky je možné rozdělit do tří základních skupin. Jsou to obrazově orientované příznaky [76][89][27][48] (angl. pixel based features), tvarově orientované příznaky [28][18][36] (angl. shape based features) a kombinace obou typů příznaků [21]

15 Úvod Obrazově orientované příznaky popisují jas popřípadě barvu každého obrazového bodu v ROI. Získání těchto příznaků je výpočetně nenáročné neboť nevyžaduje žádné předzpracování ROI. Takto získaný příznakový vektor má ovšem většinou velmi velkou dimenzi a není vhodný pro klasifikaci. Jestliže rozlišení ROI bude 80*60 obrazových bodů pak příznakový vektor má dimenzi Proto dalším krokem při výpočtu obrazově orientovaných příznaků je snížení dimenze příznakového vektoru. Nejčastěji používanými metodami snížení dimenze jsou analýza hlavních komponent (angl. principal component analysis, PCA), diskrétní Kosinova transformace (angl. discrete cosine transform, DCT) či lineární diskriminační analýza (angl. linear discriminant analysis, LDA). Použitím některé z těchto metod dojde ke snížení dimenze příznakového vektoru a odstranění určité části informace. Bohužel však není možné interpretovat takto získané příznaky tak, abychom mohli přesně říci jakou část vizuální složky řeči příznaky popisují. Nemůžeme například říci, že po redukci dimenze příznakový vektor popisuje pouze pohyb levého koutku. Tvarově orientované příznaky se snaží popsat geometrické vlastnosti artikulačních orgánů jako jsou například šířka či výška rtů, okrouhlost rtů či pohyb tváří řečníka. K jejich výpočtu je většinou zapotřebí dalšího předzpracování ROI. Tímto předzpracováním je nalezení vnitřní, vnější nebo obou kontur rtů (angl. liptracking). Liptracking je opět velmi náročná úloha, která musí řešit problémy jako je změna osvětlení, variabilita tvarů a barvy rtů pro různé řečníky či změna tvaru rtů během promluvy. Existuje několik základních typů metod nalezení kontury rtů jako jsou deformovatelné vzory (angl. deformable templates) , Snakes , active shape model ASM , či active appearance model AAM Výhoda tvarově orientovaných příznaků je možnost určit co daný příznak popisuje a určit jakou část artikulačních orgánů postihuje. Poslední typ příznaků, kombinace obou předchozích přístupů, se snaží využít výhod obou metod. Vizuální informaci obtížně popsatelnou pomocí tvarově orientované parametrizace popisuje obrazově orientovanou např. pohyb tváří. Výstupem bloku extrakce vizuálních příznaků je tedy vizuální příznakový vektor. Vstupem posledního bloku kombinace akustického a vizuálního popisu a rozpoznávání je akustický a vizuální příznakový vektor. Abychom mohli pro rozpoznání řeči využít obou složek řeči (akustické a vizuální) musí tento blok provést jejich kombinaci. Existují dva základní přístupy kombinace těchto dvou složek řeči. Metody se liší v místě sloučení řečové informace (před klasifikací, po klasifikaci). První metoda nazývaná kombinace příznaků (angl. feature fusion, FF) Metoda nejprve provede spojení akustického a vizuálního příznakového vektoru. Tento pospojovaný audiovizuální příznakový vektor je poté použit pro klasifikaci jejímž výstupem je rozpoznaný text. Druhá metoda nejprve provede dvě oddělené klasifikace použitím akustického a vizuálního příznakového vektoru. Kombinace řečové informace probíhá až na úrovni výstupů klasifikátorů, tak že se kombinují jejich rozhodnutí. Tato metoda se nazývá kombinace rozhodnutí (angl. decision fusion, DF) Pro klasifikaci se nečastěji používají přístupy používané v rozpoznávání řeči z akustické složky jako jsou HMM či neuronové sítě. Experimenty bylo prokázáno že využití vizuální složky přináší do rozpoznávání řeči novou na akustickém šumu nezávislou informaci o řeči. Největšího přínosu vizuální složky řeči pro rozpoznávání bylo také dosaženo pro úlohy kde je akustický řečový signál degradován šumem. Toto zlepšení se pohybuje kolem 43% WER [61] pro úlohu rozpoznávání spojité řeči kde je odstup šum/řeč 1.5 db. Výsledky samotného vizuálního ASR (89.2% WER) však zůstávají pozadu za výsledky akustického ASR (13.65% WER) pro stejnou úlohu bez šumu (rozpoznávání spojité řeči). Dosavadní výzkum v oblasti vizuálního ASR ukazuje, že stěžejní body jsou vytvoření vhodné parametrizace a metody kombinace vizuální a akustické složky řeči. Tyto body patří mezi dovednosti člověka, které nebyly doposud dostatečně objasněny a proto lze z těchto poznatků čerpat jen velmi málo. Možným zdrojem informace o využití vizuální složky řeči člověkem jsou zkušenosti sluchově postižených lidí odezírajících z úst či poznatky z oblasti logopedie

16 Úvod Oblast vizuálního ASR je zatím velmi otevřenou, neboť dosavadní výzkum probíhá většinou na úlohách laboratorních, kde se rozpoznávání řeči omezuje na rozpoznávání izolovaných slov a jsou dodržovány příhodné podmínky osvětlení či pohybu hlavy řečníka. Tyto omezující podmínky souvisejí se složitostí metod headtrackingu a liptrackingu. Z tohoto pohledu se vizuální ASR jeví jako složitější než akustické ASR. Ať se již jedná o malé množství či velké paměťové nároky audiovizuálních databází či využívání metod zpracování obrazu pro výpočet vizuální příznaků. Malé množství audiovizuálních databází vede k problémům srovnávání výsledků jednotlivých přístupů vizuálních ASR. Mezi nejrozsáhlejší databáze patří audiovizuální databáze ViaVoice obsahující promluvy spojité řeči pro 290 řečníků v rozsahu 50 hodin. Existuje několik prací provádějících srovnání obrazově orientovaných příznaků a tvarově orientovaných příznaků a různých druhů kombinací vizuální a akustické informace. Nejlepších výsledků rozpoznávání bylo zatím dosaženo s obrazově orientovanou parametrizací založenou na DCT a DF kombinací [61]. Bohužel doposud se jen velmi málo prací zabývalo vytvořením vizuální parametrizace, která by vycházela z poznatků tvorby řeči z pohledu vizuální složky a využití poznatků expertů na odezírání. Důvodem byla zřejmě velká složitost výpočtu takovýchto příznaků. 1.3 Cíle disertační práce Cílem mé disertační práce je prozkoumání problematiky popisu vizuální složky řeči pro rozpoznávání řeči se zaměřením na vytvoření a otestování nové parametrizace vizuální složky řeči založené především na tvarovém popisu, která by dosahovala lepších výsledků v úlohách vizuálního a audiovizuálního rozpoznávání řeči něž běžně používané parametrizace. Při tvorbě parametrizace budu využívat poznatky získané studiem tvorby vizuální řeči a problematiky odezírání řeči. Hlavní motivací vytvoření takovéto parametrizace je nedostatečné prozkoumání vizuálních parametrizací založených na tvarovém popisu. Úspěšnost celé parametrizace chci ověřit pomocí srovnávacích testů nové parametrizace a běžně používaného typu vizuální parametrizace (DCT) na úloze vizuálního a audiovizuálního rozpoznávání spojité řeči. Mezi další cíle patří vytvoření audiovizuální databáze pro český jazyk vhodné pro návrh a otestování vizuální parametrizace a vytvoření efektivního algoritmu (z hlediska rychlosti a přesnosti) pro získání navržené parametrizace. - prozkoumání tvorby vizuální řeči a metod odezírání ze rtů - návrh vizuální parametrizace založené na získaných znalostech - vytvoření audiovizuální databáze spojitých promluv pro český jazyk vhodné pro návrh a testování vizuálních parametrizací - návrh a implementace algoritmu pro nalezení vnitřní a vnější kontury rtů - návrh a implementace algoritmu pro nalezení pozic objektů (zubů, jazyka, mezery) vnitřku úst - vytvoření základního srovnávacího systému audiovizuálního rozpoznávání využívajícího nejčastěji používanou parametrizaci - porovnání mnou navržené parametrizace a srovnávacího systému na úloze rozpoznávání spojité řeči - 5 -

17 Stav poznání 2 Stav poznání 2.1 Vizuální parametrizace Obrazově orientovaná parametrizace Získání obrazově orientovaných příznaků většinou nevyžaduje žádné další zpracování nalezené ROI, neboť příznakový vektor získáme tak, že jednotlivé body obrazu poskládáme za sebe. Příznakový vektor tedy obsahuje informace o jasech popřípadě barvách všech bodů ROI. Tento příznakový vektor má však příliš velkou dimenzi pro použití v klasifikaci například pomocí HMM. Při použití ROI o velikost 80*80 bodů bude dimenze vektoru Proto musíme provést jeho redukci a jako příznakový vektor pro rozpoznávání použijeme vypočítaný vektor s dimenzí výrazně menší (např. 45). Obrazově orientované příznaky nemusí vždy tvořit pouze jas jednotlivých pixelů ROI. Příznakový vektor může být sestaven z bodů rozdílového obrazu nebo z bodů reprezentujících optický tok [27]. Rozdílový obraz vznikne tak, že odečteme hodnoty jasů sobě odpovídajících bodů ve dvou po sobě jdoucích snímcích, viz obrázek 2. Metoda optického toku je velmi podobná metodě rozdílového obrazu ovšem k informaci o změně jasu nám udává i směr změny pro každý bod ROI. Obrázek 2. Obrazové příznaky. Dva po sobě jdoucí snímky, jejich rozdílový obraz a příznaky optického toku, přejato z [27] Po získání příznakového vektoru připadá v úvahu hned několik metod pro snížení jeho dimenze. Movellan [59] použil filtraci obrazu ROI dolní propustí s následným snížením rozlišení. Matthews [52] představil vlastní metodu redukce dimenze použitím nelineární dekompozice obrazu nazvanou image sieves. Jiným velmi rozšířeným druhem transformace příznakového vektoru jsou metody vycházející z teorie komprese obrazu, kde se předpokládá, že tento postup redukuje pouze ty informace, které jsou pro rozpoznávání řeči nadbytečné. Jedná se o diskrétní kosinovou, Fourierovu, vlnkovou nebo další transformace obrazu. Tyto metody nepracují s příznakovým vektorem, ale pracují s celým obrazem ROI z kterého se vypočítávají příslušné parametry. Další možností je transformace příznakového vektoru z dimenze D do dimenze d (D>>d) pomocí transformační matice P o dimenzi D*d. Matici P je možné získat z L trénovacích dat reprezentovaných vektory x l l = 1.. L. Transformace příznakového vektoru potom vychází ze vzorce (1), kde x je střední hodnota získaná z množiny měření. x = x + P * (1) l y l Nejpoužívanější metody využívající tento přístup jsou metody LDA a PCA Kosinová, Fourierova, vlnková transformace Metody transformace obrazu jsou používány i pro kompresy obrazu. Mezi nepoužívanější metody patří diskrétní kosinová transformace (angl. discrete cosine transform, DCT), diskrétní vlnková transformace (angl. discrete wavelet transform, DWT), diskrétní Fourierova transformace (angl. discrete Fourier tranform, DFT), Hadamarova a Haarova transformace. Použití těchto metod pro získání vizuálních příznaků je stejné jako při klasickém zpracování obrazu

18 Stav poznání V práci [20] je použita Fourierova transformace podobně jako v případě výpočtu MFCC koeficientů. Jednotlivé příznaky jsou počítány z kruhových oblastí z obrazu převedeného pomocí DFT pro M (k 1,k 2 ) podle (2). m i = M ( k k ) 2 k1, k2 R i 1, (2) kde R i představuje prstencovou oblast okolo středu o poloměru q i a šířce q i-1. Tím je vlastně získána hodnota reprezentující jednotlivé frekvence v obraze. Jako příznaky jsou poté použity hodnoty z této banky filtrů. Výhodou metod založených na kompresi obrazu je možnost jejich rychlé implementace, kde velikost obrazu musí být mocnina dvou (obvykle 16, 32, 64) Analýza hlavních komponent (PCA) Analýza hlavních komponent je hned po DCT jednou z nejpopulárnějších metod pro získávání obrazově orientovaných příznaků pro ASR [20],[27]. PCA zajišťuje lineární transformaci, která l 1 x~ l s minimální chybou ε = 2 i= 1 ~ T x = l P * y. Jestliže máme trénovací množinu { } l x,.., x l umožňuje rekonstruovat transformované vektory x l ~ x i 2, kde 1 obsahující L pozorování v prostoru dimenze D pak metodou PCA získáme matici P, jejíž pomocí můžeme vektor x transformovat na vektor y s dimenzí d<<d. Nejprve je vypočítána střední hodnota trénovacích vektorů 1 x = L L ( x) i= 1 (3) a poté kovarianční matice R dimenze D*D. R 1 = L L ( xi x) *( xi x) i= 1 T (4) Nyní provedeme rozklad kovarianční matice R podle vzorce R = A V A T, kde A = [a 1. a d ] představuje matici vlastních vektorů R a V je diagonální matice, která má na diagonále vlastní čísla matice R. Matici P získáme tak, že vybereme D největších vlastních čísel j 1..j D z matice V a jim odpovídající vlastní vektory a j1..a jd. Matice P vznikne složením těchto vektorů P=[a j1,.., a jd ] T. Vektor nižší dimenze poté získáme ze vzorce T y = P * x x (5) ( ) Lineární diskriminační analýza (LDA) Lineární diskriminační analýza je založena na transformaci prostoru pozorování do nového prostoru pomocí lineární transformace (diskriminační funkce), tak aby transformovaný prostor zajišťoval lepší diskriminaci než prostor originální. Diskriminační funkce je hledána tak, aby maximalizovala poměr mezi variancí mezi třídami a variancí uvnitř tříd. Transformace způsobuje projekci os stávajícího prostoru do prostoru, kde jsou osy rotovány tak, aby zajistili co největší odchylky mezi třídami. Nejprve je zapotřebí rozdělit trénovací vektory x l do C tříd podle zvolených klasifikačních jednotek. Matice P je určena tak, aby projekce trénovacích vektorů P x l maximalizovala kritérium (6) - 7 -

19 Q T det ( ) ( P SbP) P T det( P SwP) Stav poznání = (6) kde Sw je rozptyl uvnitř tříd a Sb je rozptyl mezi jednotlivými třídami v prostoru dimenze d určeném vektory y l. Tyto matice vypočítáme jako (7) kde ( c ) Lc / L Lc = Sw = c C ( c) ( c) a Sb = Pr( c) ( m( c) m) ( m( c) m) T Pr (7) Pr = představuje empirickou pravděpodobnost výskytu jednotlivých tříd, kde L l= 1 δ c( l ), c a δ i, j = 1, když i = j jinak 0, m(c) a (c) představují střední hodnotu a kovarianci vektorů jednotlivých tříd, = ( c) m( c) c C c C m Pr je celková střední hodnota pro všechny trénovací vektory. Pro výpočet matice P musíme provést výpočet vlastních vektorů a vlastních čísel dvojice matic (Sb,Sw) z rovnice SbA = SwAV. Matice A = [ a 1 a d ] představuje matici vlastních vektorů a V je diagonální matice, která má na diagonále vlastní čísla. Matici P získáme tak, že vybereme D největších vlastních čísel j 1..j D z matice V a jim odpovídající vlastní vektory a j1..a jd. Matice P potom vznikne jako P=[a j1,.., a jd ] T Tvarově orientovaná parametrizace Tvarový popis předpokládá, oproti obrazově orientovanému, že je schopen z vizuálních dat získat informaci o řeči a potlačit informaci irelevantní pro vizuální řeč jako je osvětlení scény, informace o řečníkovy, pozici hlavy řečníka atd. Do této skupiny popisů spadají dva možné typy příznaků a to geometrické příznaky a příznaky vycházející z modelu rtů. Oba typy mohou popisovat vnější a/nebo vnitřní hranici rtů, nebo konturu celého obličeje. Pro nalezení těchto kontur je zapotřebí dalšího zpracování ROI. To je zásadní rozdíl ve zpracování oproti obrazovým příznakům. Mezi základní metody vyhledávání hranic objektů patří jednoduché prahování na základě znalosti barvy rtů a využití metod zpracování obrazu [47], metoda Snakes [39],[4], metoda Templates [78], Active shape model [15] a Active appearance model [14]. Jednou z nejnovějších metod vyhledávání je metoda používající tracking 3D modelu rtů ze záznamu jedné kamery [5] Geometrické příznaky Tím že provedeme extrakci kontury rtů můžeme na ní měřit vysoko úrovňové příznaky, které jsou snadno srozumitelné člověku. Vysoko úrovňovými příznaky rozumíme příznaky, které popisují tvar pomocí parametrů jako jsou šířka, výška, délka hranice rtů, výstřednost atd. Jestliže vykreslíme průběh těchto parametrů v čase, pak je zřejmé, že pro stejné promluvy jsou tyto průběhy velice podobné. Naopak pro různé promluvy jsou dostatečně odlišné, viz obrázek 3. Z toho lze usuzovat, že geometrické příznaky nesou určitou informaci o dané promluvě. Proto není překvapující, že velké množství prací používá právě tyto příznaky [1],[2],[11],[34],[73],[86],[31]

20 Stav poznání Obrázek 3. Geometrické příznaky. Vlevo parametry šířka a výška rtů pro nalezenou hranici rtů. Uprostřed Původní hranice a její rekonstrukce při použití 1, 2, 3 a 20 Fourierových koeficientů. Vpravo Průběhy parametru výška rtů pro dvě různá slova (řádky) a různé řečníky (sloupce), přejato z [68] Velkým problémem geometrických příznaků je značná závislost na řečníkovi. Šířka a výška rtů se totiž liší pro jednotlivé řečníky již u rtů v základní poloze (nepohybující se zavřené rty). Abychom tuto závislost částečně potlačili je možné použít dynamické příznaky odvozené právě z geometrických příznaků. Dynamické příznaky již nepopisují rozměry, ale změny velikostí parametrů či pouze typ změny parametrů mezi sousedními snímky. Geometrický popis vychází z kontury rtů. Jestliže ji definujeme jako binární obraz, pak je možné tento obraz popsat pomocí obrazových momentů [18] nebo pomocí Fourierových popisovačů [66]. Normalizované momenty nebo koeficienty Fourierových popisovačů je možné použít jako samostatné vizuální příznaky. Jejich výhodou je nezávislost na natočení, poloze nebo změně měřítka Příznaky vycházející z modelu rtů Příznaky vycházející z modelu rtů můžeme použít pouze za předpokladu, že jsme pro vyhledávání rtů použili některou z metod používajících právě model rtů (Snakes, Templates, ASM, AAM). Příznaky vycházející z modelu rtů potom závisí právě na použité metodě vyhledávání. Chiou [37] používá jako vizuální příznaky radiální vektory Snakes, Silsbee [79] používá parametry jednotlivých Templates. V dalších pracích [49],[54] jsou jako vizuální příznaky použity přímo jednotlivé body modelu dané vektorem x z rovnice (13) Kombinace tvarových a obrazových Obrazové a tvarové příznaky představují dva různé druhy vizuální informace o řeči (nízko a vysoko úrovňové informace). Z tohoto důvodu se velmi často používá jejich kombinace. Otázkou je, jak tyto dva typy informace kombinovat. První možností je použít jednu z metod extrakce obrazových a tvarových příznaků a tyto příznakové vektory spojit do jednoho, který poté použijeme pro rozpoznávání. Luettin a Dupont [51],[21] používají kombinaci ASM příznaků a PCA parametrů pro oblast kolem nalezených úst. Chen [36] kombinuje geometrické příznaky s PCA parametry podmnožiny bodů uvnitř úst. Druhou možností je vytvoření takového modelu, který kombinuje tvarové a obrazové příznaky přímo ve své struktuře. Takovým přístupem je aktivní vzhledový model AAM. Tento přístup provádí výpočet PCA koeficientů pouze z oblasti, která představuje právě rty, nebo celou tvář. Koeficienty nejsou počítány z bodů okolí a tím se celý přístup stává robustnějším. Příkladem použití této kombinace jsou práce [61],[54]

21 Stav poznání Kombinace obrazových a tvarových příznaků nahrazuje nedostatky současných systémů trackingu. Doposud nebyl představen žádný použitelný systém vyhledávání zubů a jazyka, neboť tato úloha je velmi složitá. Je známo, že právě zuby a jazyk poskytují další použitelnou informaci o dané promluvě. Informaci o tvaru rtů získáme jednou z metod vyhledávání a informaci o postavení zubů a jazyka získáme z parametrů PCA, která je aplikována právě na tuto oblast. 2.2 Metody používané pro předzpracování obrazu Headtracking a lokalizace ROI Vstupem metody headtracking je videozáznam, který může obsahovat libovolný počet tváří řečníků (v případě AV rozpoznávání většinou jen jednu) a jeho úkolem je lokalizovat jednotlivé obličeje popřípadě vrátit obraz odpovídající pouze bodům tváře. V případě AV rozpoznávání je ještě nutné aby algoritmus nalezl pozici ROI. Výstup vyhledávání hlavy řečníka lze použít i v jiných oblastech, jako je vizuální syntéza řeči, identifikace a verifikace osob či lokalizace řečníka. Existují zhruba dva základní typy metod pro headtracking. Prvním typem jsou metody založené na vyhledávání parametrického modelu hlavy v daném obraze. Druhý typ metod většinou využívá tzv. metody skin-color viz pro nalezení kůže (bodů hlavy) a poté pomocí metod zpracování obrazu dohledává významné body obličeje (oči, nosní dírky či ústa). Obrázek 4. Headtracking použitím vzorových modelů a jejich vyhledávání v neznámém obraze, převzato z [85] Typický příklad algoritmu využívajícího parametrický model hlavy je popsán v [85]. Pro funkčnost algoritmu je nejprve třeba vytvořit vzor obličeje a vzor pozadí z trénovací množiny která obsahuje n tváří. Poté se pouze tyto vzory porovnávají s částmi neznámého obrazu a zjišťuje se jejich podobnost viz obrázek 4. Výsledkem je tedy pravděpodobnost, že daná část obrazu je tvář. Parametrický model je tvořen příznakovým vektorem, který popisuje buď tvář či pozadí. Tento vektor je většinou výsledkem některé z metod redukce dimenze příznakových vektorů (DCT, PCA). Neredukovaný příznakový vektor je tvořen všemi body vybrané oblasti. Snížení dimenze vektoru zajistí, že jsou zachovány významné vlastnosti obličeje (rozložení tmavých a světlých oblastí, oči a ústa jsou tmavší než kůže) a potlačeny rozdíly mezi obličeji různých řečníků. Největším úskalím metody je velikost vyhledávaného obličeje a jeho natočení. Vzor obličeje je totiž vytvořen pro určitou velikost a natočení. Problém velikosti je možné řešit změnou velikosti porovnávané oblasti. Jestliže však chceme vyhledávat i obličeje s různým natočením pak je nutné pro tato natočení vytvořit nové vzory a ty použít při porovnávání. Tím se samozřejmě zvyšuje časová náročnost metody. Celý postup je možné zjednodušit, jestliže vstupní obraz obsahuje informaci o barvě. Využije se metody skin-color viz pro nalezení oblastí podobných kůži a poté jsou se vzory porovnávány pouze tyto oblasti

22 Stav poznání Obrázek 5. Headtracking pomocí přímého vyhledávání významných bodů. Nalezení hlavy a rtů, použití modelu rozložení pro nalezení očí, nalezené body, převzato z [81] Druhý typ metod využívá pro nalezení hlavy metodu skin-color viz Metoda využívá specifické barvy kůže v chromatické reprezentaci barev. Jejím výstupem jsou oblasti, které svou barvou odpovídají barvě kůže. Dalším krokem je nalezení významných bodů na obličeji (oči, nosní dírky, ústa) pomocí metod zpracování obrazu. Často se využívá model rozložení významných bodů na obličeji. Tento model je představován vzájemnými vzdálenostmi jednotlivých významných bodů. Pro nalezení bodů se také využívá jejich umístění vzhledem k pozici obličeje. Ze znalosti pozic nalezených oblastí kůže se určí oblasti výskytu jednotlivých významných bodů. Oči, nosní dírky, špička nosu či ústa jsou poté přesně lokalizovány buď pomocí metod srovnávání se vzorem nebo je využito jejich jasových a barevných vlastností vzhledem ke kůži obličeje či jejich specifického tvaru (špička nosu je většinou nejsvětlejší, nosní dírky jsou tmavé, v barvě úst převládá červená). Příkladem algoritmu založeného na vyhledávání významných bodů je [81]. Výhodou této metody je že není příliš závislá na velikosti a natočení hlavy řečníka. Výstupem metody tedy může být pozice, velikost a natočení oblasti zájmu ROI viz obrázek 6. Mluvíme-li o natočení, je tím myšleno natočení v rovině xy. Jestliže nás zajímá natočení hlavy řečníka v ostatních rovinách pak je nutné pracovat s 3D modelem hlavy. Informace o natočení hlavy ve všech rovinách je pro rozpoznávání velmi důležitá, neboť pohled na řečníka je většinou čelní a proto při rotaci dochází ke změně tvaru rtů. Ve většině případů AV rozpoznávání je však pracováno se záznamy kde je rotace v ose z zanedbatelná. Velikost a tvar oblasti zájmu je doposud předmětem výzkumu a ROI nemusí obsahovat obdélníkové okolí rtů. Existuje řada prací, které zkoumají vliv volby ROI na úspěšnost rozpoznávání. Například práce [18][66] ukazují, že jestliže se do ROI zahrne nejen oblast rtů, ale celá spodní část hlavy, zvýší to úspěšnost rozpoznávání, v [53] je použito jako ROI celé oblasti hlavy řečníka a v [20] má ROI tvar kruhového okolí rtů. Některé práce používají netradiční ROI jako pohled ze strany [93] nebo oblast úst osvětlenou pomocí infračerveného zdroje [32]. Samozřejmě platí, že čím větší oblast zpracováváme tím náročnější bude výpočet

23 Stav poznání Obrázek 6. Extrakce ROI. Nalezení významných bodů v databázi IBM Via Voice TM pomocí [77], odpovídající oblasti úst pro jednotlivé řečníky, převzato z [61] Skin-color Metoda skin color využívá specifické barvy kůže v chromatické reprezentaci barev C R, C B, C G. Přepočet mezi RGB reprezentací a chromatickou je dán vztahem (8). Metoda je založena na tom, že = R G C R CG = CR + CG + C = 1 (8) R + G + B R + G + B B v chromatické reprezentaci je pro různé osoby i rasy barva kůže podobná a její rozptyl je velmi malý viz obrázek 7. Z trénovací množiny, která je definovaná ručně, je vypočtena střední hodnota a rozptyl většinou pro složky C R a C G a pomocí těchto hodnot je poté prahován neznámý obraz. Výsledek prahování je znázorněn na obrázku 7. Obrázek 7. Vlevo Histogram bodů kůže pro složku C R a C G, Vpravo Výsledek nelezení hlavy pomocí metody skin-color

24 Stav poznání Liptracking Metoda liptracking se používá jako předzpracování pro výpočet tvarově orientovaných příznaků. Jejím vstupem je většinou obraz rtů a jejich okolí a metoda se snaží nalézt tvar rtů, reprezentovaný vnější, vnitřní nebo oběma konturami rtů. Metody je možné rozdělit zhruba na dvě skupiny. Na metody využívající model rtů a na metody bez jeho využití. Model rtů je soubor informací buď o tvaru rtů a jeho možných deformacích doplněný barvou rtů či informacemi o barevném rozložení přechodu mezi rtem a kůží pro každý bod modelu. Všechny metody využívají specifické barvy či jasu rtů oproti kůži obličeje. Rty jsou většinou tmavší než kůže a jsou více červenější. Největším úskalím metod je velká variabilita tvaru rtů mezi řečníky i během promluvy, osvětlení scény a jazyk. Jazyk má totiž velmi podobnou barvu jako rty a při hledání vnitřní kontury rtů způsobuje nemalé problémy. Mezi nejpoužívanější metody patří klasické metody zpracování obrazu bez využití modelu rtů [47], deformovatelné vzory (angl. deformable templates) [78], Snakes [39],[4], aktivní tvarový model (angl. Active shape model, ASM) [15] a aktivní vzhledový model (angl. Active appearance model, AAM) [14]. Jednou z nejnovějších metod vyhledávání je metoda používající 3D modelu rtů [5] Klasické metody zpracování obrazu bez využití modelu rtů Nejjednoduššími metodami pro nalezení rtů jsou metody využívající pouze metod zpracování obrazu. Tyto metody jsou velmi rychlé, ovšem méně robustní než metody využívající model. Základním principem je využití specifické barvy rtů a rozdílových obrazů mezi dvěma snímky. V práci [47] je pro nalezení rtů stanovena reprezentace obrazu HI. G R + B + G H = 256* a I = (9) R 3 Obrázek 8. Extrakce rtů pomocí barvy a informace o změně jasu mezi následujícími snímky. Složka I, složka H, naprahovaná složka H, rozdílový obraz složek I, výsledný tvar nalezených rtů, převzato z [47] Prahováním pomocí ručně definovaných prahů jsou ze složky H vybrány body odpovídající rtům. Složka I slouží k získání rozdílového obrazu. Rozdílový obraz je získán odečtením po sobě jdoucích snímků. Nyní je každému bodu obrazu přiřazena jedna ze čtyř konstant podle hodnoty rozdílového obrazu a prahovaného H. Body, které se pohybují a mají barvu rtů jsou nejlepšími kandidáty na výsledný objekt rtů, viz obrázek 8. Další přístupy využívají informací o směru a velikosti hran v obraze či jiných speciálních reprezentací obrazu pro snadné odlišení barvy rtů a barvy pozadí. Největším úskalím těchto metod je nutnost definovat konstanty, které rozhodují o výběru objektu rtů. Tyto konstanty však mohou být závislé na osvětlení či pozadí dané scény a proto je nejlepším řešením jejich automatická inicializace Deformovatelné vzory Vzory je možné definovat jako parametrizovanou množinu bodů, křivek a povrchů s množinou parametrů S a penalizační funkcí, která definuje, jak dobře odpovídá množina parametrů danému

25 Stav poznání obrazu, viz obrázek 9. Vzor je buď vytvořen ručně nebo z trénovací množiny. Penalizační funkce je funkcí parametrů S a obrazu. Energetická funkce nabývá nízkých hodnot, jestliže všechny body vzoru leží na nebo v okolí maxim pole definovaného pro obraz a reprezentujícího příznaky jako hrany, vrcholy nebo údolí objektu v daném obraze a případě, že tvar deformovaného vzoru se blíží tvaru předdefinovanému. Metoda se snaží deformovat vzor podle tohoto pole tak, aby model měl co nejmenší penalizaci. K tomuto účelu lze využít metody sledování gradientu nebo jiné techniky optimalizace. Jestliže nalezneme minimum energetické funkce pak vzor nejlépe popisuje tvar objektu. Obrázek 9. Extrakce rtů pomocí vzorů. Model vzoru tvořený 6 body, šedotónový obraz rtů, detekce hran v obraze pro levou stranu modelu, výsledky nalezení rtů, převzato z [80] Pro zvýšení robustnosti metody mohou být aplikována jistá omezení s ohledem na geometrické uspořádání modelu. Velké odchylky od základního tvaru jsou penalizovány úpravou energetickou funkce. K získání obrazového pole můžeme použít několika metod. V práci [80] je model složený ze 6 bodů a je rozdělen na 4 části, viz obrázek 9. Obrazové pole je pak definováno pro každou tuto část. Jedná se vždy o výpočet hran v obraze v daném směru a jejich vyhlazení. Je možné použít i informaci o změně obrazu mezi dvěma sousedními snímky. Pro vylepšení výsledků je místo jednoho vzoru používána banka vzorů popisujících možné tvary objektu [12],[35]. K určení nejlepšího vzoru se používá inicializační funkce, která porovnává obraz s obrazy definovanými pro jednotlivé vzory a zjišťuje jejich podobnosti využitím pyramidové techniky vyhledávání. Největším nedostatkem metody Templates je, že se vzory deformují libovolně podle daného obrazového pole. Vzor postihuje pouze základní tvar objektu, ale ne jeho možné změny a závislosti mezi jednotlivými body modelu. Problémy vznikají i při natočení či změně velikosti objektů Snakes Metoda Snakes představuje využití modelu, který je tvořen křivkou, pro nalezení objektu v obraze pomocí minimalizace speciální funkce E snake *. Model je tvořen ručně definovanou množinou bodů v ( s) = ( x( s), y( s) ). Tato množina musí co nejlépe popisovat tvar vyhledávaného objektu. Po umístění modelu do blízkosti hranice hledaného objektu se model deformuje tak aby dosáhl lokálního minima * energetické funkce E. Funkce E je tvořena třemi různými druhy energií (10) snake 1 * snake 1 * Esnake = Esnake int obraz + 0 ( v( s) ) ds = E ( v( s) ) ds + E ( v( s) ) ds E v( s) 0 con ( )ds kde v(s) představuje křivku tvořenou body (x(s), y(s)), kde s jde od 0 do 1 přes celý obvod křivky. Funkce E int reprezentuje interní energii modelu v průběhu deformace a snaží se model vyhlazovat. Funkce E obraz představuje deformační síly vyvolané daným obrazem. Tyto síly se snaží deformovat model tak, aby se přiblížil významným tvarům v obraze jako jsou přímky, hrany, nebo významné části (10)

26 Stav poznání objektů. Funkce E představuje externí síly, které mohou reprezentovat interaktivní požadavky con uživatele na deformaci modelu. Interní energie je funkcí první a druhé derivace křivky v ( s) a v ( s) podle vzorce (11) kde koeficienty ( s) a β ( s) E int 2 2 ( α ( s) vs ( s) + β ( s) vss ( s) ) 2 = (11) α určují chování modelu. Koeficient α(s) odpovídá elasticitě modelu a β(s) odpovídá tuhosti modelu. Obrazová energie se skládá ze tří různých typů energií podle vzorce E = w E + w E + w E (12) kde w je váhová funkce přičemž image primky primky primky hrany hrany ukonč ukonč E zajišťuje, že model se bude snažit postihnout nejsvětlejší nebo nejtmavší kontury objektů, E hrany nutí model zaujmout pozici bodů s největším gradientem a E ukonč postihuje konce přímek a rohy významných objektů v obraze. Jestliže chceme Snakes použít pro tracking pak změna tvaru mezi sousedními snímky musí být dostatečně malá, aby model nezaujal jiné lokální minimum než v předchozím snímku, což představuje spolu s inicializací modelu největší nedostatek metody. s ss Obrázek 10. Snakes. Model řízený body definovanými uživatelem, výsledky vyhledávání, převzato z [4] Aktivní tvarový model Aktivní tvarový model se snaží řešit nedostatky předchozích přístupů používajících ručně vytvořený model. Metoda vychází z toho, že model by mělo být možné deformovat pouze tak, aby odpovídal vzorovým tvarům z trénovací množiny. Pro vytvoření takového modelu je zapotřebí mít trénovací množinu vzorových tvarů daného objektu, která zahrnuje nejběžnější deformace tohoto objektu. V každém obrazu musí být označeny významné body popisující příslušný objekt. Byly zvoleny tři základní typy bodů podle toho jakou část objektu popisují. 1. body závislé na konkrétním objektu. V případě, že vyhledáváme rty, tak body 1 budou koutky úst, střed horního a dolního rtu. 2. body nezávislé na konkrétním objektu. Jsou to nejvyšší místa objektů pro danou orientaci či extrémy křivek. 3. ostatní body. Body, které je možné získat z prvních dvou typů bodů. Tyto body jsou pravidelně rozloženy na spojnicích předchozích bodů. Pro každý obraz je tedy definována množina bodů ( x y, x, y,..., x y ) x kde n je počet i = i, 0, i,0 i,1 i,1 i, n 1, i, n 1 bodů. Aby bylo možné získat charakteristické vlastnosti trénovací množiny musíme nejprve transformovat všechny obrazy tak, aby objekty měli stejnou orientaci, rotaci a měřítko. Tím nám vznikne množina kde jednotlivé mraky bodů představují možné tvary hledaného objektu, viz obrázek

27 Stav poznání Obrázek 11. Extrakce rtů pomocí ASM. Rozložení bodů v trénovací množině, určení změny polohy bodu modelu vzhledem k danému obrazu, přizpůsobení celého modelu, tvar modelu pro změnu prvních tří parametrů vektoru b, převzato z [15] Nyní spočítáme střední hodnotu x z vektorů x i a odchylku dxi = xi x pro každý vektor. Vypočítáme kovarianční matici S těchto odchylek. Matice S má rozměry 2n*2n. Máme tedy 2n parametrů, které mohou ovlivnit tvar modelu. Z trénovací množiny je zřejmé, že určité body se mohou pohybovat více než ostatní a tím i více přispívat ke změně tvaru. Proto použijeme metodu PCA popsanou v , která zredukuje počet proměnných jen na ty nejdůležitější podle toho, jak hodně ovlivňují tvar objektu. Získanou matici P využijeme k výpočtu nového tvaru podle rovnice (13) kde b udává odchylku od středního tvaru. x = x + Pb 3 λ 3 λ (13) k b k k Pomocí vektoru b který má dimenzi t << 2n můžeme ovlivňovat tvar modelu, jak je vidět na obrázku 12. Velikost koeficientů b je omezena podle (13), což zajistí, aby se tvar modelu měnil pouze podle trénovacích dat. Čím větší dimenzi má vektor b tím jemněji dokážeme měnit tvar modelu ovšem vzrůstá časová náročnost výpočtu a klesá schopnost modelu opravovat případné chyby nalezeného tvaru. Obrázek 12. Vlevo Deformace středního tvaru modelu při použití jednotlivých parametrů 1-4, vpravo přechod ret-kůže pro daný bod modelu, převzato z [49]

28 Stav poznání Na je ukázán model rtů získaný z trénovací množiny, který je složen z N bodů. Dále je zde ukázáno jak změna jednotlivých komponent vektoru získaného pomocí metody PCA ovlivňuje tvar modelu. Samotné nalezení rtů pomocí modelu probíhá tak, že v prvním kroku je nutné model umístit někam do prohledávaného obrazu a stanovit jeho velikost. Toto umístění a stanovení velikosti se provádí buď na základě informace o pozici a velikosti modelu z předchozího snímku či z informací z headtrackingu. Dále se snažíme zjistit jak změnit tvar modelu tak aby co nejlépe odpovídal tvaru hledaných rtů v obraze. Pro tento krok je možné použít různé metody. Nejčastěji se body modelu vztahují k největším hranám nalezeným v obraze, které se nacházejí na normále daného bodu vzhledem k hranici modelu. Máme tedy model X = M ( s, θ )[ x] + Xc kde Xc představuje pozici středu modelu. Pro každý bod zjistíme velikost posunutí tohoto bodu a z těchto informací vytvoříme vektor dx = ( dx DY dx ) T 0, 0,..., n 1, dy n 1, viz obrázek 11. Nyní spočítáme, jak se má změnit rotace, velikost a střed modelu popsané parametry θ, s a x c tak, aby se model co nejvíce přiblížil novým bodům. Vypočítáme nový vektor dx, který udává odchylku bodů v obraze od nového modelu. Abychom body T modelu co nejvíce přiblížili bodům obrazu musíme změnit tvar modelu. Z dx spočítáme db = P dx. Nový tvar modelu poté vypočítáme jako x = x + P( b + Wbdb), kde W b představuje matici vah. Celý proces opakujeme do té doby, dokud dochází ke změně modelu. V porovnání s metodou Snakes je obtížnější vytvořit model objektu neboť pro Snakes nepotřebuje označkovanou trénovací množinu. Ovšem oproti metodě Snakes model ASM může nabývat pouze tvarů, které byly obsaženy v trénovací množině, a proto je proces více robustní Aktivní vzhledový model Aktivní vzhledový model je ve svém principu velmi podobný aktivnímu tvarovému modelu. Jak však napovídá jeho název model neobsahuje jen informaci o tvaru, ale je v něm zahrnuta i informace o jasu jednotlivých bodů modelu. Přístup tedy vychází z toho, že objekt nacházející se v neznámém obraze má jednak specifický tvar a že tomuto tvaru odpovídá specifický jas nebo barva jednotlivých bodů. Obrázek 13. Extrakce hlavy řečníka pomocí AAP. Obraz trénovací množiny s označenými 122 body modelu, výsledný model pro změnu prvních 4 parametrů vektoru c (± 3 sd), převzato z [14] Způsob vytvoření modelu je stejný jako v případě ASM. Máme trénovací množinu, ve které musíme jednotlivé objekty označkovat skupinou řídících bodů x obrázek 13. Pomocí metody z ASM získáme matici P s. Změnou vektoru b s a dosazením do (13) potom můžeme generovat nové tvary. Nyní musíme model natrénovat pro jasy jednotlivých objektů. Abychom vůbec mohli modely porovnávat podle jasu musíme každý objekt transformovat do středního tvaru x, vypočítaného z trénovací množiny, pomocí označených bodů. Z důvodu možného různého osvětlení scény jednotlivých obrazů musíme provést normalizaci jasu. Jeden ze vzorků je zvolen jako referenční, jeho jas se vezme jako základní, a poté je pomocí iterativní metody normalizována hodnota jasu vždy vůči nově vypočtené střední hodnotě

29 Stav poznání Na takto upravená data opět aplikujeme PCA a získáme matici P g a vektor b g. Dosazením do vzorce (14) a změnou b g můžeme vytvořit nové jasové hodnoty pro tvar daný x. g = g + P g b g (14) Vektor g představuje hodnoty jasů modelu poskládané za sebe do vektoru o velikosti D (počet bodů modelu). Nyní vytvoříme vektor b jehož pomocí můžeme měnit jak tvar tak i hodnotu jasu modelu. T P ( ) ( ) s x x g g W sbs W = s b = (15) b T g Pg Pro každý prvek trénovací množiny můžeme získat vektor b a opětnou aplikací metody PCA na tyto vektory získáme matici Q a vektor c. Jejich dosazením do rovnice (16) můžeme generovat nové tvary a jim odpovídající jasy modelu viz obrázek 13. b = Qc Qs (16) x = x + P = + = swsqsc, g g Pg Qgc kde Q Qg Nový model je vytvořen tak, že vypočítáme jasy g pro tvar x a tento obraz transformujeme do tvaru daného x. Jestliže chceme pomocí modelu nalézt objekt v neznámém obraze musíme provést minimalizaci = ( δi ) 2 kde δ I = I i I m. I i představuje skutečný obraz a I m je generovaný model. Minimalizace takovéto funkce je velmi složitý problém, a proto je použita lineární závislost mezi diferencí obrazu a modelu a změnou vektoru c. Vychází se z toho, že máme daný obraz a jemu nejlépe odpovídající model. Změníme-li vektor c o δ c změní se i model a rozdíl obrazu a modelu představuje δ g. Tyto změny jsou generovány automaticky a z daných vektorů δ c a δ g odvodíme matici A podle vzorce (17). δ c = Aδg (17) Samotné vyhledávání objektu se provádí tak, že stanovíme odchylku modelu a obrazových bodů jako δ g. Pomocí (17) vypočítáme δ c a provedeme změnu c o δ c. Podle (16) vypočítáme nový model a celý postup opakujeme tak dlouho dokud se chyba E = ( δg) 2 mění. Aktivní vzhledový model má vyšší výpočetní složitost než aktivní tvarový model, ale díky postihnutí jasů objektu se stává robustnějším D liptracking Všechny předchozí metody vyhledávání rtů předpokládají, že hlava řečníka se může otáčet pouze v rovině xy (většinou je hlava snímána z čelního pohledu). Je však zřejmé, že v reálných úlohách není možné tuto podmínku dodržet a hlava řečníka se bude pohybovat v 3D prostoru, čímž se bude měnit její velikost, poloha i orientace. Jestliže se na tento video záznam použije jedna z předchozích metod, pak budou nalezeny rty, ale jejich tvar nebude odpovídat skutečnému tvaru rtů řečníka. Proto se pracuje na vývoji metod vyhledávání rtů pomocí 3D modelu z videozáznamu jedné kamery. Právě zde se uplatňuje informace o orientaci a pozici hlavy, kterou je možno získat metodou headtrackingu popsanou v sekci

30 Stav poznání Obrázek 14. Vyhledávání 3D modelu. Původní obraz, mapa objektů v chromatických barvách, nasazení středního modelu, směry deformací modelu, výsledný model, model při natočení hlavy, projekce modelu do roviny xy, převzato z [5] V práci [5] je popsán 3D model rtů složený z jednotlivých povrchů tvořících rty a jejich okolí a vazeb mezi nimi. Barva segmentů a vztahy mezi body modelu jsou získány pomocí označené trénovací množiny. Samotné vyhledávání rtů poté probíhá tak, že se nejprve získají modely pro barvu kůže a barvu rtů v chromatické reprezentaci obrazu Cr a Cb. Každému povrchu modelu, v závislosti na tom jaké části odpovídá, je přidělena chromatická barva z trénovací množiny. Pro každý neznámý obraz je vytvořena mapa oblastí, které odpovídají rtům a tváři podle natrénovaných modelů. V této mapě je nalezen objekt, který nejlépe odpovídá rtům. Tím je určena informace o pozici rtů. Nyní je využito informace o natočení rtů v 3D tak jako v [10] prostoru a základní model rtů je transformován a promítnut do obrazu. Pomocí iterativní metody deformace modelu podle mapy oblastí je určena deformace modelu nejlépe popisující danou pózu. Protože známe natočení modelu a i jeho tvar můžeme ho promítnout do jakékoliv pozice v 3D prostoru. Celý postup je znázorněn na obrázku 14. Výstupem metody tedy můře být skutečný tvar rtů z čelního pohledu, ale i pohyb rtů v z-ové souřadnici (tento pohyb během řeči projevuje při vyslovování č,š,ř,ů). Většina experimentů AV rozpoznávání je však prováděna na datech kde je pohyb hlavy řečníka velmi omezen a proto lze použít pouze 2D model rtů. 2.3 Následné zpracování Obrázek 15. Schéma extrakce 3 druhů příznaků následované interpolací příznaků na 100 Hz, normalizací přes celou promluvu, získáním dynamické informace o řeči řetězením vektorů a úpravou příznakového vektoru pomocí LDA a MLLT, převzato z [69] Jestliže pracujeme s audio-vizuálním rozpoznáváním řeči, pak se musíme zajímat i o akustické příznaky, které jsou extrahovány z akustického záznamu řeči. Nejčastějším typem příznaků jsou Melovské kepstrální koeficienty (MFCC) nebo lineární prediktivní kepstrální koeficienty (LPCC). Akustické příznaky jsou obvykle získávány s frekvencí 100 Hz [65][61][60]. Oproti tomu vizuální

31 Stav poznání příznaky jsou závislé na snímací frekvenci video kamery, která je obvykle 25 nebo 30 Hz. Jestliže kamera pracuje v prokládaném režimu, pak můžeme pracovat s frekvencí dvojnásobnou, samozřejmě na úkor polovičního rozlišení obrazu. Maximální možná frekvence je tedy 60Hz. Většina aplikací audio-vizuálního ASR požaduje, aby pro každý akustický vektor existoval vizuální vektor synchronizovaný s akustickým pro všechny vzorky promluvy. Frekvenci je možné vyrovnat buď interpolací vizuálních příznaků na frekvenci akustických příznaků, nebo opakováním snímků ještě před jejich zpracováním. Vyrovnání frekvence snížením frekvence akustických příznaků se nepoužívá. Dalším krokem úpravy příznakových vektorů je normalizace vizuálních příznaků. V případě klasického audio ASR se často používá normalizace pomocí střední kepstrální hodnoty, což vede ke zvýšení robustnosti v případě závislosti na řečníkovi nebo pozadí [94]. Použití jednoduché normalizace pomocí střední hodnoty příznakového vektoru přes celou promluvu je demonstrováno v pracích [68],[66] pro vizuální ASR. Provede se výpočet střední hodnoty příznaků přes celou zpracovanou promluvu a tímto středem se normalizují všechny příznakové vektory. Zvýší se tím nezávislost na řečníkovi a prostředí. Další možností, kterou použil Vanegas [88] je lineární kompenzace intenzity každého snímku ještě před extrakcí obrazových příznaků. Jednou z nejdůležitějších částí po zpracování příznakových vektorů je zachycení dynamické informace vizuální složky řeči. Informace o dynamice řeči pomáhá člověku při rozpoznávání z vizuální složky řeči [75]. Dynamické příznaky zachycují specifický sled pohybů rtů pro jednotlivé řečové jednotky a proto by měly být méně závislé na řečníkovi než například geometrické příznaky. Získávání dynamických příznaků je opět odvozeno z audio ASR. Jednou z možností je rozšíření příznakového vektoru o jeho první a druhou derivaci [94]. Nebo můžeme sestavit nový příznakový vektor x t tak, že pospojujeme J příznakových vektorů y t podle (18), kde t je čas, J je šířka okénka, y(t) příznakový vektor v čase t a x(t) nový příznakový vektor. [ ] T T T = y t ( J / 2),..., yt,..., y t + ( J / 2) (18) x t 1 Na tento nový příznakový vektor použijeme jednu z metod redukce dimenze, nejčastěji LDA [61],[66]. Posledním krokem před kombinací audio a vizuálních příznaků může být MLLT (Maximum likelihood linear transform). Metoda MLLT se snaží nalézt matici P MLLT pro rotaci dat, která maximalizuje pravděpodobnost pozorování dat v prostoru původních příznaků, za předpokladu diagonálních kovariancí dat v transformovaném prostoru. Matici rotace získáme řešením L ( ) ( ( ( ( ) c L c T P = arg max det det ) 2 MLLT P diag P P (19) P c C, kde jsou definovány třídy C do kterých chceme klasifikovat a trénovací množina vektorů x l, kde l = 1..L. Každý z těchto vektorů je přiřazen do jedné z C tříd c(l) C. Proměnná Σ kovarianci dané třídy L = = c a L C δ l 1 c( l ), c kde δ i, j je 1 jestliže i=j jinak 0. Metoda MLLT společně s metodou LDA provádí transformaci dat ve smyslu vylepšení klasifikace a pravděpodobnostního modelování dat. Proces MLLT lze použít v jakékoliv část systému ASR. 2.4 Rozpoznávání Využití vizuální informace o řeči lze rozdělit na dva základní přístupy. Tyto přístupy se odlišují jak dalším zpracováním informace, tak i oblastí použití. V prvním případě použijeme pro úlohu ASR pouze vizuální řečovou informaci. V druhém případě využijeme jak vizuální tak akustickou složku řeči

32 Stav poznání Rozpoznávání řeči pouze z vizuální informace je úlohou jednodušší. Tento postup nevyžaduje další zpracování příznakového vektoru. Jak je ovšem zřejmé, vizuální složka řeči obsahuje méně informací o promluvě než složka akustická. Proto se tato metoda zaměřuje většinou na rozpoznávání izolovaných slov, neboť při rozpoznávání plynulé řeči je dosahováno špatných výsledků. Metodu rozpoznávání řeči pouze z vizuální informace je však třeba použít všude tam, kde dochází k drastickému poškození akustického signálu vlivem šumu. Rozpoznávání řeči kombinací akustické a vizuální informace dosahuje dobrých výsledků i v úlohách rozpoznávání spojité řeči nezávislém na řečníkovi. Ovšem jakmile chceme kombinovat dva různé druhy informace musíme použít další metody pro zpracování a kombinaci akustického a vizuálního příznakového vektoru Vizuální rozpoznávání Problémem vizuálního ASR obecně je volba základních řečových jednotek (řečových tříd, do kterých budeme klasifikovat) a volba metody rozpoznávání. I zde se vychází z poznatků získaných pro úlohu audio ASR. Pro americkou angličtinu existuje 42 základních jednotek (fonémů) [19]. Tyto jednotky byly odvozeny tak, aby postihovaly specifické pozice artikulačních orgánů řečového traktu. Ovšem pouze část těchto orgánů je viditelná a právě ty poskytují vizuální informaci o řeči. Z toho vyplývá, že vizuálních řečových jednotek by mělo být méně než akustických. Tyto základní řečové jednotky jsou nazývány vizémy [82],[8]. Pro získávání vizémů a jejich mapování na fonémy se můžeme držet prací pojednávajících o lidském odezírání ze rtů [36], nebo se můžeme dát cestou statistického shlukování jako Rogozan [74]. Rogozan provedl rozdělení fonémů na vizémy tak, že využil transkripci audio-vizuální trénovací množiny. Pomocí Viterbiho algoritmu stanovil akustické hranice fonémů a ručně je poupravil. Poté byly vzaty v úvahu pouze středy jednotlivých fonémů a jejich okolí o velikosti 140 ms. Tento krok byl proveden proto, že vizuální a akustická složka řeči mohou být asynchronní. Velikost okolí 140 ms modeluje i částečné koartikulace mezi jednotlivými vizémy. Informace o jednotkách byla vzata jako vstup samo-organizující se sítě, která byla trénována pomocí Kohonenova algoritmu. Bylo definováno, že vizém nesmí osahovat zároveň souhlásku i samohlásku. Výsledné rozdělení do vizémových třídy vidíme na obrázku 16. Obrázek 16 Strom zaměnitelností pro souhlásky a samohlásky, převzato z [61] Třináct tříd je nejčastěji používaný počet vizémových tříd pro vizuální ASR [61]. Do těchto tříd se přiřazují jednotlivé hlásky právě podle podobnosti jejich vizuální odezvy. Volba řečových jednotek samozřejmě závisí na úloze pro kterou jsou vybírány. Jestliže budeme provádět rozpoznávání izolovaných slov nad malých slovníkem, pak bude možné jako vizémy použít celá tato slova nebo jejich časti. Avšak pro rozpoznávání spojité řeči bude zapotřebí využít kontextově závislých jednotek (např. trivizémů) vycházejících ze základních vizémových tříd

33 Stav poznání Nejpoužívanějším klasifikátorem pro ASR jsou skryté Markovské modely (angl. hidden Markov model, HMM) a jejich nejrůznější modifikace [79],[84]. Mezi další možné přístupy patří použití dynamického borcení času (angl. dynamic time warping, DTW) [63], neuronových sítí (angl. artificial neuron network, ANN) [44], kombinace ANN a DTW [7] nebo kombinace ANN a HMM [31]. Protože většina klasifikátorů je koncipována na základě HMM, bude zde uveden popis typického s single-stream HMM. Sekvenci vizuálních nebo akustických příznaků představuje o t s dimenzí ds, kde s = A nebo V podle typu příznaků. Emisní pravděpodobnosti jsou modelovány pomocí Gausovských směsí daných Ksc s s [ ot c] = wsckℵds ( ot ; msck, ssck ) Pr (20) k= 1 pro všechny třídy c C, zatímco pravděpodobnost přechodů mezi jednotlivými třídami je dána jako r [ [ ] ] T s = Pr c ' c, c, c C (21) Vektor parametrů HMM představuje T T T T T T T as = [ rs, bs ], kde bs = [ wsck, msck, ssck ], k = 1,..., K sc, c C (22) V rovnicích (20), (21), (22) představuje parametr c kontextově závislé stavy, w sck vyjadřují váhy jednotlivých směsí, K sc představuje počet směsí a ℵ D ( o; m, s) je normální rozložení se střední hodnotou m a diagonální kovarianční maticí s. Pro zajištění maximální pravděpodobnosti (22) se používá EM algoritmus. EM algoritmus provádí reestimaci parametrů HMM vektoru j j s a +1 = arg max Q a, a O (23) ( ) ( ) s a s s kde O představuje pozorování na trénovacích datech o L promluvách O l, l=1,,l. Alternativou EM algoritmu pro natrénování parametrů HMM může být metoda diskriminativního trénování. Rozpoznávání je prováděno pomocí Viterbiho algoritmu, který počítá nejpravděpodobnější sekvenci stavů, která generuje dané pozorování. s Audio-vizuální rozpoznávání Audio-vizuální rozpoznávání se řídí obdobnými pravidly a předpoklady jako vizuální rozpoznávání řeči. Pro klasifikaci se používají obdobné metody (HMM, AAN), obdobná je i volba základních řečových jednotek. Akustické příznaky většinou představují MFCC nebo LPCC. Vizuální příznaky jsou dodány jednou z metod extrakce vizuální příznaků. Největším problémem je jak sloučit informace z dvou rozdílných zdrojů. Oba zdroje se totiž liší jak v řečových jednotkách, tak v rozsahu jednotlivých příznaků. Dalším velmi významným úkolem rozpoznávání je adaptace rozpoznávače na daného řečníka. Tato technika přináší zlepšení výsledků rozpoznávání, neboť stejně jako v úloze akustického ASR je vizuální informace pro stejné promluvy u různých řečníků odlišná. Většina prací se snaží vytvořit klasifikátor co nejméně závislý na řečníkovi, ovšem adaptace vždy poskytuje zlepšení. Integrace dvou odlišných typů informace pro klasifikaci je obecným problémem. Existuje mnoho možností jak spojení dvou různých informací provést [7],[68],[74],[86],[21],[61],[36]. Jednotlivé techniky se odlišují jak v samotném designu, tak i v použité terminologii. Některé z metod [86] vycházejí z modelu vnímání řeči člověkem. Existuje základní rozdělení kombinace informačních zdrojů na kombinaci příznaků FF a kombinaci rozhodnutí DF. V prvním případě dochází Typ kombinace Audio-vizuální příznaky Úroveň klasifikace Kombinace příznaků: 1. pospojované příznaky Sub-fonetická (brzká)

34 Stav poznání Jeden klasifikátor, FF Kombinace rozhodnutí: Dva klasifikátory, DF 2. transformované příznaky 3. změněné audio příznaky Oddělené příznaky Tabulka 1. Typy kombinace příznaků a jejich další možnosti 1. sub-fonetická (brzká) 2. fonetická, slovní (střední) 3. promluvová (pozdní) k pospojování, nebo určité transformaci, audio a vizuálních příznaků do jednoho příznakového vektoru, který je poté použit pro klasifikaci jedním klasifikátorem jako v případě vizuálního rozpoznávání [86],[65]. V druhém případě jsou pro rozpoznávání použity dva klasifikátory pro každý příznakový vektor jeden. Rozhodnutí těchto klasifikátorů se poté kombinuje do jednoho. Nejčastěji se obě rozhodnutí kombinují pomocí lineární kombinace pravděpodobnosti pozorování pro dané třídy každého z klasifikátorů s využitím vah, které představují určitou informaci o zpracovávané promluvě [68],[73],[21],[61]. Pro každou ze dvou základních kombinačních technik existuje několik možností provedení závisejících na tom, jak chceme kombinovat vizuální a akustickou část informace Kombinace příznaků Kombinace příznaků je jednodušším způsobem kombinace dvou informačních zdrojů. K realizaci je zapotřebí pouze jeden klasifikátor a jeden příznakový vektor, který vznikne sloučením akustického a vizuálního vektoru. Tento přístup předpokládá že akustický i vizuální projev řeči probíhá zcela synchronně. To znamená, že jednotlivé řečové jednotky si vzájemně odpovídají délkou i umístěním v čase. Jestliže máme k dispozici nějakou informaci o degradaci informací v jednotlivých kanálech, pak můžeme využít přístup vážení příznakových vektorů [86],[36]. Pospojováním obou vektorů vznikne nový vektor, jehož dimenze je součet dimenzí jednotlivých vektorů. Pro zmenšení dimenze tohoto nového vektoru lze použít metody extrakce příznaků pomocí metod snížení dimenze příznakového vektoru (angl. Hierarchical discriminiat feature fusion, HiLDA) [69], nebo změnu audio příznaků pomocí audio-vizuálních příznaků (angl. Audio feature enhancement) [3],[24]. Obrázek 17. Schéma kombinace informací pomocí kombinací příznaků. Pospojování příznaků - AV pospojování, Hierarchická lineární diskriminační extrakce AV HiLDA, změna audio příznaků AV enhancement, převzato z [69] Pospojování příznaků A V Máme-li dány vektory o t a o t o dimenzích d A a d V, představující příznakové vektory pro audio a video signál pak pospojováním získáme audio-vizuální vektor A T dc [ w o w o ] R AV V ot = A t, V t (24) s dimenzí d c = d A + dv. Proces generování sekvencí těchto příznakových vektorů je modelován pomocí single-stream HMM s emisní pravděpodobností

35 Stav poznání Kc AV AV [ ot c] = wckℵd ( ot ; mck, sck ) Pr (25) k= 1 pro všechny třídy c C. Parametry w A a w V představují váhy pro jednotlivé příznakové vektory pomocí nichž lze nastavit vliv video a audio kanálu na výsledné rozpoznávání. Váhy jsou nastavovány v rozmezí 0-1 kde 0 znamená žádný vliv. Tento postup použije jestliže víme, že audio signál je degradován okolním šumem a zhoršil by tak výsledky rozpoznávání Transformace příznaků Jak je ukázáno v práci [69], vizuální příznaky mají menší schopnost klasifikace řeči než akustické příznaky, mimo případ vlivu šumu na audio záznam. Proto můžeme očekávat, že snížení dimenze pospojovaného příznakového vektoru povede ke stejným nebo lepším výsledkům rozpoznávání než pro použití vektoru vysoké dimenze. Pro snížení dimenze je v článku [69] použita metoda LDA, která provede transformaci z původního prostoru do prostoru nižší dimenze (počet tříd do kterých budeme klasifikovat). Tato metoda je následována metodou MLLT pro vylepšení vlastností jednotlivých tříd pro rozpoznávání. Kombinace těchto metod je nazývána HiLDA. Nové příznaky získáme použitím (26) HiLDA AV AV AV ö = P P o (26) kde matice AV P MLLT a AV LDA Zvýhodnění audio příznaků t MLLT LDA P jsou získány z trénovací množiny označených dat. Tento přístup vychází z předpokladu, že vizuální a akustická informace jsou vzájemně korelovány, protože jsou produkovány stejným hlasovým ústrojím. Proto jestliže máme k dispozici poškozený akustický signál a nepoškozený vizuální signál, lze pomocí vizuálního [3] nebo audiovizuálního [24] AEnh signálu opravit poškozenou akustickou informaci. Výsledný příznakový vektor o t o dimenzi původního akustického příznakového vektoru lze získat pomocí lineární transformace AEnh AV AV o = P o (27) t ENH AV AEnh Aclean Matici P ENH s dimenzí d c * d A získáme tak, že se snažíme najít vztah o t o t podle daného měření vzdálenosti. Vektor o představuje nepoškozený akustický příznakový vektor. Matice AV ENH Aclean t P je určena tak, aby původní poškozená data transformovala na Kombinace rozhodnutí t t Aclean o t. V předchozí sekci jsme se zabývali kombinací informace na úrovni pospojování příznaků. Tento přístup vychází z toho, že oba signály (akustický a vizuální) jsou vždy synchronní. Ukazuje se však, že vztah mezi oběma signály se velmi mění v závislosti na promlouvané větě, akustickém šumu pozadí, degradaci video záznamu a charakteristikách jednotlivých řečníků. K modelování těchto změn se používá kombinace informace pomocí kombinace rozhodnutí, které nám umožňuje postihnout asynchronnost obou signálů

36 Stav poznání Obrázek 18. Schéma kombinace rozhodnutí, převzato z Metoda kombinace rozhodnutí opět vychází z poznatků z audio ASR, kde se tento postup používá např. ke kombinaci příznaků z bank filtrů. Technika kombinace rozhodnutí se může lišit v několika bodech: použitá architektura (paralelní, kaskádová, hierarchická kombinace), trénování (statické, adaptivní), množství zpracovávaných hypotéz (všechny kombinace, n-nejlepších). Nejpoužívanější architekturu představuje použití paralelní architektury s adaptivním nastavováním vah a N-nejlepšími hypotézami. Tento postup odvozuje nejpravděpodobnější sekvenci slov pomocí lineární kombinace pravděpodobností pro dva oddělené HMM klasifikátory použitím příslušných vah, viz obrázek 18 [67],[86],[21],[61],[31]. Tento postup je někdy nazýván oddělenou identifikací (angl. separate identification, SI). Přístup DF je možné rozdělit do tří základních podoblastí v závislosti na tom na jakém stupni rozpoznávání je informace kombinována viz tabulka 1. Jsou to brzká integrace (angl. early integration, EI) [67],[21],[58],[60], střední integrace (angl. intermediate integration, II) [87],[61],[26] a pozdní integrace (angl. late integration, LI) [84],[17],[61]. Pro kombinaci rozhodnutí existují i přístupy, které místo HMM používají neuronových sítí. Pracují na velice podobném principu. Pro každý informační proud existuje jedna neuronová síť, která nám poskytne informaci o zařazení do příslušné třídy a další neuronová síť provede spojení obou rozhodnutí. Třídy do kterých je klasifikován mezivýsledek, mohou být samozřejmě odlišné [7],[16],[20],[56]. Jinou možností je použití kombinace neuronových sítí a HMM [74] nebo použití master-slave HMM [2], kde vrstva master poskytuje částečnou informaci o promluvě získanou z vizuální složky pro vrstvu slave a omezuje tím prostor tříd, do kterých lze klasifikovat. V případě DF stejně jako v případě FF nemusí informační proudy představovat pouze akustická a vizuální složka řeči. Můžeme je různě kombinovat a použít tak např. pospojované audio-vizuální příznaky a audio příznaky jako dva informační zdroje [73] Brzká integrace : Stavově synchronní multi-stream HMM Brzká integrace dvou informačních zdrojů představuje kombinaci rozhodnutí na úrovni stavů jednotlivých modelů. Minimalizuje se tím možnost postihnutí asynchronnosti mezi akustickým a vizuálním signálem. Pro modelování se používá dvou proudové HMM kde výsledná pravděpodobnost je dána součinem pravděpodobností pro jednotlivé komponenty, které jsou ovlivněny pomocí příslušných vah. Výslednou pravděpodobnost stavu dvouproudového HMM pro pozorování o získáme z (28). AV t λsct Ksc AV s [ ot c] wsck Ds ( ot msck ssck ) s { A V } k= Pr = ℵ ;, (28), 1 V rovnici (28) přestavuje λ sct váhy, jejichž hodnota je kladná a jsou funkcí typu informace s, HMM stavu c C a času t. Právě použitím těchto vah lze postihnout změnu vlivu akustické a vizuální složky v průběhu promluvy či pro jednotlivé třídy na úspěšnost rozpoznávání. Váhy se často volí jako λ Act + λ Vct = 1. Pro získání všech parametrů modelů HMM je třeba určit hodnoty a AV ze vztahu (22) a váhy. Pro řešení tohoto problému se používá diskriminační metody trénování [67]

37 Stav poznání Střední integrace : Product HMM Je známo [6], že pro některé případy aktivita viditelné části řečového ustrojí předchází akustický signál až o 120 ms, což je skoro průměrné trvání fonému. Použití postupu střední integrace nám dovoluje modelovat asynchronnost uvnitř modelu a synchronní chování na hranicích jednotlivých modelů. Pravděpodobnost modelu je dána jako lineární kombinace pravděpodobností na hranici modelu pomocí příslušných vah podobně jako (28) jak je vidět na obrázku 18. Obrázek 19. Model HMM pro střední integraci. Vlevo více proudové HMM synchronní pro jednotlivé třídy a asynchronní pro jednotlivé stavy. Vpravo odpovídající smíšené HMM, převzato z Rozpoznávání založené na střední integraci zajišťuje výpočet nejlepší posloupnosti stavů pro akustický a vizuální proud uvnitř modelu. Pro zjednodušení výpočtu může být takovýto HMM model reprezentován pomocí smíšeného HMM. Smíšený model je složen ze stavů c C C kde výslednou pravděpodobnost modelu vypočítáme jako λscst Ksc s AV s [ ot c] wsc ( ) sk Ds ot mscsk sscsk s { A V } k= Pr = ℵ ;, (29), 1 kde c = [ c, ] T A c V. Emisní pravděpodobnosti pro jednotlivé stavy získáme z původního modelu tak, že pravděpodobnosti pro jednotlivé stavy rozložíme do sloupců a řádků tak, jak je to znázorněno na obrázku 19. Parametry modelu mohou být trénovány buď odděleně, pro audio a vizuální, nebo společně. Váhy pro jednotlivé proudy musejí být trénovány odděleně Pozdní integrace : Diskriminační kombinační model Nejvíce používaným typem kombinace rozhodnutí je pozdní kombinace. V případě malých slovníků nebo rozpoznávání izolovaných slov je problém kombinace řešen výpočtem kombinované pravděpodobnosti pro každý model slova ze slovníku podle akustického a vizuálního pozorovaní [84],[17]. Takovýto výpočet pravděpodobností pro všechny prvky slovníku nelze provést pro úlohu rozpoznávání pospojovaných slov nebo LVCSR, protože zde existuje velmi mnoho možných kombinací. Řešením je omezit výpočet kombinované pravděpodobnosti pouze pro N-nejlepších hypotéz. N-nejlepších hypotéz může představovat výběr z audio ASR, pospojovaného audio-vizuálního vektoru, nebo sjednocení výsledků audio ASR a vizuálního ASR. Pro rozhodnutí je nejprve vypočteno N-nejlepších hypotéz pro dané promluvy { h 1,...h N } představovaných sekvencí fonémů h i { ci, 1,... ci, } pro audio HMM a vizuální HMM. Hranice jednotlivých fonémů c i, j označíme konec jako [ t ] zač t i j, s i, j, s N i,, pro s { A, V } vypočítána jako (30)., kde j = 1,.., N i a i = 1,.., n. Výsledná kombinovaná pravděpodobnost je

38 Stav poznání Pr Ni λlm s zač konec [ hi ] PrLM ( hi ) Pr( ot, t [ ti, j, s, ti, j, s ] ci, j ) { A, V } j 1 h danou jazykovým modelem. s = Pr LM ( h i ) představuje pravděpodobnost hypotézy i λ sc i, j (30) Nastavování vah Jak bylo uvedeno v předchozích odstavcích váhy λ sct je třeba nastavit z trénovací množiny. Pro zjednodušení jejich trénování se váhy často nastavují konstantní pro všechny stavy jednotlivých tříd či pro všechny třídy. Audio vizuální váhy jsou trénovány tak, aby dané modely co nejlépe postihovaly trénovací množinu. Problém nastává při použití takovéhoto systému na reálná data. Jestliže totiž pracujeme s reálnými daty, pak se může velmi měnit kvalita audio-vizuálního záznamu a tím i množství informace obsažené v akustické nebo vizuální složce řeči. Jestliže tedy používáme systém s konstantními váhami, bude úspěšnost rozpoznávání velmi kolísat s měnící se kvalitou záznamu. Ke kompenzaci této závislosti se používá metoda odvození vah v závislosti na kvalitě signálu. Existují dvě základní metody: zjistit kvalitu signálu a poté přepočítat váhy získané z trénovací množiny, nebo nalézt funkční závislost mezi kvalitou signálu a hodnotou vah. V prvním případě musí být nalezeny hodnoty vah z trénovací množiny nebo z held-out dat. Řešení této úlohy je velmi složité a provádí se pomocí metody diskriminačního trénování. Jestliže problém omezíme a používáme globální váhy stejné pro všechny třídy, pak se řešení redukuje na jedno dimenzionální optimalizaci a může být použita metoda simple grid search [25]. Pro natrénování vah rozdílných pro jednotlivé třídy se používá downhill simplex method [61]. Jestliže chceme postihnout kvalitu jednotlivých informačních zdrojů musíme postihnout závislost vah na této kvalitě. Nejvíce rozšířenou metodou je odvození vah z kvality audio kanálu a to v závislosti na hodnotě poměru signál-šum (angl. signal-to-noise ratio, SNR). Předpokládá se znalost SNR pro každou promluvu, nebo je tato hodnota odvozena z audio kanálu [17]. Poté jsou upraveny váhy pro celou tuto promluvu. Techniky nastavení vah podle audio kanálu nepostihují možnost degradace vizuální složky řeči, která může vzniknout při záznamu či při kompresi dat. Modelování této závislosti je poměrně obtížné neboť metoda přímého zjištění degradace obrazu neexistuje. Neti [61] používá měření entropie a odchylky výsledků audio a vizuálního rozpoznávání jako důvěryhodnosti audio a vizuálního rozpoznávače Adaptace na řečníka Adaptace na řečníka je velmi často využívána v klasických systémech audio ASR pro vylepšení nezávislosti systému na řečníkovi, jestliže je k dispozici malá množina dat o promluvě daného řečníka. V případě audio-vizuálního ASR je tento problém velmi důležitý, neboť audio-vizuální korpusy jsou často nevyhovující a jejich záznam je drahý. Základní princip metody je v tom, že máme audio-vizuální data potřebná k adaptaci a známé řečníkově nezávislé modely HMM, které se snažíme upravit podle charakteristik získaných z dat tak, aby nové HMM modely lépe postihovaly daného řečníka. Pro adaptaci na řečníky byly vyvinuty dvě základní metody. Metoda maximum likelihood linear regresion (MLLR) a maximum-a-posteriori (MAP). Metoda MLLR pracuje na principu transformace středních hodnot HMM modelů, ovšem kovarianční matice, váhy směsí a pravděpodobnosti přechodů zůstávají stejné. Metoda pracuje pouze s malým množstvím dat o řečníkovi (rapid adaptation). Metoda MAP pak mění jak střední hodnoty, tak hodnoty přechodových pravděpodobností. Nejčastěji se používá kombinace obou metod MLLR a MAP. Tyto metody jsou používány jak v případech kombinace příznaků [65], tak v kombinaci rozhodnutí [70]. Adaptace na řečníka může být provedena již na úrovni po zpracování příznaků a to úpravou matic pro LDA a MLLT a v případě použití kombinace příznaků použitím HiLDA mechanizmu [65]

39 Stav poznání 2.5 Databáze Ve světě existuje velmi mnoho korpusů pro audio ASR, které obsahují velké množství řečníků, různé druhy promluv a degradací signálů. V oblasti audio-vizuálního rozpoznává existuje takovýchto korpusů jen velmi málo. Je to způsobeno tím, že oblast audio-vizuálního ASR je poměrně mladá, ale také tím, že vytváření audio vizuálních databází sebou přináší větší problémy při pořizování, skladování a distribuci dat, které se u audio databází nevyskytují. Získávání vizuálních dat s velkým rozlišením, počtem snímků a kvalitou synchronizovaných s audio daty vyžaduje drahý hardware a vyřešení skladování a distribuce. Největším problémem je, že tyto korpusy právě s ohledem na finanční náročnost jejich pořizování vznikají v rámci jednotlivých projektů na jednotlivých univerzitách či u jednotlivých výzkumníků. Takové podmínky negativně ovlivňují kvalitu těchto korpusů. Korpusy nejčastěji obsahují malé množství řečníků, což znemožňuje vyvinout metody spolehlivě fungující pro širokou populaci. Délka promluv je velmi omezená, a to představuje problém nenatrénování statisticky založených modelů či nemožnost odlišit rozdíly mezi jednotlivými přístupy zpracování. V poslední řadě se tyto korpusy používají pro jednoduché úlohy jako je rozpoznávání izolovaných nebo pospojovaných slov s malým slovníkem. Samostatným parametrem databází je variabilita pozadí vizuálního záznamu, změna polohy hlavy řečníka, změna osvětlení scény či přítomnost více osob. Obrázek 20. Příklady audio-vizuálních databází. Zleva doprava XM2VTSDB, Huang (infračervená kamera), CUAVE, ViaVoice TM, převzato z [57],[32],[62],[69] První databáze použití pro audio-vizuální ASR byla vytvořena Petajanem v roce Obsahovala 100 izolovaných anglických slov, písmena a číslice, které byly 2-10 opakovány jedním řečníkem při neměnném osvětlení a poloze hlavy řečníka. Velké množství databází se zaměřuje na úlohu rozpoznávání samohlásek (angl. vowels,v), souhlásek (angl. consonants, C) nebo přechody mezi nimi. Například Adjoudani (Adjoudani 1996) představil korpus s jedním řečníkem a 54 promluvami V1CV2CV1 pro Francouzštinu. Su [84] vytvořil jedno-řečníkový korpus aca pro rozpoznávání 22 anglických souhlásek. Tessier [86] zkompletoval databázi pro rozpoznávání francouzských samohlásek pro jednoho řečníka. Czap [18] provádí rozpoznávání maďarských souhlásek a samohlásek na korpusu s jedním řečníkem a V1CV1, C1VC1 slovech. Dalším typem databází jsou databáze pro rozpoznávání izolovaných či pospojovaných číslic. Databáze Tulip 1 [59] obsahuje nahrávky 12 řečníků promlouvajících číslice 1-4. Databáze M2VTS sestává z číslic 0-9 pro 37 řečníků převážně ve francouzštině [64]. Rozšířená verze této databáze je XM2VTS obsahující promluvy od 295 řečníků kompletně v anglickém jazyce [57]. Dalším korpusem obsahujícím trojice číslic od jednoho řečníka je NATO RSG10. Nejnovější databáze obsahující velké množství řečníků a pospojované číslice byly vytvořeny na Univerzitě v Illinois (100 řečníků) a na Clemsonské univerzitě (36 řečníků, databáze CUAVE) [62]. Rozpoznávání izolovaných či pospojovaných písmen představuje další typ databází. Bregler [7] sestavil databázi německých pospojovaných písmen od šesti řečníků. Krone [44] pracoval na databázi s jedním řečníkem a izolovanými německými písmeny. Jedno nebo dvou řečníkové promluvy

40 Stav poznání pospojovaných francouzských písmen se objevují v pracích [1],[2],[74]. V pracích [52],[17] se objevuje databáze 10 řečníků a izolovaných anglických písmen. Pospojovaná anglická písmena od 49 řečníků obsahuje práce [68]. Posledním typem rozpoznávání izolovaných jednotek je rozpoznávání izolovaných slov. Silsbee [79] sestavil databázi s jedním řečníkem a pěti sty izolovanými slovy. Izolovaná slova od jednoho řečníka z oblasti ovládání rádia obsahuje databáze v práci [37]. Databáze v článku [36] obsahuje 10 řečníků a izolovaná slova se slovníkem 78 slov. Jedno-řečníková databáze japonských izolovaných slov je použita v [60]. S databází německých izolovaných slov od jednoho řečníka pracuje Kober [40]. Pro rozpoznávání spojité řeči existuje pouze několik málo databází, které jsou omezeny použitím malého slovníku. Databáze TIMIT obsahuje nahrávky od jednoho řečníka, který promlouvá třikrát 150 vět (Goldschen 1996). Chan [34] vytvořil databázi s jedním řečníkem a 400 větami obsahujícími vojenské příkazy. Rozšířená verze této databáze pro více řečníků a slovníkem o 101 slovech je popsána v práci [38]. Další možné dělení audio-vizuálních databází představuje pohled na podmínky video záznamu. Většina prací používá nahrávky v laboratorním prostředí s neměnnou polohou hlavy, kdy je zabírán právě obličej řečníka či pouze rty řečníka při neměnném osvětlení a pozadí scény [6],[59]. Významným kritériem vizuálních dat je zastoupení různých řečníků (barva pleti, brýle, vousy, vlasy) a podpůrná informace, kterou lze využít při rozpoznávání či vyhledávání rtů. Databáze vytvořená Pattersonem [62] představuje řečníky různé barvy pleti, více řečníků v jednom záznamu, více pozadí pro stejné řečníky a promluvy a ručně vybrané vzorky lidské kůže či rtů. Databáze XM2VTSDB [57] obsahuje nahrávky řečníků pro různé pozice hlavy. Cosi [16] používá databázi obsahující vizuální nahrávky ze dvou různých kamer pro získání prostorové informace. Databáze popsaná v článku [95] představuje nahrávky promluv řidiče automobilu při změnách polohy hlavy a osvětlení. Chan [33] používá kameru umístěnou pevně na hlavě řečníka snímající pouze oblast rtů řečníka. Databáze vytvořená Yoshinagou [93] obsahuje promluvy řečníka snímané z bočního pohledu a databáze z práce [32] používá k záznamu kameru zachycující infračervené záření umístěnou pevně na hlavě řečníka. Nejvýznamnější a nejrozsáhlejší databází je databáze IBM ViaVoice TM. Tato databáze je určena pro rozpoznávání spojité řeči nezávislém na řečníkovi. Databáze představuje záznam celé tváře 290 řečníků z čelního pohledu, kteří promlouvají věty z ViaVoice TM skriptu, což představuje spojitě čtenou řeč. Video záznam má rozlišení 704*480 pixelů, prokládaně s frekvencí 30 Hz (poloviční počet řádků pro 60 Hz). Barevný záznam je uložen s kompresí Mpeg2 s relativně velkou kompresí. Audio záznam synchronní z video záznamem má parametry 16 Khz a 19.5 SNR. Délka záznamu je 50 hodin a obsahuje přepsaných vět se slovníkem o velikosti slov. Doplněk databáze představují nahrávky 50 řečníků promlouvajících pospojované číslice. Tato část obsahuje 6689 promluv sedmi či deseti pospojovaných číslic. 2.6 Výsledky metod na různých úlohách a srovnávací výsledky parametrizací Úspěšnost metod použitých pro audio-vizuální rozpoznávání řeči lze porovnat pomocí dosažených výsledků. Jak bylo uvedeno v 2.5, existuje jen velmi málo kvalitních korpusů pro audio-vizuální ASR. Většina prací vytváří databáze specializované pouze na ověření úspěšnosti vyvíjeného přístupu. Jen velmi málo prací se zabývá porovnáním jednotlivých metod výběru a pospojování příznaků na stejném korpusu. Když už je korpus použit v různých pracích, pak jsou často provedeny odlišné typy experimentů. To vede k velmi složitému porovnávání úspěšnosti jednotlivých přístupů. V následujících podkapitolách budou uvedeny výsledky odlišných přístupů na odlišných typech

41 Stav poznání databází jak pro vizuální, tak pro audio-vizuální rozpoznávání. Z těchto výsledků je možné určit pro jakou úlohu je možné využít daný postup. Největší prostor pro porovnání přístupů audio-vizuálního ASR poskytuje databáze ViaVoice TM, proto byla vybrána pro provedení srovnávacích testů během Johns Hopkins summer 2000 workshop. Výsledky jednotlivých testů pro vizuální a audio-vizuální rozpoznávání jsou srovnány v kapitole a a byly přejaty z prací [61],[23],[50],[54],[69],[66],[24],[25] Vizuální ASR Úloha Izolovaná slova (78) Poč. řeč. M2VTS 37 Klasif. 10 HMM/10 HMM/3-9 Příznaky DCT dyn. Stat+dyn [49] Výsledky % (WER) 17*10 slov 1 HMM/8 Tvarové 87 Izolovaná slova (22) Spojité číslice (10) 708 promluv 50 HMM/3-6 1 AAN DCT Tulip1 12 HMM/6 Izolovaná slova (10) Spec. Porovnání DCT, Haar, Hadamar Použití fourierových popisovačů Odkazy [76] [22] [28] DCT Obměna DCT [45] Obrazové +tvarové 28 (WER) Obměna DCT [30] Člověk trén Netrénovaný [51] 1 HMM/8 ASM+PCA 94 Modifikace PCA [37] M2VTS 37 GMM Obrazové 90 Izolovaná písmena (A-J) Obrazové příznaky z tvaru [89] 1 - Eigensequence 95 [46] Tulip1 12 HMM/5 DCT 94.8 CVC (54) 1 ANN Tvarové 81 Tulip1 12 HMM Low-pass +delta 90.6 Tabulka 2. Shrnutí metod V ASR. Normalizace jasu a pozice Popis rtů pomocí elips Porovnání obrazových příznaků [88] [18] [27] Audio-vizuální ASR Úloha Izolovaná lsova (78) Poč. řeč. M2VTS - 10 HMM Klasif. Příznaky Kombinace HMM/ 3-9 Tvarové (3), LPCC FFpospojování [49], PLP DF-střední Výsledky %, čisté/snr db Odkazy /zašuměné A-81 AV-82 / 16 / A-9 AV-37 [33] A-3.4 AV-2.6 / 10 / A-54 AV- [22]

42 Stav poznání Izolovaná slova (10) Spojité číslice (10) Izolovaná písmena Pospojovaná písmena(3-8) Samohlásky (10) 1 HMM/8 Tvarové, MFDWC DF-pozdní 1 NN DCT, PLP DF 10 6 HMM/ A4 V9 MLP/ HMM 1 HMM aca (C-22) 1 HMM Pospojované číslice (11) 100 HMM/5 PCA, MFCC ACM, RASTA PLP Tvarové, MFCC Tvarové, RASTA PLP Tvarové, MFCC DF-pozdní DF-střední Porovnání 3*DF a FF Porovnání DF a FF Výsledky DF DF-střední 23 (WER) A-100 AV-100 / 6 / A-31 AV- 92 A-4 AV-4 / 3 / A-31 AV-15 (WER) A-90 AV-87 / 5 / A-52 AV-65 A-11 AV-10.1 / 5 / A-56.1 AV- 48 (WER) [28] [30] [48] [6] - [86] A-89 AV-91 / 5 / A-16 AV-33 A-95.6 AV / 5 / A AV-53.3 Tabulka 3. Výsledky metod A-V ASR. Výsledky rozpoznávání jednotlivých metod jsou uvedeny ve formátu nezašuměná data / podmínky pro zašuměná data / výsledky pro zašuměná data v daných podmínkách Experimenty na databázi IBM ViaVoice Popis systému Schéma celého systému je zobrazeno na obrázku 21. Jako vizuální příznaky je možné použít buď obrazové nebo vzhledové příznaky. Jako první krok je provedeno nalezení středu a velikosti rtů ve videozáznamu promluvy řečníka s frekvencí 60 Hz pomocí algoritmu popsaného v článku [77]. Tento postup nalezne normalizovanou oblast ROI o dané velikosti. Poté je proveden výpočet příznaků z této oblasti použitím některé z metod popsané v sekci Na vybrané příznaky je aplikováno několik metod po zpracování příznaků. Nejprve je provedena interpolace z 60Hz na 100 Hz, poté normalizace podle střední hodnoty, která zlepší robustnost při změnách jasu a umístění rtů. Pomocí metod LDA a MLLT se redukuje počet příznaků a následuje zachycení dynamických příznaků řeči pomocí pospojování 15-ti po sobě jdoucích příznakových vektorů. Opětné použití LDA a MLLT opět sníží V počet příznaků vizuálního vektoru o t a zlepší vlastnosti tříd pro statistické modelování dat. Vzhledové příznaky byly pořizovány pomocí metody AAM s frekvencí 30 Hz ze stejného video záznamu promluvy. Tento příznakový vektor obsahuje 6000 obrazových bodů a 134 bodů popisujících tvar modelu. Použitím PCA je snížena dimenze na 86 a následným použitím po zpracování, stejným jako pro obrazové příznaky, na 41 prvků. Pro akustickou část je použito klasických audio příznaků MFCC extrahovaných s frekvencí 100 Hz. Získaný vektor s dimenzí 24 popisuje statické příznaky. Stejně jako pro vizuální příznaky je použita normalizace podle střední hodnoty a pospojování vektorů pro získání dynamické informace. A Použitím LDA a MLLT upravíme vektor o t na dimenzi 60. Získaný vizuální a akustický příznakový vektor je nyní možné libovolně kombinovat pomocí metod popsaných v sekci [84] [38] Podmínky Normální Úloha LVCSR Číslice Trénovaní množina Held-out množina Adaptační množina Testovací množina poč. čas řeč. poč. čas řeč. poč. čas řeč. poč. čas řeč : : : : : : : :

43 Stav poznání Poškozené LVCSR Číslice N/A N/A N/A N/A Tabulka 4. Audio-vizuální databáze a její rozdělení na jednotlivé části. Části představují trénovací, held-out, adaptační, testovací množiny (vždy je uveden počet promluv, délka trvání celé množiny v hodinách, počet řečníků). Pro úlohu rozpoznávání spojité řeči s velkým slovníkem (LVCSR) a pro úlohu rozpoznávání pospojovaných číslic (Číslice) byla pořízen normální a poškozený záznam. Pro úlohu normální Číslice je množina Held-out a adaptační množina identická. Pro úlohu rozpoznávání z poškozených dat byla z důvodu nedostatku použitelných dat použita metoda adaptace modelů HMM natrénovaných pomocí dat z normální části databáze :11 0: :11 0: Obrázek 21. Schéma systému audio-vizuálního rozpoznávání použitého pro experimenty s databází ViaVoice TM, převzato z [69] Pro srovnávací experimenty byla použita již zmíněná ViaVoice TM databáze. Tato databáze byla rozdělena na několik částí tak, aby bylo možné natrénovat a přizpůsobit modely jednotlivým podmínkám. Rozdělení databáze je znázorněno v tabulce 4. V případě LVCSR i Číslice je pro výpočet matic pro LDA a MLLT a pro natrénování modelů HMM použita trénovací množina. Část Held-out je použita pro vyladění parametrů vztahujících se k audio vizuální kombinaci a dekódování (nastavení vah pro více proudové HMM a jazykový model. Pro zajištění natrénování modelů HMM je použita testovací množina. Adaptační množina může být použita pro nastavení parametrů HMM nebo celého systému tak, aby postihl charakteristiky jednotlivých řečníků. V případě LVCSR úlohy jsou pro části trénovací, Held-out a testovací použita data od různých řečníků a to dovoluje rozpoznávání nezávislé na řečníkovi. V úloze Číslice jsou pro tyto množiny použita data od všech 50 řečníků, a proto se jedná o úlohu více-řečníkových experimentů. V případě Poškozených nahrávek je délka promluv příliš krátká pro úspěšné natrénování HMM modelů a proto se použijí HMM modely natrénované z dat pro normální úlohy LVCSR a Číslice a poté se provede adaptace použitím adaptační množiny poškozených dat. Aby bylo možné zjistit přínos vizuální složky pro audio-vizuální rozpoznávání řeči v hlučných prostředích, byla data uměle zašuměna použitím přídavného nestálého šumu bubble s proměnným SNR. Výsledky mohou být poté prezentovány pro rozsahy [-1.5,19.5] db pro LVCSR a [-3.5,15.5] db pro Číslice. Všechna potřebná trénovaní a výpočty matic se provádí pro daná zašuměná data. Oproti audio složce zůstává vizuální kanál nezašuměn. V praxi se však může vyskytnout velké množství různých druhů degradace jako přídavný šum, rozmazání, snížení frekvence snímání a vysoká

44 Stav poznání komprese obrazu. Některé práce se snaží určit závislost metod Lipreadingu právě na těchto vlastnostech [68],[90]. Pro ASR experimenty byla použita metoda, kdy je nejprve pomocí IBM research dekodéru (Hark) rozpoznána mřížka (lattice) z HMM natrénovaných IBM a ta je poté modifikována použitím trifónových kontextově nezávislých HMM pro rozdílné typy příznaků použitím HTK. Pro tyto potřeby byly vygenerovány tři skupiny mřížek, které jsou založeny na čistých audio (19.5 db), zašuměných audio a zašuměných audio-vizuálních (8.5 db) příznacích získaných pomocí HiLDA kombinace. Pro případ LVCSR je použito úplného slovníku ( slov) a trigramového jazykového modelu. Rozpoznávání pospojovaných číslic používá slovník jedenácti číslic ( zero až nine včetně oh ) Výsledky Vizuální rozpoznávání Pro rozpoznávání řeči pouze z vizuální složky byla použita audio mřížka, která byla upravena pomocí HMM modelů natrénovaných pomocí několika druhů vizuálních příznaků. Pro rozpoznávání byla použita kombinace tvarových příznaků (AAM příznaky) s příznakovým vektorem o dimenzi 86 a tři druhy obrazových příznaků s příznakovým vektorem dimenze 24: DCT, PCA a DWT. Na všechny vektory byly aplikovány operace následného zpracování viz obrázek 21. Pro DWT příznaky byl použit Daubechian class wavelet filter. Výsledky rozpoznávání pro úlohu LVCSR jsou znázorněny v tabulce 5. Nejlepších výsledků bylo dosaženo použitím DCT příznaků. Je nutné poznamenat, že výsledky nemohou být reprezentovány pouze jako vizuální rozpoznávání, neboť postup využívá audio rozpoznávání následovaného přepočtem sítě rozpoznaných hypotéz pomocí vizuální složky. Všechny obrazové příznaky mají nižší chybu rozpoznávání (angl. word error rate, WER) (max 59.4%) než použití samotného jazykového modelu pro LM nejlepší cestu (62%). Příznaky AAM dosáhly hodnoty WER 64 % což je více než pro jazykový model a mělo by to být způsobeno pod trénováním modelu pro AAM. Forma Metoda WER Forma Metoda WER DCT 58.1 Akustická MFCC(šum) 55.0 DWT 58.8 Oracle 31.2 Vizuální PCA 59.4 Žádná Anti-Oracle AAM 64.0 LM nejlepší cesta 62.0 Tabulka 5. Porovnání výsledků rozpoznávání pro různé vizuální příznaky pro úlohu LVCSR nezávislého na řečníkovi. Výsledky rozpoznávání jsou uvedeny jako chyba rozpoznávání v %. Pro rozpoznávání je použita modifikovaná mřížka, která byla předem získána pouze pomocí MFCC příznaků získaných ze zašuměných audio dat (8.5 db SNR). Pro možnost porovnání je uvedena WER pro charakteristické mřížky (Oracle, Anti-oracle, LM nejlepší cesta založené pouze na jazykovém modelu). Výsledky čistě vizuálního rozpoznávání, kdy bylo provedeno přímé rozpoznávání bez použití přepočtu mřížky jsou samozřejmě mnohem horší. WER pro úlohu LVCSR založené na MLLT adaptaci na řečníka dosahuje hodnoty 89.2 % pro použití DCT příznaků [66]. Použitím vetší oblasti pro ROI a více vektorů pro získání dynamické informace lze dosáhnout zlepšení WER na 82.3 %. Výsledky pro úlohu Číslice jsou však mnohem lepší než pro úlohu LVCSR, neboť tato úloha je řádově jednodušší. Nejlepšího výsledku pro tuto úlohu bylo dosaženo použitím MLLT adaptace na řečníka. Chyba rozpoznávání slov byla poté 16.8 % Audio-vizuální rozpoznávání Všechny experimenty pro audio-vizuální ASR používají systém popsaný v sekci s DCT vizuálními příznaky. Pro určení úspěšnosti audio-vizuálního rozpoznávání byly provedeny dvě sady testů. První pracuje pouze s dvěma druhy audio signálu, a to s čitým audio (19.5 db SNR) a zašuměným (8.5 db SNR). Pro čistá data byl použit přístup přepočítání mřížky vygenerované na

45 Stav poznání základě čistých akustických dat. Pro případ zašuměných dat byla použita mřížka určená z HiLDA příznaků. Výsledky jednotlivých přístupů jsou shrnuty v tabulce 6. Všechny metody využití vizuální informace dosahují lepších výsledků v případě zašuměných dat než samotné audio ASR (Audio-48.1 %, nejhorší AV-40.0 %). V případě rozpoznávání čistých dat došlo ke zlepšení pouze u 4 metod kombinace informace. V případě pospojování vektorů došlo ke zhoršení ze % u audio rozpoznávání na 16 %. Použití kombinace rozhodnutí s kombinovaným HMM (AV-MS-PROD) se společně trénovanými audio-vizuálními komponenty vylepšilo rozpoznávání na %. Použití kombinace rozhodnutí pomocí více proudového HMM, kde se váhy získávaly pomocí metody průměrného zastoupení hlasu v každé promluvě (AV-MS-UTTER) dosáhlo % WER. Metodu pozdní integrace představuje metoda (AV-DMC) s hodnotou % WER. Jestliže porovnáme přístupy kombinace příznaků a kombinace rozhodnutí, pak nejlepší výsledek FF je horší než nejlepší výsledek DF. Metoda Bez šumu Zašuměné Metoda Bez šumu Zašuměné AUDIO AV-pospoj(FF) AV-HiLDA(FF) AV-DMC (DF) AV-MS-joint(DF) AV-MS-Sep(DF) AV-MS-PROD(DF) AV-MS-UTTER(DF) Tabulka 6. Výsledky audio-vizuálního rozpoznávání pro úlohu LVCSR pro různé metody kombinace informace. Druhý typ experimentů byl proveden pro plné rozpoznávání pro jednotlivé přístupy kombinace informace (není použita předem rozpoznaná mřížka) pro úlohu LVCSR a Číslice. Pro tento experiment bylo použito několik stupňů zašuměného signálu tak jak to popisuje sekce Všechny tři metody kombinace příznaků jsou porovnány s metodou kombinace rozhodnutí, kterou reprezentuje metoda AV-MS-joint. Výsledky experimentů jsou zobrazeny na obrázku 22. Z grafů je zřejmé, že použití HiLDA kombinace příznaků je lepší než použití pospojování příznaků či audio-enhancement. Pro případ čistého audia je WER pro HiLDA % oproti pospojován příznaků %. WER pro audio rozpoznávání je v tomto případě %. V případě zašuměných dat (-1.5 db SNR) jsou výsledky pro HiLDA %, audio %, pospojování % a audio-enh %. Podobné výsledky jsou prezentovány i pro úlohu Číslice. Při porovnání výsledků rozpoznávání FF a DF vychází lépe metoda kombinace rozhodnutí, kdy pro zašuměná data LVCSR (-1.5 db SNR) je výsledná WER %. Jako ukazatel úspěšnosti jednotlivých metod je možné použít SNR gain, který udává hodnotu SNR, o kterou se zlepší podmínky signálu při použití dané metody. Je měřen od hodnoty WER pro audio rozpoznávání pro zašuměná data 10dB. Metoda DF poskytuje zisk 7dB pro úlohu LVCSR a 7.5dB pro úlohu Číslice. Obrázek 22. Výsledky rozpoznávání pomocí různých druhů kombinace informace pro úlohy zašuměných dat pro LVCSR a Číslice. Metody AV-enh, AV pospoj a AV-HiLDA představují kombinaci příznaků a metoda AV-MS-joint kombinaci rozhodnutí. Ukazatelem úspěšnosti metod je SNR gain, který je vztažen

46 Stav poznání vždy k hodnotě WER pro audio podmínky 10 db. Všechny metody využití audio-vizuální kombinace vylepšují rozpoznávání při zašuměném audio signálu, převzato z [65] Adaptace na řečníka Pro ověření metody adaptace na řečníka byly provedeny testy s částí databáze ViaVoice TM Poškozené. Tato data byla namluvena jedním řečníkem a jejich množství nepostačuje k natrénování HMM modelů. Proto na nich lze vyzkoušet metody adaptace na řečníka. Výsledky jednotlivých metod jsou shrnuty v tabulce 7. Rozpoznávání v případě úlohy LVCSR bylo provedeno pouze s omezeným slovníkem 537 slov. Jako první byly implementovány metody MLLR a MAP pro adaptaci HMM modelů. Adaptace byly provedeny pro akustické, vizuální a audio-vizuální příznaky. Metody MAP a MLLR dosahují podobných výsledků. Jestliže je použita metoda MLLR následovaná metodou MAP, pak dojde ke zlepšení z % pro neadaptované na 41.2% WER pro LVCSR a z % na 0.99% WER pro Číslice. Jako poslední metoda byla implementována adaptace celého procesu audio-vizuálního rozpoznávání. Kombinace metody změny HMM a matic pro metody LDA a MLLT dosahuje hodnot % pro LVCSR a 0.99% WER pro Číslice. Úloha LVCSR Číslice Metoda Informace A V AV A V AV Neadaptované MLLR MAP MAP+MLLR Mat+MAP Mat+MAP+MLLR Tabulka 7. Výsledky rozpoznávání pro úlohu LVCSR a Číslice pro různé metody na části databáze ViaVoice TM Poškozené. Výsledky jsou uvedeny v % WER pro rozpoznávání využitím audio (A), vizuální (V) a audio vizuální informace (AV). Metody využívají modelů HMM natrénovaných pomocí Normální části databáze a poté provedou adaptaci pomocí části Poškozené. Metody MLLR a MAP provádí adaptaci modelů HMM, metoda Mat provádí adaptaci celého systému ASR Shrnutí Jestliže chceme provést srovnání jednotlivých druhů příznaků, narážíme na problémy. Z tabulek v a v můžeme říci že nejčastější úlohou vizuálního nebo audiovizuálního rozpoznávání je rozpoznávání izolovaných slov (10-100) pro jednoho až dvanáct řečníků, kde se úspěšnost vizuálního rozpoznávání pohybuje kolem 85%. Úspěšnost audiovizuálního rozpoznávání v úlohách bez šumu je maximálně o jedno procento lepší než rozpoznávání z akustické složky. Pro úlohu (6 db) je úspěšnost audiovizuálního rozpoznávání zhruba o 30 procent lepší než rozpoznávání bez využití vizuální informace. Nejčastějším typem vizuálních příznaků jsou obrazově orientované příznaky založené na DCT. Porovnání příznaků stejného typu je dostupné z mnoha prací [27],[68],[54]. Porovnání příznaků různých typů je problematické neboť vyžaduje implementaci algoritmů pro jejich extrakci. V práci [53] je porovnán přístup AAM s ASM. Aktivní vzhledový model poskytuje lepší výsledky při vizuálním rozpoznávání. Potamianos [68] porovnává několik druhů obrazových příznaků s geometrickými příznaky. Nejlepší výsledky poskytují obrazové příznaky založené na vlnkové transformaci. Tyto experimenty však většinou pracují s malou množinou dat a řečníků a soustřeďují se na problém rozpoznávání izolovaných slov. Matthews [54] porovnává několik druhů obrazových příznaků s AAM na databázi IBM-ViaVoice, která bude popsána dále. Výsledek však nedopadl podle očekávání a všechny obrazové příznaky byly lepší než AAM. Zdůvodněním bylo nedostatečné natrénování modelu pro AAM. Z těchto experimentů je zřejmé, že nelze provést jednoznačné rozhodnutí jaké příznaky jsou nejlepší. Abychom byli schopni rozhodnout, musel by se provést test všech možných přístupů na kvalitní databázi

47 Vlastní přínos 3 Vlastní přínos 3.1 Parametrizace Jak již bylo uvedeno v kapitole 2.1, vizuální parametrizace se rozdělují na tři druhy. Na obrazově orientované, tvarově orientované a kombinaci obou předchozích. Poslední typ (kombinace) je pouze složením parametrizací předchozích dvou druhů. Tyto dva odlišné typy parametrizací vznikly na základě odlišného pohledu na popis vizuální složky řeči. Bez ohledu na typ parametrizace by však popis vizuální složky měl splňovat základní předpoklady jako je nezávislost na řečníkovi, diskriminativnost základních řečových jednotek, nezávislost na změně řečových jednotek vlivem koartikulace 2. Dalším kritériem na vizuální parametrizaci je samozřejmě i rychlost výpočtu a závislost parametrizace na osvětlení či nepřesném výběru ROI. Protože cílem disertační práce je návrh nové parametrizace vizuální složky řeči je třeba se seznámit s výhodami a nevýhodami obou metod popisu Popis problémů stávajících parametrizací Obrazově orientované parametrizace Tento typ popisu vizuální řečové složky se odvíjí od popisu celé oblasti ROI získané pomocí metody headtracking. Existuje celá řada typů obrazových parametrizací, které se liší pouze metodou výběru N příznaků z M bodů oblasti ROI. Tento výběr nebo také redukce dimenze příznakového vektoru pracuje se šedotónovými nebo barevnými hodnotami všech bodů ROI. Například metoda používající DCT kompresi obrazu provádí frekvenční popis scény obrazu. Výsledkem metody DCT je dvourozměrné frekvenční spektrum, které popisuje danou scénu. Výsledný příznakový vektor je poté vytvořen např. z N koeficientů popisujících frekvence s největší energií. Tyto příznaky většinou odpovídají nízkým frekvencím, které zjednodušeně řečeno popisují souvislé plochy v obraze. Z uvedeného je zřejmé, že jestliže oblast zájmu bude vybírána chybně a bude obsahovat i jiné objekty než pouze ty podle nichž byly příznaky vybrány, bude tento chybný výběr ROI ovlivňovat samotnou parametrizaci. Další vliv na příznakový vektor bude mít i osvětlení scény, které způsobí změnu jasu či barvy popisovaných objektů. Poslední nevýhodou metody je, že není možné určit co přesně jednotlivé příznaky ve vstupním obraze popisují a není tedy možné využít poznatků o tvorbě a rozpoznání vizuální složky řeči u člověka. Na druhou stranu velmi velkou výhodou obrazově orientovaných parametrizací je rychlost jejich výpočtu a to že nepotřebují další předzpracování obrazu ve formě nalezení kontury rtů. V poslední době se začínají objevovat práce, které se soustředí na výběr obrazově orientovaných příznaků tak, aby co nejlépe popisovaly řečovou informaci [76] Tvarově orientované parametrizace Tvarově orientované příznaky vycházejí z popisu geometrického uspořádání viditelných částí orgánu přispívajících k tvorbě řeči (rty, jazyk, zuby, brada). Jejich výpočet je vždy podmíněn nalezením tvaru a pozice těchto objektů (liptracking). Samotný výpočet parametrizace je již pouze popis pozice či tvaru nalezeného objektu. Metody nalezení tvaru jako liptracking pracují opět s celou oblastí ROI, ovšem jejich úkolem je nalézt jeden vybraný objekt, tak aby jejich funkce nebyla závislá na změnách osvětlení ani na chybném výběru ROI. Popis vycházející z takovéto metody předzpracování je na těchto věcech nezávislý, a to je velkou výhodou. Další výhodou je, že přesně víme co dané příznaky reprezentují, a je proto možné vybrat takové, které nejlépe popisují odlišnosti mezi jednotlivými fonémy a jsou nezávislé na řečníkovi. Pro výběr příznaků je možné využít poznatků z fonetiky a odezírání ze rtů. Není však vždy možné vybrat příznaky tak, aby popisovaly námi požadovaný objekt např. nafukování tváří při výslovnosti fonému b. Velkou nevýhodou tohoto typu parametrizace je právě nutnost dalšího předzpracování obrazu. Toto předzpracování je většinou velmi komplikované a výpočetně náročné. I přesto existují metody nalezení kontury rtů, které pracují 2 vzájemné ovlivňování hlásek během promluvy

48 Vlastní přínos v reálném čase. Při popisu tvarově orientovaných parametrizací je třeba zmínit, že i když je možné využít znalostí z tvorby řeči a dalších, je většinou výběr příznaků prováděn nepodloženě. Nejpoužívanějšími příznaky jsou šířka a výška vnější či vnitřní kontury rtů. Důraz při návrhu parametrizace je kladen především na jednoduchost metody předzpracování obrazu. Doposud nebyla prezentována práce, která ve vizuální parametrizaci popisovala objekty uvnitř úst, tedy jazyk a horní či spodní zuby Kombinovaná parametrizace Kombinovaná parametrizace v sobě slučuje obrazově i tvarově orientované příznaky. Kombinovaná parametrizace je pro rozpoznávání používána jen velmi zřídka [21]. Použití tohoto typu parametrizace s sebou přináší výhody i nevýhody jednotlivých popisů. Největším kladem jejího použití je možnost kombinace přesně definovaných tvarových příznaků a jednoduše vypočtených obrazových příznaků. Někdy totiž není možné vytvořit dostatečně spolehlivou metodu, která by zajistila výpočet určitého příznaku. Jestliže bychom chtěli například jako příznak využít pohyb okolí úst, především tváří pak by bylo velmi složité získávat tento pohyb pomocí tvarového popisu. Pomocí obrazové parametrizace však můžeme popsat toto okolí rtů velmi jednoduše. Dalším příkladem může být popis vnitřku úst (jazyk, zuby a mezera), kde se velmi mění jasové podmínky vlivem pohybu rtů, a proto je nalezení pozic jednotlivých částí vnitřku úst velmi obtížné Výběr tvarově orientovaných příznaků Pro vytvoření vlastní parametrizace popisující vizuální složku řeči jsem se rozhodl využít poznatků z oblasti artikulační fonetiky a zkušeností lidí, kteří dokáží a jsou nuceni odezírat. Od tohoto přístupu jsem očekával, že parametrizace bude obsahovat příznaky, které eliminují závislost na řečníkovi a budou dostatečně odlišovat jednotlivé fonémy. Toto byly také základní faktory výběru jednotlivých příznaků. Pro získání informací o tvorbě řeči je nutné seznámit se základy funkce řečového traktu, především jeho viditelné části. Při získávání informací o odezírání řeči jsem spolupracoval s Mgr. Věrou Strnadovou, která je sama neslyšící a ke komunikaci využívá odezírání řeči, o jehož metodice publikuje knihy Tvorba řeči Obor zabývající se procesem vzniku řeči, fyziologií artikulačních orgánů a jejich funkcí se nazývá artikulační fonetika. Jak je uvedeno v [41], na artikulaci, neboli koordinované činnosti mluvidel vedoucí k výslovnosti, se podílí vždy všechny artikulační orgány. Souhra artikulačních pohybů potřebných k vyslovení hlásek, slabik a celých fonetických slov i výpovědí je charakteristická pro jednotlivé jazyky. Z toho vyplývá, že vizuální složka řeči je závislá na konkrétním jazyce. Vlastní řečový trakt je tvořen třemi základními skupinami mluvních orgánů. Jsou to ústrojí dýchací, ústrojí hlasové a ústrojí modifikační (artikulační). Ústrojí dýchací zajišťuje proud vzduchu procházející celým řečovým traktem a tím zajišťuje trvalý tlak v hrtanu, což je důležité pro vznik hlasu. K tvorbě řeči pak dochází při výdechu. Hlasové ústrojí je uloženo v hrtanu a jeho hlavní částí jsou hlasivky. Hlasivky zajišťují vytvoření základního hlasivkového tónu a určují znělost či neznělost dané hlásky. Bohužel činnost hlasivek je viditelná pouze prostřednictvím pohybu ohryzku, který lze jen velmi obtížné popsat, a proto z vizuální informace nelze určit zda se jedná o hlásku znělou či neznělou. Artikulační ústrojí je uloženo nad hrtanem a skládá se ze tří dutin. Jedná se o dutinu hrdelní, dutinu nosní a dutinu ústní viz obrázek 23. Dutina hrdelní se rozkládá nad hlasivkami a končí v místech kde je jazyk při artikulaci nejblíže hornímu patru. Z hlediska vizuální složky řeči je pohyb této dutiny nepozorovatelný. Dutina nosní se uplatňuje při vyslovování nosních hlásek m, n, ň a slouží jako rezonanční prostor. Pro odezírání řeči nelze využít ani dutinu nosní. Nejdůležitější dutinou pro vizuální složku řeči je dutina ústní a její

49 Vlastní přínos pasivní a aktivní mluvní orgány. Dutina ústní je ohraničena rty a přechází do dutiny hrdelní. Mezi aktivní mluvní orgány patří rty, jazyk, dolní čelist a měkké patro, které je ovšem nepozorovatelné při běžné řeči. Pasivní mluvní orgány představují především zuby a rty viz obrázek 23. Obrázek 23. Řečový trakt, převzato z [41] Nyní uvedu základní vlastnosti jednotlivých aktivních mluvních orgánů při tvorbě řeči. Velikost čelistního úhlu má převážně doprovodný charakter, a to hlavně při tvorbě samohlásek kde a je vždy otevřenější než i nebo u. Větší čelistní úhel představuje menší napětí artikulačních orgánů. Zavřené samohlásky jsou tedy i napjatější. Velikost čelistního úhlu je velmi dobře pozorovatelná prostřednictvím pohybu brady (např. vzdálenost brady a středu očí). Vliv rtů na tvorbu řeči je dvojí. Díky tomu, že dokáží měnit svůj tvar, mohou ovlivňovat rezonanci ústní dutiny to se projevuje především při tvorbě samohlásek, kdy dokreslují jejich charakteristický zvuk. Při výslovnosti samohlásek dochází buď k zaokrouhlování rtů, kdy se otvor rtů zmenšuje (výslovnost u, ú, o, ó), nebo k zaostřování rtů, při němž se koutky roztahují do stran (výslovnost e, é, i, í). Tvar rtů se mění i při vyslovování souhlásek. Při výslovnosti sykavek (s, z) jsou rty zaostřené a při výslovnosti (š, ž, č) jsou zaokrouhlené viz obrázek 24. Doprovodným jevem zaokrouhlování rtů je i jejich vyšpulení. Druhým vlivem rtů na tvorbu řeči je vytváření překážky proudu vzduchu. Tento jev se projevuje při vytváření některých souhlásek. Při výslovnosti se pak uplatňují oba rty (jedná se o hlásky obouretné b, p, m), nebo pouze spodní dohromady s horními řezáky (hlásky retozubné v, f). Z hlediska vizuální složky je možné určit tvar téměř dokonale. Jestliže ovšem pracujeme pouze s čelním pohledem na řečníka pak není možné určit vyšpulení rtů

50 Vlastní přínos Obrázek 24. Změna tvaru rtů pří výslovnosti samohlásek od zaostřených po zaokrouhlené, převzato z [41] Jazyk je nejpohyblivějším mluvním orgánem a je aktivní při výslovnosti všech hlásek. Jazyk se rozděluje na několik částí, přičemž artikulace se mohou aktivně účastnit jen tyto části nebo jazyk jako celek. Části jazyka jsou koneček, hřbet a kořen. Jazyk funguje různě při výslovnosti samohlásek a souhlásek. Při tvorbě samohlásek funguje jazyk jako modifikátor tvaru ústní dutiny. Celá hmota jazyka se posunuje v ústní dutině a tím deformuje rezonační prostor ústní dutiny. Při tvorbě souhlásek je jazyk používán k vytvoření překážky výdechového proudu. Existují 4 typy překážek tvořených jazykem. Prvním typem je závěr (okluze). Při závěru dochází k úplnému přerušení výdechového proudu (výslovnost t, g, b). Dalším typem je úžina (konstrikce). Jazyk v tomto případě vytváří neúplnou překážku a výdechový proud může procházet po celou dobu výslovnosti (výslovnost s, ch,). Úžina může být vytvořena buď v ose jazyka nebo napříč ose jazyka (výslovnost l) viz obrázek 25. Obrázek 25. Zobrazení překážky výdechového proudu v průběhu výslovnosti vytvořené jazykem. Černá barva představuje místa dotyku jazyka a horního patra, převzato z [41] Třetím typem je polo závěr (semiokluze), který při výslovnosti nejprve vytvoří závěr a v průběhu vyslovování přechází do úžiny (výslovnost c, č). Posledním typem je překážka zvaná kmity (vibrace). V průběhu výslovnosti tvořené kmity dochází ke změně tvaru úžiny a to tak, že se zmenšuje a zvětšuje (výslovnost r). Funkce jednotlivých aktivních mluvních orgánů již byly popsány. Můžeme tedy přejít k rozdělení hlásek podle místa tvoření, které udává jaké aktivní prvky se na promluvě hlásky podílejí a v jakém místě řečového traktu k němu dochází. Základním rozdělením hlásek z hlediska artikulace je rozdělení na samohlásky a souhlásky. Toto rozdělení vychází z principu tvorby těchto skupin hlásek. Zjednodušeně řečeno samohlásky vznikají při otevřeném mluvním ústrojí a souhlásky jsou převážně tvořeny pomocí překážek výdechového proudu. Všechny samohlásky vznikají na stejném základě, kterým je fonace neboli hlas vzniklý v hlasivkách. K rozlišení jednotlivých samohlásek dochází až v dutině ústní pomocí postavení jazyka viz obrázek 26 a tvaru rtů viz obrázek 24. Na výsledné promluvě se podílí i napjatost mluvních orgánů a délka celé artikulace. Právě princip tvoření samohlásek umožňuje jejich velkou variabilitu. Do skupiny samohlásek je nutné zařadit i dvojhlásky jako ou. Z artikulačního hlediska je možné dvojhlásku rozdělit na dvě složky (promluva o + promluva u) ovšem jedna z promluv již ztrácí charakter čisté samohlásky

51 Vlastní přínos Obrázek 26. Postavení jazyka při tvorbě samohlásek, převzato z [41] Podstatou tvorby souhlásek je vytvoření překážky výdechového proudu. Podle místa a typu překážky se určují jednotlivé skupiny souhlásek. V tabulce 8. je uvedeno rozdělení souhlásek podle místa artikulace, znělosti a způsobu artikulace. Místo artikulace určuje podíl jednotlivých mluvních orgánů na tvorbě souhlásky. Jednotlivá čísla označují následující : 1 - rty proti sobě, 2 - spodní ret proti horním řezákům, 3 - špička jazyka horní plochou proti přední části alveolárního výstupku, 4 - přední část hřbetu jazyka proti zadní části alveolárního výstupku, 5 - střední část hřbetu jazyka proti tvrdému patru, 6 - zadní část hřbetu jazyka proti měkkému patru, 7 hlasivky. Místo retné dásňové Patrové hrtanové artikulace obouretné retozubné přední zadní tvrdopatrové zadopatrové hlasivkové Znělost (+), Neznělost ( ) závěrové nosní m n ň ústní p b t d ť ď k g polozávěrové c č Způsob artikulace úžinové středové f v s z š ž ch h ř ř kmitavé r bokové l klouzavé (approximativní) j Odezírání řeči Tabulka 8. Rozdělení hlásek z hlediska místa tvoření, převzato z [43] Odezírání řeči je název pro činnost rozpoznávání řeči, pouze pomocí zraku. Odezírání řeči je tedy činností, při níž není využíván sluch, a proto je rozšířená jako komunikační prostředek mezi slyšící a neslyšící osobou, kdy se neslyšící snaží porozumět slyšícímu. Odezírání není pouze dominantou neslyšících, neboť je využíváno v běžné komunikaci i slyšícími lidmi. V této komunikaci se jedná o podpůrný prvek porozumění řeči, který se uplatňuje především v hlučném prostředí. Všechny poznatky o odezírání řeči jsem získal především na základě studia knihy Hádej co říkám aneb odezírání je nejisté umění od autorky Věry Strnadové [83]

52 Vlastní přínos Při dobrých podmínkách pro odezírání je z řeči viditelných asi 30-40% celkové řečové informace [83]. To vede k tomu, že úspěšnost odezírání se pohybuje okolo 50%. Jestliže odezírající člověk může využívat zbytky sluchu pak se úspěšnost takovéhoto rozpoznávání řeči pohybuje v rozmezí 76-90% [83]. O takových úspěšnostech odezírání je však možné hovořit pouze v případě dobrých podmínek pro odezírání řeči. Mezi nejdůležitější podmínky pro odezírání patří celkový stav odezírajícího, osvětlení a kompozice scény, znalost jazyka, dobrá artikulace mluvčího a rychlost řeči. Základní metodou odezírání je pozorování tváře řečníka, kde se odezírající snaží zachytit charakteristické tvary a pohyby při výslovnosti promluvy. Tyto obrazy jsou přiřazovány již viděným vzorům a kombinovány mozkem na základě znalosti gramatiky. Sledování řeči neprobíhá na základě vyhodnocování jednotlivých hlásek, ale většinou na základě větších jednotek jako jsou slova, neboť řeč je velmi rychlá a odezírající není schopen zachytit všechny pohyby artikulačních orgánů. Při rozpoznávání je velmi důležitá znalost kontextu promluvy, neboť velkou část odezírání tvoří právě přiřazování viděné promluvy již viděným vzorům. Odezírající člověk se tedy snaží pozorovat viditelnou část artikulačních orgánů. Při běžném sledování řeči zrakem je velká část mluvních pohybů skryta. Viditelná je pouze vnější část mluvidel, která zahrnuje především pohyb spodní čelisti, pohyb rtů a zřídka viditelný pohyb jazyka či pozice zubů. U některých řečníků je možné pozorovat pouze rty a spodní čelist, neboť jejich artikulace neumožňuje viditelnost zubů ani jazyka (malé mluvní pohyby, rty příliš u sebe). Avšak právě pozice jazyka hraje velkou roli při tvorbě řeči viz Kdyby bylo možné pozorovat jazyk uvnitř ústní dutiny, pak by se odezírání velmi zjednodušilo. Aby bylo zřejmé, jaká část artikulačních orgánů se uplatňuje při odezírání, byly provedeny testy [18], kde bylo k odezírání postupně využito celé tváře, oblasti úst, pouze rtů a elips reprezentujících rty. Každá redukce vizuální složky snížila úspěšnost odezírání zhruba o 10 procent. Je tedy zřejmé, že při odezírání se nelze spoléhat pouze na tvar rtů. Byly provedeny i experimenty s minimální vzorkovací frekvencí videozáznamu. Zde bylo zjišťováno při jaké minimální frekvenci zobrazované promluvy ještě nedochází k zhoršení rozpoznávání [1]. Ukázalo se, že minimální hranice snímkovací frekvence pro rozpoznávání izolovaných skupin hlásek je 5Hz a pro spojitou řeč je to minimálně 15Hz. Při snížení frekvence pod tuto hranici dochází k rapidnímu poklesu úspěšnosti rozpoznávání. Během testů se prokázalo, že komprese obrazu není tak velkou překážkou rozpoznávání jako snímací frekvence. Jak již bylo zmíněno, odezírající člověk se snaží v promluvě zachytit mluvní obrazy reprezentující jednotlivé hlásky. Některé hlásky jako například P nebo V jsou identifikovatelné i pomocí tzv. mluvního pohybu. Protože vizuální složka obsahuje méně informací o promluvě než složka akustická, jsou mluvní obrazy některých hlásek velmi podobné. Takovéto hlásky tvoří skupiny označované jako vizémy. Je tedy možné odlišit jednotlivé vizémy od sebe navzájem, ovšem je velmi obtížné odlišit fonémy spadající do jednoho vizému. Jestliže se budeme zabývat izolovanými hláskami, pak lze definovat 14 základních vizémů. Jedná se o následující vizémové skupiny: - (B, M, P) Souhlásky B, M, P vznikají zablokováním výdechového proudu vzduchu pomocí semknutí rtů. Při odblokování proudu vzduchu vzniká charakteristický pohyb pro výslovnost těchto hlásek, a proto patří tyto hlásky k nejlépe zřetelným. Existují i drobné rozdíly mezi výslovností B, M a P. Při vyslovování B dochází k mírnému nafouknutí tváří. Při výslovnosti P se tváře nenafukují a odblokování je velmi prudké. Při výslovnosti M dochází k většímu semknutí rtů. - (V, F) Viditelnost mluvního obrazu V a F je velmi dobrá, neboť hlásky vznikají tak, že je hrana spodního rtu přitisknuta na horní řezáky a v průběhu promluvy je spodní ret oddálen. Tím vzniká charakteristický mluvní pohyb i mluvní obraz. Rozdíl v promluvě

53 Vlastní přínos V a F je především v napětí rtů, které je jen obtížně pozorovatelné. Při promluvě F jsou rty více napjaté než při V. - (Č, Š, Ř, Ž) Promluvu této skupiny hlásek provází svalové napětí, které způsobuje charakteristické vyšpulení rtů při obvyklém elipsovitém tvaru rtů. Souhlásky proto mají charakteristický mluvní obraz ovšem nemají mluvní pohyb. Rozdíly mezi hláskami jsou prakticky nepozorovatelné. - (C, S, Z) V průběhu promluvy C, S, Z jsou čelisti sevřené, rty mírně roztažené a pootevřené. Charakteristický je tedy tvar, kdy jsou viditelné skoro se dotýkající horní a dolní zuby. Rozdíl mezi hláskami je v délce jejich výslovnosti. Nejdelší výslovnost má Z potom S a nakonec C. - (L, R) Pro hlásky L a R je charakteristický pohyb jazyka. Při výslovnosti L dochází k pohybu jazyka opřeného o horní patro, ke spodním zubům. R je tvořeno kmitáním jazyka uvnitř úst, a proto je tento pohyb často skryt. - (D, T, N) Pro výslovnost této skupiny jsou nejcharakterističtější uvolněné a mírně pootevřené rty. Při dobré výslovnosti T se jazyk opírá o horní i dolní řezáky a v tomto okamžiku je viditelný. Mluvní obraz této skupiny však není příliš výrazný. - (Ď, Ť, Ň, J) Při výslovnosti nedochází k přílišnému napětí svalů rtů. Mluvní obraz je nenápadný. Jestliže jsou hlásky vyslovovány pečlivě, pak jsou viditelné především horní zuby a pod nimi jazyk, který se v případě výslovnosti J nedotýká horního patra a svaly rtů jsou více napjaté. - (G, H, CH, K) Mluvní obraz těchto hlásek není nápadný. Rty jsou uvolněné, mírně pootevřené a nedochází k viditelnému pohybu mluvidel. Při běžné řeči jsou tyto hlásky neviditelné. - Samostatnou skupinu vizémů tvoří samohlásky. Toto dělení je zdůvodněno odlišností při tvorbě samohlásek a souhlásek. Při vyslovování samohlásek se neuplatňuje žádná překážka v dutině ústní. Hláska je modifikována až velikostí a tvarem otvoru rtů. Při pečlivém vyslovování samohlásek jsou velmi dobře odlišitelné právě díky dobře zřetelnému mluvnímu obrazu

54 Vlastní přínos - (A) Pro A je typické největší otevření úst ze všech vyslovovaných hlásek. Většinou jsou viditelné horní i dolní zuby a částečně jazyk. - (E) Při výslovnosti E jsou ústa otevřena méně než pro A, avšak šířka úst je větší. Jazyk je však více zřetelný, neboť se opírá o spodní zuby. Většinou jsou dobře viditelné horní zuby. - (I) Pro výslovnost I je charakteristické největší roztažení rtů ze všech vyslovovaných hlásek. Dobře viditelné jsou horní i spodní zuby. - (O) Vizém O je tvořen zaokrouhlením rtů. Otvor uvnitř rtů je větší než při výslovnosti U. Uvnitř úst je občas viditelný jazyk. Zuby zpravidla viditelné nejsou. - (U) Pro vytvoření vizému U platí stejná pravidla jako pro O ovšem ústa jsou ještě více stažena. Otvor uvnitř úst je nejmenší ze všech vyslovovaných hlásek. Uvnitř otvoru není pozorovatelný žádný objekt. Z uvedených příkladů vizémových skupin je zřejmé, že existují vizémy, které je relativně jednoduché odlišit pomocí specifického mluvního pohybu a obrazu od ostatních vizémů. Bohužel existují i vizémy, pro něž neexistuje specifický mluvní pohyb a jejich mluvní obraz je nezřetelný. Všechny předchozí ukázky vizémů platí při izolované výslovnosti jednotlivých hlásek. Při běžné řeči jsou ovšem charakteristické mluvní obrazy jednotlivých vizémů zkresleny díky vlivu okolních hlásek. Tento jev, kdy jedna hláska ovlivňuje mluvní obraz jiné hlásky se nazývá koartikulace. V průběhu promluvy dochází díky koartikulaci k ovlivňování všech vizémů. Některé vizémy jsou však ovlivňovány více a jiné méně. Koartikulace je dosud jen velmi málo prozkoumaný jev, a proto neexistují žádná pravidla pro deformaci mluvních obrazů pro určitý kontext hlásek. Doposud nebylo ani určeno jaké hlásky jsou spíše ovlivňující a jaké ovlivňované. Koartikulace představuje problém nejen při rozpoznávání řeči, ale i při opačném procesu, při úloze syntézy. Databáze popsaná v sekci byla navržena i pro studium jevu koartikulace pro úlohu počítačové syntézy. Kdybychom znali zákonitosti ovlivňování jednotlivých vizémů během promluvy, mohli bychom těchto poznatků využít při rozpoznávání. Při rozpoznávání se problém koartikulace částečně řeší použitím trivizémů jako základních řečových jednotek, neboť nejvíce ovlivněny jsou sousední hlásky

55 Vlastní přínos Dalším problémem při odezírání je tzv. řečový šum. Řečový šum představují mluvní obrazy odpovídající přechodům mezi jednotlivými vyslovovanými hláskami. Odezírání řeči by se velmi zjednodušilo, kdyby vizuální složka obsahovala pouze pospojované mluvní obrazy odpovídající izolovaným vizémům. Řečový šum bohužel tvoří značnou část promluvy a mluvní obrazy vzniklé při přechodu mezi hláskami mohou být zaměněny s mluvním obrazem jednotlivých vizémů. Strnadová ve své knize ukazuje, že rozpoznání promluvy pomocí odezírání je relativně jednoduché, jestliže má člověk k dispozici celou posloupnost mluvních obrazů odpovídajících pouze mluvním obrazům vizémů bez mluvního šumu, má dostatek času pro jejich rozpoznání a může porovnávat jednotlivé mluvní obrazy mezi sebou. Samozřejmostí jsou dobré pozorovací podmínky Popis vybraných příznaků Pro návrh vizuální parametrizace vycházející z poznatků tvorby vizuální řeči a zkušeností odezírajících lidí je důležité nejen studium této problematiky, ale také vhodná volba příznaků z hlediska jejich realizovatelnosti. Kapitoly a popisují poznatky, které jsem získal studiem dostupné literatury. Bohužel oblasti odezírání a tvorba řeči poskytují dobrý popis vizuální řeči pro izolované hlásky, ovšem nikoliv pro spojitou řeč. Úloha rozpoznávání izolovaných hlásek je ovšem velmi omezující. Protože vizuální parametrizace má sloužit především pro úlohu rozpoznávání spojité řeči, musel jsem se zaměřit na studium vizuální složky spojitých promluv. Poznatky, které uvádím dále, jsem získal při konzultacích s paní Věrou Strnadovou a paní Ivou Jirutkovou (logopedka) a studiem audiovizuální databáze popsané v Základním předpokladem rozpoznávání řeči z vizuální složky je dostatečná snímkovací frekvence, kvalitní rozlišení a osvětlení celé scény. Všechny tyto požadavky jsou v případě databáze UWB-05- HSCAVC splněny, neboť snímkovací frekvence je 50 Hz, rozlišení připadající pouze na rty je přibližně 80*80 bodů a celá databáze byla pořízena v laboratorních podmínkách. Z poznatků získaných studiem metod odezírání a tvorby řeči a studiem audiovizuální databáze, jejíž výsledky jsou shrnuty v tabulce 13, jsem se snažil vytvořit vizuální příznaky, které co nejlépe popisují viditelnou část řečového traktu z hlediska odezírání. Při výběru příznaků byl brán zřetel na to, aby každý příznak popisoval nějakou charakteristickou vlastnost některého z vizémů. Například výška rtů je rozhodující pro rozpoznání A. Dotyk horních zubů a dolního rtu určuje promluvu V. Kulatý a malý otvor úst určuje promluvu U. Za nejdůležitější poznatek studia vizuální složky řeči považuji zjištění, že tvar vnitřní hranice rtů a vnitřek úst vypovídají o dané promluvě více než tvar vnější hranice rtů a jejich okolí. Tento poznatek je zřejmý především z pravidel tvorby řeči. Řeč totiž vzniká pomocí tvarování otvoru úst, kudy prochází výdechový proud vzduchu a nebo vytvořením překážek tohoto proudu uvnitř úst. Jestliže se podíváme na pohyb vnější hranice rtů během promluvy, pak zjistíme, že často kopíruje tvar vnitřní hranice rtů ovšem s menšími změnami tvaru. Například šířka vnější hranice rtů se během promluvy mění mnohem méně než šířka vnitřní hranice rtů. Při rozpoznávání řeči je většinou používán tvar vnější hranice rtů nebo příznaky z něj odvozené (výška, šířka), neboť jeho získání je jednodušší než získání vnitřní hranice rtů. Vnitřek úst, který představují zuby, jazyk a zprostředkovaně i mezera uvnitř rtů, nám dává alespoň částečnou informaci o průchodu výdechového proudu skrze ústní dutinu, která je velmi důležitá při rozpoznávání souhlásek. Tuto informaci není možné získat z jiné části vizuální složky než z oblasti vnitřku úst. Proto je nutné zahrnout do parametrizace příznaky, které budou popisovat objekty uvnitř úst. Vybrané příznaky jsou následující : - tvar rtů šířka, výška, zaokrouhlení atd., tvar rtů (vnitřní a vnější kontura) nejlépe vystihuje specifický mluvní obraz, je tedy důležitý především pro rozpoznávání samohlásek a určitých souhlásek

56 Vlastní přínos - viditelnost, pozice a vzájemná pozice horních a dolních zubů a jazyka uplatňuje se především při popisu souhlásek, roli hraje nejen viditelnost, ale právě vzájemný vztah jednotlivých objektů, dotyk spodního rtu a horních zubů (v,f), skousnutí jazyka (t) - pozice brady pozice brady vypovídá o velikosti čelistního úhlu, tento parametr se uplatňuje především u samohlásek, důležitý je také proto, že spodní ret se nemusí pohybovat při výslovnosti ve stejném směru jako brada - napětí rtů důležitý parametr pro rozpoznávání vizémů Ď a Č, neboť při jejich výslovnosti dochází k vyšpulení rtů a jejich většímu napětí, - vyšpulení rtů tímto příznakem je možné určovat vizémy při jejichž výslovnosti dochází k zúžení ústního otvoru (u,o) nebo k vyšpulení rtů (Ď, Č) - tvar tváří tvar tváří by měl odlišovat výslovnost fonémů p, b a m, ovšem změna tvaru tváří především v oblasti spodního rtu je spojena s napětím rtů (v) - změna pozice či tvaru všech předchozích parametrů pohyb je velmi důležitým parametrem, neboť pro některé vizémy je definován právě specifický mluvní pohyb Předchozí příznaky byly vybrány bez ohledu na možnost jejich automatického získání z vizuální složky řeči. Jestliže však chceme provádět automatické rozpoznávání řeči pomocí počítače, pak se musíme touto otázkou zabývat. Dalším omezením na výběr příznaků je nezávislost na řečníkovi. Tento problém se projevuje především ve velikosti rtů a mluvních pohybů řečníka. Příznaky, které by tedy měly být nejvíce závislé na řečníkovi jsou všechny geometrické popisy rtů. Tento problém je však možné redukovat normalizací geometrických rozměrů podle velikosti rtů. V případě databáze UWB-05-HSCAVC je možné provést tuto normalizaci (normalizace přes celou promluvu), neboť promluva téměř vždy obsahuje fonémy a, i, p či jim podobné. Tyto fonémy představují maximální a minimální hodnoty geometrických rozměrů rtů pomocí nichž je možné provést normalizaci a je tedy možné tyto geometrické popisy použít. Po zvážení předchozích předpokladů jsem vybral následující příznaky popisující vizuální složku řeči: - tvar rtů tvar rtů postihuje pouze tvar vnitřní a vnější kontury, tento příznak není závislý na velikosti rtů a měl by být tedy nezávislý na řečníkovi, tvar rtů je reprezentován pomocí řídícího vektoru b (10 koeficientů PCA) viz výška a šířka vnitřku a vnějšku úst tyto příznaky zachycují především otevření a roztažení rtů, které se uplatňuje při rozpoznání samohlásek, jejich závislost na řečníkovi částečně odstraňuje normalizace - procentuální zastoupení horních zubů, mezery, jazyka a dolních zubů v ústní dutině procentuální zastoupení jednotlivých objektů určuje nejen viditelnost, ale i vzájemnou pozici jednotlivých objektů. Při tvorbě řeči se neuplatňuje pohyb těchto objektů do stran, a proto je zajímavá pouze jejich vertikální pozice. Předpokládám, že jestliže jsou viditelné všechny objekty, pak jediné jejich pořadí může být horní zuby, mezera, jazyk a spodní zuby, jestliže nějaký z objektů není vidět, pak je jeho procentní zastoupení 0, procentní zastoupení je počítáno vzhledem k výšce vnitřku úst. Jestliže jsou rty zavřené, pak je procentní zastoupení všech objektů 0, to že jsou objekty vyjádřeny procentním zastoupením částečně odstraňuje vliv řečníka, vnitřek rtů a jeho objekty je možné reprezentovat také pomocí DCT parametrů získaných pouze z vnitřku úst. - pozice brady pozice brady reprezentovaná jako vzdálenost brady k bodu s neměnnou pozicí, v našem případě se jedná o vzdálenost k nosu řečníka

57 Vlastní přínos Obrázek 27. Vybrané příznaky popisující vizuální složku řeči - výška horního a spodního rtu (vyšpulení rtů) parametry napětí a vyšpulení rtů jsou jen velmi těžko měřitelné, u vyšpulení rtů je to způsobeno tím, že máme k dispozici pouze čelní pohled na řečníka, tyto dva parametry jsou však spojené s výškou horního a spodního rtu. Jestliže dojde k vyšpulení rtů, pak se z čelního pohledu projeví tím, že dojde ke zmohutnění objektu rtů, jako příznak je tedy použita výška rtu měřená ve středu mezi koutky rtů, příznak je reprezentován jako součet obou hodnot - změna pozice abychom zachytily změnu pozice či tvaru (charakteristický pohyb) používáme jako příznaky výpočet rychlost a zrychlení změny jednotlivých příznaků, tedy výpočet první a druhé derivace, tímto krokem se ztrojnásobí počet vizuálních příznaků - tvar tváří či okolí úst je velmi těžko zachytitelný, a proto jsem se rozhodl pro jeho nevyužívání Pomocí výše popsaných příznaků (tvarových a obrazových) byl sestaven příznakový vektor, který popisuje vizuální složku řeči a který je použit pro automatické rozpoznávání řeči. V rámci experimentů byly provedeny testy pomocí příznakových vektorů sestavených z různých množin popsaných příznaků. Ukázalo se, že některé příznaky popisují vizuální řeč velmi dobře a jiné vnášejí spíše dezinformaci. Výsledky provedených testů jsou uvedeny v kapitole 4. Jedním z poznatků, které jsem získal studiem vizuální složky řeči, ale doposud jsem ho nevyužil, je nutnost nastavit specifický mluvní obraz a chvíli v něm setrvat pro určité hlásky během promluvy. Jestliže například vyslovujeme slovo ahoj, pak je jako první nastaven mluvní obraz pro A. Rty se postupně otvírají až dosáhnou maxima, kde probíhá výslovnost A. Poté se rty přenastavují do pozice pro vyslovení O přes nezřetelné H. Při výslovnosti O jsou rty velmi stažené a vyšpulené až dosáhnou minima a pak se přesouvají do pozice pro vyslovená J a tím se více otevírají a zatahují zpět. Jestliže bychom sledovali pouze příznak výška rtů pak je vykreslena křivka v jejíchž extrémech dochází k výslovnosti jednotlivých hlásek A O J. Protože příznaky byly navrženy tak, aby postihovaly specifické vlastnosti promluv jednotlivých hlásek, pak by měl popsaný poznatek platit i pro ostatní příznaky. Pomocí nalezení extrémů v jednotlivých příznacích by tedy bylo možné určit místa charakteristických mluvních obrazů. Bohužel extrémy průběhů nezachycují jednotlivé fonémy. Extrémy zachycují buď fonémy s výrazným mluvním obrazem O,A,V atd.. nebo mluvní obraz celé slabiky. Pomocí nalezení extrém v příznacích by tedy bylo možné částečně se zbavit mluvního šumu. Tomuto kroku by však musela následovat další analýza příznaků, která by určila zda mluvní obraz odpovídá jen jedné hlásce či jestli se v okolí nachází ještě jiná hláska. Tento problém by bylo možné řešit při využití znalostí deformace mluvního obrazu vlivem koartikulace. Tyto poznatky však dosud nebyly získány

58 Vlastní přínos 3.2 Audiovizuální databáze Jak je zřejmé z 2.5, existuje velmi omezené množství kvalitních AV řečových korpusů, na kterých se dají provádět experimenty s audiovizuálním rozpoznáváním řeči. Většina databází byla pořízena pro angličtinu nebo francouzštinu a neexistovala jediná audiovizuální databáze pro český jazyk. Dalším problémem databází je jejich dostupnost pro nekomerční i komerční využití. K úspěšnému návrhu parametrizace je nezbytně nutná dobrá znalost jazyka pro který je tato navrhována, a proto bylo nutné vytvořit vlastní českou databázi pro ověření navržených algoritmů. Na katedře kybernetiky Západočeské univerzity v Plzni byla vytvořena již řada řečových databází jak pro rozpoznání řeči, tak pro rozpoznávání řečníka [71][72]. Tyto zkušenosti byly uplatněny i při tvorbě audiovizuálních řečových korpusů, především pro výběr vhodného textu a záznam akustické složky řeči. Na záznam vizuální složky řeči však byly tyto zkušenosti aplikovatelné pouze částečně. Z tohoto důvodu muselo pro cíle disertační práce vzniknout hned několik řečových databází, které se vyvíjeli spolu s vývojem celého systému audiovizuálního rozpoznávání řeči. Jako první byla nahrána malá databáze izolovaných slov pro vyzkoušení prvního systému vizuálního rozpoznávání [11]. Na databázi byly porovnány statické a dynamické vizuální příznaky. Poté byla vytvořena audiovizuální databáze promluv řidiče automobilu, která měla ověřit systém audiovizuálního rozpoznávání v reálném prostředí [95]. Pro vizuální parametrizaci těchto nahrávek byl vyvinut 3D model rtů, který by dokázal eliminovat chyby výpočtu vizuální parametrizace způsobené pohybem hlavy řečníka v 3D prostoru [12]. Ukázalo se že pro návrh a testování nové parametrizace je tato databáze nevhodná, a proto byla pořízena rozsáhlá audiovizuální databáze v laboratorních podmínkách. Tato databáze byla použita pro provedení experimentů srovnávajících výsledky nové parametrizace a standardně používaných parametrizací [13]. Poslední důležitou databází, která byla vytvořena ve spolupráci s Ing. Zdeňkem Krňoulem, je databáze pro určení vizémových skupin pro český jazyk viz [42] Prvotní experimenty Pro účely vytvoření a otestování prvního systému vizuálního rozpoznávání pro český jazyk, byla nahrána vizuální databáze pěti izolovaných slov. Databáze obsahuje 500 promluv od 10 řečníků. Snímána byla pouze spodní část obličeje viz obrázek 28, aby bylo možné vynechat krok nalezení hlavy řečníka, čímž se celý postup získání příznaků zjednodušil. Vizuální parametrizaci tvořily pouze dva příznaky: výška a šířka vnější kontury rtů. Pro nalezení kontury byla použita jednoduchá metoda prahování obrazu ze složky G/R, neboť osvětlení scény bylo neměnné [11]. Na databázi byly porovnány statické a dynamické příznaky a jejich závislost na řečníkovi. Statické příznaky představovala šířka a výška rtů. Dynamické příznaky byly vypočítány ze statických tak, aby postihovaly pouze jejich výraznější změny v čase. Ukázalo se že dynamické příznaky jsou méně závislé na řečníkovi, ovšem nejsou vhodné pro rozpoznávání kratších řečových jednotek než jsou celá slova. Nejlepší výsledek vizuálního rozpoznávání izolovaných slov pro 10 řečníků bylo 9% WER. Obrázek 28. Ukázka vizuální databáze pro rozpoznávání izolovaných slov Po ověření funkčnosti systému vizuálního rozpoznávání na úloze rozpoznávání izolovaných jsem se rozhodl vytvořit audiovizuální databázi spojité řeči pro reálné prostředí. Na této databázi jsem chtěl navrhnout novou vizuální parametrizaci a otestovat ji na úloze AV rozpoznávání spojité řeči. Jako

59 Vlastní přínos reálné prostředí bylo vybráno prostředí automobilu. V prostředí automobilu je dostatek reálného akustického šumu, který je vhodný pro otestování AV rozpoznávání v hlučném prostředí. Databáze obsahuje promluvy 12 řidičů automobilu. Každý řečník promlouval 200 vět, 15 příkazů pro ovládání navigace, 15 názvů měst a 15 číslovek. Řidič byl zabírán z mírně bočního pohledu a videozáznam obsahoval celou hlavu řečníka viz obrázek 29. Videozáznam byl pořizován s rozlišením 360*288 bodů, s frekvencí 50 Hz. Obrázek 29. Ukázka audiovizuální databáze promluv řidiče automobilu. Z ukázek na obrázku 29 je zřejmé, že bylo nutné vytvořit algoritmus pro nalezení hlavy řečníka v obraze a vylepšit stávající metodu nalezení rtů, neboť hlava řečníka se mohla pohybovat v 3D prostoru a velmi se měnilo osvětlí a pozadí scény. Protože se hlava řečníka pohybovala v 3D prostoru přistoupil jsem k vytvoření 3D modelu rtů s jehož pomocí je možné vypočítat tvarové příznaky i při rotaci rtů ve 3D prostoru. Jako první jsem vytvořil metodu headtrackingu založenou na metodě skin-color viz Metoda pracovala spolehlivě pro běžné podmínky osvětlení, ovšem měla problémy nalézt objekt hlavy při přesvětlení snímků, ke kterému docházelo poměrně často v důsledku intenzivního slunečního svitu. Metoda ovšem musela umět určit i natočení hlavy v 3D prostoru, neboť tuto informaci využívala metoda liptrackingu pro umístění 3D modelu rtů. Pro určení 3D orientace hlavy z 2D snímku musely být nejprve nalezeny pozice středů úst a očí. Ústa byla nalezena pomocí prahování, popsaného v následujícím odstavci, ovšem při čtvrtinovém rozlišení obrazu kvůli urychlení celého procesu. Pomocí známé pozice středu rtů a oblasti hlavy byly určeny přibližné výskyty očí. Pomocí postupného prahování těchto oblastí v šedotónové reprezentaci, pomocí prahů n až m, byly nacházeny objekty, které mohly představovat oči řečníka. Zda se jedná skutečně o oči bylo ověřováno pomocí modelu rozmístění očí a rtů na obličeji řečníka. Model postihoval vzdálenosti očí a rtů člověka a tvar a velikost těchto objektů. Pro určení 3D orientace hlavy bylo použito vypočtu 5 parametrů popisujících umístění a rotaci očí a úst na obličeji člověka. Tyto parametry byly porovnány s parametry, které popisovaly ručně vybrané natočení hlavy v 3D prostoru. Podle shody parametrů bylo určeno natočení hlavy řečníka, které odpovídalo definovanému vzoru viz [10]. Aby bylo možné aplikovat 3D model pro nalezení kontury rtů, musela být vnitřní a vnější kontura rtů nalezena alespoň přibližně. Pro tento úkol jsem využil osvědčené metody z experimentů na databázi izolovaných slov. Metoda musela ovšem být upravena tak, že hodnota prahu se stanovovala na základě analýzy histogramu složky G/R. Histogram většinou obsahoval dvě maxima, která představovala body kůže a body rtů. Algoritmus nalezl minimum mezi těmito maximy a to se použilo jako hodnota prahu pro nalezení rtů viz [12]. Poté jsem již využil tvar rtů a informaci o 3D orientaci rtů k nasazení 3D modelu jehož výsledek je zobrazen na obrázku 30. Samotný 3D model je reprezentován pomocí 16 bodů se souřadnicemi x,y,z. Vždy osm a osm bodů popisuje vnitřní a vnější konturu rtů. Pro získání tvaru modelu bylo nahráno 20 foneticky vyvážených vět pomocí systémů zrcadel a kamery tak, abychom získaly dva různé pohledy na řečníka viz obrázek 30. Body modelu představovaly modré kuličky nalepené na obličej řečníka. Pomocí prahování byly tyto body nalezeny pro každý snímek všech promluv. Poté byly pro každý bod spočítány jeho prostorové souřadnice a tím byl pro každý snímek reprezentován tvar modelu. Shlukováním těchto tvarů bylo určeno základních 20 tvarů rtů. Zpracováním po sobě jdoucích snímků bylo určeno z jakého do jakého základního tvaru může model přecházet během promluvy. Při hledání

60 Vlastní přínos vhodného modelu bylo nejprve všech 20 modelů natočeno podle informace o natočení hlavy a porovnáno s tvarem rtů získaným z prahování. Zvýhodněny byly ty modely do kterých mohl přejít model z předchozího snímku. Tak byl určen tvar rtů pro neznámý snímek. Úspěšnost celého algoritmu nalezení hlavy řečníka a nalezení vnitřní a vnější kontury rtů nebyla příliš vysoká. Bylo to způsobeno především nedokonalostí metody headtrackingu a určením prostorového natočení hlavy. Algoritmus selhával díky velkým změnám osvětlení celé scény. Při ručním určení orientace hlavy v 3D prostoru již pracoval algoritmus liptrackingu uspokojivě. Bohužel nebylo možné ručně definovat rotaci hlavy pro každou promluvu, a proto byl celý systém nepoužitelný pro úlohu AV rozpoznávání. Dalším problémem bylo nedostatečné rozlišení videozáznamu ve smyslu rozlišení připadajícího na ústa. Rozlišení bylo nedostatečné pro účely návrhu nové tvarově orientované parametrizace, neboť z video záznamu nebyla příliš patrná pozice zubů a jazyka uvnitř rtů. Z těchto důvodů jsem se rozhodl pro vytvoření nové databáze, která by vyžadovala co nejjednodušší předzpracování a zároveň umožňovala studium vizuální řeči. Obrázek 30. Vlevo Stereo pohled na řečníka s nalepenými body odpovídajícími bodům modelu rtů, nalezené pozice bodů v obraze, rekonstruované 3D souřadnice bodů, vpravo výsledky nalezení vnější a vnitřní kontury rtů pomocí 3D modelu a její projekce do bočního pohledu Databáze pro určení vizémových skupin pro český jazyk Tato malá databáze vznikla za účelem studia podobnosti výslovnosti českých fonémů z vizuální složky řeči. Primárním cílem bylo určení vizémových skupin pro český jazyk a nalezení vhodných řídících parametrů pro artikulaci tzv. mluvicí hlavy. Databázi tvoří promluvy tří řečníků (dva muži a jedna žena). Jako promluvy byly vybrány samostatné izolované fonémy, krátká slova tvořená třemi fonémy (souhláska samohláska souhláska nebo samohláska souhláska samohláska) a spojitá řeč v rozsahu jedné hodiny. Pro snímání scény bylo využito systému 4 zrcadel a jedné kamery, který je popsán v článku [95]. Tento systém zajišťuje složení dvou pohledů na řečníka do jednoho snímku. Aby bylo možné přesně zjišťovat tvar vnější kontury rtů bylo využito reflexních bodů a infračerveného zdroje osvětlení scény. Na obličej řečníka bylo nalepeno 12 bodů pokrytých reflexním materiálem. Osm bodů bylo nalepeno na vnější konturu rtů, dva body na tváře, jeden bod na bradu a jeden na krk řečníka v oblasti ohryzku. Další tři reflexní body byly umístěny na čelo řečníka. Tyto body sloužily k určení pozice a orientace hlavy. Celá scéna byla osvětlena infračerveným zdrojem světla a snímání bylo prováděno v temné místnosti. Použití reflexního materiálu velmi zjednodušilo nalezení bodů pomocí metod zpracování obrazu. Obraz byl snímán digitální kamerou s rozlišením 720*576 bodů s frekvencí 25 Hz. Současně s video záznamem byl pořizován i akustický záznam pomocí stolního mikrofonu a záznam činnosti hlasivek získávaný pomocí laryngografu. Z vizuálního záznamu byly pomocí metod zpracování obrazu (prahování) a metody stereo vidění vypočítány 3D souřadnice všech reflexních bodů pro každý snímek a tím byl také určen prostorový tvar rtů. Dále byla provedena segmentace akustického záznamu jejíž výsledkem bylo nalezení časových hranic jednotlivých fonémů. Detailnější popis databáze je proveden v článku [42]

61 Vlastní přínos Obrázek 31. Vlevo schéma snímacího zařízení, vpravo dva pohledy na řečníka složené do jednoho snímku, na obličeji jsou nalepeny reflexní body Laboratorní audiovizuální databáze Audiovizuální databáze, pojmenovaná UWB-05-HSCAVC (University of West Bohemia hunderd speakers Czech audiovizual corpus). Ukázky získaného korpusu a jeho předzpracování je dostupné na Databáze byla navržena tak, aby vyžadovala co nejjednodušší předzpracování video záznamu promluvy a splňovala předpoklady pro návrh a výpočet tvarově orientované parametrizace především vnitřní části úst (jazyk a zuby). Aby byly splněny tyto podmínky, byla databáze pořízena v laboratorním prostředí. To znamená, že scéna měla konstantní osvětlení, řečník byl požádán o minimální pohyb hlavy během promluvy, bylo použito jednotné pozadí neodrážející světlo, hlava řečníka byla snímána z čelního pohledu tak, aby vyplňovala co největší plochu obrazu. Z toho důvodu byla digitální kamera natočena o 90, neboť její vertikální rozlišení je větší než horizontální a hlava člověka je vyšší než širší vizobrázek 32. Obrázek 32. Ukázka audiovizuální databáze UWB-05-HSCAVC Jako obrazové snímací zařízení byla použita DV kamera s rozlišením 720*576 bodů se snímkovací frekvencí 25 Hz. Videozáznam byl ukládán bez další komprese v DV formátu. DV kamera pracuje v tzv. prokládaném režimu záznamu, což znamená že snímá nejprve liché řádky a potom sudé řádky a výsledný obraz vznikne jejich složením. Rty se při řeči pohybují velmi rychle, a proto při snímání obrazu v režimu prokládání vznikají chyby v řádcích, jestliže se snímaný objekt pohne v intervalu mezi sejmutím sudého a lichého půlsnímku viz obrázek 33. Protože rozlišení připadající na rty bylo v případě databáze dostatečně velké (160*80 bodů), mohli jsme si dovolit zvýšit snímací frekvenci tím, že jsme celé snímky rozdělili na liché a sudé a ty byly zpracovávány odděleně jako by šlo o samostatné snímky. Snímkovací frekvence se tak zvýšila na 50 Hz ovšem snížilo se horizontální rozlišení, tedy šířka rtů. Průměrné rozlišení připadající na rty se snížilo na 80*80 bodů. Rozlišení

62 Vlastní přínos každého půlsnímku je tedy 720*288 bodů. Pro získání akustických dat byly použity dva mikrofony. Jeden stolní a jeden klopový mikrofon viz obrázek 34. Akustická data byla uložena jako soubor wav ve formátu PCM se vzorkovací frekvencí 44kHz a rozlišením 16 bitů. Pro synchronizaci akustického a vizuálního záznamu byla použita klapka. Obrázek 33. Rozložení celého snímku na sudý a lichý půlsnímek, na půlsnímcích vpravo je znatelný pohyb rtů během sejmutí půlsnímků a to se projevuje na složeném snímku vlevo. AV korpus obsahuje promluvy 100 řečníků (39 mužů, 61 žen). Pro každého řečníka bylo vybráno 200 vět. Prvních 50 vět bylo totožných pro všechny řečníky a ostatních 150 bylo odlišných. Obě skupiny vět byly vybírány tak, aby obsahovaly vyvážené množství fonémů a aby jejich počet byl co největší. V rámci předzpracování korpusu byly ručně přepsány všechny promluvy. Dále byly pro každého řečníka ručně vytvořeny tři vzory. Jednalo se o vzor levého, pravého oka a o snímek kde bylo odstraněno vše kromě kůže obličeje viz obrázek 34. Vzory očí slouží pro přesná nalezení očí při vyhledání ROI a snímek s kůží obličeje je použit pro výpočet prahu pro metodu skin-color pro nalezení hlavy řečníka. Obrázek 34. Vlevo ukázka nahrávání AV databáze, vpravo nahoře vzory očí, vpravo dole ručně vybrané body kůže pro stanovení barvy kůže

63 Vlastní přínos 3.3 Zpracování databáze Aby bylo možné získat parametrizaci vizuální složky řeči popsanou v , je nutné provést zpracování videozáznamů z databáze UWB-05-HSCAVC. Zpracování bylo rozděleno do tří navazujících kroků. Prvním z nich je nalezení oblasti zájmu. Druhým krokem je získání vnitřní a vnější kontury rtů a v posledním třetím kroku je zpracován vnitřek rtů a určena pozice zubů, jazyka a mezery. Těmto krokům, které již provádějí zpracování obrazu, musely předcházet úpravy videozáznamů a akustických nahrávek. Bylo nutné provést rozdělení záznamů na jednotlivé věty, synchronizovat akustický záznam a videozáznam a srovnat délky těchto nahrávek pro pozdější kombinaci akustických a vizuálních příznaků Nalezení oblasti zájmu ROI Vstupem metody nalezení oblasti zájmu je videozáznam promluvy řečníka, s rozlišením 720*288 bodů a frekvencí 50 Hz. Osvětlení scény by mělo být konstantní ovšem nahrávání databáze probíhalo v místnosti, kde nebylo možné eliminovat vnější osvětlení, a proto se osvětlení scény částečně mění. Pozadí scény je stejné pro všechny nahrávky a bylo tvořeno modrým papírem. Řečníci byli požádáni o minimální pohyby hlavy v průběhu snímání. I když byl mluvčí opřen hlavou o stěnu, nebyl schopen se vyvarovat drobnějších pohybů (v některých případech značných pohybů). Analýza videozáznamů ukázala, že pohyby jsou představovány především nakláněním a rotacemi hlavy do stran. Z uvedených znalostí byla pro detekci ROI vybrána velmi jednoduchá, a jak se ukázalo spolehlivá, metoda založená na vyhledávání významných bodů viz Metoda pracuje ve třech krocích: nalezení hlavy pomocí eliminace pozadí, nalezení očí pomocí metody srovnávání se vzorem a v posledním kroku nalezení středu rtů pomocí prahování. Po získání pozic těchto významných bodů byl určen střed a velikost oblasti zájmu a tyto informace představují výstup metody. Základem metody nalezení pozice ROI je nalezení hlavy řečníka v každém snímku. Existuje několik typů metod pro řešení tohoto problému. Protože databáze pro kterou byla metoda vyvinuta byla pořízena v laboratorních podmínkách, bylo možné vybrat velmi jednoduchou metodu nalezení hlavy založenou na odstranění konstantního pozadí. Než byla vybrána tato metoda, byla pro nalezení hlavy řečníka vyzkoušena tzv. metoda skin-color viz Pro každého řečníka byla ručně definována oblast kůže pro jeden snímek videozáznamu. Z těchto snímků byla spočítána střední hodnota a rozptyl barvy kůže pro složky Cr a Cb chromatické reprezentace barev. Pomocí Střední hodnoty a rozptylu byly poté vybírány oblasti, které odpovídají kůži člověka. Metoda pracovala poměrně dobře. V databázi se ovšem vyskytují nahrávky, kde se chybou obsluhy nahrávání, velmi odlišuje osvětlení scény. Na takovýchto nahrávkách tato metoda selhávala. Proto byla použita metoda odstranění pozadí. Metoda vychází z předpokladu, že na každém prvním snímku každého videozáznamu je v levém horním rohu oblast obsahující pouze pozadí viz obrázek Pro každou nahrávku byla z této oblasti o velikosti 10*10 bodů spočítána střední hodnota M P a rozptyl V P pro složku Cr. Tím jsme získali barvu pozadí. Barva pozadí byla vypočítána pouze pro první snímek každého videozáznamu. Poté byla tato hodnota použita pro prahování tohoto snímku S v reprezentaci Cr podle rovnice (31), kde P je výsledný naprahovaný obraz. Vztah byl získán pomocí experimentů na databázi UWB-05-HSCAVC. P ( i, j) ( i, j) > M V α S( i, j) 0 pro S P P < M P + V = 255 jinak P (31) Výsledkem operace bylo nejen odstranění pozadí, ale velmi často i tmavých vlasů a oděvů. Problém však představovaly světlé části oblečení, které se označily jako hlava. Bylo proto provedeno vybrání největšího nalezeného objektu a ten byl prohlášen za hlavu. Abych se zbavil chybně nalezených částí ve spodní části obrazu provedl jsem ořez celého objektu podle šířky hlavy. Šířka hlavy byla

64 Vlastní přínos vypočtena, jako šířka nalezeného objektu uprostřed výšky objektu. Výsledný objekt hlavy je zobrazen na obrázku Nalezení hlavy řečníka bylo nutné provést pouze pro první snímek videozáznamu, protože v dalších snímcích se již vyhledávaly pouze významné body. Za významné body byly zvoleny středy očí a úst člověka. Jako první byly nalezeny středy očí. Po nalezení hlavy byla z rozměrů tohoto objektu odhadnuta oblast výskytu levého a pravého oka. Levé oko se nachází v levé horní čtvrtině obdélníku opsaného kolem hlavy a pravé oko v pravé čtvrtině viz obrázek V databázi je pro každého řečníka uložen vzor levého a pravého otevřeného oka viz obrázek 34. Střed očí byl určen pomocí metody srovnávání se vzorem. Vzor oka i oblast výskytu oka byly převedeny do chromatické reprezentace a pro vyhledání očí byla použita složka Cr. Jako střed oka bylo považováno místo s největší shodou vzoru a obrazu. Tato metoda pracuje velmi spolehlivě neboť oko řečníka se v průběhu nahrávání neměnilo. Jediným problémem, kdy vzor neodpovídal oku řečníka bylo mrknutí. Obrázek 35. Nalezení oblasti zájmu, 1 výběr vzoru pro pozadí, 2 naprahovaný objekt hlavy, 3 ořez podle šířky středu objektu, 4 nalezení očí pomocí vzorů, výběr oblasti výskytu úst a jejich nalezení V tomto okamžiku byla shoda vzoru a obrazu velmi malá. Byl proto stanoven práh shody (0.8) pro detekci mrknutí. Jestliže maximální shoda vzoru a obrazu klesla pod tento práh, byl střed oka převzat z předchozího snímku. Tato úprava je možná, neboť mrknutí je velmi krátké a změna pozice středu očí je velmi malá. Je nutné dodat, že se vyskytly případy kdy byla pozice středu oka během mrknutí určena špatně právě díky pohybu hlavy. Těchto případů bylo ovšem jen velmi málo a byly opraveny ručně. Pro všechny ostatní snímky, než první snímek, byla předpokládaná oblast výskytu oka určena ze známé předchozí pozice středu a velikosti vzoru oka. Tato oblast odpovídala obdélníku se středem v předchozí pozici středu oka a velikosti dvakrát větší než velikost vzoru. Velmi se tím snížila velikost prohledávané oblasti oproti prvnímu snímku, čímž se algoritmus zrychlil. Současně s nalezením středů očí byl pro každý snímek nalezen i střed úst. V prvním snímku byla určena vzdálenost středu očí, která je uložena do souboru s popisem videozáznamu. Podle této vzdálenosti je pro celou promluvu určena velikost ROI. Oblast výskytu úst byla určována pomocí pozice a vzdáleností středů očí. Střed oblasti výskytu úst leží na kolmici sestrojené v polovině spojnice očí ve vzdálenosti 1,5krát vzdálenost očí. Velikost této čtvercové oblasti je 1,5*vzdálenost očí. Samotný střed úst je nalezen jako průměrná pozice bílých bodů získaných prahováním oblasti v barevné reprezentaci G/R pomocí prahu P, jehož určení je popsáno níže viz Nyní známe pozici středu úst a velikost ROI. Jako doplňující údaj je do souboru s popisem videozáznamu uložen ještě úhel natočení hlavy vypočítaný jako úhel natočení středů očí vůči horizontální ose. Soubor s popisem videozáznamu je výstupem metody nalezení oblasti zájmu Liptracking Vstup metody nalezení kontury rtů byl videozáznam s rozlišením 720*288 bodů a frekvencí 50 Hz. Z kroku nalezení ROI je k dispozici informace o jeho pozici a velikosti. Průměrná velikost oblasti

65 Vlastní přínos zájmu je 113*65 bodů. Oblast zájmu zahrnuje rty a jejich nejbližší okolí viz obrázek 36. V oblasti zájmu se vždy vyskytuje nadpoloviční většina bodů, které náleží kůži. V oblasti se jen velmi zřídka vyskytují body náležející pozadí. Po analýze oblastí zájmu pro různé řečníky bylo zjištěno, že rty některých řečníků odrážejí umělé osvětlení scény a jsou tudíž přesvětleny. Tento jev se projevoval u lidí s vlhkými rty a při použití rtěnky. Rty v tomto případě ztrácejí svou typickou barvu. Dále bylo konstatováno, že barva rtů a barva tváře je dostatečně odlišná, a proto bylo rozhodnuto použít pro jejich vyhledávání právě barevnou odlišnost. Rty jsou vždy více červené než kůže. V oblasti zájmu se však v průběhu promluvy nevyskytují pouze dva objekty (rty a kůže). Vyskytují se zde i zuby, jazyk, mezera uvnitř úst a zřídka i vousy viz obrázek 36. Zuby, mezera a vousy se také dostatečně odlišují svou barvou od rtů. Problém nastává při viditelnosti jazyka. Při osvětlení má totiž jazyk velmi podobnou barvu jako rty, a je proto velmi obtížné ho od rtů odlišit. Dalším problémem je samotný tvar rtů některých řečníků. Variabilita tvaru rtů pro různé řečníky je velmi velká a existují i ústa jejichž horní ret je skoro neznatelný, protože jeho výška je velmi malá viz obrázek 36. Uvedené poznatky však neplatí pro všechny řečníky. U některých řečníků je odlišnost barvy kůže a rtů jen velmi malá a to znesnadňuje určení hranice rtů. Aby bylo možné vypočítat stanovené geometrické příznaky musela být dostatečně přesně nalezena vnitřní i vnější kontura rtů. Tvar obou kontur musel být poté popsán tak, aby bylo možné ho přesně rekonstruovat pro poslední krok zpracování (zpracování vnitřku úst). Po zvážení získaných informacích byla pro nalezení rtů zvolena jednoduchá metoda prahování na základě analýzy histogramu. Tento postup se bohužel ukázal jako nedostatečný. Ve většině případů sice byly nalezeny rty, ale jejich tvar neodpovídal příliš skutečnosti. Zlepšení poté nepřinesla ani úprava tvaru rtů pomocí morfologických operací. Proto byla hledána jiná metoda, která by dokázala lépe nalézt celý tvar rtů. Jako nejlepší řešení se ukázalo vylepšení metody nalezení prahu pomocí shlukování a následné použití modifikované metody ASM, která pracuje s definovaným modelem rtů viz Kombinace těchto dvou metod přinesla uspokojivé výsledky nalezení obou kontur a metoda ASM ještě poskytla kvalitní popis tvaru nalezených rtů. Obrázek 36. Ukázka ROI, 1 velmi malý horní ret, 2 přesvětlení některých částí rtů, 3 podobná barva horního rtu a kůže, 4 vousy Jak již bylo zmíněno, je metoda nalezení tvaru rtů rozdělena na dvě části. V první části dochází k hrubému nalezení tvaru pomocí prahování a druhá část upravuje tento tvar pomocí modelu rtů. Nejdůležitějším úkolem první části metody bylo stanovení barevné reprezentace pro kterou dochází k nejlepšímu odlišení bodů rtů a bodů tváře. Byly provedeny experimenty s několika barevnými reprezentacemi (RGB, HSV či chromatická reprezentace) a nejlepších výsledků bylo dosaženo pro reprezentaci pomocí jedné složky definované vzorcem G/R, kde G a R jsou složky barevné reprezentace RGB. Analýza probíhala pomocí vyhodnocování histogramu ROI pro různé barevné reprezentace viz obrázek 37. Analýza spočívala ve sledování průběhu histogramu. Čím více byl histogram bimodální a jednotlivá lokální maxima představující objekty rtů a kůže se od sebe vzdalovala a prohlubovalo se údolí mezi těmito maximy, tím byla daná reprezentace z hlediska oddělení objektů lepší. Po konečném výběru barevné reprezentace bylo nutné vytvořit metodu, která by určovala hodnotu prahu pro získání objektu rtů. V reprezentaci G/R jsou rty představovány vždy nižším maximem, které je umístěno více vlevo než maximum představující kůži

66 Vlastní přínos Obrázek 37. Ukázka histogramů a zobrazení ROI pro různé reprezentace obrazu (R, G, B, Hue, chromatická červená, chromatická zelená, šedotónová, R/G) Pro nalezení prahu byla zvolena metoda analýzy histogramu. Jako ideální práh se ukázalo právě minimum oddělující maxima, která reprezentují jednotlivé objekty. Tato metoda sice nacházela objekt rtů, ale jeho tvar byl velmi nepřesný. Části rtů chyběly a naopak některé oblasti kůže byly označeny jako rty. Největší problém nastával jestliže v histogramu nedošlo k vytvoření dostatečně hlubokého minima a vysokého maxima. Metoda poté určila nesmyslný práh a rty byly nalezeny špatně. Proto byla metoda nalezení prahu změněna. Místo analýzy histogramu byla použita shlukovací metoda založená na GMM a EM algoritmu. Tato metoda byla převzata od kolegů zabývajících se rozpoznáváním řečníka. Metoda provede rozdělní bodů ROI do dvou tříd (rty, kůže) pomocí shlukování založeném na kombinaci metod DB (distance based) a EM (expectation maximization). Nejprve jsou všechny body rozděleny do dvou tříd. Pomocí binárního dělení a kritéria nejbližšího souseda jsou tyto shluky postupně přeskupovány, až získáme dvě množiny reprezentující rty a kůži. Poté je použita metoda EM pro úpravu rozptylů obou shluků, které jsou použity k výpočtu prahu. Protože metoda je výpočetně náročná byly provedeny testy s množstvím vstupních dat. Vstupní data představují všechny body ROI v reprezentaci G/R. Jestliže však použijeme pouze každý šestý bod ROI, je výsledek metody zanedbatelně odlišný oproti použití všech bodů, ovšem rychlost výpočtu se několikanásobně zvýší. Výsledkem shlukování jsou střední hodnoty M R, M K (představují hodnoty v reprezentaci G/R) a rozptyly V R, V K pro objekt rtů a kůže. Výpočet prahu P byl proveden pomocí rovnice (32). Vztah pro práh P byl získán z experimentálních výsledků. Výpočet hledá práh mezi hodnotami M R, M K pomocí poměru rozptylu jednotlivých tříd. Hodnoty M R a V R odpovídají střední hodnotě a rozptylu třídy obsahující body rtů získané shlukováním v reprezentaci G/R, hodnoty M K a V K reprezentují třídu obsahující body kůže

67 Vlastní přínos P M ( M M ) V K = R + K R (32) VR + VK V neznámém obrázku byly jako rty označeny všechny body s nižší hodnotou než je hodnota P. Výsledek prahování představuje binární obraz, kde bílá znamená rty a černá ostatní viz obrázek 38. Stávalo se, že jako rty byly označeny i části kůže, které se nedotýkaly rtů. Tyto části představují poruchy kůže, kdy je pokožka načervenalá a barva těchto míst se blíží barvě rtů. Proto byl jako objekt rtů vybrán největší objekt v binárním obraze. Nevýhodou tohoto kroku je občasné odstranění horního rtu, neboť se stává, že horní ret je oddělen od spodního v oblasti nad koutky. Tato oblast je problémová a často jsou zde rty označeny jako kůže. Jestliže je horní ret úplně oddělen, pak metoda výběru největšího objektu vybere pouze spodní ret viz obrázek Obrázek 38. Ukázka nalezení vnitřní a vnější kontury rtů: 1 ROI, 2 naprahovaný obraz, 3 vybrání největšího objektu, 4 přidání objektů pomocí tvaru rtů z předchozího kroku, 5 rozšířený konvexní obal vnější kontury rtů, 6 obraz upravený pomocí vyprahování vnitřku úst a odstranění děr pod a nad hranicí vnitřku úst, 7 získání vnitřku úst obarvením okolí úst, 8 hranice vnitřku rtů, 9 konvexní obal vnitřku úst, 10 výsledný hrubý tvar rtů, 11 výsledný tvar rtů upravený pomocí modelu Abychom mohli tento získaný tvar rtů použít pro vylepšení pomocí modelu rtů musíme získat vnitřní a vnější konturu. Bohužel metoda prahování většinou označí jazyk jako objekt rtů, takže vnitřní kontura nemá správný tvar. Vnější kontura je většinou nalezena správně, ovšem je porušená dírami, které měly být označeny jako rty, ale byly označeny jako kůže. Pro zlepšení tvaru vnější kontury bylo použito konvexního obalu. Využívá se toho, že nejčastější chybou vnějšího tvaru jsou právě díry. Nejprve je provedena eroze s binárním obrazem rtů a tento obraz je odečten od původního obrazu rtů a tím je získán obraz obsahující pouze hranici rtů. Tento obraz je použit jako vstup metody vypočítávající konvexní obal. Po výpočtu konvexního obalu je obal zakreslen do původního obrazu a všechny body uvnitř obalu jsou označeny jako bílé. Po získání vnější kontury musíme opravit tvar vnitřní kontury. Nejčastější chybou jsou opět díry vzniklé nenalezením rtů. Jedny jsou způsobeny přesvětlením rtů a nacházejí se většinou uvnitř spodního rtu. Ostatní díry jsou způsobeny podobností barvy rtů a kůže viz obrázek Protože pro úpravu tvaru opět používáme konvexní obal, musíme zaplnit díry, které spojují vnitřek rtů s okolím rtů. To provedeme s využitím konvexního obalu vnější kontury. Na tento obal, který je tvořen čárou tloušťky 1 použijeme dilataci se strukturním elementem [7, 9] pro rozšíření obalu viz obrázek Provedeme operaci OR s tímto obrazem a původním obrazem rtů. Výsledný obraz by již neměl obsahovat žádné spojení vnitřku rtů a okolí rtů pomocí černých bodů (občas se stává, že vnitřní černé body jsou propojeny s okolím rtů). Dalším problémem vnitřního tvaru rtů je občasné označení jazyka jako objekt rtů. Jestliže se jazyk nedotýká rtů a je pouze označen bílými body uvnitř rtů pak je snadné tento objekt odstranit a nemá tak vliv na tvar vnitřní kontury (odstranění všech bílých objektů uvnitř úst). Jestliže se však dotýká rtů pak odstranit nelze a právě tato situace byla řešena. Jazyk má velmi podobnou barvu jako rty a proto je velmi obtížné ho odlišit pomocí prahování. Využijeme však toho, že i když se jazyk dotýká rtů pak mezi rtem a jazykem zůstává místo které je tmavší než oba objekty. Je tedy třeba určit jas J V tohoto místa. Vycházíme tedy z požadavku nalézt místo, kde končí vnitřní ret a začíná vnitřek úst. Pro vyřešení tohoto problémů postačí analyzovat slabý výřez úst nacházející se ve středu úst, který začíná na horní vnější a končí na spodní vnější hranici rtů viz obrázek 39. Řez je

68 Vlastní přínos široký 7 bodů a jeho pozice je určena tak, že jsou nalezeny nejpravější, nejlevější, nejhornější, a nejspodnější bod binárního obrazu rtů. Tyto body jsou nalezeny prostým procházením obrazu a kontrolou pozic jednotlivých bodů. Výřez rtů V je převeden do šedotónové reprezentace. Jeho dimenze je 7*N bodů, kde N je výška rtů. Poté je výřez upraven na vektor V P o velikosti N, kde každý jeho prvek je definován pomocí rovnice (33) (součet hodnot pro každý sloupec). P ( x) = V ( y, x), kde x { 1.. N} V (33) y= 1..7 Po vyhodnocení průběhu vektoru V P pro různé řečníky a promluvy, bylo zjištěno, že přechod vnitřní ret a vnitřek rtů představuje bod mezi prvním lokálním maximem a prvním lokálním minimem a bod mezi posledním lokálním maximem a posledním lokálním minimem viz obrázek 39. Průchodem vektoru 1..N a porovnáváním hodnot sousedních prvků jsou nalezeny lokální maxima a minima, přičemž první nalezený extrém nemůže být maximum. Po nalezení lokálních extrému jsou vybrány dva z nich. Úplně první minimum M H a poslední minimum následované maximem M D. Protože přechod ret vnitřek úst neleží přímo v bodech minim musíme jejich pozice dohledat. Mohou se vyskytnout dva případy. V prvním případě je pozice M D shodná s pozicí M H a znamená to, že rty jsou buď zavřeny a nebo vnitřek úst vyplňuje pouze mezera. V tomto případě je pozice přechodu definována jako pozice prvního bodu s hodnotou větší než číslo P definované rovnicí (34). Kde M 1 a M 2 jsou hodnoty prvního a posledního prvku vektoru V P, které odpovídají bodům rtů. P = hodnota M P = hodnota M H D + + ( M hodnota M ) 1 2 ( M hodnota M ) N 2 H D pro horní ret pro spodní ret (34) V druhém případě je pozice M D a M H odlišná. Pro pozice přechodů platí stejné podmínky ovšem číslo P je získáno pomocí rovnic (35). P = hodnota M P = hodnota M H D + + ( M hodnota M ) 1 2 ( M hodnota M ) N 2 H D pro horní ret pro spodní ret (35) Tím jsme získali pozici nejhornějšího a nejspodnějšího bodu vnitřku úst. Nyní již zbývá pouze určit hodnotu jasu J V. J V je definována jako menší z obou hodnot vektoru V P na nalezených pozicích horního a dolního přechodu. J V je ještě nutné podělit hodnotou 7 (šířka vektoru V), aby jsme dostali šedotónovou hodnotu. Obrázek 39. Nalezení prahu J V a hranic vnitřku úst, 1 výběr části rtů pro nalezení hranic vnitřku (žlutá čára = hranice vnitřku), 2 průběh součtů šedi pro jednotlivé řádky výběru, červená = nalezená maxima, modrá = nalezená minima, šedivá = pozice hranic vnitřku úst Popsaný proces stanovil hodnotu prahu J V. Všechny body ROI nacházející se uvnitř rtů a které mají hodnotu šedi menší než J V jsou označeny jako bílé body a ostatní jako černé. Výsledek prahování (tmavé části vnitřku úst) je odečten od původního obrazu po upravení vnějšího tvaru rtů. Všechny černé body nacházející se uvnitř rtů představují buď vnitřek rtů nebo přesvětlené oblasti rtů (většinou

69 Vlastní přínos spodní ret). Protože ale vedlejší efekt určení prahu J V je nalezení nejspodnějšího bodu vnitřku úst, můžeme odstranit všechny černé body, které se nacházejí pod tímto bodem viz obrázek Jestliže byly hranice vnitřku nalezeny špatně, pak by mohly být odstraněny i černé body, které odpovídají vnitřku úst. Proto platí pravidlo, že díry, které leží na spojnici vnějších koutků se neodstraňují. Abychom mohli nalézt konvexní obal vnitřku úst musíme ještě obarvit body vně rtů na bílo a provést inverzi obrazu. Body vně rtů jsou všechny černé body, které sousedí s rohy obrazu pouze přes černé body. Po inverzi obrazu jsou body vnitřku bílé a ostatní černé. Jazyk je většinou označen černými body což ovšem nevadí, neboť jsme nalezli přechod mezi jazykem a rtem. Po vytvoření konvexního obalu kolem bílých bodů obarvíme celý vnitřek konvexního obalu a tím získáme tvar vnitřku rtů. Výsledný obraz O vnitřku je zobrazen na obrázku Nyní je ukončena část nalezení hrubého tvaru rtů pomocí prahování. Výstupem metody je obraz, který získáme operací AND s obrazy O vnějšku a invertovaného obrazu O vnitřku viz obrázek Tím se dostáváme k druhému kroku algoritmu nalezení kontury rtů. Hlavním úkolem druhé části metody je vylepšení tvaru vnější a vnitřní kontury. Pro vyřešení tohoto problému nebylo možné použít jednoduchých metod popisu objektů, neboť tvar rtů se v průběhu promluvy velmi mění. Proto jednoduché metody vyhodnocování zda část objektu představuje rty či nikoliv selhávaly. Byla vyzkoušena metoda založená na popisech jako podlouhlost, kulatost atd., které měla určit jestli nalezený objet dostatečně představuje rty či nikoliv. Když nebyl nalezený objekt vyhodnocen jako rty, pak se upravil práh a došlo k znovu nalezení objetu rtů dokud nebylo rozhodnuto, že se jedná o rty. Tato metoda byla velmi citlivá na nastavení rozhodovacích prahů její výsledky byly velmi nespolehlivé. Proto byla vybrána jiná metoda popisu objektů, která dokáže zachytit tvar objektů obsažených v trénovací množině a zpětně je rekonstruovat. Tato metoda se nazývá aktivní tvarový model Metoda dokáže opravit chybnou část tvaru objektu, jestliže jiná část objektu je správná. Opravou je myšlena úprava tvaru podle vzoru z trénovací množiny. Jestliže je tedy část vnitřní kontury nalezena špatně, ale vnější kontura je nalezena správně pak dojde k vylepšení špatně nalezené části vnitřní kontury. Aby bylo možné metodu využít je třeba navrhnout model rtů a poté vytvořit trénovací množinu. Obrázek 40. Ukázka rozmístění bodů modelu rtů, 1 rozmístění bodů na vzorovém tvaru rtů, 2 umístění bodů vnitřní kontury nezávislé na vnější kontuře, 3 umístění bodů vnitřní kontury závislé na vnější kontuře V našem případě je model tvořen třiceti dvěma body. Pospojováním těchto bodů přímkami vznikne vnější a vnitřní kontura rtů. Vnitřní i vnější kontura je popsána pomocí šestnácti bodů viz obrázek 40. Každý bod je reprezentován pomocí jeho souřadnic x,y. Celkový model tedy představuje vektor V K = [ x 1, x 2,.., x 64, y 1, y 2,.., y 64 ] který obsahuje 64 souřadnic. Počet bodů a jejich rozmístění je vybráno tak, aby po pospojování bodů přímkami tyto dostatečně popisovaly tvar rtů, ale zároveň bylo bodů co nejméně. Při tvorbě modelu jsem vycházel z poznatku, že metoda nalezení hrubého tvaru velmi dobře nachází vnější koutky úst. Proto byly koutky úst zvoleny jako body, podle nichž se určuje pozice všech ostatních bodů modelu. Hlavním úkolem modelu je popsat tvar rtů. Model již nemusí popisovat velikost rtů a proto je možné použít vnější koutky rtů jako pevné body modelu, které mají normalizovanou vzdálenost (normalizace na 1). Kdyby měl model ještě popisovat velikost rtů pak nastávají problémy, neboť velikost rtů se nemění jen v průběhu řeči, ale i mezi řečníky. Velikost rtů v klidové poloze (zavřená ústa) je velmi odlišná pro odlišné řečníky. Model byl tedy navržen tak, že

70 Vlastní přínos ostatní body vnější kontury mají pevnou x-ovou pozici vzhledem k vnějším koutkům. Vzdálenost koutků je rozdělena na 8 stejných částí a na jejich hranicích se nacházejí body vnější kontury rtů. Jejich y-ová pozice je daná tvarem rtů. Uspořádání bodů vnitřní kontury je podobné. Y-ové pozice bodů jsou definovány opět osmi intervaly, na které je rozdělena vzdálenost vnitřních koutků. Pozice vnitřních koutků je proto nalezena jako první a k ní jsou vztaženy pozice ostatních bodů vnitřní kontury. Rozmístění bodů ukazuje obrázek To že pozice vnitřních koutků není přesně definovaná podle pozice vnějších koutků umožňuje přesnější popis vnitřní kontury. Jak by model vypadal při pevné pozici vnitřních koutků ukazuje obrázek Model rtů ovšem není popsán pouze vektorem V K. Tento vektor popisuje pouze střední tvar rtů. Model dále popisují tzv. transformační matice P a deformační matice DEF, které budou popsány později. Abychom mohli definovat všechny prvky modelu rtů je zapotřebí vybrat trénovací množinu. Prvky trénovací množiny musí obsahovat tvary rtů pro různé řečníky a pro různé promluvy, aby model mohl tyto případy popsat. Trénovací množinu tvoří 228 vzorů. Nejprve bylo náhodně vybráno 2000 tvarů rtů. Poté došlo k užšímu výběru tak, aby trénovací množina zahrnovala co největší spektrum běžných tvarů rtů jaké se vyskytují při promluvě. Každý vzor představuje obraz odpovídající ROI, v němž byla ručně označena vnitřní a vnější kontura rtů. Vnější kontuře odpovídá bílá barva a vnitřní černá barva viz obrázek 41. Obrázky byly ještě před zanesením kontur upraveny tak, aby se v nich nevyskytovaly žádné čistě černé nebo bílé body. Obrázek 41. Ukázka vzorových tvarů rtů obsažených v trénovací množině. Vnější kontura je označena bíle a vnitřní černě. Po vytvoření trénovací množiny již bylo možné spočítat střední tvar ms, transformační matici P a deformační vektor DEF. Pro každý obraz trénovací množiny byly určeny souřadnice bodů modelu. Pro jejich nalezení stačilo pouze obraz naprahovat, tak aby zůstaly pouze černé nebo bílé body. Po získání kontur byly nalezeny koutky a podle nich souřadnice ostatních bodů, které jsou pevně rozmístěny mezi nimi. X-ová souřadnice je určena právě tvarem rtů. Pro každý vzor byl tedy získán vektor V K obsahující souřadnice nalezených bodů. Nyní bylo nutné provést normalizaci celého modelu podle vnějších koutků podle rovnic (36), kde vektor V K obsahuje souřadnice bodů modelu rtů, V š představuje vzdálenost vnějších koutků, Y Vně představuje y-ovou souřadnici středu vnějších koutků, X Vně představuje x-ovou souřadnici středu vnějších koutků a X Vni představuje x-ovou souřadnici středu vnitřních koutků. Po normalizaci byla pozice levého vnějšího koutku [-0.5, 0] a pravého vnějšího koutku [0.5, 0]. Všechny body jsou tedy normalizovány tak, aby střed vnějších koutků ležel v bodě [0,0] a vzdálenost všech ostatních bodů byla vydělena vzdáleností vnějších koutků od jejich středu. V K ( i) ( i) VK X Vně = pro ( i) V š i { 1..16} VK X Vni VK ( i) = pro i { } (36) V V K K ( i) ( i) ( i) V š VK YVně = pro V š ( i) VK YVně = pro V š i i { } { }

71 Vlastní přínos Výstupem normalizace je tedy 288 vektorů V K. Pomocí metody PCA jsou nyní vypočteny vektory ms, DEF a matice P. Jako první je vypočtena střední hodnota ms podle vzorce (3) a kovarianční matice R podle vzorce (4). Poté je proveden SVD rozklad matice R na matici vlastních čísel V a vlastních vektorů A tak, jak je popsáno v Pro popis modelu bylo vybráno 10 vlastních vektorů odpovídajících 10 největším vlastním číslům. Z nich byla vytvořena transformační matice P. Deformační vektor DEF je určen pomocí rovnice (13) (výpočet b k ). Vektor ms představuje průměrný tvar rtů, k němuž je počítána odchylka od nalezeného tvaru rtů (velikost [64,1]). Transformační matice P zajišťuje výpočet tvaru rtů z 10 řídících koeficientů. Matice P T zajišťuje převod tvaru rtů na řídící vektor. Matice tedy slouží ke změně dimenze. Vektor DEF omezuje maximální deformace modelu při přepočtech mezi tvarem rtů a řídícím vektorem. Pro řízení tvaru modelu bylo vybráno 10 řídících bodů (PCA). Bohužel nebylo provedeno nalezení optimálního množství řídících bodů tak, aby jejich počet byl co nejmenší, ale aby model dostatečně postihoval tvar rtů. Na obrázku 42 je znázorněno jak se deformuje tvar rtů při změně jednotlivých řídících bodů. Obrázek 42. Ukázka deformace tvaru rtů při změně jednotlivých parametrů řídícího vektoru. Úprava tvaru nalezených rtů funguje následovně. Jako první jsou nalezeny body modelu na přibližně nalezeném tvaru rtů. Z pozic nalezených bodů je sestaven vektor V K a je spočítána odchylka V S tohoto modelu od vektoru středního tvaru ms. Poté je spočítán vektor řídících bodů b podle rovnice (37). T b = P * VS (37) Prvky vektoru b jsou omezeny tak, aby jejich hodnota nebyla větší než hodnota definovaná ve vektoru DEF čímž zajistíme, že tvar rtů se nebude deformovat více než bylo uvedeno v trénovací množině. Po omezení vektoru b provedeme zpětnou transformaci řídícího vektoru na tvar rtů V KN popsaný pomocí bodu modelu podle rovnice (38). V KN = ms + P * b (38) Vektor V KN představuje nový upravený tvar rtů. V předchozích odstavcích byl popsán postup vytvoření modelu rtů. Můžeme tedy pokračovat ve druhé fázi nalezení kontury rtů, a tou je úprava tvaru. Abychom mohli využít model rtů musíme nejprve nasadit model na nalezený tvar rtů. Proto jsou jako první nalezeny vnější koutky a podle nich jsou určeny pozice ostatních bodů modelu. Určení pozic bodů modelu probíhá stejně jako při vytváření modelu. Místo označených kontur pomocí bílé a černé máme k dispozici nalezený tvar. Nalezení vnějších bodů z tvaru rtů je jednoduché. Postupujeme vždy od kraje obrazu, dokud

72 Vlastní přínos nenarazíme na bílý bod. Nalezení bodů vnitřní kontury se provádí po úpravě obrazu stejným způsobem. Úprava obrazu spočívá v tom, že okolí rtů je obarveno na bílo a obraz je invertován. Po nalezení bodů je provedena normalizace. Poté je spočítána odchylka od středního tvaru a provedena transformace do prostoru nižší dimenze a zpět. Výsledný tvar je od normalizován a zakreslen do původního obrazu ROI. Tímto postupem jsme získali tvar rtů definovaný pomocí modelu. Ukázky opravy nalezeného tvaru rtů pomocí modelu jsou zobrazeny na obrázku 43. Během celého procesu nalezení kontury rtů je možné vylepšit či zjednodušit některé kroky vyhledávání. V popisu první části (nalezení hrubého tvaru), bylo uvedeno, že v některých případech dochází k odstranění objektů patřících rtům, díky označení největšího objektu jako rty. Nejčastěji dochází ke ztrátě horního rtu. Tento problém je možné odstranit použitím získaného tvaru rtů z předchozího snímku. Po vybrání největšího objektu je do naprahovaného obrazu (všechny nalezené objekty) zanesena kontura rtů z předchozího snímku podle nalezených koutků v aktuálním snímku. Všechny objekty jejichž část leží uvnitř rtů jsou vybrány jako objekty rtů. Tuto operaci lze provést neboť změna tvaru rtů je dostatečně pomalá. Obrázek 43. Ukázka opravy tvaru rtů pomocí modelu, černo bílý obraz binární obraz nalezených rtů upravený pomocí konvexního obalu, barevný obraz výsledný tvar rtů po použití modelu rtů Celý proces nalezení rtů je možné urychlit výpočtem prahu pro nalezení rtů pouze v prvním snímku. Metoda shlukování pro nalezení prahu je totiž časově náročná. Při použití prahu nalezeného v prvním snímku dochází jen k velmi malé chybě nalezení tvaru v ostatních snímcích. V případě, že výpočetní čas nehraje roly, pak je lepší provést výpočet prahu pro každý snímek znovu. Výsledkem části nalezení kontury rtů je tedy vektor V KN, který obsahuje pozice bodů modelu popisující tvar rtů. Popsaný postup nalezení oblasti ROI a nalezení vnitřní a vnější kontury rtů s urychlením v podobě nalezení prahu pouze v prvním snímku byl realizován v programovacím jazyce C. Program pracuje v reálném čase na počítači s konfigurací Pentium4, 3GHz, 1GB RAM. Program byl testován za různých podmínek a pro různé řečníky a vykazuje velkou robustnost a spolehlivost Nalezení vnitřku úst Cílem metody nalezení vnitřku úst bylo určení horizontálních pozic jazyka, horních zubů, dolních zubů a mezery. Problémem určení pozic těchto objektů během promluvy se bohužel nezabývá žádná publikovaná práce. Musel jsem proto provést analýzu vnitřku rtů a následně určit postup nalezení jazyka, zubů a mezery. Jako výstup metody jsem požadoval určení horizontálních pozic objektů. Vertikální pozice objektů není důležitá, neboť v průběhu promluvy by se všechny objekty měly pohybovat pouze nahoru a dolů. Pohyb jazyka či spodních zubů do stran se při tvorbě hlásek

73 Vlastní přínos neuplatňuje. Tento předpoklad není pro reálné podmínky splněn, ovšem můžeme ho brát jako pravdivý, neboť pohyby objektů do stran jsou minimální. Při analýze vnitřku úst pro různé řečníky a různé promluvy byly zjištěny následující poznatky: jazyk má velmi podobnou barvu jako rty v barevné reprezentaci RGB ve složce R. Horní zuby se nepohybují vlivem promluvy, ale pouze vlivem pohybu hlavy řečníka. Pozici spodních zubů je možné přibližně určit podle pozice brady. Jas mezery je vždy menší než jas rtů. Jestliže vybereme úzký proužek rtů viz obrázek 44-1 a vykreslíme součet šedotónových hodnot jeho řádků, pak hranice jednotlivých objektů leží v extrémech této křivky. Všechny tyto poznatky byly zjištěny experimentálně sledováním změn vnitřku rtů pro různé promluvy a různé barevné reprezentace. Je nutné zdůraznit, že u některých snímků nebylo možné přesně určit jaké části jsou právě viditelné, neboť zuby občas mají červený nádech a je těžké je odlišit od jazyka a jazyk občas vlivem osvětlení ztrácí červenou barvu a vypadá proto jako mezera. Pozice horních zubů se nemění během promluvy, neboť jsou umístěny v horní čelisti. Proto je možné přibližně určit jejich pozici pomocí nějakého pevného bodu na hlavě řečníka. Když je tento bod viditelný, pak je možné určit pozici horních zubů i při zavřených rtech ze znalosti vzdálenosti horních zubů a tohoto bodu. Jako pevný bod na hlavě, který lze snadno vyhledávat pomocí metody srovnávání se vzorem byl určen nos. Takto je možné určit i přibližnou pozici spodních zubů. Spodní zuby jsou totiž zasazeny ve spodní čelisti a pohyb spodních zubů je proto spjat s pozicí brady. V případě, kdy by byla v každém snímku přesně určena pozice ROI, mohly by být přibližné pozice zubů určovány z předchozích snímků. Můj algoritmus pro nalezení ROI však nedokáže tento předpoklad dostatečně splnit. Dalším poznatkem je, že barva jazyka ve složce R je velmi podobná barvě rtů. Tento poznatek byl zřejmý již při hledání tvaru rtů. Jestliže je jazyk dostatečně vystrčen (je dostatečně osvětlen), pak je tento poznatek pravdivý. Jestliže je ale jazyk zastrčen v ústech, pak tmavne a ztrácí červenou barvu (způsobuje to nedostatek světla). Posledním poznatkem je, že průběh součtu šedotónových hodnot proužku vnitřku určuje pozice hranic jednotlivých objektů. K výběru slabého proužku uprostřed rtů mě vedl poznatek, že není důležitý pohyb objektů do stran, ale pouze nahoru a dolů. Proto stačí analyzovat slabý proužek uprostřed rtů, který obsahuje všechny objekty jestliže jsou viditelné. Jestliže tedy naleznu maxima a minima průběhu zmiňované křivky, mohu určit přechody jednotlivých objektů. Bohužel však z průběhu křivky nelze jednoznačně určit o jaké objekty se jedná a proto je pro jejich identifikaci použito předchozích poznatků z analýzy vizuální složky řeči. Obrázek 44. Nalezení objektů vnitřku úst: 1 výběr úzkého proužku vnitřku úst, 2 průběh šedotónových hodnot vybraného proužku s nalezenými extrémy, 3 nalezené extrémy zanesené do obrazu (zelený křížek = odhad pozice dolních zubů, červený křížek = odhad pozice horních zubů, bílý křížek = nový odhad pozice horních zubů po jejich nalezení), 4 binární obraz rtů z modelu, 5 naprahovaný obraz jazyka a mezery (bílá = jazyk, šedivá = mezera), výběr oblastí pro dohledání jazyka (červená) a mezery (žlutá), 6 nalezené středy a rozměry objektů (bílá = horní zuby, zelená = jazyk, modrá = dolní zuby) Ještě před popisem samotného postupu nalezení objektů vnitřku rtů uvedu pokus o jejich nalezení použitím modelu rtů spojeného s modelem vnitřku úst. Tento model byl vytvořen stejnou metodou jako samotný model rtů. K modelu byly přidány další čtyři souřadnice, které představovaly pozice jazyka, zubů a mezery. Jestliže nebyl některý z objektů viditelný, pak byla jeho pozice mimo rty. Použití tohoto modelu však nedávalo dobré výsledky. Zhoršila se samotná část nalezení tvaru rtů a ani určení pozic objektů vnitřku nepracovalo správně a proto jsem od metody upustil. Jako vstup metody nalezení pozic objektů vnitřku jsem použil nalezený tvar rtů a oblast ROI. Z tvaru rtů je možné určit hranice vnitřku úst a tím i vybrat slabý proužek O V vnitřku rtů. Pro nalezení pozic objektů využívám i přibližných pozic zubů určených z pozice nosu a brady, a proto je potřeba tyto pozice určit před analýzou prvního snímku. Pozice nosu a brady je určena podle středu

74 Vlastní přínos nalezených rtů, velikosti ROI a vnější šířky úst. Pro pozici nosu platí: x = střed rtů x, y = střed rtů y - velikost ROI/3, pro velikost vzoru nosu platí: šířka a výška = šířka úst. Pro pozici brady platí: x = střed rtů x, y = střed rtů y + velikost ROI/3, pro velikost vzoru brady platí : šířka = šířka úst/2, výška = šířka úst * 0,8. Podle těchto pozic a velikostí jsou z prvního snímku získány vzory pro nos a bradu. Podle těchto vzorů je určována pozice nosu a brady pomocí metody srovnávání se vzorem (v šedotónové reprezentaci) pro další snímky. V prvním snímku je nutné určit i předpokládanou pozici zubů. Jestliže jsou rty zavřené, což je možné určit z vnitřní kontury rtů (horní a spodní vnitřní kontura se dotýkají), pak pozici zubů určíme pomocí nalezení středu rtů. Je možné vyjít z předpokladu, že při zavřených rtech jsou zuby člověka těsně u sebe a spodní hranice horních zubů se nachází v úrovni místa, kde se rty dotýkají. Místo kde se rty dotýkají je také nejtmavší místo rtů. Určíme ho jako minimum řezu rtů v šedotónové reprezentaci. Jestliže jsou ovšem rty otevřené, pak je jako pozice zubů určen střed vzdálenosti středu horní a dolní vnitřní kontury rtů viz obrázek 45. Ze znalosti pozice horních a dolních zubů určíme vzdálenost horních zubů a nosu a spodních zubů a brady. Tyto vzdálenosti jsou zpřesňovány po nalezení skutečné pozice horních a dolních zubů. Obrázek 45. Nalezení středu úst jako bodu uprostřed vzdálenosti středů horní a dolní vnitřní kontury. Přibližné pozice zubů jsou také vstupem metody samotného nalezení objektů vnitřku úst. Prvním krokem metody je výběr úzkého proužku vnitřku rtů. Proužek je určen pomocí vnitřních koutků a platí pro něj: střed: x = střed pozic vnitřních koutků x, y = střed pozic vnitřních koutků y, velikost: výška = vnitřku úst + 10 bodů na každou stranu, šířka = 6 bodů. Tento proužek je převeden do šedotónové reprezentace a jsou sečteny hodnoty v jednotlivých řádcích. Dostáváme tedy vektor V V, který má velikost = výška vnitřku + 20 bodů, jehož průběh je znázorněn na obrázku Při takovéto volbě vektoru V V je splněno, že první bod vektoru představuje bod horního rtu řečníka. Proto je tento bod označen jako první extrém (extrém(0), extrém(0).x představuje pozici extrému a extrém(0).y jeho velikost). Vyhledávání dalších extrému se provádí průchodem vektoru od začátku a sledováním změny směru průběhu. Takto jsou určena lokální maxima a minima celé křivky. Algoritmus hledá pouze prvních 7 extrémů, neboť ty představují možné přechody mezi objekty. Ostatní extrémy jsou ignorovány. Pro extrémy přibližně platí, že zuby jsou představovány maximy, mezera minimy a jazyk může být představován obojím. Při hledání extrému jsou brány v potaz pouze dostatečně velké extrémy. Podmínkou pro akceptování extrému extrém(i) je splnění podmínky (39). ( ). ( 0). ( 1 ). ( 0). y extrém i y extrém i y ABS > (39) extrém y extrém Jestliže algoritmus vynechává tyto malé extrémy, pak se může stát, že po sobě následují dvě maxima či dvě minima. Proto je toto kontrolováno a je ponechán pouze extrém s větší hodnotou (minimum menší, maximum větší). Dalším krokem po nalezení extrémů je výpočet vektoru určujícího přítomnost jazyka či mezery uvnitř rtů. Pro určení tohoto vektoru je využita střední hodnota barvy a jasu rtů, jak vyplývá z předpokladů určených pozorováním vnitřku úst. Pro nalezení objetu jazyka a mezery nejprve vytvoříme binární obraz rtů pomocí nalezeného tvaru viz obrázek Vynásobením tohoto obrazu s obrazem ROI získáme obraz rtů v reprezentaci RGB. Poté spočítáme střední hodnotu M a rozptyl V výsledného obrazu pro reprezentaci RGB složku R (M R, V R ), reprezentaci HSV složku S (M S, V S ) a šedotónovou reprezentaci (M G, V G ). Naprahováním původního obrazu ROI podle rovnic (40) získáme obraz tvaru jazyka a mezery uvnitř úst O VP. Výsledek prahování je zobrazen na obrázku

75 Vlastní přínos O O O VP VP VP ( i, j) = 255 když ( R( i, j) > M R VR *1.5)& ( R( i,j) < M R )& ( S( i, j) > M S VS * 0.5) ( i, j) = 0 jinak ( i, j) = 100 když ( G( i, j) < M V * 2) G G (40) Po získání tvaru rtů a mezery pomocí prahování jsou vybrány dva úzké proužky z O VJ (jazyk) a O VM (mezera) viz obrázek Výška obou odpovídá výšce vnitřku úst. Šířka prvního je polovina šířky vnitřku a šířka druhého je šířka vnitřku/5*2. Následně je vytvořen vektor V J, který udává výskyt jazyka a vektor V M, který udává výskyt mezery. Vektor V M je konstruován tak, že jeho prvek nabývá 1 jestliže se v příslušném řádku v obraze O VM nachází bod s hodnotou 100. Pro konstrukci vektoru V J jsou nejprve počítány výskyty bodů s hodnotou 255 pro každý řádek. Hodnota prvku vektoru je 1 jestliže četnost bodů 255 pro příslušný řádek je větší než šířka vnitřku/4 nebo příslušný prvek vektoru V M je rovem jedné. Po nalezení extrémů a výskytu jazyka a mezery je možné provést určení pozic objektů vnitřku úst podle počtu nalezených extrémů. Jestliže je počet extrému 1, pak se může jednat pouze o mezeru. Jestliže extrém(1).y/extrém(0).y<0.5 nebo V M (extrém(1).x)==1, pak se jedná o mezeru. Všechny další podmínky pro rozhodování o typu objektu, jako pro určení mezery, byly určeny experimentálně. V následujícím popisu je pozicezubuhor a pozicezubudol přibližnou pozicí horních a dolních zubů nalezenou pomocí pozic nosu a brady. Jestliže je počet extrémů 2, pak se vyhodnocují následující vztahy: if (extrém(1).x>pozicezubuhor & ((extrém(1).y/extrém(0).y)<0.5) V M (extrém)(1).x)=1) - extrém(1) je mezera, nachází se za horními zuby - určení druhého extrému (spodní zuby či jazyk) if (V J (extrém(2).x)=0 extrém(0).y<extrém(2).y (extrém(0).y>extrém(2).y & V J (extrém(2).x)=0)) - jedná se o spodní zuby, horní to být nemohou podle polohy - horní zuby nejsou vidět, extrém(2) jsou spodní zuby, jazyk není vidět jinak if (extrém(2).x<pozicezubudol) - extrém je před spodními zuby a jedná se tedy o jazyk - horní zuby nejsou vidět, spodní zuby nejsou vidět, extrém(2) je jazyk jinak - horní zuby nejsou vidět, extrém(2) jsou spodní zuby, jazyk není vidět jinak první extrém není mezera mezera není vidět if (V J (extrém(2).x)=0 extrém(2).x<pozicezubuhor) - jedná se o horní zuby - jazyk není vidět if (extrém(2).x<pozicezubuhor) - extrém(2) jsou horní zuby podle pozice - je třeba zkontrolovat, jestli se v okolí maxima nevyskytuje ještě nějaké malé maximum, které se zahodilo při hledání extrémů a které představuje spodní zuby - maximum hledám od extrém(2).x do konce vnitřku úst - jestliže se nalezlo pak spodní zuby představuje toto maximu, jinak nejsou spodní zuby vidět jinak - jedná se o spodní zuby podle pozice - je třeba zkontrolovat jestli se v okolí maxima nevyskytuje ještě nějaké malé maximum, které se zahodilo při hledání extrémů a které představuje horní zuby - maximum hledám od extrém(2).x do začátku vnitřku úst

76 Vlastní přínos - jestliže se nalezlo pak horní zuby představuje toto maximu, jinak nejsou spodní zuby vidět jinak -maximum by měl být jazyk, ale je třeba to zkontrolovat podle pozice if (extrém(2).x+<pozicezubudol) - jedná se o jazyk, horní a spodní zuby nejsou vidět jinak - jedná se o spodní zuby, horní zuby ani jazyk nejsou vidět Jestliže je počet extrémů 3, pak se vyhodnocují následující vztahy: if ((extrém(1).y/extrém(0).y)<0.5 V M (extrém)(1).x)=1) - musíme zkontrolovat jestli minimum leží za předpokládanou hranicí horních zubů if (extrém(1).x>=pozicezubuhor ) - extrém(1) je mezera if (V J (extrém(2).x)=1 & extrém(2).x<pozicezubudol) - extrém(2) je jazyk podle pozice, horní ani dolní zuby nejsou vidět jinak - extrém(2) jsou dolní zuby, horní zuby ani jazyk nejsou vidět jinak - stává se že pozice zubů je odhadnuta špatně a potom se mezera nenajde kvůli tomu - musíme se podívat jestli mezi odhadnutou pozicí zubů a maximem není V M =1 jestliže ano pak tento bod prohlásíme za mezeru - vektor V M prohledáváme od pozicezubuhor až po extrém(2).x - jestliže narazíme na hodnotu 1 pak tento bod je mezera a pokračuje v určování dalších extrémů if (V J (extrém(2).x)=1 & extrém(2).x<pozicezubudol) - extrém(2) je jazyk podle pozice, horní ani dolní zuby nejsou vidět jinak - extrém(2) jsou dolní zuby, horní zuby ani jazyk nejsou vidět jestliže se mezera nenašla pak - zjištění jestli maximum je jazyk if (extrém(2).x>pozicezubuhor & V J (extrém(2).x)=1) if (V M (extrém(2).x)=1) - jedná se o mezeru jinak if (extrém(2).x<pozicezubudol) - jedná se o jazyk podle pozice jinak - jedná se o horní zuby jinak - jazyk není vidět - je třeba zkontrolovat jestli se v okolí maxima nevyskytuje ještě nějaké malé maximum, které se zahodilo při hledání extrémů a které představuje jiný objekt - jestliže je extrém(2).x>pozicezubuhor pak hledáme od extrém(1).x do extrém(2).x jinak od extrém(2).x do extrém(3).x - jestliže se maximum nalezne, uloží se jeho pozice jako extrémpom if (extrém(2).x<=pozicezubuhor) - extrém(2) jsou horní zuby if ( V J (extrémpom)=1 & extrémpom<pozicezubudol) - extrémpom je jazyk, dolní zuby nejsou vidět jinak -extrémpom jsou dolní zuby a jazyk není vidět jinak - extrém(2) jsou dolní zuby podle pozice

77 Vlastní přínos if ( V J (extrémpom)=1 & extrémpom>pozicezubuhor) if (extrémpom<pozicezubudol) - extrémpom je jazyk, horní zuby nejsou vidět jinak - horní zuby ani jazyk nejsou vidět jinak - jazyk není vidět if (extrémpom<pozicezubuhor) - extrémpom jsou horní zuby jinak - horní zuby nejsou vidět - musíme zjistit jestli druhé minimum je mezera if V M (extrém(3).x)=1 & V M (extrém(3).x-1)=1 ) & dolní zuby ani mezera se nenašly - extrém(3) je mezera Jestliže je počet extrémů 4 nebo 5 pak se vyhodnocují následující vztahy: if (extrém(1).x>pozicezubuhor & ((extrém(1).y/extrém(0).y)<0.5) V M (extrém)(1).x)=1) - extrém(1) je mezera, nachází se za horními zuby if (V J (extrém(2).x]=1) - extrém(2) je jazyk jinak - jazyk není vidět - horní zuby nejsou vidět, extrém(4) jsou dolní zuby jinak - extrém(1) není mezera if ((extrém(2).x<pozicezubuhor) V J (extrém(2).x)=0) - extrém(2) jsou horní zuby -*** kontrola prostoru od středu mezi extrém(3) a extrém(4) až do extrém(4) jestli se tam nenachází zuby, stává se že se zuby v extrém(4) zamění za jazyk, ale již o bod před jde o zuby - hledáme jestli se V J v této oblasti rovná 0 - jestliže ano pak - extrém(4) jsou dolní zuby - musíme ověřit jestli se mezi zuby nenachází jazyk - mezera ani jazyk nejsou vidět - procházíme úzký proužek O VM od extrém(2) do extrém(4) (pozice zubů) - pro každý řádek nasčítáme počet bodů s hodnotou 255 do vektoru V Jpom a počet bodů s hodnotou 100 do vektoru V Mpom - po průchodu celého proužku procházíme vektory V Jpom a V Mpom if (V Jpom (j)>2 V Mpom (j)>2) if (V Jpom (j)>=v Mpom ) - jazyk převažuje nad mezerou Jazyk++ počítáme kolik místa zabírá jazyk jinak - mezera převažuje nad jazykem Mezera++; if ((Jazyk>1 Mezera>1) & Jazyk>=Mezera) - extrém(3) je jazyk, mezera není vidět jinak if ((Jazyk>1 Mezera>1) & Jazyk<Mezera){ - extrém(3) je mezera, jazyk není vidět jinak - jazyk ani mezera nejsou vidět

78 Vlastní přínos -*** if (Jazyk=0 & Mezera=0 && (extrém(2).y)-extrém(1).y))/(extrém(2).x)-extrém(3).y)<1.2) nalezení mezery porovnáním minim - extrém(3) je mezera jinak if (V J (extrém(4).x)=1 & extrém(4).x<pozicezubudol) - extrém(4) je jazyk jinak - jazyk není vidět jinak - extrém(2) je jazyk, extrém(4) jsou dolní zuby, horní zuby nejsou vidět Jestliže je počet extrémů 6 nebo 7, pak se vyhodnocují následující vztahy: - extrém(2) jsou horní zuby if (V J (extrém(6).x)=0) -extrém(6) jsou dolní zuby - musíme ověřit jestli prostřední maximum jsou zuby nebo jestli došlo k chybě - je použit stejný postup jako při počtu extrémů 4 nebo 5 v úseku *** až ***, místo prohledávání do extrém(4) se prohledává do extrém(6) Tím jsme vyčerpali všechny možnosti počtu nalezených extrémů. Nyní je ještě možné zkontrolovat nalezení horních zubů. Jestliže nebyly horní zuby nalezeny, ale prostor mezi pozicezubuhor a horní hranicí vnitřku je větší než 4 obrazové body, pak by zde měly být horní zuby a jsou sem doplněny. Toto doplnění je možné provést, neboť přibližná pozice horních zubů je velmi přesná. Posledním krokem určení pozic objektů vnitřku úst je zpřesnění přibližných pozic horních a dolních zubů. Jestliže tedy byly horní nebo dolní zuby nalezeny, pak se zprůměruje přibližná pozice s nově nalezenou a tato se považuje za novou přibližnou pozici zubů. Pozice jednotlivých objektů je ovšem třeba ještě upravit. Nalezené pozice zhruba odpovídají středům objektů. Při hledání jejich hranic je nutné hledat střed mezi pozicemi jejich středů. Jestliže spolu sousedí zuby nebo zuby a jazyk, pak se pokouším nalézt minimum mezi těmito objekty, které představuje jejich předěl (pokles jasu na hranici objektů). Tímto postupem získám nejen výskyt, ale i procentní zastoupení jednotlivých objektů uvnitř úst. Úspěšnost metody nalezení pozic objektů vnitřku byla ověřena na ručně označené testovací množině. Množina obsahuje 882 obrazů rtů pro různé řečníky a různé promluvy. Ke každému obrazu byl vytvořen soubor, který určuje, jaké objekty (horní dolní zuby, jazyk, mezera) se v obraze vyskytují. Tyto obrazy jsou poté zpracovány pomocí navržené metody a její výsledky jsou porovnány s ručně vytvořeným popisem daného obrazu. Při ručním vyhledáváním jednotlivých objektů vnitřku úst se stávalo, že ani člověk nedokázal přesně rozhodnout jaké objekty příslušný obraz obsahuje. Takovéto případy nastávaly především při určování viditelnosti jazyka mezi zuby, či překryvu horních a dolních zubů. Výsledná úspěšnost metody byla při tomto testu 71%. Jako správný výsledek byl brán případ, kdy se nalezené objekty plně shodovaly s objekty určenými člověkem Výpočet obrazových příznaků DCT Pro porovnání výsledků mé parametrizace se standardně používanými obrazově orientovanými parametrizacemi jsem použil nejpoužívanější parametrizaci založenou na DCT. Vstupem výpočtu DCT příznaků je oblast zájmu. Pro výpočet obrazově orientovaných příznaků je dobré, když jsou umístění a velikost rtů stále stejné. V mnou získaném ROI by tyto předpoklady měly platit, neboť ve středu ROI je střed rtů a velikost ROI je určena na základě vzdálenosti očí. Prvním krokem při výpočtu DCT příznaků je normalizace ROI na jednotnou velikost. V našem případě byla zvolena velikost ROI 64*64 obrazových bodů. Transformovaný obraz je převeden do šedotónové reprezentace. Výsledný obrázek O Š je znázorněn na obrázku 46. Samotné DCT příznaky jsou vypočítány podle vzorce (41)

79 Vlastní přínos F c ( u, v) ( k ) c ( u) c( v) = 1 = 1 2 N k = 0 N 1 N 1 n= 0 m= 0 1 k N 1 (, n) O m ( 2m 1) u π ( 2n 1) π + cos 2N + cos 2N v, 0 u, v N 1 (41) Proměnné u a v představují frekvence, pro které je transformace počítána, O(m,n) jas obrazu na souřadnicích m, n, konstanta N představuje rozměr obrazu v našem případě 64. Výsledných DCT příznaků je tedy 64*64. Takovéto množství příznaků je pro rozpoznávání nepoužitelné, neboť dimenze příznakového vektoru je příliš velká. Je proto nutné provést výběr vhodných příznaků. Kritérií pro výběr příznaků je několik. Nejpoužívanějším je však výběr podle velikosti energie E definované vzorcem (42). Jako vhodné příznaky je vybráno S prvků F(u,v) s největší energií. ( u, v) F( u, v) 2 E = (42) Pro výběr vhodných příznaků, které budou dobře popisovat daný obraz (rty), je třeba vytvořit trénovací množinu. Trénovací množina by měla obsahovat možné tvary rtů během promluvy od různých řečníků. V našem případě bylo vybráno obrazů, z nichž byla vypočítána Kosinová transformace. Pro každý obraz byla spočítána energie E. Pro všechny frekvence u a v byla spočítána střední hodnota energie E přes všechny obrazy. Tím jsme získali střední hodnotu energie pro jednotlivé prvky F(u,v). S prvků F(u,v) s největší energií je poté použito k vytvoření příznakového vektoru. Výsledkem nalezení vhodných příznaků jsou pozice u,v koeficientů DCT. Při samotném výpočtu příznakového vektoru již stačí vypočítat pouze F(u,v) pro souřadnice získané z trénovací množiny a tím získáme příznakový vektor založený na DCT. Hodnoty frekvencí u,v pro vybrané koeficienty DCT jsou uvedeny v tabulce 14. Obrázek 46. Ukázka zpracování ROI pomocí DCT transformace, 1 původní ROI, 2 ROI zmenšený na velikost 64*64 bodů v šedotónové reprezentaci, 3 ROI po zpětné Kosinové transformaci (15 DCT) Stejný postup jako při získání příznaků pomocí DCT transformace z ROI je použit i pro výpočet příznaků vnitřku úst. Jediný rozdíl je v předkládaném vstupním obraze. Při výpočtu DCT popisujících celé rty jsem používal jako vstupní obraz obdélníkové okolí rtů. Při výpočtu DCT pro vnitřek úst používám obdélníkový výřez vnitřku úst. Tento výřez je definován pomocí vnitřní a vnější hranice rtů. Obdélník vnitřku úst je ohraničen následovně: horní hranice leží ve středu středního horního bodu vnitřní a vnější kontury, dolní hranice leží ve středu středního dolního bodu vnitřní a vnější kontury, levá hranice leží ve středu levého vnitřního a vnějšího koutku a pravá hranice leží ve středu pravého vnitřního a vnějšího koutku viz obrázek 47. Jako trénovací množina bylo použito náhodně vybraných oblastí vnitřku úst. Hodnoty frekvencí u,v pro vybrané koeficienty DCT jsou uvedeny v tabulce

80 Vlastní přínos Obrázek 47. Ukázka zpracování vnitřku úst pomocí DCT transformace, 1 původní ROI, 2 vybraná oblast vnitřku úst, 3 normalizace na velikost 64*64 bodů v šedotónové reprezentaci, 4 obraz vnitřku po zpětné Kosinové transformaci (4 DCT) Výpočet akustických příznaků Pro popis akustické složky řeči byla využita standardně používaná PLP parametrizace. Příznakový vektor má dimenzi 36 a tvoří ho 13 PLP koeficientů, 13 delta a 13 akceleračních koeficientů. Celý příznakový vektor byl vždy normalizován na střední hodnotu přes celou promluvu. 3.4 Databáze pro určení vizémů Určení vizémových skupin pro český jazyk byl velmi důležitý úkol z hlediska rozpoznávání řeči z vizuální složky. Pro rozpoznávání je totiž nutné určit jednotky, které budeme rozpoznávat. Tyto jednotky by měly být dobře odlišitelné právě pomocí informací, které budeme pro rozpoznávání využívat. Jak již bylo uvedeno, vizuální složka zahrnuje méně informací o řeči než akustická složka. Z toho vyplývá, že vizuálních řečových jednotek bude méně než akustických. Volba jednotek samozřejmě záleží na typu úlohy. V případě rozpoznávání izolovaných slov mohou základní jednotky tvořit celá slova. V našem případě rozpoznávání spojité řeči však bylo nutné najít jednotky menší tak, aby odpovídaly akustickým jednotkám. Pro rozpoznávání řeči z akustické složky je pro český jazyk definováno 43 fonémů. Jejich ekvivalent pro vizuální složku tzv. vizémy bohužel oficiálně definovány nejsou. Strnadová ve své knize [83] rozděluje hlásky z hlediska odezírání zhruba do 14 skupin. Nalezením vizémových skupin jsem chtěl ověřit správnost rozdělení hlásek do těchto skupin na malé množině promluv. Při analýze vizémů jsem vycházel z předpokladu, že vizémy by měly být dobře odlišitelné na základě tvaru rtů. Jestliže tedy nalezneme tvar rtů pro jednotlivé fonémy v různých kontextech, budeme moci tyto tvary porovnat. Ty fonémy, které budou příliš podobné (odchylka ve tvaru rtů) by měly tvořit jednu vizémovou třídu. Obrázek 48. Vzdálenost tvarů reprezentujících fonémy vykreslená pomocí dendrogramu. Prvním krokem při zpracování databáze popsané v sekci bylo určení 3D pozic bodů umístěných na rtech řečníka. Tento problém byl vyřešen nalezením pozic bodů v obou pohledech pomocí jednoduché metody prahování. Následně byla využita metoda pro výpočet 3D souřadnic z dvou kalibrovaných pohledů pro osm bodů umístěných na vnější kontuře rtů. Tím jsme získali tvar vnější kontury rtů pro každý snímek video záznamu promluvy. Dále bylo zapotřebí určit hranice

81 Vlastní přínos jednotlivých fonémů v každé promluvě. Proto byla provedena segmentace řeči na základě akustického záznamu a záznamu z laryngografu. Bližší postup je popsán v článku [42]. Výsledkem segmentace je řetěz fonémů a informace o jejich začátku a konci pro každou promluvu. Po rozdělení vizuálních dat do získaných intervalů jsme obdrželi 1-n tvarů rtů reprezentujících daný foném v dané promluvě. Protože akustická a vizuální složka řeči jsou asynchronní, bylo nutné určit, jak daná segmentace odpovídá hranicím fonémů ve vizuální složce řeči. Pro vizuální popis fonémů mohlo být vybráno několik možností. Jako nejlepší reprezentant daného tvaru rtů mohl být vybrán první, prostřední, poslední nebo průměrný tvar rtů příslušející danému intervalu. Jak se ukázalo při studiu hranic nalezených fonémů a vizuální složky řeči, tak nejlépe vizuální složku řeči popisuje první nalezený tvar rtů v daném intervalu viz obrázek 55. Abychom mohli rozhodnout o počtu vizémových tříd, museli jsme spočítat střední tvar každého fonému přes všechny jeho výskyty pro jednoho řečníka. Střední hodnoty nebyly počítány přes všechny řečníky, protože tvar rtů pro jednotlivé řečníky se liší a ovlivnilo by to určení vizémových tříd. Po získání středních hodnot pro všechny fonémy byly vypočítány vzdálenosti mezi těmito tvary a zobrazeny formou dendrogramu viz obrázek 48. Souhlásky a samohlásky byly zpracovávány odděleně. Ze vzdáleností jednotlivých tvarů bylo určeno 13 vizémových tříd jejichž přehled je uveden v tabulce 9. vizém fonémy p,b,m v,f č,š,ř,ž c,s,z l,r d,t,n ď,ť,ň g,h,k,ch a e i o u Tabulka 9. Příslušnost fonému k jednotlivým vizémových třídám

82 Experimenty 4 Experimenty V kapitole byly představeny vizuální příznaky vybrané pro popis vizuální složky řeči. Jedná se o tvarově i obrazově založené příznaky. Pomocí těchto příznaků bylo sestaveno několik příznakových vektorů, které popisují odlišné části vizuální složky řeči. Abych byl schopen porovnat kvalitu jednotlivých příznakových vektorů z hlediska obsahu informace o řeči, musím provést srovnávací experimenty na úlohách vizuálního a audiovizuálního rozpoznávání řeči. Abych mohl určit kvalitu mé vlastní parametrizace, musel jsem provést porovnání výsledků rozpoznávání se standardně používanou parametrizací na úloze, kde již byla tato standardní parametrizace použita. V průběhu vývoje parametrizace a získávání nových poznatků o vizuální složce řeči byly provedeny experimenty celkem na třech různých audiovizuálních databázích. První experimenty byly provedeny na ruské AV databázi za účelem prvotního srovnání jednoduché tvarově orientované parametrizace s obrazově orientovanými parametrizacemi a ověření přínosu použití vizémů při vizuálním rozpoznávání řeči. Druhá sada experimentů byla provedena na databázi XM2VTSBD. V těchto experimentech byla použita běžná obrazově orientovaná parametrizace (DCT) a mnou navržená parametrizace. Cílem bylo vytvořit základní systém audiovizuálního rozpoznávání řeči (BSL), který je založen na DCT vizuální parametrizaci a dosahuje výsledků popsaných v článku [91]. Druhým cílem bylo zjistit jestli mnou navržená parametrizace dosahuje lepších výsledků než základní systém. Poslední skupina experimentů byla provedena na databázi popsané v kapitole Cílem těchto experimentů bylo sestavení nejlepšího příznakového vektoru pomocí příznaků popsaných v kapitole a porovnání výsledků tohoto popisu vizuální složky s výsledky základního systému. Ve všech dále popsaných experimentech, kromě experimentů na ruské databázi, je jako kombinace akustické a vizuální řečové složky použito jednoduché pospojování příznakových vektorů EF. Pospojování příznaků bylo zvoleno pro její jednoduchost. Tato kombinace řečových složek je dostačující, neboť cílem práce není nalezení nové metody kombinace, ale vytvoření nové vizuální parametrizace řeči. Metoda pospojování příznakových vektorů je popsána v kapitole Problémem, který bylo nutné vyřešit před samotnou kombinací akustického a vizuálního příznakového vektoru, byl různý počet měření pro vizuální a akustickou složku řeči. Akustický příznakový vektor byl získáván s frekvencí 100 Hz a vizuální příznakový vektor v s frekvencí 50Hz. Pro srovnání frekvence byl zvolen postup interpolace vizuálních příznakových vektorů na frekvenci 100 Hz pomocí lineární funkce. Takto získaný vizuální příznakový vektor byl podroben ještě dalšímu zpracování. Nejprve byla provedena normalizace příznakového vektoru podle střední hodnoty a rozptylu přes celou promluvu. Tento postup je používán i při úpravě akustického příznakového vektoru a má za cíl odstranit z popisu informaci o dlouhodobých charakteristikách v našem případě se jedná o informaci o řečníkovi. Jak již bylo zmíněno v sekci touto normalizací jsou odstraněny rozdíly ve velikosti rtů a síla artikulace pro jednotlivé řečníky. Po normalizaci již mohli být spočítány delta a akcelerační koeficienty. Dimenze příznakového vektoru se díky výpočtu těchto příznaků ztrojnásobila. Systém vizuálního a audiovizuálního rozpoznávání byl realizován pomocí skrytých Markovských modelů a HTK toolkitu sloužícího pro trénování i rozpoznávání. Rozpoznávání bylo realizováno pro základní řečovou jednotku monofón nebo monovizém. Jako model těchto jednotek byl využit tří stavový model běžně používaný při akustickém rozpoznávání. 4.1 Experimenty na databázi XM2VTSDB Cílem této skupiny experimentů bylo vytvoření základního systému audiovizuálního rozpoznávání založeném na nejčastěji používané vizuální parametrizaci a porovnání tohoto systému se systémem používajícím mnou navrženou parametrizaci na audiovizuální databázi, na níž již byly provedeny audiovizuální experimenty. Nejpoužívanější parametrizací je obrazově orientovaná parametrizace založená na DCT transformaci. Požadavek na audiovizuální databázi byl, aby na ní již byly provedeny

83 Experimenty experimenty s obrazově orientovanou parametrizací, aby obsahovala dostatečný počet řečníků a aby byla databáze dostupná. První podmínku splňovala většina databází popsaných v kapitole 2.5. Druhou podmínku splňuje již jen několik málo databází a třetí podmínka se ukázala jako velký problém. Většina databází není volně ani komerčně dostupných. Jako nejlepší volba se proto ukázalo zakoupení databáze XM2VTSDB. Audiovizuální databáze XM2VTSDB obsahuje nahrávky promluv 10 anglických číslovek (0-9) od 295 řečníků. Číslovky jsou promlouvány spojitě v pořadí 0-9 a poté neuspořádaně. Řečník je snímán z čelního pohledu s rozlišením 720*576 obrazových bodů s frekvencí 25 Hz. Hlava řečníka se v průběhu promluvy nepohybuje a zabírá zhruba třetinu snímku. Fakt, že velikost rtů ve snímku se pohybuje okolo 80*50 bodů nám neumožňovala zvýšit frekvenci záznamu tak jako u databáze UWB- 05-HSCAVC, jak je popsáno v kapitole Scéna má konstantní osvětlení a jednotné modré pozadí viz obrázek 49. Vzorkovací frekvence akustického záznamu byla 32kHz a rozlišení 16 bit. Bližší popis databáze je proveden v článku [57]. Obrázek 49 Ukázka databáze XM2VTSDB, 1 původní videozáznam, 2 nalezení očí a středu úst, 3 nalezení vnitřní a vnější kontury rtů V článku [91] jsou popsány experimenty s vizuálním a audiovizuálním rozpoznáváním provedeném na této databázi. Vizuální parametrizace použitá v článku je získána ze šedoténového ROI obsahujícího ústa a jejich okolí. Pomocí metody PCA je získáno 32 příznaků jejichž množství je redukováno na 13 pomocí metody LDA. Pro parametrizaci akustické složky bylo použito 13 MFCC koeficientů. Trénovací množina obsahuje promluvy 200 řečníků a testovací množina obsahuje promluvy 95 řečníků. Výsledky vizuálního rozpoznávání uvedené v článku jsou 43% WER. Dále je v článku uvedeno srovnání čistě akustického rozpoznávání a audiovizuálního rozpoznávání pro různou úroveň zašumění akustické složky řeči. Výsledek rozpoznávání řeči z akustické složky pro úroveň šumu 0dB je 80%WER, výsledek audiovizuálního rozpoznávání je 24%WER. Náš základní systém byl vytvořen tak, aby pracoval s vizuální parametrizací DCT, kde příznakový vektor má dimenzi 10. Jako akustické příznaky bylo zvoleno 13 PLP koeficientů. Trénovací množina obsahovala promluvy od 245 řečníků a testovací množina promluvy od 50 řečníků. Úloha byla definována jako rozpoznávání spojitých promluv, které byly představovány za sebou promlouvanými číslovkami. Promlouvány byly dvě věty, které byly čtyřikrát opakovány. První věta obsahovala číslovku od 0 do 9 vzestupně a druhá věta ty samé číslovky neuspořádaně. Počet slov byl tedy 10 (číslovky 0-9). Jako základní řečová jednotka byl zvolen foném. Při rozpoznávání byl použit 0- gramový jazykový model a tudíž nebyla uplatněna žádná informace o výskytu slov. Pro výpočet akustických a vizuálních příznaků byly použity postupy popsané v kapitolách a Při vizuálním rozpoznávání se základním systémem bylo dosaženo úspěšnosti rozpoznávání 51%. Má vlastní parametrizace vizuální složky řeči byla tvořena příznakovým vektorem s dimenzí 18. Příznakový vektor byl sestaven z 10 PCA koeficientů popisujících tvar rtů, 4 koeficientů odpovídajících výšce a šířce vnitřní a vnější hranice rtů a 4 DCT koeficientů popisujících vnitřek úst. Místo popisu vnitřku úst pomocí tvarových příznaků byl zvolen popis pomocí DCT, protože velikost vnitřku úst v databázi XM2VTSDB není příliš velká a metoda popsaná v kapitole selhává a proto nebyli použity příznaky popisující pozici zubů a jazyka. Při použití této parametrizace bylo dosaženo úspěšnosti vizuálního rozpoznávání 70%. Takto vysokých úspěšností rozpoznávání řeči pouze z vizuální složky bylo dosaženo díky malému počtu rozpoznávaných slov. Při porovnání tohoto výsledku s výsledkem rozpoznávání základního systému jsem dospěl k závěru, že použití tvarově

84 Experimenty orientovaných příznaků a popisu vnitřku dosahuje lepších výsledků než standardně používaná DCT parametrizace a má proto smysl se dále zabývat studiem vizuální složky řeči. Při provedení rozpoznávání pouze s akustickou složkou řeči bylo zjištěno, že při nezašuměném signálu bylo dosaženo úspěšnosti 99.26%. Takto vysokou úspěšnost rozpoznávání již nebylo možné vylepšit využitím vizuální složky řeči. Proto byl akustický signál degradován pomocí akustického šumu a porovnání výsledků rozpoznávání z akustické složky a audiovizuálního rozpoznávání bylo provedeno na tomto signálu. Pro degradaci signálu na odstup šum signál 0 db byl použit bílý šum. Rozpoznávání řeči pouze z akustické složky dosáhlo v tomto případě úspěšnosti 92.39%. Při použití kombinace akustické a vizuální složky (vlastní parametrizace) pro rozpoznávání bylo dosaženo úspěšnost 96.36%. Kombinace akustické a vizuální složky byla provedena pomocí pospojování příznakových vektorů. Akustické příznaky byly získávány s frekvencí 100 Hz, vizuální příznaky s frekvencí 25Hz. Vizuální příznaky musely být aproximovány lineární aproximací na frekvenci 100 Hz tak, aby bylo možné provést kombinaci stejně dlouhých příznakových vektorů. Využití vizuální složky řeči tedy vylepšilo úspěšnost rozpoznávání při zašuměném akustickém signálu. Pomoc vizuální složky při rozpoznávání v hlučném prostředí simulovaném v tomto případě bílým šumem není příliš velké, neboť samotné akustické rozpoznávání dosáhlo vysoké úspěšnosti rozpoznávání. 4.2 Experimenty na ruské databázi Na experimentech na ruské databázi jsem pracoval se svým kolegou s Alexeyem Karpovem z institutu informatiky a automatizace v Petrohradě v Rusku. Databáze byla vytvořena podle vzoru databáze UWB-05-HSCAVC a obsahuje promluvy od 10 řečníků. Každý řečník promlouvá 200 frází, které odpovídají maximálně čtyř-slovním spojením názvů rubrik ruských zlatých stránek. Celkový počet slov v databázi je 102. Podmínky nahrávání jsou podobné jako podmínky popsané v kapitole Trénovací množina obsahuje 80% promluv každého řečníka a testovací množina obsahuje zbytek. Vizuální složka databáze byla předzpracovánu způsobem, který je popsán v kapitole Byla tedy nalezena hlava řečníka a lokalizována oblast zájmu ROI. Obrázek 50. Ukázka ruské databáze Na databázi bylo provedeno několik experimentů. Prvním z nich bylo porovnání výsledků jednoduché tvarově orientované vizuální parametrizace a obrazově orientované parametrizace. K jejímu získání byl použit postup popsaný v kapitole Tvarově orientovaná parametrizace původně obsahovala 4 příznaky. Výšku a šířku vnitřní a vnější hranice rtů. Při studiu průběhu jednotlivých příznaků během promluvy se ukázalo, že parametr šířka vnější kontury se s promluvou mění jen minimálně a nepopisuje tedy danou promluvu. Šířka vnější hranice byla tedy z parametrizace vyloučena a příznakový vektor měl dimenzi 3. Jako obrazově orientovaná parametrizace byla vybrána parametrizace založená na PCA koeficientech. Příznakový vektor byl vypočten pomocí metody PCA, která redukovala dimenzi původního šedotónového obrazu ROI na 32 příznaků. Příznaky byly počítány z obrazu o velikost 64*64 bodů pomocí metody popsané v kapitole V případě experimentů na ruské databázi bylo místo kombinace akustické a vizuální složky pomocí pospojování

85 Experimenty příznakových vektorů použito pozdní kombinace příznaků pomocí multi-streamového modelu. To znamená, že výsledná pravděpodobnost rozpoznané promluvy je počítána jako vážená kombinace pravděpodobností rozpoznávání pomocí akustické a vizuální složky. Váhy jednotlivých složek řeči byly voleny experimentálně. Experimenty byly prováděny pro úlohu rozpoznávání frází se slovníkem 102 slov. Jako základní řečová jednotka byl zvolen foném a vizém. Prvním experimentem bylo ověření zlepšení vizuálního rozpoznávání při použití vizémů místo fonémů jako základní řečové jednotky. Jako parametrizace byla použita tvarově orientovaná parametrizace. Při použití 45 fonémů byla úspěšnost vizuálního rozpoznávání 20%. Při použití 13 vizémů se úspěšnost zvýšila na 48%. V obou případech se jednalo o rozpoznávání celých slov. Je nutné říci, že úspěšnost audiovizuálního rozpoznávání se zhoršila z 92% při použití fonémů na 56% při použití vizémů. Druhým experimentem bylo audiovizuální rozpoznávání řeči při zašuměném akustickém signálu, kde SNR bylo 10dB. Při rozpoznávání bylo použito jako základních řečových jednotek fonémů a rozpoznávání probíhalo na úrovni celých frází (200 různých frází). Úspěšnost rozpoznávání z akustické složky byl 90.1%. Výsledek kombinovaného audiovizuálního rozpoznávání při použití obrazové vizuální parametrizace byl 92% a při použití tvarové vizuální parametrizace 92.3%. Bylo tedy dosaženo zlepšení úspěšnosti rozpoznávání při použití vizuální složky řeči při zašuměné akustické složce řeči. Z výsledků je zřejmé, že použitím obrazově a tvarově orientované vizuální parametrizace bylo dosaženo podobných výsledků. Porovnání obou typů parametrizací tedy ukazuje, že v tomto případě by bylo vhodnější využít obrazově orientovanou parametrizaci, neboť nevyžaduje použití výpočetně náročné metody nalezení kontury rtů. 4.3 Experimenty na databázi UWB-05-HSCAVC Poslední a největší skupina experimentů byla provedena na nahrané audiovizuální databázi UWB- 05-HSCAVC. Díky využití celé plochy snímku pro záznam hlavy řečníka (natočení kamery o 90 ) bylo možné realizovat algoritmus pro nalezení pozic objektů uvnitř úst (zuby, jazyk, mezera) a využít tyto informace při parametrizaci. Celá databáze byla rozdělena na trénovací a testovací množinu. Trénovací množina obsahovala promluvy od všech řečníků (tyto promluvy jsou odlišné pro každého řečníka) a testovací množina obsahovala promluvy 1-50 od všech řečníků (stejné pro všechny řečníky). Všechny experimenty byly provedeny pro úlohu rozpoznávání slov, která jsou promlouvána ve spojitých větách. Slovník pro rozpoznávání obsahoval 344 slov. Jako jazykový model byl použit 0-gramový jazykový model. Znamená to tedy, že pro rozpoznávání slov nebyl využit slovní kontext a pravděpodobnost výskytu slov byla nastavena rovnoměrně pro všechna slova. Jako základní řečová jednotka byl použit foném a vizém. Kombinace informace z akustické a vizuální složky byla kombinována pomocí pospojování akustického a vizuálního příznakového vektoru. Akustické příznaky byly získávány s frekvencí 100 Hz, vizuální příznaky s frekvencí 50Hz. Vizuální příznaky musely být aproximovány lineární aproximací na frekvenci 100 Hz tak, aby bylo možné provést kombinaci stejně dlouhých příznakových vektorů. Pro fázi trénování modelů a rozpoznávání byl použit HTK toolkit. Pro rozpoznávání byla využita metoda běžně používaná pro rozpoznávání řeči z akustické složky řeči založená na skrytých Markovských modelech. Jako model základní řečové jednotky byl zvolen nejčastěji používaný tří stavový model. Pro jednotlivé rozpoznávací experimenty byl vždy použit stejný postup trénování a rozpoznávání ovšem odlišné příznakové vektory. Experimenty jsem rozdělil do čtyř částí. První skupina experimentů představovala zjištění úspěšnosti samotného akustického rozpoznávání pro čistou (původní) řeč a pro řečový signál s přidaným šumem. Pro zašumění akustického signálu byl použit bílý šum s odstupem signál šum 0dB. Pro rozpoznávání z akustické složky řeči byla použita parametrizace popsaná v kapitole Příznakový vektor má dimenzi 36 a je tvořen PLP koeficienty. Frekvence získávání příznaků byla 100Hz. Původní nezašuměný akustický signál byl použit i pro druhou a třetí část experimentů pro audiovizuální rozpoznávání. Úspěšnost akustického rozpoznávání pro nezašuměný signál je 81.47% a úspěšnost rozpoznávání pro zašuměný signál je 60.79%

86 Experimenty Druhá část zahrnuje experimenty s vizuálním a audiovizuální rozpoznáváním při použití DCT parametrizace pro vizuální složku řeči. Cílem těchto experimentů bylo nalézt optimální dimenzi obrazově orientovaného příznakového vektoru z hlediska úspěšnosti vizuálního a audiovizuálního rozpoznávání. Pro tyto účely byly použity příznakové vektory s dimenzí 10, 15, 20 a 30. Příslušné frekvence u a v prvků DCT koeficientů pro jednotlivé příznaky jsou uvedeny v tabulce 14. Příznakový vektor byl vypočten metodou popsanou v kapitole Dimenze příznakového vektoru byla voleno s ohledem na předchozí experimenty provedené na databázi XM2VTSDB. Výsledky experimentů jsou uvedeny v tabulce 10. Nejlepších výsledků vizuálního i audiovizuálního rozpoznávání bylo dosaženo pro dimenzi vizuálního příznakového vektoru 15. Označení Počet příznaků Úspěšnost vizuálního rozpoznávání v % Úspěšnost audiovizuálního rozpoznávání v % DCT DCT DCT DCT Tabulka 10 Výsledky vizuálního a audiovizuálního rozpoznávání pro obrazově orientované parametrizace. Třetí část experimentů zahrnovala testování příznakových vektorů sestavených pomocí různých příznaků odvozených v kapitole na úloze vizuálního a audiovizuálního rozpoznávání. V kapitole byl proveden výběr vizuálních příznaků na základě studia tvorby řeči a odezírání. Pro ověření toho, jak daný příznak popisuje vizuální řeč byly postupně prováděny rozpoznávací experimenty pro různé kombinace těchto příznaků. V příznakových vektorech byly kombinovány příznaky popisující jednotlivé části vizuální složky řeči, například tvar rtů či objekty uvnitř rtů. Postupně bylo otestováno 8 příznakových vektorů. Během testování docházelo k vyhodnocování toho, jaké příznaky popisují informaci o řeči lépe a jaké hůře a podle toho byl volen další postup sestavování příznakových vektorů. Jednotlivé příznakové vektory jsou popsány v tabulce 11. Jako první byla vyzkoušena kombinace všech určených příznaků. Poté byly k této parametrizaci přidány příznaky DCT popisující ROI a vnitřek úst. Přidání DCT příznaků zlepšilo úspěšnost rozpoznávání. Jako další krok byla provedena redukce tvarových příznaků. Byly vynechány příznaky šířka vnější kontury, vyšpulení rtů, pohyb brady, zavření úst a viditelnost horních zubů a počet PCA koeficientů popisujících tvar rtů byl zmenšen na 8. Toto vynechání některých příznaků opět přispělo k zvýšení úspěšnosti rozpoznávání. Jestliže však porovnáme parametrizaci využívající pro popis vnitřku úst DCT a tvarové příznaky, pak parametrizace s DCT příznaky dosahuje lepších výsledků. Posledním krokem tedy byla kombinace všech popisů s vynecháním popisu vnitřku. Tato parametrizace dosahuje nejlepších výsledků. Označení Počet příznaků Pv 21 Popis příznaků šířka vnitřku,šířka vnějšku, výška vnitřku, výška vnějšku, 10 PCA modelu, 4 vnitřek úst, zavření úst, pohyb brady, vyšpulení rtu, viditelnost horních zubů přidání DCT Úspěšnost vizuálního rozpoznávání v % Úspěšnost audiovizuálního rozpoznávání v % PvDv 25 Pv + 4DCT vnitřku PvDvne 25 Pv + 4DCT vnějšku

87 Experimenty PDv 18 Pmvm 15 PmvmDv 19 PmvmDvne 19 PmDvDvne 19 šířka vnitřku,šířka vnějšku, výška vnitřku, výška vnějšku, 10 PCA modelu, 4 DCT vnitřku zmenšení tvarových příznaků šířka vnitřku,výška vnitřku, výška vnějšku, 8 PCA modelu, 4 vnitřek úst šířka vnitřku,výška vnitřku, výška vnějšku, 8 PCA modelu, 4 vnitřek úst, 4 DCT vnitřku šířka vnitřku,výška vnitřku, výška vnějšku, 8 PCA modelu, 4 vnitřek úst, 4 DCT vnějšku vynechání popisu vnitřku šířka vnitřku,výška vnitřku, výška vnějšku, 8 PCA modelu, 4 DCT vnitřku, 4 DCT vnějšku Tabulka 11. Výsledky vizuálního a audiovizuálního rozpoznávání pro mnou navržené parametrizace kombinující tvarově a obrazově orientované příznaky. Poslední skupinou experimentů bylo ověření přínosu použití vizémů jako základních řečových jednotek místo fonémů při vizuálním rozpoznávání řeči a vylepšení výsledků akustického rozpoznávání řeči v hlučném prostředí použitím vizuální složky řeči. Tyto experimenty již byly provedeny pouze pro parametrizaci, která dosáhla nejlepších výsledků při vizuálním a audiovizuálním rozpoznávání v předchozích dvou částech a nejlepší obrazovou parametrizaci. Jednalo se o parametrizaci s označením PmDvDvne a DCT15. Při testování vizuálního rozpoznávání s použitím vizémů byly použity vizémy, které jsou popsány v kapitole 3.4. Test proběhl stejně jako při použití fonémů jen se zmenšil počet základních řečových jednotek. Pro porovnání výsledků akustického a audiovizuálního rozpoznávání jsem použil zašuměný akustický řečový signál popsaný v první části experimentů. Výsledky rozpoznávání těchto dvou úloh jsou uvedeny v tabulce 12. Označení Úspěšnost vizuálního rozpoznávání s použitím vizémů Úspěšnost audiovizuálního rozpoznávání při zašuměné akustické složce řeči PmDvDvne DCT Tabulka 12. Výsledky vizuálního rozpoznávání s použitím vizémů a audiovizuálního rozpoznávání při zašuměném akustickém řečovém signálu (0dB). 4.4 Zhodnocení experimentů Hlavním výsledkem experimentů popsaných v předchozí kapitole je, že mnou navržená parametrizace dosáhla lepších výsledků z hlediska úspěšnosti rozpoznávání než nejčastěji používaná parametrizace založená pouze na DCT příznacích. Tohoto výsledku bylo dosaženo jak na úloze vizuálního rozpoznávání řeči, tak na úloze audiovizuálního rozpoznávání řeči. Při použití parametrizace PmDvDvne, na úloze vizuálního rozpoznávání byla dosažena úspěšnost 17.31% a na úloze audiovizuálního rozpoznávání 84.86%. Při použití parametrizace DCT15 byla dosažena úspěšnost 13.35% na úloze vizuálního rozpoznávání řeči a úspěšnost 83.88% na úloze audiovizuálního rozpoznávání řeči. Použití parametrizace PmDvDvne tedy zlepšilo úspěšnost rozpoznávání pro úlohu vizuálního rozpoznávání o 3.96% a pro úlohu audiovizuálního rozpoznávání o 0.98% oproti použití parametrizace DCT15. Podobného rozdílu úspěšnosti rozpoznávání bylo dosaženo pro při experimentech s audiovizuálním rozpoznáváním, kde byla akustická složka řeči degradována pomocí šumu. Úspěšnost rozpoznávání při použití parametrizace DCT15 byla 70.12% a při použití PmDvDvne 74.31%. Při použití mnou navržené parametrizace došlo k nárůstu úspěšnosti o 4.19%. Dalším úkolem bylo porovnání použití vizémů a fonémů při úloze vizuálního a audiovizuálního rozpoznávání. Na ruské databázi bylo dosaženo lepších výsledků vizuálního rozpoznávání při použití vizémů (úspěšnost 48%) než při použití fonémů (úspěšnost 20%). Pro databázi UWB-05-HSCAVC

88 Experimenty však byl pozorován opačný efekt. Při použití vizémů došlo k zhoršení úspěšnosti rozpoznávání ze 17.31% (PmDvDvne), 13.35% (DCT15) při použití fonémů na 12.90% (PmDvDvne), 12.12% (DCT15) při použití vizémů. Očekával jsem, že při použití vizémů dojde k zvýšení úspěšnosti rozpoznávání. To, že došlo k poklesu, může být zapříčiněno špatnou volbou vizémových skupin, či nevhodností parametrizace k takovému popisu. Tento rozpor bude jedním z cílů dalších prací při návrhu vizuální parametrizace. Testy na ruské databázi ukázaly, že jestliže se použijí vizémy pro úlohu audiovizuálního rozpoznávání při kombinaci informace pospojování příznakových vektorů dochází k zhoršení úspěšnosti rozpoznávání. Bylo by tedy vhodnější využít jiný způsob kombinace informace. Jako nejlepší metoda se z hlediska využití vizémů jeví pozdní kombinace, tedy kombinace rozhodnutí odděleného akustického a vizuálního rozpoznávače. Vytvoření parametrizace, která dosahuje lepších výsledků než běžně používaná parametrizace bylo možné pouze díky vyhodnocování výsledků experimentů, které byly prováděny s příznakovými vektory, které byly složeny z příznaků popsaných v kapitole Postupně se totiž ukazovaly klady a zápory jednotlivých příznaků z hlediska popisu vizuální složky řeči. Z experimentů na anglické databázi bylo zřejmé, že použití popisu tvaru rtů a vnitřku úst (v tomto případě pomocí DCT) dosahuje lepších výsledků než základní systém rozpoznávání používající parametrizaci založenou na DCT příznacích. První parametrizací, která byla testována na databázi UWB-05-HSCAVC, byla parametrizace Pv, která používala všechny mnou navržené tvarově orientované příznaky. Výsledky rozpoznávání však ukazovaly, že parametrizace nepopisuje vizuální složku řeči zrovna nejlépe. Z experimentů na ruské databázi se ukázalo, že příznak šířka vnější kontury rtů není pro popis řeči příliš přínosný. Při analýze příznaků pozice brady, vyšpulení rtů, viditelnost horních zubů jsem zjistil, že mnou navržený algoritmus pro jejich výpočet nepracuje příliš spolehlivě a proto jsem tyto příznaky z parametrizace vyloučil. Jak se ukázalo, tak úspěšnost rozpoznávání se tím zlepšila. Vynechané příznaky byly chybné a proto zhoršovaly výsledky rozpoznávání. Samostatné testy byly prováděny s parametrizací používají popis tvaru rtů a část DCT příznaků popisujících celý ROI. Ukázalo se, že použití příznaků DCT popisujících oblast zájmu přináší vylepšení úspěšnosti rozpoznávání. DCT příznaky tedy popisují část vizuální složky řeči, která není podchycena popisem tvaru rtů. Proto byly tyto příznaky použity ve výsledné parametrizaci. V dalším zhodnocení příznaků jsem se zaměřil na vnitřek rtů. Využití tvarového popisu vnitřku rtů vedlo k parametrizaci, která dosáhla vyšší úspěšnosti rozpoznávání než parametrizace DCT15 a ukazuje tedy, že využití vizuální informace o vnitřku úst je prospěšné. Jestliže jsem ovšem místo popisu vnitřku použil popis založený na DCT (4 příznaky, počet příznaků byl zvolen a budou provedeny další testy s optimálním počtem koeficientů DCT vnitřku) byla úspěšnost rozpoznávání ještě lepší. To ukazuje, že DCT příznaky dokáží vnitřek úst zatím popsat lépe než mnou navržené tvarové příznaky. Problém ovšem spočívá spíše v nízké úspěšnosti nalezení objektů vnitřku a určení jejich pozic než ve špatně zvoleném popisu. Úspěšnost algoritmu nalezení objektů vnitřku je 70%, přičemž vyhodnocení úspěšnosti je obtížné viz kapitola Nejlepší parametrizace je tedy parametrizace používající jak tvarově orientované, tak obrazově orientované příznaky. Mnou navržená parametrizace PmDvDvne dosahuje lepších výsledků při vizuálním i audiovizuálním rozpoznávání řeči než parametrizace DCT15. Je to způsobeno tím, že moje parametrizace využívá mimo vybraných DCT příznaků popisujících ROI také příznaky popisující tvar vnitřní a vnější kontury rtů a příznaků popisujících objekty uvnitř úst (jazyk, horní a dolní zuby, mezera). Mnou navržená parametrizace PmDvDvne dosahuje lepších výsledků než parametrizace DCT15. Je však nutno podotknout, že výpočet parametrizace DCT15 je časově méně náročný. Výpočetní náročnost parametrizace PmDvDvne je způsobena především nutností nalezení vnitřní a vnější kontury rtů, s jejíž pomocí jsou poté vypočítávány jednotlivé příznaky. Cílem práce však bylo prozkoumání možností vizuálních parametrizací z hlediska úspěšnosti rozpoznávání bez ohledu na náročnost jejich výpočtu. Se vzrůstajícím výkonem výpočetní techniky lze i tvarově orientované parametrizace počítat v dostatečně krátkém čase. Metodu nalezení vnitřní a vnější kontury rtů jsem ovšem dokázal implementovat tak, aby pracovala v reálném čase a výpočet celé parametrizace je tedy možné realizovat také v reálném čase

89 Experimenty Poslední úlohou, na které byl ověřen přínos vizuální složky řeči pro rozpoznávání řeči bylo audiovizuální rozpoznávání řeči při zašuměné akustické složce. Tyto experimenty již byly provedeny pouze pro dvě nejlepší parametrizace DCT15 a PmDvDvne. Akustický signál byl degradován bílým šumem s odstupem signál-šum 0dB. Výsledky samostatného akustického rozpoznávání ukazují, že při zašumění dochází k velkému poklesu úspěšnosti rozpoznávání z % bez šumu na 60.79% při zašuměném signálu. Jestliže pro rozpoznávání využijeme i vizuální složku řeči dochází k vylepšení úspěšnosti na 74.31% pro PmDvDvne a na 70.12% pro DCT15. Nárůst úspěšnosti je tedy o 14%. I na této úloze dosáhla kombinovaná vizuální parametrizace PmDvDvne lepších výsledků než běžně používané parametrizace DCT15. Výsledek audiovizuálního rozpoznávání zde velmi závisí na metodě kombinace informace. Pro kombinaci by měla být použita metoda, která co nejlépe umožňuje nastavit důvěryhodnost vizuální či akustické složky řeči. Tento experiment prokazuje, že využití vizuální složky řeči pro rozpoznávání se nejvíce uplatňuje v prostředí s degradovaným akustickým signálem. Mé výsledky rozpoznávání je možné porovnat s výsledky systému vyvinutém na vysoké škole v Liberci. Je to jediný systém pro audiovizuální rozpoznávání českého jazyka. Jeho výsledky jsou prezentovány pro úlohu rozpoznávání izolovaných slov. Experimenty byly provedeny pro obrazově orientovanou parametrizaci založenou na DCT příznacích (15 příznaků) a tvarově orientovanou parametrizaci, kde byly jako příznaky zvoleny šířka, výška, počet bodů a okrouhlost rtů. Úspěšnost vizuálního rozpoznávání pro obrazově založenou parametrizaci je 34.8%, pro tvarově orientovanou 45.2%. Úspěšnost audiovizuálního rozpoznávání pro obrazově založenou parametrizaci je 64%, pro tvarově orientovanou 64%. Z publikovaných výsledků nelze jednoznačně říci jaká z použitých parametrizací je vhodnější, protože při vizuálním rozpoznávání dosáhla lepších výsledků obrazová parametrizace ovšem při audiovizuálním rozpoznávání je úspěšnost rozpoznávání stejná. Protože však jako tvarově orientované příznaky byly použity pouze 4 parametry popisující vnější konturu rtů, dá se tedy předpokládat, že při použití mnou navržených příznaků by se úspěšnost rozpoznávání vylepšila. Hlavním zhodnocením provedených experimentů, které plyne z předchozích odstavců, tedy je, že využití popisu tvaru rtů (vnitřní a vnější kontury) a popisu vnitřku úst je vhodné pro využití v úlohách vizuálního a audiovizuálního rozpoznávání, protože zvyšuje úspěšnost rozpoznávání. Nevýhoda využití těchto příznaků je vyšší výpočetní náročnost celé parametrizace. 4.5 Možná vylepšení Mezi nejdůležitější body vylepšení celého navrženého systému audiovizuálního rozpoznávání patří vylepšení algoritmu pro určení pozic objektů uvnitř rtů a výpočet příznaků jako pozice brady či vyšpulení rtů. Úspěšnost algoritmu pro nalezení pozic objektů vnitřku úst je 70%. Algoritmus by mohl být vylepšen využitím znalostí o pozicích objektů uvnitř úst z předchozího snímku pro nalezení pozic ve snímku současném. Výpočet příznaku pozice brady řečníka selhával především v problémovém určení pozice brady a nosu řečníka. Řešením tohoto problému by mohlo být rozšíření modelu rtů o body popisující pozice očí, nosu a hranici spodní čelisti. Takovýto model by dovoloval přesněji určit pozici brady a zlepšoval by i určení pozice a tvaru rtů, neboť pohyb brady je částečně korelován s pohybem spodního rtu. Mezi vylepšení parametrizace by mělo patřit provedení testů, které by určili optimální počet DCT příznaků popisujících vnitřek úst. Nalezení vnitřní a vnější kontury rtů by mohlo být vylepšeno využitím znalosti tvaru rtů z předchozího kroku. S tímto postupem již byly prováděny experimenty a ukázalo se, že změny tvaru rtů jsou příliš velké, než aby mohlo být použito univerzální pravidlo, že rty se mohou deformovat pouze o určitou konstantní vzdálenost od tvaru rtů v předchozím kroku. Algoritmus by musel brát v úvahu rychlost změny tvaru rtů a podle ní upravovat i možnost deformace modelu oproti předchozímu tvaru. Dalším možným zlepšením algoritmu by mohla být metoda určující přechod rty a kůže a rty a vnitřek úst pomocí jiné metody než je prahování. Metoda by mohla být založena

90 Experimenty například na vytvoření vzorů těchto přechodů a připívala by k zlepšení nasazení modelu rtů na nalezený objekt rtů pomocí prahování. Zlepšení celkového systému audiovizuálního rozpoznávání řeči by jistě vylepšilo použití jiné metody kombinace informace než pouhé pospojování příznakových vektorů. V kapitole 4.3 bylo ukázáno, že pro rozpoznávání řeči z vizuální složky může být vhodnější použít jako základní řečové jednotky vizémy místo fonémů, ovšem při použití vizémů pro rozpoznávání řeči z akustické složky dochází ke zhoršení úspěšnosti rozpoznávání. Proto by systém měl využívat kombinace rozhodnutí dvou oddělených klasifikátorů, vizuálního a akustického. V kapitole bylo naznačeno, že plynulá řeč obsahuje kromě charakteristických obrazů reprezentujících vizémy také velké množství mluvního šumu. Při odstranění tohoto šumu by se rozpoznávání velmi usnadnilo. Charakteristické obrazy by bylo možné alespoň částečně detekovat pomocí extrémů v časovém vývoji jednotlivých tvarově orientovaných příznaků. Pro ověření tohoto postupu bude nutné provést podrobnou analýzu vývoje jednotlivých příznaků a ověřit zda je detekce charakteristických obrazů vizémů pomocí extrému spolehlivá

91 Závěr 5 Závěr Hlavním cílem disertační práce bylo prostudování vizuální složky řeči z hlediska tvorby řeči a odezírání a využití těchto znalostí pro vytvoření nové parametrizace vizuální složky řeči, která by dosahovala vyšší úspěšnosti rozpoznávání v úlohách vizuálního a audiovizuálního rozpoznávání řeči než běžně používaná parametrizace. Tento cíl byl splněn, protože jsem navrhl vizuální parametrizaci využívající jak tvarově tak obrazově orientované příznaky s označením PmDvDvne, která dosahuje vyšší úspěšnosti rozpoznávání o 3.96% na úloze vizuálního rozpoznávání řeči a o 0,98% na úloze audiovizuálního rozpoznávání než nejpoužívanější parametrizace založená na DCT příznacích. Pro dosažení hlavního cíle byly realizovány jednotlivé pod-úkoly, nutné pro návrh a ověření nové vizuální parametrizace. Nejprve jsem prostudoval dostupnou literaturu o oblasti audiovizuálního rozpoznávání a zjistil jsem, že oblast tvorby vizuální parametrizace je velmi otevřená. Dalším krokem bylo nastudování problematiky tvorby vizuální řeči a technik odezírání řeči, kdy jsem jednotlivé postupy konzultoval se specialisty daných oborů paní Strnadovou (odezírání) a paní Jirutkovou (logopedie). Pro praktické ověření teoretických poznatků a pro účely ověřovacích experimentů byla vytvořena audiovizuální databáze pro český jazyk, která svými parametry (počet řečníků, rozlišení, osvětlení, počet promluv) splňuje předpoklady pro testování nové vizuální parametrizace. Jako další databáze byla vytvořena speciální databáze pro nalezení základních řečových jednotek, tzv. vizémů. Pomocí všech získaných poznatků jsem navrhl vizuální příznaky, které umožňují popis a odlišení jednotlivých vizémů a jsou nezávislé na řečníkovi. Aby bylo možné získat navržené příznaky, musel jsem vytvořit algoritmus pro nalezení vnitřní a vnější kontury rtů a pro určení pozic objektů vnitřku úst (zuby, jazyk a mezera). Algoritmus pro nalezení vnitřní a vnější kontury rtů byl implementován tak, aby pracoval v reálném čase. V reálném čase tedy může být vypočtena i výsledná parametrizace PmDvDvne. Pro ověření kvality navržené parametrizace musel být vytvořen základní systém využívající běžně používanou obrazově orientovanou parametrizaci a provedeny srovnávací experimenty mé parametrizace a základního systému. Základní systém byl navržen tak, aby dosáhl podobných výsledků na anglické databázi XM2VTSDB jako systém audiovizuálního rozpoznávání řeči testovaný na této databázi. Tím, že základní systém dosáhl podobných výsledků jsme získali systém, který reprezentuje výsledky audiovizuálního rozpoznávání s běžně používanou parametrizací. Poté byly provedeny dvě sady experimentů. První na ruské databázi, kde byl testován vliv použití vizémů pro vizuální rozpoznávání. Ukázalo se, že použití vizémů místo fonémů přineslo zlepšení úspěšnosti rozpoznávání o 28%. Tento experiment byl proveden i na české databázi UWB-05-HSCAVC, kde bylo ovšem dosaženo výsledků opačných, tedy snížení úspěšnosti rozpoznávání o 4.41%. Poslední sada experimentů byla provedena na české databázi a měla za úkol sestavit vizuální příznakový vektor z navržených příznaků, který dosáhne nejvyšší úspěšnosti rozpoznávání. Postupnou analýzou kvality jednotlivých příznaků jsem došel až k výsledné parametrizaci PmDvDvne, která využívá jak obrazově tak tvarově orientovaných příznaků a popisuje tvar vnitřní i vnější kontury, okolí rtů i vnitřek úst. Tím, že je úspěšnost této parametrizace vyšší než úspěšnost základního systému, byl splněn hlavní cíl disertační práce. Mé výsledky rozpoznávání mohly být bohužel porovnány pouze s jedinou prací, protože ostatní práce prováděly experimenty na databázích, které nebylo možné získat. Použití vizuální parametrizace PmDvDvne dosahuje lepších výsledků než použití parametrizace popsané v článku [91]. Jestliže bychom chtěli srovnat výsledky s nějakým audiovizuálním systémem rozpoznávání českého jazyka, pak by to musel být systém vyvinutý na vysoké škole v Liberci. Je to jediný systém pro audiovizuální rozpoznávání českého jazyka. Jeho výsledky jsou prezentovány pro úlohu rozpoznávání izolovaných slov a není tedy možné přímo porovnávat výsledky s mým systémem. Systém dosahuje podobných úspěšností rozpoznávání řeči při použití obrazově i tvarově orientované parametrizace

92 Závěr Hlavní i všechny dílčí cíle disertační práce byli splněn, ovšem systém audiovizuálního rozpoznávání je možné dále rozvíjet. Jako nejdůležitější cíl je vylepšení algoritmu pro nalezení objektů vnitřku úst, aby bylo možné ověřit zda je takovýto popis lepší než popis pomocí DCT příznaků, a výběr optimálního počtu DCT příznaků popisujících vnitřek rtu. Dále je nutné ověřit přínos použití jiné metody kombinace informace než pospojování příznaků a využít toho, že pro vizuální rozpoznávání je lepší použít vizémy místo fonémů

93 Seznam publikovaných prací 6 Seznam publikovaných prací 6.1 Publikace ve sbornících Železný, M., Krňoul, Z., Císař, P., Matoušek, J.: Design, Implementation and Evaluation of the Czech Realistic Audio-Visual Speech Synthesis. Signal Procesing, vol. 86, no.12, December 2006, Elsevier, str (ISSN ) Císař, P., Zelinka, J., Železný, M., Karpov, A., Ronzhin, A. Audio-visual Speech Recognition for Slavonic Languages SPECOM2006, St. Petersburg, Russia, 2006 Císař P., Železný M., Krňoul Z., Kanis J., Zelinka J., Müller L. Design and Recognition of Czech Speech Corpus for Audio-Visual countinuous Speech Recognition Auditory-Visual Speech Processing International Conference 2005, Vancouver Island, British Columbia, Canada, 2005 Železný M., Císař P., Krňoul Z., Ronzhin A., Li I., Karpov A. Design of Russian audio-visual speech corpus for bimodal speech recognition SPECOM 2005, Wire Communication Laboratory, University of Patras, Greece, 2005 Krňoul Z., Železný M., Císař P., Holas J. Viseme Analysis for Speech-Driven Facial Animation for Czech Audio-Visual Speech Synthesis SPECOM 2005, Wire Communication Laboratory, University of Patras, Greece, 2005 Císař P., Železný M. Detection of Face Position and 3D Orientation in 2D image SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences, Speech Informatics Group, 2004 Krňoul Z., Železný M., Císař P. Face Model Reconstruction for Czech Audio-Visual Speech Synthesis SPECOM'2004; Saint-Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences, Speech Informatics Group, 2004 Císař P., Železný M. Using of Lip-Reading for Speech Recognition in Noisy Environments Proceedings of the 13th Czech - German Workshop on Speech Processing. Praha : ÚRE AVČR, ISBN , 2004 Císař P., Železný M., Krňoul Z. 3D Lip-tracking for Lip-reading in Real Applications Proceedings of the ICSLP 2004, Jeju, Republic of Korea, 2004 Železný M., Císař P. Czech audio-visual speech corpus of a car driver for in-vehicle audio-visual speech recognition Proceedings of AVSP Grenoble : Université Stendhal, ISSN S ,

94 Seznam publikovaných prací Císař P., Železný M. Feature selection for the Czech speaker independent automatic lip-reading ECMS 2003 : 6th international workshop on electronics, control, measurement and signals. - Liberec : Technical University, ISBN X. - S , 2003 Císař P., Krňoul Z., Novák J., Železný M. Approach to an audio-visual speech synthesis using concatenation-based method. The Proceedings of the 11th Czech-German Workshop on Speech Processing. Prague (ISBN ), 2002 Železný M., Císař P., Krňoul Z., Novák J. Design of an Audio-Visual Speech Corpus for the Czech Audio-Visual Speech Synthesis. The 7th International Conference on Spoken Language Processing ICSLP2002. Denver, U.S.A pp (ISBN ), Rigorózní práce Císař P. Využití metod odezírání ze rtů pro podporu rozpoznávání řeči Diplomová práce Císař P. Modul automatické segmentace obrazu pro projekt mluvící hlava

95 Literatura 7 Literatura [1] Alissali, M., Deleglise, P., Rogozan, A. (1996). Asynchronous Integration of Visual Information in An Automatic Speech Recognition System, In Proc. ICSLP 96, Philadephia, PA,USA. [2] André-Obrecht, R., Jacob, B., Parlangeau, N. (1997). Audio Visual Speech Recognition and Segmental Master Slave HMM, In Proc. AVSP'97 workshop, Rhodos (Greece), Sept [3] Barker, J. P., Berthommier, F. (1999). Estimation of Speech Acoustics from Visual Speech Features: A Comparison of Linear and Non-Linear Models, In Proc AVSP, Santa Cruz, CA, USA. [4] Barnard, M., Holden, E. J., and Owens, R. (2002). Lip tracking using pattern matching snakes, In Proc. ACCV2002, Melbourne, Australia. [5] Basu, S., Oliver, N., Pentland, A. (1998). 3D Modeling and Tracking of Human Lip Motion, In Proc. ICCV98, Bombay, India, January 4-7. [6] Bregler, C., and Konig, Y. (1994). Eigenlips for robust speech recognition, In Proc. ICASSP, pp. II II--672, Adelaide, Australia. [7] Bregler, C., Hild, H., Manke, S., Waibel, A. (1993). Improving connected letter recognition by lipreading, In Proc ICASSP, Minneapolis, USA. [8] Campbell, R., Dodd, B.J., Burnham, D. (1998). Hearing by eye II. Hove, United Kingdom: Psychology Press Ltd. [9] Císař, P., Zelinka, J., Železný, M., Karpov, A., Ronzhin, A., (2006) Audio-visual Speech Recognition for Slavonic Languages, In Proc SPECOM2006, St. Petersburg, Russia. [10] Císař, P., Železný, M.. (2004) Detection of Face Position and 3D Orientation in 2D Image, In Proc. SPECOM 2004, St. Petersburg, Russia. [11] Císař, P., Železný, M. (2003) Selection for the Czech speaker independent lip-reading, In Proc. ECMS 2003, Liberec, Czech republic. [12] Císař, P., Železný, M., Krňoul, Z. (2004) 3D Lip-tracking for Audio-Visual Recognition in Real Application, In Proc. ICSPL 2004, Jeju Island, Korea. [13] Císař, P., Železný, M., Krňoul, Z., Kanis, J., Zelinka, H., Müller, L. (2005). Design and recording of chzech speech corpus for audio-visual continuous speech recognition, In Proc. AVSP 2005, Canada, Vancouver Island [14] Cootes, T. F., Edwards, G.J., and Taylor, C.J. (1998). Active Appearance Models, In Proc. ECCV 1998, Vol. 2, pp , Freaiburg, Germany. [15] Cootes, T. F., Taylor, C.J., Cooper, D.H, and Graham, J. (1995). Active Shape Models - Their Training and Application, Computer Vision and Image Understanding, 61(1): 38-59, SanDiego, Canada. [16] Cosi, P., Caldogenetto, E.M., Ferrero, F., Dugatto, M., Vagges, K. (1996). Speaker Independent Bimodal Phonetic Recognition Experiments, In Proc. ICSLP 96, Philadephia, PA,USA. [17] Cox, S., Matthews, I., and Bangham, J.A. (1997). Combining noise compensation with visual information in speech recognition, In Proc. AVSP, pp Rhodes, Greece. [18] Czap, L. (2000). Lip Representation by Image Ellipse, Proc. ICSLP 2000, Beijing, China, vol 4, pp [19] Deller, J., Proakis, J., and Hansen, J. (1993). Discrete-time Processing of Speech Signals. [20] Duchnowski, P., Meier, U., Waibel, A. (1996). See me, hear me: integrating automatic speech recognition and lip-reading, In Proc. ICSLP, Jokohama, Japan. [21] Dupont, S., and Luettin, J. (2000). Audio-visual speech modeling for continuous speech recognition, IEEE Transactions on Multimedia, vol. 2, no. 3, pp [22] Dupont, S., and Luettin, J. (1998). Using the Multi-Stream Approach for Continuous Audio- Visual Speech Recognition: Experiments on the M2VTS Database, In Proc. ICSLP, Sydney, Australia. [23] Glotin, H., Vergyri, D., Neti, C., Potamianos, G., Luettin, J. (2001). Weighting schemes for audio-visual fusion in speech recognition, ICASSP, Salt Lake City, USA. [24] Goecke, R., Potamianos, G., and Neti, C. (2002). Noisy audio feature enhancement using

96 Literatura audio-visual speech data, In Proc. ICASSP, Orlando, USA. [25] Gravier, G., Axelrod, S., Potamianos, G., and Neti, C. (2002a). Maximum entropy and MCE based HMM stream weight estimation for audio-visual ASR, In Proc ICASSP, Orlando, USA. [26] Gravier, G., Potamianos, G., and Neti, C. (2002b). Asynchrony modeling for audio-visual speech recognition, In Proc. HLT-NAACL, San Diego, USA. [27] Gray, M. S., Movellan, J. R., and Sejnowski, T. J. (1997). Dynamic features for visual speechreading: A systematic comparison, Advances in Neural Information Processing Systems Volume 9, [28] Gurbuz, S., Patterson, E., Tufekci, Z., and Gowdy, J. (2001). Lip-reading from parametric lip contours for audio-visual speechrecognition, In Proc. EuroSpeech, Aalborg, Denmark. [29] Hartley, R., Zisserman, A. (2001). Multiple view geometry in computer vision, Cambridge: Cambridge University Press. [30] Heckmann, M., Kroschel, K., Savariaux, C., and Berthommier, F. (2002). DCT-based Video Features for Audio-visual Speech Recognition, In Proc. ICSLP 02, Denver, pp [31] Heckmann, M. B., F., and Kroschel, K. (2001). A hybrid ANN/HMM audio-visual speech recognition system, In Proc. AVSP, Alborg, Denmark, pp [32] Huang, J., Potamianos, G., and Neti, C. (2003). Improving audio-visual speech recognition with an infrared headset, In Proc. AVSP, pp , St. Jorioz, France. [33] Chan, M. T. (2001). HMM-based audio-visual speech recognition integrating geometric- and appearance-based visual features, In Proc. MMSP, pp. 9-14, Cannes, France. [34] Chan, M. T., Zhang Y., and Huang, T.S. (1998). Real-time lip tracking and bimodal continuous speech recognition., In Proc.MMSP, pp , Los Angeles, CA. [35] Chandramohan, D., and Silsbee, P.L. (1996). A Multiple Deformable Template for Visual Speech Recognition, In Proc. ICSLP 96, volume 1, pages 50-53, Philadephia,USA. [36] Chen, T., and Rao, R.R. (2001). Audiovisual speech processing, IEEE Signal Processing Magazine, Vol. 18, pp [37] Chiou, G. I., Hwang, J.N., (1997). Lipreading from color motion video, In Proc. ICASSP96, pp [38] Chu, S. a. H., T. (2000). Bimodal Speech recognition using coupled hidden Markov Models, In Proc. ICSPL 2000, Beijing, China, vol 2, pp [39] Kass, M., Witkin, A., and Terzopoulos, D (1987). Snakes: Active contour models, In IJCV 1(4): [40] Kober R., H. U., Schiffers J (1997). Fusion of Visual and Acoustic Signals for Command- Word Recognition, In Proc. ICASSP-97, Munich, Germany. [41] Krčnová, M., [42] Krňoul, Z., Císař, P., Železný, M., Holas, J., (2005). Viseme Analysis for Speech-Driven Facial Animation for Czech Audio-Visual Speech Synthesis, In Proc. SPECOM, Patra, Greece. [43] Křivan, J., Principy tvoření českých souhlásek, [44] Krone, G., Talle, B., Wichert, A., Palm, G. (1997). Neural Architectures for Sensorfusion in Speechrecognition, In Proc. AVSP, Rhodes, Greece. [45] Lee, J., Kim, J. (2002). An Efficient Lipreading Method Using the Symmetry of Lip, EUROSPEECH2001, pp , Aalborg, Densmark. [46] Li, N., Dettmer, S., and Shah, M. (1995). Lipreading Using Eigensequences, In Proc. Workshop on Automatic Face and Gesture Recognition, pages , Zutich, Switzerland. [47] Liévin, M., and Luthon, F. (1998). Lip Features Automatic Extraction, In Proc. ICIP'98, vol. 3, pages , Chicago, USA. [48] Lucey, S., Sridharan, S., and Chandran, V. (2001). An Investigation of HMM Classifier Combination Strategies for Improved Audio-Visual Speech Recognition, EUROSPEECH- 2001, pp , Aalborg, Densmark. [49] Luettin, J., and Thacker, N.A. (1997). Speechreading using Probabilistic Models, In Proc. Computer Vision and Image Understanding, Volume 65. [50] Luettin, J., Potamianos, G., Neti, C. (2001). Asynchronous stream modeling for largevocabulary audio-visual speech recognition, In Proc. ICASSP, Salt Lake City, USA. [51] Luettin, J., Thacker, N.A., and Beet, S.W (1996). Speechreading using shape and intensity

97 Literatura information, In Proc. ICSLP 96, Philadephia, PA,USA. [52] Matthews, I., Bangham, J.A., and Cox, S. (1996). Audio-visual speech recognition using multiscale nonlinear image decomposition, In Proc. ICSLP., pp , Philadelphla, USA. [53] Matthews, I., Cootes, T., Cox, S., Harvey, R., Bangham, J.A. (1998). Lipreading using shape, shading and scale, In Proc. AVSP98, pp , Sydney, Australia. [54] Matthews, I., Potamianos, G., Neti, C., and Luettin, J. (2001). A comparison of model and transform-based visual features for audio-visual LVCSR, In Proc. ICME01, Tokyo, Japan. [55] McGurk, H. a. MacDonald., J. (1976). Hearing lips and seeing voices. Nature, 264, [56] Meier, U., Hurst, W., and Duchnowski, P (1996). Adaptive bimodal sensor fusion for automatic speechreading, In Proc. ICASSP, volume 2, pages , Atlanta, USA. [57] Messer, K., Matas, J., Kittler, J., Luettin, J., and Maitre, G. (1999). XM2VTSDB: The Extended M2VTS Database, In Proc. AVBPA99, pp , Washington D.C, USA. [58] Miyajima, C., Tokuda, K., Kitamura, T. (2000). Audio-visual speech recognition using MCEbased hmms and model-dependent stream weights. In Proc. ICSLP-2000, vol.2, , Beijing, China. [59] Movellan, J. R., and Chadderdon, G. (1996). Channel separability in the audio visual integration of speech: A bayesian approach. in Speachreading by Man and Machine: Models, Systems and Applications, D.G. Stork and M.E. Hennecke, Eds., Berlin, 1996, NATO ASI Series, pp , Springer. [60] Nakamura, S., Ito, H., and Shikano, K. (2000). Stream weight optimization of speech and lip image sequence for audio-visual speech recognition, In Proc. ICSLP2000, vol.3, pp.20-24, Beijing, China. [61] Neti, C., Potamianos, G., Luettin, J., Matthews, I., Glotin, H., Vergyri, D., Sison, J., Mashari, A., and Zhou, J. (2000). Audio-Visual Speech Recognition, Final Workshop 2000 Report, Center for Language and Speech Processing, The Johns Hopkins University, Baltimore, MD (Oct. 12, 2000). [62] Patterson, E. K., Gurbuz, S., Tufekci, K., and Gowdy, J.N. (2002). CUAVE: A new audiovisual database for multimodal human-computer interface research, In Proc. ICASSP02., pp , Orlaando, USA. [63] Petajan, E. D. (1984). Automatic lipreading to enhance speech recognition, In Proc. Global Telecommunications Conference, pp , Atlanta, USA [64] Pigeon, S. a. Vandendorpe, L. (1997). The M2VTS multimodal face database, In Bigun, J., Chollet, G., and Borgefors, G., (Eds.), Audio-and Video-based Biometric Person Authentication, Berlin, Germany: Springer, pp [65] Potamianos, G., and Neti, C. (2001a). Automatic speechreading of impaired speech, In Proc. AVSP01., Aalborg, Densmark. [66] Potamianos, G., and Neti, C. (2001b). Improved ROI and within frame discriminant features for lipreading, In Proc. ICIP01., Thessaloniki, Greece. [67] Potamianos, G., Graf, H.P., Cosatto, E. (1998a). Discriminative training of HMM stream exponents for audio-visual speech recognition, In Proc. ICASSP, vol. 6, pp , Seattle, ISA. [68] Potamianos, G., Graf, H.P., Cosatto, E. (1998b). An image transform approach for HMM based automatic lipreading., In Proc. ICIP98, vol. 111 pp , Chicago, USA. [69] Potamianos, G., Luettin, J., Neti, C. (2001c). Hierarchical discriminant features for audiovisual LVCSR, In Proc. ICASSP, Salt Lake City, USA. [70] Potamianos, G., Potamianos, A. (1999). Speaker adaptation for audio-visual automatic speech recognition, In Proc. EUROSPEECH99, vol. 3, pp , Budapest, Germany. [71] Psutka, J., Radová, V., Müller, L., Matoušek, J., Ircing, P., Graff, D. (2001) Large Broadcast News and Read Speech Corpora of Spoken Czech, In Proc. EUROSPEECH 2001, pp , Aalborg, Dennmark. [72] Radová, V., Psutka J. (2000) UWB_S01 Corpus: A Czech Read-Speech Corpus, In Proc ICSLP2000, Volume IV., pp , Beijing, China. [73] Rogozan, A., and Deléglise, P. (1998). Adaptive Fusion of Acoustic and Visual Sources for Automatic Speech Recognition, In Speech Communication Journal, Vol. 26 Iss. 1-2, pages

98 Literatura [74] Rogozan, A., and Deléglise, P. (1999). Discriminative Learning of Visual Data for Audiovisual Speech Recognition, In International Journal on Artificial Intelligence Tools (World Scientific Publisher), Vol. 8 No. 1, pages [75] Rosenblum, L. D., Dood, B., Burnaham, D. (1998). Time-varying information for visual speech perception. In R. Campbell,B. Dodd, D. Burnham (Eds.), Hearing by Eye: Part 2, The Psychologyof Speechreading and Audiovisual Speech. Earlbaum: Hillsdale,NJ. [76] Scanlon, P., Reilly, R.B., Chazal, P. D. (2003). Visual feature analysis for Automatic Speechreading, In Proc. AVSP03., St. Jorioz, France. [77] Senior, A. W. (1999). Face and Feature Finding for a Face Reccognition System, Audio and Video based Biometric Person Authentication '99. Washington D.C. March [78] Silsbee, P. L., and Bovik, A.C. (1994). Motion in deformable templates, In Proc. ICIP'94, pp , Austin, USA. [79] Silsbee, P. L., and Bovik, A.C. (1996). Computer lipreading for improved accuracy in automatic speech recognition, In IEEE Trans. Speech and Audio Processing, vol. 4, pp , September [80] Silsbee, P. L., and Bovik, A.C. (1999). Motion in deformable templates, Proc. ICIP'94, pp , Austin, USA. [81] Smith, P., Shah, M., and Lobo, N. da Vitoria (2000). Monitoring Head/Eye Motion for Driver Alertness with One Camera, International Conference on Pattern Recognition, In Proc. ICPR00, Volume 4, Barcelona, Spain. [82] Stork, D. G. A. Hennecke, M.E. (1996). Speechreading by Humans and Machines. Berlin, Germany: Springer. [83] Strnadová, V., (2001). Hádej, co říkám aneb odezírání je nejisté umění. GONG, Praha [84] Su, Q., Silsbee. P.L. (1996). Robust Audiovisual Integration using Semicontinuous Hidden Markov Models, in Proc. ICSLP, Philadelphia, USA. [85] Sung, K., Poggio, T (1999). Example-based learning for view-based human face detection, IEEE Transaction on Pattern Analysis and Machine Intelligence 20, [86] Teissier, P., Robert-Ribes, J., Schwartz, J., and Gu erin-dugu e, A. (1999). Comparing models for av fusion in a noisy-vowel recognition task, IEEE Transactions on Speech, and Audio Processing, vol. 7, no. 6, [87] Tomlinson, M. J., Russell, M.J., and Brooke, N.M. (1996). Integrating audio and visual information to provide highly robust speech recognition, In Proc. ICSLP 96, Philadephia, PA,USA. [88] Vanegas, O., Tanaka, A., Tokuda, K., Kitamura, T. (1998). HMM-based Visual Speech Recognition Using Intensity and Location Normalization, In Proc. ICSPL98, pp , Sydney, Australia. [89] Wark, T., and Sridharan, S. (1998). A Syntactic Approach to Automatic Lip Feature Extraction for Speaker Identification, In ICASSP98, pages , Seattle, USA. [90] Williams, J. J., Rutledge, J.C., Garstecki, D.C., and Katsaggelos, A.K. (1998). Frame Rate and Viseme Analysis for Multimedia Applications, Journal of VLSI Signal Processing Systems, vol. 23, nos. 1/2, pp [91] Xiaoxing, L., Zhao, Y., Xiaobo, P., Luhong, L., Ara, V., N., (2002) Audio-visual continuous speech recognition using a coupled hidden Markov model, In Proc. ICSLP02, pp , Denver, USA. [92] Yang, T., Wu, F.Ch., Ouhyoung, M. (1998). Real-time 3-D Head Motion Estimation in Facial Image Coding, In Proc. Multimedia Modeling 98, Oct , 1998, pp , Lausanne, Switzerland. [93] Yoshinaga, T., Tamura, S., Iwano, K., and Furui, S. (2003). Audio-Visual Speech Recognition Using Lip Movement Extracted from Side-Face Images, In Proc. AVSP03, pp , St. Jorioz, France [94] Young, S., Kershaw, D., Odell, J., Ollason, D., Valtchev, V., and Woodland, P. (1999). The HTK Book. Cambridge University Engineering Department, [95] Železný, M., Císař, P. (2003) Czech audio-visual speech corpus of a car driver for in-vehicle audio-visual speech recognition, In Proc. AVSP03, St Jorioz, France

99 Seznam zkratek 8 Seznam zkratek Zkratka anglicky česky AAM active appearance model aktivní vzhledový mode AAN artificial neuron network neuronová síť ACM active contour model aktivní tvarový model ASR automatic speech recognition automatické rozpoznávání řeči AV audiovisual audiovizuální DCT discrete cosine tranform diskrétní Kosinova transformace DF decision fusion spojení rozhodnutí DFT discrete Fourier tranform diskrétní Fourierova transformace DTW dynamic time warping dynamické borcení času DV digital video digitální video DWT discrete wavelet transform diskrétní vlnková transformace EM expectation maximization FF feature fusion spojení příznaků GMM gausian mixture model model gausovských směsí LDA linear discriminant analysis lineární diskriminační analýza LVCSR large vocobulary continuous speech recognition rozpoznávání spojité řeči s velkým slovníkem MAP maximum-a-posteriori MFCC Mel frequency cepstral coefficients Melovské frekvenční kepstrální koeficienty PCA principal component analysis analýza hlavních komponent PCM PLP perceptual linear prediction RGB red, green, blue - color representation reprezentace barev ROI region of interest oblast zájmu SNR signal-to-noise ratio odstup signál-šum SVD singular value decomposition WER word error rate chyba rozpoznávání na slovech

100 Přílohy 9 Přílohy Foném Vizém Jazyk Zuby Rty Popis A a jazyk na spodním patře,mohl by být vidět au au jazyk na spodním patře,mohl by být vidět dolní zuby jsou vidět málo horní více horní i dolní zuby jsou vidět ústa jsou úplně otevřená ústa jsou úplně otevřená a postupně se zaokrouhlují b b 0 0 horní a dolní ret se úplně dotýkají, není mezi nimi žádná mezera e e jazyk na spodním patře,mohl by být vidět eu eu jazyk na spodním patře,mohl by být vidět horní i dolní zuby jsou vidět horní i dolní zuby jsou vidět f f 0 horní zuby se skoro dotýkají spodního rtu, spodní zuby nejsou vidět vůbec g g hřbet jazyka se dotýká horního patra i i jazyk na spodním patře,mohl by být vidět l l jazyk musí kmitnout z pozice za horními řezáky až za dolní řezáky o o jazyk na spodním patře ou ou jazyk na spodním patře s s špička jazyka se dotýká ústa se přivírají a koutky se rozšiřují horní ret mírně zdvižen,spodní ret se skoro dotýká horních řezáků rty hodně od sebe ale i hodně široké, viditelné horní zuby i jazyk na spodním patře, jedná se o nejotevřenější hlásku a dá se podle toho detekovat přechod z a do u rty zcela u sebe, mírně nafouklé tváře rty středně od sebe ale hodně široké, jazyk na spodním patře, většinou nejsou vidět spodní zuby přechod z e do u spodní ret se dotýká horních zubů, rty jsou jen málo pootevřené a málo široké, většinou jsou viditelné pouze řezáky jsou ovlivněny jsou ovlivněny otevřená ústa, jazyk na spodním patře, neviditelná hláska horní i dolní zuby jsou vidět ústa se přivírají a koutky jsou maximálně rozšířeny, více než při e rty středně od sebe, nejširší hláska, zuby skoro u sebe, není vidět jazyk jsou ovlivněny jsou ovlivněny rty středně otevřené, jazyk prokmitne od horního patra dolů většinou nejsou vidět zakrývají je rty většinou nejsou vidět zakrývají je rty zuby blízko u sebe rty se zaokrouhlují horní i dolní ret se vysunují, rty jsou spíše stáhnuté rty se zaokrouhlují horní i dolní ret se vysunují, rty jsou spíše stáhnuté jsou ovlivněny rty mají kruhovitý tvar, rty se vyšpulují dopředu a zvětšuje se jejich mohutnost, otvor je větší než pro u a je kulatější přechod z o na u rty mírně od sebe, zuby zcela u sebe

101 Přílohy spodních zubů š š 0 horní zuby malinko překrývají dolní nebo jsou velmi blízko rty se zaokrouhlují, horní i dolní ret se vysouvají více než u u,o a spíše se oddalují od sebe než aby se přibližovali vyšpulené rty více než u s, honí i dolní zuby dobře viditelné, elipsovitý tvar t t zuby mírně od sebe, jazyk mezi zuby, ale vidět jsou většinou jen horní, jazyk je užší než u ť ť ť rty mírně od sebe více vyšpulené než t, jazyk mezi zuby, jazyk je širší než u t u u jazyk na spodním patře většinou nejsou vidět zakrývají je rty rty se zaokrouhlují horní i dolní ret se vysunují, rty jsou spíše stáhnuté ještě více než u o rty velice blízko sebe, štěrbina nejmenší ze všech hlásek je podlouhlejší než o Tabulka 13. Popis uplatnění zubů, jazyka a tvaru rtů při tvorbě jednotlivých vizémů, 0 = objekt není přítomen DCT u v DCT u v Tabulka 14. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis ROI. DCT vnitřku úst : DCT u v Tabulka 15. Hodnoty frekvencí u a v pro vybrané DCT příznaky získané z trénovací množiny pro popis vnitřku úst

102 Přílohy Obrázek 51. Ukázka nalezení vnitřní a vnější kontury rtů

103 Přílohy Obrázek 52. Ukázka chybného nalezení vnitřní a vnější kontury rtů Obrázek 53. Ukázka nalezení objektů vnitřku úst, bílá horní zuby, modrá dolní zuby, zelená jazyk, černá mezera Obrázek 54. Ukázka chybného nalezení objektů vnitřku úst, bílá horní zuby, modrá dolní zuby, zelená jazyk, černá mezera

104 Přílohy Obrázek 55. Ukázka zpracování databáze pro nalezení vizuálních řečových jednotek

Zobrazit více