Analýza a zpracování multimodálních dat

Transkript

1 Mendelova univerzita v Brně Provozně ekonomická fakulta Analýza a zpracování multimodálních dat Diplomová práce Vedoucí práce: Ing. Jiří Fejfar, Ph.D. Bc. Radoslav Pesau Brno 2013

2

3 Děkuji svému vedoucímu diplomové práce Ing. Jiřímu Fejfarovi, Ph.D. za ochotu, kterou mi věnoval při vedení a za cenné rady a připomínky při zpracování zadané práce.

4

5 Prohlašuji, že jsem diplomovou práci na téma Analýza a zpracování multimodálních dat vypracoval podle pokynů vedoucího diplomové práce samostatně. Seznam použité literatury a jiných zdrojů uvádím v závěru práce. V Brně dne 21. května

6

7 Abstract Pesau, R. Analysis and processing of multimodal data. Diploma thesis. Brno, This thesis deals with the current state of analysis and processing of multimodal and multimedia data. The theoretical part of this work focuses on the definition of multimodal and multimedia data and differences in approach processing. The theoretical part completes the presentation of the actual projects working with multimodal data. The practical part first describe methodology with the technical approaches of this thesis and design of approach to data processing. The methodology followed by a specification of requirements for prototype applications. Next chapters focus on database design of multimodal data and analysis, design and implementation of a prototype allowing content-based multimedia survey. The conclusion describes the results of prototype tests and technical and economic evaluation. Keywords Multimodal data, multimedia, timeseries, OpenCV, Sphinx4, Java. Abstrakt Pesau, R. Analýza a zpracování multimodálních dat. Diplomová práce. Brno, Tato práce přibližuje problematiku spojenou s analýzou a zpracováním multimodálních a multimediálních dat. Teoretická část této práce se zaměřuje na definice multimodálních a multimediálních dat a rozdíly v přístupu jejich zpracování. Teoretickou část završuje představení aktuálních projektů pracujících s multimodiálními daty. V praktické části je nejprve popsána metodika práce spolu s technickými východisky a návrhem přístupu ke zpracování dat. Po metodice následuje specifikace požadavků na prototyp aplikace. Další kapitoly se zaměřují na návrh databáze multimodálních dat a analýzu, návrh a implementaci prototypu umožňující vyhledávání souvisejících multimédií na základě obsahu. V závěru práce jsou popsány výsledky testů prototypu a technická a ekonomická zhodnocení. Klíčová slova Multimodální data, mutlimédia, časové řady, OpenCV, Sphinx4, Java.

8

9 Obsah 1 Úvod Úvod do problematiky Cíl práce Multimodální a multimediální data Multimodální analýza Přístupy k zpracování multimodálních dat Zpracování multimodálních dat Zpracování multimediálních dat Aktuální projekty Metodika řešení Návrh přístupu pro zpracování dat Výběr metodiky Použité technologie a metody Vývoj prototypu Analýza požadavků Návrh databáze multimodálních dat Implementace prototypu Testování Instalace a spuštění Technické a ekonomické zhodnocení prototypu Zhodnocení implementace prototypu Návrh na rozšíření prototypu Zhodnocení ekonomického přínosu Závěr 62 7 Literatura 63 Přílohy 66 A Diagram analytických tříd 67 B Uživatelské prostředí 68

10

11 1 ÚVOD 11 1 Úvod 1.1 Úvod do problematiky V dnešní době se internet stává nedílnou součástí našeho života a každý z nás využívá služby zprostředkované tímto fenoménem. Neustálý rozvoj moderních technologií umožnil rozšíření internetu do všech koutů světa a především rozšířil uživatelům možnosti přístupu k této službě. Ovšem tento rozvoj nevyvolal pouze jeho rozšíření, ale především růst gramotnosti v ovládání počítače a internetu. Čím dál více lidí využívá internet jako prostředek komunikace s okolním světem, dokáže vyhledat potřebné informace, dokumenty nebo multimédia. Rostoucího počtu uživatelů schopných vyhledat určitou informaci nebo stáhnout nějaké soubory z internetu využily různé společnosti a na rostoucí poptávku po moderních službách odpověděly svoji nabídkou. Dnes je na internetu spousta služeb těšící se velké popularitě mezi uživateli. Mezi ně patří například sociální sítě Facebook, Twitter, Google+ nebo služby umožňující upload multimediálních souborů Youtube, RapidShare, Ulož.to a jiné. Společnosti provozující zmíněné služby se musí denně potýkat s obrovskými nápory návštěvníků. Aplikace moderních technologií je také neodmyslitelně spojená s rapidním nárůstem přenesených dat na internetu. Podle každoroční předpovědní studie Cisco Visual Networking Index se v roce 2012 až 2017 třináctinásobně navýší datový přenos a v roce 2017 dosáhne hranice 134 exabajtů. Z velké části je a bude datový provoz tvořen internetovými videi, peer to peer sdílením a vysíláním televizních stanic, které poskytnou běžným uživatelům volný nebo placený přístup ke svému obsahu Exabytů za měsíc Obrázek 1: Odhad datového provozu (Cisco, 2013) Výše uvedený graf znázorňuje odhady datových přenosů pro jednotlivé roky napříč celým světem. Jednotlivé hodnoty udávají počet přenesených exabytů za měsíc v daném roce.

12 12 1 ÚVOD Na patrný nárůst datových přenosů se musí připravit i společnosti provozující výše zmíněné služby tak, aby mohly do budoucna předejít možným komplikacím. Například služba Youtube musela minulý rok každou minutu zpracovat 48 hodin nově přidaných klipů a uživatelé Flickeru přidali každý den 4,5 milionu nových obrázků. Komplikací, které mohou nastat při zpracování zvyšujícího se objemu nových dat, je celá řada. Od nedostatku diskových úložišť až po nedostatečnou analýzu a zpracování nově přidaných dat. Analýza a zpracování dat je v dnešní době neodmyslitelnou součástí činností všech poskytovatelů služeb, kteří umožňují uživatelům upload multimédií. Jedním z mnoha důvodů proč provádět analýzy nahrávaných dat jsou například bezpečnostní a právní důvody. Společnosti musí zjišťovat, zda nově přidaná data nejsou v rozporu se zákonem v dané zemi nebo jestli neobsahují škodlivé fragmenty kódu. Dalším důvodem, který je z ekonomického hlediska zřejmě nejvýznamnější, je získání užitečných informací z obsahu nahraných dat. Společnosti investují nemalé částky do vývoje nových metod, pomocí kterých analyzují a zpracovávají obsah těchto dat. Takové praktické zdůvodnění zmíněných investic může vystihovat následující problém. Uživatelé hledající ke svému oblíbenému seriálu titulky nebo jazykovou stopu ve svém rodném jazyce. Pro méně zdatné se tato aktivita stává bojem s větrnými mlýny v případě, že vybrané titulky nebo zvuková stopa nesedí k příslušnému seriálu. Dalším možným zdůvodněním může být například vyhledávání multimédií na internetu. Uživatelé vyhledávají informace na základě klíčových slov, které se ve většině případů porovnávají s názvy a popisky multimédií nebo v lepším případě s obsahem samotného multimédia. Pro vyřešení výše zmíněných problémů se nabízejí metody spojující příslušné multimédia mezi sebou na základě získaných informací z obsahu nikoliv jejich popisu nebo názvu. Tyto metody mohou uživatelům poskytnout relevantní informace a ulehčit jim práci s vyhledáváním a zároveň zvýší celkovou úroveň poskytovaných služeb a umožní společnostem upevnění jejich pozice mezi konkurencí. V současné době lze jen zřídka najít aplikace umožňující analýzu a zpracování multimodálních dat a aplikace, které by řešily uvedené problémy, neexistují. Tato práce se zaměřuje na nalezení přístupu, který by pomohl předejít uvedeným problémům. Zároveň tak prakticky ověří realizovatelnost analýzy a zpracování multimodálních dat a může se stát východiskem pro další práce, které se mohou detailně zaměřit na zpracování jednotlivých modalit.

13 1.2 Cíl práce Cíl práce Cílem této práce je vytvoření prototypu aplikace, který umožní analyzovat a zpracovávat multimodální data představující video nahrávky, zvukové stopy a titulky. Aby bylo dosaženo cíle, bude práce rozdělena do následujících etap, které budou postupně realizovány: seznámení se současným stavem přístupů a metodik pro zpracování multimediálních a multimodálních dat, návrh a vytvoření databáze multimodálních dat, implementace prototypu analyzující a zpracovávající multimodální data, návrh na rozšíření prototypu, ekonomické zhodnocení prototypu.

14 14 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA 2 Multimodální a multimediální data 2.1 Multimodální analýza Definic, které vymezují pojem multimodálních dat, je v odborných studií celá řada. Většina definic je díky interdisciplinaritě tohoto oboru odlišná, ale významově velmi podobná. Níže uvedené odstavce představují některé z nich. Multimodální analýza, obecněji nazývaná multimodalita je v dnešní době považována za velmi rychle rozvíjející se interdisciplinární obor. Své uplatnění nachází v oborech spojených s jazykovědou, technikou nebo lékařstvím. (Jewitt, 2009) V (Jewitt, 2009) je multimodalita definována jako inovační přístup k reprezentaci, komunikaci a interakci, který zkoumá různé způsoby komunikace přes obrázky, zvuky a gesta. Multimodální data lze také chápat jako data tvořená signály modalit získaných pomocí různých senzorů (například mikrofon a videokamera). Tyto signály jsou analyzovány a zpracovány za účelem získání vzájemné souvislosti. (Fisher, 2002) S ohledem na problematiku této práce lze shrnout výše uvedené definice do jedné, která definuje multimodální data jako data, která jsou tvořena několika modalitami. Tyto modality mají dále charakter multimediálních dat. Multimodalita a multisemiotika Jako každý nový vědní obor, tak i analýza multimodálních dat, se potýká s problémy spojenými s terminologií. Multimodální analýza napříč různými vědními obory je označována někdy jako multimodalita nebo multisemiotika. V některých publikací jsou tyto termíny považovány za synonyma, i když se od sebe mírně odlišují. Multimodalita může být považována za nové slovo v rámci nové teorie, ale v podstatě nepopisuje žádný nový jev. Například vjemy, které jsou získány prostřednictvím různých způsobů komunikace (zrak, sluch, dotyk), jsou mozkem spojovány a vyhodnocovány jako celek. Multisemiotika podobně popisuje více získaných významů na jejichž základě probíhá učení. Vztah multimodálních a multimediálních dat V případě analýzy multimodálních dat jsou jednotlivé modality zpracovány samostatně a získané výsledky jsou následně zpracovány a sloučeny do výstupu, který přináší určitou informaci. Jednotlivé modality zastupují různé typy multimédií: animace, audio, interaktivita, obrázek,

15 2.2 Přístupy k zpracování multimodálních dat 15 text, video. Vztah mezi multimodálními a multimediálními daty vystihuje níže uvedené schéma. Multimodální data Obraz Text Video Animace Audio Interaktivita. Zpracování Informace Obrázek 2: Vztah multimodálních a multimediálních dat 2.2 Přístupy k zpracování multimodálních dat Důležitým milníkem výzkumu multimodalit a multimodálních dat byla publikace Michaela Halliday (Halliday, 1979), ve které byl uveden teoretický základ pro studium sémiotických zdrojů (modalit). Těmito zdroji jsou například obrázky, architektura, hudba, matematické symboly, gesta a jiné. Na základě této studie definovali Gunther Kress, Theo van Leeuwen a Michael O Toole základy multimodálního výzkumu. Kress (2006) se zaměřil na popis kontextového přístupu k zpracování multimodálních dat a O Toole (2011) popsal gramatický přístup používající funkční model k analýze obrazů. O Halloran ve své publikaci (O Halloran, 2011) uvádí tři různé skupiny přístupů ke zpracování multimodálních dat: kontextový a gramatický, interakční, kognitivní.

16 16 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Kontextový a gramatický přístup Jewitt (2009) spojuje kontextový a gramatický přístup do jedné skupiny, kterou označuje jako sociální sémiotické multimodality. Kontextový přístup se využívá pro analyzování zvuku, odborných textů, hypermédií a gest. Oproti tomu gramatický přístup se zaměřuje na matematické vztahy, hypermédia a texty. Vztah obou skupin je znázorněn na níže uvedeném schématu. Kontextový přístup Gramatický přístup Zvuk Gesta Text Hypermédia Matematické vztahy Obrázek 3: Sociální sémiotické multimodality. Interakční analýza V (Norris, 2004) je interakční analýza definována jako komplexní metodický rámec, pomocí kterého se integrují verbální nebo neverbální prvky s materiálními prvky a okolím. Multimodální interakční analýza spojuje širokou škálu nástrojů pro zkoumání více komunikačních režimů, které jsou součásti událostí. (Rowe, 2012) V rámci přístupu k multimodálnímu systému se obecně uvádí dvě možnosti interakce: multimodální, unimodální. V případě multimodální interakce mohou uživatelé ovlivňovat systém různými kombinacemi interakce (hlasem, gesty, perem a jiné). Naopak u unimodální interakce uživatelé zvolí pouze jeden z možných způsobů. V (Oviatt, 2002) bylo prokázáno, že 20% času interakce se systémem je prováděno multimodálně a zbytek unimodálně. Kognitivní přístup Kognitivní přístup k zpracování multimodálních dat, respektive jeho klíčovou myšlenku, uvedl Lakoff v publikaci (Lakoff, 1979). Forceville (2009) tuto myšlenku rozvedl a definoval základ kognitivního přístupu, který je založen na metaforách. Především zdůraznil, že metafora představuje koncept odvozený z jazyka. Multimodální

17 2.3 Zpracování multimodálních dat 17 metafora představuje mapování nebo prolínání odlišných modalit (například vizuální a verbální nebo vizuální a akustické) a jednotlivé modality zde slouží k upřesnění poznání vizuálních prvků. 2.3 Zpracování multimodálních dat Zpracování multimodálních dat po jednotlivých modalitách a následné zpracování dílčích výsledků je nejpoužívanější přístup k zpracování multimodalit. V odborných literaturách je tento přístup označován jako multimodální fúze. Multimodální fúze je definována jako integrace společných vlastností více multimédií s cílem analyzovat zkoumaný problém (Atrey, 2010). Díky multimodální fúzi lze získat dodatečné informace a zvýšit přesnost u rozhodovacího procesu. Před samotnou fúzí je nutné zamyšlení nad úrovní abstrakce fúze, metodou fúze, časem provedení fúze a samozřejmě nad výběrem modalit, které budou zpracovány a integrovány. Úrovně abstrakce fúze Základním předpokladem správné a úspěšně provedené multimodální fúze je výběr vhodné strategie. V (Atrey, 2010) jsou popsány tři různé úrovně fúze: feature úroveň, decision úroveň, hybridní úroveň. Feature úroveň se také nazývaná jako early fusion, je založena na principu spojení získaných vlastností ze vstupních dat před analýzou. Princip této úrovně fúze znázorňuje pro lepší pochopení níže uvedené schéma. Data Objekty Rozhodnutí Nalezení vlastností Nalezení vlastností Rozhodovací logika Nalezení vlastností Obrázek 4: Feature úroveň multimodální fúze.

18 18 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Jednotlivé vstupní signály mohou pocházet z rozdílných senzorů, podmínkou je nutná souvislost mezi modalitami. Výhodou je menší chybovost pro data obsahující šum na úkor možného omezení dodatečných informací. V této úrovni fúze jsou v (Yan, 2006) uvedeny vlastnosti, které lze získat: vizuální, textové, zvukové, pohybové, metadata. Vizuální vlastnosti: jsou především znázorněny pomocí histogramů a specifických tvarů. Jsou získávány z celých obrázků nebo jeho segmentů. Textové vlastnosti: jsou získávány pomocí automatického rozpoznávání řeči (ASR) nebo pomocí rozpoznávání znaků (OCR). Zvukové vlastnosti: pro generování zvukových vlastností se často pracuje s Fourierovou transformací. Pohybové vlastnosti: obsahují informace o pixelech daného záběru, směru pohybu a velikosti histogramu. Metadata: tvoří doplňkové informace získané z jednotlivých modalit. Decision úroveň nazývaná také jako late fusion nejprve provádí analýzu za účelem získání dočasných rozhodnutí. Tato analýza je založena na získání jednotlivých vlastností modalit. Dočasná rozhodnutí jsou mezi sebou kombinována a sjednocena do vektoru rozhodnutí. Na závěr je tento vektor zpracován a je poskytnuto finální rozhodnutí. (Atrey, 2010) Princip této úrovně fúze znázorňuje pro lepší pochopení níže uvedené schéma. Data Objekty Rozhodnutí Nalezení vlastností Rozhodovací logika Nalezení vlastností Rozhodovací logika Nalezení vlastností Rozhodovací logika Obrázek 5: Decision úroveň multimodální fúze

19 2.3 Zpracování multimodálních dat 19 Tato úroveň fúze se dá považovat za jednu z nejrozšířenějších a to díky odolnosti vůči výskytu chyb v jednotlivých modalitách. Oproti předchozí úrovni má výhodu ve stejné reprezentaci a v možné škálovatelnosti. Další její výhodou je možnost využití vhodných metod pro analyzování každé modality (například HMM a SVM). (Atrey, 2010) Hybridní úroveň kombinuje výhody z obou předchozích úrovní. Principem je integrace vlastností a sestavení vektorů vlastností pomocí analýzy. Souběžně s těmito operacemi se paralelně analyzují vlastnosti modalit. Takto získané výsledky jsou zpracovány stejně jako u decision úrovně. Kdy provádět fůzi Při fúzi modalit se může stát, že některé z nich mohou mít časové prodlevy spojené s jejich záznamem, dobou pořízení, zpracováním nebo jejich různou délkou. Takovéto komplikace mohou nepříznivě ovlivnit úspěšnost zpracování fúze. K jejich vyřešení se používá synchronizace, která je v (Atrey, 2010) rozdělena na dvě úrovně: feature úroveň, decision úroveň. Feature úroveň je specifická vzájemnou souvislostí modalit. Modality jsou zaznamenány v rámci stejné časové periody a fúze je provedena v okamžiku, kdy jsou všechny modality zpracovány. Schéma (Obr. 6) znázorňuje tři modality vstupující do systému. Časy začátku zpracování jednotlivých modalit jsou rozdílné a znázorňují tak časové prodlevy spojené s jejich přidáním do systému. Paralelní zpracování modalit končí v čase x, kdy je dokončeno zpracování poslední modality. Využití paměti (%) 12. Modalita. 1. Modalita Modalita Čas zpracování (sekundy) x Obrázek 6: Synchronizace feature úrovně

20 20 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Decision úroveň je specifická určením bodu na časové ose, který bude sloužit pro testování, zda je zpracování modalit dokončené. Před začátkem zpracování je určen bod x na časové ose, který bude sloužit k ověření, zda zpracování modalit je již dokončené. Obdobně jako v předchozím případě jsou modality přidány do systému s možnou časovou prodlevou a dále následuje jejich paralelní zpracování. Narozdíl od výše uvedeného schématu nezačíná fúze v čase dokončení zpracování poslední modality, ale až v bodě x. V případě, že systém při kontrole dokončení zpracování v čase x zjistí, že zpracování modalit není dokončeno, je určen nový bod x n, dokud nejsou všechny modality zpracovány. Využití paměti (%) 12. Modalita. 1. Modalita Modalita Čas zpracování (sekundy) x Obrázek 7: Synchronizace decision úrovně Metody strojového učení V předchozích odstavcích byly shrnuty jednotlivé úrovně fúze multimodálních dat. Pro každou úroveň fúze se lépe aplikují rozdílné metody strojového učení. V následujících odstavcích jsou vybrány a popsány ty nejpoužívanější. Při výběru vhodné metody jsou brány v potaz časové rozdíly, rychlost a další faktory. V (Atrey, 2010) jsou metody multimodální fúze rozděleny do následujících skupin, u kterých jsou uvedeny i konkrétní metody: metody založené na pravidlech, metody založené na klasifikaci, metody založené na odhadu. Metody založené na pravidlech zahrnují řadu různých pravidel pro kombinování multimodální informace. Hlavní zástupci této skupiny jsou:

21 2.3 Zpracování multimodálních dat 21 linear weighted fusion, majority voting, custom-defined rules. Linear weighted fusion: je považována za jednu z nejrozšířenější a nejjednodušších metod. Metoda získává vlastnosti z modality, které uspořádá do vektoru vlastností. Každý vektor je poté normalizován a jeho prvkům je přiřazena váha. Následně je pro každý vektor dle níže uvedeného vztahu vypočítáno skóre, které slouží k porovnání mezi ostatními vektory. I = n i=1 w i I i Majority voting: je speciálním případem vážené lineární fúze. Rozdíl oproti předchozí metodě spočívá ve faktu, že všechny váhy jsou si rovny. Custom-defined rules: na rozdíl od obou výše uvedených metod využívá statistické pravidla. V níže uvedené tabulce je přehled jednotlivých metod a jejich možné aplikace v příslušné úrovni fúze vztažené k určité úloze. Tabulka 1: Přehled metod založených na pravidlech. (Atray, 2010) Metoda Úroveň fúze Modalita Úloha Linear weighted fusion Feature Video Rozpoznání obličeje a sledování pohybů člověka Decision Audio Rozpoznání řečníka, slov a detekce monologu Obrázek Prohledávání obrázku Text Prohledávání videa Majority voting rule Decision Řeč Identifikace řečníka Custom-defined rules Decision Řeč a gesta Multimodální interakce Metody založené na klasifikaci klasifikují multimodální pozorování do předem definovaných tříd. Hlavní zástupci této skupiny jsou: SVM, Bayesovské sítě, Neuronová síť, skryté Markovy modely.

22 22 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Support vector machines (SVM): patří do kategorie takzvaných jádrových algoritmů. Základním principem je převod vstupního prostoru do prostoru vícedimensionálního (Obr. 8), ve kterém dochází k lineárnímu oddělení tříd, klasifikaci. Obrázek 8: Princip převodu vstupního prostoru do vícedimensionálního prostoru (Raghava, 2010) Bayesovské sítě: se staly základem pro mnoho jiných metod. Principem je opět kombinace extrahovaných informací z modalit. Mohou být využity v úrovni feature i v úrovni decision. Za předpokladu, že extrahované informace jsou statisticky nezávislé, lze odvodit pravděpodobnost hypotézy H na základě níže uvedeného vztahu. (Hall, 2011) p (H I 1, I 2,..., I n ) = 1 N n k=1 p (I k H) w k Neuronová síť: je chápána jako černá skříňka, která po nastavení, předložení vstupních údajů a naučení dokáže určit správné řešení. Cílem učení je nastavit váhy spojení w ij, tak aby síť vytvářela správnou odezvu na vstupní signál. Neuronová síť je postavena na matematickém modelu neuronu (Obr. 9). x 1 w 1 w 2-1 θ u x 2 w n. x n Obrázek 9: Matematický model neuronu f y Neuron sčítá násobky jednotlivých vstupů a jejich vah. Pokud tento součet přesáhne prahovou hodnotu, tak je neuron aktivován. Přesný výpočet výstupní hodnoty neuronu uvádí níže uvedený vztah:

23 2.3 Zpracování multimodálních dat 23 f: aktivační funkce, y: výstup neuronu, y = f u: vnitřní potenciál neuronu, w i : váhy neuronu, x i : vstupy neuronu, Θ: práh neuronu. ( N ) i=1 w ix i Θ Aplikace neuronové sítě je vhodná pro špatně definované nebo výpočetně náročné problémy. Kvůli časovým nárokům na naučení neuronové sítě pro klasifikaci multimodálních dat se tato metoda často nepoužívá. Skryté Markovovy modely: jsou v publikaci (De Fonzo, 2007) popsány jako zobecnění Markovova řetězce, který je označován jako pravděpodobnostní proces. U tohoto procesu není pravděpodobnost přechodu z výchozího stavu do následujícího závislá na stavech minulých. Každý vnitřní stav ve skrytém Markovově modelu není přímo pozorovatelný, ale produkuje pozorovatelný náhodný výstup podle pevně dané pravděpodobnosti. V níže uvedené tabulce je přehled jednotlivých metod a jejich možné aplikace v příslušné úrovni fúze vztažené k určité úloze. Tabulka 2: Přehled klasifikačních metod. (Atray, 2010) Metoda Úroveň fúze Modalita Úloha SVM Decision Video, audio a text Rozpoznání obličeje a sledování pohybů člověka Hybrid Video, audio a obrázky Rozpoznání řečníka, slov a detekce monologu Bayes Feature Audio a video Rozpoznání řeči Decision Audio a video Rozpoznání číslic Hybrid Audio, video, text a web log Detekce událostí Neuronová síť Feature Audio a video Lokalizace řečníka Decision Zatížení sítě, procesoru Monitoring aktivit Hybrid Obrázky Rozpoznání obrázku HMM Feature Audio Rozpoznání řeči

24 24 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Metody založené na odhadu jsou primárně určeny k efektivnímu odhadu stavu neustále měnícího se objektu založeného na multimodálních datech. Hlavními zástupci jsou: Lineární kvadratický odhad, Sekvenční metoda Monte Carlo. Lineární kvadratický odhad: je algoritmus vytvořený Rudolfem Kalmanem, který poskytuje odhady stavu systému tvořeného spojenými daty statistického významu. Stavy systému jsou reprezentovány vektorem reálných čísel a algoritmus je založen na lineárních dynamických systémech umožňující dynamické zpracování dat v reálném čase. Sekvenční metoda Monte Carlo: je často označována jako vzorkovací filtr, který se skládá z řady metod založených na simulaci. Podle Tesaře (2000) tato metoda nepracuje s pravděpodobnostní hustotou dané veličiny, ale s navzorkovanými hodnotami náhodné veličiny a umožňuje tak kromě modelování statických systémů i modelování dynamických systémů. V níže uvedené tabulce je přehled jednotlivých metod a jejich možné aplikace v příslušné úrovni fúze vztažené k určité úloze. Tabulka 3: Přehled metod založených na odhadech. (Atray, 2010) Metoda Úroveň fúze Modalita Úloha Kalman filter Feature Video, audio a text Sledování více řečníků Decision Video a audio Lokalizace samostatných objektů a sledování osob Particle filter Feature Audio Sledování jednoho nebo více řečníků Decision Audio a video Sledování řečníka 2.4 Zpracování multimediálních dat Předešlé odstavce pojednávají o možnostech zpracování multimodálních dat, o jejich fúzi a algoritmech, které se dají aplikovat v různých úrovních a na různé modality. Tato sekce se zaměří na různé přístupy zpracování multimediálních dat, respektive jednotlivých modalit. Zpracování videa Jedním z nejrozšířenějších přístupů jak reprezentovat obsah videa je strukturované modelování. Tento přístup spočívá v rozdělení sekvencí videa na samostatné rámce. Tyto rámce představují sekvence snímků zachycených kamerou. Sjednocením jednotlivých rámců je získána iluze pohybu. (Brunelli, 1996)

25 2.4 Zpracování multimediálních dat 25 Stejně tak jako při zpracování textu jsou klíčovým prvkem jednotlivé slova a sousloví, tak u zpracování videa jsou základním prvkem jednotlivé snímky a rámce. Jejich vhodnou analýzou lze detekovat následující charakteristiky: střih, světla, objekty, přechody. Detekce střihu závisí na kompresi videa. Střih u videa, které je komprimované, se detekuje pomocí informací získaných ze způsobu komprese. Vychází z výpočtu zlomových bodů, pro které nebyly vypočteny pohybové vektory. Pokud počet takovýchto bodů překročí stanovenou mez, je detekován střih videa. Naopak u nekomprimovaného videa se pro detekci střihu používají metody založené na porovnání pixel po pixelu nebo histogramů. V publikaci (Brunelli, 1996) jsou uvedeny metody detekce střihů pro nekomprimované videa: porovnání tří snímků, pixel-wise, porovnání histogramů, pravděpodobnostní poměr. Porovnání tří snímků: předpokládá existenci tří po sobě jdoucích snímků r, s, t a stupně odlišnosti snímků, který je určen pro dvojici po sobě jdoucích rámců D rs a D st. Níže uvedený vztah definuje koherenci pohybu OMC (r, s, t) = Drs Dst D rs +D st a jeho výsledná hodnota je v intervalu < 0, 1 >. V případě, že se koherence pohybu blíží 1, ve výše uvedených rámcích nejsou žádné změny. Naopak výsledek blížící se 0 značí velké změny, případně střih videa. (Brunelli, 1996) Pixel-wise: využívá pro detekci střihu absolutní míru rozdílu mezi pixely po sobě jdoucích snímků. Střih je detekován v případě, že absolutní míra rozdílu překročí stanovenou mez. Porovnání histogramů: střih je určen v případě, že výpočtem zjištěná oblast intenzity rozdělení mezi dvěmi po sobě jdoucími snímky je větší jak stanovená mez. Rozdělení je vypočítáno na základě χ 2 testu pro každé H(j) představující j-tý bit barvy. t (H t+1 (j) H t(j)) 2 H t+1 (j)

26 26 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Pravděpodobnostní poměr: tato metoda určení střihu sjednocuje snímky do bloků, se kterými poté pracuje. Pravděpodobnostní poměr je vypočten pro každý odpovídající blok podle vztahu: L i = [ σ 2 t +σ t ( µ t µt+1 2 ) 2] 2 σ 2 t σ2 t+1 µ zde představuje aritmetický průměr a σ směrodatnou odchylku intenzity histogramu. Střih je detekován v případě, že výsledek odpovídá podmínce: L i > v, kde v je prahová hodnota pro určení střihu. (Brunelli, 1996) Detekce postupných přechodů zahrnuje roztmívání, stmívání a překlady snímků. Efekt roztmívání a stmívání je popisován jako optický proces, který umožní vytvořit iluzi postupného tmavnutí do dosáhnutí černého snímku a naopak roztmívání představuje postupné zesvětlování až do dosáhnutí bílého snímku. Dalšími přechody jsou posouvání a přibližování, ale jejich použití není příliš časté. Zjištění přítomnosti specifických přechodů se využívá pro detekci změny scény. Existuje řada algoritmů, která tyto přechody umí detekovat a mezi nejčastěji používané patří algoritmy aplikující: detekce plošin, detekce základních vlastností, porovnání sousedních snímků. Detekce světel je jednou z významných částí zpracování videa, která může poskytnout důležitou informaci o událostech, které nastávají v průběhu filmu. Yeo (1996) popisuje detekci světla jako projev dvou ostrých vrcholů přibližně stejné hodnoty v grafu tvořeného vzájemným rozdílem snímků. Pro jeho detekci dále uvádí následující výpočty: d l0 d l1 d l0 ϵ a pro d l0 a d l1 musí platit následující nerovnosti d l0 p 1 m 1 m 2 i=2 d l i d l1 p 1 m 1 m 2 i=2 d l i Světlost je detekována vždy, když platí výše uvedené nerovnosti. Dobré výsledky poskytují hodnoty pro m 0,5 sekundy videa, ϵ 0.1 a p [3, 5]. (Yeo, 1996) Detekce objektů je důležitou součástí zpracování videa. Díky analýze jednotlivých snímků lze získat dodatečné informace o objektech, které video obsahuje. Především se jedná o rozpoznání nebo sledování různých předmětů, textů nebo osob. Ovšem

27 2.4 Zpracování multimediálních dat 27 před samotnou analýzou snímků je nutné provést jejich předzpracování. K tomuto účelu nejlépe poslouží metody segmentace, které rozdělí obraz do částí se vzájemnou souvislostí nebo společnými vlastnostmi. Výsledkem jednotlivých metod jsou vzájemně se nepřekrývající oblasti. Mezi nejznámější metody segmentace patří: prahování, regionální metody, zaplavování, shlukování, detekce hran. Prahování: je jedna z nejjednodušších metod segmentace. Charakterizuje ji velmi rychlý výpočet, vhodné použití pro objekty na bílém pozadí a aplikace histogramů na snímek ve stupních šedi pro určení jednotlivých segmentů. Regionální metody: nalézají body, které mají podobné vlastnosti. Princip metod je založen na náhodném nebo rovnoměrném rozmístění inicializačních pixelů, jejichž iterativním rozrůstáním vznikají segmenty. Jejich výhodou je úspěšná segmentace na snímcích s velkým množstvím šumu. Zaplavování: vychází z předpokladu, že jas snímku vytváří topografický reliéf (černá barva globální minimum a bílá globální maximum). Algoritmus poté prohledává vzniklý reliéf a snaží se najít lokální minima, která zaplavuje vodou. V případě možnosti zaplavení dvou sousedních minim je vytvořena hranice, která rozděluje jednotlivé segmenty. Tento postup se opakuje dokud není nalezeno globální maximum. Shlukování: je vícerozměrná statistická metoda určená ke třídění jednotek do shluků na základě podobnosti jednotlivých objektů. V případě analýzy snímku je uvažován každý pixel snímku jako vektor vlastností (pozice, okolí, barva, atd.) a shlukování vytvoří oddělené shluky na základě vybraných vlastností, které mají pixely z jedné oblasti podobné a z různých oblastí rozdílné (Kalová, 2008). Detekce hran: principem této metody je aplikace hranových operátorů, jejichž výstupem je obraz se zvýrazněnými hranami. Ovšem tento výstup je nutné dále zpracovat kvůli možné přítomnosti artefaktů, které lze odstranit pomocí prahování. Všeobecně se hrany často vyskytují v místech, kde dochází k náhlým změnám jasu. Detekce textu po provedení úspěšné segmentace lze zpracovat text, který se nachází v jednotlivých snímcích videa. Nejčastěji se text detekuje u videa zaměřeného na zpravodajské relace s využitím optického rozpoznávání znaků (OCR). Jedná se

28 28 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA o metodu, která převádí segmenty snímku obsahující text na elektronickou reprezentaci textu. Jednotlivé fáze OCR jsou: předzpracování, extrakce rysů, klasifikace, postprocessing. Předzpracování: provádí úpravy vstupních dat za účelem efektivní extrakce rysů znaků. Jedná se o metody upravující rotaci znaků a odstraňující šum. Extrakce rysů: představuje získání základních rysů vzorů symbolů. Vzory se řadí do několika tříd, systém si vytvoří pro každou třídu popis. Popis znaků je získáván buď z rastru obrázku nebo pomocí rysů charakterizujících znak, kdy se vypouští nedůležité části znaku (Žlábek, 2009). Klasifikace: zpracovává získané základní rysy vzorů symbolů, na základě kterých určí konkrétní symbol. Postprocessing: provádí kontrolu správnosti klasifikátoru. Rozpoznané znaky seskupené do slov porovnává s jazykovými slovníky, díky kterým může eliminovat počet chyb spojených s rozpoznáním slova. Takto získaný text může sloužit pro generování dodatečných informací k videu, efektivnějšímu vyhledávání nebo archivaci. Detekce osob je jednou z důležitých součástí analýzy videa. Poskytuje informace o počtu osob, které se nachází na daném snímku a jejich vzdálenosti od objektivu. V (Yang, 2002) lze najít metody pro detekci obličeje v obrazu rozdělené do následujících skupin: znalostní metody, invariantní rysy, srovnávání šablon, využití neuronových sítí. Znalostní metody: vycházejí z báze definovaných pravidel popisujících ideální obličej. Z důvodů použití této báze pravidel nelze dosáhnout kvalitních výsledků, protože pravidly nelze komplexně popsat celý obličej. Invariantní rysy: se zaměřují na detekci na základě vzájemných vztahů jednotlivých segmentů obličeje (proporce obličeje). Výhodou těchto metod je snadná implementace a relativně velká úspěšnost rozpoznání tváře.

29 2.4 Zpracování multimediálních dat 29 Srovnávání šablon: pracuje na principu korelace obrazu s předem vytvořenými šablonami obličeje. Nevýhodou těchto metod je nutné vytvoření šablon. Neuronové sítě: jsou na základě vhodně zvolené konfigurace a natrénováním pomocí rozsáhlé množiny různých obličejů schopny dosáhnout velmi dobrých výsledků v rozpoznávání obličeje. Detekce obličeje lze dekomponovat na dílčí úlohy, jako jsou detekce očí a úst. V některých případech algoritmy mylně detekují obličej a takto způsobená chyba může nepříznivě ovlivnit další zpracování. Rozšířená detekce obličeje o detekci očí a úst eliminuje tyto problémy. Detekce úst používá barevnou transformaci FLD, která vychází z předpokladu, že barevná skladba rtů obsahuje vysoké hodnoty červené barvy a velmi nízké hodnoty modré barvy. Samotná FLD transformace nestačí a je doplňována o transformaci rg z důvodů variability barevné skladby rtů u různých lidí. (Vlach, 2007) R F LD = [ ] G B r = R g = (R+G+B) G (R+G+B) Výsledkem jsou dvě podobné barevné mapy úst, na které je dále aplikována vlnková transformace ve vertikálním směru. Aplikací této transformace jsou získány ostré přechody rtů. Následně jsou mapy prahováním převedeny na binární obraz a sloučeny pomocí níže uvedeného vztahu. Obraz = 1 4 (Obraz1 + Obraz2) Obraz1Obraz2 Následnou aplikací algoritmu mean jsou získány souřadnice rtů v obrazu (Vlach, 2007). Detekce očí je prováděna podobným způsobem jako detekce rtů. Vychází z předpokladu, že bělmo očí je u většiny lidí velmi podobné. Pro jejich detekci je použita níže uvedená barevná mapa. EyeMap = 1 3 c2 b + (256 C r) 2 + C b C r V případě zavřených očí nelze logicky detekovat jejich bělmo, pro tyto případy se aplikuje vlnková transformace, která poskytne informaci o rozložení hran pomocí koeficientů. Po provedení transformace se mapa prahováním převede na binární obraz a stejně jako u detekce rtů je proveden algoritmus meaning shift, který určí souřadnice očí. (Vlach, 2007)

30 30 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA Neopomenutelnou součástí videa je i zvuková stopa a v některých případech titulky ve formě dalších streamů videa. Jejich zpracování se provádí způsoby, které jsou popsány v dalších odstavcích. Zpracování zvuku Zvuk je definován jako mechanické vlnění v látkovém prostředí, které je schopno vyvolat sluchový vjem. V případě, že frekvence tohoto vlnění je v rozsahu od 20 do Hz, jsou lidé schopni takovýto zvuk vnímat. Důležitou součásti vlnění je amplituda, která udává následnou sílu zvuku. Čím je amplituda vyšší, tím je zvuk silnější. V případě zpracování zvuku je důležité převedení zvuku do digitální podoby. Tento převod se provádí ve třech fází. První fází je vzorkování signálu, které ze spojitého analogového signálu vybere omezený počet vzorků. V další fázi se provádí kvantování signálu, které představuje úrovňovou diskretizaci jejichž výstupem je konečný počet vzorků s konečným počtem jejich hodnot vyjádřených binárním kódem. Poslední fází je kódování signálu, které jednoduchý binární kód nahradí kódem, který je vhodnější pro další zpracování. (Reichl, 2013) Zpracování zvuku se nejčastěji zaměřuje na úlohy spojené se segmentací zvuku (segmentace zvuku, řeči, hudby), identifikaci jazyka, mluvčího, aproximace věku a pohlaví. Ovšem velmi zajímavou úlohou zpracování zvuku je rozpoznání řeči, kterou se budou zabývat následující odstavce. Rozpoznání řeči neboli automatické rozpoznání řeči (ASR) prošlo dlouhodobým vývojem. Z počátku řešilo rozpoznání pouze několika izolovaných slov na základě porovnání vstupů s předem připravenými nahrávkami slov. Všeobecně známou nevýhodou zpracování řeči je fakt, že opakovaně vyslovené slovo odlišným nebo stejným řečníkem má různá frekvenční spektra. Postupem času se množina rozpoznaných slov a úspěšnost jejich rozpoznání zvyšovala díky novým matematickým aparátům a technickým pokrokům v oblasti vývoje HW. V současné době ASR řeší problematiku rozpoznání plynulé spontánní řeči obsahující rušivé elementy. Akustický model ASR používá pro rozpoznání slov extrakci příznaků. Jde o modul, který pracuje s frekvenčním spektrem zvuku, využívá fourierovu transformaci pro parametrický popis obálky spektra a metodu PCA pro redukci vzájemně souvisejících příznaků. Výstupem modulu je 13 kepstrálních příznaků každých 10 ms. Tyto příznaky jsou dále rozšířeny o rychlostní a akcelerační parametry. Výsledkem je 39 příznaků, které slouží jako vstup do akustického modelu. (Szöke, 2010) Všeobecně je každý jazyk složen ze základních zvukových jednotek, které jsou označovány jako fonémy. Cílem akustického modelu je naučení se znění jednotlivých fonémů. K učení se využívají data obsahující řeč, ve kterých je popsáno, který zvuk je

31 2.4 Zpracování multimediálních dat 31 foném. Aby ASR bylo přesnější, pracuje s tzv. kontextově závislými fonémy. (Szöke, 2010) Jazykový model je druhou důležitou částí ASR. Je tvořen statistickým výskytem dvojic, trojic nebo všeobecně n-tic slov. Cílem modelu je vytvoření pravděpodobnostního výskytu posloupnosti slov. Výslovnostní slovník přiřazuje každému slovu posloupnost fonémů a propojuje tak jazykový a akustický model. Obtížnost vytvoření výslovnostního slovníku záleží na použitém jazyku. Například vytvoření výslovnostního slovníku pro češtinu není obtížné, protože čeština je například oproti angličtině fonetický jazyk. U jazykového a akustického modelu jsou s českým jazykem velké problémy. Všeobecně má čeština velké množství slov, které mohou být skloňovány a navíc obsahuje spoustu homonym. Sestavení těchto modelů je velmi obtížné a jejich úspěšnost závisí na počtu použitých slov. Naopak angličtina nepoužívá skloňování a tím pádem proces sestavení modelů je jednodušší a efektivnější, což se projevuje i na celkové úspěšnosti rozpoznání slov. Proces převodu řeči je v (Szöke, 2012) popisován pomocí konečných váhovaných stavových převodníků a jeho cílem je najít pro zadanou matici příznaků nejpravděpodobnější cestu grafem (rozpoznávací sítí). Po kompozici (Obr. 10) vznikne rozpoznávací síť ve formě orientovaného grafu, ve kterém mají jednotlivé stavy přiřazeny Gaussovy křivky. Po nalezení nejlepší cesty, se zjistí sekvence slovních uzlů, které jsou určené k výpisu slova na výstup a zároveň leží na této cestě. Audio AM Slovník JM Text. H C L G Graf Obrázek 10: Konečné váhované stavové převodníky (Szöke, 2012) Gramatika G: Jazykový model Převodník L: Výslovnostní slovník Převodník C: Kontextově závislé fonémy Převodník H: Skryté Markovy modely Zpracování textu Dolování v textech lze definovat jako proces objevování (získávání) znalostí, který má za cíl identifikovat a analyzovat užitečné informace v textech, jež jsou zajímavé pro

32 32 2 MULTIMODÁLNÍ A MULTIMEDIÁLNÍ DATA uživatele. Dolování v textech lze také definovat jako netriviální extrakci implicitních, předem neznámých a potencionálně užitečných informací z textových dat. (Sedláček, 2003) Proces dolování z textu se skládá ze dvou částí. První část předzpracování se zabývá úpravou vstupního dokumentu. Jedná se především o extrahování samotného textu se zachovanou strukturou. Další vhodnou úpravou je odstranění tzv. stopových slov. Stopová slova obsahují spojky, častá slova a další výrazy, které nemají žádný podstatný význam. Základní prvek, s kterým se dále pracuje, je označován jako term. Jedná se o sekvenci jednoho nebo více slov spolu s určením slovního druhu. Druhou částí je získávání znalostí, ve které dochází podle účelu procesu k analýze vygenerovaných termů a k rozhodovacímu procesu vedoucímu k poskytnutí požadovaných výsledků. Výsledkem může být zařazení dokumentu do kategorie, poskytnutí abstraktu dokumentu, naplnění tabulky daty, aj Aktuální projekty Na základě různých studií byly vytvořeny zajímavé nástroje pracující s multimodálními daty. V níže uvedených kapitolách jsou zmíněny někteří zástupci. Semiomix Semiomix je nástroj umožňující zpracování multimodální analýzy digitálních médií. Tato analýza se skládá ze tří komponent, které jsou vzájemně provázány a v případě vynechání jedné z nich by byly výsledky neúplné a nepřesné. sada multimediálních souborů, sada poznámek, sada kategoriálních popisů. Semiomix umožňuje analyzovat a zpracovávat prostý text, obrázky, zvuk a videa různých formátů, ke kterým přidává popisky. Ke kompresi videa využívá volně dostupnou knihovnu FFMPEG2. Uživatelské prostředí je plně přizpůsobeno pro přidávání poznámek pro každou modalitu. V případě textové modality přidává popisky podle indexu slov, v případě obrázků podle souřadnic a poznámky přidávané do zvuku se řeší pomocí časových razítek 2. 1 Vybrané úlohy najdete zde: 2 Více informací o projektu najdete na stránce _docs/challenges_and_solutions_to_multimodal_analysis%20-%20technology,theory_ and_practice.pdf

33 2.5 Aktuální projekty 33 Repere V (Giraude, 2012) je stanoven cíl projektu Repere jako vytvoření automatizovaného systému pro multimodální rozpoznávání lidí ve videu, které umožní určit: kdo v daném okamžiku mluvil, kdo se nachází na daném snímku videa, jaké jména osob byly vyřčeny, jaké jména osob byly nalezeny v textu. Za vytvořením tohoto projektu stojí organizace ANR a DGA. Projekt se spustil v roce 2011 a jeho dokončení je plánováno na rok Data tvořící korpus jsou získány z francouzských televizních kanálů. I-Search Cílem tohoto projektu je poskytnout jednotný rámec pro multimodální indexování obsahu, sdílení a vyhledávání. I-SEARCH podporuje multimédia (text, 2D obrázek, náčrtek, video, 3D objekty a audio), která kombinuje s informacemi získanými z reálného světa. Na základě zadaných dotazů uživatelem poskytne relevantní výsledky vyhledávání. Součástí tohoto projektu je i optimalizace vizuálního systému pro komfortní a efektivní vyhledávání. Samozřejmostí je i rozšíření vyhledávacího systému do mobilních zařízení 3. 3 Více informací o projektu je zde expected-results/

34 34 3 METODIKA ŘEŠENÍ 3 Metodika řešení Předchozí kapitoly pojednávaly o teoretických předpokladech pro vývoj prototypu aplikace a jeho dalšího funkčního rozšíření. Praktická část vychází z předešlých kapitol a pro úspěšné splnění cíle využívá některé zmíněné metody strojového učení založené na klasifikaci. Tyto metody byly vybrány na základě jejich jednoduché implementace a rozsáhlé množiny možných realizovaných úloh. Nad vytvořenou databází multimodálních dat je implementována úloha vyhledávající souvislosti mezi jednotlivými modalitami na základě jejich obsahu, která prakticky ověří zmíněné možnosti analýzy a zpracování. V každé modalitě jsou vyhledávány charakteristiky zmíněné v kapitole zpracování multimediálních dat, konkrétně se jedná o detekci obličeje, řeči a dolování informací z textu. Tyto charakteristiky lze získat a ověřit jejich funkčnost a vhodnost pro zmíněnou úlohu relativně jednoduchým způsobem. V následujících sekcích je popsán návrh přístupu pro zpracování dat, použité technologie a metody a metodika vývoje aplikace. 3.1 Návrh přístupu pro zpracování dat Navržený přístup pro zpracování dat musí být schopen poskytnout informaci o souvislosti mezi jednotlivými modalitami, respektive multimédii. Základním předpokladem pro úspěšně navržený přístup pro zpracování dat je určitá míra abstrakce. Při jeho návrhu je nutné se oprostit od detailů, které by komplikovaly implementaci přístupu a ověření jeho úspěšnosti. Jádro celého přístupu tvoří několik předpokladů, které umožní zjednodušit jeho návrh. Pro každou modalitu je určen předpoklad a jsou definovány různé spojitosti mezi ostatními modalitami. Prvním předpokladem, který je společný pro všechny modality, je fakt, že každou modalitu (video, audio, titulky) lze vyjádřit pomocí časové řady, která reprezentuje příslušnou charakteristiku získanou z dané modality v určitých časových úsecích. Dalším důležitým předpokladem je fakt, že mezi jednotlivými modalitami existuje určitá časová spojitost. V případě videa lze uvést předpoklady související s objekty, které se nachází na jednotlivých snímcích videa. V každém videu nebo filmu lze pozorovat scény, ve kterých herci provádí nějaké úkony nebo vedou různé dialogy mezi sebou. Ve většině filmových scén převažují situace, ve kterých herec mluví a zároveň je v záběru. Po oproštění od detailů jako jsou akční scény, ve kterých jsou zachyceni herci na snímku, ale zrovna v danou chvíli nemluví nebo scény, ve kterých není záběr na žádného herce a přitom snímky doprovází monolog vypravěče, lze určit následující předpoklad a souvislost mezi snímky videa a jeho dabingem. Pokud se na snímku videa zobrazí hercův obličej, lze předpokládat, že herec mluví. Na základě tohoto předpokladu lze sestavit časovou řadu obsahující informace o časových úsecích promluvy nebo dialogu mezi herci. Důležitým předpokladem pro zpracování dabingu respektive audia je úspěšná detekce řeči a především určení času jednotlivých promluv. Pokud zmíněné přístupy

35 3.2 Výběr metodiky 35 a metody pro zpracování audia dokáží úspěšně detekovat řeč, lze na základě časů promluv sestavit časovou řadu. U titulků není potřeba provádět abstrakci nebo nějakým způsobem zjednodušovat jejich zpracování. Titulky ve vhodném formátu mají přesně definovanou strukturu, která vždy obsahuje informaci o začátku a konci promluvy a textu, který se v tomto čase zobrazí. Zpracováním těchto časů, lze vygenerovat časovou řadu. Mezi výše uvedenými modalitami lze pozorovat zmíněnou časovou spojitost. Pokud ve filmu vede herec dialog v určitém čase, tak v tom stejném čase bude detekována řeč v dabingu a to samé musí platit i pro titulky. Na základě této spojitosti lze porovnávat jednotlivé časové řady a určit tak související modality. Pro vyhledávání souvislosti mezi časovými řadami lze využít algoritmus dynamic time warping (DTW), který umožní redukovat různé posuny v časových řadách a dokáže poskytnout potřebnou informaci o jejich vzájemné souvislosti. Jednou z možností je využití knihovny FastDTW, která algoritmus DTW implementuje. Pomocí tohoto nástroje lze vyjádřit podobnost dvou časových řad pomocí celočíselné hodnoty. Minimum, které představuje naprosto shodné časové řady, zastupuje číslo 1. Všeobecně dále platí, čím menší hodnota, tím vyšší vzájemná souvislost. Po shrnutí výše uvedených předpokladů, možností zpracování a optimalizace je možné relativně snadným způsobem prohledávat databázi přidaných video nahrávek, dabingů a titulků a vyhledat tak k vybrané modalitě související obsah. K ověření tohoto přístupu bude provedeno testování nad vytvořenou databází multimodálních dat pomocí uměle vytvořených multimédií. 3.2 Výběr metodiky Jak je již z cíle práce patrné, vytvoření prototypu aplikace zpracovávajícího multimodální data, bude využit prototypový přístup k vývoji aplikace. Tato metodika byla vybrána za účelem rychlé simulace funkčnosti vybraného přístupu k zpracování multimodálních dat. Prototypování je obecně rozdělena do následujících fází: identifikace a specifikace požadavků, vývoj prototypu, zhodnocení prototypu, implementace systému. Následující části práce vychází z prvních tří fází metodiky, které jsou rozšířeny o návrhy rozšíření vyvinutého prototypu. Zároveň je vynechána implementace prototypu do aplikačního systému (Obr. 11). I když je tato fáze metodiky vynechána, neznamená to, že se jedná o jednorázové prototypování. Výsledný prototyp ověří funkčnost zvoleného přístupu ke zpracování multimodálních dat a bude východiskem pro vývoj aplikačního softwaru.

36 36 3 METODIKA ŘEŠENÍ Specifikace požadavků Vývoj prototypu Zhodnocení. prototypu Návrh rozšíření Ekonomická zhodnocení Obrázek 11: Rozšířená metodika prototypování 3.3 Použité technologie a metody Java Je považována za jazyk 3. generace. Disponuje svoji univerzálností, objektovou orientací a především meziplatformností. Aplikaci napsanou v Javě lze spustit na jakémkoliv přístroji, který má nainstalovaný virtuální stroj (JVM). K vývoji lze použit řadu kvalitních vývojových prostředí, jako jsou například NetBeans, JBuilder, Eclipse, JIDEA a další. Platforma Javy se skládá z: JVM, překladače, Java Core API. Xuggler Je volně dostupný nástroj napsaný v programovacím jazyce Java. Slouží pro kompresi, kódování a manipulaci s video soubory.

37 3.3 Použité technologie a metody 37 Sphinx-4 Je nástroj pro rozpoznávání řeči napsaný v programovacím jazyce Java. Byl vytvořen na základě spolupráce mezi skupinou Sphinx, univerzitou Carnegie Mellon, společností Sun Microsystems, MERL a HP s pomocí UCSC a MIT. OpenCV Je multiplatformní volně dostupná knihovna pro práci s počítačovou grafikou. Její základ tvoří knihovny napsané v programovacím jazyce C a C++. Rozšiřitelnost tohoto projektu umožnil vývoj rozhraní pro různé programovací jazyky. Tento projekt si klade za cíl poskytnout snadno použitelnou sadu nástrojů pro počítačové vidění. Pomocí více než 500 optimalizovaných algoritmů lze vytvářet aplikace nacházejících se v oborech jako je například biomedicína, bezpečnost, robotika a automatizace, tvorba uživatelských rozhraní či strojové učení. Další výhodou tohoto projektu je možnost využití paralelního zpracování, které jsou oceněny obzvláště v real-time aplikacích. FastDTW FastDTW je knihovna implementující rozšíření algoritmu DTW v programovacím jazyce Java. Pro zpracování časových řad využívá víceúrovňový přístup a rekurze. Jeho obrovskou výhodou je, že v případě nedostatku operační paměti pro uložení matice nákladů automaticky přepne ukládání z paměti na disk. (Salvador, 2004) Obecně algoritmus DTW provádí synchronizaci signálů se zachováním vnitřního pořadí měřených bodů. Nejlépe se hodí pro synchronizaci sekvencí s chybějícími úseky za předpokladu dostatečné délky sekvencí a splnění omezujících podmínek: monotónnost: neklesající funkce, kontinuita: žádný bod se nesmí vynechat, hraniční podmínky: začátky a konce sekvencí si odpovídají, velikost nastaveného okno: funkce se musí vejít do určitého okolí diagonály, omezení strmosti: růst ani klesání funkce nesmí být příliš strmé.

38 38 4 VÝVOJ PROTOTYPU 4 Vývoj prototypu 4.1 Analýza požadavků Důležitou částí prototypování je specifikace požadavků na aplikační software. Přesná specifikace požadavků zamezí nepochopení zadání a ušetří čas spojený s přepracováním prototypů a následnou implementací systému. Analýza požadavků je rozdělena na dvě části: analýza požadavků na databázi multimodálních dat, analýza požadavků na prototyp aplikace. Analýza požadavků na databázi Databáze musí být schopna pojmout informace o přidávaných multimédií (audiu, videu a textu). U každého multimédia musí udržovat informace o: umístění datového souboru, velikosti, názvu. U videa musí navíc udržovat informace o použitém video a audio kodeku, výšce a šířce videa a délce záznamu. Pro audio soubory musí uchovat informace o audio kodeku, počtu kanálů a bitrate. Pro titulky nejsou nutná další rozšíření. Mezi jednotlivými multimédii není nutné udržovat vzájemné vazby, nicméně při návrhu databáze se musí počítat s možným rozšířením. Není vyžadován konkrétní databázový systém, ale je nutné, aby zvolená databáze byla rychlá a podporovala SQL standard. Analýza požadavků na prototyp aplikace Primárním funkčním požadavkem prototypu je implementace funkce, která bude schopna každému vybranému audio, video záznamu nebo titulkům dohledat vhodné související multimédia na základě obsahu, nikoliv metainformací. Vytvořený prototyp musí být schopný provést následující operace: přidání audia, videa a titulků do databáze, stažení klipů z Youtube, zobrazení obsahu databáze, určení spojitosti mezi dvěmi vybranými multimédii, možnost konfigurace.

39 4.2 Návrh databáze multimodálních dat 39 Hlavní nefunkční požadavek na prototyp aplikace je využití programovacího jazyka Java pro vývoj prototypu, který poskytne výslednému aplikačnímu systému nezávislost na operačním systému. Další nefunkční požadavky jsou: rychlé zpracování a vyhledávání mezi multimédii, nízké paměťové nároky, zaměření na možné rozšíření prototypu o další funkce, vytvoření vhodného grafického uživatelského prostředí. 4.2 Návrh databáze multimodálních dat Ještě před návrhem databázového schématu je nutné vybrat vhodný databázový systém pro ukládání multimodálních dat na základě specifikací v předešlé sekci. Výběr databázového systému Databázových systémů, ať už volně dostupných nebo placených, je celá řada. Využití moderních databází pro tento projekt jako jsou Oracle Database nebo MSSQL nepřichází v úvahu kvůli jejich robustnosti a složitosti. Pro tento prototyp se nejlépe hodí low-end databáze jejichž výhodou je dostupnost, jednoduchost a v některých případech důležitá rychlost. Z low-end databázových systémů byly vybrány MySQL a HSQLDB. MySQL JDBC 34.1 HSQLDB Server 14 Derby x krát pomalejší Obrázek 12: Porovnání výkonnosti HSQLDB JDBC s jinými databázemi (The hsql development group, 2012) Na základě výše uvedeného grafu 4 srovnávajícího rychlost databází MySQL s využitím JDBC, HSQLDB serveru a Derby s databází HSQLDB byl zvolen databázový systém HSQLDB, který bude komunikovat s prototypem aplikace pomocí 4 Další testy a srovnání jsou dostupné na

40 40 4 VÝVOJ PROTOTYPU JDBC konektoru. Výhodou HSQLDB oproti konkurenčnímu MySQL není pouze rychlost, ale i snadná instalace a konfigurace. Návrh databázového schématu Ze specifikace požadavků na databázi multimodálních dat lze jasně vyčíst požadované entity a jejich atributy. Jednotlivé entity schématu jsou Audio, Movie a Subtitle. Níže uvedený diagram je oproti specifikaci rozšířen o entitu MultimodalItem, která byla přidána za účelem možného uložení souvisejících multimédií z výsledku vyhledávání. Přidané atributy subtitle_timeserie, movie_timeserie a audio_timeserie zastupují odkazy na soubory obsahující časové řady daného multimédia. Ostatní přidané atributy vystihují jejich názvy. Obrázek 13: ER diagram databáze multimodálních dat Analýza a návrh prototypu Analýza a návrh prototypu se může zdát jako zbytečný mezikrok, který se u prototypování často nevyužívá. Nicméně v případě této práce pomohou zjednodušené

41 4.2 Návrh databáze multimodálních dat 41 analytické a návrhové diagramy pochopit strukturu a hlavní operace prototypu. Dalším důvodem využití analýzy a návrhu prototypu je fakt, že je plánováno rozšíření prototypu do podoby funkčního systému. Případy užití prototypu Níže uvedený diagram případů užití znázorňuje interakci uživatele s prototypem. Uživateli je umožněno přidávat videa, dabingy a titulky do databáze. Každá akce přidání zahrnuje fázi zpracování multimédia a vytvoření časové řady. Pokud jsou časové řady úspěšně vytvořeny, jsou získané informace uloženy do databáze. Další důležitou akcí uživatele je vyhledání souvisejících multimédií na základě jejich obsahu. Po spuštění vyhledávání se nahrají multimédia z databáze a spustí se proces porovnávání a výběru relevantních multimédií. Obrázek 14: Diagram případu užití Architektura prototypu Základ architektury prototypu tvoří MVC architektura rozšířená o databázovou vrstvu, která umožní základní operace s databází. Model aplikace je rozdělen do tří vrstev. Vrstva Provider poskytuje rozhraní pro komunikaci s modelem prototypu. Vrstva Time series má na starosti generování časových řad z příslušných médií a poslední vrstva modelu Searching and Comparing vyhledává související média na základě obsahu. Ostatní částí architektury provádí rutinní operace spojené s jejich umístěním v rámci architektury.

42 42 4 VÝVOJ PROTOTYPU Obrázek 15: Architektura prototypu Analytické třídy Níže uvedený diagram vychází z architektury prototypu a popisuje jeho zjednodušenou kostru (úplný zjednodušený diagram analytických tříd je v příloze A). Pro usnadnění implementace byly do diagramu zavedeny návrhové vzory Singleton a Bridge. Základ tvoří třída Controller, která umožňuje komunikaci mezi modelem prototypu a jeho grafickým uživatelským prostředím. Uživatelské prostředí vytváří třída GUIForm, která vykresluje kromě standardních grafických prvků i grafy poskytnuté třídou TGraph. Jádrem prototypu je jeho model (třída ServiceProvider), který umožňuje spojení s databází, grafickým uživatelským prostředím a především s třídou ProviderBridge. Všechny tyto třídy mají pouze jednu instanci (Singleton), která je dostupná napříč celým systémem. Třída ProviderBridge implementuje rozhraní imultimodalanalysis a umožňuje komunikaci mezi modelem a třídami multimodální analýzy. Každá z těchto tříd provádí potřebné analýzy a zpracování nad příslušnými multimédii. Třída VideoProvider zpracovávající video využívá třídu FaceDetection, která komunikuje s nástrojem OpenCV a umožňuje detekci obličeje na snímku videa. FaceDetection je rodičem pro třídy FastFaceDetection a BasicFaceDetection, které dědí metody pro zpracování videa ze souboru nebo z webkamery. Třída VideoProvider umožňuje také zpracovat zvukovou stopu videa pomocí třídy Audio. Pro zpracování zvukové stopy, ať už je součástí filmu nebo je oddělená ve vhodném souboru, je využita třída Audio pracující

43 4.2 Návrh databáze multimodálních dat 43 s třídou AudioExporter. Z třídy AudioExporter dědí třída FFMpeg, která vykonává proces extrahování audia a jeho metainformací. Důležitější částí zpracování zvukové stopy je určení času promluvy, které umožňuje třída Sphinx. Veškeré tyto funkce poskytuje třída AudioProvider. Poslední třídou zpracovávající multimodální data je třída SubtitleProvider. Třída zprostředkovává metody a funkce, které jsou implementovány v třídě Subtitle. Tato abstraktní třída, některé metody implementuje a zbylé přenechává na své potomky, kteří doplní implementaci zbylých metod. Pro komunikaci s databází HSQLDB slouží třída Database, která implementuje rozhraní idatabase. Část metod je opět implementována a zbylé jsou předány třídě HsqlDB k vlastní implementaci. Výhodou tohoto návrhu je jednoduché přidání dalších databázových systémů bez velkých změn v kódu. Obrázek 16: Diagram analytických tříd Návrh na úrovni komponent Níže uvedený diagram komponent tvoří komponenty GUI, Service provider, Databáze a subsystém Multimodal analysis. Základem je komponenta Service provider, která je závislá na ostatních komponentách. Subsystém Multimodal analysis komunikuje se zbytkem systému pomocí rozhraní IMultimodalAnalysis. Zvolený způsob komunikace umožní bez problému změnit aplikační logiku bez narušení integrity systému. Základem subsystému je komponenta BridgeProvider, která je závislá na komponentách AudioProvider, SubtitleProvider a Video provider. Každá z těchto komponent provádí operace s odpovídajícími multimédii.

44 44 4 VÝVOJ PROTOTYPU Obrázek 17: Diagram komponent 4.3 Implementace prototypu Připojení k databázi Pro připojení k databázi se používá JDBC konektor. Teoreticky lze použít jakoukoliv databázi, která JDBC konektor nabízí. Pro vybranou databázi HSQLDB je použit konektor org.hsqldb.jdbcdriver, který musí být zaveden do třídy HSQLDB pomocí níže uvedeného kódu. static{ try{ Class.forName( org.hsqldb.jdbcdriver ); }catch (ClassNotFoundException e) { e.printstacktrace(); } } Spojení s databází poskytuje třída ServiceProvider, která vytvoří pouze jednu instanci třídy HSQLDB. V níže uvedeném konstruktoru třídy HSQLDB probíhá vytvoření spojení pomocí třídy DriverManager. Metoda getconnection přebírá parametry relativní cesty k souboru databáze, uživatelského jména a hesla pro připojení. Spojení s databází je udržováno po celou dobu běhu prototypu. Veškeré změny jsou ukládány ve formě SQL dotazů do temp souborů a po ukončení aplikace jsou všechny tyto dotazy provedeny a spojení s databází je ukončeno. public HSQLDB{ conn = DriverManager.getConnection(Configuration.HSQLDB_DB_PATH,Configuration.HSQLDB_USER_NAME, Configuration.HSQLDB_PASSWORD); } Níže uvedený kód prezentuje způsob získání dat z databáze. Pro získání dat se používá funkce query, která po provedení zadaného SQL dotazu sestaví seznam map. Tento seznam je generován procházením jednotlivých řádků výsledku SQL dotazu. V cyklu se prochází řádky výsledku a pro každý řádek se zvlášť prochází jednotlivé hodnoty. Každá hodnota je přidána do mapy s klíčem zastupující název daného sloupce. Na konci cyklu procházejícího hodnoty řádků je mapa přidána do

45 4.3 Implementace prototypu 45 seznamu. Pomocí takto vytvořené struktury lze pohodlně přistupovat k výsledkům public String getsubtitletimeseriespath(int id) { List<Map<String,Object>> list = this.query( select subtitle_timeserie from subtitle where subtitle_id = + id); if(list.size()>0)return list.get(0).get( subtitle_timeserie ).tostring(); else return null; } ResultSetMetaData meta = rs.getmetadata(); List<Map<String,Object>> rows = new ArrayList<Map<String,Object>>(); int colmax = meta.getcolumncount(); Map<String,Object> map; for (; rs.next(); ) { map = new HashMap<String,Object>(); for (int i~= 0; i~< colmax; ++i) { if(rs.getobject(i~+ 1)!=null) map.put(meta.getcolumnname(i+1).tolowercase(), rs.getobject(i~+ 1). tostring()); else map.put(meta.getcolumnname(i+1), NULL ); } rows.add(map); } Přidávání multimédií Přidat video nahrávku, dabing nebo titulky do databáze lze pomocí příslušných dialogových oken. V případě videa existuje možnost stažení klipů ze serveru Youtube pomocí kódu videa. Princip stažení klipů a zpracování všech multimédií je popsán v níže uvedených kapitolách. Stažení klipů z Youtube má určitá omezení. V případě, že se uživatel rozhodne stáhnout klip, musí brát ohled na licenční omezení. Autor nahraného klipu má možnost upravovat licenční podmínky pomocí standardní licence Youtube nebo volné licence Creative Commons. V případě, že je klip tvořen licencovanou zvukovou nebo obrazovou stopou, nelze jej stáhnout. Pro úspěšné stažení klipu se musí nejprve zpracovat jeho metadata. Tato data jsou pro každý klip dostupná na URL adrese: První parametr video_id zastupuje kód klipu a poslední atribut fmt představuje itag požadované kvality klipu 5. Metadata obsahují celou řadu matainformací o klipu od použitého kodeku, kvality až po vlastníka. Ovšem pro stažení klipu je důležitá metainformace url_encoded_fmt_stream_map, která obsahuje URL adresu s umístěním klipu a ověřovací klíč pro stažení. Níže uvedená část algoritmu prezentuje extrakci URL a klíče ze stažených metainformací. 5 Tabulka fmt itag je dostupná na

46 46 4 VÝVOJ PROTOTYPU if (key.equals( url_encoded_fmt_stream_map )) { String[] formats = COMMAPATTERN.split(val); String[] fmtpieces = formats[0].split( & ); String url= ; String sig= ; } for (String string : fmtpieces) { if(string.startswith( url )) url=string.substring(4); if(string.startswith( sig )) sig=string.substring(4); } downloadurl=url+ &signature= +sig; downloadurl = java.net.urldecoder.decode(downloadurl); Extrahování metainformací z multimédií je v případě stažení videa z Youtube jednoduché, protože metainformace byly získány přímo od vlastníka videa. Na druhou stranu v případě ručního přidání souborů lze využít sofistikovaných nástrojů, které poskytnou potřebné informace bez velké námahy. Pro správnou funkčnost prototypu jsou použity knihovny FFmpeg a Xuggler. FFmpeg je využit pro extrahování a konvertování dabingu do vhodného formátu. Získání metainformací pomocí FFmpeg je možné, ale tento proces je složitý a zbytečně pracný. Naopak využití nástroje Xuggler, který využívají třídy XugglerAudio- Bean a XugglerVideoBean, je pohodlné a efektivní. Extrakce metainformací z titulků nemá pro tuto práci velký význam a proto není řešena. Níže uvedený algoritmus představuje ukázku získání metainforamcí z videa nebo dabingu. Prvním krokem je otevření aplikačního kontejneru, do kterého je přidán soubor určený k analýze. V následujících částech kódu jsou získávány potřebné informace 6. IContainer container = IContainer.make(); if (container.open(testfile.getabsolutepath(), IContainer.Type.READ, null) < 0) { throw new IllegalArgumentException( could not open file: + testfile.getabsolutepath()); } this.duration = container.getduration()/1000; this.size = container.getfilesize(); this.bitrate = container.getbitrate(); int numstreams = container.getnumstreams();... Zpracování videa Pro zpracování videa, respektive jeho jednotlivých snímků a rámců je využit nástroj OpenCV, který obsahuje spoustu užitečných funkcí. Jeho výhodou oproti ostatním nástrojům je, že nevyžaduje známé pozadí, předem známé barvy lidské kůže a poradí si i se statickou fotografií. V případě této práce je jediným nedostatkem OpenCV jeho 6 Seznam všech dostupných funkcí lze najít v documentation/java/api/

47 4.3 Implementace prototypu 47 implementační jazyk (C++). Aby prototyp mohl využívat funkce tohoto nástroje, musí pracovat s knihovnou JavaCV, která využívá nativní rozhraní pro komunikaci s řadou nástrojů, mezi kterými je i zmíněný OpenCV. Hlavním cílem zpracování videa je vytvoření časové řady znázorňující pasáže, ve kterých byly na snímku videa detekovány obličeje. Detekcí obličeje je myšleno vyhledávání, nikoliv rozpoznání obličeje. Rozpoznání obličeje je jednou z mnoha úloh počítačového vidění a pro účely tohoto prototypu se nehodí. OpenCV pro detekci obličeje využívá slabé kaskádové klasifikátory (Weak classifier cascades). Tyto klasifikátory mají nastavené plovoucí okno o fixní velikosti (např. 24x24px) a procházením obrazu dokáží detekovat objekty stejné velikosti. Pro odstranění problémů s různou velikostí detekovaných objektů (v závislosti na vzdálenosti od objektivu) se snímek skenuje ve více rozlišeních. Pomocí algoritmu strojového učení Real AdaBoost, lze vytvořit vhodný klasifikátor. Vstupem pro Real AdaBoost je vygenerovaná úplná množina haarových příznaků (hranové, čárové a diagonální). Výsledný klasifikátor je tvořen iterativním přidáváním slabých klasifikátorů, které mají v dané iteraci nejlepší přesnost klasifikace na množině trénovacích vzorků 7. Pro detekci obličeje jsou v prototypu využity dva typy klasifikátorů 8. První použitý klasifikátor je FrontalFace, jehož autorem je Rainer Lienhart a umožňuje pouze detekci obličeje. Druhým klasifikátorem je HeadAndShoulders, jehož autorem je Modesto Castrillón Santana a umožňuje detekci obrysu obličeje a ramen. Detekci obličejů provádí třídy BaseFaceDetection a FastFaceDetection, které dědí z třídy FaceDetection. Rozdíl mezi těmito třídami spočívá v přípravě snímku pro další zpracování. Metody třídy BaseFaceDetection transformují barvy snímku do stupňů šedi a následně provádí normalizaci světlosti a zvýšení kontrastu. Oproti těmto metodám metody třídy FastFaceDetection rapidně sníží náročnost na výpočet díky změně rozlišení snímku před normalizací světlosti, zvýšením kontrastu a následnou detekcí největšího obličeje na snímku. Níže uvedený kód znázorňuje přípravu snímku ve třídě FastFaceDetection. grayimage = IplImage.create(image.width(), image.height(), IPL_DEPTH_8U, 1); smallimage = IplImage.create(grayImage.width()/FaceDetection.IMAGE_DELIMITR, grayimage.height()/ FaceDetection.IMAGE_DELIMITR, IPL_DEPTH_8U, IplImage cvimg = grayimage; IplImage equimg = IplImage.create(cvImg.width(), cvimg.height(), IPL_DEPTH_8U, 1); cvequalizehist(cvimg, equimg); Pro každý snímek video nahrávky se provede výše uvedená příprava následovaná detekcí největšího obličeje pomocí metody cvhaardetectobjects 9, jejichž implementace je uvedena níže. Po detekci obličeje bude do časové řady přidána položka, která bude signalizovat výskyt obličeje na daném snímku pomocí hodnot 0 nebo 1. 7 Návod na vytvoření vlastního klasifikátoru je dostupný zde SciSoftware/haartraining.html 8 Seznam klasifikátorů ke stažení lze najít na 9 Popis všech parametrů je dostupný na: 55a c-534f-f2fa-fbbe60e1d8d4.htm

48 48 4 VÝVOJ PROTOTYPU facelist = cvhaardetectobjects(smallimage, classifier, storage, Configuration.SCALE_FAST, Configuration. NEIGHBORS_FAST, CV_HAAR_DO_CANNY_PRUNING CV_HAAR_FIND_BIGGEST_OBJECT); addseriesitem(filewrapper.gettimestamp()/1000, facelist.total()); Pro výběr vhodného klasifikátoru detekce obličeje byl proveden následující experiment. Vytvořená aplikace, zobrazuje záznam z integrované 1.3mp webkamery rozšířený o detekci obličeje nebo obličeje a ramen podle použitého klasifikátoru. V aplikaci je použita třída FastFaceDetection. Prvním parametrem konstruktoru třídy FastFaceDetection je ID webkamery (pro testování lze využít i video soubor výběrem jiného konstruktoru). Další parametr zastupuje výběr klasifikátoru (0 - obličej a ramena, 1 - pouze obličej) a posledním parametrem je debuge mód. public static void main(string[] args) { FaceDetection detect = new FastFaceDetection(0,0 1,true); detect.run(); } Obrázek 18: Obličej A Obrázek 19: Obličej B Obrázek 20: Obličej C Obrázek 21: Obličej a ramena A Obrázek 22: Obličej a ramena B Obrázek 23: Obličej a ramena C Výsledky experimentu (Obr ) poukazují na vyšší úspěšnost klasifikátoru HeadAndShoulders. Klasifikátor FrontalFace na obrázku 19 a 20 nedokázal detekovat obličej při mírném natočení hlavy. Naopak klasifikátor HeadAndShoulders dokázal detekovat obličej u všech tří obrázků (Obr ). V případě rychlosti

49 4.3 Implementace prototypu 49 zpracování a vyhodnocení každého snímků dosahuje lepších výsledků také klasifikátor HeadAndShoulders. Na základě výsledků tohoto experimentu je v prototypu nastavena detekce obličeje pomocí klasifikátoru HeadAndShoulders jako výchozí volba. Nicméně prototyp umožňuje toto nastavení změnit a vybrat klasifikátor FrontalFace. Výsledná časová řada zpracovaného videa se skládá z velkého množství instancí tříd TimeSerieBean, jejichž počet je nutné redukovat kvůli paměťové náročnosti. Například desetiminutový klip bude obsahovat instancí. Této redukce lze dosáhnout několika způsoby. Prvním způsobem je zavedení operandu modula do algoritmu analyzující obraz videa. Tento způsob zrychlí zpracování videa, ale na úkor zkreslení časové řady a tím pádem i výsledků vyhledávání. Druhou možností, kterou prezentuje níže uvedený kód, je určení a výběr hraničních zlomových bodů, které budou tvořit časovou řadu. public void addseriesitem(long time,int value) { TimeSerieBean lastitem = serie.getlasttimeseriebean(); if(lastitem.getvalue()!=value) serie.addtimeserieitem(time, value); } V případě video nahrávky lze kromě zpracování obrazu využít i dabing, případně titulky. Zpracování těchto multimédií je popsáno v následujících sekcích. Zpracování dabingu Základem zpracování dabingu je příprava vstupních dat. Prototyp umožňuje uživateli využít dabing obsažený ve video nahrávce nebo dabing, který sám vybere. Rozdíl u těchto možností spočívá v rozšíření fáze přípravy dat o extrahování zvukové stopy v případě video nahrávky. K extrahování dabingu z videa se využívá FFmpeg zmíněný v předešlých kapitolách. Níže uvedený kód extrahuje zvukovou stopu z videa a provede její transformaci (16khz, mono, little-endian) požadovanou nástrojem Sphinx4. String dotaz = tools/ffmpeg.exe i~\ temp/ +video.getfilename()+ \ acodec pcm_s16le ac 1 ar \ temp/ +video.getfilename()+.wav\ y ; Process p = Runtime.getRuntime().exec(dotaz); Takto upravená zvuková stopa je dále analyzována a zpracována třídou Sphinx4. Princip funkční logiky této třídy je rozdělen do následujících částí: inicializace, zpracování, optimalizace časových řad. Inicializace Sphinx4 spočívá ve správném nastavení řady parametrů a komponent pomocí konfiguračního xml souboru. Mezi nejdůležitější komponenty konfi-

50 50 4 VÝVOJ PROTOTYPU gurace patří Recognizer, Decoder a FlatLinguist 10. Komponenta Recognizer specifikuje komponenty Decoder a Monitor, jejichž nastavení ovlivňuje proces rozpoznání řeči. Decoder zastupuje výběr vhodné komponenty pro vyhledání nejlepší cesty grafem a nastavení komponenty FlatLinguist. V případě třídy Sphinx je vybrána komponenta WordPruningBreadthFirstSearchManager. Nastavení komponenty Monitor ovlivňuje sledování úspěšnosti, rychlosti a využití paměti. Implementace Sphinx4 není složitou záležitostí, ale vhodné nastavení je otázkou několikadenního testování a neustálého upravování konfigurace. Existuje spousta parametrů, které lze nastavit a upravit tak úspěšnost rozpoznání řeči. V níže uvedené tabulce jsou parametry a jejich hodnoty, které ji nejvíce ovlivňují. Tabulka 4: Nastavení důležitých parametrů nástroje Sphinx4 Nastavení Hodnota Popis LanguageWeight 10.5 Váha jazyka Ngram size 3 N gram Language model hub4/language_model.arpaformat.dmp Gramatika Acoustic model hub4/acoustic_model/ Akustický model Dictionary hub4/cmudict.hub4.06d.dict Slovník Pro efektivnější ladění prototypu byla většina důležitých parametrů vyjmuta z konfiguračních xml souborů a implementována pomocí konfiguračních managerů. Díky tomuto řešení lze pohodlně měnit nastavení prototypu bez nutnosti úprav xml souborů. Níže uvedený kód popisuje implementaci konfiguračního managera. cm = new ConfigurationManager( config/sphinx custom.xml ); this.setlanguageweight(configuration.language_weight); this.setngramsize(configuration.ngram_size); this.setmodallocation(configuration.model_location); this.setacousticmodeldictionary(configuration.acoustic_model); this.setdirectorypath(configuration.dictionary_path);... Nejdůležitějším nastavením je gramatika jazyka, od které se odvíjí ostatní nastavení. Pro tento prototyp byla vybrána gramatika, akustický model a slovník HUB4 11. I přes nedostatky spojené s úspěšností rozpoznání slova (Marquard, 2011), jsou tyto modely akceptovatelné pro tuto práci jelikož východiskem není rozpoznání jednotlivých slov, ale určení časových úseků promluvy. Proces zpracování provádí metoda processextract(). Základním prvkem každé metody pracující s nástrojem Sphinx4 je instance třídy Recognition, pomocí které se spustí rozpoznávání řeči a rutinní operace spojené s alokací zdrojů v nastavení zobrazené v níže uvedeném kódu. Po úspěšném vytvoření všech komponent nastavení a inicializace vstupních dat metoda cyklicky rozpoznává řeč pomocí metody 10 Podrobný popis všech komponent Sphinx4 najdete na ashx?id=10434&file=experiment_2_preparation_10434.pdf 11 Další modely jsou dostupné na:

51 4.3 Implementace prototypu 51 recognize(). Pro sestavení časových řad je důležitá detekce řeči s časovým razítkem. K tomuto účelu se nejlépe hodí metoda gettimedbestresult(), která vždy vypíše zaznamenanou promluvu a za jejím každým slovem uvede čas. Například výstupem této metody může být: ahoj (0,0.3) jak (0.35, 0.5) se (0.55, 0.65) máš (0.65, 0.8). Recognizer recognizer = (Recognizer) cm.lookup( recognizer ); TextAlignerGrammar grammar = (TextAlignerGrammar) cm.lookup( textaligngrammar ); recognizer.addresultlistener(grammar); recognizer.allocate(); AudioFileDataSource datasource = (AudioFileDataSource) cm.lookup( audiofiledatasource ); datasource.setaudiofile(new URL( file: +audiofile.getabsolutepath()), null); while ((Result result = recognizer.recognize())!= null) { String resulttext = result.gettimedbestresult(false, true); this.lineoftext.add(resulttext); this.extracttranscription += resulttext; } recognizer.deallocate(); Optimalizace časových řad se u zvuku provádí obdobným způsobem jako v případě optimalizace časových řad videa. Problém nastává při zpracování časových položek promluvy. Přidáním času každého slova do časové řady získáme opět spousty instancí třídy TimeSerieBean. Řešením je jejich redukce na základě spojení časů souvisejících slov. V nastavení prototypu je určena maximální hodnota pro pauzu mezi slovy. V cyklu se prochází seznam instancí hodnot časové řady, dokud existují dvojce po sobě vyslovených slov, pro které platí, že konečný čas vyslovení prvního slova a počáteční čas vyslovení druhého slova má menší rozdíl než určená hodnota v nastavení. Následnou úpravu provedenou v každé iteraci znázorňuje níže uvedený kód. if((lastitem.gettimeto()==prvni.gettimefrom() (prvni.gettimefrom() lastitem.gettimeto())< Configuration.DIFERENCE)) { templist.remove(templist.size() 1); templist.add(new TranscriberBean(lastItem.getWord(),lastItem.getTimeFrom(),prvni.getTimeTo ())); } else { templist.add(new TranscriberBean(lastItem.getWord(),prvni.getTimeFrom(),prvni.getTimeTo())) ; } Zpracování titulků Titulky různých formátů mají vždy společné dvě položky, časové razítka pro začátek a ukončení zobrazení titulků a text, který se v tomto mezičase zobrazí. Právě tato dvojce údajů je využita při generování časových řad z titulků. Prototyp pracuje s titulky ve formátu SubRip 12. Níže uvedený zjednodušený algoritmus popisuje extrahování položek titulků. 12 Specifikaci SubRip lze najít zde:

52 52 4 VÝVOJ PROTOTYPU BufferedReader cteni = new BufferedReader(new FileReader(super.getPath())); String line, time, text, id = ; int counter = 1; while((line=cteni.readline())!=null) { if(counter==1) id = line; if(counter==2) time = line; if(counter>2) text+=line; if (line.trim().isempty()) { counter=0; String[] timepart = time.split( > ); float totalfrom = parsetimetomillis(timepart[0].trim())/1000; float totalto = parsetimetomillis(timepart[1].trim())/1000; list.add(new SubtitleItem(Long.valueOf(id), totalfrom, totalto, text,one)); } counter++; } Získané položky jsou přidány do časové řady, která je optimalizována obdobným způsobem jako v případě optimalizace časových řad zvuku. Vyhledávání souvisejících modalit Po přidání a zpracování jakéhokoliv povoleného multimédia je vytvořena časová řada, která slouží k dalšímu zpracování. Tyto řady jsou optimalizovány, serializovány a ukládány spolu s příslušným multimédiem do připravené adresářové struktury. Pokud by byl mezikrok serializace vynechán, musely by být pro každé vyhledávání nebo porovnávání opětovně vygenerovány časové řady pro všechny záznamy v databázi. Prototyp umožňuje uživateli vyhledávat nebo porovnávat související multimédia na základě jejich obsahu. Pro obě zmíněné funkce je využita knihovna FastDTW implementující algoritmus DTW (dynamic time warping). Algoritmus se snaží vytvořit matici obsahující celkové vzdálenosti k odpovídajícím bodům. Matice je vytvořena na základě zvolené funkce výpočtu vzdálenosti a rekurzivní definici vzdálenosti d(a[i], b[j]). Výsledkem je nejkratší cesta maticí zpravidla z bodu [1, 1] do [I, J]. V případě vyhledávání uživatel vybere příslušné multimédium (vzorovou modalitu), ke kterému se vyhledá související obsah. Tato modalita bude sloužit jako vzor pro porovnání s ostatními modalitami. Veškeré časové řady tvořící vstup do této knihovny musí být transformovány pomocí níže uvedeného algoritmu do vhodného formátu. public TimeSeries converttodtwseries() { TimeSeries dtws = new TimeSeries(1); double[] array = new double[1]; for (int i~= 0; i~< timeserie.size(); i++) { array[0]=timeserie.get(i).getvalue(); dtws.addlast(timeserie.get(i).gettime(), new TimeSeriesPoint(array)); } } return dtws;

53 4.3 Implementace prototypu 53 Vyhledávání v cyklu porovnává multimédia odlišného typu se vzorem. Toto porovnávání je uskutečněno pomocí metody getwarpinfobetween(), která poskytuje informaci o podobnosti ve formě celočíselné hodnoty a minimální cestu maticí nákladů. Parametry této metody tvoří vzorová časová řada, časová řada k porovnání, poloměr vyhlazení cesty a funkce pro výpočet vzdálenosti. Funkce pro výpočet vzdálenosti je vybrána na základě nastavení prototypu a vytvořena funkcí getdstfnby- Name() třídy DistanceFunctionFactory. Funkce getdstfnbyname(string arg) vrací instanci příslušné funkce na základě parametru arg. Výsledky porovnání jsou pro každou hodnotu uloženy a v závěru vyhledávání vypsány. for (TimeSeries serie : firstmodal) { if(serie.gettimeserie().size()!=0){ info = getwarpinfobetween(transofmedpatern, serie.converttodtwseries(), radius, distfn); result.add(generatebean(info,id,serie.gettype(),serie.getname())); id++;} } Uživatelského rozhraní Uživatelské prostředí nebylo součástí vývoje prototypu, nicméně pro pohodlnější zpracování a analýzu dat je toto prostředí vytvořeno. Uživatelské prostředí se skládá z několika oken a dialogů (příloha B), které byly vygenerovány pomocí nástroje WindowBuilder. Základem je hlavní uživatelské okno tvořeno třídou GUI, které slouží k ovládání celého prototypu (přechod mezi obrazovkami je umožněn pomocí panelu se záložkami) a řada dialogových oken umožňující přidávání multimédií a nastavení prototypu. Komunikaci uživatelského prostředí a modelu umožňuje třída Controller, v jehož níže uvedeném konstruktoru jsou vytvořeny komunikační vazby. public Controller(GUIForm appgui, ServiceProvider serviceprovider) { this.appgui=appgui; this.serviceprovider = serviceprovider; appgui.addlisteneraddvideo(new LAddMovie(appGui,serviceProvider)); appgui.addlisteneraddaudio(new LAddAudio(appGui, serviceprovider));... V prototypu se využívají listenery pro akce vyvolané myší (BaseListener), změnou stavu okna (BaseWindowListener) a ovládacího prvku ComboBox (BaseCombo- BoxListener). Třídy, které dědí z uvedených tříd, implementují akce spojené s okny a dialogy. Například níže uvedený kód prezentuje listener pro vytvoření dialogu pro přidání dabingu do public void mouseclicked(mouseevent arg0) { DialogForm dialog = new DialogSound(); dialog.setvisible(true); dialog.setclosemonitor(new WAddAudio(dialog, serviceprovider)); }

54 54 4 VÝVOJ PROTOTYPU Pro komfortnější práci s prototypem bylo umožněno paralelní zpracování dat pomocí vláken. Přidávat a zpracovávat lze několik multimédií najednou a přitom pohodlně sledovat výsledky předešlých zpracování. Paralelní zpracování je umožněno pomocí tříd, které dědí ze třídy SwingWorker. Činnost vlákna, která bude vykonána je umístěna v metodě doinbackground(). Níže uvedený kód popisuje implementaci paralelního protected Object doinbackground() throws Exception { ServiceProvider.getGui().setWindowTitle( Working ); if(!serviceprovider.getgui().getselectedmodal2().equals( Vyber ) &&!ServiceProvider.getGui(). getselectedmodal1().equals( Vyber ) ) { String path = ServiceProvider.getHsqlDb().getTimeSeriesPath(ServiceProvider.getGui(). getselectedmodal1()); String path2 = ServiceProvider.getHsqlDb().getTimeSeriesPath(ServiceProvider.getGui(). getselectedmodal2()); List<TimeSeries> list = new ArrayList<TimeSeries>(); list.add(tools.readobjectdata(path2)); ServiceProvider.getBridge().runSearcher(Tools.readObjectData(path),list,null, Configuration. OPTIMALIZATION, Configuration.RADIUS, Configuration.DISTANCE_FUNCTION, Configuration. PRUNNING); } return null; } 4.4 Testování Vytvořená databáze obsahuje různé dabingy, titulky a videa. Většina dat byla stažena ze serveru Youtube a titulky.com. Do databáze bylo přidáno i sestříhané video, které je tvořeno monologem sedící herečky a akčními ukázkami z filmu. Tyto dvě pasáže se opakovaně střídají a tvoří tak testovací vzorek. Na základě výše uvedené úpravy videa byl upraven dabing i titulky, tak aby odpovídaly nově vytvořenému videu. Tyto testovací vzorky budou použity pro ověření úspěšnost aplikovaného přístupu. První fáze testování se zaměřila na vyhledávání vhodných dabingů a titulků k vybranému videu. Jako vzorové video bylo vybráno uměle vytvořené video zmíněné výše a po provedeném vyhledávání prototyp vypsal následující výsledky (Tabulka 5). Z tabulky je patrné, že se k vybranému videu nejlépe hodí titulky a dabing, který s ním souvisí (uměle vytvořené titulky a dabing). V případě dabingu lze pozorovat markantní rozdíly v získaném skóre. U titulků tyto rozdíly nejsou tak patrné, ale i přesto algoritmus vyhodnotil správně titulky test_subtitle.srt za nejvhodnější. Získané výsledky doplňuje dvojce níže uvedených matic nákladů s jejich ideální cestou (Obrázek 24 a 25).

55 4.4 Testování 55 Tabulka 5: Výsledky vyhledávání na základě uměle vytvořeného videa ID Typ Název Skóre 1 Dabing test_movie.wav Dabing Log into Your .wav Dabing momentum.wav Dabing Rmjb.wav Dabing frombricks.wav Dabing How I met Your Mother.wav Dabing The Vampire Diaries Promo.wav Titulky test_subtitle.srt Titulky autogen_revolution(2012)-01x13english.srt Titulky autogen_bates_motelen.srt Titulky autogen_bates_motelps.srt Titulky autogen_bates_motelasap.srt 1269 Obrázek 24: Matice nákladů proobrázek 25: Matice nákladů pro test_movie.avi a test_movie.wav test_movie.avi a test_subtitle.srt V případě vyhledávání souvisejících titulků a video nahrávek k uměle vytvořenému dabingu algoritmus nedosahuje dobrých výsledků (Tabulka 6). Související video (test_movie.avi) získalo nejhoršího skóre. O něco lépe dopadl výběr vhodných titulků (skóre 11 značí silnou souvislost), nicméně i v tomto případě algoritmus nezvolil nejvhodnější titulky. Vyhledávání souvisejících video nahrávek a dabingů na základě vybraných titulků dosahuje lepší výsledků (Tabulka 7) než předchozí varianta. Algoritmus sice opět nedokázal správně určit související video nahrávku (test_movie.avi), ale správně určil související zvukovou stopu. Špatné výsledky algoritmu v případě vyhledávání souvisejících multimédií na základě titulků a dabingů jsou zřejmě způsobeny záznamem pouze jediné charakteristiky při sestavení časových řad. Vylepšením detekce obličejů rozšířeného o detekci rtů, zlepšení algoritmů zabývající se detekcí řeči (VAD) a rozšíření záznamu časo-

56 56 4 VÝVOJ PROTOTYPU Tabulka 6: Výsledky vyhledávání na základě uměle vytvořeného dabingu ID Typ Název Skóre 1 Film FOX EXPOSED.webm 88 2 Film zpravy.webm Film test_movie.avi Titulky autogen_bates_motelen.srt 3 5 Titulky autogen_bates_motelps.srt 3 6 Titulky autogen_bates.motelasap.srt 3 3 Titulky test_subtitle.srt 11 7 Titulky autogen_revolution(2012)-01x13english.srt 55 Tabulka 7: Výsledky vyhledávání na základě titulků ID Typ Název Skóre 1 Film FOX EXPOSED.webm 70 2 Film zpravy.webm Film test_movie.avi Dabing test_movie.wav 11 9 Dabing Log into Your .wav Dabing momentum.wav 17 7 Dabing Rmjb.wav 18 8 Dabing frombricks.wav 18 3 Dabing The Choice_Obama.wav 19 6 Dabing How I met Your Mother.wav 21 5 Dabing The Vampire Diaries Promo.wav 22 vých řad o více charakteristik pro každé multimédium by mohlo být dosaženo ještě lepších výsledků. Jednotlivé návrhy na vylepšení jsou popsány v dalších kapitolách. Navržený přístup k vyhledávání souvisejících multimédií na základě obsahu prakticky ověřil možnosti analýz a zpracování multimodálních dat. Po shrnutí výše uvedených výsledků testů, lze usoudit, že tento koncept má nedostatky spojené s analýzou a záznamem některých charakteristik z modalit. Po jejich odstranění by mohlo být dosaženo lepší výsledků.

57 4.5 Instalace a spuštění Instalace a spuštění Prototyp byl testován a spouštěn na operačním systému Windows 72 32bit a Windows XP SP3 32bit. Pro úspěšnou instalaci prototypu stačí zkopírovat složku s projektem do libovolného adresáře, ve kterém bude mít prototyp práva pro čtení a zápis souborů. Před prvním spuštěním je ovšem nutné nainstalovat potřebné aplikace a provést nezbytné nastavení proměnného prostředí operačního systému. Prerekvizity pro spuštění prototypu: Java Version 1.7 a novější verze, OpenCV Po nainstalování nebo updatu výše uvedených prerekvizit je nutné upravit proměnné prostředí systému a nastavit proměnnou PATH. Proměnná PATH bude obsahovat cestu k nainstalovanému OpenCV a JDK. Například na testovaných operačních systémech, měla proměnná PATH následující hodnotu. C:\OpenCV2.4.3\opencv\build\x86\vc10\bin; C:\ProgramFiles\Java\jdk1.7.0_09\bin;

58 58 5 TECHNICKÉ A EKONOMICKÉ ZHODNOCENÍ PROTOTYPU 5 Technické a ekonomické zhodnocení prototypu 5.1 Zhodnocení implementace prototypu Implementovaný prototyp pracuje s databází HSQLDB, která splňuje veškeré požadavky kladené na výběr databázového systému. Schéma databáze je navrženo tak, aby dokázalo uchovat veškeré požadované údaje a je připraveno na možné rozšíření. Z důvodů zabezpečení rychlosti odezvy databáze se nevyužívají datové typy BLOB pro uložení multimédií, ale odkazy na umístění příslušných souborů v adresářové struktuře vytvořenou prototypem. Prototyp umožňuje ruční přidávání dabingů, videa a titulků do databáze. V případě videa lze stáhnout různé klipy ze serveru Youtube. Samozřejmostí je i vhodné zobrazení obsahu databáze, možnost konfigurace použitých algoritmů, porovnání spojitosti dvou vybraných multimédií a především vyhledávání souvisejících multimédií na základě jejich obsahu. Tyto funkce byly otestovány a na základě výsledků testů je nutné doimplementovat některé rozšíření, tak aby navržený přístup mohl správně fungovat. Tyto implementace bude snadné doplnit, protože při vývoji prototypu bylo dbáno na jeho možnou rozšiřitelnost. V případě nefunkčních požadavků obstál prototyp ve všech směrech. Zpracování titulků a dabingů je velmi rychlé a u video nahrávek závisí doba zpracování na délce a kvalitě záznamu. Vyhledávání souvisejících multimédií je díky optimalizaci časových řad rychlé. Na základě provedené analýzy a návrhu lze prototyp jednoduše rozšiřovat o další funkce. Grafické uživatelské prostředí prototypu umožňuje jednoduchým a pohodlným způsobem přidávat data do databáze a provádět nad nimi vyhledávání a porovnávání. Výsledný prototyp splňuje veškeré požadavky na databázi, nefunkční požadavky a funkční požadavky s mírným nedostatkem. Z důvodu tohoto drobného nedostatku může být prototyp rozšířen o návrhy uvedené v další části práce. Po provedeném rozšíření může být prototyp podroben dalším testům a v případě dobrých výsledků rozšiřován a vyvíjen do podoby aplikačního softwaru. 5.2 Návrh na rozšíření prototypu Rozšíření zpracování časových řad Do této chvíle byla pro každé multimédium zaznamenána pouze jediná charakteristika, na které závisela úspěšnost vyhledávání souvisejících multimédií. V případě videa to byla existence obličeje nějaké osoby na daném snímku, u zvuku zachycení časů začátků a konců promluv a u titulků časová razítka jednotlivých položek. Právě záznam jedné charakteristiky pro každé multimédium je slabou stránkou navrženého přístupu. Následující rozšíření zpracování časových řad by mohlo pozitivně ovlivnit jeho úspěšnost.

59 5.2 Návrh na rozšíření prototypu 59 Generování časových řad videa vychází z předpokladu, že výskyt lidského obličeje na snímku evokuje promluvu řečníka v tentýž časový moment. Tento předpoklad byl v testování sice úspěšný ale ne úplně přesný. Pro zvýšení jeho úspěšnosti se musí u zaznamenaného obličeje sledovat posun rtů, který jednoznačně určí, zda řečník mluví nebo nemluví. Ovšem u filmů lze často pozorovat scény, ve kterých se nevyskytují žádné osoby, ale i přesto je scéna doplňována promluvou vypravěče. Další charakteristikou, kterou lze ve videu pozorovat je světlo. Každý film má svou specifickou míru využití světla a úroveň světelných scén, některé žánry filmů musí na diváka působit ponurým, některé zase optimistickým dojmem a podobně. Této skutečnosti lze využít a do časových řad přidávat záznamy o úrovni světelné scény daných snímků. Jednou z dalších charakteristik videa, kterou lze využít pro jeho jednoznačnou identifikaci je střih. Míra a frekvence využití střihu ve videu je zřejmě úměrná jeho žánru. Film, který bude obsahovat akční scény a jeho děj bude svižný, bude obsahovat určitě více střihů, než film s romantickou zápletkou. Nicméně spojením všech výše uvedených charakteristik do jedné časové řady lze získat jedinečnou časovou řadu, která jednoznačně identifikuje daný film. Časové řady dabingu byly doposud tvořeny zpracovaným výstupem nástroje Sphinx4, který z předloženého dabingu dokázal získat promluvy v textové podobě. Nevýhodou tohoto způsobu generování časových řad je fakt, že Sphinx4 pracuje s jazykovým a fonetickým modelem, který lze aplikovat pouze na specifickou množinu dat a fakt, že Sphinx4 je primárně určen pro rozpoznání řeči. Zlepšením současného řešení by byla implementace vlastního systému umožňující pouze detekci řeči (VAD). Tak jako u videa i u zvuku lze najít různé charakteristiky, jako jsou výška tónů, hlasitost a barva zvuku. Úrovně jednotlivých charakteristik s nejvyšší pravděpodobností budou souviset s určitým videem. Scény akčního filmu bude doplňovat hlasitý zvuk s vysokými tóny a obráceně u scény romantického filmu. Obdobným způsobem jako u videa, lze ze získaných charakteristik sestavit jedinečnou časovou řadu pro každý dabing. Časové řady titulků není potřeba nějakým výrazným způsobem rozšiřovat. Generování na základě položek titulků je logické a efektivní. Možným rozšířením, které by se dalo aplikovat je frekvenční analýza slov. Po očištění výsledků frekvenční analýzy od nepotřebných spojek a předložek lze porovnávat výskyt překladu nejčetnějších slov v určitém jazyce s výsledky frekvenční analýzy u ostatních titulků. Nicméně tento přístup umožní vyhledávat související cizojazyčné titulky, nikoliv videa nebo dabingy.

60 60 5 TECHNICKÉ A EKONOMICKÉ ZHODNOCENÍ PROTOTYPU Funkční rozšíření prototypu se doposud zaměřovalo pouze na jednu úlohu zabývající se vyhledáváním souvisejících modalit na základě jejich obsahu. Po úspěšném provedení výše uvedených úprav se může funkčnost prototypu rozšířit například o následující úlohy: automatické přiřazení žánru k videu, přečasování titulků podle zvukové stopy, rozpoznání osob ve filmu, určení jazyka na základě dabingu, určení pohlaví mluvčího. 5.3 Zhodnocení ekonomického přínosu Hodnocení ekonomického přínosu prototypu je velmi složité, protože se prototyp zaměřuje na tvorbu a ověření úspěšnosti aplikovaného přístupu pro zpracování dat. V současné době se prototyp vylepšuje o rozšíření uvedené v předešlé kapitole, které může zvýšit úspěšnost vyhledávání. Po dokončení těchto úprav může být prototyp integrován do aplikačního systému. Hlavním ekonomickým přínosem nebude pouze výsledná aplikace, ale především know-how představující přístup pro zpracování multimodálních dat. Společnosti, které by integrovaly aplikovaný přístup pro zpracování dat, rozšíří nabízené služby a tím pádem mohou získat konkurenční výhodu. Tato výhoda je samozřejmě spojená s přílivem nových zákazníků a zároveň i finančních prostředků. Tento přístup lze aplikovat na vyřešení různých problémů. Lze jej například využít pro rozšíření vyhledávacích algoritmů indexující multimédia nebo pro rozšíření funkcí multimediálních přehrávačů. Vyčíslení finančních přínosů, které by mohl prototyp aplikace, funkční systém nebo aplikovaný přístupu přinést společnosti, by bylo subjektivní a do jisté míry nepřesné. Nicméně lze stanovit odhad nákladů na finální aplikaci. Pro odhad nákladů je aplikován nejpoužívanější algoritmus COCOMO. Pro jeho aplikaci je nutné zařadit projekt do patřičného vývojového typu. Na základě složitosti možných rozšíření lze předpokládat, že výsledný počet řádků kódu projektu se bude pohybovat okolo 50 tisíc, řešitelé jednotlivých rozšíření nemají doposud velké zkušenosti s obdobnými projekty, ale budou pracovat ve známém prostředí. Tento výčet předpokladů odpovídá vývojovému typu Organic. Na základě zvoleného vývojového typu lze získat koeficienty 13, které jsou dosazeny do níže uvedeného vzorce. Odhad celkového počtu řádků kódu (KLOC) po dokončení všech úprav je stanoven na 50 tisíc. Po dosazení všech známých hodnot do níže uvedených vzorců lze vypočítat odhad práce na vývoj v člověkoměsících (E), dobu trvání projektu v měsících (D), potřebný počet lidí zapojených do vývoje 13 Hodnoty koeficientu jsou popsány zde

61 5.3 Zhodnocení ekonomického přínosu 61 (L) a hrubý odhad ceny výsledné aplikace (P ). Hrubý odhad ceny aplikace vychází z odhadnutého průměrného platu Kč na zaměstnance. E = 2.4 (KLOC) 1.05 E = 2.4 (50) 1.05 E = člověko měsíců D = 2.5 (E) 0.38 D = 2.5 (145.9) 0.38 D = 16.6 měsíců L = E D L = L 9 zaměstnanců P = L D Kč P = Kč P = Kč Na základě výše uvedených výpočtů je vyčíslen pouze hrubý odhad ceny výsledné aplikace na Kč. Odhad počítá pouze se základní úrovní COCOMO a jeho výše je úměrná složitosti výsledné aplikace. Po dokončení aplikace lze spekulovat nad možnostmi prodeje celé aplikace nebo zvoleného přístupu, který by mohl dosáhnout několikanásobné hodnoty odhadované investice.

62 62 6 ZÁVĚR 6 Závěr Diplomová práce se zabývá problematikou analýzy a zpracování multimodálních dat. Po teoretickém úvodu přibližujícím vhodné přístupy ke zpracování multimodálních a multimediálních dat je popsán návrh přístupu pro zpracování multimodálních dat, technická východiska pro jeho implementaci a zvolená metodika. V dalších částech práce je popsána analýza funkčních a nefunkčních požadavků na prototyp aplikace a databázi, na kterou navazují návrh databáze multimodálních dat a analýza, návrh a implementace prototypu. V závěru práce jsou popsány výsledky testování prototypu, jsou navrženy rozšíření, které mohou zlepšit funkčnost navrženého přístupu a je provedeno technické a ekonomické zhodnocení. Cílem této práce bylo vytvoření prototypu aplikace, která umožní analyzovat a zpracovávat multimodální data představující video nahrávky, zvukové stopy a titulky. Cíl práce byl splněn, výsledný prototyp se podařilo úspěšně analyzovat, navrhnou, implementovat a otestovat. Výsledky testů potvrdily možnost nasazení implementovaného přístupu pro zpracování multimodálních dat s podmínkou implementace rozšíření, které odstraní zmíněné nedostatky. Prototyp aplikace především prakticky ověřil realizovatelnost analýzy a zpracování multimodálních dat pomocí vybrané úlohy, která se zaměřila na vyhledávání souvisejících modalit (multimédií). Jednotlivé úpravy se mohou stát předmětem dalších prací, které se mohou detailněji zaměřit na zpracování jednotlivých modalit a pomohou rozšířit současný prototyp do komplexní aplikace zabývající se analýzou a zpracováním multimodálních dat.

63 7 LITERATURA 63 7 Literatura ATREY, K., HOSSAIN, M., SADDIK, A., KANKANHALLI, M. Multimodal fusion for multimedia analysis: a survey. Multimedia Systems [online]. 2010, roč. 16, č. 6, s [cit ]. ISSN DOI: /s Dostupné z: BRUNELLI, R., MICH, O., MODENA, C. A Survey on Video Indexing. A Survey on Video Indexing [online]. 1996, č. 1 [cit ]. Dostupné z: cgmsnoek/cs294/papers/brunelli-reviewtechreport.pdf. CISCO. Cisco Visual Networking Index: Global Mobile Data Traffic Forecast Update. Cisco Visual Networking Index: Global Mobile Data Traffic Forecast Update [online] [cit ]. Dostupné z: s827/white_paper_c html. FISHER, W., DARRELL, T. Probabalistic Models and Informative Subspaces for Audiovisual Correspondence. Probabalistic Models and Informative Subspaces for Audiovisual Correspondence [online] [cit ]. Dostupné z: FONZO, V., ALUFFI-PENTINI, F., PARISI, V. Hidden Markov Models in Bioinformatics. Hidden Markov Models in Bioinformatics [online]. 2007, č. 2 [cit ]. Dostupné z: FORCEVILLE, CH., URIOS-APARISI, E. Multimodal metaphor. New York: Mouton de Gruyter, c2009, xiv, 470 p. Applications of cognitive linguistics, 11. ISBN GIRAUDE, A. The REPERE Corpus : a multimodal corpus for person recognition. The REPERE Corpus : a multimodal corpus for person recognition [online]. 2012, č. 1 [cit ]. Dostupné z: HALL, M., FRANK, E., WITTEN, I. Data Mining: Practical Machine Learning Tools and Techniques. 3rd ed. Amsterdam: Morgan Kaufmann, 2011, xxxiii, 629 s. Morgan Kaufman series in data management systems. ISBN HALLIDAY, M. Language as social semiotic: the social interpretation of language and meaning. London: Edward Arnold, 1979, 256 s. ISBN JEWITT, C. The Routledge Handbook of Multimodal Analysis. London: Routledge, ISBN

64 64 7 LITERATURA KALOVÁ, I. Počítačové vidění. Počítačové vidění [online]. Brno, 2008, [cit ]. Dostupné z: KEOGH, E., LONARDI, S., RAKTHANMANON, T. Time Series Epenthesis: Clustering Time Series Streams Requires Ignoring Some Data. Time Series Epenthesis: Clustering Time Series Streams Requires Ignoring Some Data [online] [cit ]. Dostupné z: KRESS, G., LEEUWEN, T. V. Reading images: the grammar of visual design. 2nd ed. London: Routledge, 2006, xv, 291 s., ISBN LAKOFF, G., JOHNSON, M. Metaphors we live by. Chicago: University of Chicago Press, 1979, xiii, 276 p. ISBN MARQUARD, S. Truly Madly Wordly: Sphinx4 speech recognition results for selected lectures from Open Yale Courses. [online] [cit ]. Dostupné z: speech-recognition-results-for.html. NORRIS, S. Analyzing multimodal interaction: a methodological framework. 1st ed. New York, NY: Routledge, 2004, xi, 177 p. ISBN X. O HALLORAN, K. Multimodal Discourse Analysis. London and New York: Continuum, ISSN O TOOLE, L. The language of displayed art. 1st ed. New York: Routledge, 2011, xvii, 244 p. ISBN OVIATT, S. Multimodal Interfaces. Multimodal Interfaces [online] [cit ]. Dostupné z: RAGHAVA, S. Algorithm of RB-Pred. Algorithm of RB- Pred [online] [cit ]. Dostupné z: REICHL, J. Digitalizace analogového signálu. Digitalizace analogového signálu: MEF [online] [cit ]. Dostupné z: ROWE, D. The Affordances of Multimodal Interaction Analysis for Studying the Beginnings of Literacy. Nashville, Dostupné z: Esej. Vanderbilt University.

65 7 LITERATURA 65 SALVADOR, S, CHAN, S FastDTW: Toward Accurate Dynamic Time Warping in Linear Time and Space. FastDTW [online] [cit ]. Dostupné z: SEDLÁČEK, P. Text mining a jeho možnosti. Text mining a jeho možnosti [online] [cit ]. Dostupné z: SZÖKE, I. Jak se počítač učí rozpoznávat mluvenou řeč.jak se počítač učí rozpoznávat mluvenou řeč [online] [cit ]. Dostupné z: SZÖKE, I., BERAN, V., FAPŠO, M., ŽIŽKA, J., ČERNOCKÝ, J. Efektivní přístup ke znalostem v audio-vizuálních záznamech. Efektivní přístup ke znalostem v audio-vizuálních záznamech [online] [cit ]. Dostupné z: _18%20pages.pdf. TESAŘ, L. Použití metody sekvenční stochastické aproximace pro detekci a diagnostiku poruch. Praha, Dostupné z: ftp:// Disertační práce. České vysoké učení technické. THE HSQL DEVELOPMENT GROUP. HSQLDB. [online] [cit ]. Dostupné z: VLACH, J., PŘINOSIL, J.. Lokalizace obličeje v obraze s komplexním pozadím. Lokalizace obličeje v obraze s komplexním pozadím [online] [cit ]. Dostupné z: YAN, R. Probabilistic Models for Combining Diverse Knowledge Sources in Multimedia Retrieval. Pittsburgh, CMU-LTI Dostupné z: Disertační práce. Carnegie Mellon University. YANG, M. Detecting Faces in Images: A Survey. Detecting Faces in Images: A Survey [online]. 2002, č. 1 [cit ]. Dostupné z: YEO, B. Efficient processing of compressed images and video. New Jersay, AAI Disertační práce. Princeton University. ŽLÁBEK, J., ŠVEC, Z. OCR. OCR [online] [cit ]. Dostupné z:

66 Přílohy