Rozpoznávání objektů ve video sekvencích Object recognition in video sequences Ing. Quy Ich PHAM, Katedra leteckých elektrotechnických systémů, Univerzita obrany, Brno email: phamichquy.hvktqs@gmail.com, Prof. Ing. Rudolf JALOVECKÝ, CSc Katedra leteckých elektrotechnických systémů, Univerzita obrany, Brno email: rudolf.jalovecky@unob.cz, Ing. Martin POLÁŠEK, PhD Katedra leteckých elektrotechnických systémů, Univerzita obrany, Brno email: martin.polasek@unob.cz. Resumé: Tento článek se zabývá rozpoznávání objektů ve městském prostředí. Navrhli jsme jeden algoritmus pro rozpoznávání cílů využitím techniky template matching v infračervených (IR), video sekvencích a ve video sekvencích získaných ve viditelné oblasti. Uživatel jednoduše zvolí daný objekt, v určitém okamžiku, v žádaném průběhu detekce objektů. Na základě charakteristických znaků zvoleného objektu, byla v navrženém algoritmu použita technika Template Matching, k nalezení daného objektu v obraze. Tento algoritmus byl testován v programu MATLAB a MATLAB - Simulink. This paper deals with object recognition in urban environmental condition. We proposed a method for targets recognition using template matching technique in infrared (IR) video sequences and video sequences acquired in visible range. A user simply chooses the given object at some point during detection. On the basis of feature of selected object, the algorithm employed the template matching techniques to find the object. The designed algorithm was tested in program MATLAB and MATLAB - SIMULINK. 1. Algoritmus pro rozpoznávání Představíme studium o rozpoznávání objektů ve video sekvencí použitím template matching techniky. Existuje mnoho kritérií podobnosti používaných v technice template matching [1]. V tomto článku jsme použivali kritérium podobnosti normalizovanou vzájemnou korelaci. Abychom vypočítali koeficient normalizované vzájemné korelace, byl použit tento vztah [2]. -184-
c u, v x, y x, y f x, y f g x u, y v u, v 2 f x, y f u, v g x u, y v g g 2 1 / 2 (1) kde: x y x y f, - souřadnice obrazu, g, - souřadnice obrazu g, g - střední hodnota souřadnice obrazu g, f u, v - střední hodnota souřadnice oblasti pod obrazu g. Základní princip algoritmu je následující. Předpokládejme, že objekt je vybrán v čase t s těžištěm T, a známe největší relativní rychlosti mezi kamerou a cílovým vct. Z tohoto plyne, že největší vzdálenost, na kterou se může tento objekt pohybovat po dobu intervalu Δt, je omezena kružnicí se středem T v čase t a poloměru R. Poloměr R je určen vztahem. R v ct t (2) kde: t t t k 1 F (3) v ct v t v c F snímková frekvence, k krok, vt rychlost cíle ve video sekvenci, vc rychlost kamery. Uživatel ořízne vzorkový obraz g, který by měl odpovídat cíli v původním obraze. Poté se parametry x, y, w, h použijí k určení xf, yf, wf, hf. Tyto proměnné jsou zobrazeny na obr. 1. (4) Obr. 1: Princip výběru obrazů z originálního obrazu -185-
K vyříznutí vzorkového obrazu ze snímku jsme použili MATLAB příkaz imcrop [3]. x f x tv h 2 (5) y f y tv h 2 (6) w f hn w (7) h f hn h (8) kde: hn Zvolená konstanta, tv Zvolená konstanta kdy tv = hn - 1. Princip algoritmu je popsán na obrázku 2 (obr. 2), což je červený - zelený - modrý (RGB) snímek i ze zdroje videa se načte a převede na šedý snímek [4, 5 a 6]. V intervalu (u, v) budeme aplikovat techniku template matching. V okamžiku kdy i = u, pomocí funkce imcrop ořízneme vzorkový obraz g. Poté se ořízne obraz f na základě xf, yf, wf, hf. Když i > u algoritmus automaticky porovnává vzorek obrazu g se skutečným obrazem f pomocí techniky template matching. Když je souřadnice cíle změněna, je nutné upravit proměnné xf, yf, wf, hf, abychom mohli oříznout nový obraz f. Proměnné jsou vypočteny na základě změn v cílové poloze. Po celou dobu zpracování se obraz g nezmění. Objekt bude považován za potenciální cíl v případě, že algoritmus najde normalizovaný korelační koeficient maxcc, který je větší než 0.8. Pokud je maxcc větší než 0.9, cíl je okamžitě rozpoznán. V případě 0.8 < maxcc < 0.9 bude cíl uznán, Obr. 2: Princip algoritmu -186-
pokud splňuje další podmínky. V tomto článku jsme použili podmínku polohy, který porovná nové pozice s předchozími polohami cíle. 2. Experimentální výsledky Navržený algoritmus byl testován pro dvě specifické situace. V prvním případě, každý zpracovávaný snímek z video sekvence obsahuje pouze jeden zájmový objekt. V ostatních, každý snímek video sekvence obsahuje mnoho různých zájmových objektů. K dispozici jsou tři parametry k, (hn, tv) a velikost cíle, které můžou být změněny k ověření algoritmu. V prvním případě jsme testovali účinky změn parametrů algoritmu. Doba výpočtu algoritmu závisí na výběru parametrů. 2.1 Ve videu s výskytem jediného cíle 2.1.1 Změna velikosti vzorkového obrazu g Byly testovány 3 následující případy. Velikost obrazu g je podobná jako obraz cíle, Velikost obrazu g je větší než obraz cíle, Velikost obrazu g je menší než obraz cíle. Ve všech třech případech, velikost obrazu f je vždy dvojnásobek velikosti obrazu g. Účelem změny velikosti obrazu g je testovat rychlost zpracování a přesnost algoritmu použitím techniky template matching. Obr. 3: Tři používané případy 1. případ Obr. 4: Použití parametrů 1. případ -187-
Pokud je velikost obrazu g větší, než je velikost cíle, doba zpracování je vyšší. Přesnost rozeznávání cíle se však také snižuje. Na obrázku (Obr. 4) je zeleně vyznačen případ s nejlepšími výsledky. 1 0.95 Case 1 Case 2 Case 3 Cross correlation coefficients 0.9 0.85 0.8 0.75 10 20 30 40 50 60 70 80 90 100 Frames Obr. 5: Změna koeficientu normované vzájemné korelace 1. případ Obrázek 6 (Obr. 6) ukazuje pohyb cíle v obraze, v daném intervalu (u, v). Uražené vzdálenosti jsou označeny červenou, modrou, zelenou barvou. Obr. 6: Výsledky rozpoznávání 1. případ 2.1.2 Změna velikosti obrazu f Obrázek 7 ukazuje závislost příčného korelačního koeficientu v různých snímcích. V případě, že velikost obrazu g je stejná jako cíl; modré, zelené a červené křivky jsou stejné, je rozdíl pouze v době výpočtu (viz Obr. 8). V případě, že velikost obrazu g je menší než cíl, jsou výsledky purpurové a žluté křivky lepší než výsledek světle modré křivky. Fialová křivka je nejlepší výsledek v porovnání s ostatními. -188-
1 0.95 Cross correlation cofficient 0.9 0.85 0.8 Case 1 Case 2 Case 3 Case 4 Case 5 Case 6 0.75 15 20 25 30 35 40 45 50 55 60 Frames Obr. 7: Změna koeficientu normované vzájemné korelace 2. případ Obr. 8: Použití parametrů 2. případ 2.1.3 Vliv prostředí na algoritmus Nyní budeme pokračovat v testování algoritmus pro případ, kdy cíl je částečně zakrytý překážkami, např. v podobě stromů. Vlivem tohoto zakrytí se vlastnosti cíle se změní. Obrázek 9 ukazuje u-tý originální snímek a 3 případy různých velikostí g. Obr. 9: Tři použivané případy 3. případu Obr. 10: Použití parametrů 3. případu -189-
Obr. 11: Výsledky rozpoznávání 3. případu Šipky znázorňují směr cíle a jeho délka představuje vzdálenost ujetou od 6. do 80. snímku, viz obrázek 11. Na stejném obrázku modré, zelené a červené křivky označují směr a uraženou vzdálenost cíle určené pomocí algoritmu. 2.1.4 Vliv pohybu cíle na algoritmus Dále byl testován případ, kdy cíle se přibližuje směrem ke kameře. V tomto případě se velikost cíle změní, takže hodnota maxcc se mění také. Obr. 12: Tři použivané případy 4. případu 1 0.95 Cross correlation coefficients 0.9 0.85 0.8 0.75 0.7 83th frame 0.65 40 60 80 100 120 140 160 180 200 Frames Obr. 13: Změna koeficientu normované vzájemné korelace 4. případu Obrázek 13 ukazuje výsledek algoritmu. Hodnota maxcc klesla pod 0.8 od 83. snímku. To znamená, že algoritmus nebude správně identifikovat cíl mezi snímky 83 až 200. -190-
2.2 Ve videu s výskytem několik cílů Nyní budeme testovat video sekvence, které obsahují mnoho objektů pro různé velikosti obrazu f. Důvodem je testování schopnosti algoritmu v případě, že obraz f obsahuje více než jeden objekt. K otestování této situace je nutné, aby velikost vzorkového obrazu g byla co nejvíce shodná s velikostí cíle v daném snímku. 2.2.1 Změna velikosti obrazu f první případ V tomto případě jsme změnili velikost obraz f, aby jeho velikost byla rovna dvojnásobku velikosti vzorkového obrazu g. V obrázku f, máme tedy pouze jeden objekt, který chceme rozpoznat. Obr. 14: Výsledky rozpoznávání 5. případu 1 0.98 0.96 Cross correlation coefficients 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 20 30 40 50 60 70 80 90 100 110 120 Frames Obr. 15: Změna koeficientu normované vzájemné korelace 5. případu 2.2.2 Změna velikosti obrazu f druhý případ V tomto případě jsme změnili velikost obrazu f, aby jeho velikost byla šestinásobkem velikosti vzorkového obrazu g. V obrazu f se nachází dva objekty. -191-
Obr. 16: Výsledky rozpoznávání 6. případu 1 0.98 0.96 Cross correlation coefficients 0.94 0.92 0.9 0.88 0.86 0.84 0.82 0.8 40 50 60 70 80 90 100 110 Frames Obr. 17: Změna koeficientu normované vzájemné korelace 6. případu 3. Závěr Z těchto srovnání můžeme vyhodnotit, že technika template matching může být realizována v IR video sekvenci k rozpoznání daného cíle. Změny intenzity a velikosti vzorkového obrazu má vliv na kritérium podobnosti tj. koeficient normalizované vzájemné korelace. Ve video sekvencích s výskytem mnoha objektů, stále můžeme používat výběr jednoho objektu ve snímku videa k rozpoznání objektů v jiných snímcích. Z výše uvedených poznatků je patrné, že při výběru velikosti vzorkového obrazu s téměř shodnou velikostí s cílem a současně výběrem velikosti obrazu f s dvou až tří násobnou velikostí vzorkového snímku g, nám dá výsledek s vysokou přesností a doba zpracování je přijatelná. V případě nepohybujícího se cíle, koeficient vzájemné korelace maxcc se mění méně ve srovnání s případem pohybujícího se cíle. V případě pohybujících se objektů, se mění směr pohybu cíle a vzdálenost cíl kamera. Z toho plyne, že snímaný tvar cíle se také mění s časem a tím pádem se mění i korelační koeficient. Ke zlepšení detekce cíle by bylo vhodné, aby se vzorkový obraz g, po určité době, aktualizoval. Tím by se zabránilo snižování hodnoty -192-
korelačního koeficientu. V tomto článku jsme testovali první případ, tj. vzorkový obraz g je při době zpracování beze změny. Literatura [1] AHUJA, Siddhant. Normalized Cross Correlation. Wordpress.com [online]. [cit. 2014-06-23]. Dostupné z:http://siddhantahuja.wordpress.com/tag/normalized-crosscorrelation/ [2] BRUNELLI, Roberto. Template matching techniques in computer vision: theory and practice. Chichester, U.K.: Wiley, 2009, x, 338 p. ISBN 978-0-470-51706-2, [3] Crop image - MATLAB imcrop [online]. Matlab. Dostupné z: http://www.mathworks.com/help/images/ref/imcrop.html, [4] GONZALEZ, Rafael C a Richard E WOODS. Digital image processing. 3rd ed. Upper Saddle River: Pearson, c2008, xxii, 954 s. ISBN 01-316-8728-X, [5] Nobuyuki Otsu (1979). A threshold selection method from gray-level histograms. IEEE Trans. Sys., Man., Cyber. 9 (1): 62 66. doi:10.1109/tsmc.1979.4310076, [6] PHAM, Quy Ich; POLÁŠEK, Martin. Using Threshold Techniques for Object Detection in Infrared Images. V: Proceedings of the 16th International Conference on Mechatronics Mechatronika 2014. Brno: University of Technology, Brno, 2014, p. 530-537. ISBN 978-80-214-4817-9, [7] PHAM, Quy Ich; POLÁŠEK, Martin. Using template matching technique for object detection in infrared images. V: Transport Means 2014. Kaunas, Lithuania: Kaunas University of Technology, Lithuania, 2014, p. 257-260. ISSN 1822-296X, [8] PHAM, Quy Ich; POLÁŠEK, Martin. algorithm for military object detection using image data. V: Designing an Air transportation system with multi-level resilience. Colorado Springs, USA: ALR International, 2014, p. "3D3-1"-"3D3-15". ISBN 978-1-4799-5001- 0 Dedikace The work presented in this paper has been supported by the Ministry of Defence and Ministry of Education, Youth and Sports of the Czech Republic (K206 Student research program Implementation of modern technologies in avionics systems -193-