Zpracování tematických okruhů na státní zkoušku z předmětu "Rozpoznávání a zpracování obrazu", která zahrnuje předměty ROZ1, ROZ2 a SFTO (PGR013)

Transkript

1 Zpracování tematických okruhů na státní zkoušku z předmětu "Rozpoznávání a zpracování obrazu", která zahrnuje předměty ROZ1, ROZ2 a SFTO (PGR013) Tento soubor obsahuje obrázky ze slajdů prezentovaných na přednášce z předmětu ROZ1, ROZ2 a SFTO, proto je možné ho dále šířit jen s výslovným souhlasem Prof. Ing. Jana Flussera, DrSc. Otázky zpracoval pro své studijní účely Adam Novozámský.

2 1. Okruh - Lineární filtrace v prostorové a frekvenční oblasti(definice a základní vlastnosti ve spojité a diskrétní oblasti): 1.1. Konvoluce: f nechám a g posunu do t a otočím: f g t = f τ g(t τ)dτ : L 1 L 1 L 1 V podstatě se jedná o průměrování fce f jinou fcí g, protože je obyčejně g symetrická fce s malým supportem. Většinou se požaduje, aby výsledná fce měla stejně omezený obor hodnot jako původní fce f, takže se volí g = 1. Funkci g(x) se říká konvoluční jádro. Pokud jde o konvoluci v Image Processing je funkce f(x) většinou zkoumaný obrázek a funkce g(x) nějaký filtr. Vlastnosti konvoluce: Komutativní Asociativní Distributivní Existence jednotky f g = g f f g = (f g) f g + = f g + (f ) f δ = δ f = f kde δ je tzv. Diracova delta funkce: δ x = 0, x 0 a v x = 0 to není definováno. Integrál Delta funkce je roven 1: δ x dx = 1 Jde tedy o puls trvající nekonečně krátkou dobu. Asociativita pří násobení skalárem Konvoluční teorém a f g = af g = f (ag) pro všechna reálná (nebo komplexní) čísla a. F f g = F(f) F(g) = F G kde F(f) značí Fourierovu transformaci f F(f) F(k) f x e 2πikx dx Diskrétní konvoluce f g n = f m g n m m= V případě diskrétní konvoluce lze jádro chápat jako tabulku (konvoluční maska), kterou položíme na příslušné místo obrazu. Každý pixel překrytý tabulkou vynásobíme koeficientem v příslušné buňce a provedeme součet všech těchto hodnot. Tím dostaneme jeden nový pixel.

3 Možnosti v MatLabu: valid same obrázek se zmenší o půlku g full obrázek je stejný Ošetření okrajového jevu: Oblepení nulami zero padding Zrcadlové prodloužení mirror extension Periodické prodloužení periodic extension obrázek se zvětší o půlku g 1.2. Fourierova transformace Fourierova řada: Transformační vztahy: Linearita Konvoluce convolution theorem Posun shift theorem Rotace F(R( f )) = R(F( f )) Změna měřítka similarity theorem

4 2D Fourierova transformace: Bázové funkce 2D FT: real, u=v imag, u=v Některé příklady FT: Diskrétní Fourierova transformace (DFT): Přímý výpočet - O(N^2) FFT - O(N logn) (Cooley, Tookey, 1960)

5 Filtrace ve frekvenční oblasti: Otázky: Zdvojnásobují se data při FT? ne, FT je symetrická středově (n je reálné) Nejvyšší frekvence u DFT? n=0 to je konstanta, n=1 je to pul sinu, n=2 je to sin Takže nejvyšší vlnová dálka jde přes 2 body a tím, že je to simetrické tak je to v n=n/2. Co nese více informací amplituda nebo fáze? fáze (tu vizuální) Co se stane, když amplitudu nahradím jedničkami a fázi nechám? Po inverzní FT dostanu černý obrázek a obrysy budou bílé. Porovnání rychlosti výpočtu s konvolucí Při malém filtru je rychlejší počítat v obrazové oblasti, ale při velikém je lépe přejít do frekvenční.

6 Output 2. okruh - Digitalizace obrazu: 2.1. vzorkování spojitých funkcí Jde o diskretizaci v soustavě souřadnic. Matematický model vzorkování: Obrazová oblast f(x,y) je původní obraz; d(x,y) je výsledný obrázek; s(x,y) je pole delta fcí: Frekvenční oblast (s použitím konvolučního teorému) D(u,v) jsou ta spektra, kterých je nekonečně mnoho vedle sebe.čím více budu vzorkovat, tím budou dále od sebe. Signál jde zpětně zrekonstruovat, pokud se jednotlivá spektra nepřekrývají. Zpětná rekonstrukce obrazu: Vyříznutí jednoho spektra a následná inverzní FT odpovídá interpolaci v obrazové oblasti kvantování spojitých funkcí Diskretizace oboru hodnot signálu vždy ztrátové Kvantizér Q: R L L = {0, 1,..., k} (k = 255) t1 t2 t3 t4 t5 t6 t7 t8 t9 0 Input Kvantovaný signál: Jak nastavit kvantovací prahy: vše co je menší než nulový práh je rovno 0 nejvyšší práh nastavím tak, aby se rovnal citlivosti snímače to mezi se většinou dělá rovnoměrně jen pokud mě zajímá něco víc, tak to rozdělím třeba logaritmicky Kvantizační šum: Mohou vznikat falešné kvantizační hrany. Lidské oko dokáže rozlišit 100 úrovní šedi, když jsou vedle sebe. Pokud jsou odděleně tak jen 40 úrovní.

7 2.3. Shannonův teorém Nyquist (1915), Kotelnikov (1933), Shannon (1945) Obecně znám jako tzv. vzorkovací teorém. Přesná rekonstrukce spojitého, frekvenčně omezeného, signálu z jeho vzorků je možná tehdy, pokud byl vzorkován frekvencí alespoň dvakrát vyšší než je maximální frekvence rekonstruovaného signálu Nyquistovy podmínky Existuje taková frekvence vzorkování, že se ty opsané obdélníky (W u a W v ) dotknou, ale nepřekryjí. Podmínky: při rovnosti je to optimální; Pokud je W: 1. Jsou maximální frekvence zastoupená ve spektru signálu potom tam musejí být v podmínkách ostré nerovnosti 2. Jsou omezovací koeficienty pro vzorkovací frekvenci pak tam může být i to rovnítko Bohužel v reálu nejsou obrázky jasně frekvenčně ohraničeny, resp. jsou, ale vysokou frekvencí, kterou nezachytíme s žádným přístrojem, proto jsou téměř vždy podvzorkovány Rastr je omezený Jen několik možných vzorkovacích frekvencí Vzorkování není pomocí δ funkcí Optika působí jako low-pass filtr Vzorkování s nedostatečnou frekvencí: Překrytí sousedních spekter D(u,v) ztráta VF informace (hrany, detaily,...), aliasing Moiré efekt falešné nízké frekvence (kola ve filmu, zářivka, cirkulárka) Anti-aliasing techniky: Zvýšení vzorkovací frekvence to ale nejde vždy Odstranění vysokých frekvencí ještě před vzorkováním nějakým filtrem(optika mírné rozostření); to mi zabrání překrytí těch spekter a vznik falešných frekvencí.

8 Otázky: Je dobré mít pravoúhlé vzorkování? efektivnější by bylo jiné, třeba hexagonální, aby spektra pokrývali největší plochu a zároveň se nepřekrývala. Ale většina scannerů a dalších přístrojů má pravoúhlé vzorkování, kvůli jednodušší konstrukci. Když mám hodně členitou scénu, co je více potřeba, jemnější vzorkování nebo kvantování? vzorkování. Když mám v obraze hodně velké plochy, scéna není tak členitá co je více potřeba, jemnější vzorkování nebo kvantování? kvantování.

9 3. okruh - Základní operace s obrazy: 3.1. Histogram Je sloupcový graf, v němž každé třídě přiřadíme její četnost (počet pixelů s danou intenzitou). Jde vlastně o hustotu pravděpodobnosti. Kontrast: rozptyl (malý kontrast rozptyl histogramu je úzký); změnit jas = přičíst nebo odečíst hodnotu v pixelech obrázku Jas: střední hodnota histogramu; změnit kontrast = vynásobit nebo vydělit hodnoty v pixelech 3.2. změny kontrastu a jasu Transformace: Lineární binární transformace Přechod od pozitivu k negativu Pro zvýraznění kontur

10 Gama korekce: Output = (input) gama ;gama = 3, 4, 5 slouží ke zvýraznění kontrastu pokud gama < 1 dojde ke zvýraznění tmavých částí 3.3. ekvalizace histogramu Ekvalizace histogramu je algoritmus, který změní rozložení intenzit v obraze tak, aby se v něm vyskytovaly pokud možno intenzity v širokém rozmezí, a to přibližně se stejnou četností. U obrazů s konečným počtem obrazových bodů se lze tomuto cíli jen přiblížit. (Upravuje kontrast obrazu tak, aby byl jeho histogram vyrovnaný.) K transformaci používáme distribuční fci(kumulativní histogram). Na histogram se můžeme dívat jako na hustotu pravděpodobnosti a na kumulativní histogram jako na distribuční funkci. Chceme, aby histogram nesl co nejvíce informace. (Uvažujeme opačně, kdy nese informace nejméně? Je to právě při konstantní ploše, tedy když je histogram dirakův impulz. Opakem je konstantní histogram, kterého chceme dosáhnout.) kumulativní histogram lze z normálního histogramu vypočítat podle vztahu: Každá p-tá položka má tedy v kumulativním histogramu hodnotu rovnou součtu hodnot všech položek normálního histogramu, které mají index menší nebo roven p.

11 4. okruh - Odstranění šumu: míra šumu v obraze: Signal-to-noise ratio (SNR) SNR = 10 log (D(f)/D(n)) [db] D(f) rozptyl nezašuměného signálu D(n) rozptyl šumu čím vice decibelů, tím méně zašuměné; v praxi od 15dB a více pro pouhé oko dostačující. Ve frekvenční oblasti je SNR definována takto: N 2 F 2 u, v Kdyby šum byl bílý => N 2 2 = σ n Pokud je signál nekorelovaný => F 2 2 = σ f Což jsou ty rozptyly: 2 σ n 2 σ f Protože ty rozptyly v praxi moc neznáme, tak to odhadujeme většinou jako celek lineární metody průměrování v čas Scéna je statická, nehýbe se. => Nafotím ji vícekrát, sečtu v jednotlivých pixelech a vydělím počtem snímků (šum klesá s hodnotou 2 /N). Tato metoda nepřináší žádné degradace Konvoluční filtry Jde o lokální průměrování s maskou, kterou použijeme při konvoluci. Daní za odstranění šumu je rozmazání obrázku a ztráta hran, protože většinou potlačují vysoké frekvence, kde vadí šum nejvíce. Průměrování (prosté a vážené): Průměrování podél hran: pokud máme informaci o tom, kde jsou hrany a jakým směrem jdou, můžeme měnit masku podle toho a průměrovat jen podél hran. Problémem je ale to, že hranový detektor detekuje stejně hrany jako šum, tedy se to dá použít jen s apriorní informací o tom, kde jsou. Rotující okno: máme dva typy konvoluční matice pro všech 8 směrů v daném bodě. Spočítám jednotlivé konvoluce a vyberu tu, která vznikla v okně, jenž má minimální rozplyt od této hodnoty. Tato metoda dává docela dobré výsledky Filtry ve frekvenční oblasti Podívám se do frekvenční oblasti a odstraním nebo utlumím vysoké frekvence pomocí hladkých low-pass filtrů.

12 4.2. metody zachovávající hrany Minimalizace funkcionálu Splajnové metody V sešitě mám poznámku, že se tyto metody nemusíme učit, jen je stačí znát => zeptat se JF, jestli to stačí i ke státnicím mediánový filtr (nelineární filtr) Posouvám okno jako při konvoluci. V každém posunutí spočítám medián a dosadím ho do středového bodu. (Medián se počítá tak, že dané hodnoty v masce seřadím a vezmu prostřední z nich.) Na šum pepř a sůl to funguje dobře. Ale pokud je výskyt šumu v daném vybrání větší než 50%, tak je originální signál brán jako šum a je z obrázku odstraněn. Má to také špatný vliv na hrany, kde okusuje okraje a rohy. Proto je vhodnější za výběrové okno brát třeba kříž. Pokud je obrázek málo nebo vůbec zašuměn, tak hrany zůstávají. Ale čím více šumu, tím více se to rozmazává. Např. pokud máme jednopixelovou čáru, tak ji filtr sežere pojem "bílý šum" Gaussovský bílý šum má normální rozložení => míra šumu je stejná na všech pixelech. Pokud něco nazýváme bílým, myslíme tím: že dvě náhodné veličiny jsou navzájem nekorelované. V tomto případě to tedy znamená, že míra šumu je pixel od pixelu na sobě nezávislá. Jedná se třeba o tepelný šum na CCD. že střední hodnota je rovna nule Značíme AGWN = Additing Gaussian White Noise. Nekorelované x Nezávislé se u gaussovských veličin rovná. Další modely šumu: aditivní náhodný šum k obrázku se přičítá: g = f + n. Prostě se vezme stejně velká matice hodnot a ta se přičte. Impulsní šum(sůl a pepř) náhodné veličiny šumu nabývají tří hodnot: pravděpodobnost o + p (bílé) o p (černé) o 0 1-2p (nemění se) Čím se p zvětšuje, tím to je horší. Sůl a pepř se odstraňuje lépe než gaussovský šum.

13 5. okruh: 5.1. Detekce hran derivace Roberts, Sobel, Prewitt, Kirsch Založeno na derivaci obrázku a sledování velkých hodnot derivace. 1 Roberts konvoluce s maskou 1 1 v jednom směru (svislém) a v druhém 1 směru (vodorovném). Porovnám oba směry a beru maximum z nich. Nevýhodou této metody, že je strašně citlivá na šum kde je šum, jsou všude hrany. Proto ostatní metody pracují s trochu rozmazanými obrázky. Ale zas to nesmí být moc, pak už nedetekujeme nic Sobelův detektor používá masku 0 0 0, takových masek je celkem Většinou se použijí všechny a pak podle maxima vyberu tu největší (je to ta, kde hrana běží ve směru nul). Jde vlastně o průměrování 1. Derivací, kde centrální bod má dvojnásobnou váhu. Je to robustnější proti šumu, díky velikosti matice. Dále máme Prewitta a Kirsche obdobné, jen jiné masky. Canny požadavky při jeho konstrukci byly: o jedna hrana jedna odezva o přesná lokalizace hran o nic nepřehlédnout o nevytvářet zbytečné hrany Postup: o obraz se vyhladí pomocí konvoluce s gaussovským jádrem, za účelem odstranění šumu G f o poté to derivuji, třeba jen jednoduchým Robertsem G f o oprahuji a zůstanou mi jen významné body tedy odstraním to, co není maximem a zbude mi obrázek s úseky hran o a pak to trasuji tedy jedu po těch částečných hranách, a pokud v nějakém směru hrana pokračuje, tak to naváže derivace Detekce hran, tam kde 2. derivace je nula. Primitivní metoda f = 0 moc nefunguje, protože je ještě více citlivá na šum a navíc se to rovná nule i tam, kde jsou homogenní oblasti, plus ještě některé velmi jasné hrany nedetekuje. D. Marr, E. Hildreth (1980):LoG (Laplacian of Gaussian) - G f = G f G vypadá jako obrácený mexický klobouk (viz níže) Provádím zero-crossing detection procházím obrázek třeba maskou 2x2 a sleduji, jestli se mi tam objevují změny z velké kladné hodnoty do velké záporné a naopak. Tam pak řeknu, že to prochází nulou a je tam hrana, i když tam bod roven nule vůbec nemusí být. sigma = 2 sigma = 2 sigama = 4

14 Výsledek je odpověď ano/ne, tedy černobílý. Hrany mají tendenci se u této metody uzavírat do sebe. sigma = rozptyl masky; Jen pro úplnost máme ještě detektory: nepracující s derivací: Whitening pracující ve frekvenční oblasti: Chci-li ve frekvenční oblasti detekovat hrany pod určitým úhlem, musím se ve spektru signálu dívat ve směru kolmém na tento úhel. G 5.2. zaostření obrazu Pokud bereme hranici hrany jako přechod od jedné oblasti k druhé, tak potom, čím je tento přechod strmější, tím je hrana jasnější. Díky Laplaceově operátoru jsme schopni v obrázku zvýraznit hrany a tím i obraz zaostřit. A to tím, že od f odečteme F: f f Nebo v praxi, provedeme konvoluci s konvolučním jádrem: Otázky: Proč je potřeba zvýrazňovat hrany, aby obrázek lépe vypadal? Mozek má schopnost doplňovat nízkofrekvenční informace, ale vysokofrekvenční ne.

15 6. okruh: 6.1. segmentace obraz Jedná se o analýzu obrazu vedoucí k nalezení objektů v obraze. Za objekty se zde považují části obrazu, které jsou bodem zájmu v dalším průběhu zpracování. Cílem segmentace je tedy rozdělení obrazu do částí odpovídající předmětům či oblastem reálného světa. Výsledkem segmentace by měl být soubor oblastí, které odpovídají objektům ve vstupním obraze. Jedná se pak o tzv. kompletní segmentaci. Pokud ale oblasti neodpovídají přesně objektům, tak tuto segmentaci nazýváme částečnou. Kompletní segmentace obecně využívá vyšší úrovně zpracování, která je založena na znalostech řešeného problému. Částečná segmentace je založena na principu homogenity obrazových částí (např. jas, barva) uvnitř segmentu. Detekci objektů můžeme tedy rozdělit: Thresholding (prahování) Histogram objektu je tzv. bimodální má 2 lokální maxima jedno odpovídá objektu jedno pozadí. A tak ho vezmu a naleznu lokální minimum mezi nimi. To co je pod ním, dám roven nule a to co je nad, dám rovno 1. Tím nám vznikne binární obrázek. lze provést jen lokální prahování funguje dobře u obrázků, které jsou ve své podstatě binárními (např. text) teoreticky možné použít i více prahů Edge linking Postup: pustí se hranový detektor, který vrací hodnoty gradientu (např. Sobell) poté se to oprahuje, aby zůstal jen vysoký gradient pak to pomocí morfologických operací vyčistím od izolovaných bodů nebo malých hran začnu od nějaké náhodné hrany a jdu po ní třeba okénkem 3x3, když dojdu na konec, zkoumám okolí. A jestliže je ve stanoveném okolí (třeba 5pix) nalezena další hrana, spojím ji s předchozí a pokračuji po ní není garantované, že úseky budou uzavřené navíc, co dělat, pokud: o najdu více pokračování o hrana se najednou rozdvojuje díky špatným výsledkům se to moc raději nepoužívá Region growing Častěji používané lepší výsledky. detekce bodů, které jsou s vysokou pravděpodobností uvnitř objektů (oblastí) o to se udělá tak, že se vezme nějaký hranový detektor výstup se pak oprahuje vysokým prahem o a vyberu body, kde není žádná hrana tyto body nazýváme zárodečné = seed points

16 prohledává se okolí toho bodu testuje se kritérium homogenity (nejjednodušší způsob je testování úrovně šedi) pokud je kritérium splněno, přidám bod do oblasti a pokračuji s jeho okolímˇ možné odlišnosti: o kritérium homogenity úroveň jasu nebo barev, textura o způsob prohledávání okolí bodů V současnosti: funkcionál, v jehož minimu je fce, která aproximuje původní jasovou fci funkcí po částech konstantní minimalizační úloha 6.2. popis oblastí Přesně nevím, co tím JF myslí příznaky jsou samostatná otázka základy matematické morfologie Jde o matematický nástroj pro předzpracování i segmentaci obrazů. Podle toho s jakými obrázky pracuje, mluvíme o binární nebo šedotónové morfologii. Minkowského součet (Hermann Minkowski , geometrie čísel 1889) Minkowského rozdíl (pojem zavedl až H. Hadwiger 1957) Dvě základní operace: eroze Skládá dvě množiny pomocí Minkovského rozdílu. Pro každý bod obrazu p se ověřuje, zda pro všechna možná p + b leží výsledek v X. Pokud ano, je výsledek 1, jinak 0. Laicky: Projíždím celý obrázek a obarvuji středovým bodem jen tehdy, pokud je celé kolečko uvnitř. Objekty menší než strukturní element vymizí (např. čáry tloušťky 1). Eroze se používá ke zjednodušení struktury (rozložení objektu na jednodušší části) dilatace Sčítá dvě bodové množiny. Jde o duální morfologickou transformaci k erozi. Dilatace se používá k zaplnění malých děr a úzkých zálivů v objektech. Zvětší původní velikost objektu. Má-li být velikost zachována, potom se používá dilatace s erozí, viz níže otevření (opening) Eroze následovaná dilatací. Pokud se obraz X nezmění po otevření strukturním elementem B, říkáme, že je otevřený vzhledem k B.

17 zavření (closing) Dilatace následovaná erozí. Zaplňuje díry menší než B. Pokud se obraz X nezmění po uzavření strukturním elementem B, říkáme, že je uzavřený vzhledem k B.

18 7. okruh Degradace obrazu a jeho modelování: h x, y PSF (point spread function) charakterizuje zobrazovací systém geometry = blurring + noise z T x, y = u h x, y + n x, y jedná se o lineární, polohově invariantní model. Tedy, že rozmazání je konstantní po celém obrázku. Toto je příliš velké omezení pro 3D scény, kde se rozmazání mění s hloubkou ostrosti. Ideální PSF je delta funkce. Rozlišujeme dva problémy : šum a rozmazání působí na hodnoty jasu Radiometrický inverzní problém transformace souřadnic působí na polohu pixelů Geometrický inverzní problém (bude probírán v okruhu 8) Řeší se odděleně Radiometrický inverzní problém Jde o zjednodušení podmínky: musí být statická a rovinná scéna. z x, y = u h x, y + n x, y Tři možnosti: známe impulsní odezvu (PSF): Lze ji získat třeba vyfocením bodu - δ h = h >> výstup je PSF Pokud to je možné, tak se to používá. Mám-li k dispozici pouze snímek, tak na něm naleznu něco, co odpovídá obrazu ideálního bodu. V praxi to moc nefunguje (snad jen v astronomiii). Pokud znám h a zanedbám šum, tak stejně výraz z = u h není přes konvoluci moc dobře řešitelný. Díky tomu, že inverzní konvoluce není dobře definovaná (ve spojité oblasti integrální rovnice; v diskrétní oblasti soustava lineárních rovnic pro každý pixel). Tedy dá se to, ale nepoužívá se to. V praxi se použije FT: Z = U H => U = Z H Dále viz Inverzní [7. 2.] a Wienerův [7. 3.] filtr => u = F 1 Z H známe ji jen částečně třeba jak rozmazání vzniklo [7. 4.] impulsní odezva není známa provádí se tedy slepá dekonvoluce Pokud neznám nic a mám jen jeden obrázek, je to téměř ztracený boj. g = f h neznám ani f ani h Navíc h se může skládat z dílčích: h = h 1 h 2 h 3 h n A stejně tak f: f = f 1 f 2 f 3 f n I kdybychom tedy měli dobrý algoritmus na rozklad g na konvoluci dvou fcí, tak by nevěděl, jak přesně zkombinovat ty dílčí části jednotlivých fcí. Mám-li více obrázků téže scény, šance se zvyšují (vícekanálová slepá dekonvoluce), protože se sníží počet neznámých. Je zde tedy předpoklad, že se f nemění Inverzní filtr Pro zopakování: Z = U H => U = Z H => u = F 1 Z H Z = U H + N U = Z H N H

19 Z této rovnice je vidět, že zanedbáváme člen N H. Tento člen ale dosahuje obrovských hodnot, takže tyto metody dávají velmi špatné výsledky při použití u zašuměných obrázků. Tady je důkaz: Jako impulzní odezvu mějme standardní gaussovu funkci x, y. Její fouriérova transformace je opět gaussova funkce. Šum bereme libovolný, například takový, že jeho fourierův obraz je konstantní funkce (ale není podmínkou, bereme jen pro jednoduchost). A protože gaussovka jde pro velké x k nule, tak její převrácená hodnota jde k nekonečnu a to násobené nějakým nenulovým šumem je zase velmi velké číslo (viz obrázek vpravo). Z toho plyne, že je při výpočtu zanedbán velmi významný člen. To je také důvod, proč se inverzní filtr moc nepoužívá. Místo něho se dá aplikovat na zašuměný obrázek Wienerův filtr [7.3.], který dává daleko lepší výsledky Wienerův filtr Tento filtr byl navržen tak, aby dokázal zpětně rekonstruovat obrázek, který byl poničen šumem nebo špatnou impulzní odezvou snímacího zařízení. Tedy motivace: dekonvoluce robustnější vůči šumu Podmínky odvození filtru: Střední hodnota druhé mocniny přes všechny realizace šumu a pro jejich všechny parametry bude mít od hledaného obrázku minimální vzdálenost. Tedy, že získaný odhad má mít minimální odchylku od originálu: E f f 2 min (střední kvadratická chyba) E střední hodnota f odhad f originál má to být lineární filtr, tedy to má být násobení ve frekvenční oblasti: F = G R G je zašuměný obrázek R je transformační matice, jež násobením transformuje poškozený obrázek do jeho "opravené" varianty Z předchozích požadavků byl odvozen následující filtr, který po vynásobení (jedná se o násobení matic po prvcích) s maticí poničeného obrázku dá rekonstruovaný obraz: 1 R u, v = H u, v H u, v 2 H u, v 2 + S n u, v S f u, v V tomto vzorci H u, v značí fouriérův obraz impulzní odezvy u, v a podíl S n u, v S f u, v je jen jiný zápis SNR, což nám určuje míru zašumění obrázku. Vidíme, že tento výraz obecně závisí na parametrech frekvence u, v. Ale za předpokladu 2 bílého šumu můžeme S n u, v psát jako rozptyl šumu σ n (což je konstanta v celém obrázku), dále budeme předpokládat nekorelovanost obrázku (což v reálu neplatí, ale jako přiblížení se to dá použít) a můžeme tedy S f u, v aproximovat rozptylem obrázku σ 2 f. Z tohoto přiblížení nám vyjde, že podíl S n u, v S f u, v máme roven konstantě (číslu) σ 2 n σ 2 f. V praxi to znamená, že za tento podíl dosazujeme různá čísla (např. od do 1000) a koukáme, co nám dá nejlepší výsledek. Když Wienerův filtr aplikujeme na nezašuměný obrázek (tedy

20 S n u, v bude rovno nule), pak nám tento filtr R u, v přechází v R u, v = 1 předpis pro inverzní filtr odstranění základních typů degradací rozmazání pohybem Rozmazání vzniklo tím, že se během expozice hýbe objekt, nebo samotný snímací systém. Bod se tedy rozmaže na úsečku. Jde o 1-D obdélníkový puls, který je orientován ve směru pohybu. Kolmo na směr pohybu je delta funkce. FT = sinc u. Fce sinc u = vidět z obrázku. sin u u je vlastně tlumená sinusovka, jak jde H u,v, což je defokusací (špatné zaostření) Z bodu se stane kolečko. Jde tedy o válec. FT = B r r. B r je tzv. Besselova fce. Jak tyto degradace odstranit? Podíváme se do spektra poškozeného obrázku. Najdeme zde nulové množiny, které detekujeme: pohyb čáry odpovídají nulovým bodům sinc fce rozostření soustředné kružnice odpovídají nulovým bodům Besselovy fce Na základě jejich detekce můžeme odvodit parametry rozmazání a dále použít Wienerův filtr. Pozn.: Čím rychlejší pohyb nebo větší rozostření, tím jsou čáry nebo kružnice hustší (blíž sobě).

21 8. okruh Geometrická registrace (matching) obrazů: Model geometrického zkreslení obrazu lze zapsat jako: g = T G f Máme-li snímek téže scény z různých pohledů (tj. s jiným geometrickým zkreslením) a potřebujeme-li zjistit odpovídající pixely (tedy, aby stejné pixely měli stejné souřadnice), mluvíme o Registraci obrazu (Image Registration). Nepřesná registrace vede na chybnou detekci resp. zjištění změn, tam kde nejsou. Registrace se provádí pomocí řídících bodů (control points). Pokud jsou řídící body správně nalezeny, je možné sestavit geometrické transformace a snímky zregistrovat. Kategorie registrace obrazu: Different viewpoints multiview (vícepohledový) Different times multitemporal (vícečasový) Different modalities - multimodal (multimodální) Scene to model registration (Scéna k modelu registrace) Model geometrického zkreslení obrazu lze zapsat jako: Postup se provádí čtyřmi kroky: 1. vyberou se kandidáti na řídících body požadavky: musí jít dobře automaticky detekovat jsou stabilní musí jich být dostatečný počet měli by být rozmístěny pokud možno po celém snímku musí být invariantní k transformaci z tohoto hlediska nejvíce vyhovují právě ty těžiště uzavřených oblastí V tomto prvním kroku se vybírají zvlášť na referenčním obrázku a zvlášť na registrovaném obrázku. Jsou to většinou rohy, těžiště uzavřených oblastí nebo extrémní křivosti křivek. 2. Naleznutí korespondence mezi kandidátskými body v obou obrázcích a vybrání z nich řídících bodů: mnoho technik, jak toto provádět zde je hlavní teoretický problém techniky dělíme: signálově závislé pracují s barvami obrázku o Obrazová korelace: Kolem kandidátního bodu se vezme okolí velikosti nějakého okna a spočtu korelace se všemi možnými polohami tohoto v druhém obrázku Jen pro zopakování: rozptyl D X = E(X EX) 2 kovariance C X, Y = E( X EX Y EY ) korelace K X, Y = C(X,Y) D X D(Y) =0 pokud jsou nekorelované max. = -1, 1 pokud =1 X je násobkem Y Obrázky se považují za realizace náhodné veličiny: C k, m = l k,m mean l k,m (W mean(w)) l k,m mean l k,m 2 (W mean(w)) 2

22 U této metody, se většinou nedetekují ŘB v druhém obrázku, ale hledají se nejvyšší korelace vzhledem k ŘB prvního obrázku. Nejčastěji hledám malý výřez na velkém obrázku. Hodnoty intenzit se liší pouze lineárně. V této podobě se metoda tolik nepoužívá, protože je výpočetně časově náročná a maximum bývá někdy ploché. Proto modifikace: korelace hran, rohů, korelace ve frekvenční oblasti (fázová korelace), pyramidal representation (viz níže) o Jiná míra podobnosti než korelace: Ne L 2 norma, ale L 1 norma např.: a i,j b i,j min Výpočet je velice rychlý, protože suma neklesá, pouze roste pokud jsme ve špatné poloze, tak velice rychle přeroste nějakou předchozí hodnotu a můžu ten výpočet zastavit. Dnes spolu s fázovou korelací nejpoužívanější. o Rozšíření na obecnější transformace: rotace natáčení, okénko je kruh. Výpočetně velice náročné. Dá se nejdříve projet prostým posunutím, tam kde to zjistí maximum, tak to začnu natáčet. Vyberu úhel natočení, kde to je maximální. A poté projedu opět celý obrázek s tímto natočením. o Pyramidální reprezentace: Prostě snižuji o dvojnásobek rozlišení obrázků začínám pak na nízkém rozlišení, kde najdu nadějné body a u vyššího rozlišení počítám jen v okolí těchto bodů. o Fázová korelace: Fáze FT (když zahodíme amplitudy=spektrum se vydělí amplitudami) je blízká hranám obrázků. Ty jsou výhodnější kvůli nezávislosti na barvách a mají menší prostorovou korelaci. Nevracíme se hned do obrazové oblasti pro počítání korelace, ale zůstane se ve frekvenční, kde se využívá Fourier Shift Theorem (FST): f(x) f(x a) amplituda je u obou stejná, ale fáze se posune o 2πa 2 Cross-power spektrum: W F ua +vb = e 2πi W F vyplývá z předpokladu, že obrázky jsou stejné jen posunuté (FST) F Fourier originálního obrázku F * komplexně sdružený W Fourier okénka w a,b neznámé parametry posunu Provede se IFT: 2πi ua +vb IFT e = δ(x a, y b) Výpočet je rychlejší a robustnější vůči nelinearitám V praxi asi nejpoužívanější. signálově nezávislé (Příznakové metody) o Kombinatorické (grafové): Využívá globální informace o kandidátních bodech a jejich vzájemné polohy. Z níž hledá jejich korespondenci. Zkouší všechny možné kombinace a hledá tu nejlepší jde o minimalizaci fce. o RST (rotation, scaling, translation) Libovolnou úsečku můžeme namapovat na libovolnou úsečku. V základním případě se každá dvojice bodů namapuje na každou dvojici z druhého obrázku.

23 Tedy že namapujeme úsečku a podle ní transformujeme ostatní body a koukáme se, kolik bodů se shoduje se vzory počítání zásahů. A pokud toto uděláme pro všechny dvojice bodů, můžeme pak říci, že ta transformace, která má nejvíce zásahů, je ta správná. 3. Odhadnutí modelu transformace souřadnic dobře známá úloha jedná se o transformaci, která řídící body promítne na stejné místo Mějme transformační fce: u = f x, y v = g x, y Tato transformace může platit pro celý obrázek (globální transformace), nebo jednotlivé dílčí části můžou mít odlišné transformace (lokální). o Affiní x = a 0 + a 1 x + a 2 y y = b 0 + b 1 x + b 2 y zobrazuje čtverec na rovnoběžník zachovává přímky a jejich rovnoběžnost Nutné tři body pro její určení. V praxi se ale počítá z mnohem více bodů, pomocí metody nejmenších čtverců. affiní model je jeden z nejjednodušších, ale přesto se hojně používá o Projektivní x = (a 0 + a 1 x + a 2 y) (1 + c 1 x + c 2 y) y = (b 0 + b 1 x + b 2 y) (1 + c 1 x + c 2 y) Jde o obecnější transformaci, pokud ale pozorujeme předmět z větší vzdálenosti (c 1 a c 2 budou zanedbatelně malé), můžeme ji aproximovat transformací affiní. V praxi se při transformacích ani projektivní nepoužívá, protože nevede na lineární soustavu a nejde ji nějak rozumně řešit. Vystihuje promítání rovinných předmětů fotoaparátem. čtverec zobrazuje na jakýkoli čtyřúhelník nutné čtyři body o Nelineární transformace u = a 0 + a 1 x + a 2 y + a 3 xy + a 4 x 2 + a 5 y 2 v = b 0 + b 1 x + b 2 y + b 3 xy + b 4 x 2 + b 5 y 2 Tento model je silně nelineární, nezachovává přímky ani rovnoběžnost. Používá se často. 4. Vlastní transformace: zabírá nejvíce výpočetního času musí se převzorkovávat, protože nové pixely mají neceločíselné souřadnice Forward Backward Také se používá interpolací (nejbližší soused, lineární, kubické).

24 Pro doplnění: o Lokální transformace Obrázek rozdělíme na trojúhelníky pomocí řídících bodů. Na každém trojúhelníku pak počítám affiní transformaci. Nemá spojité derivace a řeší se pomocí kubické transformace s 10 parametry, kde se předepíší spojitosti derivací. Nejčastěji se používá TPS (Thin-Plate-Splines): hledá se minimální křivost plochy ideálně neformovatelného ocelového plátu fixovaného v řídících bodech.

25 9. okruh - Základy příznakového rozpoznávání: Rozpoznávání je rozhodování, jestli objekt patří do dané třídy. Objekt je popsán množinou příznaků (n-d vektor v metrickém prostoru) klasifikátory s učením a bez učení rozpoznávání řízené (s učením) pro každou třídu je k dispozici množina reprezentantů (trénovací množina) rozpoznávání neřízené (bez učení) nemáme ani trénovací množinu, ani nevíme kolik je tříd. Musíme tedy z dat zjistit, jestli tam je nějaká podobnost mezi objekty a jestli tam mohou být nějaké skupiny a kolik jich asi tak je (viz Shluková analýza [11.1.]). Trénovací množina: reprezentativní obsahu typické vzorky dané třídy, všechny hlavní tipy, neměli by tam být jiné vzorky dostatečně velká k podchycení vnitřní variability měl by ji sestavovat odborník v dané oblasti Musíme si dát pozor na přetrénování (overtraining), abychom při zkoušení nerespektovali přespříliš trénovací množinu. Klasifikátor by sice fungoval bezchybně na trénovací množině, ale v praxi by nešel použít. Proto není nutná podmínka dobrého klasifikátoru, aby bezchybně rozpoznával trénovací množinu. Příznakový prostor: Třídy by měli být dostatečně daleko od sebe, nesmějí se v žádném případě překrývat. Klasifikátor definuje nadplochy (o dimenzi menší, než je prostor) a každá se ztotožní s jednou třídou. Problém spočívá ve správné definici oblastí. Definovat klasifikátor znamená správně definovat rozhodující křivku. Pro každou množinu je možné nadefinovat mnoho různých klasifikátorů s různou úspěšností, úkolem bývá vybrat ten nejlepší. Formální definice klasifikátorů: Každá třída je charakterizována diskriminační fcí g(x). Klasifikace = maximalizace g(x) NN-klasifikátor NN = nejbližší soused (nearest neighbor) g(x) = 1/ dist(x, w) Extremně citlivá na chyby v trénovací množině, a na extrémy. Můžeme to modifikovat tak, že budeme brát nejbližší vzdálenost k těžištím množin, ale to zase nerespektuje jejich tvar ani počet prvků. Pokud mám více tříd, ve kterých je vždy jen jeden bod, vznikne mi taková mozaika Voronojovi polynomy. A pokud budu chtít rozdělit plochu do trojúhelníků podobných rovnostranným, používají se Delonejova triangulace. Modifikace k-nn jde o to najít k-prvních bodů jedné třídy. Popis algoritmu: hledám nejbližší bod a udělám k němu čárku, poté hledám další nejbližší bod a opět k němu udělám čárku >> opakuji do té doby, než získám k-čárek pro jednu třídu.

26 Jak správně volit k?: řádově menší než počet prvků v trénovací množině (většinou 2-5). Algoritmy se liší způsobem výpočtu vzdáleností a optimalizací lineární klasifikátor Mezi dvěma třídami vždy jen jedna hadrovina přímka, žádná lomená čára. Lineární rozdělení usnadňuje hledání hranic, ale nemusí to být správně. Jak hranice najít? začnu osou mezi dvěma body z různých tříd, pak přidávám další body - o když padají na správnou stranu, nic s přímkou nedělám, začnu ji posouvat a naklánět teprve, až se trefím na špatnou stranu o lepší je ale upravovat přímku vždy, i když padají nové body na správnou stranu (např. minimalizace rozdílu středních vzdáleností od přímky) SVM (support vector machine) Snaží se konstruovat 2 rovnoběžné hadroviny tak, aby separovali třídy a byli co nejdále od sebe. Body, které takovéto hadroviny protnou, se nazývají support vector. Vlastní rozhodovací nadrovina je s nimi rovnoběžná a vede mezi nimi. Nevýhody: o support v. jsou většinou extremální body o nezohledňuje počty v množinách to se dá napravit, tak že rozhodovací přímku posunu v poměru k té množině, kde je více prvků o často nemusí existovat dvě rozdělující přímky, pokud nejsou třídy lineárně separovatelné o programování je náročné, protože se musejí prozkoušet všechny možnosti Pokud nejsou třídy lineárně separovatelné, může se zavést transformace. Nebo někdy stačí jen přidat jeden příznak ale na to pozor (prokletí dimenzionality) zvyšování počtu příznaků, bez přidávání dat vede k vyšší nestabilitě a menší přesnosti rozhodovací stromy Používají se tam, kde je těžké určit metriku. Kořen stromu je vstupní neznámý prvek a listy jsou jednotlivé třídy. Každý rozhodovací strom se dá přepsat do binárního. Trénování spočívá v sestavování stromu a nastavování podmínek. Při reálných příznacích se rozhoduje na základě nerovností. Rozhodovací hranice = hyperkvádry v prostoru.

27 10. okruh Bayesův klasifikátor: základní princip Jedná se o statistický klasifikátor vrací pravděpodobnosti všech tříd. Založen na Bayesově pravidle o podmíněné pravděpodobnosti P B A P(A) P A B = jinak podmíněná pravděpodobnost: P A B = P(A B) P(B) P(B) Bayesův klasifikátor: P ω j X = p X ω j P(ω j ) p(x) p ω j X podmíněná pravděpodobnost v třídě že ve třídě ω j se může vyskytnout X P(ω j ) pravděpodobnost i-té třídy v Ω (v reálu) p X ω j pravděpodobnost, že na prvku ze třídy i můžeme naměřit vektor x C p X = j =1 p X ω j P(ω j ) celková pravděpodobnost Chceme maximalizovat P ω j X, ale ve skutečnosti maximalizujeme p X ω j P(ω j ) a jestliže jsou všechny apriorní pravděpodobnosti stejné, maximalizujeme jen p X ω j. Pro srovnání s diskriminační fcí: g j x = p X ω j P ω j často jsou pravděpodobnosti exponenciální: g j x = ln p X ω j + ln P ω j metody určení hustoty pravděpodobnosti P ω j : odhad z předchozích studií o výskytu ve skutečnosti např. statistika výskytu písmen v textu odhad na základě výskytu v trénovací množině použitelné jen někdy předpokládám stejnou pravděpodobnost P ω j = 1 j n, kde n je počet tříd n p X ω j : předpokládáme normální rozdělení tříd (parametrický odhad viz [10.3.]) fitujeme gaussovkou ale pozor ne vše má normální rozdělení!! neparametrický odhad Pokud tedy nejsou třídy normálně rozděleny, máme tyto možnosti: o Pokud uvnitř těchto tříd leží nějaké shluky s normálním rozdělením >> použijeme N Gaussovskou směs: což je konečná suma Gaussovek - j G j (x) - jednotlivé Gaussovky jsou tzv. komponenty a je těžké určit kolik těch komponent ve skutečnosti je čím více jich je, tím menší jsou odchylky extrémem je, jedna Gaussovka pro jeden bod. Používá se často. o Pokud víme, jaké je to rozdělení, postupujeme stejně jako u normálního rozdělení, tedy parametrickým odhadem. Moc se nepoužívá. o Nepředpokládáme žádné rozdělení, jen hledáme hustotu pravděpodobnosti to jsou ty neparametrické odhady. Neparametrický odhad: Pravděpodobnost, že se veličina vyskytne v intervalu I je integrál přes tento interval

28 P = I p x dx Pravděpodobnost odhadnu podle četnosti výskytů v daném intervalu k n P V k počet v intervalu n celkový počet V velikost toho intervalu Budu posouvat interval jako při konvoluci a za odhad budu brát k ve středním bodě toho n intervalu. Postup můžeme zdokonalit tím, že budeme body v intervalu vážit nějakou fcí, protože předpokládáme, že body ve středu intervalu jsou důležitější, než ty na jeho okraji. Tyto váhové fce se nazývají Parzenova okna. Integrál přes tyto okna se musí rovnat jedné. Vliv rozptylu na výsledný odhad: delta fce shodné s původními daty, je to náchylné na přetrénování skutečná hustota tak s vysokou pravděpodobností nevypadá široké velmi vyhlazené, až konstantní ani tak skutečná hustota většinou nevypadá optimální něco mezi není jasné jak to najít - s rostoucím počtem bodů v trénovací množině vliv okna klesá, až nakonec při n = nehraje roli - tím, že jsou neparametrické odhady závislé na velikosti množin a tak i náchylné k chybám, používají se až jako poslední možnost rozbor pro normálně rozložené třídy Nejprve je dobré provést test normality Pearsonův test někdy se označuje jako test dobré shody nebo κ 2 test o dáme data do grafu a zároveň v grafu nafituji normální rozdělení n o vypočítáme rozdíly i a pak 1 n i=1 >> to má κ 2 rozdělení a tím testuji f i hypotézu, že data mají normální rozdělení (podívám se do tabulek na 5% hranici a buď to příjmu, nebo odmítnu) Momentový test nafituji data opět normálním rozdělením a spočítám momenty toho fitovaného a skutečného a porovnám nějakou statistikou o p-tý moment = x p f(x)dx 1. moment střední hodnota 2. moment rozptyl 3. moment šikmost Pokud potřebuji testovat normalitu pro více rozměrů je to velmi komplikované, proto se provádí jen test pro každý rozměr zvlášť a pak se řekne, že pokud to je normální ve všech rozměrech (příznacích), pak to je normální i celkově. Což ale nemusí platit. Parametrický odhad Gaussovky: střední hodnota (aritmetický průměr) μ = 1 n x n k=1 k rozptyl (aritmetický průměr kvadratických odchylek) - σ 2 = 1 n (x n k=1 k μ ) 2 p x = 1 1 2πσ e 2 x μ σ 2 i 2

29 D-dimenzionální Gauss: p x = 1 e 1 d 1 2 x μ t Σ 1 x μ 2π 2 Σ 2 o d počet dimenzí o μ vektor střední hodnoty (= vektor aritmetických průměrů) t o transpozice vektoru o Σ kovarianční matice o determinant 2 Σ ij = cov(x i, x j ) na diagonále má Σ ii = σ i Σ ij = 1 n ω (x k n i μ i )(x k j μ j ) ω k=1, kde n ω je počet bodů v dané třídě Velikost kovarianční matice je závislá na množství prvků. 2 σ Např.: σ, pokud σ 1 = σ 2, tak to jsou soustředné 2 kružnice. Jak vypadají rozhodovací křivky ve 2-D: Jsou tam, kde se gaussovky rovnají a jsou to: hyperboly kružnice a elipsy přímka jiná střední hodnota, jinak jsou stejné dvě přímky mají stejné rozptyly a střední hodnoty Nutná a postačující podmínka proto, aby klasifikátor byl lineární je, aby kovarianční matice byly stejné. Kdy je max g i x = 1 x μ t Σ 1 x μ? tehdy, když je Mahalanobisova vzdálenost 2 minimální min x μ t Σ 1 x μ Pro více tříd se postupuje stejně, jen je více rozhodovacích čar. Maximum Likelihood Bayesův klasifikátor, kde jsou třídy normálně rozděleny a apriorní pravděpodobnosti jsou stejné.

30 11. okruh- Klasifikace bez učení: Shluková analýza (clustering) v prostoru příznaků Neznám trénovací množinu a většinou ani počet tříd. Dostaneme jen naměřená data a na jejich základě máme odhadnout počet tříd. Shluk = není přesně definován, ale znamená zhruba to, že rozptyly parametrů ve shluku jsou malá a naproti tomu vzdálenosti jednotlivých shluků jsou velké. V praxi můžeme za shluk považovat jakoukoli libovolnou podmnožinu a proces shlukování lze pak přirovnat k pokrytí celé množiny disjunktními podmnožinami. Můžeme tedy nalézt různá shlukování a porovnávat, které je nejlepší. N Jednoduché Wardovo kritérium: J = i=1 x C x μ 2 i i suma přes prvky daného i-tého shluku, kde druhá suma je až na normování klasický rozptyl a μ i je těžištěm i-tého shluku. Hledáme tedy minimum J. Lze použít jen tehdy, srovnávám-li pevný počet shluků s různými rozděleními. Globální minimum J je počet shluků = počet prvků. Metody hledání shlukování: 1) Iterační [11.2.] 2) Hierarchické [11.3.] 3) Ostatní kombinace předchozích, sekvenční Sekvenční: Jedná se o velmi špatnou metodu, která se v praxi nepoužívá. Postup 1) vyberu si libovolný bod 2) přidám k němu nejbližší 3) testuji rozptyl vytvořeného shluku, a pokud nepřekročí zadanou mez, skočím do bodu 2), pokud ji překročí, pokračuji v bodu 4) 4) ukončím jeden shluk, a pokud mám ještě nezařazené body, vyberu z nich libovolný bod a pokračuji bodem 2) Dává sice špatné výsledky, na druhou stranu je velice rychlá, protože je každý bod zpracováván jen jednou. Výsledek závisí na výběru bodů iterační metody N-Means Clustering 1) Náhodně zvolíme N bodů, které jsou rovnoměrně rozloženy, a označíme je za těžiště shluků. 2) Zbylé body rozdělíme do shluků podle nejkratší vzdálenosti k těžišti. 3) Nyní přepočítáme těžiště vzniklých shluků. 4) Pokud jsou jiná než předchozí >> oklasifikujeme všechny body znovu (i ty původní těžiště) 5) Tím vzniknou opět nové těžiště, které spočítám. Pokud se znovu nerovnají, opakuji bod 4). 6) Pokud se už nemění a jsou stejná, prohlásím to za konečné rozdělení do shluků.

31 Je to poměrně rychlé, ale pokud na začátku odhadneme špatně počet shluků, tak je i výsledek špatně. Špatné je, že to neminimalizuje J. Iterativní minimalizace J 1) Počáteční inicializace je výstup N-means clusteringu. 2) U každého bodu testuji, jestli by se J nezmenšilo, pokud bych ho přiřadil do jiného shluku. A tam kde je největší pokles J, tak bod přeřadím. A pokračuji s dalším bodem. 3) Algoritmus se zastaví, pokud se body přestanou přesouvat. Pozn. Všechny těžiště se nemusí přepočítávat, když vím, který bod se přesouval a kam. Ve shluku, kde se nic nedělo, to není potřeba. Někdy i toto vyjde špatně, protože minimum J preferuje shluky se stejným počtem bodů, což může být někdy na škodu. ISODATA Jde také o iterační metodu, kde se N může měnit. ISODATA je komerční ochranná známka hierarchické metody Aglomerativní počátečním předpokladem je, že každý bod je sám shlukem a v pak v každém kroku spojím dva shluky. Divizivní na počátku jsou všechna data v jediném shluku to se používá jen pro menší počet konečných shluků (2). Postup aglomerativní metody: 1) každý bod je shluk 2) spojím 2 nejbližší body 3) v každém dalším kroku hledám 2 nejbližší shluky a ty spojím 4) opakuji do dosažení nějaké podmínky Různé metody se liší podle STOP podmínky počet shluků, velikost, rozptyl. Vzdálenost shluků: minimální vzdálenost mezi nejbližšími body bude spojovat blízké shluky (veliké) max. vzdálenost nejvzdálenějších bodů stejně velké shluky střední vzdálenost těžišť Ačkoli ani jedna není metrikou, tak se hojně používá. Metrikou je třeba Hausdorfova - pro všechny prvky A se spočítají vzdálenosti k nejbližšímu sousedu v B a vezme se maximum. Takovýto model neminimalizuje J, ale můžeme to modifikovat takto: J je na počátku = 0, v každém kroku budu spojovat takové shluky, aby nárůst byl J minimální. min d A, B = J A B J A, B Nedostatek opět nenalezne globální minimum. A navíc není dobře definováno co se stane, když se v jednom kroku nalezne více kandidátů na spojení. >> Definitivní Aglomerativní Spojování pokud je více kandidátů v jednom kroku, spojím všechny. Používá se i grafické znázornění Dendrogramem, který je užitečný pro určení počtu shluků.

32 Postup divizivní metody: 1) všechny body tvoří jeden shluk 2) rozdělím shluk na dvě části, aby jejich vzdálenost byla maximální 3) opakuji až do konce (počet shluků = počet bodů) dost výpočetně náročné, protože je nutné vytvořit všechny možné dvojice podmnožin a spočítat jejich vzdálenosti - 2 N 2 proto se to musí obcházet: 1) všechny body tvoří jeden shluk 2) najdu bod, jehož průměrná vzdálenost od ostatních bodů je maximální ten považuji za zárodek 3) Pro každý bod spočítám střední vzdálenost mezi množinou A (všechny ostatní body) a zárodečným bodem B 4) je-li blíže k B, než k A, tak ho přidám k B 5) tím se vytvoří dvě množiny, na něž aplikuji rekurzivně to samé Optimální počet shluků: - je ve zlomu fce - zlom existuje jen při výrazné shlukovací tendenci

33 12. okruh: Redukce dimenzionality příznakového prostoru Máme D příznaků a chci tento počet zredukovat na číslo n, tak aby n D: (x 1 x 2,, x D ) (y 1 y 2,, y n ) Výhody: nižší výpočetní náročnost někdy zlepšení klasifikace levnější v medicíně může měření přinášet pacientovi bolest Nevýhody: možná ztráta informace Dva hlavní přístupy: 1. Feature extraction Nové příznaky jsou funkcemi těch starých: Transformace T: R D R n D např.: n=1 : y 1 = i=1 x i Příznaky ztrácí svůj původní fyzikální význam (někdy to je na škodu, někdy ne). 2. feature selection Nové příznaky jsou vybrány z těch starých. Tento výběr můžeme provádět dvěma způsoby: a. One class problem: Máme nerozklasifikovaná data, kde chci redukovat příznaky ještě před klasifikací tu nechci ještě před redukcí provádět. b. Multi class problem: Máme trénovací množinu, musíme vy brat ty příznaky, které trénovací množinu nejlépe separují. Důležité je, že vždy chceme příznaky, které jsou nekorelované Transformace podle hlavních komponent Principal Component Transform (PCT) Karhunen-Loeve jde o metodu one-class-problem chceme odstranit korelace mezi příznaky Otázka taková lineární transformace, aby nové příznaky byly nekorelované? Ano: kovariantní matice je symetrická, tedy i diagonalizovatelná. Protože u symetrické matice jsou vlastní čísla reálná a počet vlastních vektorů je N a jsou ortogonální (matice je rozměru NxN). Tyto vlastní vektory definují ty transformace. PCT je rotace příznakového prostoru y = Tx, tak aby y bylo nekorelované C y = T T C x T T vlastní ortogonální vektory Na diagonále budou vlastní čísla (rozptyli nových příznaků). Spočítám tedy vlastní čísla, vlastní vektory. nyní mám nekorelované příznaky, ale stejný počet jako předtím a až teď přichází ta samotná redukce Redukce: Seřadíme příznaky podle velikosti rozptylů (tedy diagonálních prvků).

34 Předpokládáme, že informační hodnota je tím vyšší, čím vyšší rozptyl toho příznaku je. Vycházíme z předpokladu, že příznak s nulovým rozptylem je konstantní pro všechny prcky. Zvolíme si počet příznaků n a vezmu prvních n příznaků >> to jsou ty hlavní komponenty. Aplikace PCT: 1. Optimální reprezentace dat - příznaky jsou nekorelované a jsou tam jen ty hlavní. 2. Vizualizace a komprimace multimodálních (hyperspektrálních) obrázků snímky z družic mají hodně pásem s vysokou korelací, můžeme tedy tyto korelace pomocí PCT zahodit. Problém PCT pro klasifikaci protože vybírá příznaky podle velikosti rozptylů, což nemusí být dobře pro diskiminalitu viz obrázek. Pokud vezmu ten největší rozptyl není zde to nejlepší míry separability (diskriminibility) Multi-class problem tréninkové množiny jsou dostupné zvlášť pro všechny třídy chceme nerukovat příznakový prostor, aby zůstaly jen ty příznaky, které dobře klasifikují jednotlivé třídy cíl je maximalizovat vzdálenost mezi třídami o dobrá diskriminabilita o optimalizace metody zde nám přechází feature selection v optimalizační úlohu N J = i=1 x C x m 2 i i Wardovo pravidlo Na rozdíl od shlukování, tady příznaky zahazuji, proto toto kritérium nefunguje tr W 1 B - nejpoužívanější pro výběr příznaků: Jestliže N = 2 a obě trénovací množiny mají stejný počet prvků, potom: máme tzv. Mahalanobisova vzdálenost mezi dvěma třídami: max tr W 1 B max(m 1 m 2 ) t (C 1 + C 2 ) 1 (m 1 m 2 ) m 1 m 2 rozdíl středních hodnot dělený rozptylem C i kovarianční matice Pozn.:Mahalanobisova vzdálenost bodu od třídy: (x m) t C 1 (x m) Praktické použití: D Musíme vzít všechny možné n-tice, spočítat všechny možné možnosti:, což vede na n mnoho možností a není to příliš použitelné pro velká čísla. Ale přesto pouze toto zaručí dosažení globálního maxima. Ostatní metody nalezení globálního extrému nezaručí. M. vzdálenost nelze zobecnit do více rozměrů >> používá se po dvojicích a pak se maximalizuje ta minimální, protože chceme dobrou separabilitu všech tříd. Mahalanobisova vzdálenost porušuje metriku (pokud je stejná střední hodnota, tak je vzdálenost rovna nule.), proto se používá Bhattacharyova metrika: Mahalanobisova vzdálenost + člen měřící stejnost kovariantním matic

35 12.4. optimální metody pro výběr příznaků úplné hledání - D n nepoužívá se branch & bound - začínáme se všemi příznaky a postupně je odebíráme až na požadovaný počet n uspořádám příznaky do stromu v kořeni je úplný vektor v každém patře odeberu příznaky podle nějakého počítaného kritérie dojdu až na konec (k listům) a pamatuji si hodnotu kritéria (M. a B. vzdálenost je monotónní, takže nemůže při odebírání růst.) v každé další větvi postupně porovnávám hodnotu kritéria, a pokud je horší, nemusím dále pokračovat v této větvi při extrémní smůle je pak složitost horší než u úplného prohledávání >> jen listůje totiž D, uzlů je pak ještě 2krát více. n fast (predictive) branch & bound odhadují se velikosti úbytků při odebírání jednotlivých příznaků a v každém uzlu se tak kritéria nemusí počítat Pro lepší pochopení optimálních metod viz demo: suboptimální metody pro výběr příznaků Hledají něco, čemu bychom rádi věřili, že to je globálním maximem, ale nemusejí k němu dojít. Každopádně jsou mnohem rychlejší. přímá selekce tato metoda funguje jen pokud jsou příznaky nekorelované, pokud jsou navíc jde navíc o množiny s normálním rozdělením, je optimální metodou o Najdu příznak, který množinu separuje nejlépe, ten si pamatuji a hledám druhý nejlepší, takto jich najdu n a je to. o Protože jsou bohužel příznaky většinou korelované, není to moc použitelné. zobecnění sequential forward selection najdu nejlepší a druhý vyberu tak, aby tvořil s tím prvním nejlepší dvojici. Problémy: o nesting effect = zahnízdění jednou špatně zvoleného příznaku se už algoritmus nezbaví. o přidává se po jednom proto další vylepšení SFS(k) kde se vybírá úplným prohledáváním nejlepší např. dvojice (k=2) a k ní se přidává další nejlepší dvojice. Což ale neřeší problém nesting effectu. zlepšení plus k minus m typicky m = k 1 o v prvním kroku přidám k nejlepších a z těch vybraných zase vyhodím m nejhorších další zlepšení floating search stejný jako předcházející algoritmus, ale tentokrát nejsou m a k konstanty oscillating search- nezačíná se od nuly, ale od náhodného výběru

36 13. okruh Příznakový popis rovinných objektů: obecné požadavky Příznaky jsou charakteristiky, které nezávisí na konkrétních výskytech v obrázku >> nezávislé na otočení, velikosti, barvě, fontu písma atd. Měli by tedy být invariantní ke všemu přípustnému, co by se mohlo vyskytnout v dané úloze. Diskriminalita objekty patřící do různých tříd, by měli mít různé hodnoty příznaků (invariance jde většinou proti diskriminalitě) Robustnost měli bychom zajistit jen malé nepřesnosti; měli by být dosti robustní na šum Efektivnost Nezávislost žádná složka vektoru příznaků není funkce jiných Úplné toto není nikdy zajištěno, ale znamená to, že lze přesně zrekonstruovat daný objekt z těchto příznaků principy vizuální transformační koeficienty diferenciální momentové

37 14. okruh Invarianty pro popis a rozpoznávání 2-D objektů: vizuální příznaky Vizuální proto, že už pouhým okem jde odhadnout, jak velkou hodnotu bude mít daný příznak. Mají intuitivní interpretaci jedná se o plochu, délku obvodu, kompaktnost, podlouhlost atd. Kompaktnost 4πP O2 P je plocha a O je obvod jde o míru podobnosti ke kruhu, kde kruh má hodnotu "1" Konvexita P(A) jde o míru podobnosti ke konvexnímu obalu P(C A ) Elongation (Podlouhlost) poměr krátké a dlouhé strany >> míra podobnosti ke čtverci Rectangularity jde o poměr plochy objektu a opsaného obdélníku >> míra podobnosti k obdélníku Eulerovo číslo počet komponent mínus počet děr Vizuální příznaky se někdy používají jako předklasifikace Úplné vizuální příznaky Dají se s nimi zpětně zrekonstruovat objekty. Řetězový kód (Chain code) jde o kódování směru hranice určíme si start pixel a pak jednu podle čísel: Je to nepoužitelné jako příznak stačí lehká změna hranice a už to je celé jinak. Invariantnost se dá řešit jednoduchým trikem udělám jen reaktivní kód (diferenční) odečtu z absolutního kódu dvě následující hodnoty (22223>>0001). Používá se pokud chceme zakódovat objekty, jedná se totiž o bezztrátovou kompresi. Špatně se u něho definuje vzdálenost (metrika) mezi příznaky. Polygonální aproximace nahrazuje hranici polygonem Pro rozpoznávání se většinou nepoužívá. Problém zde je, jak určit počet vrcholů polygonu. A pro dobré srovnání je potřeba, aby byl konstantní počet vrcholů, což ale neodpovídá realitě. Stejně těžce je zde definovat metriku. Tvarový vektor (Shape vector) v rozpoznávání se používá. Jde vlastně o převzorkování v polárních souřadnicích. o najdu bod těžiště o najdu bod o těžiště nejvzdálenější o vedu úsečku těžiště >> ten bod a tu nazvu poloměrem kružnice o udělám kružnici a rozdělím ji na nějaký počet stejně velikých oblastí Je to invariantní: posun začínáme od těžiště otáčení nalezneme nejvzdálenější bod změna měřítka ano, pokud vektor normalizuji první složkou

38 Diskriminalita je dobrá, pokud počet oblastí n je dostatečně velké. Špatné to je, pokud paprsek protne objekt více než jednou, tak se to nedá použít. Tedy dá se použít jen pro hvězdicové objekty. Pokud nastává problém s určením počátečního bodu s maximální vzdáleností, vektor se pak liší jen posunutím >> řešíme to tím, že projedeme všechna cyklická posunutí a uděláme korelaci. zobecnění na Tvarovou matici (Shape matrix) Stejný postup jako u shape vector zase si naleznu těžiště a nejvzdálenější bod, a vedu ekvidistantní úsečky z těžiště, ale tentokrát nedělám jen jednu kružnici, ale více ekvidistantních soustředných kružnic, čím jednotlivé oblasti rozdělím do více částí. Tímto postupem dostáváme vlastně binární matici každý prvek odpovídá jednomu segmentu. Číslo je rovno "1" pokud je více jak 50% segmentu pokryto objektem. Viz obrázek, kde m je počet kružnic a n je počet výsečí. Je dobré, aby se segmenty blížili čtverci. Metriku zavedeme, tak že je to počet stejných prvků v matici. Pokud máme opět problém s nalezení maxim, tak se prochází všechny možné matice jednalo by jen o cyklické posunutí prvků matice. Otázka: Proč se nepoužívají kartézské (čtvercové) souřadnice? Ztrácíme tím odolnost vůči špatnému nalezení maxima proto se to nepoužívá Fourierovy deskriptory Fourierovy deskriptory patří do skupiny transformačních koeficientů stejně jako wavelet transform. Jsou založeny na Fourier shift teorému (FST), který nám říká, jak vypadá fourierka posunuté fce je jen násobkem fourierky té původní. Amplituda FT se při posunu nemění, fáze se definovaně posouvá. Zkonstruujeme radiální fci: Radiální fce je invariantní k posunutí protože to vztahuji k těžišti tak nemusím uvažovat o posunutí rotaci při ní se bude radiální fce pouze posouvat tedy nezávisí na startovním bodu Udělám FT této radiální fce a vezmu její amplitudu prvních pár jejích koeficientů prohlásím za ty naše hledané FOURIEROVY DESKRIPTORY.

39 Abychom zajistili invarianci k měřítku >> dělí se tato sada prvním koeficientem, což je koeficient konstantní fce neboli střední hodnota fce: F n = f(t)e 2πint dt F 0 = f(t)dt střední hodnota Funguje jen pro hvězdicovité objekty. Použití: Vezmeme hranici a představíme si ji jako komplexní číslo: f t = x t + iy(t) Z toho se spočítá FT a vezmou se ty absolutní hodnoty Nultý bod má nyní jiný význam říká nám vzdálenost od počátku, a proto používáme až ty další body a tenhle zahodíme. Pozn.: Ve F. deskriptorech moc informace není u FT je podstatná část informace ve fázi, kterou vůbec neuvažujeme diferenciální příznaky Používají se pro rozpoznávání objektů, které nejsou celé vidět do dnes tato úloha uspokojivě vyřešená. Mozek je v tomto vybaven daleko lépe, díky zkušenosti. Do teď jsme popisovali jen příznaky, které byly globální, takže lokální změna funkce vedla ke změně všech koeficientů. IDEA: LOKÁLNÍ PŘÍZNAKY počítají se v částech objektu hranice musí být dobře diferencovatelná chodíme po té hranici a hledáme vysoké derivace příznakový vektor je tvořen hodnotami funkce ve všech hraničních bodech protože mi pro výpočet fce stačí malé okolí bodu >> lokální Vypočteme první (I 1 ) a druhou (I 2 ) křivost a z toho sestavíme tzv. Signaturu: Dostanu opět uzavřenou křivku v příznakovém prostoru a pak porovnávám s databází a musím určit, v kolika % se může lišit. To zakrytí eliminuji tím, že porovnávám jen podkřivky (části té Signatury). Problémy: I když to je invariantní vůči projektivní transformaci, tak to stejně není moc použitelné, protože je zde nutná podmínka, aby křivky byly hladké a dobře diferencovatelné. není to moc odolné vůči šumu díky vysokým derivacím - NESTABILNÍ někdy se to řeší aproximací křivek spliny a pak se to počítá až z nich dnes se to používá jako srovnávací metrika a asi neexistuje žádná reálna aplikace přímo v rozpoznávání Jiné možnosti: Objekt se rozdělí na malé části, u kterých se spočítají některé z globálních příznaků. Otázkou je, jak takový objekt rozdělit např. pomocí inflexních bodů (x y x y = 0). Existují i algoritmy které je hledají bez počítání derivací. Tyto inflexní body, jsou invariantní vůči affiní i projektivní transformaci.

40 15. okruh Momenty obrazu: základní definice Momenty jsou projekcí funkce obrázku do polynomiální báze. Obecný moment M (f) pq obrázku f(x, y), kde p, qεn + a r = p + q je stupeň momentu M (f) pq = p pq x, y f(x, y)dxdy D p 00 x, y, p 10 x, y,, p kj x, y je polynomiální báze funkcí definovaných na D vlastnosti Geometrický moment: m 00 m (f) pq = x p y q f(x, y)dxdy (f) hmotnost obrázku pro binární obrázky je to plocha souřadnice těžiště: x t = m 10, y m t = m m 00 Pokud považujeme obrázek jako hustotu pravděpodobnosti a normalizujeme m 00 = 1, tak pak jsou: m 10 a m 01 střední hodnoty m 20 a m 02 jsou odchylky středních vertikální a horizontální momenty vzhledem k různým systémům polynomů Komplexní moment: c kj x, y = (x + iy) k (x iy) j c (f) pq = Vyjádření komplexního momentu z geometrického: c pq = p q k=0 j =0 m pq = 1 2 p+qiq p k (x + iy) p (x iy) q f(x, y)dxdy p q j q k=0 j =0 ( 1) p j i p+q k j p k q j c qp = c pq ( 1) q j m k+j,p+q k j c k+j,p+q k j >> zeptat se JF úplně nevím, jestli touhle otázkou myslel Legendrovi & Zernikovi? jejich formální zápis jsme totiž ke zkouškám z ROZu umět nemuseli rekonstrukce obrazu z momentů Teorém jedinečnosti: Funkce obrázku může být přesně zrekonstruována z množiny jejich momentů. Obecně u geometrických momentů platí: f x, y m pq p pq (x, y)

41 Ale pokud máme Ortogonální momenty: Je-li polynomiální báze {p kj (x, y)} ortogonální, tj. pokud její prvky splňují podmínku ortogonality: nebo váženou ortogonalitu: Ω p pq x, y p mn x, y dxdy = 0 w(x, y) p pq x, y p mn x, y dxdy = 0 Ω pro všechny indexy p m nebo q n, mluvíme o ortogonálních (OG) momentech a Ω je oblast ortogonality. Potom se rekonstrukce obrazu z OG momentů provádí takto: f x, y = M kj p kj (x, y) k,j Pokud používáme pouze konečnou množinu momentů, je tato rekonstrukce "optimální", protože to minimalizuje chybu pomocí nejmenších čtverců. Na druhou stranu, rekonstrukce obrazu z geometrických momentů nelze provádět přímo v prostorové doméně. Ale provádí se ve frekvenční doméně, z Taylorova rozvoje geometrických momentů: ( 2πi) p+q F u, v = m p! q! pq u p v q p q

42 16. okruh Momentové invarianty vzhledem ke geometrickým transformacím obrazu: Translace = T, Scaling = S, Rotace = R invariant k T - centrální geometrický moment kde x t = m 10 m 00, y t = m 01 m 00 pozn.: μ pq = μ pq = p q k=0 j =0 p k (x x t ) p (y y t ) q f(x, y)dxdy μ 01 = μ 10 = 0 μ 00 = m 00 q j ( 1) k+j x k t y j t m p k,q j invariant k T a rovnoměrnému S normalizovaný centrální moment υ pq = μ pq ω μ 00 kde ω = p+q D.: μ pq = dále: μ 00 = s 2 μ 00 potom tedy: z toho tedy vyplívá: x x t p y y t q f x, y dx dy = s p (x x t ) p s q (y y t ) q f(x, y)s 2 dxdy = s p+q+2 μ pq υ pq = μ pq ω μ 00 invariant k R M.K. Hu, invariantů třetího řádu: = sp+q+2 μ pq (s 2 μ 00 ) ω = υ pq p+q +2 s p + q s 2ω = 1 2ω = p + q + 2 ω = 2 + 1

43 Těžko se hledají, ale dají se lehce pozkoušet pokud do nich dosadíme transformační vztahy pro rotaci: x = x cos θ y sin θ y = x sin θ + y cos θ Problémy: závislost: φ 3 = φ 5 2 +φ 2 7 φ 3 4 neúplnost Proto konstruujeme rotační invarianty z kompexních momentů: (f) = (x + iy) p (x iy) q f(x, y)dxdy, nechť p q c pq v polárních souřadnicích: Dosadíme: c (f) pq = 2π 0 0 x = r cos θ y = r sin θ r = x 2 + y 2 θ = arctan y x r p+q +1 e i(p q )θ f(r, θ)drdθ Stejně jako u Fourierova Shift Teorému, otáčení je totiž v polárních souřadnicích posun: c pq = e i(p q)α c pq fáze je tedy posunuta o (p q)α >> repetition faktor = (p q) pokud p q = 1 potom se moment otáčí stejně jako obrázek Teorém: Nechť n 1 a k i, p i, q i N + n, i n a nechť i=0 k i (p i q i ) = 0 pak: je invariant k rotaci. I = n i=1 k c i pi q i D.: I = n i=1 c k i p i q i = n i =1 e ik i p i q i α c pi q i k i = e iα n i=0 k i p i q i 2 Některé jednoduché invarianty jsou tedy např.: c 11, c 20 c 02, c 20 c 12 atd. I = I Teorém nám pomáhá najít nekonečně mnoho invariantů vzhledem k otočení, ale jen pár z nich je nezávislých. Otázka je, jak najít bázi úplnou a nezávislou množinu z těchto invariantů? Definujme nezávislost invariantů: Nechť k > 1 a I = I 1, I 2,, I k je množina rotačních invariantů, pak J je na této množině nezávislý, pokud zobrazení F takové, že J = F I 1, I 2,, I k. Definice Báze: Mějme množinu rot. invariantů I = I 1, I 2,, I k. Nechť B I. B je kompaktní, pokud I k0 I B jsou závislé na B. B je báze, jeli kompaktní a nezávislá.

44 Teorém jak sestavit takovou bázi invariantů požadovaného stupně: Mějme stupeň r 2. Zkonstruujme množinu rotačních invariantů takto: B = φ p, q c pq c p q q0 p 0 p q p + q r kde p 0 a q 0 jsou libovolné indexy, které splňují podmínky: p 0 +q 0 r p 0 -q 0 = 1 c p0 q 0 0 Pro všechny přípustné obrázky. Potom B nazvu bází všech rotačních invariantů do stupně výšky r. Můžeme tedy tuto bázi nejen spočítat, ale předem znát počet členů B B B = 1 4 r + 1 (r + 3) pokud je r liché B = 1 4 r pokud je r sudé Př.: Vygenerujte bázi 3. řádu: r = 3 p 0 + q 0 r tedy p 0, q 0 můžou nabývat hodnot od 0 do 3 ale protože p 0 q 0 = 1 p 0 = 2, q 0 = 1 A tedy konečný výsledek je: φ 1,1 = c 11 φ 2,1 = c 21 c 12 2 φ 2,0 = c 20 c 12 3 φ 3,0 = c 30 c 12 Kdyby to mělo být úplné, muselo by tam být ještě: φ 0,0 = c 00 φ 1,0 = c 10 c 11 Ale není to tam, protože c 00 = μ 00 je většinou používáno k normalizaci a c 10 = m 10 + im 01 se používá jako translační invariant. N-fold rotační symetrie: pokud je zrotovaný objekt stejný jako původní s rotací 2πj N pro j = N. Vztah N-fold symetrie k osové: má-li osovou symetrii S má i N-fold a N=S má-li N-fold tak pak: o nemá osovou o nebo má a S=N Proto se můžeme zabývat jen N-fold. Máme-li symetrický objekt je to problém, protože mnoho invariantů je rovno 0. Věta: Pokud f(x, y) má N-fold rotační symetrii, potom c pq = 0 pro p, q takové, že p q není integer. D.: c pq = e i(p q)α c pq >> úhel aby se rovnal objekt po otočení: α = 2π N c pq = e i2π (p q)/n c pq >> zároveň musí platit: c pq = c pq >> tedy buď c pq = 0 nebo e i2π (p q )/N = 1 >> protože pokud (p q)/n není integer, tak musí platit c pq = 0. N

45 Čím vyšší číslo N tím méně netriviálních invariantů. N = 1 není symetrie >> předchozí řešení N = 2 (centrální symetrie) >> jen sudé stupně invariantů (r je sudé číslo) jsou netriviální N = >> jen φ p, p = c pp jsou netriviální Zobecnění teorému o bázi pro N-fol symetrii: k p, q: φ p, q c pq c q0 p 0 k = (p q)/n p + q r p q p 0 +q 0 r p 0 -q 0 = N c p0 q 0 0 o rotační invarianty pomocí normalizace Nepřevzorkováváme jen pracujeme s normalizací momentů: 1) normalizujeme měřítko: m 00 = 1 2) normalizujeme posun: m 10 = 0, m 01 = 0 3) normalizujeme rotaci podle hlavních os: μ 11 = 0 4) úhel mezi 1. vlastním vektorem a osou x α = 1 arctan 2μ 11 2 μ 20 μ 02 Pokud α neexistuje, tak je to už natočené >> N = (kruh) 5) díky tan 2α 4 varianty natočení: 6) μ 20 μ 02 preferuje směry: 7) μ > 0 preferuje směry: 30 8) momenty po normalizaci jsou invarianty níže si je spočítáme a dokážeme to: D.: Normalizační momentová matice: M μ 20 μ 11 μ 11 μ, M λi = 0 >> jde o ortogonální 02 matici tvořenou z vlastních vektorů M, nazveme jí G. Pak M = G T MG = λ 1 0 = μ λ 2 0 μ 02 >> μ 20 λ 1 = μ 20 + μ 02 + μ 20 μ μ 11 2 = φ 1 + φ 2 2 >> μ 02 λ 2 = μ 20 + μ 02 μ 20 μ μ 11 2 = φ 1 φ 2 2 Momenty normalizovaného obrázku jsou skutečně invarianty. Mějme elipsu takovou jako na obrázku Ta má stejné 2. momenty jako původní objekt: μ 20 = πa3 b 4 μ 02 = πab3 4 a, b major/minor semi-axis Takovou elipsu nazveme referenční elipsou. Z toho vyplívá, že jen tyto dva momenty nám dávají málo informace >> je jich potřeba více. Právě proto, že jsou potřeba momenty vyšších řádů, se normalizace pomocí komplexních momentů příliš nepoužívá.

46 17. okruh Momentové invarianty vzhledem ke konvoluci: g x, y = f x, y f(x, y) originál g(x, y) rozmazaný obrázek (x, y) PSF impulsní odezva hledáme tedy invariant, takový že: I f = I f pro Pro zopakování komplexní moment: c (f) pq = (x + iy) p (x iy) q f(x, y)dxdy Mějme Lemma: Nechť f(x, y) a (x, y) jsou dva libovolné funkce obrazu a nechť g(x, y) = (f )(x, y). Pak g(x, y) je také funkce obrazu a pro jeho momenty platí: m (g) pq = μ (g) pq = p q k=0 j =0 p q k=0 j =0 p k p k q j q j m () (f) kj m p k,q j μ () (f) kj μ p k,q j pro p, q c (g) pq = p q k=0 j =0 p k q j c () (f) kj c p k,q j PSF je centro-symetrická vzhledem k jejímu těžišti: x, y dxdy = 1 Věta: Nechť f(x, y) je funkce obraz a p, q jsou nezáporná celá čísla. Pak definujeme následující funkcionál C(p, q) (f) : Je-li (p + q) liché pak C(p, q) (f) = 0. Je-li (p + q), pak je sudé: C(p, q) (f) = μ (f) pq 1 p (f) μ 00 n =0 m =0 0<n+m <p+q q p n q m C(p n, q m)(f) (f) μ nm C p, q f je tzv. blur invariant pro všechny p a q. C(p, q) (f) = C(p, q) (f ) Můžeme tímto měřit třeba asymetrii. Pokud je kruhově symetrická, tak n = m a je tam jen jedna suma. Pro N-fold symetrii: místo podmínek 0 < n + m < p + q tam je podmínka 0 < n + m a n m N je Integer.

47 Kombinované invarianty: rotace + konvoluce C p, q = e i(p q )α C(p, q) n Pokud: I = C(p j, q j ) k j j =1 n A platí-li: j =0 k j p j q j = 0 Pak máme invariant: I f = I R f afinní + konvoluce Nechť I(μ 00,, μ pq ) jsou afinní invarianty. Pak podle definice z nich je I(C 0,0,, C p, q ) soubor blur&afinních invariantů. Pozn.: liché stupně momentů >> blur invarianty sudé stupně momentů >> měření rozmazaní g (g) M g = μ 20 + μ 02 Pokud M g 1 > M g 2, potom je g 1 více rozmazáno. Je to robustní na šum, ale blbé je, že jde pořád o globální invarianty.

48 18. okruh Rychlé algoritmy pro výpočet 2-D momentů: Diskrétní momenty: m (f) pq = x p y q f(x, y)dxdy m (G) pq = N M i=1 j =1 i p j q f ij Jde vlastně o sumu Diracl. delta fcí, f ij je funkční hodnota v pixelu (i, j) N U binárního obrázku: i=1 M j =1 i p j q Obtížnost O(n 2 ) u binárního obrázku O(n) Metody pro zrychlení výpočtu: Dekompozice Liší se způsobem výpočtu a na jaké bloky rozkládáme. o po K-blocich: (G m k ) pq ~O(1), m (G) pq ~O(K) m (G) pq = K k=1 K << N 2 (G m k ) pq o Delta metoda (Zakaria): Po řádcích (G m k ) q pq = y 0 x 0 +δ 1 i p (G Zjednodušení přes integraci: m k ) q pq = y 0 i=x 0 x 0 +δ x p dx = y q 0 x 0 p+1 x 0 + δ p+1 x 0 p+1 o Obdélníky: stejný postup jen pospojujeme stejné řádky (G Suma pak vypadá takto: m k ) x pq = 1 i p y 1 i=x i=y j q 0 0 A integrace: (G m k ) x 1 y 1 1 pq = x p y q dx dy = x 0 y 0 (p + 1)(q + 1) x 1 p+1 x p+1 0 y p+1 p+1 1 y 0 Tento vzorec se používá i u dalších metod, jen je rozdíl, jak získáváme ty bloky. o Čtvercová dekompozice: obrázek rozdělujeme do kvadrantů a jednotlivé kvadranty na další podkvadranty do té doby dokud není celá část kvadrantu buď obrázek, nebo bez obrázku. Zde je rychlost algoritmu po dekompozici při počítání jednotlivých bloků opět O(1). Ale celková rychlost závisí na čase stráveném při samotné dekompozici. o Největší vepsané čtverce: Zde se snažíme do obrázku vepsat největší vepsaný čtverec a na zbytky obrázku, co jsou nezakryté opět největší čtverec, až je nakonec celý obrázek zakrytý různě velkými čtverci. To co platí o rychlosti u čtvercové dekompozice, platí i tady. Opět celkový čas závisí na čase zabraném dekompozicí. Metodu můžeme modifikovat tak, že místo čtverců používáme i obdélníky.

49 Po hranici Greenův teorem: G x mějme: g x, y = x p +1 y g p+1 g x, y dxdy = g(x, y)dy G a tedy můžeme počítat moment: m G pq = 1 x p+1 y q dy p+1 G Metody se liší jako diskrétně počítat integrál po hranici o sumace pixel-by-pixel o polygonální aproximace o aproximace pomocí splinů SHRNUTÍ MOMENTŮ výhody nevýhody skvěle zvládnutá matematika momenty jsou globální kompaktní nezávislé množiny malé lokální chyba ovlivní všechny momenty dobrá míra diskriminality je potřeba dobrá segmentace dobrá robustnost na noise invariance k mnoha transformacím

50 19. okruh Waveletová transformace: wave osciluje let dobře lokalizovaná kolem 0, pak rychle mizí Použití: komprese odstranění šumu a poškození detekce struktur fúze dat s různým rozlišením problematika rozmazání registrace obrazu Okno proměnné šířky o analýza vysokých frekvencí úzké okno pro lepší time rozlišení o analýza nízkých frekvencí širší okno pro lepší frequency rozlišení Okénková Fourierova transformace: F w τ, f = z toho: t = w(t)e 2πift mějme funkci: a t = 1 a (t a ) f t w (t τ)e 2πift dt Když tuto funkci dosadíme do integrálu, dostáváme waveletovou transformaci: WF τ, a = 1 t τ f t ( a a )dt τ, aεr, a > 0 τ translace - pomocí proměnné b posouváme wavelet v čase a tím určujeme polohu okénka. a dilatace - pomocí proměnné a wavelet takzvaně škálujeme. Pro velká a je wavelet rozplizlý a pro malá je naopak smrsknutý. Tím v podstatě definujeme šířku okénka. Pokud necháme proměnnou a konstantní a proměnnou b budeme měnit, dostávám časový signál, který nám dává údaj o tom, která oblast transformovaného signálu je nejvíce podobná použité vlnce (v tom bodě bude mít WT maximální amplitudu). Pokud budeme postupně dosazovat za a i za b, dostaneme o něco podrobnější tabulku koeficientů, ve které budou jak údaje o čase (koeficient b udávající časový posun waveletu) tak i o škále (koeficient a). Je možné vypozorovat, že škála a vlastně souvisí s frekvencí. Čím větší a, tím rozplizlejší wavelet a tím spíše bude odpovídat nižším frekvencím ve zkoumaném signálu. a, a,b matečná waveleta (mother wavelet) a,b = 1 a (x b a ), a, bεr, a > 0 normalizace přes škály Vlastnosti: = 0, 2 <, je to něco jako band-pass filtr ve FT

51 Spojitá waveletová transformace: WF a, b = f t a,b t dt f t = c WF a, b a,b t dadt a 2 a, bεr, a > 0 c záleží na Redundantní diskretizace a, b Ortonormální báze L 2 R : j x = 2 m (2 m x n), m, nεz, j = 2 m + n Diskrétní waveletová transformace: f(x) = n i=0 c j = f(x), j = c j j n i=0 f x j MRA - Mutliresolution analysis Postup pro konstrukci ortonormálních bází v L 2 R prostoru - vnořená sekvence uzavřených podprostorů V i - každé V i odpovídá jednomu měřítku - plně určeno volbou škálovací funkce -každý W je generován posuny i,j waveletová dekompozice funkce f Ty elipsy, to je prostor bazických fcí ortonormální báze L 2 R = mεz V m, V n = 0

52 Dilatační rovnice: φ x = 2 j h j φ(2x j) škálovací FATHER WAVELET x = 2 j g j (2x j) waletová MATHER WAVELET, kompaktní = nulové krom určitého konečného intervalu P Vj f - ortonormální projekce fce f do V j >>Kompaktní suport: P Vj f x = P Wj f x = f x = 2 j 1 k=0 2 j 1 k=0 kεz c j,k j,k x c j,k = d j,k j,k (x) d j,k = c J0,k J0,k x J 1 f(x) j,k x dx f(x) j,k x dx + d j,k j,k (x) j=j 0 kεz f x = zákad + detaily různého měřítka c J 1,k = n h n 2k c J,n h - low pass filtr d J 1,k = n g(n 2k)c J,n g - high pass filtr Různé tipy wavelet: Haar waveleta: x = 2x + (2x 1) x = 2x (2x 1) kompaktní dyadická ortonormální FT Haara:

53 Mexican hat waveleta w t = 1 t 2 e t2 /2 Daubechies 4 waveleta Je nyní asi v praxi nejpoučnější. SHRNUTÍ WAVELET výhody jednoduchost konstrukce a reprezentace invariance k některým operacím hladkost, spojitost, diferenc. dobré vlast. vzhledem k počtu nul. momentů Jen ještě pro úplné pochopení WT: nevýhody ortogonální kompaktní wavelety nemohou být symetricke (kromě Haara) Waveletová transformace spočívá v tom, že máme nějaký spojitý časový signál x(t) a na jeho různě posunuté a různě široké oblasti (tzv. okna) se snažíme napasovat vlnku. Pro každé okno dostaneme jako výsledek transformace nějaký koeficient, který je tím větší, čím větší je podobnost onoho signálu v rámci daného okna s onou vlnkou. Když to porovnáme s velmi dobře známou Fourierovou transformací, tak si můžeme všimnout podstatné analogie, ale i podstatného rozdílu. Zatímco ve Fourierově transformaci rozkládáme celý signál na sinusovky, tak ve waveletové, jsou to wavelety. Rozdíl je i v tom, že FT se provádí nad celým signálem, kdežto WT nám nabízí zastoupení vlnek v různých časových úsecích signálu. Existuje sice takzvaná STFT (short-time FT), která také rozkouskovává signál na víc části, ale ty jsou vždy stejně široké.

54 20. okruh Waveletová komprese: principy a základní pojmy Jde nám o eliminaci redundantní informace, díky čemuž ušetříme velikost přenášené informace a tím i čas a peníze. prostorová hodnoty v sousedních pixelech jsou korelované frekvenční frekvenční hodnoty ze stejného pixelu jsou korelované časová video: většina pixelů se ve framech za sebou nemění, proto je lepší kódovat jednotlivé změny pixelů, než ukládat sekvenci snímku, snímek po snímku WT provádí dekorelaci dat a to buď ztrátově, nebo bezztrátově. #bity před #bity po WT je například použita v kompresním algoritmu JPEG2000 (obyčejný JPEG, ale i všechna MPEGx videa jsou komprimována diskrétní kosinovou transformací). Ať už v DWT nebo DCT jde o to, že se zpracují a uloží jen koeficienty do určitého levelu a dochází tak ke ztrátě informace. Lidské oko to ale není schopno příliš poznat. DWT přitom zachycuje o něco lépe detaily, protože je velmi citlivá na ostré změny v obrazu, zatímco DCT spíše rozmazává. Porovnání DCT a DWT Diskrétní Kosinusová Transformace Diskrétní Waveletová Transformace každý koeficient reprezentuje plochu a lépe zachyceny anomálie frekvenční rozsah zachycení pozic koeficientů - náročné někdy nezbude dost bitů na anomálie = hrany blokový efekty prahování ztrátová komprese - vynulování koeficientů menší než práh Prahování:

55 Po prahování rozdělím bitmapu na dva obrázky: binární abych věděl, kde jednotlivé pixely leží hodnotový stačí znát první hodnotu pixelu a pak už jen změny od této hodnoty Po prahování máme kvantizaci Vektorová kvantizace (blokové kódování): Y = {y i : iεn} Y codebook y i codeword NP úplný problém nalezení codebook nejlépe reprezentující danou množinu vektorů. Linde-Buzo-Gray algoritmus ( LBG ) k nalezení optmálního codebooku: 1. urči velikost N 2. vyber náhodně N codewords 3. clusterize 4. nové codewords průměr 5. vrať se k bodu 3. dokud změna RLE ( run length coding ) kódování bezztrátovou komprese, která kóduje vstupní data tak, že kóduje posloupnosti stejných hodnot do dvojic (délka posloupnosti, hodnota). Účinnost komprese je silně závislá na charakteru vstupních dat, která musí obsahovat delší sekvence stejných znaků, jinak výrazně účinnost komprese klesá. Příklad vstupních dat kodéru RLE: WWWWWWWWWWWWBWWWWWWWWWWWWBBBWWWWWWWWWWWWWWWWWWWWWWWWBWWWWWWWWWWWWWW Výsledek kódování RLE: 12W1B12W3B24W1B14W Huffmanovo kódování: Nový tip komprese: modelování závislostí mezi koeficienty - deterministická struktura do hloubky - Zero trees

56 Embedded Zerotree Wavelet Encoding nevýhody: obtížné dekódování pouhé části obrázku špatné vzpamatování se z chyb následující přístupy: Set Partitioning in Hierarchical Trees (SPIHT) Embedded Block Coding with Optimized Truncation (EBCOT) - v JPEG2000 EBCOT: Taubman, JPEG 2000 vhodný pro vzdálené prohlížení velkých souborů škálovatelná komprese obrázků (embedded) - kvalita - rozlišení náhodný přístup (různé části signálu - různé části obrázku) kódování ROI EBCOT bloky: o dělí každý sub-band na code bloky (32x32) ty separátně kóduje o všechny bloky v sub-bandu stejná velikost o každý blok kódován zvlášť o výhody paralelní zpracování využití lokálních informací omezený dopad chyb možnost náhodného přístupu x y x y x y x y 1 1 x y 2 x 2 y 1 1 x y 1 1 x y 2 x 2 y 2 x 2 y

57 21. okruh Odstraňování šumu pomocí wavelet: principy a základní pojmy snaha o rekonstrukci lokálních struktur rozložení spekter x amplitudy spekter hlavní je amplituda obrázky jsou převážně hladké oblasti s pár hranami WT má dobré kompresní vlastnosti (komprese + šum) jen málo velkých koeficientů dobrá lokalizace používáme ortonormální waveleta (Gaussovský bílý šum + ortonormální báze WT = zase Gaussovský bílý šum) Princip odstraňování šumu: hlavní problém: prahování volba prahu způsob hledání bývá heuristický chceme to jednotné pro jednotlivé úrovně? často různé, jen do určité hloubky "soft" prahování hladší, líbivější výsledky "hard" prahování lépe zachovává hrany Mnohdy se na detailní úrovně používá SOFT, a pro ostatní věci HARD. Odstraňování šumu VisuShrink: nejčastěji - univerzální práh Donoho, Johnstone rychlé a automatické práh určen:λ U = 2 log n σ, n délka signálu, σ STD

58 idea odstranit koeficienty, které jsou menší než očekávané maximu předpokládaného šumu délky n často jen pro 1. odhad prahu odhady 2 N 2 σ 2 = 1 2 d N n 1,i d 2 1 i=1 σ 2 = MAD({d n 1,i, i = 1, N 2}) MAD medián absolutní hodnoty odchylky od mediánu med abs d n 1,i med d n 1,i adaptivní metody v praxi - prahy nezávislé na velikosti obrázku adaptace prahu na každý band nebo na lokální variaci koeficientů spatial x scale adaptivní velký práh - odstranění šumu malý práh - zachování detailů adaptace podle hladkosti okolí

59 22. okruh - Použití zavelet: detekce hran WT lze použít jako velmi dobrý algoritmus pro detekci hran v obraze (obzvláště když se použije nějaký wavelet s ostrým přechodem). Jde o obdobu Cannyho detektoru hran - lokální maxima ve směru maximální změny. multiscale verze: vyhlazování low-pass filtrem nejčastěji Gauss (x,y) ψ 1 θ(x, y) (x, y) = x ψ 2 θ(x, y) (x, y) = y Dále pak: k ψ 2 j x, y = 1 x 2 j ψk 2 j, y 2 j pro 1 k 2 θ 2 j x, y = 1 x y θ, 2j 2j 2 j 1 x, y = 2 j θ 2 j (x,y ) 2, ψ 2 j x, y = 2 j θ 2 j (x,y ) ψ 2 j x 2 wavelety odpovídají vektoru gradientu vyhlazeného obrázku y velikost gradientu: T 1 f(2 j, u, v) T 2 f(2 j, u, v) = 2 j u f θ 2j (u, v) = v f θ 2j (u, v) 2j f θ 2j (u, v) směr gradientu: Mf 2 j, u, v = T 1 f(2 j, u, v) 2 + T 2 f(2 j, u, v) 2 Af 2 j, u, v = argtan T2 f(2 j, u, v) T 1 f(2 j, u, v) hrany ~ 1D lokální maxima M ve směru A posun obrázku: posun maxim nemění se hodnoty maxim koeficienty WT se můžou měnit Používáme: multiscale informace o hranách, z jednotlivých úrovní analýzu vztahů mezi jednotlivými úrovněmi Mizení koeficientů do hloubky závisí na lokální hladkosti signálu.

60 diferencovatelnost - Lipschitzovské koeficienty: Věta: Funkce f je uniformně Lipschitzovská s (0 < < 1) na intervalu [a, b] právě tehdy, když existuje konstanta K taková, že pro libovolné (x 0, x 1 ) z [a, b] platí: f x 0 f x 1 K x 0 x α 1 čím větší, tím víc diferencovatelná funkce v nespojitosti = 0 (step hrana) nutná podmínka pro f aby byla někde L. s je existence C > 0 Mf 2 j j (α+1), u, v C2 podle vývoje velikosti w. koef. - odhad hladkosti obr. f. Detekce hran - analýza - pro detekci hran odhady přes úrovně co šum a co hrana - je L. nárůst koeficientů (hrany) - není L. pokles koeficientů - není L. pravděpodobně šum a detaily - použít hlubší úroveň když rychlý pokles - použít vyšší úroveň když pomalý pokles - přesnost umístění hran rohů Zde jsme si na přednášce neříkali nic (resp. jsem to ve svých zápiskách ani v přednáškách neviděl), ale předpokládám, že zde bude platit něco podobného jako při detekci hran registrace obrazu Díky dobré detekci hran můžeme WT používat pro detekci obrazu. Navíc je zde výhoda, že můžeme detekci provádět na nižších úrovních a tak pracovat s menšími obrázky a tak i snížit výpočetní náročnost. Také je zde výhoda, že přechodem do nižších řádů odstraníme šum měření zaostření (~rozmazání) g i x, y = f i x, y, i = n W w = w (f) W w = h w (f) N(1 1 2 m d) w (f) - high pass bandy d - hloubka DWT m - dilatační faktor Jelikož si DWT všímá detailů a zároveň dokáže zvýrazňovat hrany, je možné použít jí i pro softwarové doostřování.

61 K doplnění Image Psion Input několik obr. stejné scény Output jeden obr. s high quality multifocus fusion: 1) použijeme WT 2) vytvoříme fusion map (FM) >> popis co odkud (ze kterého obrázku) budeme brát nesmí být moc rozbitá 3) poslepujeme HP z těch obrázků podle FM a LP se vezme většinou jen zprůměrováním 4) IWT multimodální fusion: např. panchromatický a barevný obrázek jedné scény a jejich spojení - máme jeden obrázek vícekanálový a jeden 2krát větší (rozlišením) panchromatický - uděláme WT toho panchromatického, a jeho LP (horní kvadrant po WT) zahodíme a místo něho tam dosadíme ten vícekanálový, který tam díky poměru velikostí přesně zapadne - nakonec uděláme IWT To aby bylo rozlišení v daném poměru, uděláme tak, že dáme nejmenší společný násobek, nebo to prostě tupě převzorkujeme.

Zobrazit více