Počítačové vidění vs. digitální zpracování obrazu Digitální obraz a jeho vlastnosti 1/32 Václav Hlaváč Fakulta elektrotechnická ČVUT, katedra kybernetiky Centrum strojového vnímání, Praha hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac
LIDSKÉ na rozdíl od POČÍTAČOVÉHO VIDĚNÍ 2/32 Vidění lidem dovoluje vnímat a porozumět světu kolem nich. Počítačové vidění se snaží napodobit lidské vidění snímáním obrazu elektronickými prostředky a porozuměním jejich obsahu počítačovým zpracováním. Digitální obraz = vstup (chápán intuitivně) jako obraz sejmutý na sítnici lidského oka nebo TV kamerou. Obrazová funkce f (x, y), f (x, y, t), nebo obrazová matice (po digitalizaci).
PŘÍKLADY VSTUPNÍCH OBRAZŮ 3/32
SOUVISEJÍCÍ OBORY ZKOUMÁNÍ 4/32 Digitální zpracování obrazu 2D statický svět, nevyužívá se interpretace obrazových dat (proto jsou do značné míry nezávislé na konkrétní aplikační oblasti). Používají se techniky zpracování signálů. Analýza obrazu často jen 2D svět, zahrnuje interpretaci obrazu. Interpretace přináší důležitou dodatečnou znalost umožňující řešit i úlohy, které by jinak řešit nešly. Počítačové vidění nejobecnější formulace úloh, 3D svět, interpretace, potenciálně informace o dynamice (tj. nutnost zpracovávat sekvence obrazů), špatně podmíněné úlohy, velmi ambiciózní cíle.
ROLE INTERPRETACE, SÉMANTIKA 5/32 Interpretace: pozorování model světa syntax sémantika Příklady: Pohled z okna {prší, neprší}. Jablko na běžícím pásu {třída 1, třída 2, třída 3}. Dopravní scéna vyhledávání čísla auta. Opora v teorii: matematická logika, teorie formálních jazyků. Hluboká teoretická potíž: Gödelova věta logický systém s kvantifikátory, nemůže být dokázán ani vyvrácen.
NIŽŠÍ A VYŠŠÍ ÚROVEŇ z hlediska využívané znalosti 6/32 Nižší úroveň = zpracování obrazu Obrazová data se neinterpretují, tj. nevyužívá se jejich sémantiky. Používají se metody zpracování signálů, např. 2D Fourierova transformace. Stejné postupy se používají na širokou třídu aplikačních úloh. Vyšší úroveň = porozumění obsahu obrazu, počítačové vidění Interpretace s využitím znalosti o konkrétní aplikační oblasti. Složité, využívá se zpětná vazba a techniky umělé inteligence. Obecně příliš těžká úloha. Obvykle se musí radikálně zjednodušit.
PROČ JE POČÍTAČOVÉ VIDĚNÍ TĚŽKÉ? ALESPOŇ 6 PŘÍČIN 7/32 3D 2D přináší ztrátu informace díky vlastnostem perspektivní transformace (matematická abstrakce, dírková komora). Měřený jas je dán složitým fyzikálním postupem vytváření obrazu. Zář (angl. radiance) ( jas) závisí na typu světelných zdrojů, jejich poloze, intenzitě, poloze pozorovatele, lokální geometrii povrchu a odrazivosti povrchu. Obrácená úloha je špatně podmíněna. Nevyhnutelná přítomnost šumu v každém měření ve skutečném světě. Příliš mnoho dat Stránka A4, 300 dpi, 8 bit per pixel = 8.5 Mbytes. Neprokládané video 512 768, RGB (24 bit) = 225 Mbits/sekundu. Nutnost zahrnout interpretaci (již bylo probráno výše). Lokální okno v kontrastu s potřebou globálního pohledu
NEDOSTATEČNOST LOKÁLNÍHO POHLEDU 8/32
NEDOSTATEČNOST LOKÁLNÍHO POHLEDU 8/32
LOKÁLNÍ POHLED NESTAČÍ K INTERPRETACI 9/32
LOKÁLNÍ POHLED NESTAČÍ K INTERPRETACI 9/32
ROZPOZNÁVÁNÍ NA ZÁKLADĚ OBRAZŮ hierarchie reprezentací 10/32 Objekt nebo scéna 2D obraz Digitální obraz od objektù k obrazùm od obrazù k pøíznakùm Oblasti Hrany Mìøítko Orientace Textura Obraz s pøíznaky od pøíznakù k objektùm Objekty porozumìní objektùm
OBRAZ 11/32 Obraz - chápán intuitivně jako obraz na sítnici nebo snímacím čipu TV kamery. Obrazová funkce f(x, y), f(x, y, t) je výsledkem perspektivního zobrazení. Y bod ve 3D scénì P(x,y,z) X y' x' y x Z -x' -y' f obrazová rovina x = x f z, y = y f z.
OBRAZOVÁ FUNKCE = 2D SIGNÁL 12/32 Monochromatický statický obraz f(x, y), kde (x, y) jsou souřadnice v rovině s definičním oborem R = {(x, y), 1 x x m, 1 y y n } ; f je hodnota obrazové funkce ( jasu, optické hustotě u průhledných předloh, vzdálenosti od pozorovatele, teplotě v termovizi, atd.) (Přirozeně) 2D obrazy: Tenký vzorek v optickém mikroskopu, obrázek písmene na listu papíru, otisk prstu, jeden řez z počítačového tomografu, atd.
PŘÍKLAD DIGITÁLNÍHO OBRAZU jeden řez z rentgenového tomografu 13/32
DIGITALIZACE 14/32 Vzorkování & kvantizace hodnoty obrazové funkce (též intenzity). Digitální obraz se obvykle reprezentuje maticí. Pixel = akronym, angl. picture element.
VZORKOVÁNÍ 15/32 Zahrnuje dvě úlohy: 1. Uspořádání vzorkovacích bodů do rastru. (a) (b) 2. Vzdálenost mezi vzorky (Shannonova věta o vzorkování).
PRVNÍ SCANNER OBRAZU 1956 16/32 R. Kirsch, SEAC and the start of image processing at the National Bureau of Standards. In: Annals of the history of computing, IEEE, vol. 20 (1998), p 7-13.)
VZORKOVÁNÍ, PŘÍKLAD 1 17/32 Originál 256 256 128 128
VZORKOVÁNÍ, PŘÍKLAD 2 18/32 Originál 256 256 64 64
VZORKOVÁNÍ, PŘÍKLAD 3 19/32 Originál 256 256 32 32
KVANTOVÁNÍ, PŘÍKLAD 1 20/32 Originál 256 jasových úrovní 64 jasových úrovní
KVANTOVÁNÍ, PŘÍKLAD 2 21/32 Originál 256 jasových úrovní 16 jasových úrovní
KVANTOVÁNÍ, PŘÍKLAD 3 22/32 Originál 256 jasových úrovní 4 jasové úrovně
KVANTOVÁNÍ, PŘÍKLAD 4 (binární obraz) 23/32 Originál 256 jasových úrovní 2 jasové úrovně
VZDÁLENOST 24/32 Funkce D se nazývá vzdáleností, když D(p, q) 0, D(p, q) = D(q, p), speciálně D(p, p) = 0 (identita). (symetrie). D(p, r) D(p, q) + D(q, r), (trojúhelníková nerovnost).
NĚKOLIK DEFINIC VZDÁLENOSTI ve čtvercovém rastru 25/32 Euklidovská vzdálenost D E ((x, y), (h, k)) = (x h) 2 + (y k) 2. Vzdálenost městských bloků (též vzdálenost na Manhattanu) D 4 ((x, y), (h, k)) = x h + y k. Vzdálenost na šachovnici (z pohledu šachového krále) D 8 ((x, y), (h, k)) = max{ x h, y k }. 0 1 2 3 4 0 1 2 D E D 4 D 8
4-OKOLÍ A 8-OKOLÍ 26/32 Množina složená ze samotného pixelu (reprezentativní bod) a jeho sousedů o vzdálenosti 1.
PARADOX PROTÍNAJÍCÍCH SE ÚSEČEK 27/32
BINÁRNÍ OBRAZ & RELACE BÝT SOUVISLÝM 28/32 černá objekty bílá pozadí Poznámka pro zvědavé. Japonský kanji znak znamená blízko odtud. Sousední pixely jsou souvislé. Dva pixely jsou souvislé, když mezi nimi existuje cesta složená ze souvislých pixelů.
OBLAST = SOUVISLÁ MNOŽINA 29/32 Relace být souvislým is reflexivní, symetrická a tranzitivní. Tudíž je ekvivalencí. Relace ekvivalence rozkládá pixely obrazu do tříd ekvivalence = do oblastí.
HRANICE OBLASTI Hranice oblasti je množina pixelů oblasti majících alespoň jednoho souseda nepatřícího do oblasti. Spojitá obrazové funkce nekonečně tenká hranice. V digitálním obraze má hranice konečnou tloušťku. Je nutné rozlišovat vnitřní a vnější hranici. 30/32 Hranice oblasti (border) hrana (edge) hranový bod (edgel).
KONVEXNÍ MNOŽINA, KONVEXNÍ OBAL Konvexní množina = její každé dva body lze spojit úsečkou ležící uvnitř množiny. 31/32 Konvexní obal, jezero, záliv. Region Convex hull Lakes Bays
HISTOGRAM HODNOT JASU 32/32 Histogram hodnot jasu je odhadem hustoty pravděpodobnosti jevu, že pixel bude mít určitou jasovou hodnotu. 3500 3000 2500 2000 1500 1000 500 0 výchozí obraz 0 50 100 150 200 250 histogram hodnot jasu