Elektronická podpora Tvorba prostorového obrazu a zisk 3D informace



Podobné dokumenty
1 Přenos: Kodování, formáty dat

1 3D snímání: Metody a snímače

1 3D zobrazovače. 1.1 Anaglyf: barevná separace obrazu

Elektronická podpora Tvorba prostorového obrazu a zisk 3D informace

Grafika na počítači. Bc. Veronika Tomsová

T V O R B A 3 D V I D E A

Full High-Definition Projektor pro domácí kino PT-AE3000

Zobrazovací zařízení. Základní výstupní zařízení počítače, které slouží k zobrazování textových i grafických informací.

Fungování předmětu. Technologické trendy v AV tvorbě, stereoskopie 2

Obrazovkový monitor. Antonín Daněk. semestrální práce předmětu Elektrotechnika pro informatiky. Téma č. 7: princip, blokově základní obvody

Základní pojmy Zobrazení zrcadlem, Zobrazení čočkou Lidské oko, Optické přístroje

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

Moderní multimediální elektronika (U3V)

Světlo. Podstata světla. Elektromagnetické záření Korpuskulární charakter. Rychlost světla. Vlnová délka. Vlnění, foton. c = ,8 km/h

BPC2E_C09 Model komunikačního systému v Matlabu

Meo S-H: software pro kompletní diagnostiku intenzity a vlnoplochy

Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/

Střední průmyslová škola strojnická Vsetín. Předmět Druh učebního materiálu monitory, jejich rozdělení a vlastnosti

Monitor EU peníze středním školám Didaktický učební materiál

Digitální fotoaparáty

Digitální fotoaparáty

DIGITÁLNÍ FOTOGRAFIE

11 Zobrazování objektů 3D grafiky

zdroj světla). Z metod transformace obrázku uvedeme warping a morfing, které se

M I K R O S K O P I E

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami

Oko. Př. 1: Urči minimální optickou mohutnost lidského oka. Předpoklady: 5207, 5208

Ing. Jakub Ulmann. Zavádění inovativních metod a výukových materiálů do přírodovědných předmětů na Gymnáziu v Krnově

, Brno Připravil: Ing. Jaromír Landa. Postprocessing videa

GEOMETRICKÁ OPTIKA. Znáš pojmy A. 1. Znázorni chod význačných paprsků pro spojku. Čočku popiš a uveď pro ni znaménkovou konvenci.

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Monitory a grafické adaptéry

SBÍRKA ŘEŠENÝCH FYZIKÁLNÍCH ÚLOH

Kde se používá počítačová grafika

3D televize. Chybí 3D obsah, technika nikoli

Úvod do počítačové grafiky

SPŠS Č.Budějovice Obor Geodézie a Katastr nemovitostí 4.ročník MĚŘICKÝ SNÍMEK PRVKY VNITŘNÍ A VNĚJŠÍ ORIENTACE CHYBY SNÍMKU

GIS Geografické informační systémy

Kalibrační proces ve 3D

13 Barvy a úpravy rastrového

SPŠS Č.Budějovice Obor Geodézie a Katastr nemovitostí 4.ročník RELATIVNÍ A ABSOLUTNÍ ORIENTACE AAT ANALYTICKÁ AEROTRIANGULACE

Panoramatická fotografie

Moderní multimediální elektronika (U3V)

Geometrická optika. Vnímání a měření barev. světlo určitého spektrálního složení vyvolá po dopadu na sítnici oka v mozku subjektivní barevný vjem

Digitální fotografie. Mgr. Milana Soukupová Gymnázium Česká Třebová

Optická triangulace pro měření a vizualizaci 3D tvaru objektů

Ing. Jakub Ulmann. Zavádění inovativních metod a výukových materiálů do přírodovědných předmětů na Gymnáziu v Krnově

Obsah. Úvodem 9 Kapitola 1 Jaký počítač a jaký systém? 11. Kapitola 2 Obrázky a fotografie 21

Techniky detekce a určení velikosti souvislých trhlin

Rozdělení přístroje zobrazovací

VYUŽITÍ POČÍTAČOVÉ GRAFIKY

Spektrální charakteristiky

ŠABLONY INOVACE OBSAH UČIVA

Zobrazovací jednotky. 1 z :53. LED technologie.

GIS Geografické informační systémy

(15) Výstupní zařízení

STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU. TV, kabelové modemy

Informatika Počítačová grafika Mgr. Jan Jílek (v.11/12) Počítačová grafika

monitor a grafická karta

Terestrické 3D skenování

Inovace a zkvalitnění výuky směřující k rozvoji odborných kompetencí žáků středních škol

Pokročilé operace s obrazem

Automatické rozpoznávání dopravních značek

Zavádění inovativních metod a výukových materiálů do přírodovědných předmětů na Gymnáziu v Krnově 07_10_Zobrazování optickými soustavami 1

ODRAZ A LOM SVĚTLA. Mgr. Jan Ptáčník - GJVJ - Septima - Fyzika - Optika

Konverze grafických rastrových formátů

Měření průtoku kapaliny s využitím digitální kamery

Počítačová grafika SZŠ A VOŠZ MERHAUTOVA 15, BRNO

Základní nastavení. Petr Novák

Počítačová grafika. Studijní text. Karel Novotný

DUM č. 18 v sadě. 31. Inf-7 Technické vybavení počítačů

III/ 2 Inovace a zkvalitnění výuky prostřednictvím ICT

Škola: Střední škola obchodní, České Budějovice, Husova 9

Inovace a zkvalitnění výuky prostřednictvím ICT Technické vybavení Digitální fotoaparáty Ing. Jakab Barnabáš

Co je počítačová grafika

HILGER s.r.o., Místecká 258, Ostrava-Hrabová, Telefon: (+420) , (+420) ,

Světlo 1) Světlo patří mezi elektromagnetické vlnění (jako rádiový signál, Tv signál) elmg. vlnění = elmg. záření

3D stereoskopická projekce

Kvalita zvuku a obrazu v elektronických komunikacích aneb Ještě chceme HiFi?

Geometrická optika. Optické přístroje a soustavy. převážně jsou založeny na vzájemné interakci světelného pole s látkou nebo s jiným fyzikálním polem

Seminární práce Lidské oko Fyzika

SMYSLOVÁ SOUSTAVA OKO

Optika pro mikroskopii materiálů I

Práce na počítači. Bc. Veronika Tomsová

Úkoly pro úpravu textu

Jasové transformace. Karel Horák. Rozvrh přednášky:

Charakteristiky optického záření

SOUSTAVA SMYSLOVÁ Informace o okolním světě a o vlastním těle dostáváme prostřednictvím smyslových buněk Smyslové buňky tvoří základ čidel Čidla jsou

Souřadnicové prostory

Fyzikální sekce přírodovědecké fakulty Masarykovy univerzity v Brně FYZIKÁLNÍ PRAKTIKUM. Praktikum z pevných látek (F6390)

Modelování blízkého pole soustavy dipólů

Analýza a zpracování digitálního obrazu

2.12 Vstupní zařízení II.

Zpracování astronomických snímků (Část: Objekty sluneční soustavy) Obsah: I. Vliv atmosféry na pozorovaný obraz II. Základy pořizování snímků planet

Pozorování Slunce s vysokým rozlišením. Michal Sobotka Astronomický ústav AV ČR, Ondřejov

SOU Valašské Klobouky. VY_32_INOVACE_3_01 IKT Pc grafika základní pojmy Mgr. Radomír Soural. Zkvalitnění výuky prostřednictvím ICT

Měření závislosti indexu lomu kapalin na vlnové délce

5.3.5 Ohyb světla na překážkách

Zpracování obrazů. Honza Černocký, ÚPGM

Transkript:

Elektronická podpora Tvorba prostorového obrazu a zisk 3D informace 1 Úvod, terminologie... 2 1.1. Základní princip vzniku prostorové efektu a 3D obrazu... 2 1.2. Základní pojmy... 3 2 3D snímání: Metody a snímače... 5 2.1 Aktivní metody... 5 2.1.1 Fourierovská profilometrie... 6 2.1.2 Phase- shifting profilometrie... 6 2.1.3 Zástupce koherentních metod Kinec: Infra zářič a infra kamera... 7 2.2 Pasivní metody... 8 3 Přenos: Kodování, formáty dat... 10 3.1 Metody 3D video kódování... 10 3.1.1 Prostorová komprese... 10 3.1.2 Časový multiplex... 11 3.1.3 2D + metadata... 11 3.2 3D televizní vysílání: Současný standard a předpokládaný vývoj... 13 4 3D zobrazovače... 15 4.1 Anaglyf: barevná separace obrazu... 15 4.2 Aktivní systém časovým multiplexem... 16 4.3 Pasivní systém s polarizačním oddělením... 17 4.4 Autostereoskopický display (3D bez brýlí)... 19 5 Fyziologie, problémy... 21 6 Rekonstrukce obrazu, tvorba hloubkových map, DIBR... 24 6.1 Rekonstrukce prostorového modelu scény... 24 6.2 Hledání korespondujících bodů... 24 6.3 Tvorba hloubkové mapy a depth map rendering... 26 7 3D přístroje na současném trhu... 27 7.1 Kamery a fotoaparáty... 27 7.2 Zobrazovače... 28 7.3 Ostatní 3d zařízení: Mobilní telefony, tablety... 28 8 Přehled dostupného softwaru... 28 9 Vybavení našeho ústavu... 30 10 Hodnocení kvality 3D obrazu... 31 11 Shrnutí... 33 12 Užitečné odkazy... 34

1 Úvod, terminologie Téma 3D videa je aktuálním a perspektivním oborem, který neproniká jen do laboratoří a výzkumných center, ale i do našich domácností. Proto je téma 3D videa zajímavé jak pro techniky, tak pro laickou veřejnost. Z toho důvodu vznikly tyto stránky, jako podpora výuky předmětů vyučovaných na ústavu Radioelektroniky na fakultě FEKT univerzity VUT Brno. Nicméně zde představované téma Tvorba prostorového obrazu a zisk 3D informace mají širší rozsah než pouhé 3D video. 3D film není jediná možná forma využití prostorové informace. Mimo toto čistě komerční využití je možné využít prostorové souřadnice i v dalších oblastech modelování objektů (muzejní a jiné exponáty), strojírenství, stavebnictví, lékařství, počítačové vidění (robotika), kriminalistika. Současně také samotné 3D video vytvářející 3D efekt na speciálním zobrazovači není jediným možným vyjádřením prostorové informace, kterou lze vyjádřit také v podobě hloubkové mapy či modelu scény. Z toho důvodu budou v textu zmíněny i tyto formy reprezentace prostorové informace a jejího zisku. Nicméně hlavní důraz je kladen na 3D video (obraz) a s ním související procesy a zařízení. V následující části první kapitoly bude následovat vysvětlení některých základních pojmů, popis vzniku prostorového efektu u 3D videa (obrazu) a základní blokové schéma. V dalších kapitolách se pak postupně seznámíme s metodami 3D snímání, způsoby zpracování a přenosu 3D videa, metodami 3D zobrazování, problémy 3D zobrazování a představíme si dostupné 3D přístroje a vybavení laboratoře ústavu UREL. 1.1. Základní princip vzniku prostorové efektu a 3D obrazu Základní princip vzniku prostorového efektu plně koresponduje s funkcí lidského oka a je postaven na binokulárních vodítkách (více o fyziologii lidského oka a vnímání prostoru v kapitole 5). Základem je skutečnost, že levé a pravé oko vidí odlišný obraz a 3D efekt vzniká až v mozku. Obrazy pro levé a pravé oko jsou vzájemně posunuté v horizontálním směru. Toto posunutí je možné vyjádřit pomocí horizontální paralaxy. Horizontální paralaxa nese informaci o posunutí jednotlivých objektů v obraze, přičemž různě vzdálené objekty mají různou horizontální paralaxu. Čím je objekt vzdálenější, tím je jeho paralaxa menší. Pro vznik prostorového efektu je tedy nutné mít k dispozici dva různé obrazy stejné scény (pro levé a pravé oko) a nějakým způsobem zaručit jejich diskriminaci, tak aby každý obraz viděl člověk jen jedním okem. Tím jsme se dostáli k základnímu řetězci 3D zpracování (viz Obr. 1.1). V první etapě je tedy potřeba nějak získat snímky pro levé a pravé oko (Zisk 3D obsahu), jak, to si podrobněji probereme v kapitole 3D snímání (kapitola 2), v dalším kroku je potřeba nějakým způsobem informaci zpracovat, zakódovat a přenést (Přenos 3D obsahu) a na závěr 3D informaci zobrazit na 3D zobrazovači (Zobrazení 3D informace). Různé technologie zobrazovačů budou popsány v kapitole 4.

Obr 1.1 Základní řetězec 3D systému 1.2. Základní pojmy Tato kapitola je věnována vysvětlení některých důležitých pojmů a aspektů. Většina z následujících pojmů je zobrazena na Obr.1.2. Korespondující body Korespondující body nazýváme dva obrazové body v obou obrazech stereopáru, které reprezentují tentýž bod v prostoru. Stereo snímky Klasické stereo snímky jsou snímky pořízené dvěma kamerami, které mají rovnoběžné osy snímání a jejichž pozice v prostoru se liší pouze v horizontálním směru o vzdálenost nazývanou stereobáze. Takové dva snímky potom nazýváme levým respektive pravým snímkem. Pozice korespondujících bodů v těchto stereo snímcích se liší pouze v horizontálním směru o tzv. horizontální paralaxu. Stereo snímky jsou potřebné jako vstup do 3D televizorů. Rektifikace V případě, že nemáme k dispozici klasické stereo snímky, lze snímky pořízené kamerami v obecné poloze převést na stereo snímky pomocí rektifikace. Rektifikace je transformace snímků, která je určena pomocí nalezení několika korespondujících bodů. Horizontální paralaxa Horizontální paralaxa p x reprezentuje posunutí daného obrazového bodu mezi dvěma pohledy (stereo snímky) na danou scénu. To znamená, že je to vlastně vzdálenost korespondujících bodů. Bližší předměty změní svoji pozici více než vzdálenější a mají tedy větší paralaxu. Horizontální paralaxa je binokulární vodítko, které používá mozek pro vyhodnocení vzdáleností. Hloubková mapa Hloubková mapa je šedotónový obraz, který reprezentuje hloubkové uspořádání dané scény. Zpravidla se jedná pouze o relativní vyjádření hloubky daného obrazového bodu, který koresponduje s určitým bodem v prostoru. Většinou je používána konvence, že čím větší má obrazový bod jas tím menší má vzdálenost od pozorovatele (snímacího zařízení). Což znamená, že body v popředí jsou světlé a body v pozadí tmavé. Tato skutečnost je daná tím, že hloubková mapa je odvozena od horizontální paralaxy daného bodu (čím větší tím bližší). I když ne vždy je hloubková mapa získána opravdu pomocí nalezení horizontálních paralax, toto platí pouze pokud se bavíme o pasivní metodě stereo snímání. U aktivních metod získáváme hloubkovou mapu jinými způsoby. Depth Map Base Rendering Jedná se o proces operace vytvoření sekundárního virtuálního snímku na základě znalosti základního 2D obrazu a jemu odpovídající hloubkové mapy. Cílem metody je

generování obrazu posunutého vůči základnímu v ose x, v závislosti na vzdálenost scény určenou z hloubkové mapy. Model scény Model scény je vedle hloubkové mapy druhé možné vyjádření prostorové informace. Jedná se o klasický prostorový model, kdy jsou jednotlivé prostorové body popsány nejen hloubkou, ale i zbývajícími dvěma souřadnicemi v prostoru. Y Z B [X,Y,Z] A [X,Y,Z] x x X y y B 1 [x 1, y 1 ] B 2 [x 2, y 2 ] A 1 [x 1, y 1 ] A 2 [x 2, y 2 ] Obr 1.2 Grafické vyjádření některých základních pojmů

2 3D snímání: Metody a snímače Nejprve je potřeba definovat, že se v rámci tohoto předmětu budeme zabývat pouze bezkontaktními metodami zisku hloubkové informace. Metody pro 3D snímání lze dělit v podstatě do dvou základních skupin a to na aktivní a pasivní metody. Jako aktivním označujeme takové metody, kdy je do scény přidána nějaká dodatečná informace a zpravidla je kromě samotného snímače (fotoaparátu/ kamery) použité další zařízení. Naopak pasivní metody jsou takové, ve kterých je jediným zařízením stereosnímač (fotoaparát/kamera). V současné době je aktuální otázka použití kombinace aktivní a pasivní metody. Současně s dělením na aktivní a pasivní metody zisku 3D informace můžeme metody dělit na metody vhodné pro 3D TV a nevhodné pro 3D TV. Jak bylo vysvětleno v první kapitole pro zobrazení 3D videa či obrázku na 3D televizoru potřebujeme mít k dispozici klasické stereo snímky, které jsou poté v zobrazovači navzájem diskriminovány pomocí jednoho ze systému popsaných v kapitole 4. Jedinou metodou, jejímž přímým výstupem jsou stereo snímky je pasivní metoda s normálním postavením kamer. Výstupem všech ostatních metod je ovšem hloubková mapa pomocí, které lze druhý snímek dopočítat. Z toho vyplívá, že zejména aktivní metody snímání se překrývají s pojmem metody pro tvorbu hloubkové mapy. 2.1 Aktivní metody Základním znakem je přidání dodatečné informace do scény. Informace může být přidána pomocí laseru, infra zářiče či projektoru. O těchto metodách lze mluvit jako o optických metodách měření vzdálenosti. Optické měření jsou takové, které se provádí určitým světelným paprskem. Optické metody můžeme dále dělit na koherentní a nekoherentní. Obecným principem koherentních metod je interference. Naopak nekoherentní metody jsou založeny na triangulaci [1], vždy se v měřicí soustavě vyskytuje projektor, měřený povrch a detektor. Výhodou koherentních metod je možnost rozlišit výškové rozdíly v řádu mikrometrů i méně. Principiálním problémem koherentních metod je složitost realizace měření větší scény. Tento problém je však již v dnešní době řešitelný a praktický zástupcem je například herní systém KINECT (kapitola 2.1.1). Následně se budeme věnovat metodám nekoherentním, které jsou většinou založeny na promítání nějaké optické struktury na měřený předmět a následném vyhodnocení deformací této struktury způsobené profilem předmětu vedoucí ke zjištění výškové distribuce. Měřící proces spočívá v postupném promítání vzoru na předmět (resp. Referenční rovinu) a následném zachycení obrazu kamerou. Proužkový vzor je tvořen horizontálně se opakujícím se sinusovým signálem. Fáze tohoto signálu se při dopadu na objekt mění v závislosti na tom, na tom v jaké vzdálenosti se objekt nachází. Následné rozpoznávání fáze lze obecně rozdělit na dva způsoby. Jeden ze způsobů bere při určování fáze v bodě do úvahy i okolní body obrazu předmětu. Ten druhý využívá pouze hodnotu intenzity v daném bodě, ale je jasné, že pouze z této jedné hodnoty fázi určit nelze. Při tomto způsobu je třeba více obrazů předmětu, kdy je mezi jednotlivými snímky posunuta promítající se periodická optická struktura o přesně definovanou hodnotu. Z jednotlivých intenzit v tomto bodě již fázi určit lze. Prvního způsobu pro zjištění fáze využívá tzv. Fourierovská profilometrie zatímco druhého Phase-shifting profilometrie. Tyto dva zástupce nekoherentní optických metod si v následujících kapitolách popíšeme podrobněji Výstupem pasivních metod je zpravidla hloubková mapa nebo model 3D scény a není k dispozici dvojce snímků, druhý snímek může být dopočítán pomoci metody Depth Map Rendering. Z tohoto důvodu nebývají aktivní metody používány při tvorbě 3D videa. Jako

metodu na pomezí mezi aktivními a pasivními metodami, lze pokládat metodu kdy je do scény snímané stereo snímačem přidána informace pomocí terčů, které mohou sloužit k nalezení přesných korespondencí mezi obrazy. 2.1.1 Fourierovská profilometrie Jak již název napovídá, metoda využívá pro zjištění fáze Fourierovy transformace (konkrétně její diskrétní podoby). Jednotlivé řádky jsou podrobeny tzv. rychlé Fourierově transformaci (FFT). Poté je ve Fourierově spektru provedena filtrace tak, aby byla zachována pouze první harmonická složka. Následně je provedena zpětná FFT. I přesto, že na vstupu byly čistě reálné hodnoty, zpětná FFT nám již obecně vrací řádek komplexních čísel. Fáze v daném bodě pak odpovídá argumentu komplexního čísla reprezentujícího daný bod. Tento způsob má však řadu nevýhod. Získaná data bývají často zatíženy nezanedbatelným šumem, který způsobí, že spektrální oblast odpovídající první harmonické jé téměř neidentifikovatelná. Nespornou výhodou této metody je ovšem možnost provádění měření v reálném čase. Pokud bude snímací kamera i promítací projektor nehybný, je možno zachytit referenční rovinu jenom jednou a poté již snímat pouze měnící se předmět. Při výkonnosti dnešních počítačů, kdy vyhodnocení obrazů scény trvá zlomky sekundy, se již dá mluvit o měření v reálném čase. 2.1.2 Phase- shifting profilometrie Obecně se zachytí N obrazů předmětu pro N >3. Mezi jednotlivými obrazy je sinusová mřížka vždy posunuta o 1/N vlnové délky mřížky. Odvození vzorce pro výpočet fáze obecně pro N obrazů je velmi složitý. Pokud ale volíme specielně N = 4, odvození se značně zjednoduší a také vzorec pro výpočet fáze nabývá jednoduchého tvaru. Proto je ve většině případů voleno právě N = 4. I odvození v dalším odstavci je kvůli jednoduchosti ukázáno pro N =4 obrazů. Postupně je tedy na referenční plochu a na scénu projektorem promítány čtyři různé obrazy s různou počáteční fází signálu. Výstupem snímání je tedy osm snímků, 4 s promítáním na referenční osu a 4 na postavenou scénu. Následně jsou obrazy zpracovány na PC kde je využito rovnice: I ( ) ( ) ( ) ( ) ( ) ( ) 1 x, y I 2 x, y ( ) ( ) R1 x, y R2 x, y φ = m x, y φr x, y arctan arctan I x, y I x, y R ( x, y) R ( x, y), 3 4 3 4 kde I i reprezentují intenzitní obraz promítání vzoru na předmět (scénu) a R i reprezentují intenzitní obraz promítání na referenční plochu. Jelikož takový je obor hodnot funkce arcustangens. Matice fáze se skládá z několika oblastí, kde v každé jednotlivé oblasti je průběh fáze spojitý. Tyto oblasti jsou však od sebe odděleny nespojitostmi, kdy při přechodu s jedné oblasti do druhé se fáze mění skokem o hodnotu 2π. Tomuto jevu se obecně říká zabalování fáze nebo wrapping. Naproti tomu proces, který tyto nespojitosti odstraňuje, se nazývá rozbalování fáze neboli unwrapping. Unwrapping, neboli rozbalování fáze, je proces sloužící k odstranění nespojitostí vznikajících při výpočtu fáze z intenzitních obrazů. Na tento algoritmus jsou kladeny vysoké nároky, jelikož nedokonalé rozbalování fáze by mohlo být zdrojem sekundárních chyb vznikajících při zpracování měření. Příčinou těchto chyb bývají např. stíny v intenzitních obrazech. Pro tyto body je totiž vypočtená fáze čistě náhodná a obecně neodpovídá topografii předmětu.

2.1.3 Zástupce koherentních metod Kinec: Infra zářič a infra kamera Firma PrimeSence jejíž technologie tvoří hardwarové řešení senzoru Kinect používá kombinaci dvou aktivních metod. Hloubková mapa je zkonstruována na základě snímání promítaného pseudonáhodného vzoru složeného z primitiv (speckle pattern). Statický pseudonáhodný vzor je promítán v blízkém infračerveném spektru a je snímán CMOS IR kamerou. Pomocí triangulace jednotlivých primitiv vzoru (při známém geometrickém uspořádání masky promítaných bodů, IR projektoru a kamery) lze určit hloubku snímaného bodu. Zde se tedy principiálně metoda neliší od profilometrie popsané v předchozí kapitole. Rozdíl lze však nalézt ve způsobu identifikace a rozlišení bodů. V případě klasické phaseshifting profilometrie je v časovém multiplexu promítána na snímaný objekt sada fázově posunutých vzorů a tedy celá plocha obrazu (kromě případných stínů a okluzí) je snímána kamerou. Tato technika dává po vyhodnocení model spojitého zakřiveného povrchu. Naproti tomu u Kinectu je triangulován každé primitivum struktury zvlášť. V případě klasické profilometrie je každý posunutý bod identifikován specifickou sekvencí fází promítaného vzoru. U Kinectu je tato informace poskytována tvarem snímaných primitiv. Pro promítání jsou totiž záměrně použity astigmatické čočky (Obr. 1 b). Ty jsou tvořeny soustavou dvou cylindrických čoček s různými ohniskovými vzdálenostmi. Promítaný vzor je tedy v závislosti na vzdálenosti od projektoru definovaným způsobem rozostřen a to variantně ve vertikální a horizontální rovině. Je tedy známa závislost impulzní odezvy optického systému na vzdálenosti: PSF = f (z). Z této je získána přibližná hodnota vzdálenosti a tedy nepřímo i identifikace daného primitiva pro klasickou triangulaci. Názorně je metoda demonstrována na Obr.2. V závislosti na hloubce z se liší tvar projekce daného primitiva (46, 48). a) b) Obr 2.1 Kinect: a) Celkový pohled na zařízení b) Průřez optického svazku astigmatické soustavy čoček [4]

Obr 2.2Demonstrace funkce hloubkové kamery Kinect. [25] Technické parametry Kinectu udávané výrobcem se vztahují na samotný hardware a lze dokázat jejich prokazatelné zlepšení použitím pokročilých metod zpracování obrazového signálu. Zde je uvádíme tedy pouze orientačně podle výrobce: Nominální rozsah hloubek: 0,8 3,5 m Přesnost určení hloubky ve vzdálenosti 2 m: 1 cm Prostorové rozlišení (zrno) hloubkové mapy při vzdálenosti 2 m: 2 mm 2.2 Pasivní metody Základním znakem pasivních metod je zisk dvou snímků s různou pozicí kamer. Pasivní metody lze dále rozdělit, podle vzájemné pozice kamer při snímání. V prvním případě se jedná o obecný vztah kamer, kdy mohou být kamery vůči sobě posunuty ve všech třech směrech a mít různě natočenou osu snímání. Ukázka vzhledu získaných snímků je na Obr. 2.1. Při obecné poloze kamer není získán přímo levý a pravý snímek, které jsou potřeba k využití pro 3D video. Tento postup je zpravidla používán spíše při vytváření modelu scény, než pro 3D video. Nicméně i při obecném postavení kamer lze získat hloubkovou mapu a s její pomocí pak využitím metody DIBR vytvořit dva stereo snímky pro 3D video. Postup výpočtu modelu scény a hloubkové mapy budou popsány podrobněji v kapitole 6. V druhém případě se jedná o tzv. normální postavení kamer, kdy se pozice objektivů liší pouze o určitou horizontální vzdálenost a jejich optické osy jsou rovnoběžné. Vzdálenost mezi objektivy je označována jako stereobáze. V tomto případě jsou výstupem snímání přímo stereo snímky použitelné pro zobrazení 3D videa a pozice stejných objektů scény se v obrazech liší pouze o horizontální paralaxu (viz obr. 1.2). V poslední době je stále běžnější situace, kdy jsou dva objektivy sloučeny do jedné kamery či fotoaparátu (viz. Kapitola 7).

Obr 2.3 Ukázka různého vzájemného postavení kamer

3 Přenos: Kodování, formáty dat Idea přenosového řetězce je naznačena na obrázku (viz Obr. 1). Jako zdroj 3D obsahu je v dnes technicky nejvyspělejším případě možno použít přímo počítačem syntetizovaný obraz. Další možností je pak signál ze stereoskopické kamery. Při použití této je jednak nutná odlišná práce kamerového technika vůči současnému 2D variantě, zejména přesně souhlasné nastavení parametrů obou kamer (matching). Tyto parametry jsou např. ohnisková vzdálenost, ostření, clona a další. Při režijním zpracování je pak nutno vyvarovat se například střihu z kladné do záporné paralaxy. Třetím zdrojem obsahu je převod 2D záznamu na 3D. V této oblasti probíhá v současnosti z pochopitelné motivace použití stávajícího obsahu vývoj, a to ve dvou základních směrech. Jednak se jedná o systémy, kde je hloubková informace manuálně zadávána pro referenční snímky a dále je pak extrapolována do dalších snímků. Dále pak jde o více či méně automatizované systémy pro vytváření hloubkové mapy na základě monokulárních vodítek hloubky, jako jsou analýza zaostření (depth from focus), geometrická perspektiva, pohybová paralaxa, texturní analýza a další. Obr 3.1Schéma přenosového řetězce 3D televize. 3.1 Metody 3D video kódování Prostorová komprese Časový multiplex 2D + metadata o 2D + delta o 2D + depth o 2D + depth +metadata 3.1.1 Prostorová komprese Prostorová komprese, spočívá v podvzorkování obrazu pro levé a pravé oko a následné prostorové přeskládání jednotlivých pixelů obrazu. V normě [22] jsou definovány dva způsoby tohoto uspořádání, nazývané též jako Frame Compatible (FC). Side-by-Side a Topand-Bottom. Pro jiné systémy byly zkoušeny i další způsoby uspořádání (Obr. 3.2). Podrobněji popisuje způsob skládání podvzorkovaných signálů obrázek 3. Tento,

nejjednodušší způsob je v současnosti také nejčastěji užíván. Transformace se provádí ještě před komprimací metodou MPEG-4 AVC. Na přijímací straně dojde inverzně nejprve k dekompresi a poté buď v set top boxu, nebo až v zobrazovači k rozdělení a interpolaci. Obr 3.2 Prostorová komprese videa: Side-by-side, Top-and-Bottom, Row-by-Row a Chessboard. Obr 3.3 Popis skládání podvzorkovaných video framů do Side-by-side [22]. Popsaný a normou definovaný způsob má výhodu v použití současné infrastruktury (zcela neměnný systém pro konečné odbavení pořadu, komprimaci, modulaci, přenos až po set top box diváka) a neklade tedy na její provozovatele ani na uživatele další náklady vyjma nákupu 3D zobrazovače. Nevýhody jsou rovněž na první pohled zřejmé. Hlavní nevýhody jsou nemožnost přijmu jednoho pohledu (2D) stávající technologií, která prezentuje obraz jako podvzorkovanou dvojici obrazů s nemožností použití pouze jednoho z obrazů. Je-li tedy požadován příjem 2D obrazu stávajícími zařízeními, je při tomto systému vysílání nutno šířit paralelní datový tok s 2D mutací obsahu, což nelze považovat za efektivní využití přenosových prostředků. 3.1.2 Časový multiplex Problém popsaný v předchozím odstavci by mohl vyřešit časový multiplex. V prvních fázích vývoje bylo uvažováno o podobné prezentaci 3D obsahu jako bylo popsáno v minulém odstavci (FC), ovšem při postupném časovém střídání levého a pravého snímku. Tento způsob se však neujal. Nepřinesl by totiž výhodu zpětné kompatibility z důvodu nutnosti použití neprokládaného formátu a problémům s nekompatibilitou obrazového kodéru. Alternativou se kterou se počítá v další fázi rozvoje 3D vysílání je možnost použití dvou nezávislých obrazových toků, což zabezpečí výše zmíněnou kompatibilitu s 2D HD přijímačem. Pro 3D příjem však bude v takovém případě třeba nejen 3D zobrazovač, ale i nový set top box. 3.1.3 2D + metadata Mezi další a v současnosti využívané způsoby kódování 3D obsahu patří systém 2D+delta. Jak již název napovídá, využívá systém vysoké míry korelace mezi datovými toky pro levé a

pravé oko. Kdy je kódován pouze rozdíl mezi těmito snímky. Praktickou realizací takovéhoto kompresního standardu je například Multiview Video Coding (MVC). Tento kompresní algoritmus je zpětně kompatibilní s MPEG-4 AVC, což jej předurčuje k budoucímu nasazení pro účely 3D vysílání. V současnosti se používá například pro distribuci 3D obsahu na Bluray discích. Princip jeho funkce popisuje schematicky obrázek 4. Obr 3.4 Schéma kompresních algoritmů pro multiview video. [25] a) Nezávislé pohledy komprimované MPEG-4 AVC b) Interpolace použitím informace I snímků referenční sekvence c) Kompletní interpolace

Je vhodné poznamenat, že při tomto způsobu zpracování informace, se počítá s více diskrétními pohledy (v tomto případě s osmi S0 S7) a tedy i z možností budoucího použití vícepohledového displeje s horizontálním dělením pohledů. Obrázek 3.4a) demonstruje situaci s paralelně komprimovanými datovými toky popsanou v předchozí kapitole. T0 T7 je jedna Group of Picture (GOP) známá z MPEG-4 AVC. Obrázky 3.4 b,c) pak popisují stejných 7 pohledů vzájemně zakódovaných ve dvou úrovních časoprostorového kódování. Je zřejmé, že kompletní interpolace c), která se běžně používá například pro zmíněné Blue-ray disky nabízí vyšší míru komprese (snížení datového toku až o 60% proti případu a)) za cenu mírného zvýšení výpočetní náročnosti. I v tomto případě však zůstává možná zpětná kompatibilita s dekodérem MPEG-4 AVC. Popsaný systém 2D+delta však stále trpí mnohými necnostmi, jež brání jeho budoucímu univerzálnímu použití. Mezi tyto nevýhody patří například Diskrétní počet pohledů bez možnosti jednoduchého spojitého renderingu. Pohybová paralaxa je běžná pouze v horizontálním směru. Dále se jedná o problém adaptivní paralaxy. Tedy nelinearity snižování vnímané hloubky při poklesu úhlopříčky stínítka. Při tomto způsobu také není možné použít Depth Range Control (DRC), tedy uživatelsky nastavitelnou hloubku 3D vjemu. Zmíněné nevýhody by odstranily formáty 2D+depth, kde je spolu se klasickým 2D videem přenášena i hloubková mapa umožňující na straně dekodéru v určitém rozsahu spojitý rendering pohledů ve vertikálním i horizontálním směru, přizpůsobení konkrétnímu zobrazovači, DRC a další. Více o tomto způsobu kódování v kapitole 7. 3.2 3D televizní vysílání: Současný standard a předpokládaný vývoj 3D televizní vysílání je v současnosti rozšířené zejména pomocí kabelové a satelitní platformy. [24] EmiTel sice testoval na svém multiplexu ve Varšavě i pozemní šíření. Nikdy zde však nedošlo k pravidelnému vysílání. Současné vysílání se řídí dříve již zmíněnou normou ETSI. [22] tato definuje jednak použité FC uspořádání obrazu a dále pak signalizaci o přítomnosti a parametrech 3D vysílání a to jednak ve vlastních PES paketech, stejně jako v servisních tabulkách transportního toku MPEG2-TS. Dále je zde popsáno, kde se v transportním toku nachází informace o vysílání 3D obsahu, minimální a maximální disparitě obrazu (video depth range descriptor), dále jsou zde rovněž popsány scénáře přepínání mezi vysíláním 2D-HD a 3D TV obsahem. Norma definuje dvě formy stereoskopického vysílání. Jsou to jednak mód příležitostného vysílání 3D obsahu, a dále pak mód dominantního 3D vysílání 24/7. Obecně lze pro oba módy specifikovat, že informace o 3D videu je vždy určitým způsobem přenášena již v rámci PES paketů videa jako SEI (H.264/AVC Supplemental Enhancement Information). O přítomnosti této informace v transportním toku videa informuje AVC video descriptor v tabulce PMT (Program Map Table), a to nastavením indikátoru Frame_Packing_SEI_not_present_flag [22], [23]. Kromě toho je informace o vysílání 3D obsahu přítomna v tabulce SDT (Service Description Table) a nepravidelně vysílané tabulce EIT (Event Informatik Table). Tabulka SDT obsahuje 2 pro další měření relevantní decriptory. Je jím Service type (Service descricptor) a Component type (Component descriptor). Service type nabývá v režimu pravidelného 3D vysílání hodnot 0x1C, 0x1D nebo 0x1E, v případě příležitostného pak hodnot používaných též v klasickém 2D-HD vysílání, tedy 0x19, 0x1A, nebo 0x1B. Component type udává v případě 3D vysílání typ stranové komprese. Pro Side-by-side má hodnotu 0x80, pro Top-and-bottom pak 0x81.

European Broadcasting Union (EBU) rozdělila v roce 2010 (dosti optimisticky) předpokládaný vývoj 3D televize do 4 generací. První generaci popisuje současná norma [22] s výhledem systému kompatibilního s 2D HDTV přijímačem, tedy s oddělenými obrazovými toky pro levé a pravé oko (Popisováno jako fáze 1 a 3 první generace). Druhá generace by měla umožnit horizontální pohybovou paralaxu (nasazení multiview stereoskopických displejů). Třetí generace předpokládá více pohledů i ve vertikálním směru a čtvrtá využití hologramu, neboli přenos optického pole v dané oblasti. Autor je nucen poukázat na fakt, že dlouhodobé extrapolace vývoje jakéhokoli technického systému nemusí být vždy naplněny, jak se začíná projevovat i na popsaném příkladu.

4 3D zobrazovače Pro zobrazení 3D videa a obrazu existuje několik různých technologií, které můžeme dělit do dvou základních skupin. První skupinou jsou tzv. stereoskopické zobrazovače. Základním principem těchto technologii je oddělení obrazu pro levé a pravé oko. Druhou skupinu tvoří technologie volumetrické neboli objemové, jejichž cílem je vytvoření 3D obrazu v prostoru. V následujících kapitolách si představíme systémy patřící do obou skupin. Obrázky a obsah této kapitoly byly čerpány ze zdroje [1]. 4.1 Anaglyf: barevná separace obrazu Anaglyf patří mezi nejjednodušší metody zobrazení stereofotografií a patří mezi stereoskopické metody. Největší výhoda tohoto systému je, že je použitelný na všech existujících zobrazovacích zařízeních, tedy na všech typech monitorů, projektorů, a samozřejmě i při tisku. Jedinou pomůckou, která je potřeba k pozorování prostorového efekt jsou anaglyfické brýle (viz Obr. 3.1), jejichž cena se pohybuje od několika desítek korun. Jeho jednoduchost je ale vykoupena několika problémy, kvůli kterým není příliš používaný. Jedním ze zásadních problémů je ztráta barevné informace či nereálnost barev. Základním principem této metody je barevné oddělení levého a pravého obrazu. Anaglyf je tvořen barvami, které jsou vzájemně doplňkové (jejich substraktivním smícháním vznikne černá, aditivním bílá). Takových kombinací barev existuje mnoho, ale ne všechny jsou vhodné. Dnes se nejčastěji používá kombinace červená - azurová (red - cyan), přičemž červený filtr bývá na levém oku, azurový na pravém. V minulosti se používaly také kombinace červená - zelená a červená - modrá, které ale nejsou přesně doplňkové. Anaglyf vznikne tak, že se obrázek pro levé oko (červený filtr) převede do azurovo bílé škály a obrázek pro pravé oko (azurový filtr) do červenobílé škály. Tyto dva obrázky se pak zobrazí přes sebe. V místech, kde se červená a azurová barva setká, vznikne černá barva, nebo odpovídající odstín šedé. Pozorovatel pak vidí každým okem černobílý obraz tvořený doplňkovou barvou k filtru brýlí a ze dvou dílčích obrazů si v mozku vytvoří prostorový vjem. Praktické vytvoření anaglyfu je velmi snadné. První možností je použití specializovaného programu, které jsou často volně šiřitelné. Druhou možností je naprogramování vlastního algoritmu ať již v jazyku C++, C#, nebo v prostředí MATLAB. Algoritmus se v podstatě skládá z pouhého násobení jednotlivých pixelů levého a pravého obrazu vhodnými maticemi P1 a P2 o rozměru 3x3, dle rovnice. output = P1 Cl+ P2 Cr, kde Cl a Cr jsou vektory o rozměru 3x1, které obsahují barevné složky levého a pravého obrazu a output je opět vektor o rozměru 3x1 obsahující barevné složky výsledného anaglyfu. Matice P1 a P2, mohou v nejjednodušším případě vypadat následovně P 1= 1 0 0 0 0 0 P 2= 0 0 0 0 0 1 Což znamená, že dojde v prvním případě k zachování pouze červené složky a v druhém případě kombinace zelené a modré složky, tedy azurové barvy. M-file soubory vytvořené v prostředí MATLAB jsou ke stažení na stránkách předmětu. Kromě na začátku zmíněného problému s barevným podáním je dalším výrazným významným neduhem anaglyfů vznik duchů. Vznikají zejména na kontrastních hranách, kde se střídají tmavé a světlé plochy. Mohou vznikat ze dvou důvodů. Prvním a nejčastějším 0 0 0 1 0 0

důvodem je běžně používaný grafický formát JPEG, který i při malé kompresi ukládá obrazové informace po čtvercích. V jinak dobrém anaglyfu tím mohou vzniknout neodstranitelné duchy. Proto je vhodné pro anaglyfy používat nekomprimované formáty, jako PNG nebo TIFF. Druhým důvodem vzniku duchů mohou být nepřesné barvy vytvořeného anaglyfu. To může záviset na kvalitě i kalibraci monitoru i tiskárny. Lze se setkat i s brýlemi s nepřesnými barvami filtrů. Částečným řešením na odstranění duchů je tzv. plovoucí okno (floating window). Princip spočívá v tom, že se anaglyf sesadí tak, aby se hlavní motiv, nebo nejproblémovější část obrazu přesně překrývaly. Tím nevzniknou hrany, kde by se mohly duchové objevit. Většinou tím dojde k porušení stereoskopického okna. To pak lze napravit rámečkem plovoucím v prostoru před zobrazovací plochou. 4.2 Aktivní systém časovým multiplexem Aktivní technologie byla doposud hlavním směrem vývoje 3D televizorů a ve svém principu ji využívá i NVIDIA pro své aktivní brýle pro použití s PC. Aktivní se nazývá proto, že brýle jsou ve skutečnosti elektronickým zařízením, obsahují baterii a aktivně se podílejí na separaci stereopáru. V praxi vše funguje tak, že TV zpracovává dva obrazy. Existují dvě různé varianty: v jednom případě je každý z obrazů ve full HD rozlišení pro každé oko, v druhém případě se používá formát half side by side, který je často označovaný jako half SBS, ve kterém jsou vedle sebe dva obrazy v jediném HD filmovém políčku a tudíž je každý obraz zúžený na poloviční rozlišení tak, jak je vidět na následujícím obrázku Obr 4.1Základní princip aktivního systému: časová separace [1]. Dalším v současnosti používaným formátem pro použitelné přehrávání z USB pomocí interního přehrávače v TV je formát Top - Bottom označovaný jako TAB. V principu se jedná o obdobu formátu SBS, jen oba obrázky jsou umístěny v jediném políčku nad sebou. To znamená, že tentokrát je zde pro každý obraz jen polovina řádků a opět se tedy nejedná o plnohodnotné HD. TV následně tyto dva rozdílné obrazy oddělí a střídavě je zobrazuje. Jelikož jsou tedy na obrazovce současně střídavě promítány dva rozdílné obrazy, musí TV splňovat rovněž možnost zobrazovat obraz dvounásobnou frekvencí než běžné TV. Současně s 3D přehráváním je vysílán synchronizační signál pro brýle, které aktivně střídavě zakrývají levé a pravé oko tak, aby každé vidělo jen svou polovinu obrázků: Hlavní předností je, že aktivní technologie je schopna zajistit plnohodnotný HD obraz. Nevýhod je pak více. Především je to nepříjemné blikání brýlí, které je na denním světle dobře vnímatelné a proto je vhodné 3D obsah sledovat alespoň při částečném zatemnění, nebo zajistit, aby v zorném poli diváka nebylo okno s denním světlem. Rušivě mohou působit i některé druhy umělého osvětlení. Zároveň ze střídavého zakrývání očí může mít určité procento diváků nepříjemné pocity spojené s nevolností, bolestmi hlavy apod. Systém se nedoporučuje se epileptikům. Samotné brýle pak musí obsahovat nutnou elektroniku a baterii, což se nepříjemně projeví na jejich hmotnosti. Opomenout nemůžeme i nutnost brýle nabíjet, nebo čas od času v nich vyměnit baterii. Poslední, co hraje proti této technologii, je samotná cena brýlí. Nicméně poslední dvě nevýhody jsou odstranitelné. Jednak současné brýle jsou dle mého názoru zbytečně robustní, jelikož ovládací elektronika a jedna knoflíková baterie, která vydrží napájet brýle při občasném sledování 3D obsahu dlouhé měsíce, činí jen zlomek hmotnosti.

4.3 Pasivní systém s polarizačním oddělením Jelikož pasivní technologie musí být zpětně kompatibilní s již zaběhlými formáty 3D videa, je logické, že pro pasivní 3D TV je dodáván stejný obrazový materiál jako pro technologii aktivní. Rozdíl je tedy jen v jeho výsledném zobrazení. Pasivní technologie využívá jednoduchého efektu polarizačních filtrů. Pro pochopení si musíme o polarizaci světla říci něco více. Běžné světlo, které vzniká spontánní emisí, není polarizované. Velice zjednodušeně si každý světelný paprsek můžeme představit jako vlnu. Ovšem vektor intenzity elektrického pole každého paprsku světla kmitá náhodným směrem. Některé kmitají nahoru a dolů (vertikálně), jiné doleva a doprava (horizontálně), jiné náhodně šikmo. Polarizační filtr je optický prvek, který dokáže odfiltrovat jen paprsky kmitající určitým směrem. Obr 4.2 Princip systému s oddělením pomocí polarizace [21] Pokud tedy světlu do cesty umístíme dva filtry, záleží na jejich vzájemném pootočení, jestli světlo projde nebo neprojde. Pokud bude jeden filtr otočen vertikálně a druhý horizontálně, stane se to, že první filtr nám propustí jen vertikálně polarizované paprsky. Ty však nedokáží projít horizontálně otočeným filtrem. Pokud ovšem druhý filtr otočíme tak, aby jeho polarizace souhlasila s filtrem prvním, světlo propustí. Tohoto jevu se již dnes využívá v některých 3D kinech, kdy jsou na stříbrné plátno promítány dva obrazy, ovšem každý s jinou polarizací. Divák si pak nasadí brýle, ve kterých jsou pro každé oko jinak pootočené polarizační filtry. Bez brýlí by tedy divák viděl dva prolínající se drobně odlišné obrazy, které celkově budou působit jako jeden rozmazaný- rozdvojený obraz. Brýle však zajistí že, každé oko uvidí jen obraz polarizovaný stejně jako je filtr v brýlích před okem.

Obr 4.3 Princip pasivní stereoskopické projekce [1] V případě 3D TV ovšem nelze jednoduše zajistit, aby se vhodně překrývaly dva rozdílně polarizované obrazy. Odlišně polarizovány jsou tedy jen jednotlivé sloupce pixelů. Ve výrobě to znamená nejen použití polarizačního filtru, který bude přesně překrývat jednotlivé sloupce pixelů, ale v případě LCD panelu i odlišného nanesení jednotlivých sloupců tekutých krystalů. Pokud si divák nasadí pasivní 3D brýle obsahující vhodně orientované polarizační filtry, uvidí jedním okem jen sudé sloupce pixelů, druhým okem jen liché sloupce. Z tohoto je zřejmé, že pasivní technologie nedokáže na obrazovkách s HD rozlišením nikdy zobrazit skutečný plnohodnotný 3D HD obraz, jelikož každé oko uvidí vždy jen polovinu pixelů. Samozřejmě, pro běžný 2D obsah je plnohodnotné HD možné, jelikož bez polarizačních brýlí obě oči uvidí plné rozlišení. Zmiňované poloviční rozlišení, kterého lze dosáhnout pří sledování 3D obsahu touto metodou je nejzásadnější nevýhodou tohoto systému. Jedinou možností jak dosáhnout HD rozlišení pro 3D by bylo vyrábět TV s dvojnásobným rozlišením obrazovky, ovšem to by se velice nepříznivě projevilo na ceně televizoru. Druhou nevýhodou je, že polarizační filtry jsou v závislosti na kvalitě citlivé na vzájemné pootočení a tak se může lehce stát, že pokud divák nebude držet hlavu zpříma a nakloní ji nalevo nebo napravo, může účinnost filtrů klesat a s tím bude klesat 3D efekt a obraz bude vnímán zdvojeně. Na straně druhé jsou tu výhody spojené s levnými lehkými brýlemi, které nepotřebují žádné baterie. Zároveň odpadá

nepříjemné blikání, které působí aktivní brýle a zároveň s tím odpadají možné zdravotní problémy. 4.4 Autostereoskopický display (3D bez brýlí) V minulosti se i mnoho odborníků domnívalo, že auto-stereoskopickým systémům patří budoucnost. Ostatně, 3D bez brýlí zní skutečně lákavě! Bohužel se ukazuje, že tyto monitory nedokáží v současnosti nabídnout kvalitní 3D obraz, který by mohl diváky uspokojit. Podle všeho se zdá, že pokud se objeví kvalitní 3D bez brýlí, bude to jiná technologie, než nabízejí stávající auto-stereoskopické monitory. O tom svědčí i ukončené financování vývoje autostereoskopických monitorů mnoha světovými firmami. Společným znakem všech auto-stereoskopických monitorů je speciální maska umístěná před LCD displejem. Je vybavena optickými hranoly, které vychylují světlo různých sloupců pixelů do různých směrů. Na obrazovce monitoru jsou podle parametrů optické masky vtěsnány obrazy pro pravé i levé oko. Maska způsobí to, že jsou obrazy pro jednotlivé oči viditelné pouze z určitých směrů. Pokud se tedy divák postaví do vhodné pozice (pro každého člověka může být jiná to podle rozteče očí), uvidí levým okem pouze levý obraz a pravým pravý. Nevýhodou monitoru je to, že je kvalita každého obrazu pouze poloviční, než je nativní rozlišení monitoru. Obr 4.4 Princip stereoskopického zobrazování [1] Jak bylo řečeno, pozorování 3D obrazu na auto-stereoskopickém monitoru není příliš pohodlné, divák si musí najít pozici před monitorem, kde 3D funguje a on jej vidí dobře. Tento neduh se snaží odstranit systém pro sledování očí. Takovéto monitory jsou vybaveny kamerovým systémem, který sleduje oči diváka a fyzicky posouvá optickou masku před monitorem tak, aby se měnily pozorovací zóny v závislosti na pozici diváka před monitorem.

Výsledky těchto systémů nejsou příliš přesvědčivé a problémy nastávají obzvláště pokud se vyskytne před monitorem více diváků a systém neví, čí oči sledovat, nebo v nepříznivých světelných podmínkách, kdy není kamerový systém schopen spolehlivě vyhodnotit obraz. Jiní výrobci se snažili problém úzkých pozorovacích zón řešit jinak, než kamerovým systémem. Vyrobili proto optickou masku, která nedisponuje dvojicí obrazů, ale více, např. pěti nebo i devíti. Maska distribuuje každý obraz do jiného pozorovacího úhlu, tím vzniká vyšší počet pozorovacích zón, a je tedy pokryt větší prostor před monitorem. Dokonce je možné částečně 3D monitor obcházet a pozorovat z různých míst 3D scénu z různých úhlů. To lze díky tomu, že je 3D scéna zachycena, ne ze dvou, ale z více různých míst. Nevýhodou je fakt, že na monitoru nelze zobrazit klasické 3D stereoskopické filmy a hry (připravené pro 3D brýlové systémy) a 3D obsah se musí připravit speciálně a ne zcela jednoduše, přímo pro konkrétní monitor. Další nevýhodou je skutečnost, že se do nativního obrazu musí vtěsnat pět nebo dokonce devět obrazů, což znamená 5x či 9x nižší kvalitu dílčích obrazů. V neposlední řadě je nutné připomenout, že ani více zón nenabízí kvalitní 3D, které by diváky dokázalo jednoznačně přesvědčit. Jednoznačnou výhodu představuje skutečnost, že se divák obejde bez 3D brýlí. To je však vyváženo mnoha nevýhodami, které mnohé zájemce spolehlivě odradí. Nevýhodou je bezpochyby ne zcela přesvědčivé podání 3D obrazu, nutnost hledat místo před monitorem, kde 3D funguje dobře a snížené rozlišení obrazu.

5 Fyziologie, problémy Z anatomického hlediska se zde budeme zabývat pouze základní stavbou a částmi ovlivňujícími optickou cestu, nikoli stavbou a funkcí sítnice. Z hlediska monokulárních vodítek prostorového vidění má význam zejména řasnaté tělísko (corpus ciliare) paprsčitě uspořádaný sval z hladké svaloviny. Na povrchu má četné výběžky, na něž je tenkými vlákny zavěšena čočka. Stahy svalstva mění zakřivení svalstva, což způsobuje potřebnou akomodaci (zakřivení) čočky. Z krve protékající vlásečnicemi řasnatého tělíska se filtrací tvoří komorová voda, která vyživuje bezcévnaté části oka a udržuje jeho tvar. Čočka, tvořená vrstvami pružných proteinů, tedy mění svou optickou mohutnost v rozsahu 0 20 D. Tato schopnost se s věkem ztrácí. Větší optickou mohutnost má rohovka (42 D), tato rovněž vrstevnatá struktura je od vlastní čočky oddělena duhovkou, přepážkou mezi přední a zadní komorou oka, jejíž střed tvoří zornice. Obr 5.1 Zjednodušený anatomický popis řezu oční bulvy[26]. V rámci fyziologie stereoskopického vidění rozlišujeme v zásadě dva typy prostorových vodítek, a to monokulární a binokulární. Monokulární, jež se projeví již při pozorování prostorové scény jedním okem, dále dělíme na apriorní a aposteriorní. Jak již název napovídá, první z nich poskytují informaci přímo na základě fyziologické odezvy zrakového systému. Jsou jimi pohybová paralaxa a akomodace. První z nich používá k určení relativní rychlost pohybů objektů ve zrakovém poli. Úhlový pohyb obrazů objektů na sítnici se zrychluje se zmenšující se vzdáleností těchto objektů. V případě akomodace je informace o tenzi svalů řasnatého tělíska poslána zpět do visual cortexu, kde je použita pro interpretaci hloubky.

Typickým příkladem aposteriorního monokulárního vodítka je pak hloubka zjištěná z relativní velikosti. Její přesnost je závislá na zkušenosti s jakou dokáže mozek pozorovatele určit z velikosti obrazu na sítnici vzdálenost předmětu. Dalšími zástupci jsou interpozice a perspektiva, kteréžto jsou podmíněny zkušeností s transformací optického pole do 2D obrazu na sítnici. Mezi binokulární vodítka stereoskopického vnímání řadíme konvergenci a binokulární disparitu (Obr. 2). V případě konvergence je zpracovávána informace o tenzi vnějších očních svalů. Z polohy průsečíku optických os obou bulev je tedy zjištěna hloubka a to zejména ve vzdálenostech do 10 m. Binokulární disparita je definovaná jako úhlový rozdíl projekcí jednoho bodu na sítnice obou očí. Obr. 2 b ukazuje 3 body v prostoru, jejichž obraz na sítnici pravého oka splývá, zatímco levé je rozliší rozdílnou paralaxou. a) b) c) Obr 5.2 Binokulární vodítka: a) Konvergence, b) Binokulární disparita, c) Empirický horopter Fyziologické limity v současnosti rozšířených displejů naráží na fakt, že zatímco lidský zrak je uzpůsoben k vnímání přirozeného optického pole, je mu v případě současných technologií prezentována pouze dvojice (případně sada) plošných průmětů. Tento technologický problém je přítomen již v klasické fotografii / filmu / televizi. Volba hloubky ostrosti tedy parametru konverze trojrozměrného optického pole na jeho 2D obraz je vždy kompromisem mezi ztrátou obrazové informace v ploše obrazu jeho rozostřením a ztrátou informace o hloubce v případě vysoké hloubky ostrosti. 3D televize a zejména prezentace 3D informace (zobrazovače) dnes povětšinou tento rozpor vesměs neřeší a dnešní koncept připomíná spíše stereoskopickou či multipohledovou televizi. Mezi hlavní fyziologické problémy patří různá hloubka akomodace a konvergence. Zatímco u klasického vidění (Obr. 3 a) je vzdálenost, na kterou oko akomoduje stejná jako vzdálenost průsečíku optických os očí. Mozek je naučen tomuto spojení v útlém věku dítěte a jeho neustavení lze kvalifikovat jako oční vadu insuficienci divergence. Podívejme se na pravou polovinu obrázku. Vidíme, že dnešní stereoskopické i autostereoskopické displeje nutí mozek tento vztah porušit, neboť jsme nuceni zaostřovat na rovinu zobrazovače i když se nám předmět jeví před/za rovinou zobrazovače. Tento problém se zvětšuje se snižující se

úhlopříčkou stínítka a tedy se snižující se vzdáleností pozorovatele. Obr.3b znázorňuje vztah mezi akomodací a konvergencí. Vymezuje zónu binokulárního vidění, kde tento rozpor ještě nezpůsobuje rozklad 3D vjemu (zeleně) a dále pak zónu komfortního stereoskopického vidění (žlutá). a) b) Obr 5.3 Fyziologické problémy 3D televize: [27] a) Různá hloubka akomodace a konvergence v případě klasických (auto-)stereoskopických zobrazovačů. b) Percivalova zóna komfortního binokulárního vidění

6 Rekonstrukce obrazu, tvorba hloubkových map, DIBR Téma následující kapitoly se liší od jiných v tomto textu. Absolutní většina kapitol se totiž zabývá 3D TV a potřebným hardwarovým vybavením. Dozvěděli jsme se toho spoustu o snímání, přenosu dat, zobrazování, různých zařízení a technologiích související s 3D TV. Zatím bylo jen něco málo naznačeno o možnosti konstrukce 3D modelu a o používaných algoritmech. Tomuto tématu se budeme věnovat v této kapitole, kde budou popsány postupy používané pro rekonstrukci modelu a naznačeny základní způsoby tvorby hloubkové mapy a jejího využití k vytvoření virtuálního pohledu pomocí metody DIBR. 6.1 Rekonstrukce prostorového modelu scény K výpočtu modelu scény je potřeba mít dva vstupní snímky stejné scény (viz. Kapitola 2). Postup rekonstrukce lze rozdělit do několika fundamentálních kroků, které budou popsány v následujících kapitolách. Vyčerpávajícím způsobem je postup rekonstrukce popsán například v [3]. Celý postup je názorně zobrazen vývojovým diagramem na Obr. 6.1. Zavedením určitých omezujících podmínek lze daný postup zjednodušit. Fundamentálním krokem je vždy nalezení korespondujících bodů v obou obrazech. Korespondující body jsou obrazové body, na kterých je zobrazen tentýž bod reálné scény. Pokud se jedná o normální případ (změna pozice kamery jen v horizontálním směru), tak můžeme zavést omezení, že se korespondující body nacházejí na stejném řádku. Podrobněji je proces hledání korespondujících bodů popsaný v kapitole 6.1.1. Nalezené korespondenční body slouží k provedení vnitřní a vnější kalibrace kamery a současně jsou souřadnice vzájemně korespondujících bodů použité v závěrečném kroku samotného výpočtu prostorové souřadnice, tento proces se nazývá triangulace. Pomocí vnitřní kalibrace kamery je získána tzv. kalibrační matice reprezentující vlastnosti použitého snímače (kamery/fotoaparátu). Základními vlastnostmi jsou ohnisková vzdálenost, velikost pixelu a pozice hlavního zobrazovacího bodu. Výstupem vnější kalibrace jsou tzv. rotační matice a translační vektor, které slouží k reprezentaci vzájemné polohy kamer. Fundamentální základ kalibrace kamer bude popsán v kapitole 6.1.2. V případě, že máme k dispozici stereo snímky, které se liší pouze o posunutí v horizontální ose, je možné dopočítat se k relativní pozici v prostoru i zjednodušeným postupem bez počítání vnější a vnitřní kalibrace. V takovém případě ovšem nezískáme přesné metrické informace, ale pouze relativní pozice v prostoru. Relativní hloubka bodu v prostoru lze spočítat jako inverzní hodnota horizontální paralaxy. I v tomto případě je nutné znát souřadnice souhlasných bodů v obraze. 6.2 Hledání korespondujících bodů Jak bylo zmíněno výše, korespondující body reprezentují stejný bod v prostoru. Z toho je patrné, že tyto obrazové body budou mít stejné nebo přinejmenším podobné vlastnosti, což budeme využívat při jejich hledání. Situace však není tak jednoduchá. Pěkné shrnutí algoritmů pro hledání výrazných bodů v obraze je možné nalézt v publikaci[2]. Nejjednodušší by bylo porovnávat jas (v šedotónovém obraze) a barevné složky RGB (v barevném obraze) samostatných bodů. Tento způsob by ovšem nevedl k úspěchu a to ze dvou důvodů. Prvním důvodem je skutečnost, že obraz (a tím každý jeho bod) je reprezentován digitální hodnotou a může nabývat omezeného počtu stavů. Většinou je používán 8bitový rozsah a máme tedy k dispozici 256 různých hodnot od 0 do 255. Z toho vyplívá, že stejnou hodnotu může mít velké množství obrazových bodů a ten správný bychom nebyli schopní určit. Tento problém

je znásoben tím, že korespondující body ve skutečnosti nemusí mít zcela shodné hodnoty jasu či RGB složek, což může být způsobeno šumem a jistými vlivy při snímání. V důsledku těchto problémů je nutné použít pro hledání korespondujících bodů sofistikovanější metody. Velmi důležité je, že nejsou porovnávány jen samostatné pixely, ale porovnáváme určité jejich okolí, které může mít různé rozměry 3x3, 5x5, 9x9. Následně začaly být používány různé metriky jako, například vzájemná informace, korelace, ratio image uniformity, součet rozdílu čtverců (SAS) nebo součet rozdílů absolutních hodnot (SSAD). Ve většině metrik je jako korespondující bod označeno minimum metriky. Základní myšlenkou je hledání korespondujících bodů pro všechny obrazové body. Tento postup by byl ovšem výpočetně velmi náročný a většinou značně neefektivní. Neefektivita by byla přes opatření, které byly zmíněny výše, způsobena, tím že pro velkou skupinu bodů by bylo nemožné najít korespondující bod. Tento případ by nastal v situaci, kdy se daný bod nachází v oblasti bez kontrastu nebo v oblasti s pravidelnou texturou. V takovém případě by docházelo k tomu, že by metrika vycházela stejně pro větší množství bodů a nebylo by možné spolehlivě určit korespondenci. Navíc, pokud se bavíme o rekonstrukci modelu scény, tak ani nepotřebujeme znát korespondenci všech bodů a stačí nám znát jen korespondence omezeného počtu bodů rozložených ve scéně (minimálně 7 bodů). Hledání korespondencí pro všechny body je někdy využito při tvorbě hloubkové mapy, nicméně i tam jsou zpravidla používány metody využívající omezený počet korespondujících bodu (více v kapitole 6.2) V praxi je potřeba najít spolehlivé korespondence pro omezený počet bodů v levém stereo snímku. Z výše uvedeného je patrné, že spolehlivé určení korespondence je možné pro výrazné body v obraze. Výrazné body jsou takové mody, které mají specifické okolí, takovými body mohou být hrany, rohy, lokální minima či maxima a podobně. K vyhledávání těchto bodů v obraze bylo navrženo velké množství různých algoritmů, které často využívají detekci hran. Jako zástupce těchto metod můžeme vybrat Moravcův detektor nebo Harris Conner detektor. Výrazné body byly nalezeny v obou stereo obrazech a poté mohlo být porovnáno jejich okolí a určeny korespondence. Jakousi druhou generací v oblasti detektorů výrazných bodů jsou tzv. deskriptory. Deskriptory jsou algoritmy, které nejen naleznou v obraze výrazné body, ale současně nalezený bod popíší jeho vlastnostmi, na jejich základě jsou pak určeny korespondence. Mezi nejpoužívanější deskriptory patří SURF [4]. Zjednodušení procesu hledání korespondujících bodů lze dosáhnout zavedením určitých omezujících podmínek. Podmínkami můžeme omezit zejména oblast vyhledávání korespondence v pravém snímku. Nejdůležitějším omezením je omezení na vyhledávání pouze v řádku, na kterém leží daný bod v levém snímku. Toto omezení můžeme použít, pokud máme k dispozici stereo snímky nebo pokud jsme provedli rektifikací snímků. Dalším omezením může být maximální uvažovaná paralaxa a fakt, že u stereo snímků je nutné prohledávat pouze body napravo pozice daného bodu v levém obraze. 1.2.1. Kalibrace kamery Na začátku kapitoly bylo řečeno, že kalibrace kamery patří mezi fundamentální kroky při metrické rekonstrukci modelu scény. K provedení obou kalibrací je potřeba soubor korespondujících bodů. Jak takové body nalezneme, bylo popsáno výše. Protože rekonstrukce modelu scény není přímou součástí našeho kurzu, tak nebude rozebírat jednotlivé matematické postupy a metody, které mohou být použity k provedení kalibrace kamery. Náplní kapitoly bude popis výstupů kalibrace a jejích výsledků ve speciálních případech. Součástí bude také základní popis metodiky provedení kalibrace a popis možností jak v praxi kalibraci provést. Výstupem vnitřní kalibrace je tzv. kalibrační matice K. Matice reprezentuje kalibraci kamery a jako taková zůstává pro danou kameru neměnná za předpokladu nezměněné ohniskové vzdálenosti, tedy při shodném nastavením zoomu. Z toho vyplývá, že vnitřní kalibraci je teoreticky možné provést pro danou kameru jen