i
ii
iii České vysoké učení technické v Praze Fakulta elektrotechnická Katedra počítačů Bakalářská práce Metodika hodnocení současných video kodeků Ondřej Poštulka Vedoucí práce: Ing. Roman Berka, Ph. D. Studijní program: Softwarové technologie a management Obor: Web a multimedia Červen 2009
iv
v Poděkování Tímto bych chtěl poděkovat vedoucímu své bakalářské práce, Ing. Romanu Berkovi Ph.D., za osobní přístup. Dále bych chtěl poděkovat panu Doc.Ing. Ivanu Kudláčkovi, CSc. za poskytnutí možnosti testovat během jeho hodin. Nakonec bych chtěl poděkovat mým milujícím rodičům, kteří mě neúnavně podporují po celou dobu mého studia.
vi
vii Prohlášení Prohlašuji, že jsem svou bakalářskou práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu 60 Zákona č.121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). V Praze dne.. podpis
viii
ix Abstract This work includes theoretical and practical view of a methodology of testing the present video codecs. It is also associated with the recherche work aimed to a digital video technology in connection with a platforms of Microsoft Windows and Linux. This work is aimed to a process of digital video coding and it is based on the results of selected parameters, which are the most important for a common user, who faces to setting of the video codecs. The single chapters of this work include the important aspects of this topic consequently. A history of film and television is explained there, including an influence to digital video. In detail this work is devoted to coding and a methodology of digital video processing. In addition, a principle of human visual perception is described as a key effect of the digital video compression process. In addition, this work is aimed to a proposal of subjective quality testing. This part of the work includes a detailed analysis of standardized methodology, including a modification required for a purpose and scope of this work. It is followed by an evaluation of a set of tests given in tables and conclusions. Subjective testing is followed by an analysis of possibilities of objective testing. The work summarizes the present knowledge, it evaluates its contributions, including their potential of future usage or development. Final annex explains by an intuitive way the problems of digital video problems for a common user.
x Abstrakt Tato práce obsahuje teoretický a praktický pohled do metodiky testování současných videokodeků. S tím souvisí i rešeršní práce zaměřená na digitální video ve spojitosti s platformou Microsoft Windows a Linux. Cílem práce je prozkoumat proces kódování digitálního videa a na základě výsledků pak vybrat takové parametry, které jsou pro běžného uživatele při manipulaci s nastavením videokodeků nejdůležitější. Jednotlivé kapitoly práce postupně zahrnují důležité aspekty problematiky. Je vysvětlena historie filmu a televize, včetně vlivu na digitální video. Práce se podrobně věnuje kódování a metodice zpracování digitálního videa. Je popsán princip lidského zrakového vjemu, klíčového jevu pro proces komprese digitálního videa. Práce se věnuje i návrhu subjektivního testování kvality. Tato část obsahuje detailní rozbor standardizovaných metod včetně modifikace pro účel a rozsah této práce. Následuje vyhodnocení sestavy testů v tabulkách a vyvození závěrů. Na subjektivní testování navazuje analýza možností objektivního testování. Práce shrnuje poznatky, hodnotí jejich přínos, včetně možného dalšího využití či rozšíření. Závěrečná příloha intuitivní cestou přiblíží běžnému uživateli nástrahy kódování digitálního videa.
xi
xii OBSAH 1. Úvod...1 1.1. Definice běžného uživatele...1 2.1 Cíle...3 2.1.1 Cíle v kontextu zadání...3 3.1. Hlavní zaměření...4 3.1.1. Struktura práce...4 3.1.2. Jednotlivé kapitoly...4 4. Teorie digitálního videa...5 4.1. Historické zázemí digitálního videa...5 4.1.1. Filmový průmysl a analogový záznam...5 4.1.2. Televize...6 4.1.2.1. Barevné modely...6 4. 2. Digitální video...8 4.2.1. Technické předpoklady...8 4.2.2. CCD čip...8 4.2.2.1 Vzorkování...9 4.2.3. Výhody vs. nevýhody digitálního videa...10 4.2.4. Nástup komprese...11 4.2.5. Zmatek v pojmech...11 4.2.5.1. FourCC (4CC)...11 4.2.5.2. Kodek, formát a filter...11 4.2.6. Od MJPEG k MPEG...12 4.2.6.1. Revoluce...12 4.2.6.2. Struktura videa v kompresy MPEG-1...12 4.2.6.3 Motion Picture Experts Group...13 4.2.7. Situace na platformě Linux...14 4.2.7.1. FFmpeg...14 4.2.7.2. Přehrávání videa pomocí systému Linux...14 4.2.7.3. Střih videa pomocí systému Linux...14 4.2.7.4. Kódování videa pomocí systému Linux...15 4.2.7.5. Linux a digitální video - zhodnocení...15 4.2.8 Zvuk...15 4.3. Střih Videa...16 4.3.1. Definice...16 4.3.2. Pojmy...17 4.4. Budoucnost digitálního videa...18 5. Fyziologie vnímání obrazu...19 5.1. Podvod na pozorovatele...19 5.1.1 Vzorkování podruhé...19 5.1.2 Vidění...19 5.1.3. Vlastnosti oka a zraku...20 5.1.4. Rozlišování barev a teorie barevného vidění...21 5.1.5. Optické klamy...21 5.2. Důležité vlastnosti zraku...22 5.2.1. Spektrální charakteristika zraku...22
xiii OBSAH 5.2.2. Časová rozlišovací schopnost oka...22 5.2.3. Jasová adaptace oka a Purkyňův jev...22 5.2.4. Kontrastní citlivost oka...23 5.3. Shrnutí poznatků...23 6.1. Subjektivní testování...24 6.1.1. Teorie subjektivního testování...24 6.1.2. Metodika testování...25 6.1.2.1. Standardizace...25 6.1.2.2. Modifikace...25 6.1.2.3. Výchozí body standartu ITU-R Rec. BT.500-11...25 6.1.2.4. Vlastní testování...27 6.1.3. Příprava testování...28 6.1.3.1 Dvě varianty testování...29 6.1.3.2 Popis testovacích scén...29 6.1.4. Realizace testování...29 6.1.5. Vyhodnocení testování...30 6.1.5.1 Směrodatná odchylka podrobněji...30 6.1.6. Poměrné hodnocení kvality...30 6.1.7. Přehled zbývajících AVS skriptů a jejich popis...31 7. Vyhodnocení subjektivního testování...32 7.1 Propozice testu...32 7.1.1 Zázemí testování...32 7.1.1.1. Dvě zobrazovací sestavy...32 7.1.1.3. Místnost a světelné podmínky...33 7.2.1 Testování nanečisto...33 7.2. Výsledky první varianty testování (Test_001)...33 7.2.1 Analýza chybných dat...35 7.3. Výsledky druhé varianty testování (Test_002)...35 7.3.1 Analýza chybných dat...36 7.4. Přehled výsledků...37 7.5 Důležité poznatky...39 8.1. Postup vyhodnocování kvality obrazu...40 8.1.1. Střední kvadratická chyba...40 8.1.2. PSNR...40 8.1.3.NRMSE...40 9.1. Dosažení stanovených cílů...41 9.2. Rozšíření práce...41 Příloha A --- Příručka "běžného uživatele" pro kódování digitálního videa 42 Příloha B --- Test znalostí digitálního videa.52 Příloha C --- Testovací formulář...59 Pojmy --- Abecedně řazený slovníček pojmů...60 Obsah přiloženého CD..82
xiv SEZNAM OBRÁZKŮ Bakalářská práce Obrázek 1.1: Adobe Premiere Pro CS4 exportní tabulka. 2 Obrázek 4.1: Edisonův fonograf. 5 Obrázek 4.2: Schéma barevného systému YUV. 7 Obrázek 4.3: Gamut RGB zařízení. 8 Obrázek 4.4: CCD čip. 9 Obrázek 4.6: Chybné zobrazení scény způsobené nedostatečným vzorkováním. 10 Obrázek 4.7: Struktura videa MPEG-1. 13 Obrázek 4.8: Schéma zapojení lineárního střihového systému. 16 Obrázek 4.9: Pracovní plocha programu Adobe Premiere Pro. 17 Obrázek 5.1: Průřez lidským okem. 19 Obrázek 5.2: Rozložení buněk prostorová citlivost oka. 20 Obrázek 5.3: Müller-Lyerova optická iluze. 21 Obrázek 6.1: Schéma DSCQS testování. 26 Obrázek 6.2: Schéma DSIS testování. 26 Obrázek 6.3: Schéma přehrávání vzorku A a B pomocí split screenu. 27 Příloha B Obrázek B.1: Schéma přechodu zvaného stíračka. 56 Obrázek B.2: Schéma kombinace přechodů zatmívačka (fade-out) a roztmívačka (fade-in). 56 Obrázek B.3: Schéma přechodu Crossfade (prolínačka). 56 Obrázek B.4: Schéma zapojení převodu analogového videa do počítače. 57 Graf B.1: Graf zobrazující předchozí zkušenosti studentů (testovaných subjektů) s digitálním videem. 58 Pojmy Obr.DirectShow.1: Okno nastavení filtru FFDshow. 61 Obr.filtr.1: Reprezentace přehrávání videa na počítači. 63 Obr.filtry.2: Okno programu VirtualDubMod s načteným videm. 63 Obr.Flash.1: Flashový přehrávač severu youtube.com. 64 Obr.JPEG.1: Blokové schéma JPEG komprese (kodér, dekodér). 65 Obr.JPEG.2: Reprezentace míry komprese formátu JPEG. 66 Obr.miniDV.1: Ilustrační obrázek. 71 Obr.moiré 1: Příklad moiré na výrazně kontraktních křídlech papouška. 72 Obr.programy-freeware.1: Okno programu VirtualDubMod s načteným videm. 74 Obr.programy-freeware.2: Okno programu Avidemux 2.4 GTK+ s načteným videm. 75 Obr.programy-freeware.3: Okno programu SUPER. 76 Obr.programy-freeware.4: Logo programu MPlayer. 76 Obr.programy-freeware.5: Logo programu AviSynth. 77 Obr.prokládání.1: Artefakty prokládání jsou zřetelně vidět na označeném místě. 78 Obr.rozhraní.1: Loga rozhraní FireWire a USB 2.0. 79 Obr.rozlišení.1: Srovnání jednotlivých rozlišení převzato z wikipedie. 80 Obr.soc.1: Logo serveru YouTube.com. 81
xv SEZNAM TABULEK Bakalářská práce Tabulka 4.1: Tabulkový přehled formátů spravovaných skupinou MPEG. 13 Tabulka 6.1: Tabulka znázorňující navržené subjektivní testování. 28 Tabulka 6.2: Tabulka zobrazující identifikační kódy testovaných vzorků videa. 29 Tabulka 7.1: Tabulka zobrazující testovací konfiguraci přehrávacího zařízení. 32 Tabulka 7.2 Výsledky testování metodou DSCQS. 33 Tabulka 7.3 Tabulka zobrazuje podíl upraveného a neupraveného videa. 34 Tabulka 7.4 zobrazuje hodnocení první varianty testovaní (Test_001) pořízené metodou DSIS. 34 Tabulka 7.5 Výsledky pro druhou testovou variantu (TEST_002). 35 Tabulka 7.6 Tabulka zobrazuje hodnocení druhé varianty testovaní (Test_002) pořízené metodou DSIS. 36 Příloha B Tabulka B.1: Výsledková tabulka testu znalostí digitálního videa 54 Tabulka B.2: Porovnání výsledků studentů z Gymnázií a Odborných škol 55 Tabulka B.3: Procentuální úspěšnost řešení jednotlivých otázek 55
xvi
1. Úvod V dnešní době i podprůměrně zkušený uživatel počítače (či jiné podobné platformy) dokáže bez větších obtíží pracovat s formátem digitální fotografie. Tím je myšlen proces, který začíná jejím pořízením, pokračuje uložením na datové medium (optické disky, pevné disky) s jednoduchými úpravami (ostrost, barevná sytost, odstranění efektu červených očí, atd.) a končí finální publikací na internetu či její převedením na papír (tisk na domácí tiskárně, nebo poslání fotografie v digitální podobě profesionální firmě). U digitálního videa je situace výrazně horší. Z množiny uživatelů, kteří si pořídí kameru s digitálním záznamem videa (ať už hardiskové, nebo podporující formát minidv [Pojmy - M]) jich jen málokdo překročí práh základní editace a exportu na nějaké medium (např. na DVD [Pojmy - D]). Ale téměř nikdo nezvládne vybrat vhodný kodek [Pojmy - K], porozumět základním parametrům videa nebo například odstranit nejběžnější vady videa (prokládání [Pojmy - P], vybledlé barvy atd.). Je to zapříčiněno mnoha faktory. Jedním z nich je například ten, že v oblasti digitálního videa existuje značné množství pojmů, zákonitostí, standardů a technických řešeních, v nichž se běžný uživatel jen obtížně orientuje. Dále platí, že digitální video manipuluje s velkým objemem dat a tak je náročné na hardwarovou výbavu. Neméně důležité je softwarové vybavení. Zde často běžného uživatele odradí například náročnější ovládání tzv. nelineárních střižen (viz. kapitola: 4.3 Střih videa) nebo mnoho způsobů nastavení pro export videa (hlavně formát videa, komprese [Pojmy - K] atd.). Problém pro uživatele je také finanční stránka. Pokročilé střihové programy jsou drahé a jejich freewarové ekvivalenty nejsou většinou User Friendly [Pojmy - U] a také často nejsou na dostatečné profesionální úrovni. 1.1. Definice běžného uživatele V této práci se často setkáme s pojmem běžný uživatel. Tím myslím rozsáhlou skupinu lidí uživatelů, kteří pracují s digitálním videozáznamem. Obvykle zvládají jeho uložení do počítače a základní střihové úpravy. Předpokládá se, že běžný uživatel zvládá svoje video i nějakým způsobem publikovat. Mohou to být jen záběry z dovolené, převedené na DVD disk pro osobní potřebu, či poloamatérský film publikovaný přes některou sociální síť [Pojmy - S] (například populární YouTube). Další důležitou vlastností běžných uživatelů je minimální znalost IT (výpočetní techniky). Ovládají svůj operační systém (v ČR je podle serveru navrcholu.cz nejrozšířenější OS MS:Windows XP) a vyznají se v běžně používaných počítačových rozhraní (USB, Fire Wire viz. pojem rozhraní). Dále se předpokládá, že běžní uživatelé jsou dostatečně flexibilní a dokáží se sami nebo s pomocí internetu učit ovládat nejrůznější programy související s editací a správou digitálního videa. Na druhé straně jsou znalosti běžného uživatele jen povrchní. Často si nedokáží představit základní principy digitální video funguje. Postupují podle jednoho nacvičeného schématu a nedokáží ho příhodně modifikovat. Uvedu příklad. Uživatel natočí video na digitální kameru, převede si ho do počítače (třeba pomocí programu Adobe Elements zjednodušená alternativa k složitějšímu a výkonnějšímu Adobe Premiere Pro). Dále provede jednoduché střihové úpravy a rovnou z prostředí programu vytvoří DVD s jednoduchým menu. Problém nastane, když chce uživatel místo na DVD svoje video v nějaké podobě umístit např. na internet. A tady se projeví výrazné uživatelovo omezení, protože zatím vždycky pracoval podle jednoho návodu, který mu někdo poradil nebo na který metodou pokus-omyl přišel sám a s výsledkem byl spokojen. Navíc při exportu na DVD se nedá mnoho pokazit a výsledek 1
vypadá subjektivně kvalitně (samozřejmě v závislosti na kvalitě natočeného videa). Ale jakmile má video vyexportovat tzv. na disk, tedy pomocí vhodně vybraného kodeku, je velice často zmatený. Náš uživatel ví, že jeho editační program umí video zakódovat, ale téměř určitě se v záplavě nastavení ztratí. Tedy opět postupuje metodou pokus-omyl. Jenže tentokrát bývá velice často zklamán. Například se může stát, že díky nevhodně zvolené kompresi celý proces trvá neúměrně dlouho nebo dokonce se export nezdaří (protože nezná jednotlivá omezení pro jednotlivé kodeky a formáty). Také se stává, že export proběhne a výsledná kvalita videa je velice špatná, video bývá rozpixelované a někdy i deformované (při špatném nastavení poměru stran), či také objemově náročné (hodně uživatelů si například vůbec neuvědomí, že poslat hodinové video z dovolené v přiměřené kvalitě e-mailem je velice obtížné, ne-li nemožné). Smyslem mé práce není vytvořit podrobný návod na tvorbu, zpracování a export digitálního videa, ale seznámit se ze základními pojmy a interpretovat je běžnému uživatelovi. Cílem této práce je tedy navrhnout metodiku testování a ohodnocení videokodeků v závislosti na parametrech a na typu použitého videomateriálu (záběry v interiéru/exteriéru, rychlý dynamický střih) a získané poznatky aplikovat při tvorbě jednoduché kontextové příručky určené běžným uživatelům (viz. příloha A). V ní chci popsat proces kódování digitálního videa v teoretických souvislostech, doplněných o poznatky a rady z praxe. Moje motivace je zpřehlednit jeden malý segment z velké mozaiky zvané digitální video. Obrázek 1.1: Adobe Premiere Pro CS4 exportní tabulka 2
2. Obsah práce 2.1 Cíle Práce sleduje paralelně několik cílů. Základem celé této bakalářské práce je vytvořit dostatečný znalostní základ (teoretický i praktický) k problematice digitálního videa. Na těchto základech bude v další fázi bakalářské práce vytvořen postup testování kvality videokodeků. Testování bude rozděleno do dvou částí. První část je subjektivní, kdy daný vzorek lidí (studenti ČVUT FEL) budou hodnotit připravené testovací sekvence, které se budou lišit jak použitým kodekem, tak i nastavením jednotlivých parametrů. Druhá část obsahuje nastíní možností objektivního testování kvality a výkonu video kodeků. Výstupem celé práce je krátký návod, ve kterém bych se pokusil stručně a jasně motivovat obyčejné uživatele (definice obyčejného uživatele v úvodu práce) a intuitivně je provést procesem převodu digitálního videa do počítače, základními pravidly střihové skladby a závěrečným kódováním. 2.1.1 Cíle v kontextu zadání V průběhu práce bylo nutné částečně modifikovat původní zadání. První vážnější odchylka je směřování práce na běžného uživatele. Během semestrálního projektu, který byl základem mé práce se zvažovali dva způsoby jejího možného pojetí. První byla zaměřena techničtěji s větší a hlubší teoretickou základnou, umožňující následné navázání na tuto práci v magisterském studiu při tvorbě diplomové práce. To také předpokládalo jistou možnost ponechání některých témat otevřených. Druhá větev byla praktičtější, zaměřená více na běžného uživatele. Práce by tak měla být kompaktnější s nějakým jasným závěrem či výstupem. Další faktor při rozhodování o směřování práce je i to, co od ní očekávám já sám. Tedy co by mně osobně měla přinést. Hlavní důvody, proč jsem se rozhodl pro druhou praktičtější větev jsou následující: Práce by měla být kompaktní a ukončená jednoznačným výstupem Práce by mi měla umožnit detailně prostudovat problematiku digitálního videa celistvě a svoje nabité znalosti prezentovat pomocí tohoto textu. Vzhledem k rozsahu problematiky by vybudování hlubšího teoretického obsahu znamenalo zaměřit se jen na jednu konkrétní věc Mnou zvolená cesta znamená i určité korekce v obsahu práce. Především kladu důraz na subjektivní testování, dále se více zaměřuji na platformu Windows (Linux a možnosti kódování videa v něm budou zmíněny jen okrajově). Rovněž jsem se pokusil vyčlenit několik základních charakteristik digitálního videa se kterými se běžný uživatel nejčastěji setká. 3
3. Struktura práce 3.1. Hlavní zaměření Celá práce je zaměřená prakticky. Důvody jsem vysvětlil v předchozí kapitole. Jednotným spojujícím prvkem by měl být náhled na problematiku digitálního videa očima uživatele, který je technicky znalý, ale přesto mu pojmy jako kodek, kontejner, FFmpeg, Crossfade atd., nic neříkají. 3.1.1. Struktura práce Práce je strukturovaná tak, aby každá kapitola fungovala jako samostatný celek. Aby uvedla čtenáře do problematiky, postihla ta nejdůležitější témata a na závěr provedla krátké shrnutí. Problematika digitálního videa obsahuje hodně pojmů, které je nutné vysvětlit. Jelikož jsem souvislý text nechtěl rušit přílišným počtem různých odboček s vysvětlováním jednotlivých pojmů, rozhodl jsem se, že všechny důležitější pojmy umístím do abecedně řazeného slovníčku. Ten se bude nacházet v příloze. Pokud čtenář narazí v textu práce na důležitý pojem, bude označen tučně a vedle něho bude odkaz do slovníčku k příslušnému písmenu. Například: mluvíme li o FFmpeg [Pojmy - F] 3.1.2. Jednotlivé kapitoly První kapitola je úvodní a obsahuje motivaci vzniku tohoto projektu, dále obsahuje definici běžného uživatele. K úvodu patří test obecných znalostí digitálního videa (viz. Příloha B). Druhá kapitula definuje cíle této práce v kontextu zadání. Čtvrtá a pátá kapitola jsou převážně teoretické. Zabývají se obecně digitálním videm a fyziologií vidění. Kapitola šestá je klíčová informuje, jak jsou zjištěné teoretické poznatky využity pro navrhnutí subjektivního testování kvality videokodeků. Sedmá kapitola navazuje na šestou a vyhodnocuje data získaná z realizovaných testů. Osmá kapitola nastiňuje možnosti objektivního hodnocení kvality videa. Finální devátá kapitola shrnuje přínos práce a nastiňuje její možné rozšíření. 4
4. Teorie digitálního videa 4.1. Historické zázemí digitálního videa Historie digitálního videa, potažmo filmu, sahá hluboko do minulosti, až k první pořízené fotografii, kterou provedl roku 1826 Francouz Joseph Niepce. Proces, při kterém světlo prochází přes malý otvor do tzv. camery obscury a na světločivný materiál dokáže zaznamenat nasnímanou scénu, značně ovlivnil mnoho odvětví lidské činnosti. Od vynálezu fotografie scházel k vynálezu filmu jen malý krok. Učinili ho jako první bratři Louis Jean a Auguste Lumière. Vyrobili též první kinematograf (zastaralý výraz pro promítací zařícení lidově promítačka). Od té doby se filmový průmysl rozrůstal obrovským tempem, původně němé a černobílé záběry prvních filmů nahradily v průběhu času filmy barevné s prostorovým zvukem a širokoúhlým obrazem. 4.1.1. Filmový průmysl a analogový záznam Klasický film se dá zjednodušeně popsat jako sled fotografických okének, které při projekci vytváří iluzi pohyblivého obrazu. Využívá tak jistých fyziologických zákonitostí našeho vjemového orgánu, tedy oka (viz. kapitola: 5. Fyziologie vnímání obrazu). Analogicky k tomu se dá definovat pojem digitální video. Tedy jako sled digitálních matric jednotlivých obrázků, které při přehrávání tvoří iluzi pohyblivého digitálního obrazu. Nicméně od analogového záznamu světla a stínu na celuloid až ke kompletní digitalizaci byla ještě dlouhá cesta. Nabízí se otázka, jaké důvody vedly techniky k poměrně komplikovanému procesu digitalizace, když analogový záznam funguje na jednoduchém principu a poskytuje překvapivě vysokou kvalitu reprodukce (velkoformátové fotografie, dokonalá filmová projekce v kině). Především je nutné vysvětlit, jak takový analogový záznam funguje. Jde o přímou spojitost mezi intenzitou podmětu, tedy mezi světlem, dopadajícím na světločivnou látku nebo mezi zvukem a mechanickými kmity jehly (Edisonův fonograf). Obrázek 4.1: Edisonův fonograf Výsledkem analogového záznamu je plynule měnící se signál a tak je jeho předností především jednoduchost. Postupně se jej podařilo u většiny druhů zaznamenávané informace propracovat do velmi uspokojivého stupně kvality, i když si to vyžádalo četné opravné funkce a obvody přidané na úkor oné prvotní jednoduchosti. Mezi hlavní nedostatky, které se 5
nepovedlo odstranit, patří i záznam šumu společně s požadovaným signálem. Ještě horší problém nastává s pořizováním kopií analogového záznamu. S každou další takovou kopií se záznam degraduje a vnáší se nový šum. Většina analogových záznamů je po třetí-čtvrté generaci kopírování zcela nepoužitelná. Dalším výrazným problém je obtížná manipulace. Například fotoamatéři vědí, jak těžko se klasická fotografie upravuje (od vyvolání přes retuše až po fotografické efekty). Ve výčtů neduhů analogového signálu je i časová degradace signálu vycházející z fyzikální podstaty použitého materiálu (magnetický záznam slábne, filmy a fotografie žloutnou). Tento způsob distribuce hudby (magnetofonové kazety), filmu (kazety VHS) a dalších audiovizuálních záznamů vyhovoval distributorům a majitelům autorských práv, protože tato díla se téměř chránila sama proti nelegálnímu kopírování. A i když byl uživatel schopný záznam zkopírovat (či jinými slovy ukradnout), téměř nemohl dosáhnout nějaké obstojné kvality. Na druhé straně výrobci techniky potřebovali nějakou velkou změnu, trh byl přesycený a potřeboval nové progresivní technologie, které by na sebe navázaly celou řadu potřebného a nového hardwaru. Proto přišel čas digitalizace. 4.1.2. Televize Pravděpodobně nejvýznamnější obrazovou technikou je ta, která umožňuje přenos informace o obrazovém toku, který vzniká snímáním scény s pohybem, do neomezeného počtu míst a to v reálném čase. Tato technika se nazývá TELEVIZE. Ohromný dopad měla i na vývoj digitálního videa. Zjednodušený princip televizní reprodukce videosignálu spočívá v rychlém sledu obrázků, které se musí změnit 50 krát za sekundu, aby vytvořily dojem plynulosti. Tento princip přebralo i digitální video a v mnohém ho ještě vylepšilo (obecně se tato parametr označuje jako FPS Frame Per Second). Televizní tvorba také zavedla rozlišení [Pojmy - R], opět hojně používaný termín ve spojitosti s digitálním videm. Naopak negativním pozůstatkem televizní tvorby je prokládání [Pojmy - F]. Tento způsob komprese obrazového toku je pro digitální zpracování obrazu spíše zátěž Asi nejdůležitější obrazovou technologií spojenou s televizí, následně použitou v digitálním videu je barva a způsob jejího kódování. Vznik barevného televizoru přišel až o několik desítek let později, než vznik černobílé televize, proto musel být vyvinout systém televizního vysílání, který by byl kompatibilní mezi starými a novými přístroji na příjem televizního signálu. Problémů bylo hned několik: přidaný barvonosný signál nesmí viditelně ovlivnit kvalitu černobílého obrazu, barvonosný signál nesmí zvyšovat nároky na šířku frekvenčního spektra úplného televizního signálu, barvonosný signál musí být snadno vyfiltrovatelný a minimálně ovlivněný černobílým signálem. Tedy barevná informace musí být dostatečně odolná během zpracování a přenosu pomocí radiových vln. Výsledkem byl systém, při němž se dále vysílá jasová složka stejně jako u černobílých televizí a navíc pro barevné televize je barevná složka namodulována s dvakrát nižší šířkou pásma. Barevná informace má tedy dvakrát nižší rozlišení než jasová složka. Tento fakt vůbec nevadí, protože lidské oko je mnohem citlivější na změnu jasu než na změnu barvy. Ale na druhé straně jsou velké kontrasty zatíženy "barevnou duhou", při střídajících se svislých pruzích v obraze je pak vidět barevné moiré [Pojmy - M] - což není způsobenou nízkou kvalitou tuneru, ale vychází to z principu přenosu obrazu (a barevné složky). Je viditelné jak na TV kartě v PC, tak na klasickém televizním přístroji. 4.1.2.1. Barevné modely Problém spojený s nástupem barevných televizorů a nutností kódovat signál barevně řeší tzv. barevné modely. Ty popisují základní barvy a model míšení těchto základních barev do výsledné barvy. Nadto existují barevné prostory, které ukazují jaké barvy můžeme použít 6
při práci s tím určitým barevným modelem. A aby byla terminologie úplná, každý barevný model má svoje formáty, tedy svoje varianty (identifikované pomocí FourCC viz. odstavec 4.2.5.1.) Zpět k televiznímu zpracování barvy. Před převodem do číslicové formy se nejprve oddělí jasová složka (Y) od barevné a barevná se rozdělí na dvě složky U a V jak ukazuje obrázek 4.2. Následuje převod pomocí rychlých A/D převodníků - každá složka zvlášť, přičemž barevné složky se samplují poloviční frekvencí než jasové. Většinou se ještě používá oversampling, tedy vzorkování vyšší frekvencí než nutně potřebnou a následná digitální úprava do požadované velikosti. Ve výsledku pak máme pro jeden frame 576 řádků po 720 jasových a 360 barevných bodech, což odpovídá šířce pásma (rozlišení) normy PAL [Pojmy - P]. Máme tedy tři složky: jasovou Y a barevné U, V. Tomuto formátu se pak říká YUV. Existuje mnoho možností, jak uložit tyto složky do paměti - po bodech (YUVYUVYUV...), po řádcích, po plochách atd. Obrázek 4.2: Schéma barevného systému YUV Existují i jiné obrazové modely u digitálního videa, třeba RGB. Byly zavedeny pro snadnější práci s obrazem. Obsahují tři barevné složky červenou, zelenou a modrou které tvoří vždy jeden pixel. Tedy stejný princip jako u vykreslování digitálního obrazu CRT monitory (usměrněný proud elektronů, který dopadá na luminofor, který se rozsvítí jeden pixel obsahuje tři zabarvené části červenou, zelenou, modrou). Převod mezi YUV a RGB formáty lze provést příslušnými vzorci. Všechny převody mezi různými YUV a RGB ale nejsou zcela bezeztrátové. Vzorce převodů pro: RGB->YUV: Y = (0.257 * R) + (0.504 * G) + (0.098 * B) + 16 U (Cb) = (0.439 * R) - (0.368 * G) - (0.071 * B) + 128 V (Cr) = -(0.148 * R) - (0.291 * G) + (0.439 * B) + 128 YUV->RGB: R = 1.164(Y - 16) + 1.596(Cr - 128) G = 1.164(Y - 16) - 0.813(Cr - 128) - 0.391(Cb - 128) B = 1.164(Y - 16) + 2.018(Cb - 128) Tři základní RGB signály je tak možné umístit do diagramu všech možných barev (tzv. barevný prostor) a označit tak trojúhelníkovou plochu, která označuje realizovatelné barvy pro konkrétní zařízen. Tomu se říká gamut zařízení. Vrcholy trojúhelníka jsou dány použitými světly (fosfory) a barvy mimo tento trojúhelník jsou daným zařízením 7
nerealizovatelné (jsou mimo gamut). Např. zelená mimo tento trojúhelník se zobrazí jako nejbližší zelená na obvodu trojúhelníka. Existuje ještě několik dalších barevných modelů CMYK, HLSV, YCbCr a každý má definovaný svůj vlastní barevný prostor. Každopádně metodika zpracování barev pro televizi se později přenesla i na digitální video, kde se s ní často setkáváme. 4. 2. Digitální video Obrázek 4.3: Gamut RGB zařízení lze zobrazit jako trojúhelník uvnitř barevného diagramu. Na obrázku je Gamut typického monitoru. 4.2.1. Technické předpoklady Pro rozvoj digitalizace bylo rozhodující zvyšování výpočetní kapacity osobních počítačů. Jednou ze součástí digitalizace je i nástup digitálního videa. Základním předpokladem pro digitalizaci jakéhokoli obrazu je převod světla na elektrické signály. Vědci se s tímto problémem potýkali víc než jedno století, zpočátku zejména při snahách o přenos fotografií po telegrafních a telefonních linkách, později při vývoji televize (viz. vliv televize na vývoj digitálního videa). Materiály, které při osvětlení měnily svůj elektrický odpor nebo dokonce vykazovaly vznik napětí, byly známy už dlouho. Mimochodem málo se ví, že Albert Einstein dostal Nobelovu cenu za svůj výklad fotoelektrického jevu z roku 1905, protože teorie relativity se tehdy komisi nezdála příliš seriozní. 4.2.2. CCD čip Součástka, která vyřešila převod světla na elektrické impulsy se jmenuje: CCD (Charge Coupled Devices). Základní princip práce CCD je poměrně jednoduchý - přicházející světlo vytváří v polovodiči elektrický náboj (elektrony). Elektrony se nemohou volně pohybovat po čipu, neboť na čipu jsou vytvořeny svislé negativní potenciálové valy (odpuzující elektrony). Systém vodorovných elektrod, rovněž s negativním nábojem, vytváří na čipu mřížku tzv. potenciálových studní, z nich elektrony nemohou uniknout. Každá 8
potenciálová studna reprezentuje jeden obrazový bod (tzv. pixel z anglického picture element), tedy nejmenší čtvereček obrazu. Obrázek 4.4: CCD čip Počet pixelů v horizontálním a vertikálním směru stejně jako velikost pixelu tvoří jedny z nejzákladnějších charakteristik CCD čipu (také se tomu říká rozlišení [Pojmy - R]). Pixely vystavené většímu množství světla naakumulují více elektronů a naopak. Jedna ze základních výhod CCD čipů ve srovnání s lidským okem tedy je schopnost akumulace náboje po dlouhou dobu. CCD tak mohou postupně nashromáždit dostatek světla i z velmi slabých světelných zdrojů. Pokročilé videokamery mají systém tří CCD čipů (pro každou ze tří základních barev RGB má vyhrazený jeden čip). Díky tomu jsou schopni dosahovat kvalitnějšího záznamu obrazu 4.2.2.1 Vzorkování Výstup CCD čipu jsou různé hodnoty napětí, což samo o sobě je pro počítač nesrozumitelné a navíc má všechny již zmiňované nevýhody analogového signálu. Proto je za obrazovým čipem zařazen obvod, kterému se říká analogově-digitální převodník (A/D převodník). Jeho úkolem je převod analogových elektrických veličin na numerické hodnoty. Tento překladač se používá i na digitální zpracování zvuku nebo jakýchkoliv dalších analogových veličin v počítači. Obrázek 4.5: Vzorkování signálu Při získání digitálního obrazu dochází k přechodu od spojité funkce f (x,y) k diskrétní funkci I (x, y), a to jak v definičním oboru funkce f (x, y),tak v jejím oboru hodnot. Tento proces probíhá ve dvou nezávislých krocích vzorkování a kvantování. Principem kvantování je diskretizace oboru hodnot obrazové funkce. Obor hodnot funkce se rozdělí na intervaly, jimž je pak přidělena jediná, zástupná hodnota. 9
uniformní používá konstantní délku intervalu neuniformní používá proměnnou délku intervalu. Používá se méně často Kvantování je zdrojem tzv. kvantizační chyby, která se projevuje u ploch s náhlou změnou barev. Původně hladký barevný přechod je nahrazen skokovou změnou. Kvantizační chyba tedy působí rušivě a lze ji částečně eliminovat neuniformním kvantováním a vhodnou zástupnou hodnotou. Na obrázku 4.5 je vidět princip vzorkování spojitého analogového signálu. Můžeme to chápat jako přechod ze spojitého na diskrétní případ. Jedna z vlastností vzorkování je, že pixel není bod, ale plocha určité nenulové konečné velikosti. Na základě jediného čísla (obyčejně získaného ze středu pixelu) přiřazujeme konstantní hodnotu celé oblasti ploše pixelu. Pro vzorkování platí pravidlo, že data musí být vzorkována frekvencí, která je alespoň 2x větší než nejvyšší frekvence v datech. Pokud není vzorkovací frekvence dostatečně vysoká, dochází k vzniku artefaktů (aliasů neboli ve 2D moiré, tak jak jsme se o něm zmiňovali v barevných modelech). K tématu vzorkování se ještě vrátíme v příští kapitole (viz. kapitola: 5. Fyziologie vnímání obrazu) Obrázek 4.6: Chybné zobrazení scény způsobené nedostatečným vzorkováním. V blízkosti jsou dlaždice tak malé, že jich na jeden pixel mapuje několik a dochází k podvzorkování signálu představovaného procedurální texturou šachovnice. Vzniká rušivý alias dá se odstranit metodou zvanou antialiasing. Obrázek s popisem převzat ze serveru www.root.cz 4.2.3. Výhody vs. nevýhody digitálního videa Celý proces masivního využívání digitálního videa odstartoval standard DV. Ten umožnil širokému spektru uživatelů pohodlně natáčet video ve vysoké kvalitě a později ho pomocí speciálních programů zachytávat a převádět do počítače. To přineslo mnoho výhod. Namátkou třeba možnost libovolné úpravy (střih, efekty, atd.), archivaci (kopírování bez ztráty kvality) nebo třeba distribuci na levných a dostupných mediích (DVD, Blu-ray) či přes internet (streamované video). Zásadní nevýhodu je to, že digitální video je nekomprimovaném stavu extrémně datově objemné. 10
Příklady poměrů velikostí: 625 PAL uncompressed 8 bit @ 720 x 576 @ 25fps = 20 MB per/sec, or 70 GB per/hr. 10 bit @ 720 x 576 @ 25fps = 26 MB per/sec, or 93 GB per/hr. 720p HDTV uncompressed 8 bit @ 1280 x 720 @ 59.94field = 105 MB per/sec, or 370 GB per/hr. 10 bit @ 1280 x 720 @ 59.94field = 140 MB per/sec, or 494 GB per/hr. 1080i and 1080p HDTV uncompressed 8 bit @ 1920 x 1080 @ 29.97fps = 119 MB per/sec, or 417 GB per/hr. 10 bit @ 1920 x 1080 @ 29.97fps = 158 MB per/sec, or 556 GB per/hr. 4.2.4. Nástup komprese Jak bylo již uvedeno, Digitální video je v nekomprimované podobě velice obsáhlé. Proto nastupuje komprese a s ní spojený pojem kodek. Obecně má dvě funkce. První je komprese, při níž se video pomocí kodeku zapisuje do výsledného formátu. Kompresi použijeme, vytváříme-li video a nebo ho převádíme do jiného formátu. Pro přehrávání potřebujeme druhou funkci kodeků a tou je dekomprese. Některé kodeky jsou běžnou součástí systému Windows, jiné je třeba nainstalovat. Většina kodeků zajišťuje obě funkce. Jednotlivé kodeky se ale liší ve způsobu a metodice komprese. Rozlišujeme podle účelu (bezeztrátová, ztrátová), podle technické realizace (rozdíl přístupu MJPEG / MPEG ). Výkon kodeků také můžeme hodnotit zcela subjektivně (viz. kapitola: 6. Subjektivní testování). 4.2.5. Zmatek v pojmech 4.2.5.1. FourCC (4CC) Firma Microsoft přinesla s operačním systémem Windows 3.11 a rozhraním Video For Windows - VfW (viz. další odstavec) čtyřpísmenový identifikační kód (Four Character Code, tj. 4CC). Identifikuje více věcí, jednou z nich jsou formáty barevných modelů (YUV, RGB). Další jsou kodeky (DIV4, DIVX, DX50, atd.). Bohužel toto označování vneslo do problematiky kódování digitálního videa zmatek. 4CC identifikuje u AVI a ASF souborů použitý kodek, nikoliv formát videa. Druhý důvod je dualita systémů VfW a DirectShow. Novější rozhraní DirectShow měl starší VfW zcela nahradit, což se nepovedlo a VfW systém je nezbytný dodnes (viz. odstavec 4.2.5.2.). Systém 4CC tak doplňuje svět proprietárních formátů (proprietární = veřejně nedostupný, komerční) a záměrného vnášení nekompatibilit do způsobu kódování digitálního videa. Naštěstí ale doba pokročila, většina firem prozřela a od používání proprietárních formátů upouští. 4.2.5.2. Kodek, formát a filter Kodek, formát a filter jsou tři pojmy, které se často zaměňují. Zatímco kodek je systémová knihovna, pomocí která lze video zkomprimovat a dekomprimovat, tak formát je standart, a kodek ho musí implementovat (např. nejběžnější formát je MPEG-4 ASP a identifikovaný může být kodeky DIV4, DIVX, DX50, XVID, 3IVX, FMP4, atd). Samozřejmě existuje více formátů videa, stejně tak jako existuje více formátů obrázků (jpg, png, raw, atd.). Formát videa určuje, jak má být video uložené na disku (kontejner) a jaká je audio a video komprese (kodek je pouze algoritmus-program, který tyto standardy softwarově 11
implementuje). Všechny tyto specifikace nemusí být veřejně dostupné. Běžný uživatel si často myslí, že ke spuštění videa potřebuje mít nainstalovaný ten kodek, kterým bylo video zakódováno, což neodpovídá skutečnosti. K dekompresi je možné použít libovolný kodek, který implementuje formát daného videa. Zbývá vysvětlit, kdy se k dekompresi (přehrání) využívá kodek a kdy filtr. Kodek je spjat se starým rozhraním MS Windows VfW (Video for Windows). Využití tak nachází hlavně ve střihových programech. Zatímco přehrávače multimédií (jako je např. BSPlayer, Windows Media Player Atd.) využívají DirectShow (filtry). 4.2.6. Od MJPEG k MPEG Před zveřejněním algoritmu MPEG pracovala většina kodeků následujícím způsobem: každý snímek (frame) filmu se analyzoval zvlášť. Na základě analýzy se každý obrázek zkomprimoval. Výsledný film pak byl složeninou stejného počtu a sledu snímků jako u výchozího filmu, jen v náležité kompresi každého z nich. Nejznámějším zástupcem takového způsobu komprese je například kodek MJPEG (viz. pojmy: JPEG). Vše změnil příchod video standardu MPEG-1. Ten byl navržen pro ukládání videosekvencí na digitální médium v dobré kvalitě při rychlosti cca 1,4 Mb/s. Základní požadavky na tento standard lze formulovat následovně: Kódování videa v dobré kvalitě při přenosové rychlosti 1 1,5 Mb/s a audia v dobré kvalitě při přenosové rychlosti 128-256 kb/s. Možnost zastavení obrazu. Libovolný přístup ke snímkům obrazu v určitém čase (převíjení vpřed a vzad). Schopnost přehrávání vpřed i vzad s vyšší rychlostí, než je normální rychlost videa. Synchronizace audio a video stopy při přehrávání. Práce v reálném čase. 4.2.6.1. Revoluce Revoluční se stala metoda komprese, založená na zcela jiném přístupu (oproti kodeku MJPEG). Zjednodušeně řečeno, jde o analýzu nejen samotných snímků, ale také ve vzájemném vztahu. Taková analýza znamená velkou úsporu místa a nesrovnatelně vyšší kompresi při dosažení podobného výsledku jako u kompresí předchozího typu. Vezme-li za příklad scénu, kde sedí člověk u stolu a obraz je statický, přenáší se při MPEG kompresi informace o neměnné scéně jen jednou a následně jen informace o místech, kde probíhá změna obrazu. V našem příkladu by šlo třeba o pohyb a gesta muže za stolem. 4.2.6.2. Struktura videa v kompresy MPEG-1 Nejvyšší definovanou úrovní hierarchie MPEG-1 je sekvence snímků určité délky (videoklip). Ten se skládá z částí nazývaných GOP (Group of Pictures). Skupina snímku GOP je série jednoho nebo více snímků. Typická sekvence MPEG-1 se skládá s opakujících se struktur GOP. GOP se může skládat ze snímků I,P,B. Dalším stupněm hierarchie je snímek, který se skládá z tzv. slice, které obsahují makrobloky. Makroblok obsahuje veškeré informace o oblasti o velikosti 16x16 pixelů. Slice zahrnuje libovolný počet makrobloků, kódovaných bez jakýchkoliv odkazů na makrobloky v jiném slice (pokud jsou data ze slice znehodnocena, nemá to žádný vliv na ostatní data v dalších slice). Maximální velikost slice je omezena velikostí jednoho snímku. MPEG ve většině případů používá barevný prostor YCbCr se vzorkováním 4:2:0. Obraz je rozdělen na makrobloky o velikosti 16x16 pixelů. Po vzorkování zahrnuje jeden makroblok 4 jasové bloky Y o rozměrech 8x8 pixelů a jeden blok o rozměrech 8x8 pixelů od každé barvonosné složky Cb a Cr. 12
Obrázek 4.7: Struktura videa MPEG-1. Obrázek s rozpisem převzat ze serveru http://www.teleinform.cz 4.2.6.3 Motion Picture Experts Group Jak sám název ukazuje, zkratka MPEG je ve skutečnosti mnohem víc než pouhý kodek. Je to název organizace původně vytvořené za komerčním účelem. MPEG standardizuje mnoho pojmů z prostředí digitálního videa. Od celých formátů, přes kódování, dekódování až po podrobnou specifikaci výstupních souborů (kontejner např.). Rozsah záběru této skupiny je obrovský hudba, video, obrázky, atd. Úzce spolupracuje s mezinárodní organizací pro standardizaci ISO. Formáty audiovizuálních dat spravovaných skupinou MPEG Obrázky APNG, BMP, GIF, HDP, JPEG, JPEG 2000, MNG, PCX, PNG, SVG, TIFF, WBMP, XMP Video MPEG-1, MPEG-2, MPEG-4 ASP, H.264 (MPEG-4 AVC), HuffyYUV, RealVideo, Thora, WMV, DIRAC Zvuk AAC, APPLE Lossless, AC-3, AMR, ATRAC, FLAC, G.729 MP3 MOD Speex Vorbis TAK WAV WMA Musepack Kontejnery AVI, Ogg, MPG, QuickTime, ASF, MP4, Matroska Tabulka 4.1: Tabulkový přehled formátů spravovaných skupinou MPEG. Převzato z Wikipedie. 13
4.2.7. Situace na platformě Linux Přístup k digitálnímu videu byl až donedávna pod operačním systémem Linux nesnadný. Běžný uživatel, tak jak jsme si ho definovali v úvodu (viz. kapitola: 1.Úvod), dává přednost komerční platformě Microsoft Windows, před open-sourcovým Linuxem. Situace se začíná měnit a postupně Linux a hlavně jeho GUI (grafická rozhraní) poskytují lepší přístup k multimediálním službám. Stejně ale Linux více využívají technicky pokročilejší uživatelé (klasicky studenti technicky zaměřených vysokých škol), zatímco většinový průměrný uživatel počítače stále dává přednost MS Windows. 4.2.7.1. FFmpeg Jako nejdůležitější multi-softwarové řešení pro digitální video na Linuxu uvádím na prvním místě projekt FFmpeg. Jde o kolekci free softwaru umožňujícího nahrávání, konverzi a streamovaní digitálního zvuku (audia) a obrazu (videa). Implmentární součástí FFmpeg je i knihovna kodeků libavcodec. FFmpeg je určen pro systém Linux, ale může být použit i jinde. Jde v podstatě o open-source projekt implementující MPEG standardy, ale vytvářený jinou skupinou. Některé části použitých MPEG standardů se tak mohou po implementační stránce lišit od oficiální komerční implementace (např. skpina okolo DivX). Mohou také vznikat rozdíly v kvalitě videa. 4.2.7.2. Přehrávání videa pomocí systému Linux Ještě než se zmíním o možnostech přehrávání digitálního videa na platformě Linux, uvedu malý teoretický základ tohoto procesu (protože díky uskupení okolo FFmpegu na Linuxu můžeme přehrát řadu multimediálních souborů i na platformě Windows). Nejdřív potřebujeme zdroj, kterým může být lokálně uložený soubor, TV vysílání nebo internetový stream. Aby se přenášel zvuk a obraz synchronně a najednou, je třeba je zabalit do kontejneru. Při přehrávání je zase třeba video a zvuk z kontejneru separovat. K tomu slouží tzv. splitter. Pro každý kontejnerový formát potřebujete příslušný splitter. Dále je třeba použít dekodér zvuku a obrazu, případně ještě titulkový filtr. O skutečný výstup se potom postarají grafická a zvuková karta počítače. Obecně existují dva přístupy k přehrávání digitálního videa na počítači. První přístup je založen na architektuře DirectShow. Přehrávače využívající tento první přístup potřebují k přehrání videa tzv. transformační filtry. Pro každé video určitého formátu potřebujete právě tři filtry: splitter, video dekodér a audio dekodér. Pokud chcete i titulky, můžete použít titulkový filtr nebo nechat jejich zobrazení na přehrávači. Některé filtry jsou v systému předinstalované, jiné je nutné doinstalovat ručně (nebo v podobě codecpacků což je sice pro začátečníka nejednoduší varianta, ale zároveň dochází k velkému zanesení systému a je vysoká pravděpodobnost, že nějaký filtr či kodek nebude pracovat spolehlivě). Druhý přístup k přehrávání digitálního videa jsou přehrávače, které mají většinu dekoderů a filtrů integrované přímo v sobě. To znamená, že uživateli stačí jeden přehrávač na většinu souborů. Jedním z nejznámějších přehrávačů pro Linux je MPlayer (viz. pojmy: Programykomerční). Sám o sobě nemá GUI, ale to řeší řada navazujících nezávislých projektů. Dalším vhodným přehrávačem je VCL (opět závislý na FFmpegu). 4.2.7.3. Střih videa pomocí systému Linux Opravdu profesionální střihové řešení pod Linuxem dle mého názoru neexistuje. Je tu sice celá řada programů, jako například Kino, Cinelerra nebo multiplatformní Jahshaka či ZS4 Zwei-Stein Video Editor, ale žádný z nich neposkytuje takové služby jako systémy primárně 14
určené pro Windows či MacOS (Avid, Final cut, atd.). Zde narážíme na pomyslnou hranici mezi open-source projekty (distribuované většinou pod licencí GPL tedy zdarma a k volnému použití) a komerčními projekty (mající uzavřený kód chráněný autorskými právy). Komerční řešení tak mají pořád své nezastupitelné místo v oblasti profesionální editace digitálního videa. Jednak se často stává, že mají více funkcí a možností a velmi často se na ně váže speciální HW. 4.2.7.4. Kódování videa pomocí systému Linux Na rozdíl od editačních programů, v oblasti kódování digitálního videa je situace na Linuxu vynikající a plně srovnatelná s ostatními platformami. Je to hlavně díky už mnohokrát zmiňovaných open-source a GPL projektům. Konkrétně jde o programy FFmpeg, Avidemux, MEncoder (viz. pojmy: Programy-Freeware). mencoder "coastguard(rgb)b.avi" -ovc x264 -x264encopts bitrate=1008:pass=1:threads=2 -oac copy -o "B.avi" Skript-4.1: Ukázkový skript MEncoderu. Ukázka zahrnuje načtení zdrojového videa coastguard(rgb)b a nastavení kodeku x264. Jedná se spíše o základní nastavení, pokročilejší a podrobnější nastavení nám umožňuje v některých případech výrazně zlepšit výslednou kvalitu. 4.2.7.5. Linux a digitální video - zhodnocení Celkově se dá říct, že Linux je vhodný pro přehrávání digitálního videa. Zkušený uživatel dokáže převést (zachytit) video z kamery a provést na něm základní střihové úpravy a pomocí vhodných nástrojů i zmenšit jeho velikost vhodným kodekem. Ale to už vyžaduje uživatele s opravdu značnou zkušeností se systémem Linux. Takový uživatel ale dá podle mne přednost profesionálnějšímu řešení na platformě Mac OS nebo MS Windows (zvlášť proto, že většina programů je multiplatformní). 4.2.8 Zvuk Přestože obsah mé práce je zaměřen na video a na parametry, které ovlivňují kvalitativní stránku, musím se krátce zmínit i o kódování zvuku. To probíhá stejně jako v případě kódování videa. Opět jde o několik způsobu komprese. Od bezeztrátové až po ztrátovou založenou na irelevantních datech (zvuky, které lidské ucho nemůže slyšet). Stejně jako u videa i u zvuku je hlavním zdrojem standardů skupina MPEG. Za zmínku stojí jejich kodek MPEG 1 layer 3 obecně známý jako MP3. Tento kodek způsobil revoluci v digitalizaci hudby a protože je užíván již dlouho, je v současnosti podporován mnoha hudebními zařízeními od mobilů, přes DVD přehrávače až po přenosné přehrávače (tzv. empétrojky ). Při zachování poměrně vysoké kvality umožňuje zmenšit velikost hudebních souborů v CD kvalitě přibližně na desetinu, u mluveného slova však dává výrazně horší výsledky. MP3 díky své malé datové náročnosti se stal velice populární pro legální i nelegální šíření hudby po internetu. Běžný uživatel se ale kódováním zvuku moc nezabývá a většinou použije volbu copy stream, což v mnoha programech určených na kódování videa znamená, že program okopíruje nastavení zdroje nebo nastaví enkóder Lame MP3 (opět open-source program). Další formáty (viz. tabulka: 4.1 Přehled formátů zpravovaných skupinou MPEG) nebudu zmiňovat jsou dost specifické, či jen nějakým způsobem vylepšují MP3, která ale pro účel komprimace videa stačí. 15
4.3. Střih Videa 4.3.1. Definice Střih videa lze označit jako editaci videa, nebo hovoříme o střihové skladbě. Jedná se o proces, kterým se z povodních hrubých materiálů slouží jedno výsledné video. Jde o umělecký obor, kde záleží na mnoha faktorech (výbor scénář, rychlost střihu, hudba, efekty, přechody atd.), které pak ovlivňují výslednou dynamiku i vyznění videa. Zároveň zahrnuje i technickou stránku kódování a dekódování videa. Rozeznáváme dva základní druhy střihových systému: Lineární Střih Před nástupem výkonných osobních počítačů, se dal realizovat střih pouze lineárním způsobem. Pokud tento systém střihu zjednodušíme, můžeme říct, že je tvořen dvěma stroji. Příspěvkovým (playerem) a nahrávacím (recorderem). Samotný střih pak probíhá tak, že v přehrávači běží pásek s originálním záznamem a na recorder se nahrávají pouze vybrané záběry v požadovaném pořadí a délce. Limity takového řešení jsou přitom zřejmé na první pohled. Neustále musíte převíjet kazetu s originálním záznamem a především není možné zpětně upravovat již provedené střihy. Proto vzniknul nelineární systém střihu Obrázek 4.8: Schéma zapojení lineárního střihového systému. 1-počítač, 2-videorekordér, 3-kamkoder, 4-monitor(TV), 5-rozhraní pro lineární střih (zdroj: Jan Novák Digitální fotografie a video, Grada 1998) Nelineární Střih Vznik nelineárních střihových systémů byl umožněn stoupajícím výkonem počítačových procesorů a rostoucí kapacitou pevných disků s vysokou přenosovou rychlostí. Jako nelineární je nazýván proto, že umožňuje záznam v počítači roztřídit do jednotlivých záběrů (segmentů) ty pak libovolně skládat v požadovaném pořadí.tento zpodob střihu reprezentují programy jako je Adobe Premiere CS4, Final Cut Studio 2, atd. (viz. pojmy: Programy- Komerční). Samotný postup je následující, zdrojová videa si nejdřív do programu načteme (musí je umět dekódovat) a pak si požadované segmenty vystřihneme. Během střihu se navíc můžete kdykoliv vrátit a libovolný záběr zkrátit nebo změnit pořadí (od toho je plynoucí nelinearita). Vše často ovládáme pomocí myši a klávesových zkratek. 16
Obrázek 4.9: Pracovní plocha programu Adobe Premiere Pro ukázka nelineární střižny 4.3.2. Pojmy Střih videa je svébytný umělecký i technický obor v jednom. Jako takový má spoustu odborných i slangových termínu. Pro běžného uživatele a jeho pochopení základních principů digitálního videa (což je jedna z hlavních motivací této práce), stačí znát jen několik nejzákladnějších pojmů: Video segment označen části videa které je nepřerušené (viz. definice segmentu v nelineární střižně). Doslovný český ekvivalent neexistuje, můžeme tomu říkat krátká videa, rozstříhané video, atd. Capture proces zachytávání videa z kamery do počítače, pro který se používá výraz grabbing (česky grabování). Pro přenos mezi kamerou a počítačem se vyžívá nejčastěji rozhraní FireWire. Source video doslova zdrojové video, jde o hrubý materiál přetažený z kamery. Například při střihu hudebního videoklipu můžeme mít k dispozici mnoho hodin hrubého materiálu a výsledek je jen pouhých 5 minut výsledného videa (tedy se dá říct, že zdrojové video obsahuje velké množství balastu, které je nutné střihem odstranit). Přechod efekt, který odděluje dva video segmenty od sebe. I absence efektu, tedy tzv. čistý střih (jeden video segment ment skončí a hned navazuje další jiný video segment) je přechod. 17