Učební text Multimédia



Podobné dokumenty
Multimediální systémy. 08 Zvuk

Digitalizace signálu (obraz, zvuk)

Osnova přednášky. Formáty uložení dat. Vyjádření hodnot datového typu. Vyjádření hodnot datového typu. Datové formáty. Výpočetní technika I

Zvuk a jeho vlastnosti

Zobrazovací a zvuková soustava počítače

Výklad učiva: Co je to počítač?

Výukový materiál KA č.4 Spolupráce se ZŠ

aneb jak se to tam všechno vejde?

Rastrový obraz, grafické formáty

Počítačová gramotnost II Mgr. Jiří Rozsypal aktualizace

Digitální paměťový osciloskop (DSO)

Zpracování zvuku v prezentacích

Převody datových formátů

Základní pojmy. Multimédia. Multimédia a interaktivita

Akustika. Rychlost zvukové vlny v v prostředí s hustotou ρ a modulem objemové pružnosti K

Barvy na počítači a grafické formáty

Paměti a jejich organizace

Výzva k podání nabídek

Zvukové jevy. Abychom slyšeli jakýkoli zvuk, musí být splněny tři základní podmínky: 1. musí existovat zdroj zvuku

PŘÍTECH. Klarinet Vlastnosti zvuku

Základy informatiky část 10

Jak. dokonalou prezentaci v. PowerPointu. Marek Laurenčík

Inspiron 13. Nastavení a technické údaje. řada v 1. Model počítače: Inspiron Regulační model: P69G Regulační typ: P69G001

Alfanumerické displeje

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA. VZOR PŘIJÍMACÍ ZKOUŠKY DO NAVAZUJÍCÍHO STUDIA Obor: Manažerská informatika

Název školy: Základní škola a Mateřská škola Žalany

Maturitní otázka z POS - č. 6. Optické nosiče dat

TECHNICKÉ PREZENTACE

Multimediální formáty

GEOGRAFICKÉ INFORMAČNÍ SYSTÉMY 6

MLE2 a MLE8. Datalogery událostí

Rozlišení - V současnosti patří mezi nejběžněji používaná rozlišení: SVGA ( ), XGA ( ), SXGA ( ), UXGA ( )

GRAFY A GRAFOVÉ ALGORITMY

Hardware. Z čeho se skládá počítač

Digitální fotoaparáty, základy digitální fotografie

Výzva k podání nabídek

CAD II přednáška č. 5. Grafické formáty PCX GIF TIFF BMP

SDĚLENÍ Z PRAXE. MUDr. Oto Köhler 1, CSc., Ing. Vladimír Krulík, CSc Urologické oddělení ÚVN Praha 2. ESSA Praha, s. r. o.

Fakulta informačních technologií VUT v Brně Ústav počítačových systémů Periferní zařízení, cvičení IPZ Analýza komunikace na sběrnici USB

1. Snímací část. Náčrtek CCD čipu.

Obecný úvod do autoelektroniky

Architektura počítače

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti

Úvod do počítačové grafiky

Inspiron 15. Řada Pohledy. Technické údaje

Multimediální systémy

Technologie počítačových sítí 5. cvičení

Intervalové stromy. Představme si, že máme posloupnost celých čísel p 0, p 1,... p N 1, se kterou budeme. 1. Změna jednoho čísla v posloupnosti.

SBÍRKA ZÁKONŮ. Ročník 2008 ČESKÁ REPUBLIKA. Částka 51 Rozeslána dne 15. května 2008 Cena Kč 80, O B S A H :

Pociťte vibrace senzačního zvuku

Digitální telefonní signály

Tabulkové processory MS Excel (OpenOffice Calc)

Domácí kino v přehledu 11 Domácí kino, k čemu je dobré? 12 Bačkorové kino bylo včera 12 dnes je v kurzu domácí kino! 13

Průvodce Bosch IP síťovými video produkty. Představení IP technologie a budoucnosti průmyslové televize.

Č e s k ý m e t r o l o g i c k ý i n s t i t u t Okružní 31,

Vzorkování. Je-li posloupnost diracových impulzů s periodou T S : Pak časová posloupnost diskrétních vzorků bude:

Obsah. Úvod 15. Vše potřebné o psaní a plánování 27. Oddíl I Preprodukce

Ultrazvukový detektor úniku plynu GM. Jak rychle váš systém detekce plynu detekuje úniky? Protože každý život má smysl...

SEKCE J INFORMAČNÍ A KOMUNIKAČNÍ SLUŽBY

Rastrové grafické formáty. Václav Krajíček KSVI MFF UK, 2007

Akustika. Autor: Mgr. Jaromír JUŘEK Kopírování a jakékoliv další využití výukového materiálu je povoleno pouze s uvedením odkazu na

3. D/A a A/D převodníky

UZ modul VVISION poslední změna

Office podrobný průvodce. Tomáš Šimek

enos dat rnici inicializaci adresování adresu enosu zprávy start bit átek zprávy paritními bity Ukon ení zprávy stop bitu ijíma potvrzuje p

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

OBSAH CO JE CO ANEB 0 DIGITÁLNÍ MAGII 1 OBRAZ A ZVUK V ŘEČI JEDNIČEK A NUL 7

Maturitní témata. Informační a komunikační technologie. Gymnázium, Střední odborná škola a Vyšší odborná škola Ledeč nad Sázavou.

Elektronické sirény MAESTRO

Návod na použití prezentační techniky

Kamera - základní pojmy. Připravil: Jiří Mühlfait, DiS.

Záznam a reprodukce zvuku

R10 F Y Z I K A M I K R O S V Ě T A. R10.1 Fotovoltaika

Hudba jako zábava. obsah 1 Nero WaveEditor 2 První spuštění 3 Panel nástrojů 4 Zobrazení souboru 5 Nastavení programu 6 Přehrávání zvuku

Uživatelský manuál. A3600 DL ( Data Download)

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ , 5.1 a 5.2 8/14

Grafické adaptéry a monitory

Počítačové zpracování obrazu Projekt Učíme se navzájem

10. blok Logický návrh databáze

KOMPRIMACE. aneb Aby to zabralo méně místa

P edstavení notebooku

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Představení notebooku Uživatelská příručka

Operační systém (OS) Porty. PC zdroj Instalace. Podmínka Záruka

OSNOVA. 1. Definice zvuku a popis jeho šíření. 2. Rozdělení zvukových záznamů (komprese) 3. Vlastnosti jednotlivých formátů

Polohovací zařízení. Počítačová myš

Vlnění, optika mechanické kmitání a vlnění zvukové vlnění elmag. vlny, světlo a jeho šíření zrcadla a čočky, oko druhy elmag. záření, rentgenové z.

Metodika pro učitele

Hardwarová akcelerace HD videa v návaznosti na architektury čipu grafických karet

Testujeme notebook pro opravdové hráče: Toshiba X200

Registrační číslo projektu: CZ.1.07/1.5.00/ Název projektu: Moderní škola 21. století. Zařazení materiálu: Ověření materiálu ve výuce:

PROCESOR. Typy procesorů

Signálové a mezisystémové převodníky

Charakteristiky zvuk. záznamů

Komprese zvuku. Ing. Jan Přichystal, Ph.D. 14. března PEF MZLU v Brně

Počítačová grafika a vizualizace I

Inovace výuky prostřednictvím šablon pro SŠ

INFORMAČNĚ TECHNOLOGICKÝ ZÁKLAD

Informační systémy ve zdravotnictví

6. Střídavý proud Sinusových průběh

Transkript:

Učební text Multimédia

1. MULTIMÉDIA Talking about multimedia is a lot like talking about love. Everybody agrees that it s a good thing, everybody wants it, wants to participate in it, but everybody has a different idea of what it really is. Right now, the industry reminds me of a bunch of teenagers dabbling in something that instinctively feels right, all the while wondering how and when they ll know for sure if they re really in it, and what to do about it if they are. (Vaughan) (Hovory o multimédiích se velmi podobají hovorům o lásce. Všichni souhlasí s tím, že je to dobrá věc, každý ji chce, chce se na ní podílet, ale každý má jiný názor, co to skutečně je. Právě teď mi obor připomíná partu teenagerů, kteří se rýpají v něčem, o čem si instinktivně myslí, že je to to pravé, a celou dobu jsou zvědaví, jak a kdy si budou jisti, jestli jsou skutečně v tom a co budou dělat, pokud ano) Co to vlastně multimédia jsou? Pojem "médium" je ve slovníku cizích slov vysvětlen jako "zprostředkující činitel". Koncem XX. století si slovo "média" přisvojila především oblast komunikace a rozuměla jimi druhy sdělovacích prostředků, případně soubory prostředků a systémů, zajišťujících přenos sdělení často složité povahy (hudba, vizuální umělecké formy apod.) od emitora k recipientovi (příjemce). Termín "multimédia" - společné působení více médií, popř. jejich prolínání - se přitom v literatuře objevuje často ve velmi různých kontextech. multimédia - oblast informační technologie charakteristická sloučením audiovizuálních technických prostředků s počítači. Multimediální systém je souhrn technických prostředků jako je počítač, kamera, video, televize a další zařízení, která jsou schopná provozovat audiovizuální prezentaci v interakci s uživatelem. Moderní systémy již bývají vybavovány alespoň základními technickými prostředky pro provozování multimediálních aplikací. 1.1. Kde se multimédia nejlépe uplatní Použití multimédií je vhodné všude tam, kde člověk potřebuje přístup k elektronickým informacím. Multimédia rozšiřují tradiční textové počítačové rozhraní a podstatným způsobem podporují udržení pozornosti, zvyšují atraktivitu a mnohdy jsou i velice zábavná. Díky těmto vlastnostem se mohou přiblížit i lidem, kteří se jinak počítačům vyhýbají. V komerční oblasti se multimédia používají hlavně k prezentacím, reklamě, marketingu a jsou perfektním prostředkem při kurzech a různých školení. Vhodně sestavená prezentace přináší oživení výkladu a kombinací textové a grafické informace s hudbou na pozadí a vloženými videoklipy můžeme lépe upoutat posluchače. Hojně se multimédií používá pro veřejné účely a také v domácnosti. Pro využití multimédií na veřejných místech se nabízejí samostatné terminály v hotelech, na nádražích, v obchodních centrech nebo v muzeích. Tyto terminály mohou zájemcům nebo zákazníkům poskytovat informace nebo rady a nahradit tak tradiční informační službu nepřetržitým servisem V domácnostech se v současnosti používá řada různorodých zařízení - od video a audio přehrávačů přes herní systémy (PlayStation, Sega, Nintendo, ) až po plně multimediální počítače. Snahou výrobců a dodavatelů multimediálních programů je dosáhnout postupně sloučení těchto jednotlivých zařízení do jediného univerzálního systému. Tento proces bývá označován jako konvergence počítačových, volnočasových a herních médií. 2

1.1.1. Multimédia a virtuální realita Pro realistické znázornění virtuální reality je nezbytný vysoký výpočetní výkon, podobný nebo ještě vyšší než vyžadují multimediální aplikace. Navíc jsou pro proniknutí do virtuálního světa potřebné speciální pomůcky (helmy, rukavice, snímače polohy a natočení ). Přesto jsou aplikace virtuální reality nenahraditelné - například pro nacvičování nebezpečných situací, přípravu pilotů a obsluh speciálních zařízení, prohlídku navrhovaného objektu pro architekty a přirozeně také hry. 1.1.2. Multimédia a hry V současnosti je grafické zpracování her velice realistické. Vývojáři her se zaměřili na nejmenší detaily. Můžeme vidět stíny různých objektů, změnu fyzikálního modelu při změně počasí (když prší, klouže nám to) a jiné detaily. K realistické podobě her také pomohlo detailně zpracované zpracování zvuku, kdy slyšíme každé bouchnutí dveří či dopadající kapky deště na listy stromů. Značného rozšíření doznala multimédia při pořádání kurzů a školení. Multimediálně prezentované informace jsou i v tomto případě názornější a tím pádem snáze zapamatovatelné, školený člověk má navíc možnost se k libovolným problematickým partiím znovu vracet a lépe si uvědomovat logické vazby studované problematiky. 1.2. Využití multimédií při výuce Je obecně známo, že člověk si zapamatuje nejvíce vizuálních a auditivních vjemů. Výzkumy ukázaly, že informace vstupují do našeho mozku následujícím způsobem: 87 % zrakem 9 % sluchem 4 % jinými smysly Psychology bylo dokonce zjištěno, že člověk je schopen zapamatovat si asi 70% informací, o kterých diskutuje a až 90% informací, které sám realizuje. Proto odborníci považují za nejlepší typ moderní výuky výuku s využitím interaktivního systému. Pro multimédia představují školy patrně nejvhodnější prostředí. Vzhledem k problémům s financováním sice mají školy problémy s obstaráváním nových technologií, přesto může nasazení multimédií při výuce zcela změnit samotný výukový proces. Z učitelů se stávají spíše průvodci neomezeným světem informací a rádci při cestě žáků a studentů za získáváním znalostí. Tato vize je v současné době pro většinu vyučujících velmi provokující a i z toho důvodu se výukové programy využívají především jako obohacení klasických výukových metod a ne jako jejich plnohodnotná náhrada. 1.2.1. Proč používat vizuální proces předkládání informací Vizuální proces předkládání informací má oproti verbálnímu několik hlavních výhod, které je nutno zvažovat při realizaci vizuálního procesu a to: Upoutávání pozornosti, ignorovat text či schéma nebo obrázek s využitím multimediálních prostředků je obtížné a v okamžiku, kdy student sleduje vizuální informace (data), není jeho pozornost odváděna jinými zrakovými podněty. Upoutat pozornost ve věku využívání informačních technologií není snadné a všichni přitom potřebují využívat veškeré zdroje pomoci. 3

Přinášejí změnu, vizuálně předkládané informace přinášejí změnu a stávají se tak dynamičtější, z čehož plyne, že vzbuzují větší zájem. Napomáhají konceptualizaci, v této oblasti lze spatřovat významnou až hlavní výhodu vizuálního procesu s využitím multimediálních prostředků. Mnoha pojmům a myšlenkám se porozumí spíše vizuálně než verbálně. Např. praktickým dovednostem při tvorbě schémat ovládání tekutinových obvodů. Jsou snáze zapamatovatelné, z výzkumů vyplynulo, že většina lidí si lépe pamatuje vizuální než verbální informace. Jsou projevem zájmu učitele, jestliže pedagog tráví čas přípravou vizuálních pomůcek, studenti zaznamenají zájem pedagoga, že mu záleží na tom, aby získali znalosti dané disciplíny a dovedli je implementovat do konkrétních podmínek praxe. To je však třeba ještě podpořit sebevědomým a znalým postojem při prezentaci takto vytvořených materiálů a pomůcek. 1.2.2. Omezení a výhody multimediálních přednášek Při sestavování vizuálního procesu s využitím multimediálních prostředků je třeba si uvědomovat některá omezení, zejména z hlediska studentů samotných (Jako je třeba rychlost střídání stran. Z vlastní zkušenosti mohu říci, že snad nejvíce dokáže posluchači přednášející probíranou látku znechutit tím, že si přednášku plete s video sekvencí. Pro tento způsob rychlé výměny jednotlivých stran se mezi studenty vžil název Slide show.) a jaký zisk za vynaložené úsilí autora čeká. Materiály pro vizuální proces by měly být sestaveny na základě následujících pravidel: Předkládat jen nutné znalosti, pro zajímavost uvést něco navíc a nejlépe nakonec doplnit praktickým příkladem. Trvanlivost, mělo by být co nejméně pravděpodobné, že materiály zastarají. Neviditelná technika, pedagog ani jeho projev by neměl být zastíněn složitou technikou, ovládání programu by mělo probíhat více méně intuitivně. Informace zpracované pro multimediální prostředky formou vizuálních procesů mají tyto výhody: Informace je velmi snadné aktualizovat, jde o velmi podstatnou výhodu, protože většina oborů se stále vyvíjí velmi rychle. I v případě, že data zůstávají nezměněna. Téměř vždy je možno dospět k tomu, jak je možné materiál ještě zlepšit, poté co byl poprvé použit. 4

Materiál má profesionální úroveň, což je výhodou samo o sobě. Pedagogové se také díky tomu méně ostýchají navzájem si půjčovat své materiály, což šetří čas při přípravě a umožňuje vzájemné zapůjčení materiálů a jejich úpravu tak, aby vyhovovaly potřebám jiného pedagoga. Jednoduché uchovávání a přenositelnost, je mnohem jednoduší uchovávat data, než stohy papíru.v dnešní době není vůbec žádný problém uchovávat data např. na HDD, ZIP, CD nebo CD-RW. Jsou také jednoduše přenositelná, díky své velikosti a kompatibilitě počítačů. Snadné kopírování materiálů, díky rychlým vypalovacím CD-R, RW mechanikám je možno udělat kopii celého CD za necelé čtyři minuty. Ke snadnému šíření materiálů v datové podobě také přispívají lokální počítačové sítě a takřka zásadní vliv v této oblasti má globální počítačová síť Internet. 1.3. Dostupná multimediální zařízení k použití při výuce 1.3.1. Multimediální počítač Abychom mohli využít možnosti multimediálních programů, musíme si zajistit potřebný hardware a software, který nám toto umožní. Jako multimediální můžeme označit každý počítač, protože každý má zobrazovací možnost, zvukový výstup a možnost vstupu dat od uživatele. Ale pro kvalitní práci s multimediálním programem jistě využijeme zvukovou kartu s reproduktory, kterou je možno doplnit mikrofonem pro záznam vlastních zvukových stop. Dalším zařízením pro přenos multimediálních záznamů je síťová karta, jejíž pomocí je možné se připojit k dalším počítačům. Nejznámější počítačová síť využívající multimédií je Internet. Ke každému multimediálnímu zařízení jeho výrobce dodává potřebný software pro integraci zařízení do systému a zároveň pro jeho použití. Jinými slovy, jestliže si zakoupíme zvukovou kartu, zároveň dostaneme potřebný software pro instalaci, aby byla karta rychle a plně využitelná. 1.3.2. Zpětný projektor Zpětné projektory se využívají pro zobrazování průhledných předloh, nejčastěji fólií. Zpětné projektory nejsou tedy elektronickým přístrojem nýbrž pouze optickým. Na pracovní plochu zpěťáku se položí fólie, která je přes optickou soustavu promítána na projekční plochu. Rozhodujícími parametry již není rozlišení, ale především výkon (jas) měřený v lumenech (lm), přenosnost a uživatelské vybavení. Existují dva druhy zpětných projektorů, které se liší pouze způsobem zobrazení fólie do optické soustavy. První způsob je klasický, průsvěcový. Na pracovní plochu se položí průhledná fólie, která je prosvěcována lampou, umístěnou pod pracovní plochou. Nad pracovní plochou umístěná optická soustava pak promítá zvětšenou fólii na projekční plochu. Druhý způsob je tzv. metoda reflexní. Ta na rozdíl od průsvěcové metody má umístěnu lampu nad pracovní plochou, která je tvořena zrcadlem a způsobem reflexe je fólie přenášená do optické soustavy a následně na projekční plochu. Kromě tohoto rozdělení pak dělíme zpětné projektory následně. 5

Stolní nejlevnější, zpravidla velké a těžké (cca 10-15 kg). Nemají výraznější uživatelské funkce, jejich svítivost je menší. Nejčastější použití ve školách (známý Meotar) pro nenáročné prezentace zpravidla textu. Konferenční přístroje vypadají stejně jako stolní, mají však širší škálu uživatelského vybavení a i výkon bývá vyšší. 1.3.3. Data video projektory Data video projektory se využívají pro velkoplošné zobrazování počítačového nebo video signálu. Nejsou tedy zdrojem signálu, musí být vždy připojeny na nějaké zařízení jako např. PC, Macintosh, notebook, videorecorder, satelit, DVD, digitální fotoaparát, kameru apod. SVGA projektory se používají pro klasické aplikace Windows, Office, pro prezentace všeho druhu, pro znázorňování textu apod. Kromě toho je z ekonomických důvodů vhodnější i pro video signál, který má menší kvalitu než právě nižší počítačový signál. Data video projektory jsou nejčastěji pořizovány školami všech stupňů, společnostmi využívající aplikace s nenáročnou grafikou atd. XGA projektory jsou vhodné už pro náročnější grafické aplikace, pro prezentaci grafických modulů, obrázků apod. Mají větší tendenci růstu, poněvadž skýtají přeci jen větší spektrum možností. Během dvou let by mělo plně nahradit SVGA rozlišení, které by mělo ustoupit do pozadí stejně jako nyní VGA rozlišení. 1.3.4. Vizualizéry Vizualizér je zařízení velice podobné zpětným projektorům. Na rozdíl od těchto zpěťáků, dokáží vizualizéry promítat nejen průsvitné fólie, ale také jakékoliv tiskopisy či prostorové předměty. Ve spojení s počítačem, můžeme říct, že jde o 3D scanner. Pořízením vizualizéru získáte několik přístrojů v jednom. Jednak je schopen zobrazit průhledné fólie, takže není potřeba zpětného projektoru. A zároveň je schopen zobrazit i neprůhledné tiskopisy, nahrazuje tedy beze zbytku episkop. Navíc dokáže zobrazit prostorové předměty. Podstata a funkce vizualizéru je velice jednoduchá. Předmět je položen na pracovní plochu, kde jej snímá pár speciálních video kamer. Kvalita zobrazovaného obrazu je pak přímo úměrná ceně přístroje. Aby byl výsledek zobrazení co nejlepší, přisvěcuje se předmět zabudovanými světly, které jsou směrové a nevadí tak ani přítomným ve výhledu. Kamery vizualizéru mají řadu funkcí, jako např. optický ZOOM, automatické ostření apod. Vizualizér se nejčastěji používá ve spojení s data video projektorem, poněvadž až s jeho pomocí dokáže vytvořit obraz v solidní velikosti. Kromě tedy čistě prezentačnímu využívání vizualizéru, je zde ještě věc, kterou jsme již nakousli na začátku, a to 3D scaner. Své uplatnění nalézají tedy především v grafických studiích, kde s jeho pomocí dokáží oskenovat jakýkoliv předmět v libovolné pozici a velikosti. Hmotnost vizualizérů je velice příjemná. Pohybuje se již od 4 kg. 6

2. KOMPRIMACE DAT Komprese či komprimace se stala během posledních několika let nenápadným společníkem našich životů. Používá se všude, kde je možnost setkat se s multimédii. Tak např., když si pustíte film na DVD, tak tento film ač ve skvělé kvalitě je komprimován. Stejně tak, když si pouštíte mp3 na vašem počítači nebo stahujete data z internetu je zde komprese přítomna. Samozřejmostí zde je, že data různého charakteru vyžadují rozdílný přístup k jejich kompresi. Tzn., že textový soubor se komprimuje jinak než třeba video. 2.1. Rozdělení komprimace Komprimace se dá rozdělit podle několika základních hledisek: bezztrátová a ztrátová komprimace fyzická a logická komprimace symetrická a asymetrická komprimace adaptivní a neadaptivní komprimace 2.1.1. Bezztrátová a ztrátová komprimace Bezztrátová komprimace se používá všude tam, jak už název napovídá, kde si nelze dovolit jakoukoliv ztrátu dat. Tento typ používají známé pakovací (od angl. pack - zabalit) programy jako Winrar či Winzip. Stejně tak se používá při přenosu dat na internetu. Ztrátová komprese se používá tam, kde ztráta některých informací nevadí. Používá se například u obrázků, videa nebo zvuku. Její princip je založen na nedokonalosti lidských smyslů, tedy uší a očí. Není to tak, že by jste ve své oblíbené muzice přišli třeba o bicí. Ztrátovou kompresi většinou ani nepoznáte. 2.1.2. Fyzická a logická komprimace Rozdíl mezi fyzickou a logickou komprimací spočívá v tom, zda komprimační algoritmus při komprimaci přihlíží nebo nepřihlíží k logické informační hodnotě komprimovaných dat. Logická komprimace používá logické substituce sekvence znaků jinou, úspornější řadou. Konkrétním příkladem jsou zkratková slova jako Čedok (nahrazující někdejší plný název Československá dopravní kancelář) nebo Svazarm(Svaz pro spolupráci s armádou). Fyzická komprese probíhá bez zřetele na logiku dat, se kterými se manipuluje. Vytváří se nová sekvence znaků (bajtů, bitů atd.), jejíž vztah k původním datům lze rozpoznat výhradně s použitím nekomprimačního algoritmu. Bez znalosti tohoto algoritmu je informační hodnota komprimovaných dat nulová. 2.1.3. Symetrická a asymetrická komprimace Toto rozdělení je založeno na porovnání množství práce, která se podle algoritmu vykoná při kompresi a dekompresi dat. Pokud je doba (a tím většinou i počet a druh operací) potřebná pro kompresi a dekompresi dat přibližně stejná jedná se o symetrickou kompresi. Některé algoritmy jsou však záměrně konstruovány jako asymetrické. Většina takových komprimačních algoritmů provede větší množství operací při kompresi dat. Krátká doba 7

dekomprimace je výhodná například tam, kde soubor dat ukládáme na disk sice v komprimovaná podobě, ale často s ním pracujeme. 2.1.4. Adaptivní a neadaptivní komprimace Tyto algoritmy se rozlišují podle své schopnosti přizpůsobit se charakteru dat, se kterými pracují. Neadaptivní algoritmy jsou určeny výhradně pro komprimaci specifického druhu dat. Většinou obsahují předdefinované slovníky nebo řetězce znaků, o kterých je známo, že jejich pravděpodobnost výskytu v souborech dat je vysoká. Adaptivní algoritmus je naproti tomu schopen dosáhnout určité nezávislosti na komprimovaných datech. Takové algoritmy neobsahují žádné statické slovníky řetězců, ale budují si je pro každý komprimovaný soubor dat znovu dynamicky v průběhu kódování. Obecně lze říci, že adaptivní algoritmy platí za svou přizpůsobivost a větší šíři použití menší rychlostí ve srovnání se specializovanými neadaptivními algoritmy. To však jistě nikoho nepřekvapí. 2.2. Komprimační algoritmy Ačkoli k používání kompresních programů zpravidla není třeba žádných zvláštních znalostí, problematika komprimačních algoritmů (dále jen KA) je natolik zajímavá, že se jí vyplatí alespoň částečně ochutnat. 2.2.1. RLE (Run-lenght Encoding) Jedná se KA, který lze použít na jakýkoliv druh dat. Na charakteru těchto dat však velmi silně závisí dosažený kompresní poměr. Ačkoliv se RLE ve většině případů nemůže pochlubit tak dobrou kompresí jako jiné složitější algoritmy, jeho výhoda tkví v jednoduchosti celého algoritmu a s tím související poměrně vysoká rychlost komprimace a dekomprimace. Její princip spočívá v tom, že některé znaky se vyskytují vícekrát za sebou. Řetězec opakujících se znaků se nazývá proud. Tento proud znaků je vždy zkomprimován do formy jednoho paketu RLE. Tento paket obsahuje vždy 2 informace. Proudové číslo, které udává počet znaků proudu snížený o jedničku a následující proudovou hodnotu, jež se shoduje s hodnotou opakujícího se znaku v proudu. Pokud by tedy text vypadal následovně: AAAAkkRRRRRm, byl by zakódován do této podoby: 3A1k4R0m. Tento algoritmus se sice nehodí ke komprimaci textu, protože slova jako aaaaaaaaa se nevyskytují příliš často, k čemu se ale hodí je komprimace jednoduchých obrázků s malou barevnou hloubkou (maximálně 256 barev). To jsou např. obrázky ve formátu PCX [2]. 2.2.2. LZW (Lempel-Ziv-Welch) algoritmus Komprimační algoritmus LZW je jednou z nejrozšířenějších komprimačních metod, kterou používají (v různé formě) jak kompresní programy (např. ARJ, PKZIP, ZOO, LHA atd.), tak i různé grafické formáty obrázků. Jedná se o tzv. substituční (adaptivní slovníkovou) metodu. Základním principem tohoto KA je vyhledávání stejných posloupností bajtů v originálním souboru. Pomocí odkazů na tyto posloupnosti dat algoritmus buduje datový slovník. 8

Komprimace pak probíhá podle následujícího schématu: Pokud se posloupnost bajtů (řetězec) ve vytvářeném slovníku nevyskytuje, je tato posloupnost přidána do slovníku a v nezměněné formě zapsána do komprimovaného výstupního toku dat. Pokud se výstupní posloupnost bajtů ve slovníku již nachází, zapíše se do výstupního toku dat pouze zástupná slovníková hodnota odpovídající nalezené vstupní posloupnosti. Díky tomu, že zástupná hodnota je vždy menší než čtená posloupnost, dochází ke kompresi dat. Dekomprimace je inverzním procesem, při kterém algoritmus čte komprimovaný tok dat a stejným způsobem vytváří datový slovník posloupností řetězců bajtů. Dekompresor tedy postupně komprimované kódy, zapisuje na výstup příslušné řetězce a přidává nové řetězce do slovníku. Existují dvě základní schémata tohoto KA. Jeho počátky jsou spojeny se jmény Abraham Lempel a Jakob Ziv. Tito pánové vypracovali v letech 1977 a 1978 KA, které vešly do povědomí pod zkratkami LZ77 a LZ78. V roce 1984 na jejich práci navázal Terry Welch, který modifikoval KA LZ78 pro potřeby hardwarových zařízení, konkrétně diskových řadičů. Tak vznikla podoba Lempel-Ziv-Welch algoritmu známého pod zkratkou LZW [2]. LZ77 Komprimační část algoritmu LZ77 funguje tak, že se pokouší vyhledat co nejdelší opakující se posloupnosti znaků. Pokud takovou posloupnost nalezne, zapíše na výstup pouze odkaz na předcházející výskyt řetězce. Například vstupní řetězec: Leze po železe Se zakóduje do podoby: Leze po že[10,4]. Znaky [10,4] je třeba považovat za schématicky zapsaný offset udávající, že dekodér má z předcházejících deseti znaků vybrat první čtyři. Dekomprimace souboru zkomprimovaného touto metodou je velice jednoduchá a rychlá. Vždy když dekomprimační algoritmus narazí na offset udávající ukazatel a délku řetězce, prostě tento řetězec zkomprimuje na výstup. LZ78 Zatímco metoda LZ77 vytváří svůj dynamický slovník pomocí odkazů do již komprimovaného textu, vylepšený algoritmus LZW patřící do třídy algoritmů LZ78 používá slovníkové odkazy odlišně. Metoda LZW vytváří dynamický slovník opakujících se řetězců v průběhu komprimace. Různé modifikace algoritmů třídy LZ78 se liší ve způsobu vytváření slovníku. Slovníková komprese LZW je založena na následující velmi jednoduché strategii. Algoritmus postupně rozpoznává a ukládá do tabulky řetězce znaků a tyto řetězce nahrazuje ve výstupním textu přirozenými čísly s předem definovaného intervalu. Definice intervalu je závislá na charakteru komprimovaných dat. Například při kódování řetězce znaků zobrazených v osmibitovém zobrazení (znaků ASCII) je prvních 255 čísel vyhrazeno pro zobrazení 9

samostatných znaků z původního souboru. Čísla nad 255 se pak přidělují jednotlivým nalezeným řetězcům. Při tom se vytváří slovník (tabulka) již rozeznaných řetězců, který se v průběhu komprimace udržuje v paměti počítače. Běh algoritmu začíná s prázdným slovníkem a řetězcem W obsahujícím první znak zdrojového souboru. Vždy po přečtení dalšího znaku c zjistí, jestli se řetězec W+c vyskytuje ve slovníku. Pokud ano, pouze prodlouží řetězec o znak c, jinak zapíše nový odkaz na řetězec do slovníku. Pokud řetězec W obsahuje jediný znak, bude do slovníku zanesen pouze jediný znak. Vzhledem k tomu, že do slovníku se zapisují čísla větší než 255, je nutné i tento jediný znak zapsat v příslušné podobě. K vyjádření odkazu na řetězec se většinou používá 12bitová hodnota (0-255 jednotlivé znaky, 256-4095 řetězce znaků) [2]. Pro větší názornost si ukažme konkrétní příklad. Mějme například vstupní řetězec znaků: WEB/WEB/WEB! Tabulka 1 Kódování řetězce algoritmem LZ78 Řetězec W Přečtený znak Výstup Nová položka ve slovníku W W E W (256) = WE E B E (257) = EB B / B (258) = B/ / W / (259) = /W W E WE B (256) (260) = WEB B / B/ W (258) (261) = B/W W E WE B WEB! (260) (262) = WEB!! (eof)! Při dekompresi se slovník řetězců vytváří znova z komprimovaného souboru (tedy není součástí souboru). Vytvořený slovník je pak totožný s tím, který se vytvořil při kompresi a dekompresi nic nebrání. Výhody: velmi dobrý kompresní poměr rychlá komprese i dekomprese možnost kontinuálního vysílání zkomprimovaných dat Nevýhody: když zaplním velikost paměti pro slovník smaže se velký slovník dlouhá doba hledání řetězce 2.2.3. Huffmanovo kódování Huffmanovo kódování je nejznámějším zástupcem skupiny algoritmů, které pracují na principu různých četností znaků v kódovaných datech. 10

Základní myšlenku této skupiny algoritmů lze popsat takto: při komprimaci se postupuje tak, že nejprve komprimační algoritmus zjistí pravděpodobnosti výskytů jednotlivých znaků (případně jejich kombinací) a každému znaku (kombinaci znaků) přiřadí jedinečný kód. Takovéto kódy se liší svou bitovou délkou. Tato část algoritmu je nejdůležitější a musí být navržena tak, aby přiřazení kódů znakům respektovalo požadavek na přiřazení bitově nejkratších kódů znakům s častějším výskytem a bitově delších kódů znakům s méně častým výskytem. Pak již jen algoritmus postupně načítá znaky vstupního souboru, nachází odpovídající předem přiřazené kódy a tyto kódy zapisuje na výstup. Příklad: Potřebujeme zkomprimovat soubor, který obsahuje pouze znaky: A, 8, 0, K, R. Zjištěná pravděpodobnost výskytu těchto znaků je: A 50 %, 8 12,5 %, 0 6,25 %, K 6,25 %, R 25 %. Vytvoříme tzv. binární strom Huffmanova kódování, kde seřadíme jednotlivé znaky podle jejich výskytu. Obrázek 1 Strom Huffmanova kódování Dle stromu přiřadíme kódy jednotlivým znakům: A: 1 8: 011 0: 0100 K: 0101 R: 00 Toto funguje bezproblémově pokud pravděpodobnosti výskytu znaků jsou mocninou 2. To se však stane jen málokdy. Pokud jsou pravděpodobnosti jiné, pak se zaokrouhlují. Při tomto zaokrouhlování musí být dodrženy dvě základní zásady: součet všech procentuálních hodnot 11

musí dávat hodnotu 100% a v každém patře vytvářeného stromu může být maximálně určitý počet listů a uzlů. Tento počet je dále omezen již vytvořenými patry stromu. Pokud se navíc stane že dva znaky mají stejnou pravděpodobnost a nemohou být zaokrouhleny oba nahoru, pak se zkrátka jeden zvolí a jemu přiřazen větší počet bitů než druhému. Shanon-Fanovo kódování Shanon-Fanovo kódování (dále jen S-F) je velmi podobné Huffmanovu. Rozdíl mezi oběma algoritmy spočívá v konstrukci binárního stromu. Tvorba binárního stromu v S-F modifikaci je poněkud jednodušší. Lze ji shrnout do dvou následujících kroků: Rozděl soubor symbolů na dvě skupiny se stejnou nebo co nejpodobnější celkovou pravděpodobností znaků obsažených v obou skupinách. První skupině se přiřadí binární symbol nuly a druhé binární symbol jedničky. Opakuj první krok na všechny dosud vytvořené skupiny, dokud každá nebude obsahovat jediný znak. Rozdíl mezi způsoby vytvaření binárních stromů v Huffmanově a S-F variantě je v tom, že Huffmanovo kódování vytváří strom od koncových listů směrem ke kořenu, zatímco S-F metoda postupuje obráceně od kořene k listům [2]. Příklad: Mějme soubor se znaky s těmito pravděpodobnostmi výskytu: A 46% 8 22 % R 22 % 0 5 % K 5 % První skupina pak bude obsahovat pouze znak A (46%) a druhá ostatní znaky (54%). Binární strom pak bude vypadat následovně: Obrázek 2 Strom Shanon Fanova kódování 12

Kódy jednotlivých znaků pak jsou: A: 1 8: 000 0: 001 K: 010 R: 011 Aritmetické kódování Základní myšlenku použitou v této komprimační metodě lze popsat ve stručnosti takto: aritmetické kódování reprezentuje celou zprávu jako číslo z intervalu <0,1). Na začátku kódování uvažujeme celý tento interval. Jak se zpráva prodlužuje, zužujeme postupně interval tzn. přibližují se k sobě horní a dolní mez nově vytvářeného intervalu. Na konec stačí zapsat libovolné číslo z výsledného intervalu to samo o sobě reprezentuje celou zprávu. Algoritmus komprese lze nastínit jako následující sekvenci kroků: zjištění pravděpodobnosti výskytu jednotlivých znaků ve zdrojovém souboru Rozdělení intervalu <0,1) na podintervaly, jejichž vzájemný poměr velikostí odpovídá poměru pravděpodobností jednotlivých znaků (seřazených dle abecedy). Uložení tohoto základního rozdělení intervalu <0,1). Vlastní komprese víceznakové zprávy: Komprese víceznakové zprávy bude probíhat tak, že se nejprve vybere první znak vstupního souboru. Ten zúží interval <0,1) na podinterval příslušející tomuto znaku tak, jak mu byl přidělen v druhém bodě celkového algoritmu aritmetického kódování. Tento podinterval bude rozdělen stejným způsobem jako dříve celý interval <0,1). Po načtení dalšího znaku bude podinterval dále zúžen podle načteného znaku. Tak to půjde dále až do načtení posledního znaku zprávy. Posledním bodem je vybrání kteréhokoliv zlomku náležejícího do výsledného nejjemnějšího podintervalu a jeho převedení do binární formy Nejjednodušeji lze tento algoritmus pochopit na příkladu: Naším úkolem bude za pomoci aritmetického kódová ní zakódovat tříbajtovou zprávu obsahující znaky XXY. V souladu s prvním bodem algoritmu aritmetického kódování zjistíme, že zpráva obsahuje pouze dva znaky: Pravděpodobnost výskytu znaku X je 2/3, pravděpodobnost výskytu znaku Y je 1/3. V dalším kroku rozdělíme v tomto poměru (tedy 2:1) interval <0,1) a rozdělení si zapamatujeme. Nyní již přistoupíme ke kódování vstupního souboru. Načteme první znak souboru, kterým je písmeno X a zjemníme původní interval na podinterval <0, 2/3). Tento interval opět rozdělíme v poměru 2:1. Dělícím bode bude v tomto případě bod 4/9. Načteme další znak je jím opět písmeno X, které nám podinterval opět zúží na <0, 4/9). Tento interval opět rozdělíme v poměru 2:1 dělícím bodem je v tomto případě 13

zlomek 8/27. Následujícím znakem zprávy je písmeno Y, jež opět zúží interval, o který se budeme zajímat, na <8/27, 4/9). Vzhledem k tomu, že třetí znak je v našem vstupním souboru také znakem konečným, je konečný i tento interval. Zbývá již jen vybrat libovolnou hodnotu z tohoto intervalu, která převedena do binární formy bude reprezentovat celou vstupní sekvenci. Vyberme číslo 3/8. Obrázek 3 Tabulka aritmetického kódování Dekomprese zakódované zpráva do původního stavu je prostá. Načteme rozdělení intervalu <0,1) na podintervaly podle poměru pravděpodobností jednotlivých znaků a počet znaků původní zprávy. V našem příkladu budeme postupovat takto: Načteme kód 3/8, který reprezentuje vstupní posloupnost znaků. Tento zlomek náleží do intervalu <0, 2/3), který odpovídá znaku X. Zapíšeme tento znak na výstup. Nová hodnota kódu bude (3/8-0) / (2/3) = 4/9 Zlomek 4/9 náleží opět do podintervalu <0, 2/3). Jako druhý znak zapíšeme na výstup opět X. Úprava kódu bude nyní následující: (4/9-0) / (2/3) = 2/3 Zlomek 2/3 náleží do podintervalu <2/3, 1). Tento interval odpovídá znaku Y, který je tudíž třetím znakem původní zprávy. Víme, že originální sekvence se skládala právě ze tří znaků, a proto dekomprimaci ukončíme. 14

Shrnutí Huffmanovo, Shannon-Fanovo ani aritmetické kódování se v praxi nepoužívají samostatně, ale zpravidla v kombinaci s nějakou slovníkovou metodou. Výhody: velmi dobré kompresní poměry ve spojení se slovníkovou metodou poměrně jednoduchý algoritmus dekomprese Nevýhody: Huffmanovo a Shannon-Fanovo kódování je nejefektnější při hodnotách pravděpodobnosti výskytů, jež jsou celočíselnou mocninou čísla ½ aritmetické kódování má vysoké nároky na technické vybavení počítače u aritmetického kódování je nutná softwarová manipulace s čísly o desetinném rozvoji na 20-30 desetinných míst, přičemž je nutné vyvarovat se jakéhokoliv zaokrouhlování relativně dlouhá doba komprese 2.2.4. Další metody DCT (diskrétní kosinová transformace) a JPEG Při kompresi plně barevných obrázků s mnoha barevnými přechody nejsou metody RLE a LZW příliš efektivní. Kvalitní obrázky mají jen málokteré sousední pixely shodné. Pro takové obrazy byla navržena metoda, při níž je kompresní poměr řízen požadavkem na výši kvality dekomprimovaného obrazu. V praxi se ukazuje, že snížení kvality na 75% je pro většinu uživatelů nepozorovatelné. Metoda řízení ztrátové komprese využívající DCT se nazývá JPEG. Je vhodná především pro kódování fotografií. Metoda není vhodná pro obrazy s nižším barevným rozlišením. Obrázek 4 Posloupnost operací při kompresi JPEG Fraktální komprese Je to moderní a teprve se rozvíjející metoda ztrátové komprese a patří mezi nesymetrické kompresní postupy (výrazně se liší čas komprese a dekomprese). Je to jedna z nejperspektivnějších metod komprese. Je založena na principu vyhledávání podobností v různě velkých částech obrazu. Je překvapivé, jak velké množství podobných a opakujících se detailů a motivů můžeme najít na obrázcích z reálného světa i generovaných počítačem. Výsledný soubor na takto komprimované obrázky se nazývá FIF (Fractal Image Format). Algoritmus FIF se snaží nejprve vhodně rozdělit obraz na menší, nestejně veliké části a poté z nich pomocí různých transformací poskládat celý obraz. 15

3. ZVUK 3.1. Co je to zvuk Zvuk je podélné mechanické vlnění hmotného prostředí s kmitočtem v rozmezí přibližně od 16 Hz do 20 khz, které působí na lidský sluchový orgán a vyvolává v něm subjektivní sluchový vjem. Zvukové vlny se od zdroje zvuku šíří všesměrově. Rychlost šíření zvuku je závislá na vlastnostech prostředí; v případě vzduchu je to zejména teplota a atmosférický tlak. 3.1.1. Frekvence a Amplituda Zvuk slyšíme prostřednictvím chvění našich ušních bubínků. Tyto mohou kmitat dvacetkrát až dvacet tisíckrát za sekundu. Toto kmitání se nazývá frekvence a měří se v hertzích (Hz). Maximální rozlišení, které je ucho schopno slyšet, jsou zvuky mezi 20Hz a 20kHz. Hudební nástroj při hře vibruje. Příkladem může být struna houslí, blána bubnu, či kužel reproduktoru. Tyto vibrace se přenášejí na molekuly vzduchu a ty pak zvuk přenášejí k našemu uchu. Je-li frekvence vibrací nízká, slyšíme nízký tón, je-li vysoká, slyšíme vysoký tón. Jsou-li vibrace jemné, způsobují pouze nepatrný pohyb vzduchu, slyšíme tichý zvuk. Tento pohyb se nazývá amplituda. Je-li amplituda tak vysoká, že při ní drnčí okna slyšíme hlasitý zvuk. Amplituda se měří v decibelech (db). Citlivost našich ušních bubínků v decibelech je velice těžko určitelná, záleží totiž ještě na frekvenci daného zvuku. Dá se ale přibližně říci, že lidské ucho je schopno zaznamenat zvuk spektra 0-120 db [14]. Zajímavost: Jednotka frekvence dostala svůj název na počest Heinricha Hertze, který roku 1888 formuloval teorii o vztahu mezi zvukovými cykly a jejich frekvencí. 3.2. Zvuk v počítači 3.2.1. Vzorky a MIDI Pokud se pracujete s počítačem jistě jste si již všimli, že hudba je zde prezentována dvěma základními způsoby vzorky a MIDI. Zatímco u vzorků se jedná o digitalizovaný záznam zvuku (zvukové vlny), MIDI dává pouze řídící data popisující hudbu ( dají se přirovnat k jakýmsi složitějším notám). Z tohoto plyne základní rozdíl v použití. To jestli je soubor MIDI nebo vzorek, určuje způsob práce s hudbou v počítači i hardwarové a softwarové prostředky potřebné pro tuto práci. Je důležité zmínit se o tom, že MIDI soubory jsou spíše používány hudebníky, zatímco vzorky jsou užitečné hlavně pro toho, kdo chce pracovat se zvukem. Proto se budeme zabývat spíše vzorky a standart MIDI bude popsán jen okrajově na konci části o zvuku. 3.2.2. Mono a Stereo Dovolte, abych použil vysvětlení výrazu stereofonie ze slovníku cizích slov. Tedy: stereofonie - systém záznamu, přenosu a reprodukce zvuku s použitím nejméně dvou elektroakustických kanálů umožňujícím zachování směrového a prostorového vjemu. 16

Zásadní rozdíl mezi mono a stereo nahrávkou je tedy především v tom, že stereo zvuk je uložen ve více kanálech (standardně ve dvou levém a pravém), zatímco mono jen v jednom. Stereo zvuku se dosahuje tak, že zvuk je snímán dvěma mikrofony zaráz. 3.2.3. Digitální zvuk Digitálně vytvářený zvuk vzniká výpočty v počítači, který pracuje s digitálními daty. Není třeba žádné fyzické akce, které jsou nutností pro tvorbu zvuku analogového. Záznam digitálního zvuku a jeho konverze do digitální podoby se nazývá vzorkování a lze ho definovat, jako proces přeměny zvuku vytvořeného analogovým zdrojem na digitální data. Na vstupu zvukové karty je A/D převodník, který velmi často snímá úroveň vlny a převádí ji do číselné podoby. Takto se v počítači získá zvuk ve formátu PCM, což je pulzní kódová modulace. Kvalita digitálního zvuku je pak určena vzorkovací frekvencí a rozsahem hodnot zaznamenávané amplitudy vlny. Teorie o digitálním záznamu zvuku Vzorkovací frekvence, která určuje počet vzorků za sekundu, musí být alespoň dvakrát vyšší, než je nejvyšší zaznamenaná frekvence daného zvukového vzorku. Vzorkovací frekvencí většiny digitálních nahrávek se stalo 44 100 Hz, protože tato frekvence je dvojnásobkem maxima slyšitelného lidským uchem. Zajímavost: V roce 1928 formuloval matematik Harry Nyquist teorii, založenou na vlastních zjištěních. Zjistil, že pokud navzorkuje změny zvuku nejméně dvakrát během každé periody vlnové křivky, dokáže tuto vlnovou křivku reprodukovat. V praxi to znamená, že pokud máte zvuk o frekvenci 20Hz potřebujeme nejméně 40 vzorků, abyste jej mohli reprodukovat. Obrázek 5 Zpracování zvuku Digitální reprezentace dat nabízí mnoho výhod. Mezi ně například platí snadná přenositelnost, snadná reprodukce, vysoká odolnost proti vzniku šumu (hlavně při vytváření kopií). Digitální uložení také nabízí možnost digitálních úprav mixování na počítači, filtrování, přidávání a ubírání basů, výšek atd. Kvalita vzorkovaného zvuku Když vzorkujeme zvuk, můžeme ho zaznamenat v různých úrovních kvality. Kvalita vzorkování je definována: vzorkovacím kmitočtem, který se měří v Hertzech (Hz). Vzorkovací kmitočet určuje, kolikrát za sekundu počítač zapíše hodnotu amplitudy analogového zvuku (44 khz = 44.000 měření za sekundu). Pozn. vzorkovací kmitočet a vzorkovací frekvence jsou totéž. 17

šířkou slova (rozlišení), která vyjadřuje počet bitů použitých na vyjádření hodnoty vzorků. Šířka slova může být 8-bitová, 16-bitová, 24-bitová a 32-bitová. Tabulka pod tímto textem uvádí minimální a maximální hodnoty pro některá hlavní bitová rozlišení audiosignálu. Tabulka 2 Bitová rozlišení zvuku Rozlišení Minimální Maximální Dynamický Prostor na pevném hodnota hodnota rozsah disku (min/mono) 16 bitů -32 768 32 767 96 dbfs 5 168 Kb 24bitů -8 388 608 8 388 607 144 dbfs 7 752 Kb 32 bitů -2 147 483 648 2 147 483 647 193 dbfs 10 336 Kb Poznámka: dbfs - napěťové hodnoty s tímto označením se používají u digitálních zařízení, při měření úrovní na vstupech a výstupech. Zkratka FS" je odvozena z anglického full scale". Maximální hodnota na stupnici zároveň určuje maximální hranici signálové úrovně, která nesmí být překročena, protože pak dochází k přebuzení AD převodníků a tím pádem ke zkreslení. Tento vrchol decibelové stupnice u digitálních zařízení se označuje jako 0 dbfs. Tyto dvě základní vlastnosti vzorků mají vliv na to, kolik vzorek zabere místa v paměti na disku. Vhodná volba těchto parametrů je obzvláště z hlediska jejich velikosti velmi důležitá. Pokud se jedná o záznam mluveného slova, není zapotřebí žádná závratně vysoká kvalita a stačí, když bude mluvenému slovu rozumět. Pokud ale vzorkujete hudbu, je výhodné použít nejvyšší možnou kvalitu. Vzorek tak sice zabere více místa, ale jeho kvalita je prakticky totožná s kvalitou originálu. Konec konců, vždy je tu ještě možnost vzorek zkomprimovat. V následující tabulce je uvedeno několik příkladu kvality vzorkování a velikosti vzorku v MB. Tabulka 3 Příklady kvality vzorkování zvuku a velikosti Kmitočet Délka Velikost na (Hz) slova disku (10s) Výsledná kvalita 11 khz 8 bitů 110 kb Velice nízká zvuková kvalita 22 khz 8 bitů 220 kb vhodné pro mluvené slovo 44 khz 8 bitů 440 kb Relativně dobrá zvuková kvalita, ale při tomto vzorkovacím kmitočtu byste měli použít 16 bitů 11 khz 16 bitů 220 kb Odpovídá průměrnému nastavení 22 khz 16 bitů 440 kb Dobrá kvalita 44 khz 16 bitů 880 kb CD kvalita (pokud je nahrána stereo) Důležité je ještě vědět, že vzorek může být zaznamenán buďto mono nebo stereo. Při stereofonním vzorkováním se pochopitelně velikost vzorku dvojnásobně zvětší. Stejně tak 16 bitový záznam bude zabírat dvakrát více než 8bitový. V tabulce uvedená data o velikosti na disku jsou pro mono vzorky. K tomu, abyste však mohli nahrávat s rozlišením 24 nebo 32 bit potřebujete zvukovou kartu, která toto rozlišení podporuje. Standardní zvukové karty podporují 16 bit a to, že nahrávání nastavíte na 32 bit pouze způsobí, že nahrávka zabere více místa, ale kvalita bude pouze 16 bit. Je proto dobré znát své vybavení. 3.3. Zpracování zvuku První fází procesu zpracování zvuku je tedy snímání zvuku, kdy se pomocí různých měničů (mikrofony, snímače kytary...) převádí akustická energie na energii elektrickou. Nejčastěji používaným měničem je mikrofon. Protože se zvuk snímá v určitém prostředí, je vždy jeho 18

součástí i zvukový projev prostředí, tedy reakce na samotný zvuk (odrazy, dozvuk, rezonance místnosti nebo těles v ní). To může být do značné míry negativním prvkem, zcizujícím původní signál. Proto např. nahrávací studia pracují s mikrofony v zatlumených nebo speciálně akusticky upravených prostorách. Další postupy se liší podle přístupu a našich možností. Pojmenujme si jako profesionální a amatérský. I když tato pojmenování nejsou zcela přesná či výstižná pro náš účel jsou dostačující. Stejně tak jen podrobný popis nahrávacího řetězce by vydal rozsahem na samostatnou práci a proto bude popisován velmi zjednodušeně. 3.3.1. Profesionální postup Zvuk transformovaný na elektrický signál jde od mikrofonu k mixážnímu pultu a přídavnému zařízení (outboard gear). Zde lze jednotlivé zvuky směšovat do sebe, dynamicky je upravovat, měnit jejich zabarvení, ladění, přidávat jim prostor atd. Zde se také zvuk zaznamenává. Poté je elektrický signál prostřednictvím výkonového zesilovače (power amplifier) a elektroakustického měniče (reproduktorové soustavy studiových monitorů) převeden zpět na zvuk. 3.3.2. Amatérský postup Zvuk z mikrofonu jde přímo do zvukové karty počítače, kde je přeměněn A/D převodníkem na digitální. Veškeré korekce zvuku (krom hlasitosti) jsou prováděny až po záznamu zvuku. Zpětná vazba je zde realizována reproduktory počítače. Obrázek 6 Amatérská cesta záznamu zvuku Poslechové monitory v režii či reproduktory vašeho PC slouží vlastně ke kontrole jakéhokoli procesu v předchozích fázích, a proto je jejich kvalita (společně s vhodnou akustikou místnosti) rozhodujícím faktorem ovlivňujícím výsledek. Snímání zvuku a jakékoli jeho další zpracování totiž přizpůsobujeme tomu, co slyšíme, a tudíž se logicky dopouštíme tím méně chyb, čím ideálnější je kontrolní poslech. 3.4. Komprese Zvuku Wav formát nekomprimovaného zvuku Standard vzorkování zvuku 44 100 Hz byl pojmenován Pulse Code Modulation (PCM) a je tím nerozšířenějším standardem pro současné vzorkování zvuku. Jen hrstka vyvolených s perfektním sluchem a se špičkovým vybavením pozná rozdíl mezi takto vzorkovaným zvukem a analogovým originálem. Je tedy docela jednoduché, pomocí dnešního softwaru, převést jakýkoli analogový zvuk pomocí počítače do digitální podoby. Výsledkem tohoto 19

převodu bude zatím ještě nekomprimovaný zvuk s uživatelsky nastavenou vzorkovací frekvencí. Dejme tomu, že převedeme klasické Audio CD (CD-DA). Protože je Audio CD (CD-DA) vzorkované 44 100 Hz, nemá smysl ho převádět na vyšší vzorkovací frekvenci. Máme tedy na disku WAV soubor nesoucí informace o zvuku (jsou identické s těmi zaznamenanými na CD). Trošku matematiky na úrovni ZŠ nám pomůže k vypočítání velikosti tohoto zvukového souboru. Každý vzorek má 16 bitů, nebo dva byty podle definice 8 bitů = 1 bajt. Každou sekundu proběhne 44 100 vzorků, a protože je dnes skoro vše nahráváno stereo, musíme počet vzorků vynásobit dvěma. Tím dojdeme k číslu 176 400 bajtů, které udává velikost jedné sekundy digitálně uloženého zvuku na našem disku. Přesně 10 584 000 bajtů, přibližně 10 MB je potřeba k uložení jedné minuty zvuku nehledě na typ zvuku (ticho se vzorkuje stejně jako fanfára). Archivace takto velikých souborů už v dnešní době není tak problémová, na druhou stranu manipulace s těmito daty je pořád náročná a proto je vhodné audio záznam zkomprimovat. 3.4.1. Bezztrátová komprese Bezztrátová komprese využívá několik kompresních algoritmů na zmenšení původní velikosti při stoprocentním zachování integrity a podoby původního zdroje. To znamená, že po dekompresi bude zvuk naprosto identický s originálem. V dnešní době je poměr komprese (angl. compression ratio) dosažitelný bezztrátově, přibližně 1 : 2. Technika komprese je stejná jako u datové komprese textu, například pomocí algoritmů zip či rar... Protože ale ani zip ani rar nejsou koncipovány pro kompresi zvuku, používají se k těmto účelům algoritmy jiné. Jak už je zvykem, formátů je hned několik na výběr. Každý má svůj klad, ale žádný nezahrnuje všechny výhody těch ostatních, a proto se nedá říci, že by byl některý ve všem výrazně lepší než ostatní. Neexistuje totiž ani dostatečná podpora a rozšířenost. K úspěchu jakékoli kompresní technologie je potřeba její nezávislost na platformě (Windows, Linux, MacOS), rychlost komprese a dekomprese, stabilita a příslušná dokumentace, která umožní přístup k formátu i ostatním komerčním/nekomerčním subjektům. Teorie bezztrátové komprese Pokusím se nastínit práci bezztrátového kodeku. I když se bude jednat o práci algoritmu vyvinutého pro flac (Free Loseless Audio Codec), ostatní algoritmy jsou u jiných bezztrátových formátů téměř totožné. Flac (stejně jako všechny kompresní algoritmy) pracuje v několika krocích. Zvukový soubor je v prvním kroku rozdělen do jednotlivých bloků. Ty se mohou lišit velikostí a jejich podobu určuje několik faktorů včetně vzorkovací frekvence, spektrální charakteristiky v daném čase. Dalším krokem je kanálová dekorelace, při níž dochází k porovnávání obou stereo kanálů mezi sebou. Dále se snaží enkodér jednotlivé bloky matematicky vyjádřit. Ne vše se ale dá vyjádřit matematicky přesně, a právě tyto případy řeší poslední krok, při němž jsou matematické nepřesnosti (předpoklady) popisovány zvlášť. Velice zjednodušeně se dá říci, že bezztrátová komprese spočívá v matematickém popisu audio souboru podle pravidel, která jsou určována každým kodekem zvlášť. Vždy je potřeba enkodér, jenž nekomprimovaný zvuk komprimuje, a posléze je potřeba dekodér, který komprimovaný zvukový soubor opět uvede do stavu před kompresí [15]. 20

K čemu je bezztrátová komprese? Bezztrátová komprese nemá pro obyčejného uživatele valného využití, naopak ti kdo archivují, či hromadně digitalizují vysoce kvalitní nahrávky (např. nahrávací studia), najdou v bezztrátové kompresi určitě využití. Některé kodeky pro bezztrátovou kompresi Nejrozšířenějším bezztrátovým formátem, alespoň podle jeho zastoupení na výměnných serverech a diskusních fórech je monkey's audio (www.monkeysaudio.com). Jeho největší výhoda, kromě vysoké popularity v rámci bezztrátových kompresních formátů, je nejlepší kompresní poměr. Dalším z těch úspěšných je wavpack, který zase nad ostatními vyčnívá rychlostí komprese (www.wavpack.com). Tím nejuniverzálnějším se dnes jeví Free Loseless Audio Codec, zkráceně flac (flac.sourceforge.net). Flac je jedním ze zdárných příkladů výsledku práce open-source komunity. Jedná se tedy o multiplatformní software a je zdarma. 3.4.2. Ztrátová komprese Na otázku, který formát je ten nejlepší, opět nelze podat uspokojivou odpověď. Ztrátových kompresních kodeků, které stojí za zmínku podle své použitelnosti, ztráty na kvalitě originálu, rychlosti a kompresního poměru, je jen několik. Jedná se o Musepack (mpc), Ogg Vorbis (ogg), MPEG-1 Layer 3 (mp3) a Advanced Audio Coding (aac). Další formáty jako Windows Media Audio (WMA), VQF či RealAudio (RA) se mezi uživateli myslícími to s hudbou vážně příliš neprosadily, a i přes snahy jistých komerčních subjektů neprosadí díky nekompatibilitě, špatnému poměru kvality nebo velikosti komprimovaného výstupu. Teorie ztrátové komprese Pokusím se demonstrovat, jakým způsobem ke kompresi dochází u formátu mp3. Komprese je tolik účinná v imitaci audio kvality původního CD díky metodě maskování. Pokud se ve stejný čas objeví silnější zvukový signál, který nedovolí posluchači zachytit signál slabší, je ten slabší při kompresi vymazán. Zjednodušeně - když nad námi například přelétává letadlo jen pár set metrů, hluk motorů nám brání v rozhovoru. Zvukové vlnění naší konverzace je rušeno silnějšími vlnami letícího letadla. Mp3 tedy hledá ve všech audio souborech podobné zvuky letadla, které maskují zvuky ostatní, a sází na to, že všichni mají natolik otupělý sluch, že nikdo nic nepozná. Místo dat, která bychom stejně neslyšeli, ukládá jen to, co papírově slyšet můžeme. Stejně jako u komprese bezztrátové, i zde dochází ke kompresi v několika krocích. Nejdříve projde zvukový signál filtrem, jenž rozdělí zvukovou stopu na jednotlivé frekvence. Současně prochází takto filtrovaný zvuk psychoakusticky modelovaným filtrem, zjišťujícím ono maskování neslyšitelných frekvencí těmi slyšitelnými. Posledním krokem je tzv.bit allocation, metoda, která se zbaví nežádoucího šumu. Po zpracování všech těchto informací dojde k oddělení neslyšitelného obsahu od samotného souboru, a komprimovaný mp3 je na světě. Při oddělování neslyšitelných frekvencí se také uplatňuje teorie, že lidské ucho není schopno zaregistrovat frekvence nižší než 15 Hz a vyšší než 20 khz. Vše, co skladba obsahuje mimo tuto hranici, se vymaže také [15]. 21

Aplikací všech těchto pravidel a teorií mohou dosáhnout formáty mp3 nebo Ogg Vorbis zmenšení velikosti až na 10 % originálu při průměrné kvalitě. Kvalita zvuku se po kompresi vyjadřuje šířkou datového toku (angl. bitrate). Audio CD (CD-DA) má datový tok 1 411 200 bitů za sekundu (stereo), což se dá také vyjádřit jako 1411 kbps (kilobits per second, kilobitů za sekundu). Typicky komprimované soubory (nehledě na použitý kodek) budou mít datový tok 64-256 kbps a uložená informace, tedy zvuk, bude znít našemu uchu většinou stejně jako originál. Krátce o některých formátech ztrátové komprese Formát MPEG-1 audio Pro přenos audia v normě MPEG-1 slouží tři vrstvy (od angl. layer). Tyto vrstvy jsou jakýmsi označením verzí, kde Layer 1 je nejstarší a Layer 3 nejnovější. Jednotlivé vrstvy se od sebe liší hlavně kvalitativně. Všechny společně využívají frekvenční maskování (silnější zvuk je překryt slabším) a poslední dva navíc ještě Temporal Masking, který využívá nedostatečné rychlosti přizpůsobení sluchu při přechodu z hlasitého signálu na tichý. Layer 3 (tedy mp3) je v současnosti nejrozšířenějším kodekem ztrátové komprese a je využíván i pro komerční účely jako je obchodování s hudbou na internetu. Windows Media Audio (WMA) Firma Microsoft pro své video formáty WMV a ASF (používaný zejména pro streamování videa a hudby po internetu) vyvinula zvukový kodek WMA. Tento formát patří mezi nejrozšířenější hlavně díky politice firmy Microsoft, která je jej implementuje do svých operačních systémů. Využívá toho, že průměrnému uživateli stačí jednoduché rozhraní a přítomnost přehrávače hned po instalaci, než aby instalovaly jiný, třeba i lepší přehrávač. Hlavní rozdíl mezi WMA a ostatními formáty je možnosti zachování autorských práv (v praxi to ovšem často znamená spíš omezení než výhodu). Formát WMA dosahuje lepších výsledků než mp3 pouze při nízkých datových tocích. Dokazuje to hlavně několik testů mezi mp3 datového toku 128 kbps, jenž se kvalitou rovná WMA datovému toku 64 kbps. Navzdory tomuto faktu tento formát na ostatních liniích prohrál. ACC (Advanced Audio Coding) Kodek AAC je přímým nástupcem mp3. Při jeho vývoji byly vypuštěny problematické části mp3 a přidány funkce a možnosti, o nichž se při vývoji mp3 ještě ani nevědělo. Psytel AAC je nejkvalitnějším kodekem, k němuž se může koncový uživatel volně dostat. Je vyvíjen Ivanem Dimkovičem a jeho práce a samotný kodek AAC je považován za vrchol současného oboru ztrátové komprese. Kodek umožňuje práci až s 48 samostatnými kanály a vzorkovací frekvencí až 96 khz. Formální testy s mp3 dokázaly, že AAC s datovým tokem 96 kb/s se kvalitou vyrovná mp3 komprimovaným 128 kb/s. Formát AAC byl vybrán pro systém DRM (Digital Radio Mondiale digitální rozhlasový přenos na krátkých, středních i dlouhých vlnách AM). Muse Pack (MPC) Musepack je ztrátový kompresní formát vyvíjený Andree Buschmannem na základech starších algoritmů mp2 (MPEG-1 Audio Layer 2). Disponuje podporou jednoduchého sterea a v současné stream verzi 7 (sv7) vzorkovací frekvencí 44 100Hz. Podle několika neformálních testů se ukázal musepack jako nejkvalitnější ze všech dostupných ztrátových formátů v 22