Konzervatoř P. J. Vejvanovského Kroměříž Materiály pro výuku IKT v hudbě (2015/2016) Reprodukce a digitalizace zvuku Adam Šiška 1 Elektrifikace zvukových vln Zvuk, potažmo zvukové vlny, nejsou nic jiného něž změny tlaku prostředí, nejčastěji prostředí plynného (vzduch), jež fyzicky (mechanicky) spojuje zdroj vlnění s ušním bubínkem posluchače. Tyto změny tlaku musíme ještě před procesem digitalizace nějak elektricky modelovat, neboli zpřístupnit hardwaru počítače. Nabízí se využít změn napětí, které lze rovněž charakterizovat pomocí složených sinusoid. Pokud postavíme tlakovým vlnám (opakovanému zvyšování a snižování tlaku ve směru od zdroje vlnění) do cesty nějaký předmět, například list papíru nebo pohyblivou membránu mikrofonu, nutně začne tento předmět vibrovat na stejné frekvenci, jakou má zdroj zvuku. Zvukové vlny tedy lze převést na mechanické pohyby předmětu dopředu a dozadu (ve směru od zdroje a ke zdroji zvuku). Zbývá tedy elektrifikovat, tj. zaznamenat pomocí změn napětí, tento pohyb. Dynamický mikrofon Z principu elektromagnetické indukce víme, že stejně jako elektrický proud vyvolá vznik magnetického pole, tak magnetické pole vyvolává proud ve vodiči. Změny magnetického pole v blízkosti vodiče (nejlépe cívky) tudíž vyvolávají podobné změny napětí na koncích vodiče. Celý princip elektrifikace tlakových vln je znázorněn na obrázku 1. Je nutné dodat, že tento princip pouze ilustrativně popisuje fungování dynamického mikrofonu, stejně jako jednoduchých reproduktorů (elektromagnet bud přitahuje nebo odpuzuje membránu). Technická řešení dnešních modelů 1
Obrázek 1: Schéma dynamického mikrofonu. jsou samozřejmě mnohem sofistikovanější. Problém tohoto principu elektrifikace je rovněž nasnadě, malé změny magnetického prostředí vyvolávají také malé změny napětí na výstupech cívky (celý mechanismus dnes prakticky funguje díky možnostem vyrobit velmi silné permanentní magnety). Dynamické mikrofony (bez potřeby napájení) nejsou velmi citlivé a potřebují zesilovač signálu, který vždy přidává určitý šum. Menší citlivost je ale možné brát i jako výhodu, například při záznamu hlasitého zpěvu nebo hlasu při venkovním použití. Kondenzátorový mikrofon Jen pro úplnost dodejme, že nejkvalitnějšího záznamu zvuku dosahují tzv. kondenzátorové mikrofony. Kondenzátor (kapacitor) je elektronická součástka, která může získat a držet určitý náboj podle své kapacity. Princip kondenzátorového mikrofonu (viz obr. 2) spočívá v tom, že je membána mikrofonu spojena s jednou elektrodou kondenzátoru. Při pohybu této elektrody dochází ke změně kapacity kondenzátoru, kterou lze převést na změny napětí, pokud je celý obvod napájen proudem. Kondenzátorové mikrofony tedy, na rozdíl od dynamických, potřebují napájení. Jsou ale daleko citlivější než dynamické, a proto jsou používány pro profesionální záznam zvuku v nahrávacích studiích nebo jako měřící přistroje. Obrázek 2: Schéma kondenzátorového mikrofonu. 2
Charakteristiky mikrofonů Mikrofony můžeme rozlišovat např. podle citlivosti, šumu, nebo frekvenčního rozsahu, který jsou schopny zaznamenat, a dalších (elektrických) vlastnostní. Pro běžnou hudební praxi ale vyzdvihneme charakteristiku směrovou. Tato charakteristika udává, z jakých směrů mikrofony přijímají zvukové vlny. Základní je všesměrová (kulová) charakteristika (obr. 3a); zvuk je snímán stejně intenzivně ze všech směrů kolem mikrofonu. Tyto mikrofony jsou vhodné např. pro odposlouchávání (tzv. štěnice). Pro záznam hlasu zpěváka na koncertu by ale takový mikrofon určitě nevyhovoval, kromě zpěvu by pochopitelně stejně intenzivně zaznamenával i reakce diváků pod pódiem. Pro toto použití tedy musíme zvolit např. mikrofon se srdcovou (obr. 3b) nebo úzce směrovou charakteristikou (obr. 3c), který zaznamená nejintenzivněji zvuky před mikrofonem a tlumí zvuky z pozadí (dodejme, že toto platí pro zvuky vyšších frekvencí, hluboké tóny bezpečně rozvibrují jakýkoliv mikrofon v libovolném směru). Obrázek 3: Směrové charakteristiky mikrofonů. Popsané principy zaručují snímání a reprodukci zvuku na tzv. analogové bázi. Mnohdy, ač už to v dnešní době nebývá zvykem, počítač (a digitalizaci) v rámci hudební produkce nemusíme vůbec využít. 2 Digitalizace zvuku Již víme, že problém digitalizace zvuku je vlastně problém digitalizace elektrických impulsů různých kmitočtů a průběhů. K problému tedy můžeme přistoupit víceméně teoreticky, přičemž výsledek digitalizace zvuku je vlastně soubor číselných hodnot určitého formátu. Je zřejmé, že budeme zaznamenávat hodnoty elektrického napětí (kopírující výchýlení membrány při záznamu) v jednotlivých časových okamžicích. Při každém měření je třeba zvolit přesnost, při tzv. vzorkování zvuku se prakticky využívá několik bitových hloubek: 8 bitů (tj. 256 různých hodnot) se používá při digitalizaci telefonních hovorů v síti GSM/GPRS, 16 bitů (tj. 65 536 hodnot) se používá při finální produkci hudby na kompaktním disku (CDDA, compact disc digital audio), 3
24/32 bitů (16 milionů resp. 3 miliardy hodnot) používají profesionální studiové zvukové karty. Otázkou zůstává jak často je potřeba měření provádět, tj. kolik vzorků za sekundu získávat. Lze předpokládat, že časové rozlišení bude (podobně jako u dvaceti pěti filmových obrázků za vteřinu) určeno rozlišovacími schopnostmi lidského ucha. Běžně se udává, že člověk slyší zvuky od 20 Hz do 20 000 Hz (tj. 20 khz), ačkoliv rozdíly mohou být u jednotlivců velmi velké a k zhoršování sluchu dochází v dospělosti víceméně nepřetržitě a pomalu snižuje horní hranici slyšeného rozsahu frekvencí. Kmitání pod slyšitelnou hranicí nazýváme infrazvuk, nad slyšitelnou hranicí ultrazvuk. Podrobnosti k těmto kmitáním jsou zajímavé, ale momentálně (naneštěstí) mimo zájem tohoto textu. Zvolme jako příklad vzorkovací frekvenci 8000 Hz. Čím delší vlna v čase, tím více bude během jejího průběhu změřeno vzorků. Každý jeden kmit tónu o frekvenci kolem 400 Hz (v jednočárkované oktávě) bude zaznamenán přibližně 20 krát. Tón ze čtyřčárkové oktávy okolo 4000 Hz bude ale při svém průběhu zaznamenán pouze 2 krát. Právě dva vzorky i pro tu nejkratší vlnu (největší frekvenci v záznamu) jsou považovány za minimum, vzorkovací frekvence musí být tedy alespoň dvakrát větší, něž největší frekvence v záznamu 1. Parametry digitalizace určují čipy nazvané AD/DA převodníky na zvukové kartě počítače. V praxi se používájí následující vzorkovací frekvence: 8 khz pro GSM/GPRS, 44,1 khz pro CD, 96/192 khz pro profesionální zpracování zvuku. 3 Zvukové formáty Základní představu o digitalizaci zvuku nám dá formát CDDA užitý při lisování kompaktních disků. Prakticky se jedná o surová (RAW) data získaná při procesu popsaném v předchozí části. První kompaktní disky mohly pojmout až 74 minut 2 stereo záznamu při vzorkovací frekvenci 44, 1 khz a 16 bitové hloubce. Každou vteřinu stereo záznamu tvoří 2 44100 2 B = 176400 B = 172 kb dat, což je 10 MB za minutu. Prakticky s hudebními soubory v počítači pracujeme ve formátu WAVE. Jde o CDDA data opatřená hlavičkou s údaji o parametrech digitalizace, uložená v souborech s příponou.wav (proces kopírování dat z CD do paměti počítače se označuje jako ripování z angl. ripping). 1 Shannonův teorém: Přesná rekonstrukce spojitého, frekvenčně omezeného signálu z jeho vzorků je možná tehdy, pokud byla vzorkovací frekvence vyšší než dvojnásobek nejvyšší harmonické složky vzorkovaného signálu. zdroj: Wikipedia, cit. 21.12.2015. 2 Kapacita disku 74 minut je navržena s ohledem na délku nahrávky Beethovenovy 9. symfonie z roku 1951. http://www.dutchaudioclassics.nl/the cd laser/ (cit. 21.12.2015) 4
Možnosti komprese Zvuková data v této kvalitě a velikosti představovala ještě v nedávné době problém při přenosu nebo archivaci. I dnes se jako daleko praktičtější jeví datový tok v řádu jednotek mega bytů (MB) za minutu. Z hlediska kvality běžných zařízení pro reprodukci zvuku a omezených schopností lidského ucha lze množství zvukových dat stlačit pomocí ztrátové komprese. Tato komprese je uplatněna u formátů MP3, OGG Vorbis nebo WMA. Pouze OGG je formát otevřený a svobodný. V praxi se u těchto souborů používají datové toky 128 kbps 3, 192 kbps nebo 320 kbps. Komprimovat data lze i bezztrátovou kompresí (angl. lossless). Pro zvuková data existuje svobodný formát FLAC, vhodný například pro zálohování CD disků. Pár desítek minut běžného hudebního alba zabírá ve FLAC formátu pár set mega bytů. 4 Syntéza zvuku Syntézou zvuku v tomto článku míníme především digitální syntézu zvuku. Je však potřeba podotknout, že první syntezátory 4 byly vesměs analogové a dnešní digitální softwarové syntezátory jejich činnost často simulují. Z předchozího textu plyne, že syntéza (generování) zvuku spočívá ve výpočtu hodnot zvukových dat, tj. součtu hodnot různých sinusoid. Je vhodné podoknout, že složení více zvuků i nestejných frekvencí a fází bude většinou hlasitější než vstupy a výsledný zvuk je tedy často nutné tzv. normalizovat (viz část o programu Audacity), což vrátí jeho hlasitost do původního rozsahu. Pokud generujeme zvuk tvořený jednou jednoduchou sinusoidou, dostaneme zvuk, který můžeme slyšet v telefonním sluchátku při různých signalizacích stavu hovoru (obr. 4a). Kromě základní sinusoidy se používají další typy křivek. Průběh ve tvaru trojúhelníku (angl. triangle) znázorněný na obr. 4b se spolu s ostatními zmíněnými od počátku používá na analogových i digátlních syntezátorech různých výrobců. Sawtooth (česky zub pily) znázorněný na obr. 4c,d zní poněkud ostřeji než základní tvar sinusoidy. Mezi další užívané typy patří square (česky čtverec) na obr. 4e, nebo random na obr. 4f. Obrázek 4: Tvar (průběh) tónu. 3 1 kbps = 1 kilo bit per second = 1000 bitů za sekundu. Tok 128 kbps tvoří přibližně 0, 9 MB dat každou minutu. 4 Například kultovní syntezátory Moog ze 60. let. http://www.moogmusic.com/news/earlyyears-moog-synthesizer (cit. 21.12.2015) 5
I na jednoduchých syntezátorech je zvuk obvykle tvořen několika nezávislými oscilátory a následně modifikován filtry, obaly nebo nízkofrekvenčními oscilátory. Obal tónu (obálka, angl. envelope) je vlastně vývoj jeho hlasitosti po dobu jeho trvání. Nejčastěji užívaným modelem je typ ADSR (viz obr. 5), což je zkratka slov attack (náběh), decay (útlum), sustain (podržení) a release (doznívání). Tvar všech částí může být určen dynamikou stisku klávesy, části ADS proběhnou po stisku klávesy, část R pokračuje po uvolnění klávesy. Nízkofrekvenční oscilátor označovný LFO se v syntéze používá, pokud chceme docílit déle trvajícího pulzujícího zvukového efektu. Tímto způsobem lze v principu napodobit vibrato nebo tremolo, v praxi se používá k vytváření wobble efektů známých z elektronické taneční hudby. V praxi užívané efekty uvedeme jen heslovitě: delay (zpoždění), echo (ozvěna), chorus (sbor), reverb (prostor), atd. Zájemce o problematiku má možnost nahlédnout do aktuální technické literatury 5 Obrázek 5: ADSR obal (obálka) tónu. 4.1 Elektrické hudební nástroje V první polovině dvacátého století vznikly první čistě elektrické hudební nástroje, tzv. elektrofony 6. Nejznámější z nich jsou Theremin ruského vynálezce Lva Těrmena (na záp. známý pod jménem Léon Theremin) a Martenotovy vlny, které navrh francouzský celista Maurice Martenot. Theremin 7 je nástroj, sestávající ze dvou antén a elektrického syntezátoru. Pokud hráč přibližuje ruce k jedné nebo druhé anténě, může ovládat výšku nebo sílu (hlasitost) tónu. Hráč se tedy nástroje při tvoření tónů nedotýká 8. Martenotovy vlny 9 jsou nástroj s klaviaturou volně uchycenou tak, aby na ní 5 Představená témata jsou v českém jazyce zpracována online například na této adrese: http://elektronicka-hudba.telotone.cz/clanky/syntezator (cit. 30.12.2015). 6 V Sachs-Hornbostelově klasifikaci hudebních nástrojů. 7 Srv. heslo Theremin alespoň na české, anglické a německé Wikipedii. Kdy byl nástroj vynalezen? 8 Pamelia Kurstin The untouchable music of the theremin na konferenci TED.com, 2002. http://www.ted.com/talks/pamelia kurstin plays the theremin (cit. 21.12.2015) 9 Na Wikipedii Ondes Martenot, v české mutaci heslo zatím chybí. (cit. 21.12.2015) 6
bylo možné vibrací ruky simulovat vibrato tónu. Na klaviaturu se hraje pravou rukou, přičemž palec navíc posouvá lankem doleva nebo doprava. Levá ruka ovládá panel tlačítek 10. 5 Programy pro zpracování zvuku (Audacity) V dnešní době je mnoho aplikací pro zpracování a syntézu zvuku dostupných přímo z internetového prohlížeče online 11. V této části představíme svobodný software Audacity, pomocí kterého si můžeme teoreticky představené efekty prakticky vyzkoušet. Mezi základní funkce programu patři střih zvuku, aplikace filtrů a konverze digitálního zvuku mezi různými formáty. Audacity má mnoho filtrů, efektů a nástrojů, kterými můžeme vytvářet nebo modifikovat zaznamenaný zvuk. Mezi základní filtry patří například generování tónů různých tvarů, nastavení obalů, změna hlasitosti/tempa/transpozice, normalizace, ozvěna, odstranění šumu, atd. Na obr. 6 je výřez obrazovky programu s otevřeným zvukovým projektem. Všimněte si základních ovládacích prvků (pauza, přehrát, stop, přesun na začátek a na konec a nahrávání), nástrojů vpravo nahorě (výběr, obal, kresleni, lupa a časový posun) a ovládaní hlasitosti a tlačítek ztlumit a sólo u každé stopy. Obrázek 6: Obrazovka programu Audacity. Pokud máme k dispozici vícekanálovou zvukovou kartu, nebo pokud se spokojíme s postupným nahráváním jednotlivých stop přes standardní linkový nebo mikrofonní vstup na běžné zvukové kartě, můžeme program Audacity použít jako jednoduché nahrávací studio s možností základního masteringu. Pro přesné 10 Jean Laurendeau. http://www.youtube.com/watch?v=yy9ubjrujwo (cit. 21.12.2015) 11 Za všechny zmiňme například: audiosauna.com, soundation.com nebo audiotool.com (cit. 30. 12. 2015). 7
nahrávání můžeme například využít generátor tiků metronomu (v menu Vytvoření Přídavné moduly Click Track), které můžeme umístit do paralelní stopy a při nahrávání stopy tento metronom (i s ostatními nahranými stopami) poslouchat ve sluchátku. Na konec této části i celého textu uvedeme příklad rozboru zvukových vln, který nám umožní lépe pochopit možnosti syntézy zvuků napodobující reálné zvuky přírody nebo hudebních nástrojů například v elektronických nástrojích podporujících standard General MIDI. Hudební nástroje lze z hlediska umělé syntézy tónu rozdělit do dvou kategorií. Ty, které vytváří tón úderem (bicí, klávesové, drnkací) a ty, které tvoří tón po celou dobu jeho trvání (smyčcové, dechové). Realistické ztvárnění déle znějícího tvořeného tónu není vůbec jednoduché, navíc klasické syntezátory se většinou ovládají klaviaturou, která z hlediska dynamiky obvykle umožňuje změřit sílu stisku klávesy při úhozu 12. U tónů produkovaných nástroji úderovými je syntéza výrazně jednodušší. Tón vykazuje průběh, který lze simulovat obálkou ADSR. Barva tónu je dána zastoupením jednotlivých vyšších harmonických frekvencí. Toto zastoupení lze u reálného tónu změřit a tento tón následně uměle napodobit tzv. FM syntézou. Pro syntézu tónu určité barvy potřebujeme znát procentuální zastoupení co nejvíce alikvotních tónů. Z reálného záznamu tónu zahraného na klavír, respektive jeho krátké souvislé části (obr. 7), lze algoritmicky zjistit zastoupení alikvotních tónů procesem Fourierovy frekvenční analýzy (obr. 8). Jedná se o docela komplikované matematické operace 13, ale díky programu Audacity můžeme tento rozbor provést pro libovolnou zvukovou křivku (v menu Rozbor Kreslit spektrum). Ke generování realističtějších tónů se používá pamět ově i výpočetně náročnější Wavetable syntéza, založená na nahraných tónech reálných nástrojů (samplech). 12 Pro úplnost lze zmínit slovníkové heslo Keyboard expression na anglickém internetu, nebo technologii AfterTouch. 13 Podrobněji na adrese http://physics.muni.cz/ cerm/fourier.html (cit. 31. 12. 2015). 8
Obrázek 7: Průběh tónu hraného na klavír. Obrázek 8: Frekvenční analýza tónu. 9