VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Ústav radioelektroniky PROGRAM NA PREZENTACI KÓDOVÁNÍ AKUSTICKÝCH SIGNÁLŮ bakalářská práce Studijní obor: Jméno studenta: Vedoucí bakalářské práce: Elektronika a sdělovací technika Ondřej HÜTTL doc. Ing. Milan Sigmund, CSc.
Úvod Zpracování audio signálů lze obecně rozdělit na několik fází. První fází je digitalizace, která zajišťuje převod signálu do číslicové podoby. Zpracovávaný signál z výstupu mikrofonu je vzorkován, kvantován a kódován. Kódování zahrnuje postupy zdrojového kódování, které odstraňují redundanci obsahu digitalizovaného signálu. Tím lze dosáhnout komprese dat, která zajistí vyšší efektivitu dalších operací, například přenosu nebo uložení dat. Uložení dat je proces, při kterém jsou vlastní audio data zapsána do paměťového systému za účelem archivace. Aby byla data použitelná k obnově audio signálu, je potřeba uchovat i informace o předchozím zpracování signálu. Ukládají se tedy informace především o vzorkovací frekvenci, počtu bitů užitých k vyjádření velikosti jednoho vzorku, užitém zdrojovém kódovaní a dále například informace o počtu kanálů a podobně. K uložení všech těchto informací a vlastních audio dat v počítačích jsou využívány různé formáty audio souborů, jejichž vlastnosti a struktura jsou přesně definovány tak, aby byla zajištěna přenositelnost souborů. Tato práce pojednává o nejčastěji používaných metodách kódování akustických signálů, a to jak řečových, tak i jakostních audio signálů. Největší důraz byl kladen na představení, vysvětlení a porovnání logaritmických metod pulzně kódové modulace A-Law a µ-law. Dále jsou představeny počítači běžně používané formáty audio souborů. Základní principy zdrojového kódování Kodér zdroje signálu [] realizuje proces zdrojového kódování. Na jeho vstup přicházejí z diskrétního zdroje bez paměti digitalizovaná data, v podobě sekvence binárních symbolů (kódových slov) s(n), která se mohou vyskytovat s různou pravděpodobností p(n), kde n =,,, N-; (pokud primární zdroj signálu poskytuje analogový signál, je ho nutné nejprve převést do digitální podoby). Sekvence s(n) je v kodéru zdroje konvertována do jiné binární sekvence c(n). V případě, že je každému symbolu s(n) přiřazeno kódové slovo složené vždy ze stejného počtu symbolů c(n), označuje se daný zdrojový kód jako kód s fixní délkou slova FLC (Fixed Length Codeword). Má-li však být uvedená konverze efektivní, je výhodné znát statistické vlastnosti diskrétního zdroje signálu. Jestliže jsou potom některé zdrojové symboly více pravděpodobné než jiné, je možné využít této skutečnosti v procesu kódování a více frekventovaným symbolům přiřadit kratší kódová slova. Takový zdrojový kód se označuje jako kód s proměnnou délkou slova VLC (Variable Length Codeword). Má několik variant, z nichž optimální je např. kód založený na Huffmanově metodě entropického kódování. Účinný zdrojový kodér by měl splňovat několik funkčních podmínek. Předně by jeho výstupní kódová slova měla mít binární podobu. Kromě toho je žádoucí, aby se dekódování uskutečňovalo jednoznačně, tj. ze zakódované binární sekvence c(n) musí být možné získat dekódováním pokud možno jednoznačnou repliku původní sekvence s(n), přicházející na vstup kodéru. Jednou z nejdůležitějších úloh zdrojového kodéru je potom potlačení redundantní (nadbytečné) složky obsažené v přenášeném sdělení a dále složky irelevantní (nepodstatné), které potom vede k redukci bitové rychlosti přenášeného signálu. V digitálních přenosech dat je redundance (nadbytečnost) definována jako větší množství dat, než je množství nezbytně nutné pro přenos dané informace vzhledem ke ztrátám v komunikačním kanálu. Je to tedy množství znaků nebo symbolů, resp. bitů v odpovídajícím digitálním signálu, které je možné eliminovat, aniž by došlo ke ztrátě užitečné informace. Redundance představuje predikovatelnou část sdělení, a proto může být na přijímací straně
téměř dokonale regenerována. Irelevance je definována jako nepodstatná složka informace, kterou je možné ve zdrojovém kodéru zcela potlačit a dále již nepřenášet, neboť příjemcem na přijímací straně stejně nemůže být vnímána. Přehled metod zdrojového kódování elektroakustických signálů Systémy pro zdrojové kódování elektroakustických signálů lze hodnotit podle šířky zpracovávaného kmitočtového rozsahu elektroakustických signálů, respektive dle šířky pásma, které je schopen reprodukovat dekódovaný signál na přijímací straně. Šířka pásma je veličina, která přímo koresponduje s kvalitou přenosu, a tím předurčuje konkrétní aplikace jednotlivých systémů. S šířkou pásma potom souvisí vzorkovací kmitočet použitý při digitalizaci těchto signálů, bitový kmitočet zakódovaného signálu PCM (pulzně kódová modulace) a další parametry. Nejméně kvalitní skupinou elektroakustických signálů jsou ty, které se používají u telefonů a radiotelefonů a mají horní kmitočet nejvýše asi 4 khz ( telephone quality ). V některých aplikacích, jako jsou videokonferenční přenosy apod., je nutné přenášet již jakostnější širokopásmové hovorové signály s horním kmitočtem až asi 7 khz ( wideband speech ). V perspektivních systémech digitálního rozhlasu a televize, ale i v řadě dalších odvětví elektroakustiky, označovaných souborným termínem audio aplikace, se potom vyžaduje nejvyšší jakost přenosu ( CD-quality ), s maximálním přenášeným kmitočtem okolo Hz. Přehled o základních parametrech [], [6], [7] těchto skupin elektroakustických signálů podává Tab.. Třída akustických signálů telefonní signály širokopásmové telefonní signály středopásmové audiosignály širokopásmové audiosignály kmitočtový rozsah [Hz] vzorkovací rychlost [khz/s] počet bitů na vzorek přenos. rychlost PCM [kbit/s] 3 34 EU 8 8 64 3 USA 5 7 6 8 8-4 x6 (stereo) -5 3 x6 44, (CD kvalita) (stereo) - 48 x384 x5 x75,6 x768 Tab. Hlavní parametry tří základních skupin elektroakustických signálů Uvedené skupiny lze dále dělit do řady podskupin, například v telefonní technice se používá subjektivní míra hodnocení přenášených hovorových signálů, označovaná jako kritérium MOS (Mean Opinion Score), která má 5 stupňů kvality: 5 = vynikající, 4 = dobrá, 3 = přijatelná, = špatná, = nepřijatelná. Kvalita 4 se označuje jako hovorová, kvalita 3 až 4 jako komunikační a kvalita 3 a méně jako syntetická.
3 Metody a standardy zdrojového kódování řečových signálů Zdrojové kodéry hovorových signálů lze podle jejich technických koncepcí dělit do třech základních skupin []. První z nich jsou kodéry tvarového průběhu (Waveform Coders), druhou tvoří vokodéry (Vocoders, tj. Voice Coders), označované také jako zdrojové hovorové kodéry. Do třetí skupiny náleží hybridní kodéry, které vznikají vhodnou kombinací obou základních skupin. Obr. Klasifikace kodérů pro zdrojové kódování elektroakustických signálů, určených pro aplikace v telefonní a radiotelefonní technice 4 Kodéry tvarového průběhu Kodéry tvarového průběhu sledují především splnění jedné základní podmínky dosažení co nejdokonalejší shody tvarových průběhů analogových signálů na výstupu dekodéru s průběhy na vstupu kodéru. Přitom zpravidla nikterak nevyužívají specifické vlastnosti kódovaného signálu (např. fyziologické vlastnosti sluchu apod.), a jsou proto použitelné nejen pro hovorové signály, nýbrž i pro videosignály apod. Tato skupina se dále dělí na kodéry s kódováním v časové oblasti a na kodéry s kódováním v kmitočtové oblasti. 4. Kódování řečových signálů v časové oblasti V časové oblasti je digitální audiosignál reprezentován posloupností vzorků, které byly získané vzorkováním analogového signálu. Velikost vzorkovací frekvence vychází ze vzorkovacího teorému autorů Shannon, Kotělnikov: fvz f MAX, () kde f VZ je vzorkovací frekvence, f MAX je nejvyšší frekvence, která se vyskytuje ve zpracovávaném signálu.
Vstupní signál musí být před číslicovým zpracováním frekvenčně shora omezen hodnotou f MAX. Všeobecné blokové schéma kodéru a dekodéru řečového signálu v časové oblasti [6] je na Obr., kde s(n) je posloupnost kvantovaných vstupních vzorků signálu, y(n) je zpracovaný signál vstupující do kodéru a c(n) je posloupnost kódovaných vzorků. Dekodér obsahuje bloky, realizující operace inverzní oproti kodéru. Na jeho vstup přichází kódovaný signál c(n) a vystupuje z něho dekódovaný signál s(n). Kodér Dekodér Obr. Blokové schéma kodéru a dekodéru řečového signálu v časové oblasti Mezi základní metody kódování v časové oblasti [6] (tzv. waveform coding) patří: Přímé: - pulzně kódová modulace PCM Diferenciální: - modulace delta DM - adaptivní modulace delta ADM - diferenční PCM (DPCM) - adaptivní DPCM (ADPCM) 4. Lineární pulzně kódová modulace PCM Metoda s přímým (nediferenciálním) kódováním byla v roce 938 patentována H. A. Reevesem a dodnes je mezinárodním standardem pro přenos, zpracování a archivaci řečových, ale i hudebních audiosignálů. Její princip znázorňuje Obr. 3: Obr. 3 Princip kódování PCM Signál je po omezení DP filtrem (Antialiasing filtr s mezní frekvencí f MAX podle ()) vzorkován vzorkovacím obvodem s frekvencí f VZ zvolenou s ohledem na () a šířku přenášeného pásma. Tedy např. f VZ = 8 khz, pro telefonní řečový signál s frekvenčním pásmem 3 34 Hz.
Dalším krokem je kvantování vzorků kvantizačním obvodem, tj. zaokrouhlení hodnoty vzorku na hodnotu jedné z hladin, daných počtem bitů kódového slova. Počet těchto hladin souvisí s počtem bitů kódového slova takto [7]: N m =, () kde m je počet kvantovacích hladin, N je počet bitů kódového slova. V posledním bloku kodéru je každému kvantovanému vzorku přiřazen binární kód, čímž vzniká posloupnost kódových slov c(n). Celému tomuto procesu se říká A/D převod. Podle doporučení CCITT G.7 se pro telefonní pásmo používá N = 8 (56 kvantovacích hladin), což při f VZ = 8 khz znamená datový tok 64 kb/s. Maximální počet smysluplných kvantizačních úrovní, tedy reálný počet rozlišitelných amplitudových úrovní signálu m, je dán [8] maximálním výkonem signálu a středním výkonem poruch v signálu podle Shannona: m k + P S =, (3) PP kde k je konstanta typu šumu, P S je maximální výkon signálu, P P je střední výkon poruch. Obnovení analogového signálu z PCM vzorků spočívá v opětovném vytvoření posloupnosti amplitudově modulovaných vzorků s(n), které jsou dále transformovány na spojitý signál s(t) průchodem kvantovaného signálu s(n) filtrem typu DP se stejnou mezní frekvencí, jakou měl filtr na vstupu před vzorkováním a kvantizací původního signálu. Obnovený signál je pak za předpokladu, že byla správně rozpoznána všechna kódová slova, shodný (až na kvantizační chybu) jako byl původní vstupní signál s(t). Základní výhodou PCM oproti analogovému signálu je odolnost proti rušení, nevýhodou je požadavek širšího frekvenčního pásma a vznik kvantizační chyby [6], jejíž největší hodnota je: q =, (4) MAX kde je velikost kvantizačního kroku, která odpovídá rozdílu hodnot dvou po sobě jdoucích hladin. Pulzně kódovou modulaci PCM můžeme podle rozložení kvantizačních hladin dělit na: - Lineární PCM - Nelineární (logaritmickou) PCM Lineární PCM rovnoměrně (uniformně) kvantuje celý rozsah signálu do m kvantizačních hladin, používá přitom stejně velké kvantizační kroky. Dynamika (rozsah) zpracovatelného vstupního signálu tedy závisí na počtu hladin m a velikosti kroků. Počet kvantizačních kroků ovlivňuje i velikost kvantizační chyby. Při větším m se sice snižuje kvantizační šum, ale zvyšují se nároky na přenosovou rychlost.
4. Logaritmická PCM je jednou z prvních metod, vyvinutých v USA ke komprimaci zvuku. Využívá logaritmického vnímání hlasitosti lidského sluchu [6], které způsobuje, že změna intenzity je více vnímána při nízkých úrovních signálu. Dalším důvodem [8] je obvyklé rozložení okamžitých hodnot řečového signálu, které připomíná průběh gama kolem střední (nulové) hodnoty. Metoda spočívá buď v nerovnoměrném rozložení velikostí kvantizačních kroků, které se směrem k větším amplitudám vstupního signálu zvětšují. Více časté vzorky s nižší intenzitou pak budou zakódovány s vyšší přesností, než méně často se vyskytující vzorky s vyšší intenzitou hlasitosti. Dalším způsobem zvýšení informativní účinnost kódování signálu může být zpracování signálu logaritmickým kompandérem, který je předřazen uniformnímu kvantizéru. Tato operace více zesílí malé hodnoty okamžitých výchylek signálu, velké hodnoty výchylek signálu jsou zesíleny jen nepatrně. Zesílené malé hodnoty, které jsou lidským sluchem vnímány mnohem přesněji než větší hodnoty, jsou tak vlastně následujícím uniformním kvantizérem zakódovány s větší přesností, než kdyby kompanze nebyla provedena. Pro kvalitní kvantizaci pak postačí méně bitů. Při obnovování signálu je za dekodérem zařazen expandér, který obnoví původní rozsah signálu a vrátí vzorkům správný poměr intenzit. Převodní amplitudová charakteristika kompandéru se nazývá kompresní charakteristika, převodní amplitudová charakteristika expandéru se nazývá expanzní charakteristika a má inverzní průběh ke kompresní charakteristice. Obr. 4 Princip kódování signálu PCM s využitím logaritmické kompanze Obr. 5 Princip dekódování logaritmicky kompandovaného signálu PCM V mezinárodním telekomunikačním standardu ITU G.7 jsou definovány nejčastěji používané kompresní charakteristiky: - µ-law - A-Law.
4.3. µ-law je nejčastěji používanou metodou nelineárního kódování v USA a Japonsku. µ-law (µ-předpis, µ-zákon) je někdy také označován jako u-law, nebo mu-law. Jeho kompresní charakteristika je vyjádřena [4],[9]: log( + µ s( n) ) y ( n) = sgn( n), (5) log( + µ ) kde y(n) je výstupní posloupnost kompandovaných vzorků, s(n) je posloupnost vstupních vzorků z intervalu - až +, sgn(n) je znaménková funkce, která nabývá hodnot - pro zápornou hodnotu s(n) a + pro kladnou hodnotu s(n), µ je parametr, určující míru komprese. Expanzní charakteristika je dána vztahem [4]: s ( n) = sgn( n) µ µ y( n) [( + ) ]. (6) Hodnota parametru µ se může pohybovat v širokém rozmezí, ale nejlepších výsledků [4] se dosahuje při použití hodnoty 55, proto je tato hodnota nejpoužívanější. Průběhy kompresních charakteristik pro různé hodnoty µ podle (5) jsou na Obr. 6. Pro praktické použití se často využívá aproximace kompresní charakteristiky [6] přímkovými úseky a určení kvantizačních kroků pro jednotlivé úseky. Při použití osmi segmentové aproximace a čtyř bitového kvantování každého segmentu, je každý segment rozdělen na 6 subsegmentů s celkovým počtem 8 subsegmentů. Při uvažování i záporné části kompresní charakteristiky (na obrázcích je znázorněna vždy jen kladná část) získáváme 56 segmentů, což odpovídá 8 bitové kvantizaci. Příklad přímkové aproximace je uveden na Obr. 7. Kompresni charakteristika mu-law.9.8.7.6 5 4 3 y(n).5.4.3.. : mu = : mu = 3: mu = 4: mu = 55 5: mu = 5...3.4.5.6.7.8.9 s(n) Obr. 6 Průběhy kompresních charakteristik metody µ-law
Z porovnání charakteristik pro různé hodnoty µ je zřejmé, že nízké úrovně signálu jsou zesilovány tím více, čím větší hodnotu µ kompandér používá. Pro µ = ke kompanzi nedochází. Primkova aproximace kompresni charakteristiky mu=55.9.8.7.6 y(n).5.4.3.....3.4.5.6.7.8.9 s(n) Obr. 7 Aproximace kompresní charakteristiky µ-law přímkovými úseky Kompresní charakteristika na Obr. 7 je aproximací kompresní charakteristiky kompandéru metody µ-law pro µ = 55. Charakteristika je aproximována osmi lineárními úseky. Svislá osa y(n) výstupních hodnot i vodorovná osa s(n) vstupních hodnot jsou rozděleny na osm částí. Osa y(n) je rozdělena na stejné díly o velikosti, osa s(n) je 8 rozdělena na díly velikostí, 7, 7, 6, 5, 4, 3,. 4.3. A-Law je standardní metoda nelineárního (logaritmického) kódování používaná v evropských telekomunikacích. Její princip je velmi podobný metodě µ-law. Kompresní charakteristika je vyjádřena vztahem: A s( n) y( n) = sgn( n) pro s( n) < (7a) + log( A) A + log( A s( n) ) y ( n) = sgn( n) pro s( n), (7b) + log A A kde y(n) je výstupní posloupnost kompandovaných vzorků, s(n) je posloupnost vstupních vzorků z intervalu - až +, sgn(n) je znaménková funkce, která nabývá hodnot - pro zápornou hodnotu s(n) a + pro kladnou hodnotu s(n), A je parametr, určující míru komprese.
Expanzní charakteristika je dána vztahem: y( n) ( + log( A)) s( n) = sgn( n) pro y( n) < A + log( A) (8a) exp( y( n) ( + log( A)) ) s ( n) = sgn( n) pro y( n) <. A + log( A) (8b) Podobně jako u µ-law je pro konverzi A-Law možné použití spojité funkce (7a), (7b), nebo aproximace kompresní charakteristiky přímkovými úseky. Kompresni charakteristika A-Law.9.8.7.6 5 4 3 y(n).5.4.3.. : A =, : A = 4, 3: A = 6, 4: A = 87,7 5: A = 6,...3.4.5.6.7.8.9 s(n) Obr. 8 Průběhy kompresních charakteristik metody A-Law Příklad spojité kompresní charakteristiky je uveden na Obr. 8. Z charakteristiky pro různé hodnoty kompresního parametru A je zřejmé, že pro A = ke kompanzi nedochází. 4.3.3 Porovnání metod µ-law a A-Law Shodné vlastnosti metod µ-law a A-Law [9]: - běžně se používá aproximace kompresních i expanzních charakteristik osmi lineárními úseky pro kladnou část a osmi úseky pro zápornou část, dynamický rozsah signálu je tak rozdělen na 6 segmentů s rozdílnými kvantizačními kroky v každém z nich - používají se 8 bitová kódová slova (56 kvantizačních hladin) jednotlivé bity mají následující význam: bit na určení polarity 3 bity na kód příslušného segmentu ( z 8) 4 bity na identifikaci kvantizační úrovně v daném segmentu ( z 6) - délka každého ze segmentů (mimo prvních dvou) je dvojnásobkem délky předchozího segmentu
Rozdílné vlastnosti metod A-Law a µ-law [9]: - rozdílné lineární aproximace vedou na rozdílné délky a strmosti segmentů - význam jednotlivých bitů v 8 bitových kódových slovech je rozdílný, významově odpovídající si bity mají odlišné pozice - A-Law poskytuje nepatrně lepší dynamický rozsah - µ-law poskytuje lepší výsledky pro signály s malou úrovní Na Obr. 9 vidíme, že kompresní charakteristiky obou logaritmických metod jsou pro nejčastěji používané hodnoty obou kompresních parametrů A a µ velmi podobné a liší se v podstatě jen v počátku, což způsobuje některé výše uvedené rozdílné vlastnosti. Kompresni charakteristika A-Law a mu-law pro A=87,7 a mu=55.9.8.7.6 y(n).5.4.3.. : A-Law : mu-law...3.4.5.6.7.8.9 s(n) Obr. 9 Porovnání průběhů kompresních charakteristik metod A-Law a µ-law Na Obr. je zachycen vliv logaritmického kódování na rozložení okamžitých hodnot řečového signálu. Je použito 669 vzorků (přibližně s) řečového signálu s f VZ = 44, khz s 6 bitovými kódovými slovy. Zatímco rozložení okamžitých hodnot lineárně kódovaného signálu má výrazné maximum v okolí nulových hodnot, rozložení hodnot logaritmicky kompandovaného signálu je mnohem rovnoměrnější, v ideálním případě téměř lineární. rozložení okamžitých hodnot signálu PCM 5 osy y: cetnost hodnot [-] - -.8 -.6 -.4 -...4.6.8 5 rozložení okamžitých hodnot signálu mu-law - -.8 -.6 -.4 -...4.6.8 rozložení okamžitých hodnot signálu A-Law 5 - -.8 -.6 -.4 -...4.6.8 osy x: normovaná okamžitá hodnota [-] Obr. Rozložení okamžitých hodnot řečového signálu lineárně a logaritmicky kvantovaného, A = 87,7 a µ = 55. f VZ = 44, khz, N = 6 bit
Na Obr. jsou zobrazeny průběhy řečových signálů, jejichž rozložení okamžitých hodnot je na Obr.. V horní časti je zobrazen průběh vstupního, lineárně kódovaného signálu. Následují průběhy signálu kompandovaného metodou µ-law s µ = 55 a signálu kompandovaného metodou A-Law s A = 87,7. osy y: normovaná okamžitá hodnota [-] - - - signál PCM 3 4 5 6 7 8 9 x 4 kódovaný signál mu-law 3 4 5 6 7 8 9 x 4 kódovaný signál A-Law 3 4 5 6 7 8 9 osy x: poradové císlo vzorku [-] x 4 Obr. Průběhy lineárně a logaritmicky kódovaných signálů, A = 87,7 a µ = 55, f VZ = 44, khz, N = 6 bit Na Obr. je zobrazen detail průběhů vstupního lineárně kódovaného a logaritmicky kompandovaných signálů. Je zobrazeno 6 vzorků, což při f VZ = 44, khz odpovídá délce přibližně 3,6 ms. Z průběhů kompandovaných signálů je dobře patrné zesílení nízkých úrovní signálu a potlačení vysokých úrovní. signál PCM osy y: normovaná okamžitá hodnota [-] - - 4 6 8 4 6 kódovaný signál mu-law 4 6 8 4 6 kódovaný signál A-Law - 4 6 8 4 6 osy x: poradové císlo vzorku [-] Obr. Detail průběhů lineárně a logaritmicky kódovaných signálů, A = 87,7 a µ = 55, f VZ = 44, khz, N = 6 bit
Na Obr. 3 jsou zobrazena rozložení okamžitých hodnot vzorků řečového signálu po opětovném dekódování z logaritmického měřítka. Tento 6 bitový vstupní signál byl tedy nejprve zakódován kompandován a poté 8 bitově kvantován (ztrátový krok). Poté byl dekódován expandován. Bylo použito stejného řečového signálu jako na obrázcích Obr. a Obr. a stejných hodnot kompresních parametrů µ = 55 a A = 87,7. Je patrné, že rozložení hodnot dekódovaných signálů má nepatrně jiný tvar, než rozložení vstupního signálu. Tento rozdíl je způsoben překvantováním vzorků z 6 bitových na 8 bitová kódová slova celý dynamický rozsah je rozdělen na podstatně méně diskrétních hladin (z původních ^6 = 65536 na ^8 = 56 hladin). rozložení hodnot signálu PCM 5 osy y: cetnost hodnot [-] - -.8 -.6 -.4 -...4.6.8 rozložení hodnot dekódovaného signálu mu-law 5 - -.8 -.6 -.4 -...4.6.8 rozložení hodnot dekódovaného signálu A-Law 5 - -.8 -.6 -.4 -...4.6.8 osy x: normovaná okamžitá hodnota [-] Obr. 3 Rozložení okamžitých hodnot vstupního lineárně kódovaného řečového signálu a signálu dekódovaného Na Obr. 4 jsou zobrazeny průběhy dekódovaných řečových signálů, jejichž rozložení okamžitých hodnot je na Obr. 3 V horní části je zobrazen průběh vstupního lineárně kódovaného signálu. Následují dekódované průběhy signálu. Použité hodnoty kompresních parametrů µ = 55 a A = 87,7. Použitý signál délky přibližně s, f VZ = 44, khz, N = 6 bit. osy y: normovaná okamžitá hodnota [-] - - - vstupní signál PCM 3 4 5 6 7 8 9 x 4 dekodóvaný signál mu-law 3 4 5 6 7 8 9 x 4 dekódovaný signál A-Law 3 4 5 6 7 8 9 osy x: poradové císlo vzorku [-] x 4 Obr. 4 Průběhy vstupního lineárně kódovaného signálů a signálů dekódovaných
Výhody logaritmické kompanze lze zhodnotit například výpočtem střední kvadratické odchylky podle vztahu: ( in() i out(i) ) S = Σ pro i = až n, (9) n kde S je střední kvadratická odchylka úseku signálu, in je posloupnost vstupních vzorků signálu, out je posloupnost dekódovaných vzorků, i je pořadové číslo aktuálního vzorku a n je celkový počet vzorků úseku signálu. Hodnoty S signálů použitých pro Obr. 4 a Obr. 5 jsou: pro A-Law S =,57. -5 pro A = 87,7; pro µ-law S =,5. -5 pro µ = 55; pro PCM 8bit S =,354. -5 lineární. Jedná se tedy o odchylky vstupního signálu délky 669 vzorků, f VZ = 44, khz s 6 bitovými kódovými slovy a signálů dekódovaných z 8 bitově kvantovaných signálů logaritmicky kódovaných metodami A-Law a µ-law. Pro porovnání je uvedena ještě hodnota odchylky 8 bitově lineárně kvantovaného PCM signálu. Hodnota této odchylky je téměř dvojnásobná než odchylka logaritmicky kvantovaných signálů s použitím typických hodnot kompresních parametrů. Na Obr. 5 je zobrazena závislost velikosti S na hodnotách kompresních parametrů A a µ. S přibližováním se hodnot kompresních parametrů A a µ svým obvykle používaným hodnotám, tedy A = 87,7 a µ = 55, vzrůstá celková střední kvadratická odchylka signálu S. To je způsobeno rostoucí chybou velkých hodnot vzorků, která se ale na výsledné kvalitě signálu podílí jen nepatrně v porovnání s přesněji kódovanými malými hodnotami vzorků signálu, jejichž chyba klesá. strední kvadratická odchylka.5 x -5.5 závislost velikosti strední kvadratické odchylky na hodnote kompresního parametru mu-law A-Law 3 4 5 6 7 8 9 osa x: normovana hodnota kompresniho parametru *A / 87.7; *mu / 55 [-] Obr. 5 Závislost velikosti střední kvadratické odchylky na hodnotách kompresních parametrů A a µ Průběh velikosti S v závislosti na hodnotách kompresních parametrů zobrazený na Obr. 5 by tedy mohl budit nesprávný dojem, že kvalita signálu je vyšší pro menší hodnoty kompresních parametrů než jsou obvykle používané A = 87,7 a µ = 55.
Na obrázku Obr. 6 je zobrazeno typické rozložení velikostí kvadratických odchylek jednotlivých vzorků. Velikost kvadratické odchylky je pro každý vzorek vypočítána podle: = ( in(i) out(i, () i )) kde i je kvadratická odchylka aktuálního vzorku, in je posloupnost vstupních vzorků signálu, out je posloupnost dekódovaných vzorků, i je pořadové číslo aktuálního vzorku. x -4 rozložení kvadratické odchylky 8 bit PCM signálu osy y: normovaná kvadratická odchylka [-].5 - -.8 -.6 -.4 -...4.6.8 x -3 rozložení kvadratické odchylky mu-law signálu - -.8 -.6 -.4 -...4.6.8 x -3 rozložení kvadratické odchylky A-Law signálu - -.8 -.6 -.4 -...4.6.8 osy x: normovaná okamžitá hodnota [-] Obr. 6 Typické rozložení velikostí kvadratické odchylky jednotlivých vzorků Ze zobrazených rozložení velikostí kvadratické odchylky i v závislosti na okamžité hodnotě vstupního signálu na Obr.6 je patrné, že pro 8 bitově lineárně kvantovaný PCM signál má i přibližně stejnou velikost na celém dynamickém rozsahu vstupního signálu. Pro signály dekódované z logaritmicky kvantovaných signálů jsou hodnoty i velmi malé v okolí malých hodnot vstupních vzorků a zvětšují se pro větší hodnoty vstupních vzorků. Přestože největší hodnoty i dosahují u logaritmicky kódovaných signálů až o jeden řád větších hodnot než pro lineárně kvantovaný signál, subjektivně vnímaná kvalita je díky logaritmické charakteristice sluchu lepší pro logaritmicky kódovaný signál, který kvalitněji kóduje nízké hodnoty vzorků vstupních signálů. Pro Obr. 6 byly použity hodnoty A = 87,7 a µ = 55. Na Obr. 7 je zobrazen detail rozložení velikostí kvadratické odchylky v závislosti na různých hodnotách kompresního parametru µ. Je zobrazen jen úsek od -, do, z celého dynamického rozsahu vstupního signálu. Z rozložení je patrné, že velikost i pro nízké hodnoty vzorků vstupního signálu klesá s hodnotami parametru µ, blížícímu se typické hodnotě kompresního parametru µ = 55. Pro metodu A-Law by byla situace podobná.
x -5 rozložení velikostí kvadratické odchylky, mu = osy y: normovaná kvadratická odchylka [-] -. -.8 -.6 -.4 -...4.6.8. x -5 rozložení velikostí kvadratické odchylky, mu = -. -.8 -.6 -.4 -...4.6.8. x -5 rozložení velikostí kvadratické odchylky, mu = 55 -. -.8 -.6 -.4 -...4.6.8. osy x: normovaná okamžitá hodnota [-] Obr. 7 Detail rozložení velikostí kvadratické odchylky v závislosti na hodnotě µ Na následujícím Obr. 8 jsou zobrazeny okamžité velikosti kvadratických odchylek i v závislosti na průběhu vstupního signálu. Jako vstupní signál je použito 6 vzorků 6 bitově lineárně kvantovaného PCM signálu s f VZ = 44, khz, stejně jako na Obr.. Kvadratické odchylky vstupního a výstupních 8 bitově lineárně a logaritmicky kvantovaných signálů jsou počítány podle vztahu (). normovaná okamžitá hodnota [-] osy y: normovaná kvadratická odchylka [-] detail prubehu vstupního signálu PCM - 4 6 8 4 6 4 x kvadratická odchylka 6bit a 8bit signálu PCM -4 4 6 8 4 6 4 x kvadratická odchylka 6bit PCM a 8bit mu-law signálu -4 4 6 8 4 6 4 x kvadratická odchylka 6bit PCM a 8bit A-Law signálu -4 4 6 8 4 6 osy x: poradové císlo vzorku [-] Obr. 8 Velikosti kvadratických odchylek v závislost na průběhu vstupního signálu Průběh velikostí okamžitých kvadratických odchylek i v závislosti na okamžitých hodnotách vstupního signálu na Obr. 8 opět dokládá, že hodnoty vzorků vstupního signálu s malou hodnotou jsou metodami A-Law a µ-law kódovány přesněji, než větší hodnoty, zatímco u lineárně 8 bitově kvantovaného signálu PCM jsou všechny hodnoty z dynamického rozsahu kvantovány stejně přesně. Logaritmická kvantizace řečového signálu je velmi efektivní. Rekonstrukcí 8 bitového logaritmicky kódovaného signálu získáme signál, kvalitativně ekvivalentní 3 až 4 bitovému lineárně kódovanému PCM signálu [9].
4.4 Modulace delta DM Metoda s diferenciálním kódováním byla patentována v roce 945 E. M. Delorainem. DM umožňuje převod spojitých, frekvenčně omezených signálů na posloupnost dvojkových symbolů - a, resp. nebo I. Místo údajů o každém vzorku se přenáší pouze informace, zda má aktuální vzorek nižší hodnotu, nebo vyšší hodnotu ve srovnání se vzorkem předcházejícím. Aby bylo DM kódování dostatečně přesné, musí být zvolena dostatečně vysoká vzorkovací frekvence tak, aby největší možná diference mezi sousedními vzorky byla blízká velikosti kvantizačního kroku. Vzorkovací frekvence je tedy vysoká, podstatně vyšší, než f MAX podle (). Protože má ale každý vzorek jen jeden bit, přenosová rychlost odpovídá vzorkovací frekvenci. Vstupní analogový signál s(t) vstupuje do komparátoru, v němž se porovnává s integrovanou výstupní hodnotou aproximačním signálem ys(t). V každém kroku se určí znaménko rozdílu, rozdíl je jednobitově kvantován. Princip metody [5] je zobrazen na Obr. 9: kodér dekodér Obr. 9 Princip kodéru a dekodéru DM Výstupní signál kodéru y(n) je při dekódování znovu integrován, čímž se v případě bezchybného přenosu obnoví signál ys(t), který je po omezení nežádoucích frekvenčních složek, vzniklých číslicovým zpracováním, až na kvantizační chybu shodný se vstupním signálem s(t). Matematicky je DM popsána [6]: y( n) = pro r( t) > y( n) = pro r( t) <, () kde r(t) = s(t) ys(t) je rozdílový signál komparátoru, s(t) je vstupní signál, ys(t) je aproximační signál, y(n) je výstupní signál DM modulovaný. Je zřejmé, že kvalita kódování je závislá na vzorkovací frekvenci a velikosti kvantizačního kroku. Při nepřítomnosti vstupního signálu s(t) nebo při jeho malých změnách probíhá aproximační signál ys(t) stupňovitě kolem nuly. Pokud bychom chtěli dosáhnout malého kvantizačního zkreslení, museli bychom použít velmi vysokou vzorkovací frekvenci a velmi malé kvantovací kroky. Použití vysoké f VZ však zvyšuje přenosovou rychlost a volba malé velikosti kvantovacího kroku způsobí, že při větší strmosti vstupního signálu nestačí aproximační signál ys(t) sledovat vstupní signál s(t) a dojde ke vzniku zkreslení přetížením, které se po dekódování projeví potlačením vyšších frekvencí. Tyto nedostatky DM se řeší použitím proměnné velikosti kvantovacích kroků v Adaptivní DM.
Příklad aproximačního signálu ys(t) jako reakce na signál s(t) zobrazena na Obr.. Osa x: pořadové číslo vzorku [-]; Osa y: normovaná okamžitá hodnota [-].. vstupní signál s(t).8.6.4 aproximacní signál ys(t). -. 3 4 5 6 7 8 9 Obr. Vstupní signál s(t) a jeho aproximační signál ys(t) metody DM Na Obr. je uveden příklad aproximačního signálu ys(t) jako reakce na signál s(t) tvaru jednotkový skok. Je patrné, že ys(t) nestačí reagovat dostatečně rychle a dochází ke zkreslení signálu y(n) přetížením. Příklad reakce aproximačního signálu metody ADM na stejný vstupní signál (jednotkový skok) je uveden na Obr.. Obnovený signál s(n) se získá: s( n) = s( n ) + y( n), () kde s(n) je aktuální hodnota obnoveného signálu, s(n-) je hodnota předchozího vzorku obnoveného signálu, je velikost kvantizačního kroku a y(n) je hodnota signálu zakódovaného metodou DM. y(n) nabývá hodnot - a +. 4.5 Adaptivní delta modulace ADM Systémy ADM používají proměnný kvantizační krok, čímž umožňují zpracování signálu s vyšší dynamikou a jsou proto vhodnější pro zpracování řeči, než lineární DM. Řízení velikosti kvantizačního kroku lze provádět různými způsoby. Buď podle změn amplitudy vstupního signálu, nebo podle přetížení kodéru, kdy ve výstupní posloupnosti následuje několik shodných symbolů. Kvantizační krok (t) závisí v každém okamžiku na velikosti předchozího kroku (t-) a několika posledních hodnotách posloupnosti výstupního signálu y(n). Dojde li k přetížení kodéru a na jeho výstupu se objeví série symbolů stejné polarity, řídící obvody začnou postupně zvětšovat velikost kvantizačních kroků. Počet symbolů stejné polarity potřebný ke změně velikosti a způsob zvětšování kroků záleží na použité metodě. Ve chvíli, kdy se na výstupu objeví symboly střídající se polarity, začnou se kvantizační kroky opět postupně zmenšovat. Princip je naznačen na Obr. :
Obr. Princip kodéru ADM. vstupní signál s(t).8.6 aproximacní signál ys(t).4. -. 3 4 5 6 7 8 9 Obr. Vstupní signál s(t) a jeho aproximační signál ys(t) metody ADM Osa x: pořadové číslo vzorku [-]; Osa y: normovaná okamžitá hodnota [-]. Na Obr. je uveden příklad aproximačního signálu ys(t) jako reakce na signál s(t) tvaru jednotkový skok. Tvar signálu ys(t) může být i pro stejné průběhy vstupního signálu s(t) různý, v závislosti na použité metodě řízení velikosti kvantovacího kroku. V příkladu na Obr. se velikost (t) zdvojnásobí oproti své předchozí hodnotě (t-), pokud se na výstupu v signálu y(n) objeví dvakrát symbol stejné polarity. Lze použít i jiné způsoby řízení. Při obnovování vstupního signálu s(n) z posloupnosti y(n) se opět provádí vyhodnocování po sobě jdoucích symbolů, ze kterého se odvozuje velikost jednotlivých kvantizačních kroků (n), které přísluší jednotlivým vzorkům y(n). Obnovený signál s(n) se získá: s( n) = s( n ) + ( n) y( n), (3) kde s(n) je aktuální hodnota obnoveného signálu, s(n-) je hodnota předchozího vzorku obnoveného signálu, (n) je velikost aktuálního kvantizačního kroku a y(n) je hodnota signálu zakódovaného metodou ADM. y(n) nabývá hodnot - a +.
4.6 Diferenční PCM (DPCM) Diferenční pulzně kódová modulace DPCM byla publikována v roce 956 C. Cutlerem jako jedno z řešení pokusů o zlepšení vlastností klasické lineární modulace delta. Jejím nejjednodušším příkladem je vlastně DM, u které je vzorkovací frekvence zvolena tak vysoká, že na zakódování diference mezi sousedními vzorky stačí jednobitová kódová slova. Vlastností řečových, ale i video signálů je vzájemná korelace mezi sousedními vzorky signálu, z čehož lze usoudit, že rozdíl sousedních vzorků bude mít menší dynamický rozsah. Zatímco v metodě DM se k popisu signálu používá v každém okamžiku jen jednobitové informace o rozdílu dvou po sobě jdoucích vzorků a u metody PCM je kódován každý vzorek N bitovým kódovým slovem, u DPCM se využívá vzájemné korelace mezi vzorky a kóduje, přenáší a uchovává se informace o rozdílu okamžité hodnoty vzorku vstupního signálu v daném okamžiku a hodnotou pro tento okamžik predikovanou (předvídanou) z předchozích vzorků. Predikovaný signál je vytvářen v prediktoru na základě lineárních operací mezi předchozími vzorky. Hodnota predikovaného signálu yp(n) se získá v prediktoru obecně podle: yp n) = c s( n ) + c s( n ) + K + ck s( n ), (4) ( K kde yp(n) je aktuální predikovaná hodnota, c k jsou reálné koeficienty pro k =,,...K, kde K je řád lineárního prediktoru, s(n-) až s(n-k) jsou hodnoty vzorků vstupního signálu. Řád prediktoru N říká, z kolika předchozích hodnot vstupního signálu se předvídá signál yp(n). Rozdílový signál r(n) vstupní hodnoty s(n) a predikované hodnoty yp(n) r( n) = s( n) yp( n) (5) je dále kvantován a kódován do N bitového kódového slova y(n). Je zřejmé, že čím lépe je predikován signál yp(n), tím menší jsou hodnoty rozdílového signálu r(n) a efektivnost kvantizace je tím vyšší. Hodnoty koeficientů c K jsou proto voleny tak, aby r(n) dosahoval co nejnižších hodnot. Obr. 3 Princip predikčního kódování a dekódování Obnovení původního signálu s(n) z DPCM kódovaného signálu y(n) se provádí sčítáním hodnoty y(n) s hodnotou yp(n) predikovanou z několika předchozích hodnot s(n).
Na Obr. 4 je zobrazen princip lineárního prediktoru. Vstupní signál s(n) je zpožděn a násoben koeficientem c. Dále je sčítán s několika předchozími vzorky, násobenými příslušnými koeficienty c K. Obr. 4 Princip lineárního prediktoru Příklad signálu DPCM, získaného systémem s lineárním prediktorem. řádu je na Obr. 5. K predikci byl použit nejjednodušší princip, kdy predikovaný vzorek je vlastně pouze předchozí hodnotou vstupního vzorku a přenáší se diference mezi sousedními vzorky: r ( n) = s( n) s( n ), (6) kde r(n) je rozdílový signál DPCM, s(n) je aktuální hodnota vstupního signálu, s(n-) je hodnota vstupního signálu v předchozím okamžiku. vstupni signal PCM - 3 4 5 6 7 predikovany signal - 3 4 5 6 7 signal DPCM - 3 4 5 6 7 Obr. 5 Příklad průběhu signálu DPCM Osa x: pořadové číslo vzorku [-]; Osa y: normovaná okamžitá hodnota [-]. Vstupním signálem Obr. 5 bylo 7 vzorků řečového signálu, lineárně kódovaného metodou PCM, 6 bitově kvantovaného s f VZ =,5 KHz. Je patrné, že výstupní rozdílový signál kódovaný DPCM má mnohem menší rozptyl hodnot.
vstupni signal PCM.5 -.5-3 4 5 6 7 signal PCM dekodovany z DPCM.5 -.5-3 4 5 6 7 Obr. 6 Porovnání vstupního signálu PCM a signálu dekódovaného z DPCM Osa x: pořadové číslo vzorku [-]; Osa y: normovaná okamžitá hodnota [-]. Oba průběhy na Obr. 6 jsou totožné. K rekonstrukci byl ale použit rozdílový signál, který neprošel kvantizací, takže nevznikla kvantizační chyba. V praxi tato chyba ale vzniká a velkou nevýhodou této metody je právě kumulace kvantizační chyby při rekonstrukci signálu. 4.7 Adaptivní diferenční PCM (ADPCM) Modulace PCM a DPCM nerespektují skutečnost, že hovorové signály jsou svou podstatnou nestacionární (resp. jsou kvazistacionární) [], takže se jejich střední výkon (variace) a autokorelační funkce mění s časem. K tomuto faktu přihlíží adaptivní diferenciální impulzová kódová modulace ADPCM. Ta se liší od DPCM hlavně tím, že místo lineárního kvantování a lineární predikce používá adaptivní kvantování (AQ) a adaptivní predikci (AP). Vzhledem k tomu, že časové změny uvedených parametrů hovorového signálu jsou relativně pomalé, je možné realizovat poměrně jednoduché adaptivní algoritmy, které jsou schopné sledovat změny úrovně a změny spektra vstupního hovorového signálu. U modulace ADPCM je díky této adaptibilitě znatelně zlepšena kvalita přenosu v porovnání s oběma staršími typy. Modulace PCM a DPCM realizují vzorkování analogového signálu ve fixně stanovených okamžicích (nt v ), které jsou celistvými násobky n vzorkovací periody T v. Kvantování je u těchto formátů uniformní (lineární), takže kvantizační kroky zde jsou konstantní. Přenosová charakteristika, tj. závislost kvantované úrovně výstupního signálu na spojitě se měnící úrovni vstupního signálu, má potom typický schodovitý průběh se stejným rozměrem schodů (step size). Naproti tomu při adaptivním kvantování se dynamický rozsah kvantizátorů přizpůsobuje krátkodobým vlastnostem signálu a velikost kvantizačních kroků se mění s časem. Uvedené změny se mohou řídit různými algoritmy.
K určování resp. k odhadu kvantovacího kroku je možné využít buď nekvantované vzorky vstupního signálu (adaptivní kvantování s dopředným odhadem AQF, tj. AQ Forward), nebo k tomu lze využít vzorky z výstupu kvantizéru (adaptivní kvantování se zpětným odhadem AQB, tj. AQ Backward). Nevýhodou dopředné adaptace kvantizátoru je nutnost přenášet informaci o velikost. Adaptivní predikce spočívá v přizpůsobení koeficientů prediktoru c K krátkodobým změnám spektra kódovaného signálu. Výstupní signál yp(n) prediktoru je určen stejně jako u DPCM podle (4), koeficienty c K se ale průběžně vypočítávají podle korelační funkce, vypočítané z konečného počtu předchozích vzorků. Koeficienty c K jsou pak vypočítávány s periodou, která odpovídá počtu vzorků, ze kterých byla počítána korelace. Výsledný efekt adaptivního kvantování a adaptivní predikce spočívá hlavně ve zlepšení poměru signál/kvantizační šum, typicky o hodnotu 8 až db [], vůči lineární modulaci PCM. Princip ADPCM kódování [6] s adaptací prediktoru je na Obr. 7, princip ADPCM kódování s dopřednou adaptací kvantizačního kroku je na Obr. 8, princip ADPCM kódování se zpětnovazební adaptací kvantizačního kroku je na Obr. 9. Obr. 7 Princip ADPCM kódování a dekódování s adaptací prediktoru Obr. 8 Princip ADPCM kódování a dekódování s dopřednou adaptací kvantizátoru
Obr. 9 Princip ADPCM kódování a dekódování se zpětnovazební adaptací kvantizátoru 4.8 Kódování řečových signálů v kmitočtové oblasti Ke kodérům tvarového průběhu s kódováním v kmitočtové oblasti náleží kodéry pro subpásmové kódování SBC (Sub Band Coding) a adaptivní transformační kódování ATC (Adaptive Transform Coding), případně zdokonalené adaptivní subpásmové kódování (ASBC). 4.9 Subpásmové kódování řečových signálů SBC Tato metoda je založena na analýze řečového signálu ve frekvenční oblasti a jeho odděleného kódování v několika frekvenčních pásmech. Princip spočívá v rozdělení signálu do několika frekvenčních pásem, z nichž každé je kódováno odděleně. Banka filtrů musí pokrývat celé frekvenční spektrum vstupních řečových signálů, tedy například 3 34 Hz. Přesnost kódování jednotlivých kmitočtových pásem záleží na energii daného pásma. Pásma s malou nebo žádnou energií mohou být kódována s nižší přesností, nebo nemusí být kódována vůbec. Jednotlivá kmitočtová pásma jsou dále zpracovávána v časové oblasti. Princip kodéru je zobrazen na Obr. 3: Obr. 3 Princip kodéru metody SBC Po rozdělení signálu do dílčích kmitočtových subpásem je v každém subpásmu realizována decimace na hodnotu N:, tak, aby součet vzorků subpásem odpovídal při dané vzorkovací frekvenci počtu vzorků celého kmitočtového pásma. Dalším krokem je kódování jednotlivých decimovaných posloupností vzorků každého subpásma. Nejčastěji je ke kódování subpásem [6] použita metoda ADPCM, která umožňuje nezávislé adaptivní řízení
velikostí kvantizačních kroků, respektive proměnné přidělování počtu bitů na vzorky řečového signálu v jednotlivých subpásmech podle jejich vlivu na kvalitu výsledného rekonstruovaného řečového signálu. Velmi dobrou kvalitu rekonstruovaného řečového signálu lze dosáhnout [] už při přenosové rychlosti 6 kbit/s. Multiplexor na straně kodéru sdružuje jednotlivé bitové toky do výsledného bitového toku. Princip dekodéru je naznačen na Obr. 3: Obr. 3 Princip dekodéru metody SBC V dekodéru přichází bitový tok vysílaný kodérem SBC nejprve do demultiplexoru, ve kterém je rozdělen do jednotlivých dílčích bitových toků, které jsou směrovány do příslušných subpásmových dekodérů, kde se nejprve dekódují a vstupují do interpolátorů, kde jsou do signálů vsunuty vzorky, které byly decimací odstraněny. Nejjednodušším způsobem interpolace je nahrazení vypuštěných vzorků nulovými hodnotami. Získané posloupnosti rekonstruovaných vzorků jsou filtrovány obdobnou bankou filtrů, kterou byly původně rozděleny do subpásem, aby se odstranily vysokofrekvenční složky vzniklé digitalizací signálu. Problémem při implementaci SBC je problém s překrytím se dílčích pásem (aliasing) po decimaci, způsobené neostrými frekvenčními charakteristikami subpásmových filtrů. Mezi základní výhody subpásmového kódování patří: - kvantizační šum spadá vždy do odpovídajícího frekvenčního subpásma a nedochází k vzájemnému ovlivňování pásem - jednotlivým pásmům lze podle psychoakustických poznatků přidělit rozdílný počet bitů na kvantovaný vzorek, čímž je možné zvýšit subjektivní kvalitu rekonstruovaného signálu Dalšího zlepšení kvality rekonstruovaného řečového signálu lze dosáhnout subpásmovým rozdělením frekvenčního rozsahu do více pásem a adaptivním přidělováním počtu bitů na vzorky mezi jednotlivými subpásmy. Tento postup je aplikován v adaptivním transformačním kódování ATC (Adaptive Transform Coding). V kódování ATC se na rozdělení signálů do subpásem nepoužívá lineární filtrace, ale algoritmy rychlých diskrétních transformací, jako například FFT (Fast Fourier Transform), DCT (Diskret Cosinus Transform).
5 Další metody zdrojového kódování řečových signálů 5. Vokodéry (zdrojové hovorové kodéry) Kódování typu vocoder nesleduje věrné reprodukování tvarového průběhu kódovaného signálu []. Místo toho se ve zdrojovém kodéru nepřetržitě analyzuje hovorový signál a odvozuje z něho soustavu určitých charakteristických parametrů. Ty se přenášejí k dekodéru přijímače, kde potom ovládají syntetizátor (generátor) hovorových signálů. Soustava charakteristických parametrů je již podstatně zbavena redundance, což vede k výraznému snížení bitové rychlosti v komunikačním kanálu. Reprodukovaný signál má ovšem jen syntetický charakter, plně dostačující například pro některé speciální (vojenské) aplikace, méně již pro veřejný radiotelefon apod. Mezi nejčastěji používané systémy vokodérů náleží systémy s lineárním prediktivním kódováním LPC (Linear Predictive Coding), u nichž se realizuje zpracování signálu v časové oblasti. Do druhé početnější skupiny, se zpracováním signálu v kmitočtové oblasti, se řadí kanálové vokodéry, formantové vokodéry, cepstrové vokodéry a vokodéry s hlasovou excitací. Základem všech vokodérů je model pro syntézu řeči, který generuje na přijímací straně, s využitím informací přicházejících z vysílače, hovorový signál. Jeho funkce vychází z poznatku, že lidská řeč se skládá ze znělých hlásek, neznělých hlásek a z mezer. Vytváření všech hlásek je zde modelováno jako odezva digitálního filtru hlasového traktu VTF (Vocal Tract Filter), na vhodný budivý (excitační) signál. Tímto signálem je při vytváření znělých hlásek, vzhledem k jejich kvaziperiodické podstatě, sekvence úzkých impulzů o základním hlasovém kmitočtu (pitch); tento kmitočet je pro každou osobu poněkud odlišný a mění se dokonce i v průběhu hovoru jediné osoby. Neznělé hlásky se potom vytvářejí jako odezva uvažovaného filtru na pseudonáhodný signál, mající charakter bílého šumu. Filtr hlasového traktu je časově proměnný, takže jeho koeficienty představují adekvátní reprezentaci znělých nebo neznělých hlásek vstupního signálu. Výsledkem celého procesu je replika původního hovorového signálu, která má ovšem jen syntetický charakter. Srozumitelnost dosahuje asi 8 až 85 % [6]. Této snížené kvality je však dosahováno s relativně velmi nízkými přenosovými rychlostmi, pod cca 4 kbit/s []. Nepřirozenost obnovené řeči je způsobena nedokonalým rozdělením na znělé a neznělé segmenty. V řeči se navíc vyskytují další zvuky a jejich kombinace, ne pouze znělé a neznělé hlásky. Dalším důvodem je zjednodušení, které řečový signál vytváří jako odezvu lineárního filtru na posloupnost impulzů s jednou základní periodou. V přirozené řeči se základní tón neustále neperiodicky mění. Na vysílací straně je signál nejprve rozdělen na krátké úseky délky až 3 ms [6], každý úsek je analyzován a jsou pro něj vypočteny koeficienty filtru, modelujícího hlasový trakt. Tyto koeficienty jsou přenášeny v digitálním tvaru na přijímací stranu.
Model generování řeči je na Obr. 3: Obr. 3 Model generování řeči Generátor řeči se skládá ze dvou základních částí: - buzení hlasového traktu - filtr hlasového traktu Buzení vokálního traktu tvoří generátor impulzů s periodou odpovídající frekvenci základního hlasového kmitočtu a generátor šumu. Mezi těmito generátory se přepíná v závislosti na modelování znělých či neznělých hlásek. Filtr hlasového traktu je lineární číslicový filtr FIR, jehož přenosová funkce je proměnná přenášenými parametry filtru. 5. Hybridní hovorové kodéry Kromě uvedených dvou základních kategorií se v některých pramenech uvádějí jako samostatná skupina ještě hybridní kodéry, které v sobě vhodně spojují přednosti obou předchozích typů. Analogicky s vokodéry se u nich vytváří výstupní hovorový signál jako odezva vhodného filtru hovorové syntézy, avšak generace excitačních signálů je složitější. Již se zde nezavádí pojem základní kmitočet, ani přesné rozlišování znělých a neznělých hlásek a tomu odpovídající dvojí excitace, nýbrž se zde uplatňuje multipulzní excitace. Ta je modelována několika úzkými impulzy situovanými do krátkého časového úseku (např. 4 impulzy na 5 milisekund) [], přičemž amplitudy a polohy těchto impulzů jsou určovány tak, aby se minimalizovala perceptuálně (smyslově) vážená chyba mezi originální a syntetizovanou řečí. Uvedený princip lze realizovat například lineárním prediktivním kódováním typu analýza-syntéza. Základní částí kodéru je časově proměnný syntetizační filtr (filtr hovorové syntézy), který krátkodobě modeluje spektrální obálku průběhu hovorového signálu; ten se označuje také jako krátkodobý korelační filtr, neboť jeho koeficienty se vypočítávají na základě predikce vzorku řeči odvozené jen z několika předchozích vzorků. Do kaskády s ním však lze zařadit ještě dlouhodobý korelační filtr realizující dlouhodobou predikci LTP (Long Term Prediction), která zjemňuje hovorové spektrum. Syntetizační filtr je buzen excitačním generátorem, který generuje excitační sekvenci. Excitační generátor a filtr syntézy vytvářejí vlastně dekodér, který je ve stejné podobě použit na přijímací straně. Excitační generátor je řízen rozdílovým signálem mezi originální a syntetizovanou řečí, zpracovaným v blocích vážení chyby a minimalizace chyby. Excitace je takto optimalizována z hlediska perceptuálně vážené chyby mezi originální a syntetizovanou řečí. Optimalizační postup se zde realizuje
v uzavřené smyčce, která nutí filtr syntézy generovat řečový signál, jež se co nejméně liší od signálu originálního. To potom vede k velké efektivitě kodérů tohoto typu, které tak při relativně malých bitových rychlostech zakódovaného signálu poskytují velmi dobrou kvalitu reprodukované řeči, srovnatelnou s kodéry tvarového průběhu. Tím vynikají nad prediktivními kodéry s otevřenou smyčkou RELP (Residual Excited Linear Predictive) aj., jejich realizace je však komplikovaná. 6 Zdrojové kódování jakostních elektroakustických signálů Metody kódování kodéry tvarového průběhu, vokodéry, hybridními kodéry či kodéry ADPCM pro hovorové signály nejsou vhodné pro zpracování audio signálů, u nichž se vyžaduje vysoká věrnost reprodukce, tedy přenos celého akustického pásma, co nejmenší nelineární zkreslení a co nejlepší další kvalitativní ukazatele. Tento požadavek je aktuální například u perspektivního digitálního rozhlasového vysílání DAB, u digitální televize DVB apod. Mají-li být dosaženy uvedené špičkové parametry, je ovšem i v těchto aplikacích nutné realizovat co nejúčinnější zdrojové kódování. Například přenos stereofonního signálu v náročném formátu CD se uskutečňuje při použití běžné lineární modulace PCM s 6 bitovou reprezentací vzorků přenosovou rychlostí,4 Mbit/s, která vyžaduje kanál s extrémní šířkou pásma nejméně 7 khz. Avšak důmyslné metody zdrojového kódování, využívající poznatky psychoakustiky a vyspělou techniku rychlého digitálního signálového procesingu, umožňují tyto neúnosné nároky redukovat a to při zachování nejvyšší jakosti reprodukovaného zvuku. 6. Metody zdrojového kódování jakostních elektroakustických signálů Systémy uvažovaného zdrojového kódování je možné dělit do dvou základních tříd. První z nich představují systémy s prediktivním kódováním, druhou systémy s transformačním kódováním. U obou systémů se uplatňují zejména varianty se subpásmovým kódováním SBC (Sub Band Coding), které optimálně využívají psychoakustické efekty lidského sluchu. 6. Prediktivní metody zdrojového kódování Prediktivní metody zdrojového kódování realizují kódovací algoritmy v časové oblasti. Jejich hlavními zástupci jsou adaptivní diferenciální pulzní kódová modulace ADPCM a její varianty. Diferenciální systémy redukují bitovou rychlost tím, že se u nich kóduje a přenáší jen rozdíl mezi predikovanou úrovní určitého vzorku vstupního signálu, získanou např. z referenční vyhledávací tabulky, a skutečnou úrovní tohoto vzorku. Z různých psychoakustických jevů a z nich vyplývající možnosti potlačení irelevantní informace se u nich využívá pouze skutečnosti, že citlivost ucha klesá směrem k vyšším kmitočtům. V celém kmitočtovém spektru se proto subpásmům v dolní části spektra přidělují vyšší počty bitů. Žádné další irelevantní informace obsažené v kódovaném signálu zde odstraňovány nejsou.