PRINCIPY ZPRACOVÁNÍ HLASU V KLASICKÉ A IP TELEFONII



Podobné dokumenty
Základní principy přeměny analogového signálu na digitální

zadání: Je dán stejnosměrný motor s konstantním magnetickým tokem, napájen do kotvy, indukčnost zanedbáme.

Reproduktor elektroakustický měnič převádějící elektrický signál na akustický signál, převážně zvukový

Systémové struktury - základní formy spojování systémů

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

7. VÝROBNÍ ČINNOST PODNIKU

3.2 Metody s latentními proměnnými a klasifikační metody

MĚŘENÍ VÝKONU V SOUSTAVĚ MĚNIČ - MOTOR. Petr BERNAT VŠB - TU Ostrava, katedra elektrických strojů a přístrojů

Univerzita Pardubice FAKULTA CHEMICKO TECHNOLOGICKÁ

ednáška a metody digitalizace telefonního signálu Ing. Bc. Ivan Pravda

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Způsobilost. Data a parametry. Menu: QCExpert Způsobilost

PARALELNÍ PROCESY A PROGRAMOVÁNÍ

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

1. Základy teorie přenosu informací

Hluk Nepříjemný nebo nežádoucí zvuk, nebo jiné rušení (ČSN ).

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Úvod do praxe stínového řečníka. Proces vytváření řeči

Směrová kalibrace pětiotvorové kuželové sondy

V následující tabulce jsou uvedeny jednotky pro objemový a hmotnostní průtok.

Druhy sdělovacích kabelů: kroucené metalické páry, koaxiální, světlovodné

Termodynamické základy ocelářských pochodů

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

RÁDIOVÉ URČOVÁNÍ POLOHY

Obr. V1.1: Schéma přenosu výkonu hnacího vozidla.

EFEKTIVNÍ METODY KÓDOVÁNÍ ZVUKOVÝCH SIGNÁLŮ

DIAGNOSTICKÁ MĚŘENÍ V SOUSTAVĚ MĚNIČ - MOTOR

íta ové sít baseband narrowband broadband

Pulzní (diskrétní) modulace

Dynamické programování

Laplaceova transformace.

Moderní multimediální elektronika (U3V)

definovat pojmy: PI člen, vnější a vnitřní omezení, přenos PI členu popsat činnost PI regulátoru samostatně změřit zadanou úlohu

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

Oddělení technické elektrochemie, A037. LABORATORNÍ PRÁCE č.9 CYKLICKÁ VOLTAMETRIE

Úvěr a úvěrové výpočty 1

Kompresní metody první generace

DSY-4. Analogové a číslicové modulace. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

OPTIMALIZACE PLÁŠTĚ BUDOV

Výpočet svislé únosnosti osamělé piloty

GEOMETRICKÉ PROJEKCE. Petra Surynková, Yulianna Tolkunova

VLIV ELEKTROMAGNETICKÉ KOMPATIBILITY NA BEZPEČNOST LETOVÉHO PROVOZU INFLUENCE OF THE ELECTROMAGNETIC COMPATIBILITY ON THE AIR TRAFFIC SAFETY

2. přenáška. Hlas a jeho kódování

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

PZP (2011/2012) 3/1 Stanislav Beroun

VYUŽITÍ TRANSIMPEDANČNÍCH ZESILOVAČŮ V AKTIVNÍCH FILTRECH

Výpočet svislé únosnosti osamělé piloty

NÁVRH A OVĚŘENÍ BETONOVÉ OPŘENÉ PILOTY ZATÍŽENÉ V HLAVĚ KOMBINACÍ SIL

ADA Semestrální práce. Harmonické modelování signálů

Národní informační středisko pro podporu jakosti

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722

VY_32_INOVACE_E 15 03

MĚŘENÍ PLANCKOVY KONSTANTY

CVIČENÍ Z ELEKTRONIKY

PRŮTOK PLYNU OTVOREM

Spojitá náhodná veličina

Obvodové rovnice v časové oblasti a v operátorovém (i frekvenčním) tvaru

Návod na cvičení VoIP Hodnocení kvality řeči neintrusivní metodou

Charakteristiky zvuk. záznamů

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

Počítačové sítě. Lekce 5: Základy datových komunikací

Větrání hromadných garáží

Téma 7: Přímý Optimalizovaný Pravděpodobnostní Výpočet POPV

MOŽNOSTI TERMOMECHANICKÉHO VÁLCOVÁNÍ DRÁTU NA SPOJITÉ DRÁTOTRATI V TŘINECKÝCH ŽELEZÁRNÁCH

STATISTICKÉ METODY. (kombinovaná forma, 8.4., ) Matěj Bulant, Ph.D., VŠEM

Rozhodovací stromy Marta Žambochová

SHANNONOVY VĚTY A JEJICH DŮKAZ

Experimentální identifikace tepelného výměníku. Bc. Michal Brázdil

NÁVRH PREDIKTIVNÍCH REGULÁTORŮ POMOCÍ MINIMALIZACE l p NORMY V PROSTŘEDÍ MATLAB. Jaroslav Pekař *, Jan Štecha *, Vladimír Havlena *, **

4.2. Modulátory a směšovače

Rádiové rozhraní GSM fáze 1

31SCS Speciální číslicové systémy Antialiasing

Úloha č.1: Stanovení Jouleova-Thomsonova koeficientu reálného plynu - statistické zpracování dat

Cvičení z termomechaniky Cvičení 5.

6. Vliv způsobu provozu uzlu transformátoru na zemní poruchy

Technická kybernetika. Obsah. Principy zobrazení, sběru a uchování dat. Měřicí řetězec. Principy zobrazení, sběru a uchování dat

Metody s latentními proměnnými a klasifikační metody

Základní komunikační řetězec

ÚSTAV ORGANICKÉ TECHNOLOGIE

Pokud světlo prochází prostředím, pak v důsledku elektromagnetické interakce s částicemi obsaženými

Numerické výpočty proudění v kanále stálého průřezu při ucpání kanálu válcovou sondou

Analytická metoda aneb Využití vektorů v geometrii

PCM30U-ROK 2 048/256 kbit/s rozhlasový kodek stručný přehled

U Úvod do modelování a simulace systémů

Výpo ty Výpo et hmotnostní koncentrace zne ující látky ,

Stabilita prutu, desky a válce vzpěr (osová síla)

Kvantová a statistická fyzika 2 (Termodynamika a statistická fyzika)

Cyklické kódy. Alena Gollová, TIK Cyklické kódy 1/23

MODERNÍ METODY KÓDOVÁNÍ ŘEČI PRO PŘENOS PO MOBILNÍ SÍTI

ADC (ADS) AIR DATA COMPUTER ( AIR DATA SYSTEM ) Aerometrický počítač, Aerometrický systém. V současné době se používá DADC Digital Air data computer

Nelineární model pneumatického pohonu

POSUDEK SPOLEHLIVOSTI VYBRANÉ OCELOVÉ KONSTRUKCE NUMERICKÝM ŘEŠENÍM

Rovnice paraboly

Způsob určení množství elektřiny z kombinované výroby vázané na výrobu tepelné energie

MOBILNÍ KOMUNIKACE LABORATORNÍ CVIČENÍ. VoIP přenos hlasu v prostředí IP. MAREK Michal Po 10:00. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ Fakulta elektrotechnická

Laplaceova transformace

A/D převodníky - parametry

Teplovzdušné motory motory budoucnosti

Transkript:

PRINCIPY ZPRACOVÁNÍ HLASU V KLASICKÉ A IP TELEFONII Doc. Ing. Boris ŠIMÁK, CSc. racoviště: ČVUT FEL, Katedra telekomunikační techniky; mail: simak@feld.cvut.cz Abstrakt: Tento řísěvek si klade za cíl seznámit čtenáře se základními technickými řístuy ke kódování hlasového signálu v komunikačních alikacích. Potřeba vysokého stuně komrese hlasových signálů a řitom rostoucí ožadavky na kvalitu hlasového signálu vede k využívání řady komresních ostuů,některé z nich jsou standardizovány ve tvaru konkrétních dooručení ITU-T nebo ETSI či ISO norem. Používané rinciy jsou již dlouhou dobu známé, ale terve v osledních letech díky technologickému okroku jsou složité a výočetně náročné algoritmy realizovatelné ať již secializovanými integrovanými obvody či rogramově s využitím signálových rocesorů. Z možných komresních technik jsou osány stručně ostuy využívané ři řenosu hovoru rostřednictvím internet rotokolu. Hovorový signál a jeho vlastnosti Zdrojem hovorového signálu jsou řečové orgány, které se skládají z hlasivek, hrdelní dutiny, ústní dutiny, nosní dutiny, měkkého a tvrdého atra, zubů a jazyka. Zdrojem buzení této soustavy jsou líce ve soluráci s dýchacími svaly. Vlivem tlaku roudu vzduchu vycházejícího z lic dochází k jeho modulaci hlasivkami. Kmitočet závisí na tlaku vzduchu na svalovém naětí hlasivek. Kmitočet hlasivek je charakterizován základním tónem lidského hlasu (itch eriode) F 0, který tvoří základ znělých zvuků (tj. samohlásek a znělých souhlásek). Kmitočet základního tónu je různý u dětí, dosělých, mužů i žen, ohybuje se většinou v rozmezí 50 až 400 Hz. V klidu je štěrbina hlasivek otevřena a roud vzduchu volně rochází hlasivkami. Vytvářený zvuk je o růchodu hlasivkami formován ústní dutinou a je vyřazován do volného rostoru. Sdělení zrostředkované řečovým signálem je diskrétní, tzn. může být vyjádřeno ve tvaru oslounosti konečného očtu symbolů. Každý jazyk má vlastní množinu těchto symbolů - fonemů, většinou 30 až 50. Hlásky řeči dále můžeme rozdělit na znělé (n, e,...), neznělé (š, č,...) a jejich kombinace. Znělá hláska ředstavuje kvazieriodický růběh signálu, neznělá ak signál odobný šumu. Navíc energie znělých hlásek je větší než neznělých. Krátký časový úsek znělé hlásky můžeme charakterizovat její jemnou a formantovou strukturou. Formantem označujeme tón tvořící akustický základ hlásky. Ten vlastně ředstavuje sektrální obal řečového signálu. Jemná harmonická struktura ředstavuje chvění hlasivek. Lidská řeč je souvislý časově roměnný roces, z toho lyne i náročnost oisu lidské řeči a jejího modelování. Příklad časového a kmitočtového růběhu znělého a neznělého segmentu hovorového signálu je na obr.. Hovorový signál snímáme mikrofonem, který řevádí modulovaný roud vzduchu na elektrický signál. Z hlediska digitálního zracování řeči vycházíme nejčastěji z: kódování vzorků časového růběhu hovorového signálu, tj. kódování tvaru vlny ( Waveform Coding ). Mezi tyto ostuy atří ulsně kódová modulace PCM, delta modulace DM, adativní delta modulace ADM, diferenciální ulsně kódová modulace DPCM, adativní diferenciální ulsně kódová modulace ADPCM, kódování arametrů zdroje hovorového signálu, tj. arametrického kódování ( Source Coding ). Mezi základní metody atří vokodérové metody sočívající na rinciu lineární redikce. hybridních metod kódování. Do této kategorie atří kodeky založené na adativních redikčních metodách APC, kodeky s multiimulsním MPE-LP či regulárním buzením RPE-LP nebo kodeky využívající vektorové kvantizace (CELP, LD-CELP). Dále mezi hybridní kodéry atří metody založené na složkovém kódování (SBC- Sub-Band Coding) nebo adativním transformačním kódování (ATC Adative Transform Coding) využívající rychlé diskrétní transformace (DFT, DCT) [3]. strana 37

Obr. : Časový a kmitočtový růběh znělého a neznělého segmentu hovorového signálu Cílem komresních metod je dosáhnout co nejnižší řenosové rychlosti ři zachování dobré srozumitelnosti, barvy hlasu mluvčího a řiměřené výočetní náročnosti oužitých algoritmů. 2 Kódování tvaru vlny Zracování vychází z řeměny hovorového signálu ve tvaru elektrického signálu. Tento signál je vzorkován, kvantován a následně kódován. 2. Pulsně kódová modulace PCM (Pulse Code Modulation) PCM kódování sestává ze tří kroků: Vzorkování - hodnoty sojitého analogového signálu u x se odečítají v diskrétním čase. Vzorkovací kmitočet vychází z Shanonova-Kotělnikova vzorkovacího teorému [3]. Kvantování ke každému vzorku získanému v ředchozím kroku se řiřadí jedna z možných diskrétních úrovní. Kódování - diskrétní hodnoty vzorků jsou rerezentovány omocí n-bitových čísel. n se vybírá jako mocnina čísla 2 odle toho, jaké rozlišení ožadujeme, viz obr. 2. V orovnání s analogovými metodami řenosu má PCM výhodu ve větší odolnosti řenášeného digitálního signálu vůči rušení a v možnosti mnohonásobné obnovy ři řenosu digitálního signálu. Nevýhodou je větší náročnost na šířku kmitočtového ásma a vznik tzv. kvantizačního zkreslení daného rozdílem mezi skutečnou hodnotou vzorku a výslednou kvantovanou hodnotou, která byla vzorku řiřazena. Při využití telekomunikačního kanálu s šířkou 4 khz a vzorkovacím kmitočtu 8kHz je řenosová rychlost ro jeden telefonní kanál 64 kbit/s. Tento ostu odovídá lineárnímu kvantování. strana 38

Obr. 2: Princi kódování PCM Pro zajištění rovnoměrné hodnoty odstuu kvantizačního zkreslení v racovním rozsahu kodéru PCM je možno využít nelineárního rozložení kvantizačních stuňů. Obdobného výsledku dosáhneme komresí dynamiky řenášeného signálu na vysílací straně a exanzí dynamiky na straně řijímací. Malé hodnoty vzorků se na vysílací straně zesílí a velké zeslabí. Na řijímací straně roběhne inverzní roces. Zakódování se ak realizuje kodérem s lineárním kvantováním. Příklad komresní charakteristiky je na obr. 3 (velikosti rozsahů P a Q se transformují na intervaly P a Q). Obr. 3: Příklad komresní charakteristiky strana 39

Z hlediska realizovatelnosti se sojitá charakteristika nahrazuje charakteristikou složenou z lineárních lomených úseků. Na obr. 4 je nakreslena odovídající charakteristika ro kladné hodnoty signálu. Charakteristika je složená z osmi lomených úseků. Při oužití kódování čtyřmi bity je každý segment rozdělen do šestnácti dílčích hodnot, celkově ro kladné i záorné hodnoty signálu tak získáme rozlišení na 256 stuňů, což odovídá kódování osmi bity. Signál, který je v raxi kódován s vyšším očtem bitů se řevádí na kódování osmi bity tak, že: bit určuje olaritu signálu, 3 bity určují říslušný segment, 4 bity kódují velikost kvantizační úrovně v daném segmentu. Tím získáme rozlišení odovídající 3 bitové lineární kvantizaci. Pro komresní charakteristiky se oužívá název charakteristika tyu A (využívaná ředevším v Evroě) nebo µ (oužívaná zejména v USA). Obr. 4: Komresní charakteristika µ 2.2 Diferenciální ulsně kódová modulace DPCM (Differential Pulse Code Modulation) Diferenciální PCM je modifikací PCM kódování a její rinci byl ublikován v roce 952. Systém s DPCM kóduje rozdíly mezi okamžitou hodnotou vzorku signálu v daném vzorkovacím okamžiku a hodnotou redikovanou z ředchozích vzorků. K zakódování rozdílu je zaotřebí nižšího očtu bitů. To vede k redukci řenosové rychlosti a tedy i množství řenášených dat se snižuje. DPCM se využívá ředevším ři kódování obrazu. 2.3 Adativní diferenciální ulsně kódová modulace ADPCM (Adative Differential Pulse Code Modulation) Tento zůsob kódování vychází z DPCM. Je vylešen tak, že srovnávací růběh je vytvářen adativně a řizůsobuje se konkrétním statistickým arametrům řeči. Výsledkem je ještě menší dynamický rozsah než v říadě DPCM a tedy oět otřebujeme méně bitů k zakódování vzorku. 3 Zdrojové kódování hovorových signálů 3. Model zdroje Pro účely syntézy hovorového signálu je nutno vytvořit vhodný model syntezátoru odovídající zůsobu generování hovorového signálu člověkem. Tento model můžeme osat nař. řenosovou funkcí. Model vychází z obr. 5, na kterém nalezeme zjednodušený model rodukce řeči. Fyziologický model uvedený na obr. 5 a) můžeme strana 40

nahradit kaskádním zaojením dílčích bloků odovídajících modelu hlasivek, modelu hlasového traktu a modelu vyzařování zvuku odle schéma na obr. 5 b). Celkový řenos systému modelujícího vokální trakt je dán součinem dílčích řenosových funkcí, které obsahují ouze óly, viz [2]. Výslednou řenosovou funkci H(z) můžeme uvést v olynomiálním tvaru () H( z ) = Model buzení řečového systému využívá ro znělé zvuky sled imulsů s eriodou odovídající časové eriodě základního tónu T 0 a ro neznělé zvuky náhodný šum s lochým sektrem. Odovídající z-obraz budící funkce za ředokladu normované eriody vzorkování je U(z). Z-obraz signálu na výstuu modelu je dán vztahem (2) Sz ( ) = HzUz ( ) ( ) (2) + i= a i z i () Obr. 5: Model rodukce řečového signálu a) a jeho náhradní blokové schéma b) 3.2 Princi vokodéru Klasickým arametrickým systémem je tzv. vokodér (Voice Coder). Vysílací část systému v rocesu arametrizace hovorového signálu (analýza) vyhodnocuje cca 0 až 30 ms dlouhé časové úseky hovorového signálu (segmenty), které je možno ovažovat z hlediska jejich oisu za stacionární a vyčísluje soubory arametrů - deskritorů ro každý časový segment (znělý/neznělý úsek, eriodu základního tónu, zisk G, koeficienty syntetizujícího filtru), které charakterizují daný segment. Blokové schéma vysílací části vokodéru je uvedeno na obr. 6 a). Stanovené deskritory jsou v časovém multilexu řenášeny v digitálním tvaru na řijímací stranu, kde může být generován hovorový signál na základě modelu 6 b). strana 4

Obr. 6: Blokové schéma vysílací části vokodéru a), blokové schéma syntezátoru vokodéru b) Zvuk je v syntezátoru vytvářen na základě buzení eriodickou oslouností ro znělé segmenty hovorového signálu a náhodnou oslouností s rovnoměrným sektrem (bílý šum) ro neznělé segmenty. Po úravě buzení na základě hodnoty zisku G vstuuje budící signál do syntetizujícího filtru rerezentujícího model vokálního traktu a na výstuu modelu je rodukován hovorový signál srozumitelná řeč. Koeficienty jsou nastaveny na hodnotu nalezenou ři analýze hovorového signálu ve vysílací části vokodéru. Rozhodujícím faktorem ro kvalitu rerodukce řijímaného hovorového signálu jsou vlastnosti hlasového syntezátoru. Vokodéry dosahují nízké řenosové rychlosti (cca 2,5 kbit/s), výstuem syntezátoru je ovšem neřirozený zvuk. Tyto nevýhody vokodéru se odstraňují v modernějších kodérech nař. vhodnějšími zůsoby buzení nebo kódováním zbytkového signálu, který získáme na vysílací straně růchodem hovorového signálu inverzním filtrem LPC. Přenosová rychlost komrimovaného signálu je ak dána očtem řenášených deskritorů a jejich vyjádřením v bitech. Vztah ro řenosovou rychlost je dán vztahem (3) Nd r kdi i = v = F N kde F r je oakovací kmitočet rámce (3) N d N kdi je očet řenášených deskritorů je očet bitů, oužitých ro dvojkové vyjádření hodnoty i-tého deskritoru. Deskritory jsou získávány analýzou hovorového signálu. Existuje řada možností jak získat ois vstuního hovorového signálu na základě jeho analýzy. strana 42

V raxi se nejvíce oužívají ostuy založené na lineární redikci (LP). Koeficienty redikce jsou získávány omocí minimalizace střední kvadratické odchylky mezi skutečnými a ředověděnými hodnotami vzorků řešením soustavy lineárních rovnic. Charakterizují solu s dalšími arametry daný segment. Často oužívaný ostu nalezení redikčních koeficientů je tzv. Levinsonova-Durbinova rekurzní metoda [3]. Tyto koeficienty jsou využívány k realizaci filtru v syntezátoru. Další redukce řenosové rychlosti lze dosáhnout nař. technikou vektorového kvantování. 4 Využití lineární redikce v kodérech hovorového signálu Lineární redikce je založena na ředovědi následující hodnoty na základě lineárního závislosti výočtem z ředchozích hodnot. U lineárního rediktoru -tého řádu je aktuální hodnota vzorku získána lineární kombinací osledních vzorků tj. sn ( ) = asn ( i) i= i, (4) kde s(n) je ředovídaný vzorek rocesu, a i jsou koeficienty redikčního filtru. Vokální trakt je modelován řenosovou funkcí H(z) obsahující samé óly odle vztahu (5). () Hz = G j= az j j G Sz () = = Az X() z (). (5) Ta odovídá kaskádně řazeným dvojólovým rezonátorům rerezentujícím hlasivkový model. Na základě buzení GX(z) je rodukována srozumitelná řeč ve formě obrazu v z rovině S(z), viz vztah (6). Sz ( ) kde G je zisk a jmenovatel A(z) je dán vztahem (7) A G ( ) Az ( ) X z =, (6) j () z a z = j. (7) Koeficienty a j ve vztahu (7) jsou získány lineární redikcí. Systémové a budící arametry jsou určeny z konečné množiny řečových vzorků. Vztah (6) můžeme v časové oblasti vyjádřit diferenční rovnicí (8) Chyba redikce e(n) je dána vztahem (9) j= () = () + j ( ) sn Gxn a sn j i= () = () j ( ) en sn a sn j z čehož lyne, že buzení syntetizujícího filtru odovídá chybový signál, viz (0): i=. (8), (9) en () = Gnxn ()() = un (). (0) Tento chybový signál získáme na vysílací straně růchodem hovorového signálu inverzním redikčním filtrem LP s řenosovou funkcí odle rovnice () strana 43

H Obraz budící oslounosti (chybového signálu) je j () z = a z A() z. () j= j = Uz ( ) = H ( zsz ) ( ). (2) 5 Kodeky s očítačovou syntézou budícího signálu Další ostuy zlešení kvality kodérů hovorového signálu vycházejí z možností digitálního zracování signálů. Cílem je nalézt vhodnou budicí oslounost hlasového syntezátoru modelujícího vokální trakt, aby vytvořená umělá řeč se co nejvíce blížila ůvodní kódované řeči. Tyto ostuy jsou označovány obecným názvem analýza na základě syntézy (Analysis by Synthesis - AbS). Zjednodušené blokové schéma rinciu funkce kodéru a dekodéru hovorového signálu s digitálním generátorem budícího signálu je uvedeno na obr. 7. Obr. 7: Blokové schéma kodéru a dekodéru hovorového signálu na základě metody AbS Hlasový syntezátor (LPC filtr), který je součástí kodéru, generuje oslounost vzorků hovorového signálu (daného segmentu) ŝ(n) jako odezvu na budící oslounost. Tyto vzorky jsou orovnávány v rozdílovém členu s originálními vzorky (segment stejné délky) hovorového signálu. Hledá se ro daný hovorový signál taková budící oslounost, aby chybový signál e(n) na výstuu rozdílového členu byl minimální odle určitého kritéria. Nalezená otimální budící oslounost je vhodným zůsobem zakódována a solu s ostatními deskritory (koeficienty LPC filtru) řenesena do řijímače, kde budí redikční filtr rerezentující vokální trakt a na jehož výstuu získáváme syntetickou řeč. Chybový signál na výstuu rozdílového členu kodéru bývá uraven ercečním váhovým filtrem W(f) tak, aby odovídal lidskému vnímání hovorového signálu. Často bývá tento filtr zařazen do vstuů rozdílového členu místo na výstu, viz obr. 8. Podle zůsobu vytváření budící oslounosti můžeme kodeky nazývat kodeky s multiulsním buzením (MPE Multi-Pulse Excitation) nebo regulárním (RPE Regular-Pulse Excitation) buzením. V rvém říadě se hledají vhodné amlitudy a velikosti budících imulsů, v druhém říadě je k disozici několik budících oslouností s evně danými arametry budících imulsů a hledá se otimální vzájemná oloha budících oslouností. Je li budící oslounost generována na základě vektorové kvantizace hovoříme o kodecích CELP (Code - Excited Linear Prediction). Existuje řada modifikací těchto ostuů, odrobnější informace lze nalézt nař. v [3]. strana 44

5. CELP Teorie a raxe IP telefonie -. dvoudenní odborný seminář, Jedná se o lineárně redikční kodeky s vektorovým kvantováním budícího signálu. Jejich řenosová rychlost se ohybuje od 4 do 8 kbit/s. Blokové schéma kodéru CELP je na obr. 8 a odovídá základní konceci AbS metody. Obr. 8: Kodér CELP V amětech kodéru a dekodéru jsou uloženy v kódových knihách soubory možných oslouností vstuního signálu. Je-li v kódové knize nalezena oslounost odovídající budícímu signálu, je říslušná adresa budící oslounosti (tj. vektoru uloženého v kódové knize) binárně řenesena do řijímače. Přijímač ak odle řijaté adresy generuje na základě shodné kódové knihy říslušnou budící oslounost ro LP hlasový syntezátor. Otimální vektor je určen užitím kritéria minima střední kvadratické chyby. Vstuní vzorky i syntetizovaný signál jsou uraveny váhovým filtrem W(z). Kvalita řeči u CELP kodérů může být zlešena následnou filtrací syntetizované řečové oslounosti s cílem zdůraznit strukturu řeči z hlediska formantů a dominantních kmitočtů. Jedna z nevýhod ůvodního CELP algoritmu je velká výočetní náročnost rohledávání kódových knih. Mnoho CELP algoritmů vyžaduje rocesory schoné zracovat více než 20 MIPS a rostor ro kódovou knihu kolem 40 kbytů. Z toho vylývá snaha o vývoj vhodných rohledávacích algoritmů. Kódovací zoždění je až 35 ms a omezuje oužití CELP kodeků ro řenosy na delší vzdálenosti a jejich vícenásobné užití. 5.2 LD-CELP Zůsob kódování s krátkou dobou zoždění LD-CELP (LD Low Delay) odle dooručení ITU-T G.728 je založen na zětnovazebním řízením adatace s kódovacím zožděním do 2ms a řenosovou rychlostí 6 kbit/s. Koncece LD-CELP se od kodeků CELP liší v řešení vlastního hlasového syntezátoru a zůsobu jeho řízení. U kodeků CELP se řenášejí v časovém multilexu lineárně redikční koeficienty vyčíslené v kodéru krátkodobou (STP) a dlouhodobou analýzou (LTP), které slouží v řijímači k eriodickému nastavování LPC filtrů hlasového syntezátoru. Naroti tomu mezi kodérem a dekodérem LD-CELP se tato data neřenášejí a jak kodér, tak dekodér jsou řízeny zětnovazebně. Nastavení budící úrovně se rovádí ro každý blok vzorků. V LD-CELP dekodéru se nastavení úrovně a koeficienty LPC filtru nastavují obdobně jako u kodéru. Převodník kódu řevádí blok vzorků odovídající vektoru syntetického signálu na odovídající PCM kód odle komresní charakteristiky A nebo µ. strana 45

6 Vlastnosti kodeků Teorie a raxe IP telefonie -. dvoudenní odborný seminář, Z důvodu orovnání kodeků mezi sebou, je otřeba stanovit arametry, omocí kterých je budeme hodnotit. Nejčastěji se sledují tyto arametry: Bitrate [kbit/s] řenosová rychlost otřebná k lynulému řenosu zakódovaných dat. Ty kódování - zůsob jakým je signál kódován. Zoždění [ms] - ři kódování signálu dochází ke zoždění, říliš velké zoždění (cca 200 ms) ůsobí roblémy ři komunikaci, čím menší zoždění kodek zůsobuje, tím lée. Výočetní složitost [MIPS million instructions er second] udává náročnost na výkon rocesoru. Paměťová náročnost [kbyte] - velikost aměťového rostoru nutného ro realizaci kodeku. MOS - [Mean Oinion Score]. Kritérium k hodnocení kvality řečového signálu. MOS je určeno číselnou stunicí, kde číslo znamená nejhorší kvalitu, 5 ředstavuje kvalitu nejleší. Kvalitu vždy osuzuje skuina lidí z jejichž názoru se otom statisticky určí MOS. 7 Přehled oužívaných standardů Kodek G.7 je základní kodek, který se oužívá i v klasické telefonní síti. Pro řevod analogového signálu na digitální je oužito kódování PCM, které se bez dalších úrav řenáší. Analogový signál se vzorkuje s frekvencí 8000 vzorků za vteřinu, každý vzorek má 8 bitů, z toho vylývá, že otřebná šířka ásma ro řenos je 64 kbit/s. Při vzorkování signálu se oužívá charakteristika tyu A (A-zákon, A-Law) nebo tyu µ (µ-zákon, µ- Law) ke komresi/exanzi signálu Tento kodek je základní, měla by ho odorovat všechna zařízení ro Voice over IP. Kvalita řenášeného hlasu je totožná s kvalitou hlasu ři běžném telefonním hovoru, MOS je řibližně 4.. Šestnácti bitové vzorky signálu jsou oříznuty na třináct bitů, které jsou následně kódovány na 8 bitů na základě definované komresní charakteristiky. G.722 oužívá kódování ADPCM. Potřebná řenosovou rychlost je 6 kbit/s, tedy kodek signál komrimuje v oměru 4:. Signál je rozdělen na 2 kmitočtová ásma, která jsou kódována omocí ADPCM samostatně. Kodek G.723. Tento kodek oužívá buď kódování MP-MLQ (Multi-ulse Maximum Likelihood Quantization) nebo ACELP (Algebraic-code-excitation). První ty kódování vyžaduje řenosovou rychlost 6.3 kbit/s, druhý ty 5.3 kbit/s. Zoždění kodeku je 30 ms a MOS hodnota je 3.9 ři oužití kódování MP-MLQ a 3.65 ři oužití ACELP. Kodek G.726 - tento kodek oužívá kódování ADPCM, otřebná řenosovou rychlost je 6, 24, 32 a 40 kbit/s. Kodek může zracovávat bloky různé délky odle toho, jak velké zoždění je ožadováno. Vzorkovací frekvence je 8 khz. Standard Algoritmus MIPS Přenosová rychlost [kbit/s] MOS G.7 PCM --- 64 4, G.723. MP-MLQ 6 6,3 3,9 G.723. ACELP 20 5,3 3,65 G.726 ADPCM 32 3,85 G.728 LD-CELP 30 6 3,6 G.729A CS-ACELP 8 3,7 G.729 CS-ACELP 20 8 3,92 GSM 06.0 RPE-LP 0 3 3,5 Tab. : Porovnání výkonnosti kodeků strana 46

Kodek G.728 oužívá kódování LD-CELP (Low Delay Code Excited Linear Prediction). Potřebná řenosovou rychlost je 6 kbit/s, MOS je řibližně 3.9 a zoždění asi 30 ms. Kodek G729 - oužité kódování je CS-ACELP (Conjugate Structure Algebraic Code Excited Linear Prediction). Potřebná řenosovou rychlost je 8 kbit/s, kvalita je odobná jako u ADPCM ro rychlost 32kbit/s. GSM Tento zůsob komrese řeči se oužívá v GSM sítích. Požadovaná řenosovou rychlost je 3 kbit/s. GSM je rychlejší než metody založené na slovníku (CELP), ale i tak je GSM komrese relativně náročná na výkon rocesoru. Zoždění kodeku je řibližně 20 ms. Z tabulky je atrné výhradní ostavení kodeků G.729 a G.723., které oskytují nejleší komresní oměr vzhledem k dosažené kvalitě. 8 Realizace kodeků Kodeky jsou realizovány ve formě secializovaných obvodů často solečně s dalšími funkčními bloky na čiu. V řadě říadů je ale výhodnější realizace kodeků ve formě signálového rocesoru, kde komrimační a dekomrimační ostuy jsou realizovány rogramově s využitím instrukčního souboru daného signálového rocesoru. Tento řístu je velice rogresivní a umožňuje snadnou modifikaci a imlementaci nových verzí kodeků. Představu o výočetní náročnosti komresních ostuů si lze udělat na základě údajů uvedených v tab. ve třetím slouci, charakterizujících hodnoty otřebného očetního výkonu v milionech instrukcí vykonaných za jednu sekundu (MIPS). 9 Závěr Přísěvek odává stručný ohled na nejvíce oužívané technické rinciy ři realizaci kodeků ro řenos hlasu. V moderních kodecích se mimo rezentované ostuy využívá možností komrese v kmitočtové rovině, komrese s užitím diskrétních transformací (FFT, DCT, waveletové transformace), bitové alokace na základě využití sychoakustického modelu a maskovacího efektu aod. Literatura [] Kondoz, A., M.: Digital Seech. Coding for Low Bit Rate Communications Systems. John Wiley & Sons, New York,996. [2] Ško, M. a kol.: Digitální telekomunikační technika. I. Díl, Digitální zracování signálů. TTC Marconi, 996. [3] Prchal, J. - Šimák, B.: Digitální zracování signálů v telekomunikacích. ČVUT v Praze, 2000. strana 47