Katedra radioelektroniky K13137, FEL ČVUT Praha. zakódování dané informace. Tento trend postihl i oblast záznamu a přenosu širokopásmových

Podobné dokumenty
Moderní multimediální elektronika (U3V)

Karel Mikuláštík Katedra radioelektroniky, ČVUT-FEL Radiokomunikace 2016, Pardubice


OSNOVA. 1. Definice zvuku a popis jeho šíření. 2. Rozdělení zvukových záznamů (komprese) 3. Vlastnosti jednotlivých formátů

Kódování s proměnnou bitovou rychlostí ve standardu MPEG-1 Audio

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

VIDEO DATOVÉ FORMÁTY, JEJICH SPECIFIKACE A MOŽNOSTI VYUŽITÍ SMOLOVÁ BÁRA

Fakulta elektrotechniky a komunikačních technologií Ústav radioelektroniky. prof. Ing. Stanislav Hanus, CSc v Brně

Identifikátor materiálu: ICT-1-19

Komprese zvuku. Ing. Jan Přichystal, Ph.D. 14. března PEF MZLU v Brně

Jan Kaiser ČVUT, Fakulta elektrotechnická, katedra Radioelektroniky Technická 2, Praha 6

NOVÉ METODY HODNOCENÍ OBRAZOVÉ KVALITY

Zpracování zvuku v prezentacích

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

Digitální magnetický záznam obrazového signálu

Témata týmových projektů vypisovaných katedrou radioelektroniky v letním semestru 2007/2008

Kompresní algoritmy grafiky. Jan Janoušek F11125

Multimediální systémy. 08 Zvuk

EXTRAKT z mezinárodní normy

Datové formáty videa a jejich využití. Tomáš Kvapil, Filip Le Manažerská informatika Multimédia

DIGITÁLNÍ VIDEO. pokus o poodhalení jeho neskutečné obludnosti (bez jednosměrné jízdenky do blázince)

Komprese dat (Komprimace dat)

Převody datových formátů

Komprese multimédií. Ing. Jan Přichystal, Ph.D. 7. října PEF MZLU v Brně

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ PERCEPČNÍ KÓDOVÁNÍ ZVUKOVÝCH SIGNÁLŮ PERCEPTUAL AUDIO CODING

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

Ochrana dat před shluky chyb, Berlekamp- Preparatův kód

Charakteristiky zvuk. záznamů

Standard mobilní televize DVB-H

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

Multimediální systémy. 10 Komprese videa, formáty

ZÁPADOČESKÁ UNIVERZITA V PLZNI

SIMULACE ZVUKOVÉHO POLE VÍCE ZDROJŮ

EFEKTIVNÍ METODY KÓDOVÁNÍ ZVUKOVÝCH SIGNÁLŮ

Simulace zpracování optické obrazové informace v Matlabu. Petr Páta, Miloš Klíma, Jaromír Schindler

Videoformáty na internetu Ing. Jakub Vaněk KIT digital Czech a.s. Situation: Q4 09 and 2010 Budget

PCM30U-ROK 2 048/256 kbit/s rozhlasový kodek stručný přehled

Komprese dat. Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI. přednášky

Základy informatiky část 10

37MK Mobilní komunikace. Video v mobilních sítích

Kosinová transformace 36ACS

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Kompresní metody první generace

IMPLEMENTACE AUTOMATIZOVANÉHO MĚŘENÍ HRTF V MATLABU

Informační systémy ve zdravotnictví

Digitální učební materiály ve škole, registrační číslo projektu CZ.1.07/1.5.00/

KNIHOVNA MODELŮ TECHNOLOGICKÝCH PROCESŮ

Porovnání kodeků standardu MPEG 4

Multimediální systémy

VIDEO VQ-KODÉR IMPLEMENTACE V MATLABU

Komprese a dotazování nad XML dokumenty

BPC2E_C09 Model komunikačního systému v Matlabu

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Webové stránky. 16. Obrázky na webových stránkách, optimalizace GIF. Datum vytvoření: str ánk y. Vytvořil: Petr Lerch.

Kvalita zvuku a obrazu v elektronických komunikacích aneb Ještě chceme HiFi?

Algoritmy komprese dat

LabView jako programovací jazyk II

Kódy pro odstranění redundance, pro zabezpečení proti chybám. Demonstrační cvičení 5 INP

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY

Konvolučníkódy. MI-AAK(Aritmetika a kódy)

MULTIMEDIÁLNÍ A HYPERMEDIÁLNÍ SYSTÉMY

Práce s obrazovým materiálem CENTRUM MEDIÁLNÍHO VZDĚLÁVÁNÍ. Akreditované středisko dalšího vzdělávání pedagogických pracovníků

Číslicové filtry. Honza Černocký, ÚPGM

EXTRAKT z české technické normy

Ladění regulátorů v pokročilých strategiích řízení

Registrační číslo projektu: CZ.1.07/1.5.00/ Elektronická podpora zkvalitnění výuky CZ.1.07 Vzděláním pro konkurenceschopnost

GUI PRO DEMONSTRACI PRINCIPŮ BINAURÁLNÍ LOKALIZACE ZDROJŮ ZVUKU

POČÍTAČOVĚ PODPOROVANÁ VÝUKA V OBLASTI MULTIMEDIÁLNÍ TECHNIKY

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Multimediální technika

Komprese dat s použitím wavelet transformace

Moderní multimediální elektronika (U3V)

Multimediální systémy

VLASTNOSTI ZVUKU A ZVUKOVÝCH ZÁZNAMŮ

Multimediální formáty

Základní komunikační řetězec

Současné formáty pro záznam zvuku

Wichterlovo gymnázium, Ostrava-Poruba, příspěvková organizace. Maturitní otázky z předmětu INFORMATIKA A VÝPOČETNÍ TECHNIKA

Videosekvence. vznik, úpravy, konverze formátů, zachytávání videa...

MATLAB. F. Rund, A. Novák Katedra radioelektroniky, FEL ČVUT v Praze. Abstrakt

Vliv šumu na kompresi videa

Obraz jako data. Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno. prezentace je součástí projektu FRVŠ č.2487/2011

1 Komprese obrazových signálů

Stručně o XML (výhody, nevýhody) Proč komprimovat XML? Metody komprese XML XMill. Optimalizace komprese XML. Závěr

do magisterské etapy programu ELEKTRONIKA A KOMUNIKACE

Princip digitalizace vstupních multimediálních dat Klasifikace Zpracování Využití

Základní principy přeměny analogového signálu na digitální

EXTRAKT z mezinárodní normy

24. Audio formáty moderního videa (DTS, Dolby Digital)

Návrh frekvenčního filtru

I. Současná analogová technika

1 Přenos: Kodování, formáty dat

EXTRAKT z české technické normy

Video. Co je to video. Vlastnosti videa. Frame rate. Prokládání

Adaptabilní systém pro zvýšení rychlosti a spolehlivosti přenosu dat v přenosové síti

nutné zachovat schopnost reprodukovat zvukovou vlnu

U zvuku (mechanického vlnění) nás zajímají nejvíce dvě veličiny frekvence a intenzita (hlasitost).

Transkript:

EXPERIMENTÁLNÍ ZVUKOVÝ KODÉR F. Rund, J. Nováček Katedra radioelektroniky K13137, FEL ČVUT Praha Abstrakt Všechny dnes široce rozšířené systémy pro kompresi zvuku vycházejí ze stejných psychoakustických principů a využívají velmi podobnou vnitřní blokovou strukturu. To nám umožňuje vytvoření jediného modulárního systému, který bude mít definován pouze formát dat vstupujících, respektive vystupujících z jednotlivých systémových bloků. Vnitřní struktura daného bloku není přímo definována a závisí pouze na realizovaném kompresním algoritmu. 1 Úvod V dnešní době je komprese zvuku velmi aktuálním problémem. Přes neustále se zvětšující kapacitu záznamových médií je kladen veliký důraz na snižování objemu dat potřebných pro zakódování dané informace. Tento trend postihl i oblast záznamu a přenosu širokopásmových zvukových signálů. Od vzniku dnes bezpochyby nejrozšířenějšího standardu pro kompresi zvuku MP3 (MPEG 1 Layer III) začátkem 90. let 20. století se objevilo mnoho dalších, které více či méně na tento formát navazují. Tento článek popisuje univerzální modulární systém, pomocí kterého je možné porovnávat a kvalitativně hodnotit jednotlivé kompresní algoritmy z hlediska vnímání zvuku lidským sluchem. Navržený systém umožňuje nejen implementaci, studium a hodnocení stávajících systémů (například kodeky z rodiny MPEG, kodek Ogg Vorbis nebo kodeky ATRAC), ale také implementaci nových algoritmů pro kompresi zvukových signálů založených na nových poznatcích z oblasti lidského slyšení. 2 Univerzální modulární systém Výchozí myšlenkou celého návrhu je fakt, že velká většina systémů pro kompresi zvukových signálů vychází ze stejných psychoakustických principů a proto využívají velmi podobných vnitřních struktur (viz např. [1], [2], aj.) Na základě analýzy těchto systémů jsme navrhli blokové schéma podle obr. 1. Toto blokové schéma bylo navrženo tak, aby bylo maximálně univerzální a umožňovalo implementaci co nejvyššího počtu kompresních algoritmů. Jedním z hlavních cílů navrženého univerzálního systému je možnost porovnání algoritmů jednak jako celku, ale zejména také porovnávání a případná kombinace jednotlivých bloků napříč spektrem kompresních algoritmů. V dalších kapitolách následuje popis jednotlivých bloků navrženého systému. O každém bloku je nejprve pojednáno obecně, poté je popsána funkce deklarující daný blok. Názvy funkcí jsou pro přehlednost započaty velikým písmenem K, následuje klíčové slovo charakterizující daný systémový blok. Název deklarační funkce končí velikým písmenem X, které je při implementaci nahrazeno klíčovým slovem charakterizujícím implementovaný kompresní algoritmus. Deklarace funkce je provedena pomocí syntaxe programu Matlab. V popisu každé funkce jsou rozebrány všechny vstupní a výstupní parametry. 2.1 Předzpracování Blok nazvaný Předzpracování je volitelným blokem. Do systému byl vložen pro zvýšení jeho univerzálnosti. Některé kompresní algoritmy totiž před Časově-frekvenční analýzou provádějí

Vstupní data Předzpracování Časově- frekvenční analýza Volitelný blok Kvantizér Alokace bitů Volitelný entropický kodér Psychoakustický model Sběr vedlejších a pomocných informací Formátování výstupního datového toku Výstup Obrázek 1: Blokové schéma popisovaného experimentálního zvukového kodéru. úpravu vstupního signálu. Z hlediska kompatibility by se měl formát vstupujících i vystupujících dat shodovat. Blok je implementován ve formě funkce function [vystup_data, info_pre] = KpreprocX(vstup_data), kde vstup data je vektor vstupních dat, vystup data vektor výstupních dat a pomocí info pre funkce předává parametry bloku Sběr vedlejších a pomocných informací. 2.2 Časově-frekvenční analýza Blok nazvaný Časově-frekvenční analýza představuje transformaci vstupního signálu do formy vhodné pro následnou kompresi. V nejjednodušší formě se může jednat například o banku filtrů (například MPEG 1, vrstva 1 a 2), u pokročilejších algoritmů se může jednat třeba o transformaci DCT (například MPEG 1, vrstva 3) a podobně. function [vystup_data,popis_data,info_tf,varargout] = KtimefreqX(vstup_data), kde vstup data je vektor vstupních dat, vystup data vektor výstupních dat, vektor popis data popisuje strukturu vektoru výstupních dat a pomocí info tf funkce předává parametry bloku Sběr vedlejších a pomocných informací. Poslední výstupní parametr varargout (variabilní počet dalších výstupních argumentů) je přidán pro zvýšení univerzálnosti systému. Pomocí tohoto parametru se přenášejí informace specifické pro některé pokročilé kompresní algoritmy. 2.3 Psychoakustický model Úkolem Psychoakustického modelu je analyzovat vstupní signál z hlediska jeho vnímání lidským sluchem. Výstupem psychoakustického modelu je vždy prahová (maskovací) křivka. Zvuky ležící pod touto křivkou nejsou lidským sluchem vnímány, z tohoto pohledu nenesou žádnou užitečnou informaci. Úkolem dalších systémových bloků je nadbytečnou informaci zanedbat a dále přenášet

pouze údaje popisující složky signálu ležící nad prahovou křivkou. function [prah_f, prah_spl, info_pm, varargout] = KpsychomodX(vstup_data), kde vstup data je vektor vstupních dat, vektory prah f a prah spl popisují výstupní prahovou křivku. Oba vektory mají stejnou velikost, první z parametrů udává frekvence, pro které je vypočítána prahová křivka, druhý pak udává vypočítanou hladinu akustického tlaku (SPL) pro danou frekvenci. Pomocí info pm může funkce předávat parametry bloku Sběr vedlejších a pomocných informací. Tento parametr se spolu s posledním výstupním parametrem varargout v současnosti nevyužívají, oba byly přidány pro budoucí kompatibilitu. 2.4 Alokace bitů a Kvantizér Bloky Alokace bitů a Kvantizér se v literatuře v závislosti na autorovi slučují či rozdělují. Alokace bitů a kvantizér spolu každopádně úzce souvisí. Blok Alokace bitů má za úkol podle výstupu psychoakustického modelu navrhnout použitou kvantizaci. Pro algoritmy využívající banku filtrů se jedná o počty bitů použité pro kvantizaci signálů v jednotlivých pásmech. Blok Kvantizér realizuje kvantizaci signálu podle výstupu bloku Alokace bitů. function [vystup_data, popis_vystup, info_abk, varargout] =.. KalokqantX(vstup_data, popis_vstup, varargin), kde vstup data je vektor vstupních dat, vektor popis vstup popisuje formát vstupních dat. Pro budoucí kompatibilitu a zvýšení univerzálnosti je přidán vstupní parametr varargin. Formát dat ve vektoru výstupních dat vystup data popisuje vektor popis vystup, pomocí info abk funkce opět předává parametry bloku Sběr vedlejších a pomocných informací. Parametr varargout byl podobně jako u ostatních bloků přidán pro budoucí kompatibilitu a větší univerzálnost navrženého systému. 2.5 Entropický kodér Součástí všech prakticky použitelných kodérů zvuku je Entropický kodér. Jeho podstatou je bezeztrátový kopresní algoritmus, který většinou využívá pravděpodobnosti výskytu jednotlivých symbolů. Podle této pravděpodobnosti přiřazuje často se vyskytujícím symbolům kratší kódové slovo a naopak méně často se vyskytujícím slovům přiřazuje kódová slova delší. Výsledkem takovéhoto překódování je snížení redundance. Pokud jsou pravděpodobnosti výskytu jednotlivých vstupních symbolů značně variabilní (s velikým rozptylem), bude datová úspora získaná entropickým kódováním značná. Oproti tomu v případě podobných pravděpodobností výskytu jednotlivých vstupních symbolů bude datová úspora malá. Nejčastěji používaným entropickým kódovacím algoritmem je Huffmanovo kódování. function [vystup_data, popis_vystup, info_ek, varargout] =.. KentropcoderX(vstup_data, popis_vstup, varargin), Popis jednotlivých argumentů se shoduje s předchozím blokem Alokace bitů a Kvantizér. Parametr info ek předává informace bloku Sběr vedlejších a pomocných informací.

2.6 Sběr vedlejších a pomocných informací Blok nazvaný Sběr vedlejších a pomocných informací byl do systému začleněn pro jeho zpřehlednění a zjednodušení. Má za úkol shromažd ovat informace potřebné pro správné dekódování výstupu. Do tohoto bloku vstupují informace ze všech ostatních bloků systému. Jedná se například o údaje popisující implementovaný algoritmus. Pro systém MP3 by se jednalo například o údaj o kvantizaci, počtu činitelů měřítka a jejich velikosti nebo o délku bloků. function [info, popis_info] = KsideinfoX(varargin), Do bloku Sběr vedlejších a pomocných informací vstupují data ze všech ostatních bloků přes argument varargin. Tento parametr je použit pro zpřehlednění, nahrazuje parametry info pre, info tf, info pm, info abk a info ek. Díky deklaraci pomocí varargin je navíc zajištěna budoucí kompatibilita, nebot je možné přidávat další vstupní parametry. Struktura výstupního parametru info je popsána pomocí druhého výstupního parametru popis info. 2.7 Formátování výstupního datového toku Výstupní datový tok, respektive soubor odpovídající danému implementovanému algoritmu, vytváří blok nazvaný Formátování výstupního datového toku. Jeho úkolem je vzít surová zkomprimovaná data a všechny pomocné informace, z nich vytvořit jednotlivé rámce, vytvořit výstupní bitový tok a ten následně uložit do odpovídajícího výstupního souboru. function [status] = KformoutX(info,popis_info,vstup_data,popis_vstup,varargin), Do bloku vstupují jednak pomocná a vedlejší data z bloku Sběr vedlejších a pomocných informací pomocí parametrů info a popis info, dále pak data z bloku Entropický kodér přes parametry vstup data, popis vstup a varargin. Funkce zpracuje všechna vstupní data a vrací pouze informativní hodnotu status. Je-li rovna nule, zakódování proběhlo bez problémů. 3 Závěr V článku byl prezentován návrh univerzálního modulárního systému pro kompresi zvuku. Navržený systém umožňuje implementaci současných i nových perceptuálních kodérů za účelem jejich porovnání, optimalizace a vylepšení. Zejména při vývoji nových způsobů komprese zvukových signálů umožňuje navržený kodér spolupráci týmu vývojářů a příslušné rozdělení práce. Implementace je připravena v prostředí Matlab, které je rozšířené v prostředí technických univerzit a tudíž velmi vhodné pro tento projekt. Poděkování Popisovaný výzkum je podporován grantem České grantové agentury číslo 102/05/2054 Kvalitativní aspekty zpracování audiovizuální informace v multimediálních systémech. Reference [1] Bosi, M., Goldberg, R. E.: Introduction to Digital Audio Coding and Standards, Kluwer Academic Publishers, USA 2003.

[2] Painter, T., Spanias, A.: Perceptual Coding of Digital Audio, In IEEE Proceedings, Vol 88, No. 4, pages 451-513, April 2000 František Rund Katedra radioelektroniky, FEL, ČVUT Praha, Technická 2, 166 27, Praha 6 tel. 22435 2108, e-mail: xrund@fel.cvut.cz Jan Nováček Katedra radioelektroniky, FEL, ČVUT Praha, Technická 2, 166 27, Praha 6 e-mail: novacj1@fel.cvut.cz