ZVÝRAZŇOVÁNÍ DEGRADOVANÉ ŘEČI POMOCÍ ODSTRANĚNÍ DISONANTNÍCH SLOŽEK
|
|
- Patrik Pavel Pavlík
- před 8 lety
- Počet zobrazení:
Transkript
1 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS ZVÝRAZŇOVÁNÍ DEGRADOVANÉ ŘEČI POMOCÍ ODSTRANĚNÍ DISONANTNÍCH SLOŽEK ENHANCEMENT OF DEGRADED SPEECH BY REMOVING DISSONANT COMPONENTS BAKALÁŘSKÁ PRÁCE BACHELOR'S THESIS AUTOR PRÁCE AUTHOR VEDOUCÍ PRÁCE SUPERVISOR JIŘÍ SADIL prof. Ing. ZDENĚK SMÉKAL, CSc. BRNO 2012
2 VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Ústav telekomunikací Bakalářská práce bakalářský studijní obor Teleinformatika Student: Jiří Sadil ID: Ročník: 3 Akademický rok: 2011/2012 NÁZEV TÉMATU: Zvýrazňování degradované řeči pomocí odstranění disonantních složek POKYNY PRO VYPRACOVÁNÍ: Zvýraznění jedno-kanálového řečového signálu, který je znehodnocen šumem a rušením, je náročná úloha, protože máme k dispozici pouze jeden záznam této směsi bez znalosti intenzity a směru, odkud řeč i rušení přichází. V praxi jsou využívány různé typy metod. Cílem bakalářské práce je využít znalostí ze zpracování hudebního signálu a číslicovou filtrací odstranit kmitočtová pásma, která projevují disonanci vůči základnímu tónu řeči. Výsledky by měly být ověřeny percepčními metodami zjištění kvality a srozumitelnosti řeči. DOPORUČENÁ LITERATURA: [1] SMÉKAL, Z.: Číslicové zpracování signálu (MCSI). Elektronické učební texty pro magisterské studium, VUT Brno, [2] PSUTKA, J., MULLER, L., MATOUŠEK, J., RADOVÁ, V.: Mluvíme s počítačem česky. Academia, Praha ISBN [3] SYROVÝ V.: Hudební akustika. Akademie múzických umění, Praha ISBN Termín zadání: Termín odevzdání: Vedoucí práce: prof. Ing. Zdeněk Smékal, CSc. Konzultanti bakalářské práce: prof. Ing. Kamil Vrba, CSc. Předseda oborové rady UPOZORNĚNÍ: Autor bakalářské práce nesmí při vytváření bakalářské práce porušit autorská práva třetích osob, zejména nesmí zasahovat nedovoleným způsobem do cizích autorských práv osobnostních a musí si být plně vědom následků porušení ustanovení 11 a následujících autorského zákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení části druhé, hlavy VI. díl 4 Trestního zákoníku č.40/2009 Sb.
3 Abstrakt CZ Zvýrazňování degradované řeči pomocí odstranění disonantních složek Tato práce se zabývá metodou pro částečné odstranění rušivých vlivů z řečového signálu, čímž dochází k celkovému zlepšení kvality znehodnoceného řečového signálu a zlepšení SRN. Konkrétně se jedná o odstranění nejčastějších typů rušení, která skutečně ovlivňují srozumitelnost a kvalitu aplikací pro úlohu zpracování řečového signálu. Jsou to přeslechy z ostatních okolních rozhovorů, hluk automobilu, hluk ventilátoru počítače, hluk větru přicházejícího na mikrofon a obecný šum. Níže popsaná metoda, je založena na filtrování frekvenčních pásem, která se zobrazují jako tóny disharmonických intervalů. Velikost intervalu jednotlivých disharmonických jevů je vztahována k základnímu tónu řeči, který si lze představit v oblasti temperovaného ladění jako tón C, čímž se disharmonické složky spektra řečového signálu zobrazují jako tóny F#, B a C#. Cílem práce je navržení funkční metody a vlastního technického řešení pro realizaci v prostředí Matlab. Odstranění co největšího podílu rušivých složek ve znehodnoceném signálu metodou hřebenové filtrace disharmonických složek v šířce osmi slyšitelných oktáv. Klíčová slova : Frekvence základního tónu řeči. Disonantní složky. Hřebenový adaptivní filtr. Zvyšování kvality řečového signálu. AN Speech Enhancement using Cancelling of Dissonant Components This work deals with the method of partial removal of interference from the speech signal, thereby improving the overall quality of depreciated speech signal and improve signalto-noise ratio. Specifically, the elimination of frequent disturbance, such as crosstalk from other interviews, noise, car noise, computer fans wind coming to the microphone and general noise. The method described below is based on frequency filtering, which can be thought of as the discordant tones of intervals. The size range of discordant phenomena, be applied to the basic tone of speech, which can be thought of as a tone tempered tuning C, and thus a spectrum of dissonant speech appear as notes F #, B, and C #. The aim of my work is finding its own working methods and technical solutions for realization of removing the greatest proportion of interfering components in the signal deteriorated by filtration discordant elements. Key Words : Fundamental frequency estimation. Dissonant frequency. Adapt Comb Filter. Speech quality enhancement 1
4 SADIL, J. Zvýrazňování degradované řeči pomocí odstranění disonantních složek. Brno: Vysoké učení technické v Brně, Fakulta elektrotechniky a komunikačních technologií, stran. Vedoucí bakalářské práce prof. Ing. Zdeněk Smékal, CSc.. 2
5 Prohlášení : Prohlašuji, že svoji semestrální práci na téma Zvýrazňování degradované řeči pomocí odstranění disonantních složek jsem vypracoval samostatně pod vedením vedoucího semestrální práce prof. Ing. Zdeňka Smékala, CSc. a s použitím odborné literatury a dalších informačních zdrojů, které jsou všechny citovány v práci a uvedeny v seznamu literatury na konci práce. Jako autor uvedené semestrální práce dále prohlašuji, že v souvislosti s vytvořením této práce jsem neporušil autorská práva třetích osob, zejména jsem nezasáhl nedovoleným způsobem do cizích autorských práv osobnostních a jsem si plně vědom následků porušení ustanovení 11 a následujících autorského zákona č. 121/2000 Sb., včetně možných trestněprávních důsledků vyplývajících z ustanovení 152 trestního zákona č. 140/1961 Sb. V Brně dne podpis autora 3
6 Poděkování Děkuji vedoucímu semestrální práce prof. Ing. Zdeňku Smékalovi, CSc., za velmi užitečnou metodickou pomoc a cenné rady při zpracování práce. V Brně dne podpis autora 4
7 Úvod 7 1. Rozbor možných technických řešení Metoda hřebenového filtru a adaptivní šumových technik, které využívají kvazi-periodické povahy řečového signálu Metody, které jsou založeny na statistickém modelu řečového signálu a využívají skrytých Markovových modelů (HMM), nebo předpokladů a maximalizace (EM) pro znehodnocenou řeč Metoda Wienerových filtrů Odstranění nežádoucích složek, které jsou součástí užitečného signálu pomocí inverzní filtrace Algoritmy typu LMS, RLS a jejich varianty LMS (Least-Mean Square) FLMS (Fast Least-Mean Square) DCT-LMS (Discrete cosine transform - Least Mean Square) RLS (Recursive Least Square FTF (Fast Transversal Filter, rychlý rekurzivní Metoda zlepšení srozumitelnosti řeči pomocí odstranění disonančních složek Muzikologické definice disharmonických frekvencí Temperované ladění Základní vlastnosti zvuku Souzvuk a Disonance Hudební intervaly Určení základního tónu řeči Charakteristika základního tónu řeči Segmentace řečového signálu Metody detekce základního tónu řeči Detekce základního tónu v časové oblasti Metoda centrálního klipování Odhad F 0 metodou centrálního klipování 22 5
8 4. Vlastní filtrace disharmonií Návrh metody Realizace v aplikace v prostředí MATLAB Základní operace v aplikaci Výstupy aplikace Výsledky metody a realizované aplikace Parametr MOS Metody vyhodnocování parametru MOS Zpracování testovacích vzorků Statistické a grafické zpracování 31 Závěr 39 Literatura : 41 Seznam zkratek : 43 Seznam obrázků : 44 Seznam matematických vztahů : 45 Seznam tabulek : 46 6
9 Úvod Snaha o zvýrazňování řeči si klade za cíl, zlepšit výkon systémů hlasové komunikace, kdy tyto vstupní nebo výstupní signály jsou znehodnoceny rušením nebo hlukem. Zlepšení má nastat ve smyslu zvýšení výkonnosti těchto systémů a ve vlastní minimalizaci účinků rušením v blízkém okolí. Potřeba zvýraznění řečového signálu vzniká v mnoha situacích, ve kterých řeč buď pochází z nějakého hlučného prostředí nebo je ovlivněna rušením při průchodu komunikačním kanálem, nebo podmínkami na straně příjemce. Komunikace může být buď mezi lidmi, nebo mezi člověkem a strojem. Proto je zvýrazňování řeči problém, který má umožnit zpracování a přenos řeči ze zarušeného řečového signálu, stejně jako problém zvýšení výkonu kódování řeči a systémů rozhodování, na jejichž vstupy přicházejí zarušené signály. Tyto problémy byly výzvou pro mnoho výzkumníků za téměř už tři desítky let. V prvním oddílu této práce, který je nazván jako rozbor možných řešení, jsou stručně uvedeny metody, které se aplikují na řečové signály pro zlepšení jejich srozumitelnosti. Jedná se o metodu hřebenového filtru a adaptivních šumových technik, které využívají kvaziperiodické povahy řečového signálu, metodu Wienerových filtrů, metoda LMS, metodu odstranění nežádoucích složek, které jsou součástí užitečného signálu pomocí inverzní filtrace, která nalézá využití při korekci přenosu číslicových dat lineárním přenosovým kanálem, kdy je přenosový kanál zatížen chybami mezisymbolové interference a také může obsahovat aditivní termický šum přijímače. Adaptivní filtr odstraňuje nežádoucí šumové složky tak, že k nim vytvoří inverzní model a pak je pomocí něho vyfiltruje, metody, které jsou založeny na statistickém modelu řečového signálu a využívají skrytých Markovových modelů (HMM), nebo předpokladů a maximalizace (EM) pro znehodnocenou řeč a samotná metoda zvýrazňování řeči pomocí odstranění disonančních složek, která je dále podrobně rozdělena v dalších částích této práce. Princip metody je založený na filtraci disharmonických frekvencí ve vztahu k frekvenci základního tónu řeči ve všech oktávách. Filtrované disharmonické frekvence, které ve vztahu k frekvenci základního tónu řeči stojí jako tón F #, pokud jde o tón F # C je známý v hudbě jako Ďábelský interval nebo odbornějí rozšířená kvarta. V [7] autoři rozšiřují činnost řady všech interpolací, což je popsáno v [8] tím, že se zvyšuje množství filtrovaných disharmonický frekvencí (B a F # ve vztahu k C ). 7
10 V následující kapitole je uvedena podstata disonancí z muzikologického hlediska. Srozumitelnost řeči se vztahuje k barvě zvuku v přeneseném významu, který poukazuje na složitost této dorozumívací funkce zvuku. Zdroj zvuku generuje zvuk se základní frekvencí (primární tón), stejně jako podtóny (poměrná část ve vztahu k základnímu tónu). Různý počet současných součinitelů (lat. aliquoties - několikrát) a jejich různé relativní intenzity v rámci celkového ozvučení, můžeme určit barvu zvuku. Následuje rozbor metod pro extrakci frekvence základního tónu řeči, která je klíčovým prvkem celého algoritmu.přesnost určení frekvence základního tonu řeči je úměrná účinnosti této metody. Dále pak následuje upřesnění celého procesu filtrace disharmonií a konečně v posledním oddíle je navržen postup pro test a zhodnocení výsledků, kterých lze metodou zvýrazňování řeči pomocí odstraňení disonančních složek dosáhnout. Pro kontrolu funkčnosti a ohodnocení výsledků celé metody byla pořízena databáze vzorků řečových signálů. Jedná se o zvukové soubory natočené ve studiu i v terénu, kdy bylo pomocí aditivního rušení, jako je obecný šum, vítr přicházející na mikrofon, hluk automobilů a hluk ventilátoru počítače, vytvořena databáze obsahující přes třista různých vzork ve škálách poměrů 0 až -20 db odstupu signálu a ruchů.. Výsledky testu metodou analýzy PESQ jsou vyhodnoceny podle typů jednotlivých hluků, ve skupinách různých poměru ruchů obsažených v jednotlivých typech vzorků řeči hluků a také zvláště pro muže a pro ženy. Vyjádření výsledků bude přepočítáno na procentuální zlepšení kvality srozumitelnosti vzorku s konkrétním ruchem a s konkrétní hladinou rušení s ohledem na respondenty muže ženy. 8
11 3. Rozbor možných technických řešení 1.1 Metoda hřebenového filtru a adaptivní šumových technik, které využívají kvazi-periodické povahy řečového signálu Úloha zlepšení kvality řečového signálu znehodnoceného šumem a hlukem je potřebná v různých praktických situacích, v nichž je interference signálů nežádoucí. Jedno z možných řešení vychází z pozorování, že průběhy vyjádřených zvuků jsou periodické, s periodou, která odpovídá základní frekvenci základního tónu. Těchto poznatků využívá technika hřebenového filtrování, která upravuje pouze harmonické složky spektra řeči, jelikož rušivé signály mají obecně maximum energie ve frekvenčních harmonických oblastech. Touto operací lze v zásadě snížit hluk při zachování řečových signálů do té míry, že informace o základní frekvenci je k dispozici a periodicita řeči je přísně dodržena. Frazier [2], uvedl, že i při přesném určení základní frekvence tónu řeči metodou hřebenové filtrace, lze výrazně ovlivnit užitečná pásma hovorového signálu vzhledem k různé povaze zvuku řeči. Pro dosažení snížení některého z těchto zkreslení, Frazier navrhl adaptivní hřebenový filtr, který se nastavuje sám v závislosti na změny základní frekvence tónu hlasu. Použití systému je uvedeno v článku Frazier, Perlmutteret al. [3], za účelem zpracování vzorků řeči byly na daných vzorcích zpracovávaného materiálu provedené testy srozumitelnosti. A to testy s rušením skládajícího se z řeči jediného konkurenčního mluvícího zdroje. Jejich výsledky ukazují, že pokud jsou k dispozici přesné informace o základní frekvenci, bude dosažena i vyšší přesnost nastavení adaptivního hřebenového filtru, může se zvýšit srozumitelnost pro poměry v SRN, odstup v rozmezí db. [1] 9
12 1.2 Metody, které jsou založeny na statistickém modelu řečového signálu a využívají skrytých Markovových modelů (HMM), nebo předpokladů a maximalizace (EM) pro znehodnocenou řeč Model se skládá z kompozitních zdrojů souborů a konečného počtu statisticky nezávislých podsouborů, které jsou ovládány přepínače. Každý podsoubor představuje konkrétní třídu statisticky podobné hlásky, a pravděpodobnost distribuce (PD) z podsouboru se u dané formy parametricky předpokládá. V polohách přepínače v každém časovém intervalu je práva náhodně vybrána v souladu s určitou pravděpodobností. Zvolenou polohu definuje stav zdroje v daném okamžiku. Za normálních okolností, je každý podsoubor z nichž se předpokládá, že jde o statisticky nezávislou osobu, která totožně distribuovala (lidský) Gaussian vektor zdroje, a potom bude přepínač řízen nejprve Markovovým řetězcem. Řečové signály jsou považovány za složené ze zvuků, které jsou vytvořené konečným počtem Gaussian vektorů zdrojů a přechody z jednoho zvuku do jiného, se provádí Markovovým způsobem. Tento model je označován v literatuře jako skryté Markovovy modely (HMM), Dále se označuje také jako Markovovuv zdroj, nebo jako pravděpodobnostní funkce Markovova řetězce. zdroj 1 zdroj 2 Výstupní signál zdroj M Náhodný proces Obr.1 Schéma metody Markovových modelů (HMM) 10
13 U zvýšení kvality hovorového signálu touto metodou pozorujeme tyto dvě zkreslení: Jedná se o střední kvadratickou odchylku (MSE) a jednotkové zkreslení algoritmu, která vede k maximálně druhému odhadu přístupu. Tato opatření jsou matematicky nenáročná, a za určitých podmínek na PD ze signálu a hluku jsou výsledkem odhadů, které jsou optimální pro velké výpočetní podsobory, např. všechny konvexní opatření rozdílu zkreslení. Proto, tyto opatření jsou potenciálně užitečné pro zpracování řečových signálů, protože nejvýznamnější chyby by měly být aproximovány některými členy, které stanoví výpočet.[6] 1.3 Metoda Wienerových filtrů Wienerova filtrace je rovněž metoda zaměřená na zvýrazňování řeči. Standardní filtrování podle Wienera vyžaduje opakovaný odhad spektra řeči. Tato funkce nám dává schopnost potlačit ty části degradovaného signálu, kde řeč není pravděpodobně přítomná, a proto výrazně nenarušuje užitečné složky řeči. Algoritmus byl testován v simulovaných a skutečných podmínkách..prokázalo se, že metoda založená na výkonu hluku je ve významné míře lepší než známé spektrální odečítání šumů. Subjektivního a objektivního hodnocení kvality řeči při použití táto metody dále ukázaly, že. Navržený algoritmus také překonává minimální střední kvadratickou chybu-(mmse), které je dosaženo pomocí odhadování z krátkého časového intervalu pomocí sledování amplitudy a odhadu ze spektra. Tato technika je hodnocena z hlediska subjektivní kvality. Kromě toho navrhovaná metoda ukazuje na zlepšení kvalitativního rozpoznávání řeči systému 7 significantl[4]. 1.4 Odstranění nežádoucích složek, které jsou součástí užitečného signálu pomocí inverzní filtrace Tento způsob adaptivní filtrace lze například. využít při korekci přenosu číslicových dat lineárním přenosovým kanálem. Přenosový kanál je zatížen chybami mezisymbolové interference a také může obsahovat aditivní termický šum přijímače. Adaptivní filtr odstraňuje nežádoucí šumové složky tak, že k nim vytvoří inverzní model a pak je pomocí něho vyfiltruje. 11
14 Vstupní signál x[n] systém adaptivní filtr výstupní signál y[n] Σ zpoždění Obr. 2. Blokové schéma algoritmu pro odstranění nežádoucích složek, které jsou součástí užitečného signálu,pomocí inverzní filtrace. Adaptivní filtr je nastaven tak, aby potlačil rušení, které se projevuje v hlučných prostorech (telefonní budka blízko křižovatky, mobilní telefon v automobilu apod.). Blokové schéma je vidět na obr. 1. Referenční šumový signál je přiveden na vstup adaptivního filtru, který je nastaven tak, aby tento šumový signál byl odečten od primárního signálu. Primární signál tvoří směs užitečného signálu (např. řeči) a šumu. Další aplikace je např. odstranění nežádoucích ozvěn v telefonním kanále, odstranění odrazů při snímání zvuku v místnosti a podobně [5] 1.5 Algoritmy typu LMS, RLS a jejich varianty Mezi nejpopulárnější a nejpoužívanější adaptivní algoritmy používané v současné praxi patří algoritmy spadající buď do třídy LMS algoritmů založených na teorii Wienerovy filtrace nebo RLS algoritmů založených na teorii Kalmanovy filtrace[13] LMS (Least-Mean Square) Síla algoritmu LMS spočívá hlavně v jednoduchosti a matematické nenáročnosti. Adaptivní proces je popsán následujícím vztahem: w (n+1) = w(n) +.u(n) e*(n) (1) 12
15 Na následujícím obrázku je zobrazen mechanismus adaptace vah ve formě grafu signálových toků: e * (n) d * (n) -u H (N) w (n+1) w (n) zpožděn o jeden vzorek Obr. 3: Graf signálových toků procesu váhové adaptace LMS algoritmu FLMS (Fast Least-Mean Square) Myšlenkou algoritmu FLMS je vytvoření takové struktury LMS algoritmu, aby se dosáhlo co možná nejefektivnějšího využití DSP technologie při implementaci. Proto jsou při všech operacích se signály používány bloky dat (frames) namísto pouhých vzorků. Blokové schéma algoritmu FLMS je značně odlišné od schématu klasického LMS algoritmu.navíc se zde provádí tzv. "rychlá konvoluce s využitím overlap-save metody", kterou lze velmi efektivně provádět na signálových procesorech. Popis celého algoritmu a adaptivního mechanismu však přesahuje možnosti tohoto rozboru [13] DCT-LMS (Discrete cosine transform - Least Mean Square) Název DCT- naznačuje, že klíčovým operátorem tohoto algoritmu je diskrétní kosinová transformace - DCT. Tomuto algoritmu se často říká také samo-se-organizující filtr. Hlavní myšlenkou je transformovat vstupní vektor u(n), který je obecně složen ze statisticky závislých proměnných na jiný vektor, jehož jednotlivé proměnné na sobě budou statisticky nezávislé. Tuto transformaci realizuje právě DCT. Takto upravený vektor se následně použije jako vstup klasického LMS adaptivního algoritmu. Cílem je dosažení lepších konvergenčních vlastností, než při použití vektoru s vzájemně korelovanými proměnnými[13]. 13
16 1.5.4 RLS (Recursive Least Square) RLS je základním představitelem druhé třídy adaptivních algoritmů - algoritmů vystavených na teorii Kalmanovy filtrace. Základním rozdílem proti rodině LMS algoritmů je vlastní statistické pojetí. Zde se pracuje s průměrnými hodnotami veličin počítanými z časových vývojů namísto vzorkových průměrů počítaných z několika realizací stejného náhodného procesu. Struktura filtru zůstává stejná jako u LMS algoritmů, jen adaptivní proces je odlišný, vzhledem k použití průměrů. Z toho rovněž plyne větší výpočetní náročnost než u LMS algoritmů. Tento rozdíl je ovšem natolik podstatný (RLS úlohy jsou o řád vyšší než LMS úlohy), že často vede k závěrům, že RLS algoritmy nemají praktický význam. Na druhou stranu, pokud se podíváme na rychlost konvergence jednotlivých algoritmů, zjistíme, že u RLS je konvergence několikanásobně rychlejší než u LMS. To plyne z použití časového průměrování, které predikuje velmi přesné hodnoty[13] FTF (Fast Transversal Filter, rychlý rekurzivní) Jedinou záminkou pro návrh tohoto algoritmu je řádové snížení výpočetní náročnosti klasického RLS při zachování rychlosti konvergence. Koncepce vychází strukturálně ze čtyř odlišných filtrů pracujících souběžně na jedné úloze. Výsledky však ukazují, že se jedná o jednu z cest, kterou se může ubírat budoucnost adaptivní filtrace. Více informací viz [13]. 1.6 Metoda zlepšení srozumitelnosti řeči pomocí odstranění disonančních složek Princip metody je založený na filtraci disharmonických frekvencí ve vztahu k frekvenci základního tónu řeči ve všech oktávách. Filtrované disharmonické frekvence, které ve vztahu k frekvenci základního tónu řeči stojí jako tón F #, pokud jde o tón F # C je známý v hudbě jako Ďábelský interval.. V [7] autoři rozšiřují činnost řady všech interpolací, což je popsáno v [8] tím, že se zvyšuje množství filtrovaných disharmonický frekvencí B a F # ve vztahu k C. Pro vlastní realizaci je důležitá přesnost odhadu frekvence základního tónu hlasu, nastavení a vlastnosti hřebenového filtru. 14
17 2. Muzikologické definice disharmonických frekvencí 2.1 Temperované ladění Temperované ladění vzniklo jako náhrada za přirozené ladění. Má jednodušší pravidla a odstraňuje nevýhody složitého přirozeného ladění. Základní myšlenka je, že tón s určitou frekvencí velmi dobře ladí s jiným tónem, jehož frekvence je dvojnásobná. Takový interval (jedna ku dvěma) se nazývá oktáva a je to nejjednodušší celočíselný poměr mezi dvěma frekvencemi. Platí tedy, že tón o oktávu výš má dvojnásobnou frekvenci, tón o dvě oktávy výš má čtyřnásobnou frekvenci, tón o tři oktávy výš má osminásobnou frekvenci a tak dále. Hudba složená pouze z takových tónů by byla velmi chudá a jednotvárná, a tak byl interval jedné oktávy rozdělen na dvanáct pravidelných intervalů ale opět tak, aby poměry frekvencí sousedních tónů zůstaly stejné. Z toho vyplývá, že tento poměr musí být dvanáctá odmocnina ze dvou, tj. 1p2 2.= 1, Číslo dvanáct bylo zvoleno z toho důvodu, že takto vzniklé ladění dobře aproximuje ladění přirozené a přitom jeho složitost zbytečně nenarůstá. Temperované ladění je tedy nedokonalé, ale předpokládá se, že většina lidí nedokáže rozeznat rozdíl a nebude vnímat hudbu jako rozladěnou. Daný poměr frekvencí sousedních půltónů ještě není dostatečnou informací k tomu, aby bylo možné vypočítat frekvenci kteréhokoli tónu. Proto se dodatečně stanovuje, že komorní A má frekvenci 440Hz. Pak je možné psát vztah : f i = 440 x 2 k / 12, k = 0, 1,, 12. (2) pomocí kterého lze vypočítat frekvenci kteréhokoli tónu, přičemž i je jeho pořadové číslo odpočítané od komorního A. Například je hned vidět, že kdybychom za i dosadili dvanáct, tak získáme frekvenci 880Hz. To je pochopitelné, protože se jedná o tón o oktávu vyšší než je komorní A, a tudíž bude mít dvojnásobnou frekvenci. 15
18 Obr. 4: Tón o oktávu výš má stejné označení. Pro přesnější určení proto mají jednotlivé oktávy svůj název. Například komorní A je totéž co jednočárkované A. Tóny, které odpovídají strunám na kytaře, jsou označeny černým kruhem. Jedná se o velké E, velké A, malé D, malé G, malé H a jednočárkované E. Čísla u tónů představují pořadové číslo i, které je potřeba dosadit do vztahu pro výpočet frekvence. Komorní A má pořadové číslo nula. V hudbě se využívá nejvýše čtyř až pětičárkovaná oktáva. Přibližně v oblasti sedmičárkované oktávy začíná ultrazvuk. 2.2 Základní vlastnosti zvuku Hudební teorie definuje tyto základní vlastnosti zvuku: a) doba trvání, b) intenzita c) barva. Srozumitelnost řeči se vztahuje k barvě zvuku v přeneseném významu, který poukazuje na složitost této dorozumívací funkce zvuku. Zdroj zvuku generuje zvuk se základní frekvencí (primární tón), stejně jako podtóny (poměrná část ve vztahu k základnímu tónu). Různý počet současných součinitelů (lat. aliquoties - několikrát) a jejich různé relativní intenzity v rámci celkového ozvučení, můžeme určit barvu zvuku. 16
19 Četnost hudebně definovaných tónů ve vztahu k primárnímu tónu v intervalu jedné oktávy je určena takto : F k = F 0 x 2 k / 12, k = 0,1,,12 (3) Kde F 0 je frekvence základního tónu a F k četnost k-tého půltónu. Ve vztahu k základnímu tónu, jsou polotóny v intervalech. Interval je definován vztahem, měřené frekvence o půltón a četností primárního tónu. Zlomky F k /F 0, pro k = 0,1,..., 12, které představují jednotlivé intervaly (1 / 1, 135/ 128, 9 / 8, 6 / 5, 5 / 4, 4 / 3, 45 / 32, 3 / 2, 8 / 5, 27/16, 9 / 5, 15 / 8, 2 / 1) jsou současné reálné hodnoty F k. Klasifikace intervalu podle jejich souzvuků je realizována na základě frakce, která je popsána takto : Pokud interval je jednodušší zlomek, je klasifikován jako akord tónů, více stabilní, tj. více souhlasný. Pokud je zlomek složitější, stabilita intervalu je menší, takže slyšíme větší nesoulad. 2.2 Souzvuk a Disonance Souzvuk a disonance nejsou ostře vymezeny, ale jsou obsaženy v jedné diferencované stupnici a vedou z celkového počtu stabilit na jednom konci k nestabilitě na konci druhém. 17
20 2.2.1 Hudební intervaly V rozsahu rozlišujeme : a) ideální (kompletní) souzvuk (prima (1/1), oktáva (2 / 1),kvinta (3 / 2) a kvarta (4 / 3), b) nedokonalý (neúplný) souzvuk (velká tercie (5 / 4), velká sexta (5 / 3), malá tercie malá sexta (8 / 5), c) nedokonalý (neúplný) disonanční (malá septima (9 / 5) a velká sekunda (9 / 8) d) dokonalý (kompletní) disonanční (malá sekunda (145/138), zvětšená kvarta (45/23) a velká septima (15 / 8). Z pohledu hudební zkušenosti, tj. vnímání zvuku, je hudební interval definován jako souhlasný, je-li zvuk stabilní. Je-li hudební interval nestabilní nebo tlumený, pak je disharmonický do značné míry v případě, že zvuk je nepříjemný nebo drsný. Ve vztahu k základním tónům, je definována polovina frekvence tónů společně s primárními tónem ve všech oktávách souzvuků slyšitelného rozsahu, kde F 0 je frekvence primárního tónu, n je počet oktáv a k je počet půltónů v jednotlivých oktávách. Vzhledem k tónu C, jako referenční, tj. jako primární tón, pak jeho disonanční tóny jsou B,F# a C#, jakož i jejich harmonické ve všech oktávách.[9] F d = F 0 x 2 n x k / 12, n = 0,1,,7; k = 1,6,11. (4) 18
21 3. Určení základního tónu řeči 3.1 Charakteristika základního tónu řeči Řeč vzniká ve vokálním traktu člověka. Podle analogie řečového signálu s muzikologické definice zvuku, může být sledována korespondence mezi primárním tónem a jeho vhodné poloviny tónů v intervalech, se základní frekvenci F 0 a dalších harmonických složek řečového signálu. Tímto je možné definovat disharmonické frekvence ve vztahu k F 0. Základní tón řeči je základním parametrem řečového signálu v kmitočtové oblasti. Průběh základního tónu se v promluvě jeví jako melodie řeči. Pomocí průměrné hodnoty základního tónu se dá odhadnout pohlaví mluvčího či hrubě jeho věk. Udává se, že základní kmitočet má rozsah asi Hz. Tento kmitočet je různý u dětí a dospělých a samozřejmě u žen a mužů [2]. Při normální řeči se hodnota F0 pohybuje zhruba v rozmezí jedné oktávy (u mužů přibližně mezi s průměrem 132 Hz, u žen přibližně mezi s průměrem 223 Hz a u dětí v rozmezí 200 až 600 Hz), při zpěvu se rozsah zvětšuje na dvě oktávy a pro sopranistky hodnota F0 převyšuje 1000 Hz., pro F0 platí : F0=1/ T0. (5) - poznámka Základní tón, základní kmitočet, fundamentální frekvence popř. anglicky fundamental frequency a pitch jsou synonyma. 3.2 Segmentace řečového signálu Pro výpočet základního tónu řeči je nezbytné na začátku provést segmentaci řečového signálu,tj. rozdělení vstupního signálu na menší úseky ze kterých později určíme základní tón řeči.bylo dokázáno, že řečový signál můžeme považovat za stacionární pouze po částech s dobou trvání cca ms. V této práci používáme řečové nahrávky s vzorkovacím kmitočtem Hz, takže v případě, že rozdělíme řečový signál na segmenty délky 20 ms, tak počet vzorků každého segmentu 882 vzorků. Navíc se doporučuje 50% překrytí jednotlivých segmentu tj. 441 vzorků. Jak později ukážeme, tak jednotlivé popsané metody v této práci používají rychlou Fourierovu transformaci pro odhad základního tónu řeči, dokonce i metody které počítají F0 v časové oblasti pomocí autokorelační funkce [4]. 19
22 Autokorelační funkci můžeme určit pomocí algoritmu rychlé korelace který je založen právě na přímé a zpětné rychlé Fourierovy transformaci, která předpokládá vstupní signál (segment) délky 2N, kde N je přirozené číslo. Pro použitý vzorkovací kmitočet Hz a délky okna 20 ms je nejbližší počet vzorků splňující požadavek rychlé Fourierovy transformace Metody detekce základního tónu řeči Metody lze rozdělit podle oblasti výpočtu na : - Detekce základního tónu v časové oblasti. - Detekce základního tónu v kmitočtové oblasti. - Detekce základního tónu v kepstru Detekce základního tónu v časové oblasti Odhad základního tónu v časové oblasti je převážně založen na výpočtu autokorelační funkce. Autokorelační funkce AKF určuje míru podobnosti v rámci jednoho signálu. Obrázek 2 představuje časový průběh úseku znělé hlásky a s1[n] a jeho jednostranná autokorelační funkce R1[m] a časový průběh úseku neznělé hlásky s s2[n] a jeho jednostranná autokorelační funkce R2[m]. Na první pohled je patrný velký rozdíl průběhů AKF obou segmentů, zatím co AKF neznělého úseku má zanedbatelné hodnoty vyjma hodnoty R[0], tak v případě znělého úseku jsou patrné opakující se vrcholy v okamžicích, kde fvz je vzorkovací kmitočet a F0 je právě hledaný základní tón řeči. Z toho vyplývá, že k určení základního tónu řeči musíme detekovat první vrchol R[k], který následuje po maximální hodnotě AKF R[0] představující energii signálu. 20
23 Obr.5: Časový průběh úseku hlásky a s1[n] (a) a jeho jednostranná autokorelační funkce R1[m] (b). Časový průběh úseku hlásky s s2[n] (c) a jeho jednostranná autokorelační funkce R2[m] (d) Metoda centrálního klipování Princip této metody vychází s faktu, že k odhadu kmitočtu základního tónu řeči stačí znát pouze jednotlivé špičky v průběhu řeči. Část signálu pod nastaveným prahem P je prahována. Výsledkem prahování jsou hodnoty větší než nastavený prah [3]. Postup výpočtu je následující: 1. Provede se segmentace řečového signálu. Pro jednotlivé rámce vypočítáme práh a to z toho důvodu, že úroveň signálu značně kolísá a nelze stanovit pevnou hodnotu prahu pro celý signál. 3. Signál po prahování znormalizujeme na jednotkovou velikost, tím získáme signál s2[n] který nabývá pouze tři hodnoty 1, 0 a 1 4. Kmitočet základního tónu určíme pomocí autokorelační funkce signálu s2[n]. 5. U znělého úseku vypočítáme kmitočet základního tónu 21
24 Obr.6: Postup výpočtu F0 metodou centrálního kliování, vstupní segment (a), vstupní segment po prahování (b), vstupní segment po klipování (c), oboustranná autokorelační funkce klipovaného signálu (d).převzato z [16] 3.4 Odhad F 0 metodou centrálního klipování V první fázi navrhované metody je nutný odhad F 0 v hlučném prostředí. Odhad F 0 vychází z algoritmu využívajícího okamžité amplitudy. Hřebenový filtr [2] je schopen odhadnout F 0 pro znělé samohlásky, i když poměr signál ku hluku (SNR) je v řeči znehodnocené hlukem jen 5 db. Nicméně to někdy vede k odhadu poloviny nebo dvojnásobku F 0 s pro celé věty. To proto, že využívá pouze harmonicity okamžité amplitudy. Chceme-li získat faktickou F 0 v odhadu z věty, navrhovaná metoda využívá nejen harmonicity, ale i periodicity okamžité amplitudy. Počítá každý prvek z pravděpodobnosti periodicity a harmonicity a odhadne spolehlivé F 0 s v řeči znehodnocené hlukem. [10] Tato metoda nejprve dělá hrubý odhad F 0 s ze zarušeného signálu řeči pomocí sledování amplitudy jako spolehlivé informace VR. Reakce F 0 s na F 0 je odhad založený na periodicitě a harmonicitě okamžité amplitudy (PHIA). V PHIA, pravděpodobnosti F 0 jsou vypočteny z periodicity a harmonicity, pak jsou integrovány pravidlem Dempster z dané kombinace. 22
25 Další, redukce šumu se provádí pomocí hřebenového filtru z kontrolovatelných propustných pásem. Jeho střední kmitočty jsou vypočteny z hrubě odhadované F 0 s. Šířky pásem, které filtr potlačuje je kontrolována tak aby nevedla ke snížení harmonických složek řeči. Před snížením hluku, časovou deformací signálu řeči v hlučném prostředí se provádí oprava F 0 s, tak že to může snížit chyby redukce šumu. Poté je F 0 odhadována pomocí frekvence propustného pásma je aplikován na zarušený signál řeči. Lze tak, přesně získat F 0 s ze zarušeného řečového signálu. V následujících částech algoritmu je F 0 odhadovaná na základě periodicity a harmonicity okamžité amplitudy, a redukce šumu pomocí hřebenového filtru s kontrolovatelným propustným pásmem F 0 je odhadovaná na základě okamžité frekvence. (PHIA). Řešení odhadu je zpracováno takto: Řečový signál je analyzován bankou filtrů s šířku pásma Q. Periodicita je zastoupena ve vysokofrekvenční oblasti okamžité amplitudy pomocí konstantní banky filtrů a harmonicity je zastoupena jasně v nízkofrekvenční oblasti pomocí konstantní šířky pásma banky filtrů. Jsou použity banky filtrů s konstantní šířkou pásma Q. Banka filtru je konstruována s 256 kanály a jejich frekvence jsou od 2 khz až 6 khz. Konstantní šířka pásma je konstruována pro 400 kanálů a jejich frekvence jsou od centra 60 Hz až 2 khz. Po provedení FFT tato metoda počítá pravděpodobnosti periodicity a harmonicity. Pro okamžité amplitudy na stálých Q bankách filtrů, jsou extrahovány některé elementy z F 0 s pomocí autokorelace v časové oblasti pro jeden kanál banky filtrů zvlášť. Podobně probíhá tato operace, pro ostatní okamžité amplitudy pomocí konstantní šířky pásma banky filtrů, kdy některé elementy z F 0 s jsou extrahovány pomocí autokorelační funkce ve frekvenční oblasti změnou zpoždění v okně na čem závisí délka autokorelace. Každý histogram vzorků je považováno za pravděpodobnostní výsledek F 0 s od periodicity a harmonicity. Pravděpodobnosti jsou integrovány pravidlem Dempster do kombinace. Převzato z [16]. 23
26 4. Vlastní filtrace disharmonií Vlastní algoritmus spočívá v návrhu číslicového adaptivního filtru, typu pásmová zádrž, který má za úkol odfiltrovat s co nejvyšším útlumem pásmo o šířce vypočteného tónu s co nejmenším zvlněním v propustné oblasti filtru, jelikož by při relativně frekvenčně blízkém řetězení filtru a vysoké strmosti filtru mohlo dojít ke spektrálnímu znehodnocení signálu. 4.1 Návrh metody Krok 1: Řečový signál se rozdělí do posloupnosti délky N Krok 2: Odhad základní frekvence F 0 Krok 3: Stanovení frekvence disharmonický složek F d1, F d2, F d3 a ve vztahu k základní frekvenci F 0 Podle vztahu k tónu C k F#,B a C #, například: Obr.7 Zobrazuje základní tóny C a filtrované disharmonické tóny v rozsahu 6-ti oktávách 24
27 Což lze matematicky popsat takto: F 1 = F 0 x 2 n + 6 / 12, n = 0,1,,7; F 2 = F 0 x 2 n + 11 / 12, n = 0,1,,7; F 3 = F 0 x 2 n + 1 / 12, n = 0,1,,7; (6) (7) (8) Krok 4: Filtrování disharmonický frekvencí od rozsahu (což představuje poloviny tónu) F 0 = F 0 x 2 n + 6 / 12 < F d1 <F 0 = F 0 x 2 n + 6 / 12, n = 0,1,,7; F 0 = F 0 x 2 n + 11 / 12 < F d2 <F 0 = F 0 x 2 n + 11 / 12, n = 0,1,,7; F 0 = F 0 x 2 n + 1 / 12 < F d3 <F 0 = F 0 x 2 n + 1 / 12, n = 0,1,,7; (9) (10) (11) Krok 5: generování sekvence řečového signálu. Algoritmus pro odšumění a zesílení signálu řeči je tedy založen na filtrování tří disharmonických kmitočtů a jejich harmonických v sedmi oktávách audio rozsahu. [7] a [8]. Vstupní signál x(n) Segmentace Odhad F 0 Výočet filtrovaných tónů Filtrce F d1, F d2, F d3 Sloučení segmentů Výstupní signál y(n) Obr.8 znázorňuje blokový diagram algoritmu odstranění disonančních složek 25
28 Celá metoda filtrování se skládá z těchto kroků: a) rozdělení řečového signálu do sekvencí, jejichž délka je N b) stanovení základní frekvence F 0 c) určování disharmonických frekvencí F d ve vztahu k základní frekvenci F 0 d) filtrování disharmonických frekvencí e) generování sekvence řečového signálu 4. Ralizace v aplikace prostředí MATLAB 5.1 Základní operace v aplikaci 1 a) rozdělení řečového signálu do sekvencí, jejichž délka je N, viz.3.2 Základní parametry vstupního signálu : fs = 44100, při rozlišení r = [16 bit]. Pro rozdělení vstupního signálu x(n) na k segmentů o délce S x jsme při realizaci aplikace použili funkci Y = BUFFER(X,N,P) kde X vstupní signál, N je délka vektoru (segmentu) a P je délka překrytí vstupního signálu : ds =length(xin); % déka vstupního sigálu dseg = 600; % déka segmentu dpre = 100; % déka překrytí sigálu y_in = buffer(xin,dseg,dpre); % segmentace - dseg, dpre určeno experimentíálně. Dále je nutné zabezpečit ukládání signálu po průchodu výpočtem ukládání signálu a proto si vytvoříme nulovou matici pomocí příkazu ZEROS. rm = size(y_in); ma = rm(1); mb = rm(2); a = dseg; b = dseg; y_out = zeros(ma,mb); % určení parmetrů nulové matice % vytvoření nulové matice b) Následuje dávkování pro výpočet F 0 a filtrování : for i=0:(mb-1) i+1; y_filt = (y_in(:,i+1)*1); z0 = y_in(:,i+1) 26
29 c) Klíčovou operací pro účinnost celé metody je odhad F 0, kdy jsme zvolili algoritmus centrálního klipování, který je popsán v 3.1 R = xcorr (x); thr = 0.3; E2 = sum(shifted.^ 2); numerator = selected' * shifted; nccf = numerator / sqrt(e1 * E2); Rnccf(n+1) = nccf; T0 = L / 44100; F0 = 1/T0; % detekce F0 pomocí ACF % prahování vstupního signálu % kerekce pomocí energie x(n) % F0 frekvence v Hz d) K filtraci jsme z důvodu výpočetní nenáročnosti a k zjednodušení celé aplikace použili e) IIR filtr s Butterwotrhovou aproximací. Před vlastní filtrací je rovněž důležité vypočítat parametry jednotlivých filtrů. Řád filtru byl vzhledem ke zvlnění přenosové funkce v propustném pásmu určen experimentálně. Je nutné zmínit že v neznělých úsecích je signál filtrován s pamětí na poslední znělý úsek. for np=1:o ffm=(f0*2^(np+(1/12))); ffm1=(f0*2^(np+(3/24))); ffm2=(f0*2^(np+(5/24))); Elementární filtr : % opakování v oktávách % výpočet FD1 % výpočet mezních frekvencí FD1 F = [(ffm1)/(f/2), (ffm2)/(f/2)]; % určení parametrů filtru [b, a] = butter(1, F, 'stop'); % výpočet přenosové fce.filtru s = filtfilt(b, a, s); % filtrace signá Konečnou operací je uložení filtrovaných segmentů a opětovné sloučení segmentů do výstupního signálu. y_out(:,(i+1))= s; end 27
30 5.2 Výstupy aplikace V prostředí matlab je dále používáno příkazů pro analýzu několika dalších funkcí, zejména funkce SPECGRAM pro zobrazení spektrogramu vstupního a výstupního signálu,dále fce WAVWRITE pro uložení výsledného souboru, SOUNDCS pro přehrávání signálu (uvedené fce. mají nápovědu v prostředí matlab help ) a funkce PESQ pro hodnocení výsledků MOS analýzy. Autorem funkce PESQ je pan Ing. Hicham Atassi. specgram (y_out(:), 1024,fs) % zobrazení spektrogramu wavwrite(out,44100,'out3.wav'); % uložení výstupního signálu soundsc(out,44100); % přehrávání zvukových vzorků d=pesq('5z_01.wav','out3.wav'); % hodnocení MOS specgram (y_out(:), 1024,fs) % zobrazení spektrogramu 6. Výsledky metody a realizované aplikace 6.1 Parametr MOS Zkratka MOS znamená Mean Opinion Score a je definována jako hodnota ze stupnice, která byla stanovena statisticky na základě subjektivního hodnocení testovaného vzorku populace. Tato stupnice je pětibodová, jak je vidět v tab. 1 Hodnota MOS Kvalita Popis kvality 5 Vynikající (Excelent) Bez znatelného rušení 4 Dobrá (Good) Znatelné rušení které neobtěžuje 3 Průměrná (Fair) Znatelné rušení které obtěžuje 2 Špatná (Poor) Rušení velmi obtěžující, řeči lze porozumět 1 Mizerná (Bad) Rušení velmi obtěžující, řeči nelze porozumět Tab. 1: Hodnocení testu MOS. Existuje několik druhů stupnic, zde uvedená je nejčastěji používanou a nazývá se Stupnicí poslechové kvality. Dalšími jsou například Stupnice poslechového úsilí (MOS ) nebo LE Stupnice preference hlasitosti (MOS ). 28
31 6.2 Metody vyhodnocování parametru MOS Hodnotu MOS lze získat několika způsoby, nejčastěji se používají tři metody: subjektivní, objektivní a odhadované. V případě subjektivních metod se používá hodnocení od konkrétního vzorku posluchačů na základě jejich subjektivního vnímání daného hovoru. Jde ovšem o velmi časově i finančně náročné metody, jelikož je potřeba velkého vzorku posluchačů, aby bylo hodnocení co nejvíce statisticky přesné. Každý testovaný posluchač se může zúčastnit testu pouze jednou. Dále je vyžadováno, aby byl v této oblasti laik. Pokud tyto podmínky nejsou dodrženy, dochází ke zkreslení celého měření. I přes uvedená omezení jde o nejpřesnější metody měření a vyhodnocení MOS. Objektivní měřicí metody byly zavedeny právě z důvodu náročnosti metod subjektivních. Není již potřeba posluchačů, výsledné hodnoty se počítají pomocí navržených algoritmů, které jsou implementovány a vyhodnocovány výpočetní technikou. Jejich hlavní předností je výpočet MOS v reálném čase. Výsledky, které jsou pomocí nich dosahované, však nejsou tak přesné, jako ty, které se dosahují pomocí měření subjektivními metodami. Využívají se všude tam, kde by nasazení subjektivních metod bylo nákladné, případně pro sledování průběhu kvality řeči v reálném čase, například u operátorského pracoviště. Originál signálu X(t) Model vnímání Vnitřní reprezentace originálního signálu (převod na koeficienty) Časové zarovnání Odhad spoždění Rozdíl vnitřních reprezentací (koeficientů) Odhad MOS Degradovaný signálu Y(t). Model vnímání Vnitřní reprezentace degradovaného signálu (převod na koeficienty) Obr. 9:Blokové schéma metody PESQ. 29
32 V odhadovaných metodách se využívá popisu daného systému a empirických hodnot kvality, které jsou daným parametrům vlastní. Takovýto způsob nezohledňuje dynamické jevy, které mohou v systému nastat a proto se tento způsob používá zejména k přibližnému popisu a tedy k odhadu kvality při návrhu nějakého nového systému. Dalším způsobem, jak lze MOS vyhodnocovat, je způsob koncepce celého testu. Celé měření můžeme připravit jako poslechové nebo konverzační. Při poslechovém testu nemusíme mít celý přenosový kanál. Stačí pouze, aby byly testujícím subjektům pouštěny předem připravené nahrávky, které pak hodnotí. U konverzačního testu je již vyžadována dvojice subjektů na konci telekomunikačního řetězce, přes který probíhá testovaný hovor. Pokud zkombinujeme základní tři způsoby měření MOS a dvě uvedené koncepce měření dostaneme celkem 6 možností, jak můžeme MOS měřit a vyhodnocovat. Přehled se nachází v tab. 1.2, která je definována v doporučení ITU-T P Převzato [15]. 30
33 6. 3 Zpracování testovacích vzorků Databáze pro subjektivní hodnocení metody se skládá z více než tříset zvukových souborů získaných od respondentů (mužů i žen), kdy každý z nich přednese stejné dvě věty. Ze snímků jsou odebrány vzorky na 44,1 khz s rozlišením 16 bitů. Používané typy zvuků byly smíchávány s rušením tak, aby hluk dalších hovorů v okolí, hluk aut, a hluk ventilátoru počítače,obecný šum a hluk větru přicházejícího na mikrofon byl zastoupeny v této řadě SNR = 0, 5, 10, 15, 20 db. Všebylo zpracováno v prostředí Pro Tool s 9. Obr.10 Otisk obrazovky při mixáži vzorků v prostředí Pro Tool s 9. Aditivní zarušení signálu bylo zvoleno pro dosažení co největší přesnosti výpočtu MOS, především kvůli zaručení referenčního čistého vzorku. Zvláště jsme se při testování aplikace zaměřili na hluky z dalších rozhovorů v okolí (tj. součet průběhů několika současně mluvících). Řečový signál pro komunikaci je často tvořen v prostředí, kde je množství aktivních řečníků. Obecný šum reprezentuje bílý šum. Hluk automobilů je pořízen přenosným záznamovým zařízením u rušné křižovatky v dopravní špičce. Vzhledem k nerovnému rozdělení energie ve spektru hluku přeslechů, hluku automobilů a hluku ventilátoru počítače, budou zařazeny do skupiny barevného hluku [3]. 31
34 6.4 Statistické a grafické zpracování Kvalita reprodukovaného projevu filtrovaného zvukového signálu, tj. úspěšnost metody, je hodnocena aplikací PESQ v prostředí MATLAB, autorem je pan Ing. Hicham Atassi. Výsledky testu jsou vyhodnoceny v kategoriích jednotlivých hluků a dále s hledem na míru ruchů obsažených v jednotlivých typech hluků. Vyjádření výsledků je přepočítáno na procentuální zlepšení kvality srozumitelnostiu vzorku s konkrétním ruchem a s konkrétní hladinou rušení při rozlišení vzorků žen a mužu. Testování aplikace je založeno na porovnávání koeficientů MOS analýzy při současném porovnávání vzorků. Pro výpočet referenční hodnoty jsou použity čisté signály natočené ve studiu spolu se signálem zarušeným aditivním ruchem v daném poměru. Hodnoty účinnosti filtrace jsou pak dány porovnáním čistých signálů natočených ve studiu a souborem uloženým v aplikací v AdaptCombFilter005, tedy signálem filtrovaným. Výsledné hodnocení je potom vypočteno dle vztahu : P[%] = {PESQ Fd1,Fd2,Fd3 *100 / (PESQ ref )} (12) kde : PESQ ref představuje hodnota PESQ referenčního a zarušeného vzorku, PESQ Fd1,Fd2,Fd3 je hodnota PESQ referenčního a filtrovaného vyzorku. P[%] procentueální zlepšení. V následující analýze jsou výsledky od jednotlivých respondentů jsou statisticky zpracované, což v našem případě znaměná, že jednotlivé procentuální změna MOS hodnocení je přepočítána aritmetickým průměrem. P p = (P 1 +P 2,..P N ) / N (13) Kde P p je hodnota aritmetického průměru, P 1,P 2,..P N jsou dílčí výsledky P v procentech a N představuje počet dílčích výsledků. 32
35 Výsledky MOS testu filtrace při aditivním rušení bílého šumu : SRN PESQ ref P[%] Fis P[%] Fis,B P[%] Fis, B, Cis 0 1,58-12,6-13,7-11,2 5 1,83-7,2-6, ,12 14,2 17,8 19,2 15 2,55 18,6 21,2 22,7 20 3,14-3,1-6,8-8,3 Tab. 2: Tabulka vypočtených hodnot pro test filtrace při aditivním rušení bílého šumu Výsledky MOS testu filtrace při aditivním rušení ventilátoru osobního počítače : SRN PESQ ref P[%] Fis P[%] Fis,B P[%] Fis, B, Cis 0 1,42 10,3 12,8 16,2 5 2,31 15,4 18,3 21,4 10 2,46 19,9 22,9 25,8 15 2,87 18,5 2ě,6 24,8 20 3,01 2,1 1,9 1,3 Tab. 3: Tabulka vypočtených hodnot pro test filtrace rušení ventilátoru osobního počítače Výsledky MOS testu filtrace při aditivním rušení kdy vítr přicházející na mikrofon : SRN PESQ ref P[%] Fis P[%] Fis,B P[%] Fis, B, Cis 0 1,24-11,6-12,8-8,8 5 1,72-2,5-3, ,16 16,2 19,8 22,7 15 2,25 19,1 24,6 32,6 20 3,29-3,1-6,6-7,1 Tab. 4: Tabulka vypočtených hodnot pro test filtrace aditivním rušení větrem. 33
36 Výsledky MOS testu filtrace při aditivním rušení automobilů u rušné křižovatky : SRN PESQ ref P[%] Fis P[%] Fis,B P[%] Fis, B, Cis 0 1,38-10,6-11,2-10,9 5 1,77 1,2 1, ,15 16,4 19,3 21,8 15 2,56 19,8 23,2 39,7 20 3,11 10,5 8,8 6,8 Tab. 5: Tabulka vypočtených hodnot pro test filtrace při aditivním rušení automobilů Výsledky MOS testu filtrace při aditivním rušení dalších mluvčích v okolí : SRN PESQ ref P[%] Fis P[%] Fis,B P[%] Fis, B, Cis 0 0,92 10,6 13,3 14,2 5 1,11 13,5 16,9 18,8 10 1,18 16,5 19,8 22,2 15 1,55 20,6 25,2 38,7 20 2,14 10,1 8,8 6,3 Tab. 6: Tabulka vypočtených hodnot pro test filtrace při aditivním rušení dalších mluvčích v okolí P[%] SRN [db] Obr.11 Graf celkové účinnosti v P[%] všech metod podle poměru SRN v db ve vzorcích 34
37 Z výsledků můžeme rovněž zjistit účinnost algoritmu vzhledem k jednotlivým typů, ruchů. Z následujícího grafu lze vyčíst účinnost metody při maximální hodnotě, tj při SRN 15 db odstupu referenčního vzorku od rušení pro filtraci všech tří sekcí Fis,B a Cis. P[%] Hluk 1 mluvčích 2 v okolí Hluk automobilů Hluk větru přicházející na mikrofon Ventilátor PC Bílý šum Obr.12 grafu účinnost metody při maximální hodnotě, tj při SRN 15 db odstupu referenčního vzorku od rušení pro filtraci všech tří sekcí Fis,B a Cis. 35
38 Příklad spektrogramu před filtrací : F [Hz] Obr. 13:spektrogram nefiltrovaného vzorku s rušením. t[s] Příklad spektrogramu po filtrací : F [Hz] Obr. 14:spektrogram filtrovaného vzorku s rušením. t[s] 36
39 Z výpočtů je patrné, že počet filtrovaných tónu, je téměř přímo úměrný MOS hodnocení, přičemž nejmenší účinnost je při filtraci samotného tónu Fis, a největší účinnost při filtraci všech tří tónu Fis, B a Cis. P[%] žádný Fis B Cis Filtrované tóny Obr. 15:Graf závislosti účinnosti P[%] na počtu filtrovaných disharmonických tónů MOS testu filtrace aditivním rušení dalších mluvčích v okolí, při aditivním rušení automobilů u rušné křižovatky a při aditivním rušení kdy vítr přicházející na mikrofon, při poměru SRN 10 db rušení k referenčnímu vzorku, pro muže a ženy samostatně : Filtrovaný vzorek P[%] Fis P[%] Fis,B P[%] Fis, B, Cis Atomobily - muži 14,8 17,3 26,6 Atomobily - ženy 16,4 21,3 30,8 Vítr- muži 14,1 17,8 20,5 Vítr- ženy 16,3 20,3 27,6 Mluvčí v okolí - muži 14,8 17,4 20,9 Mluvčí v okolí - ženy 17,2 21,1 24,0 Celkem - Muži 14,5 17,5 22,7 Celkem - ženy 16,6 19,9 27,5 Tab. 7: Tabulka vypočtených hodnot pro test filtrace 37
40 P [%] Řady1 muži Řady2 ženy Fis 2 B 3 Cis Filtrované tóny Obr. 16: Graf testu filtrace s ohledem na pohlaví respondentů 38
41 Závěr V tomto dokumentu jsou zmíněné běžně používané metody pro zlepšení kvality srozumitelnosti řečových signálů. V současnosti je jednou z nejpopulárnějších metoda LMS a její modifikace popsané v 1.5. S ohledem na jednotlivé prvky metody Zvýrazňování degradované řeči pomocí odstranění disonantních složek, jsme nemohli opomenout problematiku odhadu základní frekvence lidského hlasu. Je nutní zmínit také vytvoření nezanedbatelné databáze cca tříset zvukových souborů v podobě vzorků s různou mírou obsaženého aditivního rušení. Na vytvoření databáze se podílelo deset mluvčích, kteří ve studiu natočili každý dvě věty jako referenční vzorky. Následovala mixáž se vzorky jednotlivých ruchů v prostředí Pro Too s 9 a export dat ve formátu 44,1kHz / při rozlišení 16 bitů. Databáze čítá více než 300 různých vzorků a je dispozici na přiloženém DVD. Díky aplikaci AdaptCombFilter005 v prostředí matlab jsme si ověřili funkčnost metody zmiňované v [17], kdy jsme si kladli za cíl dosáhnout co nejlepších výsledků odstupu SRN pomocí adaptivní filtrace založené na odhadu základní frekvence lidského hlasu a z ní vypočítaných disonantních frekvenčních pásem, které jsme odfiltrovali. Výsledkem práce je navržený algoritmus a jeho realizace v podobě aplikace AdaptCombFilter005 v prostředí matlab a současně analytické zpracování výsledných hodnot hodnocení kvality srozumitelnosti metody MOS PESQ. Z výsledků hodnocení MOS je tedy patrná účinnost aplikace, kdy jsme nejlepších výsledků dosáhli při filtraci hluku automobilů a hluku mluvčích v okolí při zařazení všech tří stupňů filtrace ( tónu Fis, B a Cis) při SRN - 5 db hluku k referenčnímu vzorku, což představuje zlepšení MOS hodnocení o 38 %, přičemž jsme u vzorků žen zaznamenali jemné zvýšení účinnosti metody. Domnívám se, že je to způsobeno výškou základního tónu, kdy dochází díky nastavení filtrů k pásmově širší filtraci s odkazem na [4]. U bílého šumu, a hluku ventilator nebyla metoda příliš účinná. Je to pravděpodobné dáno špatným odhadováním základní frekvence při periodickém rušení. 39
1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU
3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the
ADA Semestrální práce. Harmonické modelování signálů
České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte
Úvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni
KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace
základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů
A0M38SPP - Signálové procesory v praxi - přednáška 4 2 Číslicové filtry typu FIR a IIR definice operace filtrace základní rozdělení FIR, IIR základní vlastnosti, používané struktury filtrů návrhové prostředky
Návod na cvičení VoIP Hodnocení kvality řeči neintrusivní metodou
Fakulta elektrotechniky a informatiky, VSB-TU Ostrava Návod na cvičení VoIP Hodnocení kvality řeči neintrusivní metodou Datum: 15.2.2013 Autor: Ing. Karel Tomala Kontakt: karel.tomala@vsb.cz Předmět: Telekomunikační
Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.
Komprese dat Radim Farana Podklady pro výuku Obsah Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese videa Velký objem přenášených dat Typický televizní signál - běžná evropská norma pracuje
doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1
doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací
ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA
Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,
Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Číslicová filtrace FIR filtry IIR filtry Tyto materiály vznikly za podpory Fondu rozvoje
Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš
KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.
12 Metody snižování barevného prostoru
12 Metody snižování barevného prostoru Studijní cíl Tento blok je věnován základním metodám pro snižování barevného rozsahu pro rastrové obrázky. Postupně zde jsou vysvětleny důvody k použití těchto algoritmů
ABSTRAKT KLÍČOVÁ SLOVA ABSTRACT KEYWORDS
ABSTRAKT Tato práce si klade za cíl odstranit rušivé vlivy z řečového signálu a tím zvýšit srozumitelnost, kvalitu degradovaného signálu a odstup od šumu. Nejčastější typy rušení mohou být hluk ulice,
MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky
MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky Při návrhu elektroakustických soustav, ale i jiných systémů, je vhodné nejprve
31SCS Speciální číslicové systémy Antialiasing
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE 2006/2007 31SCS Speciální číslicové systémy Antialiasing Vypracoval: Ivo Vágner Email: Vagnei1@seznam.cz 1/7 Převod analogového signálu na digitální Složité operace,
UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU
UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU ANALÝZU VÍCEKANÁLOVÝCH SIGNÁLŮ Robert Háva, Aleš Procházka Vysoká škola chemicko-technologická, Abstrakt Ústav počítačové a řídicí techniky Analýza vícekanálových
Úloha D - Signál a šum v RFID
1. Zadání: Úloha D - Signál a šum v RFID Změřte úrovně užitečného signálu a šumu v přenosovém řetězci systému RFID v závislosti na čtecí vzdálenosti. Zjistěte maximální čtecí vzdálenost daného RFID transpondéru.
filtry FIR zpracování signálů FIR & IIR Tomáš Novák
filtry FIR 1) Maximální překývnutí amplitudové frekvenční charakteristiky dolní propusti FIR řádu 100 je podle obr. 1 na frekvenci f=50hz o velikosti 0,15 tedy 1,1dB; přechodové pásmo je v rozsahu frekvencí
Základní komunikační řetězec
STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU EVROPSKÝ SOCIÁLNÍ FOND Základní komunikační řetězec PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI Podpora kvality výuky informačních a telekomunikačních technologií ITTEL
A/D převodníky - parametry
A/D převodníky - parametry lineární kvantování -(kritériem je jednoduchost kvantovacího obvodu), parametry ADC : statické odstup signálu od kvantizačního šumu SQNR, efektivní počet bitů n ef, dynamický
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)
Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného) 1 Obecný popis metody Particle Image Velocimetry, nebo-li zkráceně PIV, je měřící
Direct Digital Synthesis (DDS)
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory
Návrh frekvenčního filtru
Návrh frekvenčního filtru Vypracoval: Martin Dlouhý, Petr Salajka 25. 9 2010 1 1 Zadání 1. Navrhněte co nejjednodušší přenosovou funkci frekvenčního pásmového filtru Dolní propusti typu Bessel, která bude
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
ZÁKLADNÍ METODY REFLEKTOMETRIE
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF
Jasové transformace. Karel Horák. Rozvrh přednášky:
1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace
Signál v čase a jeho spektrum
Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě
Číslicové zpracování signálů a Fourierova analýza.
Číslicové zpracování signálů a Fourierova analýza www.kme.zcu.cz/kmet/exm 1 Obsah prezentace 1. Úvod a motivace 2. Data v časové a frekvenční oblasti 3. Fourierova analýza teoreticky 4. Fourierova analýza
VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ
VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSOVÝCH SIGNÁLŮ Jiří TŮA, VŠB Technická univerzita Ostrava Petr Czyž, Halla Visteon Autopal Services, sro Nový Jičín 2 Anotace: Referát se zabývá
Klasifikace hudebních stylů
Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů
Hlavní parametry rádiových přijímačů
Hlavní parametry rádiových přijímačů Zpracoval: Ing. Jiří Sehnal Pro posouzení základních vlastností rádiových přijímačů jsou zavedena normalizovaná kritéria parametry, podle kterých se rádiové přijímače
Časové řady, typy trendových funkcí a odhady trendů
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces
Kepstrální analýza řečového signálu
Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači
Časové řady, typy trendových funkcí a odhady trendů
Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové
Laboratorní úloha č. 8: Elektroencefalogram
Laboratorní úloha č. 8: Elektroencefalogram Cíle úlohy: Rozložení elektrod při snímání EEG signálu Filtrace EEG v časové oblasti o Potlačení nf a vf rušení o Alfa aktivita o Artefakty Spektrální a korelační
Akustika. 3.1 Teorie - spektrum
Akustika 3.1 Teorie - spektrum Rozklad kmitů do nejjednodušších harmonických Spektrum Spektrum Jedna harmonická vlna = 1 frekvence Dvě vlny = 2 frekvence Spektrum 3 vlny = 3 frekvence Spektrum Další vlny
Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů
Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle
Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně
Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy
VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ
VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ Markéta Mazálková Katedra komunikačních a informačních systémů Fakulta vojenských technologií,
Zvýrazňování řeči pomocí vícekanálového zpracování
Zvýrazňování řeči pomocí vícekanálového zpracování Václav Bolom, Pavel Sovka Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 66 27 Praha 6 Abstrakt Problém
Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722
Základy a aplikace digitálních modulací Josef Dobeš Katedra radioelektroniky (13137), blok B2, místnost 722 dobes@fel.cvut.cz 6. října 2014 České vysoké učení technické v Praze, Fakulta elektrotechnická
13 Barvy a úpravy rastrového
13 Barvy a úpravy rastrového Studijní cíl Tento blok je věnován základním metodám pro úpravu rastrového obrazu, jako je např. otočení, horizontální a vertikální překlopení. Dále budo vysvětleny různé metody
Náhodné signály. Honza Černocký, ÚPGM
Náhodné signály Honza Černocký, ÚPGM Signály ve škole a v reálném světě Deterministické Rovnice Obrázek Algoritmus Kus kódu } Můžeme vypočítat Málo informace! Náhodné Nevíme přesně Pokaždé jiné Především
MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ
MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ Aneta Coufalíková, Markéta Smejkalová Mazálková Univerzita obrany Katedra Komunikačních a informačních systémů Matlab ve výuce V rámci modernizace výuky byl
Číslicové filtry. Honza Černocký, ÚPGM
Číslicové filtry Honza Černocký, ÚPGM Aliasy Digitální filtry Diskrétní systémy Systémy s diskrétním časem atd. 2 Na co? Úprava signálů Zdůraznění Potlačení Detekce 3 Zdůraznění basy 4 Zdůraznění výšky
Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky
Pulsní kódová modulace, amplitudové, frekvenční a fázové kĺıčování Josef Dobeš 24. října 2006 Strana 1 z 16 Základy radiotechniky 1. Pulsní modulace Strana 2 z 16 Pulsní šířková modulace (PWM) PAM, PPM,
Posouzení přesnosti měření
Přesnost měření Posouzení přesnosti měření Hodnotu kvantitativně popsaného parametru jakéhokoliv objektu zjistíme jedině měřením. Reálné měření má vždy omezenou přesnost V minulosti sloužila k posouzení
Chyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
Teoretický úvod: [%] (1)
Vyšší odborná škola a Střední průmyslová škola elektrotechnická Božetěchova 3, Olomouc Laboratoře elektrotechnických měření Název úlohy Číslo úlohy ZESILOVAČ OSCILÁTOR 101-4R Zadání 1. Podle přípravku
A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014
A7B31ZZS 4. PŘEDNÁŠKA 13. října 214 A-D převod Vzorkování aliasing vzorkovací teorém Kvantování Analýza reálných signálů v časové oblasti řečové signály biologické signály ---> x[n] Analogově-číslicový
Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky
A0M38SPP - Signálové procesory v praxi - přednáška 7 2 Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky (momenty) Matematická definice korelační
1. Základy teorie přenosu informací
1. Základy teorie přenosu informací Úvodem citát o pojmu informace Informace je název pro obsah toho, co se vymění s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. N.
Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY
Lineární a adaptivní zpracování dat 1. ÚVOD: SIGNÁLY a SYSTÉMY Daniel Schwarz Investice do rozvoje vzdělávání Osnova Úvodní informace o předmětu Signály, časové řady klasifikace, příklady, vlastnosti Vzorkovací
Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně
Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy
Náhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
T- MaR. Ústav technologie, mechanizace a řízení staveb. Teorie měření a regulace. Podmínky názvy. 1.c-pod. ZS 2015/ Ing. Václav Rada, CSc.
Ústav technologie, mechanizace a řízení staveb Teorie měření a regulace Podmínky názvy 1.c-pod. ZS 2015/2016 2015 - Ing. Václav Rada, CSc. MĚŘENÍ praktická část OBECNÝ ÚVOD Veškerá měření mohou probíhat
ANALÝZA LIDSKÉHO HLASU
ANALÝZA LIDSKÉHO HLASU Pomůcky mikrofon MCA-BTA, LabQuest, program LoggerPro (nebo LoggerLite), tabulkový editor Excel, program Mathematica Postup Z každodenní zkušenosti víme, že každý lidský hlas je
Zpracování obrazů. Honza Černocký, ÚPGM
Zpracování obrazů Honza Černocký, ÚPGM 1D signál 2 Obrázky 2D šedotónový obrázek (grayscale) Několikrát 2D barevné foto 3D lékařské zobrazování, vektorová grafika, point-clouds (hloubková mapa, Kinect)
Grafika na počítači. Bc. Veronika Tomsová
Grafika na počítači Bc. Veronika Tomsová Proces zpracování obrazu Proces zpracování obrazu 1. Snímání obrazu 2. Digitalizace obrazu převod spojitého signálu na matici čísel reprezentující obraz 3. Předzpracování
Úvod do praxe stínového řečníka. Proces vytváření řeči
Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.
KONVERZE VZORKOVACÍHO KMITOČTU
VOLUME: 8 NUMBER: 00 BŘEZEN KONVERZE VZORKOVACÍHO KMITOČTU Jan VITÁSEK Katedra telekomunikační techniky, Fakulta elektrotechniky a informatiky, VŠB-TU Ostrava, 7. Listopadu 5, 708 33 Ostrava-Poruba, Česká
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek
EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření Jan Krystek 9. května 2019 CHYBY A NEJISTOTY MĚŘENÍ Každé měření je zatíženo určitou nepřesností způsobenou nejrůznějšími negativními vlivy,
SIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické
Restaurace (obnovení) obrazu při známé degradaci
Restaurace (obnovení) obrazu při známé degradaci Václav Hlaváč České vysoké učení technické v Praze Centrum strojového vnímání (přemosťuje skupiny z) Český institut informatiky, robotiky a kybernetiky
SIGNÁLY A LINEÁRNÍ SYSTÉMY
SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné
Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích
Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích Analysis of MSAF algorithm for speech enhancement in combat vehicles Ing. Jaroslav Hovorka MESIT přístroje spol. s r.o., Uherské
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY. MRBT Robotika
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV AUTOMATIZACE A MĚŘÍCÍ TECHNIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION
PRACOVNÍ NÁVRH VYHLÁŠKA. ze dne o způsobu stanovení pokrytí signálem televizního vysílání
PRACOVNÍ NÁVRH VYHLÁŠKA ze dne 2008 o způsobu stanovení pokrytí signálem televizního vysílání Český telekomunikační úřad stanoví podle 150 odst. 5 zákona č. 127/2005 Sb., o elektronických komunikacích
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Zesilovače. Ing. M. Bešta
ZESILOVAČ Zesilovač je elektrický čtyřpól, na jehož vstupní svorky přivádíme signál, který chceme zesílit. Je to tedy elektronické zařízení, které zesiluje elektrický signál. Zesilovač mění amplitudu zesilovaného
SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY
SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY TEMATICKÉ OKRUHY Signály se spojitým časem Základní signály se spojitým časem (základní spojité signály) Jednotkový skok σ (t), jednotkový impuls (Diracův impuls)
Analýza a zpracování digitálního obrazu
Analýza a zpracování digitálního obrazu Úlohy strojového vidění lze přibližně rozdělit do sekvence čtyř funkčních bloků: Předzpracování veškerých obrazových dat pomocí filtrací (tj. transformací obrazové
Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004
Dokumentace k projektu č. 2 do IZP Iterační výpočty 24. listopadu 2004 Autor: Kamil Dudka, xdudka00@stud.fit.vutbr.cz Fakulta Informačních Technologií Vysoké Učení Technické v Brně Obsah 1. Úvod...3 2.
Nové požadavky na zvukoměrnou techniku a jejich dopad na hygienickou praxi při měření hluku. Ing. Zdeněk Jandák, CSc.
Nové požadavky na zvukoměrnou techniku a jejich dopad na hygienickou praxi při měření hluku Ing. Zdeněk Jandák, CSc. Předpisy Nařízení vlády č. 272/2011 Sb. o ochraně zdraví před nepříznivými účinky hluku
Teorie měření a regulace
Ústav technologie, mechanizace a řízení staveb CW01 Teorie měření a regulace Praxe názvy 1. ZS 2015/2016 2015 - Ing. Václav Rada, CSc. OBECNÝ ÚVOD - praxe Elektrotechnická měření mohou probíhat pouze při
MĚŘENÍ AKUSTICKÝCH VELIČIN. Ing. Barbora Hrubá, Ing. Jiří Winkler Kat. 225 Pozemní stavitelství 2014
MĚŘENÍ AKUSTICKÝCH VELIČIN Ing. Barbora Hrubá, Ing. Jiří Winkler Kat. 225 Pozemní stavitelství 2014 TERMÍNY A DEFINICE MÍSTO PŘÍJMU Místo ve kterém je hluk posuzován ČASOVÝ INTERVAL MĚŘENÍ Časový interval
1. Přednáška. Ing. Miroslav Šulai, MBA
N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy
A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014
A7B3ZZS. PŘEDNÁŠKA Návrh filtrů. prosince 24 Návrhy jednoduchých filtrů Návrhy složitějších filtrů Porovnání FIR a IIR Nástroje pro návrh FIR filtrů v MATLABu Nástroje pro návrh IIR filtrů v MATLABu Kvantování
katedra technických zařízení budov, fakulta stavební ČVUT TZ 31: Vzduchotechnika cvičení č.1 Hluk v vzduchotechnice vypracoval: Adamovský Daniel
Úvod Legislativa: Nařízení vlády č. 502/2000 Sb o ochraně zdraví před nepříznivými účinky hluku a vibrací + novelizace nařízením vlády č. 88/2004 Sb. ze dne 21. ledna 2004. a) hlukem je každý zvuk, který
Matematická morfologie
/ 35 Matematická morfologie Karel Horák Rozvrh přednášky:. Úvod. 2. Dilatace. 3. Eroze. 4. Uzavření. 5. Otevření. 6. Skelet. 7. Tref či miň. 8. Ztenčování. 9. Zesilování..Golayova abeceda. 2 / 35 Matematická
IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS
Spektrální analyzátory
Radioelektronická měření (MREM, LREM) Spektrální analyzátory 6. přednáška Jiří Dřínovský Ústav radioelektroniky FEKT VUT v Brně Úvod Spektrální analyzátory se používají pro zobrazení nejrůznějších signálů
Akustika. Tónové systémy a ladění
Akustika Tónové systémy a ladění Harmonická řada Harmonická řada, tónový systém Harmonická řada je nerovnoměrná, záleží na volbě fundamentu, pak se ale nepotkávají alikvoty nižších pořadových čísel, hodně
31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014
3ZZS 9. PŘEDNÁŠKA 24. listopadu 24 SPEKTRÁLNÍ ANALÝZA Fourierovy řady Diskrétní Fourierovy řady Fourierova transformace Diskrétní Fourierova transformace Spektrální analýza Zobrazení signálu ve frekvenční
Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Statistické zpracování dat Semestrální práce Interpolace, aproximace a spline 2007 Jindřich Freisleben Obsah
U Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
Semestrální práce: Rozpoznání hláskované řeči a převedení na text
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované
Komplexní obálka pásmového signálu
České vysoké učení technické v Praze, Fakulta elektrotechnická X37SGS Signály a systémy Komplexní obálka pásmového signálu Daniel Tureček 8.11.8 1 Úkol měření Nalezněte vzorky komplexní obálky pásmového
Zvuk. 1. základní kmitání. 2. šíření zvuku
Zvuk 1. základní kmitání - vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin - podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění elastického
Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti
Lineární a adaptivní zpracování dat 3. SYSTÉMY a jejich popis ve frekvenční oblasti Daniel Schwarz Osnova Opakování: systémy a jejich popis v časové oblasti Fourierovy řady Frekvenční charakteristika systémů
v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9
České vysoké učení technické v Praze Algoritmy pro měření zpoždění mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9 31. března 23 Obsah 1 Zadání 1 2 Uvedení do problematiky měření zpoždění signálů 1
1 Zpracování a analýza tlakové vlny
1 Zpracování a analýza tlakové vlny 1.1 Cíl úlohy Prostřednictvím této úlohy se naučíte a zopakujete: analýzu biologických signálů v časové oblasti, analýzu biologických signálů ve frekvenční oblasti,
1 Modelování systémů 2. řádu
OBSAH Obsah 1 Modelování systémů 2. řádu 1 2 Řešení diferenciální rovnice 3 3 Ukázka řešení č. 1 9 4 Ukázka řešení č. 2 11 5 Ukázka řešení č. 3 12 6 Ukázka řešení č. 4 14 7 Ukázka řešení č. 5 16 8 Ukázka
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory
Číslo projektu Číslo materiálu CZ.1.07/1.5.00/34.0581 VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory Název školy Střední odborná škola a Střední odborné učiliště, Dubno Autor Ing. Miroslav Krýdl Tematická