3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Podobné dokumenty
METODY POTLAČENÍ ŠUMU PRO ROZPOZNÁVAČE ŘEČI

Signál v čase a jeho spektrum

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úvod do zpracování signálů

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

PSK1-5. Frekvenční modulace. Úvod. Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka. Název školy: Vzdělávací oblast:

ADA Semestrální práce. Harmonické modelování signálů

Kepstrální analýza řečového signálu

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Ing. Martin Plšek EXTRAKCE ŘEČOVÉHO SIGNÁLU Z HLUKU POZADÍ VE SPEKTRÁLNÍ OBLASTI

Návrh frekvenčního filtru

A/D převodníky - parametry

Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti

Úvod do medicínské informatiky pro Bc. studium. 6. přednáška

Jasové transformace. Karel Horák. Rozvrh přednášky:

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

ZPRACOVÁNÍ SIGNÁLŮ Z MECHANICKÝCH. Jiří Tůma

Zvýrazňování řeči pomocí vícekanálového zpracování

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

Vlastnosti a modelování aditivního

Náhodné signály. Honza Černocký, ÚPGM

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

1 Zpracování a analýza tlakové vlny

Číslicové zpracování signálů a Fourierova analýza.

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

filtry FIR zpracování signálů FIR & IIR Tomáš Novák

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

P7: Základy zpracování signálu

Úloha D - Signál a šum v RFID

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

teorie elektronických obvodů Jiří Petržela analýza šumu v elektronických obvodech

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Odhad stavu matematického modelu křižovatek

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

NPGR032 CVIČENÍ III. Šum a jeho odstranění teorie&praxe. Adam Novozámský (novozamsky@utia.cas.cz)

31SCS Speciální číslicové systémy Antialiasing

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

DSY-4. Analogové a číslicové modulace. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

Stavový model a Kalmanův filtr

Biofyzikální ústav LF MU Brno. jarní semestr 2011

ROZ1 - Cv. 3 - Šum a jeho odstranění ÚTIA - ZOI

Multimediální systémy

Oscilátory. Oscilátory s pevným kmitočtem Oscilátory s proměnným kmitočtem (laditelné)

Laboratorní úloha č. 8: Elektroencefalogram

Příloha č. 1. amplitudová charakteristika filtru fázová charakteristika filtru / frekvence / Hz. 1. Určení proudové hustoty

VY_32_INOVACE_E 15 03

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Hlavní parametry rádiových přijímačů

X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky

KMS cvičení 6. Ondřej Marek

1. Základy teorie přenosu informací

Automatizační technika. Regulační obvod. Obsah

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Číslicové filtry. Honza Černocký, ÚPGM

Operace s obrazem I. Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno. prezentace je součástí projektu FRVŠ č.

Zpráva k semestrální práci z předmětu Syntéza audio signálů. Vypracoval: Jakub Krista Zimní semestr 2016/2017 Datum odevzdání:

Při návrhu FIR filtru řešíme obvykle následující problémy:

Restaurace (obnovení) obrazu při známé degradaci

Lineární a adpativní zpracování dat. 3. Lineární filtrace I: Z-transformace, stabilita

Šum a jeho potlačení. Michal Švanda. Astronomický ústav MFF UK Astronomický ústav AV ČR. Spektroskopie (nejen) ve sluneční fyzice LS 2011/2012

Kmitočtová analýza (AC Analysis) = analýza kmitočtových závislostí obvodových veličin v harmonickém ustáleném stavu (HUS) při první iteraci ano

Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

Frekvenční charakteristiky

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Flexibilita jednoduché naprogramování a přeprogramování řídícího systému

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Akustika. 3.1 Teorie - spektrum

Kompresní metody první generace

Kapacita, indukčnost; kapacitor-kondenzátor, induktor-cívka

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

Moderní multimediální elektronika (U3V)


SIGNÁLY A LINEÁRNÍ SYSTÉMY

r Odvoď te přenosovou funkci obvodů na obr.2.16, je-li vstupem napě tí u 1 a výstupem napě tí u 2. Uvaž ujte R = 1Ω, L = 1H a C = 1F.

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Měření neelektrických veličin. Fakulta strojního inženýrství VUT v Brně Ústav konstruování

Klasifikace hudebních stylů

Spektrální analyzátory

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

vzorek vzorek

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY, ČASOVÉ ŘADY a SYSTÉMY

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

8. Sběr a zpracování technologických proměnných

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014

Analogové modulace. Podpora kvality výuky informačních a telekomunikačních technologií ITTEL CZ.2.17/3.1.00/36206

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Chyby měření 210DPSM

2. GENERÁTORY MĚŘICÍCH SIGNÁLŮ II

AVDAT Nelineární regresní model

Posouzení přesnosti měření

katedra technických zařízení budov, fakulta stavební ČVUT TZ 31: Vzduchotechnika cvičení č.1 Hluk v vzduchotechnice vypracoval: Adamovský Daniel

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Operační zesilovač, jeho vlastnosti a využití:

Transkript:

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace, RASTA, mapování spektrogramu či algoritmy, které jsou založené na odhadu šumu. 3.1 Spektrální odečítání Tato metoda se řadí do skupiny metod kompenzace šumu na signálové či příznakové úrovni. Princip těchto metod spočívá ve zpracování signálu postiženého aditivním šumem v časové nebo frekvenční oblasti. Tento signál je pak dále upravován v blocích tzv. mikrosegmentech. Metoda spektrálního odečítání není výpočetně náročná a je velmi účinná i přes svou jednoduchost. Základním předpokladem pro úspěšnot této metody je nekorelovanost řečového signálu s aditivním šumem. Metoda také předpokládá stacionární charakter aditivního šumu, případné změny jeho spektrálních charakteristik by měly být pomalé ve srovnáním se spektrálními charakteristikami řeči [1], [2]. Princip metody spočívá v odečtení spektra šumu od spektra řečového signálu kontaminovaného aditivním šumem, přičemž se předpokládá, že signál šumu není korelován s řečovým signálem. U signálu přepokládáme stacionaritu šumu nebo jeho pomalou proměnlivost v čase. Dále předpokládáme stacionaritu přenosového kanálu ve smyslu neměnnosti spektrálních charakteristik v čase, případně dostatečně pomalých změn těchto charakteristik ve srovnání se změnami spektrálních charakteristik řeči. Při splnění těchto předpokladů lze provést odhad spektrálních charakteristik nezašuměného řečového signálu [1], [2], [5]. V případě, že přenosový kanál bude ideální můžeme obraz řečového signálu Y (ω, k), který obsahuje aditivní šum, popsat rovnicí Y (ω, k) = S(ω, k) + N(ω, k), (3.1) kde k vyjadřuje čas spektra kterého segmentu, S(ω, k) je spektrum původního řečového signálu a N(ω, k) je spektrum aditivního šumu [1]. Odhad spektrálních charakteristik čisté řeči ^S(ω, k) lze provést dle rovnice ^S(ω, k) = Y (ω, k) α 1 I I 1 i=0 N(ω, i) = Y (ω, k) α N(ω), (3.2) 16

kde Y (ω, k) je amplitudové spektrum řečového signálu kontaminovaného šumem, N(ω) je amplitudové časově zprůměrované spektrum aditivního šumu a α je parametrem, který udává poměrnou část průměrného spektra šumu, kterou následně odečítáme od Y (ω, k) [1]. Odhad lze také provést ve výkonové oblasti dle rovnice ^S(ω, k) 2 = Y (ω, k) 2 α N(ω) 2, (3.3) kde ^S(ω, k) 2 je výkonové spektrum odhadovaného řečového signálu, Y (ω, k) 2 je výkonové spektrum signálu obsahujícího aditivní šum a N(ω) 2 je časově zprůměrované výkonové spektrum aditivního šumu [1]. Nevýhody metody spektrálního odečítání spočívají v nutnosti sledování množství odečítané informace. Pokud je odečteno příliš mnoho informace, může dojít ke ztrátě části informace řečového signálu. Naopak pokud je odečteno málo informace, metoda nebude dostatečně účinná a řečový signál bude nadále obsahovat šum [2]. Další nevýhodou metody je velká citlivost na změny ve spektru šumu. U některých signálů je možné, že časově zprůměrovaná hodnota šumu odhadnutého z úseku, kdy není přítomna řeč, bude větší než spektrum řeči. V těchto případech má pak odhad amplitudového nebo výkonového spektra čisté řeči zápornou hodnotu. Této situaci se předchází zavedením mapovací funkce, která odhadu spektra řečového signálu přiřazuje nezápornou hodnotu. Nevýhodou zavedení mapovací funkce je možnost vzniku hudebního šumu. Tento šum pak může negativně ovlivnit rozpoznávání signálu [1]. Použití algoritmu bez další modifikace je ve velmi hlučném prostředí nevhodné z důvodu vysokého množství vznikajících hudebních tónů. V případě použití algoritmu v hlučném prostředí jej lze modifikovat například použitím Beroutiho algoritmu, nelineárního, pásmového či rozšířeného spektrálního odečítání [9]. 3.1.1 Beroutiho algoritmus Tato úprava obecného algoritmu spektrálního odečítání byla navržena M. Beroutim a kolektivem v [19]. Postup spočívá v odečtení odhadu výkonového spektra šumu při zajištění neklesnutí hodnot výsledných spektrálních komponent pod předem stanovenou minimální hodnotu dle následujícího vztahu ^X(ω) 2 Y (ω) 2 α = ^D(ω) 2 jestliže Y (ω) 2 > (α + β) ^D(ω) 2 β ^D(ω) 2 jinak (3.4) kde α je odečítací faktor a platí α > 1 a β(0 < β << 1) je parametr spektrálního pozadí. Oba parametry poskytují algoritmu velkou flexibilitu. Parametr α ovlivňuje zkreslení zpracovaného signálu, parametr β ovlivňuje množství zbytkového šumu. 17

Pokud však bude hodnota parametru β příliš velká, hudební tóny budou potlačeny, ale ve výstupním signálu bude výrazně slyšet šum. Naopak pokud bude hodnota parametru β příliš malá, intenzita hudebních tónů ve výstupním signálu bude příliš velká. Odečtením odhadu spektra šumu je možné snížit amplitudu širokopásmových vrcholků a v některých případech je dokonce eliminovat [2], [9], [19]. Dále je nutné uvažovat hodnotu SNR zpracovávaného signálu. Pro signály s vysokou hodnotou SNR je nutné nastavit parametr α na nízkou hodnotu a naopak. Berouti a kolektiv [19] navrhli výpočet parametru α dle vzorce α = α 0 3 SNR 5dB SNR 20dB, (3.5) 20 kde α 0 je požadovaná hodnota α při SNR = 0 db. Použitím Beroutiho algoritmu je tedy možné částečně eliminovat nevýhodu metody spektrálního odečítání, a to vzniku hudebních tónů [2], [9]. 3.1.2 Nelineární spektrální odečítání Základním přepokladem metody nelineárního spektrálního odečítání je rovnoměrné postižení šumem všech spektrálních komponent. Přes celé spektrum je proto odečten odhad šumu za pomocí odečítacího faktoru α. Vzhledem k základnímu předpokladu této modifikace spektrálního odečítání není možné použít algoritmus na řečový signál kontaminovaný hlukem na ulici či v restauraci [2]. Nelinerita této metody spočívá v odečtení větších hodnot na frekvencích s nižším poměrem signál šum a menších hodnot na frekvencích s větším poměrem signálu k šumu. Tento postup lze popsat vztahem ^X(ω) = Y (ω) a(ω)n(ω) jestliže Y (ω) > a(ω)n(ω) + β D(ω) β Y (ω) jinak (3.6) kde β je proměnná udávající zaokrouhlení, Y (ω) a D(ω) jsou vyhlazené odhady zašuměného řečového signálu a šumu, α(ω) je odečítací faktor závislý na frekvenci a N(ω) je nelineární funkce spektra šumu [2]. Odhady Y (ω) a D(ω) zašuměné řeči získáme následovně Y i (ω) = μ y Y y 1 (ω) + (1 μ y ) Y i (ω) (3.7) D i (ω) = μ d D y 1 (ω) + (1 μ d ) ^D i (ω) (3.8) kde Y i (ω) je amplitudové spektrum zašuměného řečového signálu z i-tého segmentu a ^D i (ω) je odhad amplitudového spektra šumu z i-tého segmentu. Konstanty μ y, μ d nabývají hodnot v rozmezí 0, 1 μ y 0, 5 a 0, 5 μ d 0, 9. Nelineární 18

funkce spektra šumu je získána výpočtem maxima z amplitudového spektra šumu z posledních 40 segmentů. [2] 3.1.3 Vícepásmové spektrální odečítání Tato metoda narozdíl od předchozí metody nelineárního spektrálního odečítání vychází z předpokladu, že šum nepostihuje spektrum řečového signálu rovnoměrně. Princip metody spočívá v segmentaci spektra řeči na N nepřekrývajících se pásem a metoda spektrálního odečítání je následně aplikována jednotlivě na každé pásmo. Segmentace spektra může být provedena v časové doméně za použití filtrů pásmových propustí nebo ve frekvenční doméně užitím vhodného okna. Způsob segmentace ve frekvenční doméně je dle autora [2] více využívaný. Odhad spektra čisté řeči v i- tém pásmu je získán dle rovnice ^X i (ω) k 2 = Y i (ω) k 2 α i δ i ^X i (ω) k 2 (3.9) kde β i ω k e i, ω k = 2πk/N(k = 0, 1,..., N 1) jsou diskrétní hodnoty frekvencí, ^D i (ω) k 2 je odhad výkonového spektra šumu (získáno a obnovováno během úseků signálu, kde se nevyskytuje řeč), b i a e i jsou počáteční a koncové frekvence v i-tém frekvenčním pásmu, α je odečítací faktor v i-tém pásmu a δ i je přídavný pásmový odečítací faktor, který je možné individuálně nastavit pro každé frekvenční pásmo a přizpůsobit tím proces zpracování řečového signálu [2], [17]. vztahu Záporné hodnoty vznikající odečtením dle rovnice 3.9 jsou dále zpracovány dle ^X ^X i (ω) k 2 i (ω k ) 2 jestliže = ^X i (ω k ) 2 > β Y i (ω k ) 2 β Y i (ω k ) 2 jinak (3.10) kde parametr β je nastaven na hodnotu 0,002 [2]. K dalšímu maskování zbývajících hudebních tónů je využito přidání části šumového spektra ke zpracovanému signálu dle vztahu X i (ω) k 2 = ^X i (ω) k 2 + 0, 05 Y i (ω) k 2 (3.11) kde X i (ω) k 2 vyjadřuje nové výkonové spektrum zpracovaného signálu [2]. Odečítací faktor v i-tém pásmu α je funkcí segmentálního SNR i-tého pásma a je vypočítán dle vztahu 4, 75 SNR i < 5 α i = 4 3 (SNR 20 i) 5 SNR i 20 1 SNR i > 20 (3.12) 19

kde v i-tém pásmu je poměr SNR i dán vztahem ( ei ω SNR i (db) = 10log k =b i Y i (ω) k 2 ) 10 ei (3.13) ω k =b i D i (ω) k 2 Přestože použitím odečítacího faktoru α i je možné kontrolovat úroveň odečítaného šumu, je potřeba dále nastavit parametr δ i, kterým je také možné kontrolovat množství odečítaného šumu v každém pásmu. Hodnoty tohoto parametru jsou stanovovány empiricky a dány následujícím vztahem 1 f i 1kHz F s δ i = 2, 5 1kHz < f i 2kHz (3.14) 2 F s 1, 5 f i > 2kHz 2 kde f i je vyšší frekvence v i-tém pásmu a F s je vzorkovací frekvence v Hz. Většina energie řečového signálu se nachází v nižších frekvenčních pásmech, a proto je často užívána menší hodnota parametru δ i pro pásma nižších frekvencí, aby nedocházelo k příliš velkému zkreslení zpracovávaného signálu [2], [17]. 3.1.4 Spektrální odečítání využívající adaptivního průměrování zisku Princip metody spektrálního odečítání, která využívá adaptivního průměrování zisku, spočívá v segmentaci vstupního signálu na L segmentů a další rozdělení těchto segmentů na M (M < L) vzorků. Dále je vypočítáno spektrum každého vzorku a toto spektrum je průměrováno s cílem zisku neměnného odhadu amplitudového spektra. Zisková funkce je vypočtena dle vztahu G i (ω) = 1 k ^D i Y i (ω) (ω) (3.15) kde ^D i (ω) je odhad amplitudového spektra signálu, ^D i (ω) je odhad amplitudového spektra šumu, které je obnovováno během úseků bez řečové aktivity a k je odečítací faktor, dle [21] nastavený na hodnotu 0,7 [2], [21]. Zisková funkce G i (ω) je dále průměrována v čase za účelem snížení její variability dle vzorce G i (ω) = a G i i 1 (ω) + (1 a i )G i (ω) (3.16) kde G i vyjadřuje ziskovou funkci v i-tém segmentu a a i je adaptivní vyhlazovací parametr, který je stanoven dle vztahu γa i 1 + (1 γ)(1 β i ) jestliže a i 1 < 1 β i a i = (3.17) 1 β i jinak 20

kde γ je vyhlazovací parametr, v [21] stanoven na hodnotu 0,8 a parametr β vyjadřuje spektrální odchylku. Hodnota parametru α i může rychle klesat a tímto umožňuje ziskové funkci rychlou adaptaci na nový vstupní signál. Tato modifikace metody spektrálního odečítání standardně využívá diskrétní přímé a inverzní Fourierovy transformace ke zpracování řečového signálu a také metody OLA (Overlap and add) k převedení zpracovaných segmentů zpět do jednorozměrného signálu [2], [21]. 3.2 Wienerův filtr Wienerův filtr klade požadavek stacionarity jak na šum, tak řečový signál. Návrh Wienerova filtru vychází ze střední kvadratické chyby mezi originálním řečovým signálem a odhadem tohoto signálu. Odhad původního řečového signálu je výstupem Wienerova filtru [1], [4]. Nejobecnější tvar Wienerova filtru popisuje rovnice M(ω) = S xy(ω) S yy (ω), (3.18) kde M(ω) je frekvenční charakteristika restauračního filtru, S xy (ω) vyjadřuje vzájemné spektrum mezi originálním a zkresleným signálem a S yy (ω) je výkonové spektrum zkresleného signálu. Návrh dle rovnice 3.18 představuje optimální lineární filtr pro lineární i nelineární zkreslení [4]. Rovnice 3.19 je součinem prostého inverzního filtru a Wienerova korekčního faktoru, který nabývá pouze hodnot v intervalu < 0, 1 >. Cílem použití Wienerova korekčního faktoru je snížit amplitudový přenos v některých frekvenčních oblastech. M(ω) = 1 G(ω) G(ω) 2 G(ω) 2 + Svv(ω) S xx(ω), (3.19) kde G(ω) je frekvenční charakteristika odpovídající zkreslení a její převrácená hodnota tedy odpovídá prostému inverznímu filtru. S vv (ω) je dále výkonové spektrum šumu a S xx (ω) je výkonové spektrum původního signálu [4]. Rovnice 3.18 a 3.19 předpokládají přístup k originálnímu signálu. Ne vždy je možné této podmínce vyhovět, a proto je potřeba rovnici modifikovat tak, aby obsahovala členy, jejichž hodnoty je reálné získat měřením. Wienerův filtr lze tedy popsat i rovnicí M(ω) = 1 G(ω) přičemž všechny hodnoty této rovnice lze reálně získat [4]. S yy (ω) S vv (ω), (3.20) S yy (ω) 21

3.3 RASTA Metoda RASTA, celým názvem Relative Spectral, byla navržena na základě studia vlastností lidského sluchu. Metoda potlačuje spektrální složky s vyšší či nižší rychlostí změn než jsou změny řeči. Metoda je rozšířením metody PLP (Perceptual Linear Predictive), jejímž účelem je odstranit zkreslení vznikající přenosovým kanálem či aditivním šumem [1], [5], [11]. Princip metody RASTA spočívá v následujících krocích. Stejně jako u metody spektrálního odečítání je potřeba řečový signál segmentovat a počítat krátkou Fourierovu transformaci jednotlivých segmentů. Po segmentaci následuje číslicová filtrace časového průběhu modulu jednotlivých spektrálních složek. Dále je potřeba určit poměr signál šum, jehož hodnota slouží jako podklad k volbě kmitočtového číslicového filtru typu pásmová propust. Po filtraci časových relativních změn modulu jednotlivých harmonických změn pro všechny frekvence je na signál aplikována inverzní kmitočtová číslicová filtrace a nakonec metoda přičtení přesahu. Metoda je neúčinná v případě shody časové změny řeči a šumového signálu [5]. 3.4 Mapování spektrogramu Metoda mapování spektrogramu se zásadně liší od metod pro potlačení šumu, které byly v práci dosud uvedeny. Metoda využívá vlastnosti spektrogramu k práci s řečovým signálem v časově-frekvenční oblasti. Pomocí této metody je možné zachovat oblast řečové aktivity (oblast s vyšší energií užitečného signálu než je energie pozadí) při současném odstranění šumu ze vstupního signálu využitím binární masky. Algoritmus této metody zahajuje zpracování vstupního řečového signálu segmentací a váhováním Hammingovým oknem. V dalším kroce je proveden výpočet komplexního spektrogramu z několika po sobě následujících segmentů vstupního signálu. Metoda využívá detektor řečové aktivity pro stanovení počáteční hodnoty prahu z úseku bez řečové aktivity. Dále dochází k vytvoření binární masky a zpracování obrazu filtrací. Poté je vypočten součin masky a původního spektrogramu a dále je aplikována zpětná Fourierova transformace komplexního spektrogramu. Posledním krokem algoritmu je převedení zpracovaných segmentů do jednorozměrného signálu pomocí metody OLA (Overlap and Add). Mezi nevýhody této metody patří například výpočetní a paměťová náročnost, dále také vznik hudebních tónů [5], [14]. 3.5 Algoritmy založené na odhadu šumu Tyto algoritmy se od ostatních liší především v přístupu k šumu. Narozdíl od ostatních metod šum není odhadován pomocí detektoru řečového signálu, tzn. z úseků, 22

kde není přítomna řeč, ale v průběhu celého signálu. Proto jsou algoritmy založené na odhadu šumu vhodné především pro vysoce nestacionární prostředí. Tyto algoritmy lze v zásadě roztřídit do tří skupin. První skupina je založena na sledování minima výkonového spektra řečového signálu obsahujícího šum, a to buď s použitím okna nebo v průběhu celého signálu. Druhá skupina využívá pro odhad šumu časově rekurzivní průměrování. Šumová charakteristika je tedy odhadována jako vážený průměr předešlých odhadů šumu a aktuálního spektra šumu. Třetí skupina využívá technik vycházejících z vlastností histogramu. Odhad šumu vychází z histogramu hodnot výkonového spektra - jako odhad šumu je brána hodnota odpovídající maximální hodnotě v histogramu [2]. 23