České vysoké učení technické v Praze. Fakulta elektrotechnická DIPLOMOVÁ PRÁCE Martin Vondrášek

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická DIPLOMOVÁ PRÁCE 2004 Martin Vondrášek

2

3 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů Odhad SNR řečového signálu snímaného v hlučném prostředí leden 2004 Diplomant: Martin Vondrášek Vedoucí práce: Doc. Ing. Petr Pollák, CSc.

4

5 Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady (literaturu, projekty, SW atd.) uvedené v přiloženém seznamu. Nemám závažný důvod proti užití tohoto školního díla ve smyslu 60 Zákona č.121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon). V Praze dne 4. dubna podpis diplomanta

6

7

8

9 Anotace Diplomová práce je zaměřena na odhad odstupu řečového signálu od šumového pozadí (SNR). Objektivní měření pro klasifikaci úrovně šumu v řeči založené na standardní definici SNR mohou selhat kvůli silné nestacionaritě řeči. V první části diplomové práce je uveden přehled definicí globálního, lokálního, segmentálního a aritmetického SNR. Dále jsou popsány tři typy detektorů řečové aktivity a metody odhadu SNR podle výše uvedených kritérií. Stěžejní částí diplomové práce je program pro výpočet a odhad SNR. Umožňuje i generaci směsi řečového signálu a šumu podle požadovaného SNR. Na závěr jsou zhodnoceny výsledky experimentů na signálech se simulovaným i reálným rušivým pozadím. Experimenty jsou zaměřeny na vliv detektoru řečové aktivity, typu šumového pozadí a porovnání jednotlivých metod estimace. Summary This thesis describes methods of the signal-to-noise ratio estimation (SNR). The objective measurements for classifications of noise level in speech based on the standard SNR definition can fail as a result of high non-stationarity of speech. In the first part of the thesis, definitions of global, local, segmental, and aritmetical SNR are given. Furthermore, three types of voice activity detectors are presented. The methods of estimation of the above mentioned criteria for noisy speech are also described. The main part of this thesis is the program for counting, estimating, and mixing of speech and noise signals with the SNR required. Finally, the results of experiments with SNR measurements on simulated and real noisy speech signals are evaluated. The experiments are focused on the impact of voice activity detector, type of noise background, and on the comparison among the individual methods of estimation.

10

11 Poděkování Rád bych poděkoval panu docentu Petru Pollákovi za vedení při tvorbě diplomové práce. Dále bych chtěl poděkovat svým rodičům a přátelům za morální podporu při studiu na této škole.

12

13 Obsah 1 Úvod 1 2 Obecný popis výpočtu SNR Úvod Výpočty SNR Globální SNR Lokální SNR Segmentální SNR Aritmetické SNR Detektory řečové aktivity Ideální detektor Energetický detektor Kepstrální detektor Umělé vytvoření směsi Odhady SNR s výkonovým odečítáním Odhady lokálního, segmentálního a aritmetického SNR Odhad globálního SNR Implementace Úvod Struktura a popis programu Soubor snr.c Soubor dcdet.h Soubor lpc.h Soubor snr.h Soubor window.h Možnosti rozšíření Použití Kompilace zdrojového kódu Struktura příkazového řádku Popis parametrů Příklady použití i

14 ii OBSAH 4 Experimenty Úvod Testy na databázi CAR2ECS Výpočty SNR Odhady SNR Testy na databázi SPEECON Výsledky odhadu SNR Výsledky odhadu segmentálního SNR Výsledky odhadu aritmetického SNR Závěr 65 Příloha A: Selhání odhadu SNR 67 Příloha B: Popis programu d2d 69 Příloha C: Struktura přiloženého CD 71 Seznam použitých zkratek a symbolů 73 Literatura 76

15 Seznam obrázků 2.1 Řečový signál čtyři Bílý šum Směs řečového signálu a šumu Čistá řeč a průběh ideální detekce řečové aktivity Blokové schéma energetického detektoru Blokové schéma kepstrálního detektoru Martinův algoritmus Porovnání SNR, SSNR a SSNRA pro ideální detektor řeči Vliv energetického detektoru na výpočet SNR Vliv kepstrálního detektoru na výpočet SNR Vliv energetického detektoru na výpočet SSNR Vliv kepstrálního detektoru na výpočet SSNR Vliv energetického detektoru na výpočet SSNRA Vliv kepstrálního detektoru na výpočet SSNRA Odhad SNR, stacionární šum, ideální detektor Odhad SNR, nestacionární šum s pomalými změnami, ideální detektor Odhad SNR, nestacionární šum s rychlými změnami, ideální detektor Odhad SNR, stacionární šum, kepstrální detektor Odhad SNR, nestacionární šum s pomalými změnami, kepstrální detektor Odhad textitsnr, nestacionární šum s rychlými změnami, kepstrální detektor Odhad SSNR s použitím exponenciálního zapomínání, stacionární šum, ideální detektor Odhad SSNR s použitím exponenciálního zapomínání, stacionární šum, energetický detektor Odhad SSNR s použitím exponenciálního zapomínání, stacionární šum, kepstrální detektor Odhad SSNR s použitím exponenciálního zapomínání, nestacionární šum s rychlými změnami, kepstrální detektor Odhad SSNR s použitím Martinova algortimu, ideální detektor Odhad SSNR s použitím Martinova algortimu, energetický detektor Odhad SSNR s použitím Martinova algortimu, kepstrální detektor Odhad SSNRA s použitím exponenciálního zapomínání, ideální detektor iii

16 iv SEZNAM OBRÁZKŮ 4.22 Odhad SSNRA s použitím exponenciálního zapomínání, energetický detektor Odhad SSNRA s použitím exponenciálního zapomínání, kepstrální detektor Odhad SNR, prostředí auto, kepstrální detektor Odhad SNR, prostředí auto, energetický detektor Odhad SNR, prostředí jizda, kepstrální detektor Odhad SNR, prostředí jizda, energetický detektor Odhad SSNR, prostředí office, kepstrální detektor Odhad SSNR, prostředí office, energetický detektor Odhad SSNR, prostředí public, kepstrální detektor Odhad SSNR, prostředí public, energetický detektor Odhad SSNRA, prostředí auto, kepstrální detektor Odhad SSNRA, prostředí auto, energetický detektor Odhad SSNRA, prostředí office, kepstrální detektor Odhad SSNRA, prostředí office, energetický detektor Odhad SSNRA, prostředí pub, kepstrální detektor Odhad SSNRA, prostředí pub, energetický detektor Rozložení výkonů úseků s a bez řečové aktivity Selhání odhadu SNR Struktura přiloženého CD

17 Seznam tabulek 4.1 Výpočet SNR s referencí, porovnání SNR, SSNR a SSNRA pro ideální detektor Výpočet SNR s referencí, stacionární šum Výpočet SNR s referencí, nestacionární šum s pomalými změnami Výpočet SNR s referencí, nestacionární šum s rychlými změnami Odhad SNR Odhad SSNR, odhad výkonu šumu exponenciálním zapomínáním Odhad SSNR, odhad výkonu šumu klouzavým průměrováním Odhad SSNR, odhad výkonu šumu Martinovým algoritmem Odhad SSNRA, odhad výkonu šumu exponenciálním zapomínáním Odhad SSNRA, odhad výkonu šumu klouzavým průměrováním Odhad SSNRA, odhad výkonu šumu Martinovým algoritmem v

18 Kapitola 1 Úvod Analýza a zpracování řečového signálu je v současné době velmi aktuální problematika. V každé reálné aplikaci zpracování řečového signálu musíme zpravidla počítat s přítomností šumu. Pod pojmem šum nebudeme rozumět jen signál, který nenese žádnou informaci (např. bílý šum), ale i harmonické zkreslení, hluk prostředí při snímání řeči a zkreslení řečového signálu po průchodu přenosovým kanálem. Šum tedy nenese požadovanou řečovou informaci a mnohdy ji dokonce zkresluje. Automatické zpracování řečového signálu se v současné době stále více používá v reálných systémech. Nutná robustnost těchto systémů vůči rušení je jednou z nejvíce studovaných problematik v této oblasti výzkumu. I v případě vývoje systémů pro snižování úrovně šumu v řečovém signálu potřebujeme kvantifikovat úroveň šumového pozadí v řečovém signálu. Standartní kritérium pro měření úrovně šumu v signálu je odstup signálu od šumu (Signalto-Noise-Ratio) SNR. Prostá aplikace tohoto kritéria na řečový signál však není optimální. Je to především kvůli charakteru řečového signálu, jeho silné nestacionaritě a řečovým pauzám. Podrobný popis metod pro měření odstupu řečového signálu a šumu je uveden v [3] a [4]. Cílem mé diplomové práce je především implementace těchto algoritmů a jejich testování na řečových signálech se simulovaným a reálným šumovým pozadím. Strukturu diplomové práce jsem rozdělil na tři kapitoly. Obecný popis výpočtu SNR Přehled jednotlivých definicí SNR řeči, jejich výpočty a odhady, detektory řečové aktivity. Implementace Struktura programu, obsah jednotlivých souborů, ovládání programu. Možnost rozšíření o další metody odhadu a o detektory řečové aktivity. Experimenty Výsledky testů na řečových databázích CAR2ECS a SPEECON. Srovnání výsledků pro jednotlivé detektory řečové aktivity. 1

19 2 KAPITOLA 1. ÚVOD Cíle této diplomové práce lze shrnout do následujících bodů: - Vytvořit program pro odhady a výpočty odstupu signál-šum podle jednotlivých definicí. Dále bude program schopen vytvořit směs s požadovaným SNR. - Implementovat vhodný detektor řečové aktivity. - Analyzovat vliv volby detektoru řečové aktivity na chybu odhadu. - Vyhodnotit spolehlivost navrženého algoritmu na řečových signálech se simulovaným i reálným pozadím.

20 Kapitola 2 Obecný popis výpočtu SNR 2.1 Úvod Pomocí kritérií na bázi SNR lze kvantifikovat aditivní šum v signálu. Tato kriteria lze použít i pro kvantifikaci šumu konvolučního, ale v tomto případě mohou být výsledky značně zkreslené. Konvoluční šum typicky představuje zkreslení signálu, mírně odlišná zkreslení mohou dávat výrazně lišící se hodnoty. Model směsi řečového signálu a šumu definujeme takto: x[n] = s[n] + n[n], (2.1) kde x[n] je vzorek směsi řečového signálu, s[n] je vzorek řeči a n[n] je vzorek šumu. Všechny signály mají stejnou délku l. 1 amplituda [ ] n [ ] Obrázek 2.1: Řečový signál čtyři. 3

21 4 KAPITOLA 2. OBECNÝ POPIS VÝPOČTU SNR amplituda [ ] amplituda [ ] n [ ] n [ ] Obrázek 2.2: Bílý šum. Obrázek 2.3: Směs řečového signálu a šumu. Na obrázku 2.1 je znázorněn typický průběh čistého řečového signálu osm-jedna a na obrázku 2.2 bílý šum. Aplikujeme-li vzorec (2.1) na oba signály, dostaneme směs řečového signálu a šumu z obrázku 2.3. Základní definice odstupu signálu od šumu je dána vztahem: SNR = 10 log P s = 10 log σ2 s P n σn 2, (2.2) kde P s je výkon užitečného signálu a P n je výkon šumu. Řečový signál i šumové pozadí jsou signály s nulovou střední hodnotou, a proto jsou výkony signálů dány jejich rozptyly σ 2 s a σ 2 n. 2.2 Výpočty SNR Globální SNR Globální SNR (GSNR) dostaneme aplikací vzorce (2.2) na řečový signál, počítáme-li výkony řeči a šumu přes celý signál: GSNR = 10 log σ2 s σ 2 n = 10 log l 1 n=0 l 1 n=0 s 2 [n], (2.3) n 2 [n] kde l je délka řečového signálu ve vzorcích, s[n] je vzorek řeči a n[n]je vzorek šumu. Pro globální SNR je charakteristické, že s analyzovaným signálem pracuje jako s celkem. Toto kritérium je však zatíženo chybou, protože do výpočtu výkonu řeči jsou zahrnuty i části signálu bez řečové aktivity, které snižují celkový výkon řečového signálu. V řečových pauzách je teoreticky nulový výkon signálu. Ve skutečnosti je i zde zbytkový výkon generovaný hlasovým ústrojím člověka. Korektní výpočet SNR 1 pro řečový signál je definován takto: SNR = 10 log l 1 n=0 l 1 n=0 s 2 [n] vad[n], (2.4) n 2 [n] vad[n] 1 Zatímco SNR je obecná zkratka pro odstup signál-šum, SNR je jedna z možných definicí.

22 2.2. VÝPOČTY SNR 5 kde vad[n] je informace o řečové aktivitě na úrovni vzorků. Tento vzorec již respektuje pauzy v řečovém signálu Lokální SNR Protože je řečový signál nestacionární, není SNR v závislosti na čase konstantní. Často nás může zajímat právě vývoj SNR v závislosti na čase. Rozdělíme-li řečový signál na úseky (segmenty) o délce maximálně 40 ms, můžeme řeč v těchto úsecích považovat za stacionární. Mluvíme tak o kvazistacionaritě řeči. Délka segmentu je pro vzorkovací kmitočet signálu f s = 8000 Hz obvykle volena 256 vzorků. Jednotlivé segmenty na sebe mohou navazovat nebo se mohou překrývat. Překryv je typicky poloviční. Většinou pak vystačíme s vyčíslením SNR pro tyto segmenty. Výsledkem je tak lokální SNR (LSNR), definované pro i-tý segment jako: SNR i = 10 log σ2 s σ 2 n = 10 log M 1 n=0 M 1 n=0 s 2 i [n] n 2 i [n], (2.5) kde s i [n] = s[m i + n], n i [n] = n[m i + n], M je délka segmentu a m krok segmentace. V řečových pauzách je teoreticky SNR i =. V případě reálného signálu je v řečových pauzách přítomen zbytkový signál. Hodnota SNR i se pak v těchto segmentech obvykle nahrazuje zápornou hodnotou, typicky -40 db Segmentální SNR Geometrickým průměrováním lokálního SNR (2.5)přes jednotlivé segmenty s řečovou aktivitou dostaneme segmentální SNR (SSNR). Při výpočtu SSNR řečového signálu se tak setkáme s požadavkem na detekci řečové aktivity. SSNR pak počítáme podle vztahu: SSNR = 1 K L 1 i=0 10 log M 1 n=0 M 1 n=0 s 2 i [n] K 1 VAD i = 10 log VAD j n 2 i [n] j=0 M 1 n=0 M 1 n=0 s 2 j [n] n 2 j [n] 1 K. (2.6) L je celkový počet analyzovaných segmentů, M je délka segmentu a K je počet segmentů s řečovou aktivitou. Hodnota VAD i nese informaci o řečové aktivitě v i-tém segmentu (1-řeč, 0-pauza). V druhém tvaru vzorce pro výpočet SSNR se součin přes j provádí jen pro VAD j = Aritmetické SNR Aritmetickým průměrováním lokálního SNR (2.5) dostaneme aritmetické SNR (SSNRA). 1 SSNRA = 10 log K L 1 M 1 n=0 M 1 i=0 n=0 s 2 i [n] VAD i n 2 i [n]. (2.7) Dá se dokázat, že SSNR aplikované na řečový signál je asi o 5 db nižší, než SNR aplikované

23 6 KAPITOLA 2. OBECNÝ POPIS VÝPOČTU SNR na stejný signál. Hodnota SSNRA je velmi blízká hodnotě SNR a může sloužit jako její odhad. Bližší popis jednotlivých definicí SNR naleznete v [3] a [4]. 2.3 Detektory řečové aktivity Nedílnou součástí algoritmů pro výpočet SNR je detekce řečové aktivity (VAD -Voice Activity Detection). Detektor řečové aktivity je systém, do kterého vstupuje čistý řečový signál či směs řeči a šumu. Výstupem je pak 1, je-li v i-tém segmentu přítomna řeč a 0 pro segment bez řečové aktivity (VAD i ). Detekci řečové aktivity můžeme provádět i na úrovni vzorků řečového signálu, označujeme ji pak vad[n]. Do vytvářeného programu jsem se rozhodl implementovat tři typy detektorů řečové aktivity. amplituda [ ] n [ ] x 10 4 Obrázek 2.4: Čistá řeč a průběh ideální detekce řečové aktivity Ideální detektor V případě ideální detekce (obrázek 2.4) ručně označíme úseky signálu s řečovou aktivitou. Pro velké množství dat je tento způsob velmi pracný. V praxi se realizuje aplikací kepstrálního detektoru na řečový signál bez šumového pozadí. V implementovaném programu je detekce řečové aktivity v případě ideálního detektoru brána z externího textového souboru. Podrobnější popis bude uveden v kapitole v popisu funkce detector Energetický detektor Jednoduchý energetický (výkonový) detektor s blokovým schematem na obrázku 2.5 stanovuje práh pro detekci řeči na základě sledování minima a maxima krátkodobého výkonu signálu. Střední hodnota energie µ E [i] signálu je odhadována exponenciálním zapomínáním zvlášť v segmentech s řečovou aktivitou a v segmentech bez řečové aktivity. V segmentech s řečovou aktivitou se odhad střední

24 2.3. DETEKTORY ŘEČOVÉ AKTIVITY 7 signál x[n] x E segmentace i,n i,n výpo et a váhování energie odhad st ední hodnoty energie d[n] detekce porovnání E x,i a prahu výpo et prahu Obrázek 2.5: Blokové schéma energetického detektoru. hodnoty energie i-tého segmentu aktualizuje s konstantou α 2 = 0,99. µ E [i] = α 2 µ E [i 1] + (1 α 2 ) E x [i], (2.8) kde E x [i] je energie aktuálního i-tého segmentu. V segmentech bez řečové aktivity, kdy platí E x [i]=e n [i], pak rychleji s konstantou zapomínání α 1 = 0,95. E n [i] je energie šumu i-tého segmentu. µ E [i] = α 1 µ E [i 1] + (1 α 1 ) E x [i]. (2.9) V každém segmentu se aktualizuje hodnota prahu E P [i] pro určení řečové aktivity. Je-li energie aktuálního segmentu E x [i] větší než práh, je segment považovaný za segment s řečovou aktivitou. Velikost prahu i-tého segmentu je dána empiricky jako: E P [i] = k E µ E [i], (2.10) kde k E = 1, 3 je empiricky stanovená násobná konstanta Kepstrální detektor Základem kepstrálního detektoru řečové aktivity je analýza změn kepstrálních koeficientů v čase. Každý segment řečového signálu lze popsat několika kepstrálníni koeficienty. Pro segmentaci řečového signálu je nutné vybrat vhodný tvar okna. Z důvodu prosakování, popsaném v [1] je vhodné použít okno s velkým odstupem hlavního laloku. Pro dostatečné frekvenční rozlišení je nutno použít okno s úzkým hlavním lalokem. Kompromisem mezi těmito protichůdnými požadavky je Hammingovo okno. Pro výpočet kepstrálních koeficientů existuje několik metod. Na základě výsledků testů v [8] jsem ve svém programu implementoval výpočet kepstrálních koeficientů c n pomocí rekurzivního přepočtu AR 2 (autoregresních) koeficientů a n na koeficienty kepstrální. Výpočet koeficientů AR modelu p-tého řádu z Yuleových-Walkerových rovnic odvozených v [1] je výpočetně velmi náročný. 2 AR koeficienty jsou někdy označovány jako LPC (Linear Predictive Coding) koeficienty.

25 8 KAPITOLA 2. OBECNÝ POPIS VÝPOČTU SNR signál x[n] segmentace a váhování x i [n] výpo et kepstra c i [n] derivace kepstra i [n] detekce prahování a vyhlazení d[n] kepstrální vzdálenost d i [n] kumulativní sou et Obrázek 2.6: Blokové schéma kepstrálního detektoru. Levinsonův-Durbinův algoritmus pro rychlý výpočet AR koeficientů využívá ekvidiagonality autokorelační matice soustavy. Po výpočtu AR koeficientů následuje jejich rekurzivní přepočet na koeficienty kepstrální. Levinsonův-Durbinův algoritmus i přepočet koeficientů a n c n jsou blíže popsány v [1]. Derivací kepstra můžeme vystihnout dynamické chování řečového signálu. Přesnou hodnotu derivace n-tého kepstrálního koeficientu v i-tém segmentu můžeme v diskrétním čase jen aproximovat: m j(c i+j [n] c i j [n]) j=1 δ i [n] = 2 m j 2, (2.11) j=1 kde m je šířka okna derivace. V řeči jsou ovšem obsaženy i úseky se spektrem konstantního charakteru. Po derivaci bychom mohli detekovat pouze začátky a konce slov. Proto po bloku derivace následuje kumulativní součet. Kumulativní součet má schopnost integrovat časový vývoj kepstrálního koeficientu. Navíc dochází i k vyhlazení posloupnosti derivací pro jednotlivé segmenty řečového signálu. Protože znaménko derivace může být i záporné, mohli bychom integrovat do záporna. Proto je kumulativní součet d i [n] derivace n-tého kepstrálního koeficientu pro i-tý segment doplněn o absolutní hodnotu: i d i [n] = δ k [n]. (2.12) k=1 Dostaneme tak časový vývoj kepstrální vzdálenosti vypočtené z n-tého kepstrálního koeficientu. Sečtením sekvencí pro jednotlivé kepstrální koeficienty nalezneme časový vývoj kepstrální vzdálenosti přes celé kepstrum: d i = i δ k [n]. (2.13) n k=1 Nyní je nutné odhadnout úroveň šumového pozadí. Na základě vybrané míry CD(x, y) zjistíme vzdálenost mezi odhadem šumu a d i i-tého segmentu. Z vypočtené vzdálenosti určíme prahovou hodnotu. Pokud ji kepstrální vzdálenost překročí, pak daný segment považujeme za segment s řečovou aktivitou. Prahovou hodnotu můžeme určit pomocí adaptivní nebo pevné rozhodovací úrovně. Prahovou hodnotu aktualizujeme jen v segmentu bez řečové aktivity. Pevný práh je možno použít

26 2.4. UMĚLÉ VYTVOŘENÍ SMĚSI 9 pouze pro zpracování off-line. V případě adaptivní rozhodovací úrovně existují dva způsoby: blokový odhad Velikost prahu se určí z N posledních segmentů bez řečové aktivity, přičemž vzorky mají stejnou váhu. průběžný odhad Každý vzorek má jinou váhu. V každém kroku jsou hodnoty násobeny konstantou zapomínání p. Nejnovější prvek má tedy největší váhu. Posledním krokem kepstrálního detektoru řečové aktivity je odstranění náhodných detekcí. Vyhlazení výsledků spočívá v přiřazení většinové hodnoty M po sobě jdoucích prvků jednomu prvku vyhlazené posloupnosti. Podrobný popis kepstrálního detektoru naleznete v [8] a [2]. 2.4 Umělé vytvoření směsi V mnoha aplikacích můžeme požadovat vytvoření směsi řečového signálu a šumu s požadovaným SNR podle kritéria SNR, SSNR nebo SSNRA ([3] a [4]). Například můžeme testovat robustnost rozpoznávačů řeči či systémů pro potlačování šumu. Přepíšeme-li vztah (2.1) : x[n] = s[n] + k n 0 [n], (2.14) kde k je reálná násobná konstanta, bude mít základní vztah pro výpočet SNR tvar: σ 2 s SNR = 10 log k 2 σn 2. (2.15) 0 Zbývá tak již jen postupně dosadit do vztahů (2.4), (2.6) a (2.7) za n 2 i [n], tj k n2 0,i [n], a vyjádřit násobné konstanty k. Násobná konstanta k pro SNR k = Násobná konstanta k pro SSNR k = 10 Násobná konstanta k pro SSNRA k = l 1 SNR n= l 1 SSNR 10 SSNRA n=0 s 2 [n] vad[n] n 2 0 [n] vad[n] (2.16) M 1 K 1 s 2 j [n] n=0 M 1 j=0 n 2 0,j [n] n=0 L 1 1 K i=0 VAD i M 1 n=0 M 1 n=0 1 K s 2 i [n] (2.17) n 2 0,i [n] (2.18)

27 10 KAPITOLA 2. OBECNÝ POPIS VÝPOČTU SNR 2.5 Odhady SNR s výkonovým odečítáním V praktických aplikacích měření SNR máme obvykle k dispozici jen směs řečového signálu a šumu. Výkony řeči i šumu je tak nutno odhadnout z jediného signálu ([3] a [4]). Budou-li řeč a šum nekorelované signály, pak pro výkon směsi platí: σ 2 x = σ 2 s + σ 2 n (2.19) a vztah pro výpočet SNR (2.5) lze přepsat: SNR = 10 log σ2 s σ 2 n = 10 log σ2 x σ n 2 σ n 2. 3 (2.20) Úloha je tak zjednodušena jen na nalezení odhadu výkonu šumu. Z principu je však obtížné rozlišit ve výkonové oblasti výkon řeči a výkon šumu z jediného signálu. Existují dva přístupy k nalezení odhadu šumu. První skupina využívá informace o řečové aktivitě. Výkon šumu získává průměrováním v řečových pauzách. Druhá skupina odhaduje výkon šumu sledováním minima krátkodobého výkonu Odhady lokálního, segmentálního a aritmetického SNR Aplikujeme-li vztah (2.20) na výpočet lokálního SNR, musíme odhadnout výkon šumu v aktuálním segmentu. Odhad výkonu šumu pomocí klouzavých průměrů V případě klouzavých průměrů průměrujeme N hodnot výkonů segmentů směsi signál-šum bez řečové aktivity. Pro splnění kauzality pracujeme se segmenty předcházejícími segment aktuální. Typická hodnota N je 10. σ 2 n,i = 1 N N 1 k=0 σ 2 x,i k (2.21) Odhad výkonu šumu exponenciálním zapomínáním V případě exponenciálního zapomínání je odhad výkonu šumu aktuálního segmentu bez řečové aktivity dán vztahem: σ n,i 2 = p σ n,i (1 p) σx,i, 2 (2.22) kde konstanta p je koeficient zapomínání, p = 0,9, σ 2 n,i 1 je odhad výkonu šumu předchozího segmentu bez řečové aktivity a σ 2 x,i je výkon směsi aktuálního segmentu. Porovnáme-li vlastnosti obou výše uvedených odhadů, pak u exponenciálního zapomínání musíme počítat s delším odezníváním velkých hodnot. Naopak je exponenciální zapomínání vhodnější pro implementaci díky nižším paměťovým nárokům. Pracuje jen s posledním odhadem a aktuální hodnotou. 3 Z definičního oboru funkce logaritmus plyne, že čitatel musí splňovat podmínku: σx 2 σ n 2 > 0.

28 2.5. ODHADY SNR S VÝKONOVÝM ODEČÍTÁNÍM 11 Odhad na bázi minima výkonu - Martinův algoritmus V případě Martinova algoritmu ([5]) nalezneme odhad výkonu šumu hledáním minima výkonu v segmentech přes daný časový interval L. Pro aktuální segment zvolíme časový interval, typicky 0,1-1 s. Konec tohoto intervalu navazuje na začátek aktuálního segmentu. Na obrázku 2.7 je znázorněna vzájemná poloha intervalu a aktuálního segmentu. Intervalu tak odpovídá L 0 segmentů, pro které Obrázek 2.7: Martinův algoritmus spočítáme výkony směsi σx,i 2 až σ2 x,i L Počet segmentů určíme ze vztahu: L 0 = L f s M, (2.23) kdef s je vzorkovací frekvence řečového signálu a M je délka okna ve vzorcích. Ve výkonech směsi σx,i 2 až σx,i L pak nalezneme minimum. Skutečný odhad výkonu šumu aktuálního segmentu ale leží nad uvedeným minimem, odhad se tak musí ještě váhovat empirickou konstantou c = 1,2. Odhad výkonu šumu je tedy dán: σ n,i 2 = c min(σx,i, 2 σx,i 1, 2..., σx,i L ) 2. (2.24) V případě Martinova algoritmu není třeba pro výpočet lokálního SNR detektor řečové aktivity, který může být výpočetně velmi náročný. Segmentální SNR pak spočítáme pouhou aplikací vztahu (2.6) na lokální SNR: SSNR = 1 K L 1 SNR i VAD i. (2.25) i=0 Aritmetické SNR pak vypočítáme podle vztahu (2.7), nahradíme-li výkon šumu i-tého segmentu σ 2 n jeho odhadem: SSNRA 1 = 10 log K L 1 M 1 n=0 M 1 i=0 n=0 s 2 i [n] VAD i n 2 i [n]. (2.26)

29 12 KAPITOLA 2. OBECNÝ POPIS VÝPOČTU SNR Odhad globálního SNR Principem tohoto algoritmu je odhad výkonu šumu z pauz v dané promluvě. Předpokládáme,že v řečových pauzách je výkon řeči nulový. Naopak odhad výkonu řeči počítáme pouze z řečových úseků. V tomto případě je ovšem přítomen i šum, musíme tedy odečíst odhad výkonu šumu. Algoritmus odhadu SNR pak vypočteme podle: Odhady σ 2 n a σ 2 s jsou pak dány: a σ 2 n = 1 l n SNR = 10 log σ2 s σ n 2. (2.27) l 1 n=0 σ s 2 = 1 l 1 l s n=0 x 2 [n] 1 vad[n] (2.28) x 2 [n] vad[n] σ 2 n, 4 (2.29) kde l s je celkové délka úseků signálu s řečovou aktivitou a l n délka úseků bez řečové aktivity ve vzorcích. 4 V případě odhadu globálního SNR používáme detektor řečové aktivity na úrovni vzorků signálu.

30 Kapitola 3 Implementace 3.1 Úvod Metody výpočtu a odhadu odstupu řečového signálu od šumu jsou implementovány v programu snr. Na základě požadavku zadání diplomové práce je program snr implementován v programovacím jazyce C, standardu ANSI C [11], [12] a [13]. Použití jazyka C je vzhledem k jednoduchým výpočtům i datovým strukturám plně dostačující. Nebylo proto nutné použít programovací jazyk C++. Zdrojový kód byl vytvořen v prostředí Linux Red Hat 9.0, pro překlad do spustitelného souboru byl použit překladač Gcc. Pro ověření kompatibility byl zdrojový kód překládán i pod operačním systémem Windows XP Proffesional. 3.2 Struktura a popis programu Pro výpočet SNR, generaci směsi a pro jednotlivé metody odhadu jsou vytvořeny samostatné funkce. Jsou volány funkcí main ze souboru snr.c. Seznam těchto funkcí je uveden v kapitole a jejich popis v kapitole Pro zvýšení přehlednosti zdrojového kódu je kód rozdělen do pěti samostatných souborů, které budou popsány v následujících kapitolách: snr.c Hlavní program. snr.h Hlavičkový soubor obsahující jednotlivé metody odhadu, help a energetický detektor řečové aktivity. dcdet.h Hlavičkový soubor s kepstrálním detektorem řečové aktivity. lpc.h Hlavičkový soubor obsahující funkce pro výpočet kepstrálních koeficientů pomocí autoregresních koeficientů. 13

31 14 KAPITOLA 3. IMPLEMENTACE window.h Hlavičkový soubor s definicemi tvaru jednotlivých oken pro segmentaci řečového signálu Soubor snr.c Součástí souboru snr.c je hlavní program main, který volá funkce z hlavičkových souborů z předcházející kapitoly. Dále obsahuje nastavení všech konstant použitých v programu snr: definice konstant pro energetický a kepstrální detektor a předdefinované hodnoty nepovinných parametrů a konstanty pro jednotlivé metody odhadu SNR. Hodnoty nepovinných parametrů Nepovinné parametry mohou být zadávány jako parametry při spuštění programu. Pokud zadány nebudou, použijí se přednastavené hodnoty. V případě opakovaného použití programu snr s jinými hodnotami těchto parametrů, lze hodnoty nepovinných parametrů změnit právě v souboru snr.c. Def Wlen=512 Předdefinovaná délka okna ve vzorcích. Délka okna je volena s ohledem na délku kvazistaconárního úseku řeči, viz kapitola a na vzorkovací kmitočet. Délka okna nemusí být nutně mocninou 2. Často je takto volena s ohledem na vazby na jiné algoritmy. Def Wstep=256 Předdefinovaný offset okna. Překryv dvou sousedních segmetů je v tomoto případě 50%. Velikost překryvu se řídí zvoleným typem okna, který používá kepstrální detektor řečové aktivity. Vhodné překryvy pro všechny typy oken jsou uvedeny v [1]. Délka segmentu a překryv také souvisí s časovým rozlišením. Při kratším segmentu nebo větším překryvu segmentů můžeme zaznamenat rychlejší dynamické změny zpracovávaného řečového signálu. To ovlivní především chování kepstrálního detektoru řečové aktivity. Zkrácení délky segmentu nebo překryvu ovšem způsobí nárůst prováděných operací na stejné délce zpracovávaných dat. Def N=10 Počet segmentů pro odhad výkonu šumu (vzorec (2.21)). Pro nižší hodnotu Def N bude odhad výkonu šumu σ 2 n,i více sledovat výkon směsi řečového signálu a šumu, pro vyšší hodnotu Def N pak budou rychleji potlačeny velké jednorázové hodnoty. Def L=0,5 Konstanta Def L je použita při odhadu SNR s použitím Martinova algoritmu (vzorec (2.23)). Určuje délku časového intervalu ve vteřinách pro hledání minima výkonu segmentů směsi řečového signálu a šumu.

32 3.2. STRUKTURA A POPIS PROGRAMU 15 Def c=1,2 Násobná konstanta pro odhad výkonu šumu pomocí Martinova algoritmu (vzorec (2.24)). Velikost konstanty Def c závisí na typu šumu přítomného ve směsi. Pro nestacinární šum je optimální volba Def c = 1, 2, v případě stacionárního šumu by bylo vhodnější Def c nastavit na hodnotu 1,8. Def fs=16000 Vzorkovací kmitočet řečového signálu a šumu (vzorec (2.23)). Při změně vzorkovacího kmitočtu je vhodné změnit i délku segmentu a offset podle kapitoly Nastavení kepstrálního detektoru Soubor snr.c dále obsahuje nastavení jednotlivých konstant kepstrálního detektoru. Tento odstavec stručně popisuje vliv jednotlivých konstant na výslednou detekci řečové aktivity, doporučené nastavení a vliv nepovinných parametrů z předcházejícího odstavce. Bližší popis naleznete v [8]. Inicializace=22 Konstanta Inicializace určuje, z kolika kepstrálních vzdáleností počítaných od začátku signálu se vypočte počáteční prahová hodnota. Použijeme-li větší počet kepstrálních vzdáleností, můžeme lépe odhadnout charakteristiky šumového pozadí. Předpokládáme, že v prvních zpracovávaných segmentech není přítomna řeč. Příliš vysoká hodnota ovšem znamená riziko přítomnosti řeči v inicializační části. Výsledná hodnota je tedy kompromisem a podle [8] je optimální hodnota 22. Při zvětšení hodnoty Inicializace se odhad šumového pozadí již příliš nezlepšuje. V případě zmenšení délky segmentu nebo kroku segmentace bez změny vzorkovacího kmitočtu lze hodnotu Inicializace zvětšit. z lambda 2=2 Konstanta z lambda 2 je používaná pro výpočet prahu, viz [8]. Zvýšení této hodnoty má za následek zvýšení prahové hodnoty. Důsledkem je zvýšení pravděpodobnosti, že detekovaná řeč je opravdu řečí. Naopak se zvýší počet segmentů mylně považovaných za segmenty bez řečové aktivity. Median=11 Median udává počet segmentů pro vyhlazení výsledků - odstranění náhodných detekcí. Pro vyšší hodnoty opravíme více chybových detekcí ovšem na úkor chybných oprav na začátcích a koncích slov, viz [8]. Nastavení tohoto parametru je tak dáno kompromisem. Změna tohoto parametru má smysl jen v případě změny délky segmentu nebo překryvu použitých oken při zachování vzorkovací frekvence.

33 16 KAPITOLA 3. IMPLEMENTACE Pocat Koef=0 Index počátečního kepstrálního koeficientu používaného v kepstrálním detektoru řečové aktivity. Bude-li P ocat Koef = 0 a cp Def = 16, použijí se koeficienty c[0] až c[16]. Použití koeficientu c[0] je pro detekci řečové aktivity podle [8] výhodné. typ prum Def=1 Volba typu průměrování kepstrálních koeficientů pro odhad prahové hodnoty (1-průběžný, 2-blokový odhad). q Def Pro blokový odhad je v této proměnné délka bloku pro blokový odhad prahové hodnoty (q Def = 50). Tato hodnota musí být dostatečně vysoká, aby potlačila náhodné fluktuace, ale zároveň musí sledovat její podstatné změny. Hodnoty menší než 30 jsou podle [8] nevyhovující. Naopak pro hodnoty větší než 50 narůstá chyba detekce řečové aktivity pro nízká SNR. Pro průběžný odhad obsahuje q Def konstantu exponenciálního zapomínání pro průběžný odhad prahové hodnoty.doporučená hodnota je (q Def = 0, 95). Pro větší odstupy řečového signálu od šumu lze konstantu zapomínání zmenšit, minimum chyby detekce nastává v případě čistého řečového signálu pro hodnotu q Def = 0, 91. Naopak pro q Def = 0, 99 zůstává práh téměř neměnný a detekce řečové aktivity je velmi chybová. m Def=5 Parametr derivace, vzorec (2.11). Nastavení tohoto parametru je kompromisem mezi dvěma protichůdnými požadavky. Zvětšením parametru m Def budeme lépe aproximovat derivaci kepstrálních koeficientů, na druhé straně ovšem zhoršíme časové rozlišení. Změna tohoto parametru má smysl jen v případě změny délky segmentu nebo překryvu použitých oken při zachování vzorkovací frekvence. p Def=16 Konstanta p Def určuje počet používaných AR koeficientů. Mělo by platit: p Def cp Def. V opačném případě bude kepstrum stejné jako pro případ p Def = cp Def. Na základě testů [8] je dostačující hodnota p Def = 16.

34 3.2. STRUKTURA A POPIS PROGRAMU 17 cp Def=16 Počet použitých kepstrálních koeficientů je dán konstantou cp Def. Počtem kepstrálních koeficientů volíme přesnost modelování spektra hlasového ústrojí. Větší počet kepstrálních koeficientů zachytí více detailů. Pokud bude počet kepstrálních koeficientů příliš velký, spektrum hlasového traktu bude parazitně zvlněno. Příliš nízký počet kepstrálních koeficientů nevystihne potřebné detaily. Optimální hodnota je podle [8] 16. p vaha Def=hamming Typ okna pro segmentaci. K dispozici jsou tyto volby: hamming, hanning, blackman, bartlett, triang a boxcar. Vhodnost volby typu okna již byla popsána v kapitole Nastavení energetického detektoru Koef=1,3 Empirická násobná konstanta pro určení prahu (vzorec (2.15) ). Alfa1=0,95 Konstanta pro aktualizaci odhadu střední hodnoty energie v segmentu bez řečové aktivity (vzorec (2.9) ). Alfa2=0,99 Konstanta pro aktualizaci odhadu střední hodnoty energie v segmentu s řečovou aktivitou (vzorec (2.8)). Tato konstanta je obvykle rovna 1. Odhad střední hodnoty energie se tak v segmentu s řečovou aktivitou neaktualizuje. Během testování energetického detektoru řečové aktivity bylo dosaženo lepších výsledků detekce při aktualizaci prahu i v úseku s řečovou aktivitou. Aktualizace však musí být v tomto případě velmi pomalá. V druhé části souboru snr.c je implementována funkce testovani. Byla vytvořena pro testování funkce detektorů řečové aktivity. V hlavním programu main je zakomentována. V případě rozšíření programu o další metodu detekce řečové aktivity by mohla sloužit k testování funkčnosti nového způsobu detekce. Funkce testovani načte segment dat ze souboru s čistou řečí. V případě, že tento soubor není k dispozici, použije se soubor se směsí řečového signálu a šumu. Načtený segment dat poté předá funkci detector 1. Tato funkce vrací informaci o řečové aktivitě pro zadaný segment dat. Informace o řečové aktivitě je poté uložena do výstupního souboru. Jeho jméno je odvozeno od jména souboru se směsí řeči a šumu. Přípona výstupního souboru je změněna na *.det. V případě, že tento soubor již v daném adresáři existuje, bude přípona.det snr. Například bude-li jméno souboru se směsí smes.bin, výstup funkce test se uloží do souboru smes.det či smes.det snr. 1 Funkce detector bude podrobně popsána v kapitole 3.2.4

35 18 KAPITOLA 3. IMPLEMENTACE V poslední části souboru snr.c je hlavní program main. Je to funkce, která se po spuštění programu snr zavolá jako první. Tato funkce postupně volá funkce ze souboru snr.h: get param Načtení parametrů z přikazové řádky a kontrola správnosti parametrů. open files Přiřazení jmen vstupních souborů a jejich otevření. compute m Generace směsi podle zvoleného typu SNR. compute with reference Výpočet odstupu signál šum podle zvoleného typu SNR. compute est1 compute est2 compute estm compute est SNR Odhad odstupu signál-šum s použitím odhadu výkonu šumového pozadí exponenciálním zapomínáním. Odhad odstupu signál-šum s použitím odhadu výkonu šumového pozadí klouzavým průměrováním. Odhad odstupu signál-šum s použitím Martinova algoritmu pro odhad výkonu šumového pozadí. Odhad odstupu signál-šum pro Globální SNR. close files Funkce uzavře všechny použité soubory. Dále soubor snr.c obsahuje definice globálních proměnných - ukazatele na soubory, pole pro uložení názvů těchto souborů, definice vlastních datových typů a vložení standartních hlavičkových souborů Soubor dcdet.h Implementace kepstrálního detektoru je převzatá z diplomové práce Tomáše Jelínka [8]. Pro použití v programu snr musely být provedeny drobné úpravy. Z výsledků testování v [8] vyplývá, že nejlepší výsledky detekce řečové aktivity pro zašuměný signál bylo dosaženo v případě výpočtu kepstrálních koeficientů z koeficientů autoregresních. Proto výpočet kepstrálních koeficientů pomocí diskrétní Fourierovy transformace není použit. Proměnné pro uložení kepstra signálu jsou jen reálné. 2 Další větší změnou bylo definování ukazatelů na fronty kepstra, derivace kepstra a kepstrální vzdálenosti jako globální proměnné. Tyto ukazetele je nutné uchovávat pro výpočet všech segmentů. V programu snr je původní funkce main z [8] jen funkcí dcdet. Funkce dcdet je opakovaně volaná pro každý segment zpracovávaného řečového signálu. Pro implementaci byl použit jen adaptivní práh, pevný práh by mohl být předmětem rozšíření programu, viz kapitola Výsledek Fourierovy transformace je samozřejmě komplexní.

36 3.2. STRUKTURA A POPIS PROGRAMU Soubor lpc.h Hlavičkový soubor lpc.h obsahuje funkce pro výpočet kepstrálních koeficientů rekurzivním přepočtem z autoregresních koeficientů signálu. Hlavní funkce v tomto souboru je lpc. Pro výpočet AR koeficientů z Yuleovy-Walkerovy rovnice je použit Levinsonův-Durbinův algoritmus. Tvar algoritmu je shodný s funkcí levinson.m v Matlabu. Prvním krokem je výpočet autokorelačních koeficientů ze vzorků segmentu řečového signálu. To zajistí funkce korelace. Z autokorelačních koeficientů jsou pak vypočteny Levinsonovým-Durbinovým algoritmem AR koeficienty. Kepstrální koeficient c[0] se vypočte z výkonu chyby predikce [1] funkcí vykon chyby. Pro přepočet dalších AR koeficientů na kepstrální je použit algoritmus, uvedený opět v [1] Soubor snr.h Soubor snr.h je hlavičkový soubor obsahující help, funkce pro výpočet a odhady SNR a energetický detektor řečové aktivity. V této kapitole bych chtěl stručně popsat implementaci jednotlivých funkcí. get param Tato funkce postupně načítá jednotlivé parametry zadané z příkazového řádku a porovnává je s možnými parametry programu. V případě, že je některý ze zadaných parametrů nesmyslný, vypíše chybové hlášení na standartní výstup a celý program ukončí. V případě načítání číselné hodnoty je využívána funkce test, která zjištuje, zda je zadaný řetězec celé či desetinné číslo. V případě zadání chybného tvaru čísla se opět vypíše chybové hlášení. Po načtení všech parametrů zadaných z příkazové řádky probíhá další kontrola. Analyzuje se, zda zadaná posloupnost parametrů má smysl a zda není použit některý z parametrů, který v dané volbě nelze použít. V případě, že nebyl zadán typ SNR, je implicitní volba -SSNR. open files Po načtení parametrů z příkazového řádku se zavolá funkce open files. Otevře příslušné soubory pro čtení či zápis. Kontrolou zadání parametrů funkcí get param je zaručeno, že byla zadána všechna požadovaná jména souborů. V případě, že soubor zadaného jména nelze otevřít, program skončí chybovým hlášením na standartní chybový výstup. Volání dalších funkcí je podmíněno parametry zadanými z příkazové řádky. Podle požadované volby se zavolá jedna z následujících funkcí: compute m Tato funkce se volá v případě požadavku na generaci směsi řečového signálu a šumu. Nejprve je nutno vypočíst výkony čistého řečového signálu a čistého šumu. V případě volby typu odstupu řečového signálu a šumu podle -SSNR nebo -SSNRA se spočte energie každého segmentu pomocí funkce sumq. Segment řeči se načte z vnějšího souboru funkcí cti data a uloží do fronty dat pomocí funkce uloz fronta. Délka fronty závisí na zpoždění detektoru řečové aktivity. Délka fronty a tedy i zpoždění pro ideální a energetický detektor je 1. V prípadě kepstrálního detektoru závisí zpoždění na jeho nastavení podle vzorce: t = m + (Median 1)/2, (3.1) kde m je parametr derivace ze vzorce (2.11) a Median je počet segmentů pro odstranění náhodných detekcí. Například pro m = 3 je δ 4 [n] možno spočítat až po zpracování sedmého

37 20 KAPITOLA 3. IMPLEMENTACE segmentu dat. Pro δ 1 [n] až δ 3 [n] je m nutno zmenšit, nejsou k dispozici kepstrální koeficienty pro záporné j. Pro Median = 5 musí být k dispozici informace o detekci pro dva předcházející a dva následující segmenty, viz [8]. Pro případ volby generace směsi podle SSNR se podle vzorce (2.6) akumuluje součin podílů energií 3 (proměnná sum SSNR) segmentů řeči a příslušných segmentů šumu. Podíl energií může být menší než 1, můžeme tak opakovaně násobit číslem menším než 1. Po několika násobeních by u proměnné sum SSNR nastalo podtečení. Tomu je zabráněno korekcí násobením 1000, pokud bude hodnota menší než 0,001. Vliv této korekce je nutné zahrnout do výpočtu násobné konstanty k ze vzorce (2.9). Přetečení v tomto případě není možné. Data, načtená se souboru se normují maximální hodnotou proměnné typu integer při zavolání funkce cti data. V případě volby -SSNRA se podíly energií segmentů řeči a šumu sčítají a podtečení nenastane. Pro případ volby -SNR se energie řeči i šumu vypočte jako součet kvadrátů vzorků signálu váhovaných informací o řečové aktivitě (vzorec (2.4)). Po výpočtu výkonů signálu a šumu podle vybraného typu SNR lze již snadno určit násobnou konstantu k podle vzorců (2.16), (2.17) a (2.18). Vzorek směsi řečového signálu a šumu s požadovaným SNR pak vypočteme jakou součet vzorku řeči a vzorku šumu vynásobeného konstantou k (vzorec (2.14)). compute with reference V případě výpočtu SNR s referencí máme k dispozici soubor s čistým řečovým signálem a soubor se směsí. Struktura této funkce je velmi podobná funkci compute m. Pro volbu -SSNR a -SSNRA je třeba podle (2.6) nebo (2.7) určit podíly výkonů čistého řečového signálu a čistého šumu pro všechny segmenty. Výkon segmentu šumu ale nemůžeme určit přímo, máme k dispozici jen směs řeči a šumu. Využijeme-li předpoklad nekorelovanosti těchto signálů, můžeme energii segmentu šumu vypočíst jako rozdíl energií příslušného segmentu směsi a energie segmentu čistého řečového signálu. Při výpočtu SNR směsi můžeme využít i volbu -LSNR, tedy výpočet lokálního SNR. Výsledek LSNR je pro každý segment ukládán do výstupního souboru. V případě výpočtu LSNR pro segment bez řečové aktivity je vypočtená hodnota nahrazena -40 db, viz kapitola Při volbě -SNR pak podle (2.4) pracujeme na úrovni vzorků signálu a energii vzorku šumu získáme jako kvadrát rozdílu vzorků směsi a čistého řečového signálu. compute est1 Funkce compute est1 je založena na odhadu výkonu šumového pozadí pomocí exponenciálního zapomínání. Je tedy k dispozici jen soubor se směsí řečového signálu a šumu. Tato metoda je určena jen pro odhad SNR podle SSNR, SSNRA a LSNR. Segment směsi je načten a uložen do fronty. Ke každému segmentu je získána informace o řečové aktivitě a spočítána energie segmentu. Poté následuje odhad výkonu šumu exponenciálním zapomínáním (2.22). Odhad výkonu čistého řečového signálu pak získáme jako rozdíl výkonu směsi a odhadu výkonu šumu. compute est2 Funkce compute est2 se liší od funkce compute est1 jen v jiném způsobu odhadu výkonu šumu. V tomto případě pomocí klouzavých průměrů (2.21). Z hlediska implementace 3 Výkon a energie se liší pouze konstantou 1, v případě podílu výkonu je podíl energií ekvivalentní. N

38 3.2. STRUKTURA A POPIS PROGRAMU 21 na jednočipových mikroprocesorech by tato funkce nebyla výhodná. Je náročnější na velikost paměti. compute estm Tato funkce využívá pro výpočet odhadu výkonu šumu Martinova algoritmu, popsaného v kapitole Detektor řečové aktivity není třeba pro výpočet odhadu LSNR. Pro odhad SSNR i SSNRA je již detektor řeči nutný. compute est SNR Pro odhad odstupu řečový signál-šum podle SNR je určená funkce compute est SNR. V tomto případě se k signálu se směsí přistupuje po vzorcích. Vliv výkonu řečového signálu se do odhadu SNR připočítá jen pro vzorek s řečovou aktivitou. V tomto vzorku je ovšem přítomen i šum. Počítáme tak vlastně výkon směsi a odhad výkonu čistého řečového signálu získáme podle vzorce (2.28). Výkon šumu se do odhadu SNR započítá jen pro vzorek bez řečové aktivity. Je zřejmé, že při výpočtu odhadu SNR je nutné mít k dispozici detekci řečové aktivity na úrovni vzorků signálu (vad[n]). Pokud máme k dispozici jen detekci na úrovni segmentů, musíme detekci nejprve přepočítat na vzorky signálu. Přepočet provádí funkce compute est SNR automaticky. Pro přepočet detekce řečové aktivity na úroveň vzorků můžeme použít i program, uvedený v příloze B. Po provedení jedné z výše uvedených funkcí je nutno uzavřít používané soubory pomocí funkce close files. Všechny dosud popsané funkce jsou volány přímo z hlavní funkce main. Hlavičkový soubor snr.h dále obsahuje funkce pro výpočet detekce řečové aktivity. edet Funkce edet představuje implementaci energetického detektoru řečové aktivity podle kapitoly Nedílnou součástí této funkce jsou i globální proměnné: mie, Ex, prah a cnt. Funkce edet se volá opakovaně pro každý segment řečového signálu. Při prvním volání funkce edet se tyto proměnné nainicializují. Při dalších voláních se pak využívá obsah proměnných z předcházejícího volání. Je li v aktuálním segmentu detekovaná řeč, vrátí funkce hodnotu 1, v opačném případě 0. Inicializace odhadu střední hodnoty energie µ E [i] se provede při prvním zavolání funkce edet. Předpokládá se, že v prvním segmentu není přítomna řeč a µ E [i] je nastaven na hodnotu E x [i]. detector Při použití libovolného typu detektoru řečové aktivity se volá funkce detector. Tato funkce pak podle parametrů z příkazové řádky rozliší, který typ detektoru se má použít. Edet vrací jeden ze čtyř možných výstupů: 0, 1, -1 a -2. V případě použití ideálního detektoru načte jeden znak z externího textového souboru s řečovou aktivitou. Je-li tento znak 1 či 0, je tato hodnota vrácena jako výstup. V případě načtení znaku EOF (End of file) funkce vrátí hodnotu -1. V případě načtení jiného znaku se celý cyklus opakuje. Pří použítí energetického detektoru funkce vrací výstupní hodnotu funkce edet. Posledním typem implementovaného detektoru řečové aktivity je kepstrální detektor. Jeho výstup nabývá třech možných hodnot: 0, 1 a -2. Hodnota 0 a 1 má stejný význam jako u výše uvedených detektorů. Hodnotu -2 nabývá výstup detektoru v inicializační části,

39 22 KAPITOLA 3. IMPLEMENTACE v případě, že pro daný segment nelze určit výstup. Pak je nutné opakovaně volat funkci detector s dalším segmentem dat. Informace o řečové aktivitě je pak k dispozici se zpožděním, které je dáno nastavením kepstrálního detektoru. Toto zpoždění kompenzuji frontou segmentů dat řečového signálu, vytvořenou funkcí uloz fronta Soubor window.h Hlavičkový soubor window.h obsahuje definice váhovacích oken pro segmentaci řečového signálu. K dispozici jsou tyto typy oken: Hammingovo, Hanningovo, Blackmanovo, Bartlettovo, trojúhelníkové (Triang) a pravoúhlé (Boxcar). Bližší popis těchto oken naleznete v [1] a [7]. Pro kepstrální detektor řečové aktivity je implicitní volba haminng. Pro výpočet a odhady se používá pravoúhlé okno. Jiný typ okna ovlivňuje vypočtenou hodnotu odstupu signál-šum. 3.3 Možnosti rozšíření Odhady odstupu signál-šum uvedené v kapitole nejsou jediným možným způsobem výpočtu. Také pro detekci řečové aktivity existuje více možných způsobů, například sledování počtu průchodů nulou, periodicita či entropie. V této kapitole bych chtěl uvést možnosti rozšíření mého programu. V případě implementace jiného detektoru řečové aktivity by mělo být prvním krokem vytvoření samostatného spustitelného souboru. Informace o řečové aktivitě by bylo vhodné ukládat do textového souboru a tento soubor pak použít jako ideální detektor řečové aktivity ve stávajícím programu snr. Po ověření funkčnosti nového způsobu detekce je vhodné umístit tento detektor do samostatného hlavičkového souboru. Hlavní funkce nového detektoru bude volána pro každý segment zpracovávaného řečového signálu pomocí funkce detector. Pokud bude nutné uschovávat některé proměnné pro zpracování následujícího segmentu dat, měly by být definovány jako globální. V případě, že bude detektor pracovat se zpožděním stejně jako detektor kepstrální, měl by v inicializační fázi vracet hodnotu -2. V tomto případě stávající program automaticky zavolá funkci detector ještě jednou s dalším segmentem dat a nezpracovaný segment uloží do fronty. Po načtení všech segmentů zpracovávaného signálu bude při volání funkce detector nastavena hodnota proměnné end na 1. Pro výpočet SNR se pak použijí segmenty dat ve frontě a po detektoru bude požadována informace o řečové aktivitě pro tyto segmenty. Aby program dokázal rozlišit, zda se má použít nový způsob detekce řečové aktivity, musí se doplnit funkce get param o další parametr zadávaný z příkazové řádky. Tento parametr je pak nutno předávat všem funkcím použitým v hlavním programu main i funkci detector. Pro testování funkčnosti nového typu detekce řečové aktivity je možné použít funkci testovani, popsané v kapitole Pro případ implementace nového způsobu odhadu odstupu signál-šum, by mělo být volání nové funkce umístěno přímo do funkce main. Samotná funkce pro výpočet odhadu pak do souboru snr.h nebo do samostatného hlavičkového souboru. V tomto místě bych chtěl zmínit již implementované funkce, které jsem dosud nepopisoval a které by bylo možno využít:

Zobrazit více