Wavelet transformace v metodách zvýrazňování řeči

Podobné dokumenty
Waveletová transformace a její použití při zpracování signálů

Zvýrazňování řeči pomocí vícekanálového zpracování

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

ADA Semestrální práce. Harmonické modelování signálů

Komprese dat s použitím wavelet transformace

Analýza signálů technikou Waveletů

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

WAVELET TRANSFORMACE V POTLAČOVÁNÍ

Integrální transformace obrazu

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

APLIKACE DWT PRO POTLAČENÍ ŠUMU V OBRAZE

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

Signál v čase a jeho spektrum

Kompresní metody první generace

NOVÉ METODY HODNOCENÍ OBRAZOVÉ KVALITY

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

U Úvod do modelování a simulace systémů

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

1 0 0 u 22 u 23 l 31. l u11

Simulace zpracování optické obrazové informace v Matlabu. Petr Páta, Miloš Klíma, Jaromír Schindler

Stavební fakulta Katedra mechaniky. Jaroslav Kruis, Petr Štemberk

Analýza a zpracování digitálního obrazu

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

Analýza a zpracování signálů

VYUŽITÍ VÝPOČETNÍHO SYSTÉMU MATLAB PŘI NEDESTRUKTIVNÍ KONTROLE STAVEBNÍCH MATERIÁLŮ A DÍLCŮ ROZBOREM AKUSTICKÉ ODEZVY GENEROVANÉ MECHANICKÝM IMPULSEM

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Číslicové zpracování signálů a Fourierova analýza.

A/D převodníky - parametry

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM

13 Barvy a úpravy rastrového

ANALÝZA AKUSTICKÝCH PARAMETRŮ ZVONU Z KOSTELA SV. TOMÁŠE V BRNĚ. Smutný Jaroslav, Pazdera Luboš Vysoké učení technické v Brně, fakulta stavební

Katedra aplikované matematiky FEI VŠB Technická univerzita Ostrava

Úvod do zpracování signálů

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

VYUŽITÍ MATLABU K POTLAČOVÁNÍ ADITIVNÍHO ŠUMU POMOCÍ FILTRACE A POMOCÍ VLNKOVÉ TRANSFORMACE. Gabriela Eisensteinová, Miloš Sedláček

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

1. Úvod Jednou z! "# $ posledn % & $$' ( )(( (*+ % ( (* $ $%, (* ( (* obvodech pro elektronickou regulaci.*' (( $ /

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

VYUŽITÍ WAVELETŮ PŘI ANALÝZE ČASOVÝCH ŘAD 2. PRAKTICKÁ ČÁST

Spektrální analyzátory

Náhodné signály. Honza Černocký, ÚPGM

Komplexní obálka pásmového signálu

1. Základy teorie přenosu informací

Numerické metody a programování

31SCS Speciální číslicové systémy Antialiasing

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

P7: Základy zpracování signálu

Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

Návod na cvičení VoIP Hodnocení kvality řeči neintrusivní metodou

Petr Bílovský. Katedra elektrických měření, FEI, VŠB Technická univerzita Ostrava 17. listopadu 15, , Ostrava-Poruba

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Zpracování obrazů. Honza Černocký, ÚPGM

ROZ II cv. 01 Dekonvoluce KM - FJFI - ČVUT

Omezení barevného prostoru

Globální matice konstrukce

aneb jiný úhel pohledu na prvák

SVD rozklad a pseudoinverse

Laboratorní úloha č. 8: Elektroencefalogram

Jasové transformace. Karel Horák. Rozvrh přednášky:

Základní metody číslicového zpracování signálu a obrazu část II.

Základní komunikační řetězec

Klasifikace a rozpoznávání. Extrakce příznaků

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Uspořádanou n-tici reálných čísel nazveme aritmetický vektor (vektor), ā = (a 1, a 2,..., a n ). Čísla a 1, a 2,..., a n se nazývají složky vektoru

ROZ II cv. 01 Dekonvoluce KM - FJFI - ČVUT

Základy navrhování průmyslových experimentů DOE

Geometrické transformace

Odhad stavu matematického modelu křižovatek

Numerické metody a programování. Lekce 4

12 Metody snižování barevného prostoru

1 Základní funkce pro zpracování obrazových dat

Biofyzikální ústav LF MU Brno. jarní semestr 2011

Singulární rozklad. Petr Tichý. 31. října 2013

1. Přednáška: Obecné Inf. + Signály a jejich reprezentace

1 Zpracování a analýza tlakové vlny

Numerické řešení proudění stupněm experimentální vzduchové turbíny a budících sil na lopatky

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

Fouriérova transformace, konvoluce, dekonvoluce, Fouriérovské integrály

2. Schurova věta. Petr Tichý. 3. října 2012

2.6. VLASTNÍ ČÍSLA A VEKTORY MATIC

Podobnostní transformace

MODERNÍ SMĚROVÉ ZPŮSOBY REPREZENTACE OBRAZŮ

Kapitola 9: Návrh vstupního zesilovače

SIMULACE JEDNOFÁZOVÉHO MATICOVÉHO MĚNIČE

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Transkript:

Wavelet transformace v metodách zvýrazňování řeči Petr Opršal 1 1 Katedra elektrických měření, FEI, VŠB Technická Univerzita Ostrava, 17. listopadu 15, 708 33, Ostrava-Poruba oprsal@tiscali.cz Abstrakt. Wavelet transformace je moderní nástroj analýzy signálů. Nachází po boku Fourierovy transformace stále více uplatnění v metodách analýzy a zpracování nestacionárních signálů. Tento příspěvek se věnuje popisu použití Wavelet transformace pro redukci šumu v zašuměném signálu. Dále shrnuje potřebné znalosti pro praktickou aplikaci této transformace v systémech zvýrazňování řeči. Klíčová slova: Zvýrazňování řeči, wavelet transformace 1 Úvod Mluvená řeč je základním prostředkem komunikace člověka s okolím. S otázkou efektivního kódování řeči v hlučném prostředí a také spolehlivého rozpoznání řečového signálu, vznikla potřeba zvýraznění řeči s potlačením hluků a šumů pozadí. Moderním prostředkem pro analýzu řečového signálu je wavelet transformace (dále WT). Při aplikaci krátkodobé Fourierovy transformace (dále STFT) na signál je možné frekvenci v čase stanovit pouze s přesností danou délkou časového okna. WT však poskytuje přesnou časovou informaci o změnách a nespojitostech signálu v různých rozlišovacích úrovních v závislosti na frekvenci. Pro analýzu signálů používá jiné než harmonické funkce. Při praktické aplikaci WT na řečový signál, se narazí na několik problémů, spojených s přípravou signálu a s vyhodnocením výsledku. 2 Diskrétní wavelet transformace Pro analýzu s použitím výpočetní techniky je výhodné použít zjednodušené formy WT, označované jako diskrétní wavelet transformace. Používá se Mallatův pyramidový algoritmus výpočtu pomocí multirozkladu nebo paketového rozkladu [11], obr. 1., a dyadické dělení s ortonormální wavelet bází. Při výpočtu transformace je posouván vektor vstupního signálu oproti jádru transformace o dva prvky. Ve výsledku dochází k dvojnásobné kompresi a zároveň k dělení měřítka dvěma. Tento princip je známý také jako rychlá WT. Podmínkou je, aby délka vstupního vektoru byla N = 2 x prvků, kde x je celé číslo. Pro každou hladinu m wavelet transformace se provede rozklad podle rovnice (1).

Y Dm+1 = y m+1 = M y d m (1) m+1 Kde Y Dm+1 je výledný sloupcový vektor WT (m+1) té hladiny rozkladu, obsahující komprimovaný signál y m+1 a ortogonální doplněk d m+1. y m+1 je sloupcový vektor vstupního signálu (m+1) té hladiny komprimace. Vektor y m pro m=0 představuje vektor vstupního signálu x{n} T. d m+1 je sloupcový vektor ortogonálních doplňků, který mi vyjadřuje jemnosti na m+1 hladině. M je čtvercová matice vytvořená z scale a wavelet filtračních koeficientů o rozměrech N x N. Matice je normovaná pro zjednodušení výpočtu inversní transformace. m=0,1,2,... vyjadřuje hladinu rozkladu. Obr. 1. Tvorba pyramidální struktury wavelet transformace, a rozdíl mezi a) paketovým rozkladem a b) multirozkladem. Rozklad podle vzorce (1) se provádí postupně na jednotlivých hladinách v pyramidové struktuře. Počet hladin je určen podle požadovaného rozlišení frekvence až do maximální hladiny, vypočtené podle Shannonovy míry neurčitosti [3,11]. S doplňky je možné pracovat dále jako se signálem. Tím vytvořím rovnoměrnou síť z hlediska frekvence. Rozklad lze tedy chápat jako aplikaci filtrů. 2.1 Vytvoření báze WT Matice báze wavelet transformace M je ortogonální a je tvořena maticí scale filtračních koeficientů H a maticí wavelet filtračních koeficientů G. Má několik nenulových prvků s následující pravidelnou strukturou (2), zde uvedenou pro N=4 filtračních koeficientů. Naprosto identicky se tvoří pro jiný počet koeficientů N. Řád matice je totožný s počtem prvků vektoru vstupního signálu y m. Z vyobrazení matice M je zřejmé, že počítačová realizace FWT je nenáročná na využití procesoru, i na obsazení paměti. M = H 0 0 h 0 h 1 : : : : h0 h1 h2 h3 G = h 2 h 3 0 0 g 0 g 1 g 2 g 3 0 0 g 0 g 1 : : : : : : :... h 0 h 1 g 2 g 3 0 0 : : : g 0 g 1 (2)

Samotná tvorba diskrétní ortogonální báze pro FWT není jednoduchá. Základem je definice a získání scale (měřítkové) funkce φ(t) [3,6,11]. Scale filtrační koeficienty se pak dostanou multirozkladem z rovnice (3) na konkrétní hladině m. φ m,n (t) = 2 m 2 φ ( 2 m t - n ) h 0 = φ m,0, h n = φ m,n (3) Scale filtrační koeficienty tedy představují funkci měřítka. Pomocí nich se tvoří komprimovaný signál a určují celkový trand vstupních dat. V matici H se s výhodou používají ortonormální scale koeficienty I. Daubechies s 2N nenulovými prvky, označované db2n. Jsou publikované pro 2,4, až 20 nenulových hodnot. Symbolem db1 se označuje Haarova báze, která má 2 koeficienty, db2 značí Daubechies bázi se 4 koeficienty, atd. Daubechies wavelety nejsou symetrické [6]. Pomocí wavelet filtračních koeficientů g k (nejsou totožné s wavelet funkcí), se tvoří ortogonální doplněk ke komprimovanému signálu, který obsahuje jemnosti na jednotlivých hladinách. Wavelet filtrační koeficienty se tvoří lineární kombinací scale filtračních koeficientů. Například g k = (- 1) k h N-1-k. 2.2 Zpětná wavelet transformace Rekonstrukci signálu z doplňků lze provést zpětnou wavelet transformací (IWT), rovnice (4), nebo také interpolací se zanedbáním některých doplňků. y m-1 = M T ( y m, d m ) (4) Výpočet musí být vykonán ve všech hladinách v pořadí opačném dle platné pyramidální struktury, obr.1. 2.3 Úpravy doplňků Doplňky, vzniklé po aplikaci WT na konkrétní hladině, nabývají kladných i záporných hodnot. Jejich vhodnou modifikací se získá na výstupu IWT, obr. 2., zvýrazněný řečový signál s redukovaným šumem. Pro jednotlivé koeficienty doplňku platí rovnice y = s + n. Kde y vyjadřuje zašuměný signál, s čistý signál a n šum [1,9,10]. Koeficienty se nejčastěji upravují prahováním podle rovnice (5). y prah = z, y > p 0, y < p (5) Kde y prah vyjadřuje koeficeint doplňku zašuměného signálu po aplikaci prahování. Při vhodně zvoleném prahu p může být tato hodnota rovna odhadu čistého signálu

y prah = s odh. Pro tvrdé prahování se používá z = y. Pro měkké prahování se stanovuje například z = sign(y)( y - p). Samotná hodnota prahu p může být navržena rovnicí (6). p = σ 2 log(n) (6) Kde N je počet vzorků doplňku y m. Prahování se aplikuje pro jednotlivé doplňky s různými σ, podle typu nežádoucího šumu v signálu. U bílého šumu je pro všechny doplňky konstantní. Pro nepravidelně se měnící úroveň šumu se musí použít některý z adaptabilních algoritmů. 3 Aplikace WT pro metody zvýrazňování řeči WT se v zpracování signálů často používá jako prostředek k filtraci nebo kompresi. Pro potřebu zvýraznění řeči se WT aplikuje pro rozklad do konkrétní hladiny, vhodné pro úpravy doplňků. Ty po výpočtu IWT poskytnou zvýrazněný řečový signál. Na obr. 2. je zobrazeno blokové schéma systému. Obr. 2. Blokové schéma postupu výpočtů s použitím WT pro metody zvýraznění řeči. Řečový signál je často snímán jedním mikrofonem. Při snímání dvěma a více mikrofony mohu využít vzájemných vazeb a prostorové informace [7]. Pro definování délky vstupního vektoru y 0 je potřeba kvalitních detektorů řečové aktivity k určení začátku a konce promluvy. Ty slouží také k definování řečové pauzy pro odečtení hladiny samotného šumu. Problematika detektorů řečové aktivity je velmi rozsáhlá [např.13], mnohdy na jeho kvalitě závisí úspěch konkrétní metody. U konkrétní aplikace WT dále vyvstanou tyto otázky: 3.1 Promluva v reálném čase Při aplikaci WT na krátký řečový povel, se na vstupu systému, obr. 2, počítá pouze s jediným vektorem y 0. Při delší promluvě v reálném čase je potřeba signál rozdělit do krátkých časových úseků y 0,t. Je výhodné použít metodu sčítání přesahů, která byla navržena pro rozdělení signálu na okna konstantní délky pro aplikaci STFT. Po úpravě spektra a zpětné transformaci se signál zpětně rekonstruuje [12]. Při použití této metody pro WT lze úseky řeči rozčlenit do časových rámců v trvání jednotek vteřin, buď konstantních, nebo v závislosti na řečových pauzách.

3.2 Metody zvýrazňování řeči Jedna z nejstarších a nejjednodušších metod zvýrazňování řeči a redukce šumů se nazývá spektrální odečítání [např.12]. Z hodnoty spektrální hustoty zašuměného signálu je odečten odhad spektra šumu. Je vhodná pro stacionární šumy nekorelované s řečovým signálem, kdy se odhad spektrální hustoty šumu získá v řečových pauzách. Tato metoda upravená pro WT využívá měkkého prahování. WT v porovnání s STFT dosahuje v této metodě nižší úroveň residuálních šumů. Šum v řečovém signálu často mění své parametry. Proto je potřebné měřit šum nejenom v době řečové pauzy. Jedna z metod je založena na pořizování statistiky výkonu šumového pozadí a jejím odečítání od zašuměného řečového signálu [5]. Pro adaptivní filtraci šumu během řeči se používají dvě skupiny algoritmů. První je založena na teorii Wienerovy fitrace [2] a druhá na teorii Kalmanovy filtrace. Jejich společnou vlastností jsou průběžné změny parametrů systému podle změn vstupu i výstupu [4]. Všeobecně nevýhodou všech těchto metod na bázi STFT je vysoká hladina residuálních šumů ve výsledku. Aplikací WT se míra těchto šumů sníží. 3.3 Hodnotící kritéria zvýraznění řeči Úspěšnost zvýraznění řečového signálu se popisuje hodnotícími kritérii. Standardní objektivní kritérium pro vyjádření úrovně šumu v signálu je SNR, které ovšem není optimální pro nestacionární řečový signál [8]. Důležitým objektivním kritériem systému, obr.4, je zlepšení SNR, rovnice (7). SNRE = SNR out - SNR in = 10 log P Y - P S P Ŷ - P S (7) Kde P Y vyjadřuje výkon vstupního signálu, P Ŷ výkon výstupního signálu, za předpokladu, že výkon čisté řeči P S není průchodem systémem zkreslen. Za subjektivní hodnocení se považují poslechové testy skupiny posluchačů. Zde universální kritéria neexistují. Řeč je možno posuzovat z několika pohledů (např. srozumitelnost, přirozenost,..). 4 Závěry Prvním úkolem článku byla praktická realizace diskrétní WT pro potřeby zvýraznění řeči. Druhým úkolem bylo podání stručného přehledu o problematice, týkající se aplikace WT do systémů zvýrazňování řeči a kritéria vyhodnocení jejich úspěšnosti.

Reference 1. Bahoura M., Rouat J. A new approach for wavelet speech enhancement. Eurospeech 2001. Aalborg, 2001. 2. Cohen I. Enhancement of speech using Bark-Scaled wavelet packet decomposition. Eurospeech 2001. Aalborg, 2001. 3. Častová N. Integrální transformace. Syllaby pro doktorandské studium, VŠB-TU Ostrava, 2002. 4. Malenovský V. Adaptivní filtrace zašuměných řečových signálů. Elektrorevue. 2002. http://www.elektrorevue.cz/clanky/02063/. 5. Martin R. Spectral substraction based on minimum statistics. EUSPICO-94. Edinburgh, 1994. 6. Missiti M., Missiti Y., Oppenhheim G., Poggi J.M. Wavelet Toolbox for use with Matlab. User s Guide, The MathWorks, 1996. 7. Hung P.Q. Sovka P. Vícevstupové metody redukce šumů v řeči. Akustické listy 8(3)-2002. ČsAS. 8. Pollák P. Metody odhadu odstupu signálu od šumu v řečovém signálu. Akustické listy 7(3)-2001. ČsAS. 9. Seok J.W., Bae K.S. Speech Enhancement with reduction of noise components in the wavelet domain. IEEE Signal processing. Albuquerque, 1997. 10. Sheikhzadeh H., Abutalebi H.R. An improved wavelet-based speech enhancement system. Eurospeech 2001. Aalborg, 2001. 11. Smutný J. Transformace wavelet a její využití při zpracování signálů, Automatizace 10/1998. ISSN 0005-125X 12. Sovka P., Pollák P. Vybrané metody číslicového zpracování signálů. ČVUT, 2001, Praha. ISBN 80-01-02416-4 13. Sovka P., Pollák P. The study of speech /pause detectors for speech enhancement methods. Eurospeech 95, Madrid, 1995 Annotation: Wavelet transformation in speech enhancement methods. The wavelet transformation is modern signals analyzing tool. Wavelet transformation finds alongside FFT more and more applications in the nonstationary signals analysis. The paper is devoted to the description of wavelet transformation used for noise reduction in signal contaminated by additive noise. This paper describes the necessary knowledge for practical application wavelet transformation in speech enhancement systems.