SEPARACE PŘÍMÝCH SMĚSÍ AUDIO SIGNÁLŮ ZALOŽENÁ NA ČASOVĚ-FREKVENČNÍ ANALÝZE

Podobné dokumenty
Ing. Václav Eksler Ústav telekomunikací FEKT VUT v Brně

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Vlastnosti a modelování aditivního

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

ADA Semestrální práce. Harmonické modelování signálů

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Úvod do zpracování signálů

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Numerická matematika 1

FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

Volba zobrazení (Direct Current, Scaling) - FFT 1D, FFT 2D

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Stavový model a Kalmanův filtr

Příloha č. 1. amplitudová charakteristika filtru fázová charakteristika filtru / frekvence / Hz. 1. Určení proudové hustoty

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Vyhodnocení 2D rychlostního pole metodou PIV programem Matlab (zpracoval Jan Kolínský, dle programu ing. Jana Novotného)

Funkce komplexní proměnné a integrální transformace

9.2. Zkrácená lineární rovnice s konstantními koeficienty

Abychom se vyhnuli užití diferenčních sumátorů, je vhodné soustavu rovnic(5.77) upravit následujícím způsobem

Waveletová transformace a její použití při zpracování signálů

1 Projekce a projektory

Vektorové obvodové analyzátory

1. Úvod Jednou z! "# $ posledn % & $$' ( )(( (*+ % ( (* $ $%, (* ( (* obvodech pro elektronickou regulaci.*' (( $ /

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

Číslicové zpracování signálů a Fourierova analýza.

Lineární a adpativní zpracování dat. 3. Lineární filtrace I: Z-transformace, stabilita

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Téma je podrobně zpracováno ve skriptech [1], kapitola 6, strany

Modelování systémů a procesů (11MSP) Bohumil Kovář, Jan Přikryl, Miroslav Vlček. 8. přednáška 11MSP pondělí 20. dubna 2015

Matice. Modifikace matic eliminační metodou. α A = α a 2,1, α a 2,2,..., α a 2,n α a m,1, α a m,2,..., α a m,n

Všechno, co jste kdy chtěli vědět o maticích, ale báli jste se zeptat

l, l 2, l 3, l 4, ω 21 = konst. Proved te kinematické řešení zadaného čtyřkloubového mechanismu, tj. analyticky

Polynomy. Mgr. Veronika Švandová a Mgr. Zdeněk Kříž, Ph. D. 1.1 Teorie Zavedení polynomů Operace s polynomy...

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

1 Determinanty a inverzní matice

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Kepstrální analýza řečového signálu

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

0.1 Úvod do lineární algebry

Základy maticového počtu Matice, determinant, definitnost

Algoritmus pro hledání nejkratší cesty orientovaným grafem

CITLIVOSTNÍ ANALÝZA DYNAMICKÝCH SYSTÉMŮ I

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

Hledání extrémů funkcí

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

Soustavy se spínanými kapacitory - SC. 1. Základní princip:

U Úvod do modelování a simulace systémů

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

POZNÁMKY K PŘEDMĚTU PROJEKT

AC analýza filtrů se spínanými kapacitory v Spice

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

9.5. Soustavy diferenciálních rovnic

Princip gradientních optimalizačních metod

0.1 Úvod do lineární algebry

Modelování a simulace Lukáš Otte

KONVERZE VZORKOVACÍHO KMITOČTU

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

VYUŽITÍ VÝPOČETNÍHO SYSTÉMU MATLAB PŘI NEDESTRUKTIVNÍ KONTROLE STAVEBNÍCH MATERIÁLŮ A DÍLCŮ ROZBOREM AKUSTICKÉ ODEZVY GENEROVANÉ MECHANICKÝM IMPULSEM

" Furierova transformace"

4EK213 LINEÁRNÍ MODELY

ANALÝZA PLANÁRNÍCH STRUKTUR POMOCÍ METODY MOMENTŮ A JEJICH OPTIMALIZACE

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

cv3.tex. Vzorec pro úplnou pravděpodobnost

Přenos pasivního dvojbranu RC

Časové řady, typy trendových funkcí a odhady trendů

transformace je posunutí plus lineární transformace má svou matici vzhledem k homogenním souřadnicím [1]

Lineární algebra - I. část (vektory, matice a jejich využití)

Lineární algebra : Násobení matic a inverzní matice

Časové řady, typy trendových funkcí a odhady trendů

Kapitola 11: Lineární diferenciální rovnice 1/15

1 0 0 u 22 u 23 l 31. l u11

A. Podklady pro habilitační a jmenovací řízení (kvalitativní hodnocení)

Spektrální analyzátory

31SCS Speciální číslicové systémy Antialiasing

Determinanty. Obsah. Aplikovaná matematika I. Pierre Simon de Laplace. Definice determinantu. Laplaceův rozvoj Vlastnosti determinantu.

Figurální čísla, Pascalův trojúhelník, aritmetické posloupnost vyšších řádů

1 Úvod do celočíselné lineární optimalizace

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

Časově-frekvenční analýza cyklických hluků a vibrací

5. Lokální, vázané a globální extrémy

Aplikovaná numerická matematika - ANM

Učební texty k státní bakalářské zkoušce Matematika Vlastní čísla a vlastní hodnoty. študenti MFF 15. augusta 2008

Kmitočtová analýza (AC Analysis) = analýza kmitočtových závislostí obvodových veličin v harmonickém ustáleném stavu (HUS) při první iteraci ano

Při návrhu FIR filtru řešíme obvykle následující problémy:

PŘELAĎOVÁNÍ AKTIVNÍCH FILTRŮ POMOCÍ NAPĚŤOVĚ ŘÍZENÝCH ZESILOVAČŮ

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Lineární algebra : Násobení matic a inverzní matice

Transkript:

SEPARACE PŘÍMÝCH SMĚSÍ AUDIO SIGNÁLŮ ZALOŽENÁ NA ČASOVĚ-FREKVENČNÍ ANALÝZE Abstrakt Separation of Linear Instantaneous Mixtures of Audio Signals Based on Time-Frequency Analysis + Václav Eksler * Problematikou separace zdrojů nebo také separace signálů se zabývá skupina metod, jejichž cílem je pomocí procesu separace naslepo obnovit původní zdrojové signály z jejich směsí, přičemž zdrojové signály ani prostředí, ve kterém došlo ke smíchání, nejsou předem známy. V tomto článku představíme a na experimentu ověříme navrhnutou zdokonalenou separační metodu vhodnou pro separaci řečových event. hudebních signálů, která je založená na časově-frekvenční analýze a sledování kmitočtu základního tónu řečového signálu. Abstract Problems of blind source/signal separation are explored by a group of methods, the goal of which is to recover original source signals from their mixtures using a separation process, withal source signals nor mixing background are not known in advance. In this paper we introduce a projected advanced method suitable for separation of speech or music signals, which is based on the time-frequency analysis and tracking of the fundamental frequency of speech signal and which validity is proved by an experiment. Úvod Separace zdrojů či signálů naslepo BSS (z anglického Blind Source/Signal Separation, [3]) je skupina metod číslicového zpracování signálů, jejichž cílem je pomocí separačního procesu obnovit původní zdrojové signály z jejich směsí. Označením zdroj se zde rozumí původní signál, označení slepý pochází z chabé - pokud vůbec nějaké - znalosti směsného prostředí a velice slabých předpokladů, které máme o zdrojových signálech. Někteří česky píšící autoři opisují BSS také názvem slepá separace nebo separace neurčených zdrojů. Obecnou definici BSS lze rovněž přiblížit pomocí následující analogie: signál šířící se neznámým prostředím (systémem) lze modelovat signálem, který projde číslicovým filtrem. K obnovení zdrojového signálu je pak nutné nalézt filtr inverzní, mluvíme pak o separaci či dekonvoluci naslepo, viz diskuse např. v [6]. V nejjednodušší formě řeší BSS situaci, kdy signály dopadající na snímací senzory (např. mikrofony) nejsou vzájemně časově posunuté. Dále se předpokládá, že počet senzorů je větší nebo roven počtu zdrojových signálů a aditivní šumy nejsou výrazné kromě situace, kdy se snažíme ze směsi určit právě signál šumového charakteru. Předpokládejme následující směšující model zobrazený na obr., ve kterém vystupují dva pozorované signály směsí x i, i =,, které jsou lineárními přímými směsmi dvou reálných zdrojových signálů s i. Platí + Tento článek vznikl v rámci řešení grantového projektu FRVŠ 500/G/005. * Ing. Václav Eksler, Ústav telekomunikací, FEKT VUT v Brně, Purkyňova 8, 6 00 Brno, tel.: +40 54 49 08, fax.: +40 54 49 9, e-mail: eksler@utko.feec.vutbr.cz 4

x ( k) = a x ( k) = a s ( k) + a s ( k) + a s( k), () s ( k) kde směšující koeficienty a ij jsou reálné a konstantní a k je index diskrétní časové posloupnosti řádkových vektorů signálů směsí x i = {x i } k =,..,K a řádkových vektorů zdrojových signálů s i = {s i } k =,..,K. K je délka zpracovávané části signálu ve vzorcích. s x a a a s x a Obr. Přímý směšující systém předpokládající směšování dvou signálů Algoritmus založený na časově-frekvenční analýze Jeden z přístupů, jak separovat lineární přímé směsi (další jsou směsi konvolované, kterými se zabývá např. [6]), je založen na normalizovaných kumulantech čtvrtého řádu (tedy špičatosti, viz []), který umožňuje řešit situaci, ve které je počet zdrojů roven nebo dokonce větší než počet senzorů. Daný jednoduchý separační algoritmus, který představil Yannick Deville a kol. v pracích [], [4] nebo [5], je založen na časově-frekvenční analýze a dokáže v základní podobě separovat jeden zdrojový signál ze dvou směsí. Jeho velkou výhodou je, že dokáže separovat nestacionární signály a dokonce signály různě závislé nebo gaussovské, jejichž časově-frekvenční reprezentace ale musí být rozdílné. Tato metoda je zvláště vhodná k separaci směsí řečových a hudebních signálů. Předpokládat budeme situaci dvou zdrojů a dvou směsí, tedy i =,. Metoda představená v práci [] je založena na hledání lineárních kombinací dvou směsí ze vztahu () podle následujícího vztahu y i ( i k k) = x ( k) c x ( ) () a dokáže ze směsí extrahovat jeden výstupní signál reprezentovaný řádkovým vektorem y i = {y i } k =,..,K, který se bude lišit od zdrojového pouze v měřítku. Separační koeficienty c i, pomocí kterých extrahujeme zdrojové signály s a s, najdeme pomocí vztahů a a c = =, c. (3) a a Jádrem diskutované metody je nyní myšlenka, že pokud dokážeme v časové oblasti najít části signálů směsí, které obsahují příspěvek pouze jednoho zdroje, můžeme jednoduše najít separační koeficienty c i z rovnice (). Například, pokud dokážeme najít čas k, ve kterém s (k ) = 0, vztahy () přejdou do tvaru 4

a výpočtem poměru x ( k ) = a x ( k ) = a s ( k ) s ( k ) x ( k ) a = x ( k ) a pak přímo dostáváme hodnotu koeficientu c, pomocí kterého extrahujeme zdroj s. Z předchozího tedy vyplývá, že teoreticky pouze požadujeme, aby v některém časovém okamžiku k jeden ze zdrojů nepůsobil. Bohužel je poměrně složité najít takový časový okamži ve kterém jeden ze zdrojů nepůsobí. Udělejme dva předpoklady: Časově-frekvenční transformace zdrojů musí být navzájem různé. Musí existovat některé časově-frekvenční rámce signálů, ve kterých je přítomen příspěvek pouze jednoho zdroje. Využijeme toho, že tato situace je běžná pro směsi řečových nebo hudebních signálů. Samotná analýza může být prováděna např. krátkodobou Fourierovou transformací STFT (Short Time Fourier Transform) signálů směsí. Nejprve vynásobíme každý vzorek signálu směsi x i (k ) vzorkem posunutého okna h(k-k ), např. Hannova, centrovaného v čase k a dostaneme tak vzorky modifikovaného signálu x ( k' ) = x ( k' ) h( k' k). (6) i i Vztah (6) představuje nyní závislost, která je funkcí dvou časů, pevného času který nás zajímá, a časového průběhu k. Pokud nyní aplikujeme na x i (k ) ze vztahu (6) STFT, dostáváme obraz X i ( a naším cílem je najít takové časově-frekvenční oblasti, ve kterých se bude vyskytovat pouze jeden zdroj. Proto nyní zavedeme komplexní poměr X( α( k, =, (7) X ( který budeme počítat pro každý rámec signálu a frekvenční pásmo. S ohledem na rovnici () má komplexní poměr ze vztahu (7) tvar as( + as( α( =. (8) a S ( + a S ( Ze vztahu (8) je nyní zřejmé, že pokud jeden zdroj nemá žádnou složku v čase (, tedy v Hannově okně centrovaném k času k a frekvenčnímu pásmu centrovanému k frekvenci ω, pak je poměr α( reálný a přímo rovný hodnotě separačního koeficientu c i. Např. pokud S ( ve směsi chybí, pak a k = = α (, c, (9) a což je koeficient extrahující zdroj s podle vztahu (). Nicméně v reálných případech se často vyskytuje situace, kdy poměr α( není reálný, ale jeho imaginární část je poměrně malá vzhledem k jeho reálné části. Proto jsme zavedli chybovou konstantu ε, pro kterou platí, že pokud Img ( α ( ) < ε, předpokládáme, že jeden ze zdrojů se ve směsích nevyskytuje, a z reálné části α( přímo určíme koeficient c i. (4) (5) 43

Uvedený algoritmus má nicméně zjevný nedostatek v tom, že dokáže najít pouze ten separovaný signál, jehož zdroj se ve směsi nevyskytuje. Autoři v [4] konstatují, že získání jedné složky ze směsí přímo závisí na extrémech průběhu funkce normalizované špičatosti, přičemž berou v úvahu znaménka zdrojových špičatostí. Jimi popsaná separační metoda je založena na optimalizaci (maximalizaci a/nebo minimalizaci v závislosti na povaze zdroje) normalizované špičatosti lineárních přímých směsí zdrojových signálů. Otázkou nicméně zůstává, jakým jiným způsobem najít oba zdroje, tedy jak vzájemně rozeznat a rozlišit okamžiky, ve kterých nepůsobí buď jeden nebo druhý zdroj. Modifikovaný algoritmus využívající parametrů signálů Abychom odstranili uvedené nedostatky algoritmu z předchozí kapitoly, navrhli jsme pro separaci směsí řečových a hudebních signálů následující modifikaci, která sleduje parametry řeči, v tomto případě kmitočet základního tónu F 0. Tato modifikace je založena na jednoduché úvaze: ve všech rámcích signálů směsí, ve kterých nepůsobí jeden ze signálů, budeme počítat kmitočet základního tónu řeči např. pomocí metody AMDF (Average Magnitude Difference Function) podle vztahu [7] F 0 Fs =, (0) k min kde k min přísluší hodnotě prvního minima R D min v průběhu funkce R D, což je v podstatě autokorelační funkce, ve které se operace násobení nahradí operací odečítání, platí tedy R D N k n= ( k) = s( n) s( n + k). () Výpočet operace odečítání je pochopitelně méně náročný a lze ukázat, že první výrazné minimum v průběhu funkce R D odpovídá svou polohou periodě základního tónu, N je zde délka váhovacího okna (délka zpracovávaného rámce signálu). F s je vzorkovací kmitočet. x Hannovo okno STFT X ( X ( X ( ω x Hannovo okno STFT X ( X Img < ε X F 0 přeskupení F 0 F 0 c rozdělení c - Obr. Blokové schéma zdokonaleného separačního algoritmu založeného na časově frekvenční analýze, který sleduje kmitočet základního tónu řeči - y y 44

V rámcích signálů, ve kterých platí Img ( α ( ) < ε (viz rovnice (8)), počítáme kmitočet základního tónu řeči, zároveň stanovíme koeficienty c i podle postupu uvedeného v předchozí kapitole a jako výsledek tak dostáváme matici o dvou sloupcích, ve které každý řádek obsahuje hodnotu koeficientu c i a jemu náležející hodnotu stanoveného kmitočtu základního tónu F 0i. Po stanovení matice dvojic c i a F 0i, tedy po zpracování vybrané části signálů směsí, dojde k přeskupení matice ta že hodnoty základního kmitočtu budou seřazeny např. vzestupně. Pokud pro zdrojové signály platí, že mají různé základní kmitočty řeči (což ve většině případů platit bude), lze přeskupenou matici rozdělit na sadu koeficientů c i, kterým přísluší základní kmitočet F 0 a na sadu koeficientů c i, kterým přísluší základní kmitočet F 0. Z těchto dvou sad pak výpočtem hodnot mediánu získáme koeficienty c a c, jejichž dosazením do rovnice () získáme hledané separované výstupní signály. Popsaný algoritmus je blokově znázorněn na obr.. Ukázka experimentu separace Popsaný algoritmus jsme testovali v prostředí MATLAB na množství uměle smíchaných směsí. Zejména pro dvojice mluvčích s různými kmitočty základního tónu řeči (např. muž-žena) jsme dostávali velice uspokojivé výsledky. Na 0 je zobrazen příklad separace dvou zdrojových signálů (s parametry F 0 0 Hz, F 0 4 Hz), které byly smíchány směsnou maticí A = [,;, ]. Analyzován byl signál z pěti rámců délky 5 vzorků při překryvu 50%, použitý vzorkovací kmitočet byl F s = 8 khz, chybová konstanta ε = 0,. Výsledné separační koeficienty stanovené představenou metodou jsou uvedeny v tab., teoretické hodnoty jsou získány přímo z matice A pomocí vztahů (3). Závěr Tab. Výsledky separace využitím navrhnuté úpravy časově-frekvenčního algoritmu teoretická hodnota hodnota stanovená algoritmem c,00,0988 c 0,899 0,8953 Navrhli jsme zdokonalení separační metody vhodné k separaci řečových event. hudebních signálů z jejich směsí, která je založena na časově-frekvenční analýze a sledování kmitočtu základního tónu řečových signálů, jejíž platnost pak byla ověřena řadou experimentů. Dodejme, že uvedené algoritmy separace lze rozšířit i na hledání případů více než dvou zdrojových signálů a to dokonce i v případě, kdy máme k dispozici pouze dvě jejich směsi, viz např. [], v tom případě budeme hledat ne dva, ale více kmitočtů základních tónů zdrojových signálů, musí však platit předpoklady uvedené výše. Literatura [] ABRAMOWICH, F., STEGUN, I. A. Handbook of Mathematical Functions Formulas, Graphs, and Mathematical Tables. Dover Publications, New Yor 97. ISBN 486-67-4. [] ABRARD, F., DEVILLE, Y., WHITE, P. From blind source separation to blind source cancellation in the underdetermined case: a new approach based on timefrequency analysis. Proc. of the 3rd Int. Workshop on Independent Component Analysis and Blind Signal Separation (ICA'0), pp.734-739, San Diego, Calif., 00. 45

[3] CICHOCKI, A., AMARI, S. Adaptive Blind Signal and Image Processing, John Wiley & Sons, Ltd., 00. ISBN 047-6079-6. [4] DEVILLE, Y., BENALI M. Un critère de séparation de sources fondé sur les kurtosis normalisés signés. In Proc. of GRETSI'99 symposium sur le Traitement du Signal et des Images. 7e Colloque, Vannes, France, vol.4, pp.45-48, 999. [5] DEVILLE, Y., BENALI, M. Differential source separation: concept and application to a criterion based on differential normalized kurtosis. In Proc. of EUSIPCO, Tampere, Finland, 000. [6] HYVÄRINEN, A., KARHUNEN, J., OJA, E. Independent component analysis. John Wiley & Sons, Toronto, 00. ISBN 0-47-40540-X. [7] SIGMUND, M. Analýza řečových signálů. VUT v Brně, Brno 000, 86 stran. ISBN 80-4-783-8. y y x x s s k Obr. 3 Ukázka separace dvou řečových signálů popsaným algoritmem: zobrazeny jsou časové průběhy nejprve dvou zdrojových signálů s i, poté dvou jejich směsí x i a nakonec dvou separovaných (výstupních) signálů y i 46