České vysoké učení technické v Praze Fakulta elektrotechnická. Disertační práce. Jiří Tatarinov. Srpen 2010

Rozměr: px
Začít zobrazení ze stránky:

Download "České vysoké učení technické v Praze Fakulta elektrotechnická. Disertační práce. Jiří Tatarinov. Srpen 2010"

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Disertační práce Srpen 2010 Jiří Tatarinov

2

3 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů Detektory řečové aktivity na bázi skrytých Markovových modelů Disertační práce Jiří Tatarinov Praha, srpen 2010 Doktorský studijní program: Elektrotechnika a informatika Studijní obor: Teoretická elektrotechnika Školitel: Doc. Ing. Petr Pollák, CSc.

4

5 Abstrakt Disertační práce se zabývá detekcí řečové aktivity, procesem klasifikace řečového signálu do dvou tříd řeči a šumu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem nejen současného výzkumu, ale i aplikací v oblasti řečových technologií. Hraje důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. Primárním cílem této práce je prostudovat a srovnat algoritmy detekce řečové aktivity využívající skryté Markovovy modely a následně navrhnout optimalizované detektory na jejich bázi. Práce se zaměřuje na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají. Uvedené algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly spolehlivě jak v rušném, tak v tišším prostředí. V první části této práce je navržena platforma pro testování a objektivní zhodnocení detektorů řečové aktivity, kde jsou zahrnuty implementace různých referenčních VAD včetně detektoru podle doporučení G.729. Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi 3 hodiny řečových signálů s označením přesných hranic řečových a neřečových segmentů. Unikátní vlastností je přesné značení neřečových událostí. Označen je vždy typ, začátek, konec události a paralelní označení přesných hranic změn jednotlivých prostředí. Druhá část práce se zabývá návrhem a optimalizací detektorů na bázi GMM a HMM dohromady s analýzou možností zpracování řečového signálu vedoucí k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Bylo zjištěno, že parametry, které jsou nejlépe schopny rozlišit dvě dané třídy, jsou spektrální percepčně lineární koeficienty RASTA. Je navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM řeči a šumu. Přínos navrženého VAD spočívá v možnosti plynulé změny jeho nastavení tak, aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném zachování strukturálního způsobu klasifikace pomocí HMM. Při srovnání s referenčními VAD dosahuje u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby klasifikace. Dále byl testován a optimalizován fonémový HMM VAD, který přítomnost řečové aktivity zjišťuje na základě nejpravděpodobnějšího průchodu rozpoznávací sítě složené z HMM monofonů a šumu. Pro signály nahrané v jedoucím automobilu byla snížena chyba detekce řeči o více než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování struktury řeči a šumu, například u nahrávek se slyšitelným řazením jiného rychlostního stupně, bylo dosaženo snížení chyby o 85%. Na závěr je navržen a optimalizován detektor řečové aktivity, který strukturu promluvy modeluje pomocí dvou obecných modelů řeči a šumu a ke klasifikaci používá algoritmus cestování žetonů. Byly analyzovány dvě různé struktury modelů levo-pravé a ergodické HMM. V prostředí jedoucího automobilu bylo dosaženo snížení chyby klasifikace o 61%. Realizované testy na signálech obsahujících reálné rušení různého typu s větším důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM detektory ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech se silnějším šumovým pozadím, kde navržené detektory klasifikují přesněji zejména neřečové segmenty a ve specifických případech byla snížena chyba klasifikace o 85%. i

6 Abstract This doctoral thesis deals with voice activity detection, a process of speech classification into two classes speech or noise. The voice activity detection represents an important part of general research in the field of speech processing and is a subject of many contemporary research activities and many applications of speech technology. The primary aim of this work was to study, propose and compare the voice activity detection algorithms based on hidden Markov models. This work focuses on the detection in relatively noisy environment, where heuristic detectors currently often used, significantly fail. Relatively robust detectors operating well in both silent or noisy environment were proposed. In the first part of this work the platform for testing and objective evaluation of voice activity detectors is designed. Implementation of different VAD, together with the reference detector in accordance with the recommendationg G.729 are also included. For testing of proposed voice activity detectors the reference database was created. It contains about 3 hours of speech signals with anotations indicating the precise boundaries of speech and noisy segments. A unique feature is the accurate marking of non-speech events, labels, beginings and ends of events are included for each event. The time marks of environmental changes are also included. The second part deals with the design and optimalization of detectors based on GMM and HMM, commonly with the study of using different speech parametrizations. Concluding the spectral perceptual linear coefficients RASTA are the best speech parameters to distinguish between speech and noise. The voice activity detector based on discrimination of distance measure between Markov model of speech and noise was designed. The main contribution of the VAD is its possibility to continuously change its settings to achieve more accurate classification either in speech or noise while preserving the structural method of classification using HMM. The 52% reduction of error decision rate has been achieved in a noisy environment in moving car. Further, the phoneme HMM voice activity detector was tested and optimized. The principle of classification is finding the best path through the recognition network which consist from HMM of monophones and noise. The 71% error reduction has been achieved using signals recorded in noisy moving car. The 85% reduction of error decision rate has been achieved for speech recordings whith specific non-speech event like gear shifting. Finally the HMM voice activity detector using two general models of speech and noise was designed and optimized. The different HMM types were tested left-right and ergodic HMM. The 61% error reduction was achieved in the noisy environment in a moving car. Proposed detectors were compared with referential heuristic algorithms based on energy and cepstral analysis, and with the VAD according to ITU-T G.729 recommendation. The testing of suggested algorithms was realized using the utterances with real noise recorded mainly in running car and the contribution of proposed statistical detectors based on GMM and HMM is evident, especially, for speech signals collected in very noisy environment. In particular recordings of noisy speech the 85% reduction of error rate was achieved. ii

7 Prohlášení Prohlašuji, že jsem svou disertační práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. V Praze dne 28. srpna 2010 Jiří Tatarinov iii

8 Poděkování Rád bych poděkoval všem, kteří se zasloužili o vznik této práce. Především děkuji svému školiteli Doc. Ing. Petru Pollákovi, CSc. za obětavou pomoc, cenné rady a připomínky v průběhu celého doktorského studia, které vedly k výraznému zkvalitnění této práce. Dále bych rád poděkoval kolegům doktorandům za řadu diskusí o problematice i doktorském studiu obecně. Děkuji svým blízkým a přátelům za trpělivost, za duchovní, duševní a materiální podporu během studia. Tento výzkum byl podporován granty GAČR 102/03/H085 Modelování biologických a řečových signálů, GAČR 102/08/0707 Rozpoznávání mluvené řeči v reálných podmínkách a výzkumným záměrem MSM Výzkum perspektivních informačních a komunikačních technologií. Databáze CZKCC vznikla v rámci společného projektu a za finanční podpory firmy TEMIC TELEFUNKEN GmbH se sídlem v Ulmu v roce Databáze není veřejně dostupná a jejím vlastníkem je v současné době Harman/Becker, Ulm, Germany. iv

9 Obsah 1 Úvod 1 2 Stav problematiky detekce řečové aktivity Detekce řečové aktivity Lidská řeč Model vytváření řeči Struktura řeči Šum Rozdíly mezi řečí a šumem Základní myšlenky řešení Akustická analýza Výkon (energie) Intenzita Počet průchodů nulou Základní hlasivkový tón, periodicita Entropie Koherenční funkce Koeficienty lineární predikce Kepstrální analýza Kepstrální koeficienty LPC Mel-frekvenční kepstrální koeficienty Perceptivně lineární prediktivní analýza Metoda RASTA-PLP Delta a akcelerační koeficienty Srovnání parametrů Klasifikace Detektory řeči založené na prahování LDA LRT Neuronové sítě SVM Směs Gaussovských hustotních funkcí Skryté Markovovy modely Referenční detektory řečové aktivity Kepstrální detektor ITU-T G.729b VAD v

10 vi OBSAH 3 Cíle práce, motivace Motivace Vlastní cíle práce Obsah práce Základní experimentální setup Získávání parametrů řečového signálu Kritéria Základní kritéria Rozšířená kritéria Další vytvořené nástroje Nastavení kepstrálního a energetického VAD ROC křivka Optimalizace hodnoty prahu Optimalizace prahu kepstrálního detektoru Optimalizace prahu energetického detektoru Množiny signálů Trénovací množiny Testovací množiny Testovací databáze Dostupné řečové databáze Návrh databáze pro detekci řečové aktivity Výběr nahrávek Hranice řečových položek Testovací množiny Databáze CAR2ECS a množina CAR2ECSVAD Databáze SPEECON a množina SPEECONVAD Databáze CZKCC a množina CZKCCVAD Analýza testovacích množin Detekce na bázi GMM Detekce přítomnosti řeči s GMM Analýza vhodné parametrizace Jednorozměrné parametrizace Vícerozměrné parametrizace Analýza parametrizací pomocí vzdálenosti Kullback-Leibler Experimenty Vliv použité parametrizace Optimalizace počtu směsí Vliv rušného prostředí automobilu Experimenty s neřečovými událostmi Experimenty na dalších typech řečových položek Shrnutí Detekce na bázi HMM Dekódování řeči Akustické modelování řeči pomocí HMM Analýza možností využití HMM za účelem detekce přítomnosti řeči

11 OBSAH vii Výběr modelované části promluvy Struktura modelu Klasifikační algoritmus Způsob inicializace a trénování Shrnutí analýzy Fonémový detektor řečové aktivity VAD vyhodnocující vzdálenosti HMM (DHMM) VAD modelující promluvy pomocí dvou HMM Experimenty Fonémový detektor řečové aktivity VAD vyhodnocující vzdálenosti HMM (DHMM) VAD modelující promluvy pomocí dvou HMM Shrnující experimenty Detekce v prostředí automobilu Detekce neřečových událostí Detekce promluv obsahujících další typy řečových položek Souhrnné poznámky Závěr 95 A Tabulky a grafy výsledků experimentů 109

12 viii OBSAH

13 Seznam obrázků 2.1 Model vytváření řeči Vznik zarušeného řečového signálu Struktura detektorů řečové aktivity Melovská banka filtrů Výpočet Melovských kepstrálních koeficientů Algoritmus kepstrálního VAD Struktura G729 VAD Ilustrace kritérií vyhodnocující detektory řečové aktivity ROC pro kepstrální VAD ROC pro energetický VAD Transkripce řeči SSNR signálů v množině CZKCCVAD a CAR2ECSVAD SSNR signálů v množině SPEECONVAD SSNR signálů obsahující neřečové události Ilustrace principu GMM Algoritmus GMM VAD Rozložení energie Rozložení počtu průchodů nulou Rozložení F Rozložení koeficientů lineární predikce Rozložení DCT kepstrálních koeficientů Rozložení kepstrálních koeficientů LPC Rozložení Melovských kepstrálních koeficientů Rozložení spektrálních PLP koeficientů Rozložení kepstrálních PLP koeficientů Rozložení spektrální PLP koeficientů RASTA Rozložení kepstrálních PLP koeficientů RASTA Bloky systému pro dekódování řeči Ilustrace generování posloupnosti Levo-pravý model Ergodický model Model dlouhé pauzy Model krátké pauzy Blokové schéma fonémového VAD Výpočet diskriminační funkce ix

14 x SEZNAM OBRÁZKŮ 7.9 Blokové schéma VAD modelující promluvy pomocí dvou modelů Rozpoznávací síť s ergodickými modely řeči a šumu Ilustrace hranic řečových úseků u HMM VAD Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM VAD s CPLP koeficienty v uvedených prostředích Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky A.1 Nastavení prahu DHMM VAD pomocí ROC charakteristiky A.2 Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM VAD v uvedených prostředích a danou parametrizaci

15 Seznam tabulek 4.1 Konfúzní matice absolutní hodnoty Konfúzní matice relativní hodnoty Řečové položky množiny CZKCCVAD Neřečové položky množiny CZKCCVAD Prostředí nahrávek množiny CZKCCVAD Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností Kullback-Leibler Vliv použité parametrizace na úspěšnost GMM VAD Analýza počtu směsí u GMM VAD v uvedených prostředích Chyby klasifikace optimálně nastaveného GMM VAD Úspěšnost GMM VAD u promluv obsahujících různé neřečové události Úspěšnost GMM VAD na dalších typech řečových položek Analýza vlivu počtu směsí modelů fonémového HMM VAD Chyby klasifikace optimálně nastaveného fonémového HMM VAD Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové události Úspěšnost fonémového HMM VAD na dalších typech řečových položek Chyby klasifikace optimálně nastaveného DHMM VAD Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události Úspěšnost DHMM VAD na dalších typech řečových položek Analýza vlivu počtu směsí LP modelů HMM VAD Analýza počtu stavů LP modelů HMM VAD Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících slyšitelný blinkr Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé neřečové události Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových položek Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé neřečové události Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových položek xi

16 xii SEZNAM TABULEK 8.1 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících slyšitelné řazení rychlosti Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na množině CAR2ECSVAD Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na dalších typech řečových položek A.4 Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým motorem A.1 Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým motorem A.2 Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem A.3 Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem A.5 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu A.6 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem A.7 Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu A.8 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr116 A.9 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech mluvčího A.10 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání118 A.11 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem A.12 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně A.13 Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost A.14 Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD A.15 Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD) A.16 Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy celých vět (SPEECONVAD)

17 Kapitola 1 Úvod Není pochyb o tom, že se nacházíme v době převratných technologických a společenských změn. Vývoj digitálních a informačních technologií určených k vytváření, zpracování, šíření a užívání informací závažně přispěl k formování nové společnosti. Snad jednou z nejvýznamnějších charakteristik současné informační společnosti je exponenciální nárůst nových informací, dokonce nových vědeckých poznatků a jejich zpřístupnění komunikačními a informačními technologiemi často v reálném čase, bez ohledu na místo jejich výskytu. Zároveň se rozvíjí snahy vedoucí ke snadné přístupnosti veškerých informačních zdrojů a odborných informací. Nejtypičtějším příkladem komunikace v reálném čase je oblast telefonie, která se rychle rozvíjí. Pevné linky byly téměř vytlačeny mobilními telefony a dále se rozšiřuje volání po síti - VoIP 1. Nové technologie sebou přinesly specifické problémy a nedostatky, které je možné řešit, či dále vylepšovat. Například při telefonním hovoru někdy využíváme hlasitý odposlech, což vede k přenosu hlasu telefonního partnera zpět do mikrofonu, kde se smísí s naším hlasem, dochází k akustickému echu. Tento efekt lze potlačit několika způsoby, některé z nich vedou k využití detektoru řečové aktivity VAD 2. VAD je přínosem také pro video konference, kde lokalizuje zdroj rozhovoru. V průběhu konferenčního hovoru je lokalizován zdroj hovoru a videokamera je směrována na mluvčího ve chvíli, kdy hovoří. Známější je využití v internetové telefonii pro kompresi řeči, kde lze vynecháním neřečových oblastí signálů zmenšit objem přenesených dat. Účastník hovoru toto vnímá až nepřirozeným ztišením reproduktoru, protože není přenášen okolní šum. Podobný přínos má VAD pro mobilní radiové sítě (GSM nebo CDMA), které často využívají DTX 3. To je metoda umožňující dočasné vypnutí mobilního telefonu nebo zastavení přenosu dat ve chvíli, kdy není přítomen žádný hlasový vstup. Tím je dosaženo celkového zefektivnění komunikační sítě. U mobilního telefonu je také prodloužena jeho výdrž na jedno nabití baterie. VAD je používán také v některých DSVD 4 modemech, které umožňují současný přenos hlasu a digitálních dat po běžné telefonní lince. Další aplikace najdeme při zvýrazňování řeči, odhadu SNR 5 nebo v rozpoznávání řeči. Nejznámější metodou zvýrazňování řeči je spektrální odečítání, ve které je velmi důležitý přesný odečet odhadu spektra šumu. Odhad spektra šumového pozadí se získá v řečových pauzách, ve kterých není přítomna řeč. Pro kvalitu zvýrazněné řeči je tedy rozhodující bezchybná funkce detektoru řečové aktivity. Při vývoji systémů pro snižování úrovně 1 Voice Over Internet Protocol 2 Voice Activity Detector 3 Discontinuous Transmission 4 Digital Simultaneous Voice and Data 5 Signal to Noise Ratio 1

18 2 KAPITOLA 1. ÚVOD šumu v řečovém signálu potřebujeme kvantifikovat úroveň šumového pozadí v řečovém signálu. Standardním kritériem pro měření úrovně šumu v signálu je odstup signálu od šumu SNR. Nedílnou součástí algoritmů pro výpočet SNR je VAD. VAD se také používá u rozpoznávačů řeči, kde slouží k detekci přítomnosti hlasového vstupu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem současného výzkumu. Detektory řečové aktivity jsou využívány nejen v mnoha různých oblastech vědy, ale i v průmyslových aplikacích. Hrají důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. [48, 50, 91, 89]

19 Kapitola 2 Stav problematiky detekce řečové aktivity Detekce řečové aktivity není nová úloha a v tichém prostředí bylo již v některých úlohách dosaženo velmi vysoké přesnosti. Většina současných prací se proto soustředí na řešení této úlohy v zarušeném prostředí. Záměrem této kapitoly bude vytvoření přehledu přístupů, metod a algoritmů, které byly s větším, či menším úspěchem použity pro řešení této úlohy. Vzhledem k tomu, že bylo v uplynulých letech prezentováno velké množství nejrůznějších variant přístupů k detekci řečové aktivity, neklade si tato kapitola nároky na úplnost, ale zmiňuje jen hlavní směry při jejím řešení. Aby tento přehled mohl být srozumitelně vytvořen, budou současně zavedeny základní pojmy a teoretické informace o řeči, detekci řečové aktivity a zpracování řečového signálu. 2.1 Detekce řečové aktivity Detekce řečové aktivity je postup automatické klasifikace čistého řečového signálu, či směsi řeči a šumu do dvou tříd řeči a šumu. Zpracování řečového signálu je většinou prováděno po segmentech, ke kterým je přidělována příslušná třída. Jde tedy o úlohu, která se snaží najít vzájemné rozdíly mezi řečí a šumem. Principiální rozdíl mezi řečí a šumem je v obsažené informaci. Hlavním znakem řečových úseků je, že nesou informaci nutnou k dorozumění mezi lidmi. Zatímco šumové úseky tuto informaci nenesou. Někde na pomezí mezi řečovými a šumovými úseky jsou krátké řečové pauzy, jejichž zařazení do příslušné kategorie může být v některých případech velmi subjektivní. Před samotným návrhem řešení této úlohy je nutné znát vlastnosti řeči a šumu, aby bylo možné analyzovat jejich rozdíly, a následně najít způsob, jak je vzájemně automaticky rozlišovat. 2.2 Lidská řeč Bylo zjištěno, že akustický signál řeči obsahuje o mnoho více informací, než je obsaženo v jeho skutečném významu. Člověk využívá vnitřní mechanismy [58], které mu umožní potlačit v řečovém signálu nepotřebné údaje (barva hlasu, intonace,...) a zdůraznit pouze několik hlavních zvukových příznaků, které jsou shodné pro všechna stejná slova. Důsledkem tohoto plného porozumění řeči je i schopnost poznat, zda je řeč v promluvě přítomná či nikoliv. Mechanismy vnímání řeči člověkem jsou neznámé, a proto ani nelze využít jejich 3

20 4 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY analogie při návrhu prostředků pro její automatické zpracování. Nicméně je možné využít alespoň dostupných znalostí o procesu tvoření řeči. Zdrojem řeči jsou lidské řečové orgány, které se skládají z hlasivek, dutiny hrdelní, ústní a nosní, měkkého a tvrdého patra, zubů a jazyka. Zdrojem hlasové energie jsou plíce a s nimi spjaté dýchací svaly. Kmitající hlasivky jsou zdrojem znělých hlásek, tj. samohlásek a znělých souhlásek. Frekvence kmitů hlasivek závisí na tlaku vzduchu a na svalovém napětí hlasivek, pohybuje se kolem Hz a charakterizuje základní tón lidského hlasu. Pro automatické zpracování řeči je možné řeč vhodným způsobem modelovat, což se s výhodou používá pro popis některých jejich akustických parametrů Model vytváření řeči Základem je model chování hlasivek, model hlasového traktu, který napodobuje přenosové vlastnosti lidského hlasového traktu, a model vyzařování zvuku ze rtů [58]. Při promluvě se však rozměry hlasového traktu mění, nicméně lze předpokládat, že vlastnosti hlasového traktu zůstávají konstantní v časovém úseku ms. Budící signál je tvořen periodickým sledem prvků pro znělou řeč nebo šumovým signálem pro řeč neznělou. Výsledný model hlasové produkce lze reprezentovat celo-pólovým filtrem. Model vytváření řeči je na obrázku 2.1. Šumová podstata neznělých úseků řeči vede v důsledku k problémům při detekcí řečové aktivity, a to hlavně u neznělých hlásek. Perioda základního tónu Generátor posloupnosti impulsů Znělý/Neznělý Generátor náhodného šumu Zesílení Parametry hlasového ústrojí Model hlasové produkce Obrázek 2.1: Model vytváření řeči Dále předpoklad, že vlastnosti hlasového traktu zůstávají v takto krátkém časovém úseku konstantní vede k aplikaci metod krátkodobé analýzy, při nichž se úseky řečového signálu vydělují a zpracovávají tak, jako by to byly oddělené krátké zvuky. V časové oblasti je diskrétní výstupní odezva při fixovaných parametrech hlasového ústrojí dána konvolucí buzení a impulzní odezvy modelu hlasové produkce. Výsledkem analýzy je pak vektor, který popisuje daný mikrosegment. Volba vhodného popisu mikrosegmentů řečového signálu je stěžejní nejen pro úlohu detekce řečové aktivity Struktura řeči Strukturu lidské řeči lze popsat z různých lingvistických hledisek akustického, artikulačního, fonetického, fonologického nebo prozodického. Po nasnímání řeči mikrofonem a jeho digitalizaci, lze poměrně přímočaře získat její akustický popis. Pro následné modelování je

21 2.2. LIDSKÁ ŘEČ 5 ovšem vhodnější popsat strukturu řeči z hlediska fonetického či fonologického dohromady s prozodickým popisem. Z fonologického hlediska je nejmenší jednotkou řeči foném, který je definován jako nejmenší lingvistická jednotka schopná rozlišovat významové jednotky (např. slova). Fonémy lze od sebe odlišit podle způsobu a místa tvoření, podle artikulujícího orgánu nebo podle sluchového dojmu. Počet fonémů ve světových jazycích se pohybuje od 12 do 60. V českém jazyce je jich 36. Spojením několika fonémů do posloupnosti vznikne slabika a jejich kombinací slovo. Hlásky je možné rozdělit do několika skupin [58] Samohlásky Při artikulaci samohlásek je snahou udržet průchod vzduchu hlasovým traktem co nejvolnější. V akustickém spektru každé samohlásky se objevuje kromě základního tónu řada vyšších zesílených tónů, které vznikají rezonancí v dutinách hlasového traktu. Souhlásky Na rozdíl od samohlásek, souhlásky obsahují v akustické spektru charakteristický šum a jsou vytvářeny vzduchovou turbulencí, která vzniká třením výdechového proudu vzduchu o překážku vytvořenou artikulačními orgány. Překážka, kterou stavějí mluvidla do cesty výdechovému proudu, může být úplná nebo částečná. Souhlásky můžeme rozdělit na závěrové Tyto samohlásky vznikají při vytvoření úplné překážky. V okamžiku zrušení překážky vzniká krátký šum, který se podobá výbuchu. úžinové Překážka je tvořena zúžením cesty výdechovému proudu na některém místě v artikulačním ústrojí. Při tření v této úžině vzniká třecí sum. polozávěrové Při tvorbě těchto souhlásek se postupně objevují oba typy překážek. Souhlásky je možné též rozdělit podle znělosti. Vyslovením neznělé souhlásky jsou hlasivky od sebe oddáleny podobně jako při volném dýchání a propouštějí výdechový proud, aniž vytvářejí hlas. Znělé souhlásky jsou naopak při tvoření doprovázeny přítomností základního hlasivkového tónu. Při vyslovování nosních souhlásek se části procesu artikulace účastní také nosní dutina. Některé souhlásky jsou shodné, liší se jenom znělostí. Takové souhlásky jsou nazývány párové. Souhlásky, které jsou vždy znělé a nemají svůj neznělý protějšek se nazývají nepárové. Při vyslovování hlásek musí různé části hlasového ústrojí zaujímat odpovídající polohu [58]. Ke změně polohy dojde za určitou dobu, a proto se vyslovení fonému mění v závislosti na předcházejícím a následujícím zvuku. Tento jev je znám jako koartikulace. Pro jeden foném může být tolik variací, kolik je přípustných sousedních fonémů. Z tohoto důvodu byl zaveden pojem fon, jako minimální fonetická jednotka identifikující odlišné primitivní zvuky řeči. Odlišné fony určitého fonému se pak nazývají alofony. Struktura řeči je tedy její přirozenou součástí, ale většinou není součástí šumu. Detekce přítomnosti řeči by tak mohla být založena na hledání přítomnosti nebo nepřítomnosti této struktury. Je například známo, že je velmi obtížné definovat začátek a konec promluvy v případech, kdy jsou na začátku či konci promluvy neznělé okluzivy, tj. /p/, /t/, /k/, slabé neznělé frikativy, tj. /f/, /s/, /š/, /ch/, na konci promluvy znělé okluzivy, tj. /b/, /d/, /g/, znělé frikativy, tj. /v/, /z/, /ž/, /h/, nebo nosní souhlásky, tj. /m/, /n/, /ň/. Tento problém by mohl být zmenšen, když by byla využita znalost skutečnosti, že tyto hlásky jsou součástí strukturálních segmentů řeči. Tato znalost je velmi často využívána v úlohách zabývající se rozpoznáváním řeči, nicméně pro detekci řečové aktivity se používá jen zřídka.

22 6 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Aditivní šum Řečový signál Konvoluční šum Zarušený řečový signál Obrázek 2.2: Vznik zarušeného řečového signálu 2.3 Šum Zdroje šumu mohou být rozděleny na aditivní šumy a šumy konvoluční. Aditivní šumy nejsou korelované se signálem a podle jejich spektrálních vlastností lze rozlišit šum bílý a barevný. Konvoluční šumy jsou způsobeny například odrazy a rušením díky přenosu signálu nebo díky vlastnostem mikrofonu a zavádí nechtěné artefakty do originálního signálu, které jsou korelované s originálním signálem. Aditivní bílý šum se v reálném prostředí nevyskytuje, přesto se často využívá v modelech reálných systémů, kdy může aproximovat širokopásmové rušení, které se mu v limitním případě blíží. Bílý šum má tedy konstantní výkonovou spektrální hustotu, která je rovna jeho rozptylu σb 2. Dalším důležitým parametrem bílého šumu je jeho střední hodnota µ b, která se většinou uvažuje nulová. Nulové jsou také koeficienty autokorelační funkce kromě R[0], který je roven rozptylu σb 2. Nekorelovaný aditivní barevný šum má jiné rozložení energie ve spektru, než bílý šum. Pro tento šum je průběh autokorelační funkce nenulový nejen pro koeficient R[0], ale i pro další koeficienty. Šumový signál může být dále rozdělen na stacionární a nestacionární. Stacionární šum [59] má výkonovou spektrální hustotu téměř konstantní v čase a bývá způsoben například zvukem větráku, počítače či klimatizace, hlukem neakcelerujícího automobilového motoru, zvukem deště, šumem vzdálené konverzace apod. V reálných aplikacích se většinou předpokládá, že neznámý šum je stacionární. Naopak nestacionární šum je charakterizován tím, že se jeho spektrální charakteristiky zřetelně mění v čase [59]. Vzniká například hlukem projíždějícího auta, bouchnutím dveří, klikáním klávesnice, mlaskáním či hlasitým dýcháním při mluvení nebo štěkání psa apod. V dnešní době je možné se poměrně často setkat s nestacionárním šumem, třeba i kvůli možnostem mobilní komunikace, díky které se akustické pozadí mění v průběhu hovoru. Na závěr je třeba zmínit, že šum může mít také nepřímý vliv na řečový signál. V případech, kdy lidé mluví v hlučném prostředí, se díky snaze o efektivnější komunikaci mění i akustické parametry jejich řeči, a to nejen její intenzita, ale i základní tón hlasu, a další jeho vlastnosti. Tento nepřímý vliv hlučného prostředí je označován jako Lombardův efekt. 2.4 Rozdíly mezi řečí a šumem Vlastnosti řečového signálu jsou podrobně popsány a analyzovány díky známému zdroji, tj. hlasovém ústrojí člověka. Je-li znám konkrétní zdroj rušení, potom i jeho vlastnosti jsou známé. Problém může ovšem nastat v situacích, kdy není znám konkrétní zdroj rušení, a jeho popis je založen pouze na předpokladu, že patří do nějaké konkrétní kategorie. Zdroje

23 2.5. ZÁKLADNÍ MYŠLENKY ŘEŠENÍ 7 Parametr 1 Řeč Akustická analýza Parametr N Klasifikace Zařazení do třídy Obrázek 2.3: Struktura detektorů řečové aktivity rušení jsou však velmi různorodé a v některých případech i neznámé. Pro principiální vyhodnocení rozdílů mezi řečí a šumem se nejčastěji používá přístup vycházející ze znalostí vlastností řečového signálu. V neznámém signálu jsou hledány charakteristiky řeči a na základě jejich přítomnosti či nepřítomnosti se daná část signálu označí jako řeč nebo šum. Obrácený postup, kdy by se hledaly pouze charakteristické znaky šumu, by obecně nefungoval díky nepříliš konkrétnímu popisu vlastností šumu. Nejlepších výsledků lze samozřejmě dosáhnout kombinací obou přístupů. Téměř pro všechny předpokládatelné zdroje rušení lze najít nejzřetelnější rozdíly mezi řečí a vzniklým šumem v jejich akustických parametrech. Většinou platí, že řeč má větší intenzitu než šum a v případech, kdy není rozdíl v intenzitě, například kvůli přítomnosti hlasitého rušení, lze nalézt rozdíly ve spektrálních vlastnostech řeči a šumu. Pro diskriminaci řeči a šumu lze použít také mnoho dalších akustických parametrů řečového signálu, které jsou podrobně popsané v další části tohoto textu. 2.5 Základní myšlenky řešení Obecně jsou algoritmy detekce řečové aktivity založené na různých přístupech, v principu je však možné všechny modelovat dvěma základními bloky: akustickou analýzou řečového signálu řešící extrakci vhodných příznaků popisujících řečový signál a následným klasifikačním algoritmem rozlišujícím mezi řečovými a neřečovými úseky. 2.6 Akustická analýza Blok akustické analýzy řeči je navrhován vždy pro dané prostředí, ve kterém je řečový signál detekován, přičemž různé charakteristiky mají rozdílnou výpočetní náročnost i odolnost vůči případnému rušivému pozadí. Typickými výstupy akustické analýzy mohou být jednotlivé parametry jako výkon (energie) signálu, intenzita, počet průchodů nulou, entropie, kepstrální vzdálenost od pozadí, průměrná koherence apod. nebo vektory více příznaků jako jsou LPC koeficienty, kepstrální koeficienty či koherenční funkce. Dále je uveden popis a důvody využití těchto řečových parametrů dohromady s odkazy na publikace prezentující využití dané řečové charakteristiky pro detekci řečové aktivity Výkon (energie) Nejstarší a stále používané VAD jsou detektory výkonové (energetické) [25, 94, 39]. Popularita a časté používání těchto algoritmů je dána především velmi malou výpočetní náročností, kde je přítomnost hlasového signálu detekována na základě vyšší energie oproti úseku neřečovému. Krátkodobou energii lze vypočítat podle vztahu

24 8 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY E[n] = k= (x[k]w[n k]) 2, (2.1) kde w[n] je příslušný typ váhovacího okna, například Hammingovo, a x[n] je signál. Někdy se upřednostňuje výpočet logaritmu energie podle vztahu E l [n] = log k= (x[k]w[n k]) 2. (2.2) Znělé úseky řeči mají vyšší energii, proto zde energický detektor funguje výborně. Naopak nevýhodou je pokles spolehlivosti detekce při intenzivnějším šumovém pozadí, pro nízkoenergetické neznělé úseky řeči už i pro nižší úrovně rušivého pozadí Intenzita V některých publikacích [57] autoři raději využívají parametru intenzity, než energie. Výhodou tohoto parametru je, že není tolik citlivý na velké změny úrovně signálu. Krátkodobá intenzita je zaváděna pomocí následujícího vztahu M[n] = Počet průchodů nulou k= x[k] w[n k]. (2.3) Doplňkovou charakteristikou energetických detektorů, jejíž aplikace přináší zlepšení detekce neznělých úseků u energetických detektorů, může být počet průchodů nulou - ZCR 1 [33, 35, 20]. Na rozdíl od předchozích charakteristik zaměřených na sledování amplitudy signálu, poskytuje krátkodobá funkce středního počtu průchodů signálu nulou informaci o frekvenčních vlastnostech signálu. V podstatě je toto kritérium využíváno jako jednoduchý odhad výšky tónu. Tento odhad je využitelný u monofonního zvuku. U polyfonních zvuků je velmi nepřesný. Hodnota ZCR se získá jako počet změn znaménka signálu ZCR[n] = k= kde sign(s[k]) je znaménková funkce definovaná předpisem { 1 s[k] 0 sign(s[k]) = 1 s[k] < 0. sign(s[k]) sign(s[k 1]) w[n k], (2.4) (2.5) Hodnota ZCR nicméně velmi závisí na šumovém pozadí a i zde dochází ke sbližování hodnot pro šum a pro neznělé hlásky Základní hlasivkový tón, periodicita Někteří autoři [36, 83] využívají jako další doplňkové kritérium detekci periodických složek řeči. V podstatě se jedná o odhad periody základního hlasivkového tónu 2 T 0, či její 1 Zero Crossing Rate 2 pitch period

25 2.6. AKUSTICKÁ ANALÝZA 9 převrácená hodnoty F 0 = 1/T 0 - fundamentální frekvence. To je významný parametr řeči, který odpovídá kmitům hlasivek. Přítomnost základního hlasivkového tónu je indikátor znělosti/neznělosti promluvy. Hodnota základního tónu je různá pro různé řečníky a tato frekvence se mění i pro jednotlivce při promluvách různých hlásek. Základní tón není přítomen v šumu, což může být použito jako důležité kritérium nepřítomnosti promluvy. K určení F 0 je možné přistupovat několika různými způsoby výpočtem autokorelační funkce nebo metodou LSPE 3. Podle publikace [59] se jeví jako nejpřesnější metody založené na využití autokorelační funkce. Hodnota periody základního tónu je určena pomocí prvního maxima autokorelační funkce, tj. pro každý segment je hledáno takové m > 0, které vyhovuje rovnici L 1 m m = argmin m R[m] = argmin m k=0 s[k]s[k + m], přičemž délka okénka musí být větší než jedna perioda základního tónu, tj. alespoň L = 20 40ms. S jiným přístupem přichází technika LSPE, která se snaží zkonstruovat periodickou funkci s periodou, která minimalizuje střední kvadratickou odchylku mezi signálem a danou periodickou funkcí. Obě metody výrazně snižují citlivost detekce řeči na bílém šumu. Takto řešený detektor funguje spolehlivě i pří nízkém SNR a je odolný k neperiodickému šumu [83]. Nicméně při periodickém šumovém pozadí nebo s parazitními periodickými složkami v signálu se spolehlivost rychle snižuje Entropie Další používané algoritmy jsou založeny na měření entropie H, která vyjadřuje míru neuspořádanosti soustavy, neboť analýzou spektra velmi zašuměné řeči bylo zjištěno, že oblasti obsahující řeč jsou více organizované než oblasti šumové. Pro systém s konečným počtem stavů S {s 1,s 2,...,s N } je entropie definována jako [68] H(S) = N P(s i )log 2 (P(s i )), (2.6) i=1 kde P(s i ) je pravděpodobnost, že byl emitován stav s i. Pro potřeby detekce řeči je výhodnější tzv. spektrální entropie H(X), která se získá pomocí předpokladu, že normalizované amplitudové spektrum segmentu signálu lze považovat za pravděpodobnostní rozdělení. Entropie ve spektrální oblasti potom může být získána substitucí P(s i ) za pravděpodobnost ω-té spektrální čáry dosazením získáme P( X(ω) 2 ) = ω X(ω) 2 (2.7) (ω) 2, H(X) = ω P( X(ω) 2 )log 2 P( (ω) 2 ). (2.8) Experimenty potvrdily, že VAD používající k výpočtu entropii pracují v prostředí s nestacionárním šumem spolehlivěji než čistě energetické. Na druhé straně selhávají v případech, kdy je signál zasažen hudebním šumem. Přínosem je naopak, že tyto VAD nejsou citlivé na změny dynamiky šumu, reagují pouze na změny spektrální povahy [65]. 3 Least Square Periodicity Estimator

26 10 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Koherenční funkce V systémech s vícekanálovým řečovým signálem lze zlepšení detekce silného a nestacionárního šumu dosáhnout použitím charakteristik na bázi koherenční funkce [66], která přináší principiálně novou informaci o podobnosti korelovanosti signálu ve dvou kanálech. Koherenční funkci lze získat pomoci vztahu γ 2 (e jθ ) = S xy(e jθ ) 2 S x (e jθ )S y (e jθ ), (2.9) kde S xy (e jθ ) 2 je cross spektrum vstupních signálů x [n] a y [n], a S x (e jθ ) a S y (e jθ ) jsou ESD vstupních signálů x [n] a y [n]. Hodnota koherenční funkce se blíží 1, když x [n] a y [n] jsou nezašuměné signály řeči. Naopak hodnota funkce klesá k nule pro případy, kdy x [n] a y [n] jsou nekorelované šumy. Většina šumů, například v automobilu, jsou nekorelované, proto koherenční funkce obsahuje informaci o řečové aktivitě. Nevýhodou je potřeba použití dvou mikrofonů [73], vyššího počtu vstupních kanálů a s tím související nároky na použitý hardware. Ty jsou často limitujícími faktory použití těchto algoritmů, zejména v případech aplikace v jednoduchých a snadno implementovatelných systémech s hlasovým vstupem Koeficienty lineární predikce Lineárně prediktivní kódování (LPC) je metoda analýzy akustického signálu, která se snaží na krátkodobém základu odhadnout parametry modelu vytváření řeči při relativně přijatelné výpočetní zátěži přímo z řečového signálu. Princip metody LPC je založen na předpokladu, že k-tý vzorek signálu s(k) lze popsat lineární kombinací Q předchozích vzorků a buzení u(k), tj. s(k) = Q a i s(k i) + Gu(k), i=1 kde G je koeficient zesílení a Q je řád modelu. Pokud se modeluje znělá hláska, model se budí posloupností pulzů u(k) o délce periody základního tónu. Při modelování neznělých hlásek je buzení naopak provedeno náhodným šumem. Přenosovou funkci modelu H(z) lze pak zapsat ve tvaru H(z) = G 1 + Q i=1 a iz i. Pro výpočet LPC koeficientu a i bylo vyvinuto více možných metod výpočtu. Lze je získat pomocí autokorelační nebo autokovarianční metody. Většinou se při zpracování řeči používá přístup autokorelační. Dále je možné pro výpočet koeficientů a i využít iterativního Burgova algoritmu nebo algoritmu navrženého Levinsonem a Durbinem. V klasifikačních úlohách se přímo koeficienty LPC používají jen zřídka, častěji jsou upřednostňovány dále popsané parametry odvozené z LPC koeficientů Kepstrální analýza Další výraznou skupinou tvoří detektory založené na analýze spektrálních charakteristik řeči, aproximovaných nejčastěji pomocí kepstrálních koeficientů. Kepstrální detektory řeči

27 2.6. AKUSTICKÁ ANALÝZA f mel [mel] Obrázek 2.4: Melovská banka filtrů jsou poměrně spolehlivé a hranice použitelnosti pro detekci řeči v zarušeném prostředí je výrazně nižší než u detektorů energetických. Kepstrální analýza umožňuje ocenění fonetické struktury řeči, pomocí ní je možné zjistit, zda je segment řeči znělý či neznělý, periodu budícího signálu, je-li segment znělý, apod. Dále umožňuje popsat parametry hlasového ústrojí, protože se některé kepstrální koeficienty mapují na jeho parametry [88]. V důsledku je možné tvrdit, že kepstrální analýza je předurčena pro úlohy v oblasti zpracování řečového signálu včetně detekce řečové aktivity. Základní definice výpočtu kepstrálních koeficientů c[n] ze signálu x [n] je následující c[n] = Z 1 ln(z{x[n]}, (2.10) kde Z{ } je operátor pro z-transformaci. Uvedený vztah však není pro výpočet příliš praktický. Kepstrální koeficienty dostaneme obvykle náhradou z-transformace za DFT transformaci c[n] = IDFT {ln(dft{x[n]}}. (2.11) Tato pravděpodobně nejrozšířenější technika extrakce parametrů signálu je základem robustního VAD spolehlivého i v zašuměných prostředí Kepstrální koeficienty LPC Další možností výpočtu kepstrálních koeficientů je využití LPC koeficientů. K získání kepstrálních koeficientů je možné postupovat podle následujících vztahů c[0] = 1 2 ln(α), c[n] = a n 1 n 1 (n k)a k c[n k], n k=1 pro n > 0, přičemž a n = 0 pro n p, kde α je výkon chyby predikce a p je řád autoregresního modelu, a n jsou LPC koeficienty a c[n] jsou počítané kepstrální koeficienty. Takto získané kepstrum má rozdílné vlastnosti od kepstra vypočteného pomocí DCT. Jelikož LPC koeficienty modelují vyhlazenou spektrální obálku původního signálu, má i LPC kepstrum vyhlazený charakter, přičemž stupeň vyhlazení závisí na volbě řádu AR modelu.

28 12 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Vstupní signál Segmentace Spektrum Melovská Mel-spektrum DFT váhování banka filtrů ln DCT Mel-kepstrum Obrázek 2.5: Výpočet Melovských kepstrálních koeficientů Mel-frekvenční kepstrální koeficienty Mel-frekvenční kepstrální koeficienty patří mezi jedny z nejvíce používaných parametrizací. Pro detekci řečové aktivity je prezentovaného jejich použití například v [38]. Jsou navrženy tak, aby do jisté míry respektovali nelineární vnímání zvuků lidským uchem. Je totiž známo, že rozlišovací schopnost sluchu nelineárně klesá s rostoucí frekvencí. K tomu se využívají banky trojúhelníkových pásmových filtrů s lineárním rozložením frekvencí v tzv. Melovské frekvenční škále, jež je definována vztahem f m = 2595log 10 (1 + f ), (2.12) 700 kde f [Hz] je frekvence v lineární škále a f m [mel] je odpovídající frekvence v nelineární Melovské škále. Celý postup výpočtu mel-kepstrálních koeficientů je znázorněn na obrázku 2.5. Signál je nejdříve segmentován a váhován. Následně je spočítáno spektrum pomocí diskrétní Fourierovy transformace. Jeho amplitudová část vstupuje do Melovské banky filtrů, která je tvořena N trojúhelníkovými filtry standardně rozloženými přes celé frekvenční pásmo od nuly až do Nyquistovy frekvence. Tyto filtry se překrývají o 50% a dosahují maximální jednotkový přenos v polovině intervalu. Logaritmováním mel-spektra a inverzní Fourierovou transformací dostáváme Melovské kepstrální koeficienty. Jelikož pracujeme s nezáporným reálným mel-spektrem, je možné ukázat, že Fourierovu transformaci lze nahradit výpočetně méně náročnou diskrétní kosinovou transformací. Označíme-li logaritmus Melovského spektra jako mel[k] = ln(x mel [k]), (2.13) můžeme psát c i = 2 N N j=1 ( ) πi mel[j]cos (j 0,5), i = 1... N c, (2.14) N kde N c je počet požadovaných mel-kepstrálních koeficientu Perceptivně lineární prediktivní analýza Perceptivní lineární analýza se podobně jako Melovské kepstrální koeficienty snaží o popis spektrálních vlastností řečového signálu tak, aby lépe korespondoval ke způsobu, kterým slyší řečové zvuky člověk. To se dosahuje respektováním způsobu zpracování signálu lidským sluchem. Zohledňuje se několik základních faktorů.

29 2.6. AKUSTICKÁ ANALÝZA 13 Jednou z vlastností sluchu je, že jeho spektrální rozlišení klesá s rostoucí frekvencí. Dále platí, že je nejcitlivější uprostřed slyšitelného frekvenčního pásma. Vnímání zvuku je též ovlivněno tzv. maskováním zvuků, přičemž velikost šířky pásma se mění s frekvencí. Při výpočtu PLP parametrizace je vstupní signál nejprve segmentován a váhován, vypočteno výkonové spektrum P(ω), a dále se modelují uvedené jevy pomocí nelineární transformace původní osy frekvencí ω [rad/s] do Barkovy frekvenční stupnice Ω(ω) [bark] podle vztahu ( ) ω ( ω ) 2 Ω(ω) = 6 ln 1200π + + 1, (2.15) 1200π kde ω = 2πf a f je frekvence v Hz, a dále konstrukcí maskujících křivek, které simulují kritická pásma slyšení podle vztahů Ψ(Ω) = 0 pro Ω < 1, ,5(Ω+0.5) pro 1,3 Ω 0,5 1 pro 0, 5 < Ω < 0, 5 10 (0.5 Ω) pro 0,5 Ω 2,5 0 pro Ω > 2, 5. (2.16) Vlivem konvoluce výkonového spektra s funkcí Ψ(Ω) dojde ke snížení frekvenčního rozlišení spektra, což umožňuje zmenšit počet spektrálních čar, aniž by došlo ke ztrátě informace ve spektru [26]. Dále PLP parametrizace reflektuje nestejnou citlivost sluchu na různých frekvencích. Tento jev je popsán tzv. křivkami konstantní hlasitosti E(ω), které jsou dány následujícím vztahem odvozeným pro hladinu hlasitosti 40 Ph E(ω) = ω 4 (ω , ) (ω 2 + 6, ) 2 (ω , )(ω 6 + 9, ), f s > 10kHz Tento vztah platí pro vzorkovací kmitočet f s nad 10 khz, což je případ všech provedených experimentů. Poslední uvažovaná vlastnost sluchu je nelineární vnímání hlasitosti v závislosti na intenzitě zvuku. Ta je aproximovaná pomocí třetí odmocniny spektra a výsledná hodnota spektrálních PLP koeficientů Φ(Ω) je dána následujícím vztahem Φ(Ω) = (E(ω)Ψ[Ω(ω)]) 0,33. Pro zlepšení vlastností PLP parametrizace se provádí její převod do kepstrálního tvaru. Nejprve následuje přepočet pomocí inverzní diskrétní Fourierovy transformace. Získáné autokorelační koeficienty jsou dále převedeny pomocí lineárního prediktivního kódování na LPC koeficienty. Ty jsou nakonec transformovány do kepstrálních PLP koeficientů Metoda RASTA-PLP PLP RASTA parametrizační koeficienty (RelAtive SpecTrA) [27, 59] byly navrženy jako parametrizace, která zajišťuje ve většině případů ještě větší úspěšnost v oblasti rozpoznávání řeči než PLP koeficienty. Pro úlohu detekce řečové aktivity bylo prezentováno

Úvod do praxe stínového řečníka. Proces vytváření řeči

Úvod do praxe stínového řečníka. Proces vytváření řeči Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.

Více

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU 3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,

Více

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the

Více

Kepstrální analýza řečového signálu

Kepstrální analýza řečového signálu Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající Řečové detektory využívající ergodické Markovovské modely J. Tatarinov, P. Pollák České vysoké učení technické v Praze Fakulta elektrotechnická Abstrakt Tento článek prezentuje využití ergodických Markovovských

Více

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Petr Zlatník České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz Abstrakt:

Více

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16 Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip

Více

Algoritmy a struktury neuropočítačů ASN P8b

Algoritmy a struktury neuropočítačů ASN P8b Algoritmy a struktury neuropočítačů ASN P8b Úvod - přirozená řeč jako zvukový signál Základní pojmy z fonetiky Charakteristiky mluvené řeči Přirozená řeč jako zvukový signál Řeč (speech) - komplex technických,

Více

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese dat Radim Farana Podklady pro výuku Obsah Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese videa Velký objem přenášených dat Typický televizní signál - běžná evropská norma pracuje

Více

ADA Semestrální práce. Harmonické modelování signálů

ADA Semestrální práce. Harmonické modelování signálů České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte

Více

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA

Více

Klasifikace Landau-Kleffnerova syndromu

Klasifikace Landau-Kleffnerova syndromu Klasifikace Landau-Kleffnerova syndromu malých dětí 1. Abstrakt Petr Zlatník ČVUT FEL, K13131 Katedra teorie obvodů Tento příspěvěk pojednává o klasifikaci Landau-Kleffnerova syndromu, který se projevuje

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.

Více

Vlastnosti a modelování aditivního

Vlastnosti a modelování aditivního Vlastnosti a modelování aditivního bílého šumu s normálním rozdělením kacmarp@fel.cvut.cz verze: 0090913 1 Bílý šum s normálním rozdělením V této kapitole se budeme zabývat reálným gaussovským šumem n(t),

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Akustika. 3.1 Teorie - spektrum

Akustika. 3.1 Teorie - spektrum Akustika 3.1 Teorie - spektrum Rozklad kmitů do nejjednodušších harmonických Spektrum Spektrum Jedna harmonická vlna = 1 frekvence Dvě vlny = 2 frekvence Spektrum 3 vlny = 3 frekvence Spektrum Další vlny

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné

Více

1. Základy teorie přenosu informací

1. Základy teorie přenosu informací 1. Základy teorie přenosu informací Úvodem citát o pojmu informace Informace je název pro obsah toho, co se vymění s vnějším světem, když se mu přizpůsobujeme a působíme na něj svým přizpůsobováním. N.

Více

Klasifikace hudebních stylů

Klasifikace hudebních stylů Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů

Více

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ Katedra Teorie obvodů Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách Dizertační práce Josef Rajnoha Praha, únor

Více

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU ANALÝZU VÍCEKANÁLOVÝCH SIGNÁLŮ Robert Háva, Aleš Procházka Vysoká škola chemicko-technologická, Abstrakt Ústav počítačové a řídicí techniky Analýza vícekanálových

Více

FONETIKA A FONOLOGIE I.

FONETIKA A FONOLOGIE I. FONETIKA A FONOLOGIE I. AUTOR Mgr. Jana Tichá DATUM VYTVOŘENÍ 7. 9. 2012 ROČNÍK TEMATICKÁ OBLAST PŘEDMĚT KLÍČOVÁ SLOVA ANOTACE METODICKÉ POKYNY 3. ročník Český jazyk a literatura Český jazyk Fonetika,

Více

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace

Více

31SCS Speciální číslicové systémy Antialiasing

31SCS Speciální číslicové systémy Antialiasing ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE 2006/2007 31SCS Speciální číslicové systémy Antialiasing Vypracoval: Ivo Vágner Email: Vagnei1@seznam.cz 1/7 Převod analogového signálu na digitální Složité operace,

Více

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. 1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD

Více

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH Jan Klapuch, Petr Pollák České vysoké učení technické v Praze, Fakulta elektrotechnická, K13131 klapujan@fel.cvut.cz, pollak@fel.cvut.cz

Více

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky A0M38SPP - Signálové procesory v praxi - přednáška 7 2 Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky (momenty) Matematická definice korelační

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství Interaktivní systém pro detekci řečového signálu Interactive System with Speech

Více

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH Viktor Haškovec, Martina Mudrová Vysoká škola chemicko-technologická v Praze, Ústav počítačové a řídicí techniky Abstrakt Příspěvek je věnován zpracování biomedicínských

Více

Zvýrazňování řeči pomocí vícekanálového zpracování

Zvýrazňování řeči pomocí vícekanálového zpracování Zvýrazňování řeči pomocí vícekanálového zpracování Václav Bolom, Pavel Sovka Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 66 27 Praha 6 Abstrakt Problém

Více

Signál v čase a jeho spektrum

Signál v čase a jeho spektrum Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě

Více

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory Číslo projektu Číslo materiálu CZ.1.07/1.5.00/34.0581 VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory Název školy Střední odborná škola a Střední odborné učiliště, Dubno Autor Ing. Miroslav Krýdl Tematická

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který BIOLOGICKÉ A LÉKAŘSKÉ SIGNÁLY VI. VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU, tj. fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot okamžité

Více

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSOVÝCH SIGNÁLŮ Jiří TŮA, VŠB Technická univerzita Ostrava Petr Czyž, Halla Visteon Autopal Services, sro Nový Jičín 2 Anotace: Referát se zabývá

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3 MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš, Přemysl Jiruška 2,3 Katedra teorie obvodů, Fakulta elektrotechnická ČVUT, 2 Ústav fyziologie, Univerzita Karlova 2. lékařská

Více

Analýza a zpracování digitálního obrazu

Analýza a zpracování digitálního obrazu Analýza a zpracování digitálního obrazu Úlohy strojového vidění lze přibližně rozdělit do sekvence čtyř funkčních bloků: Předzpracování veškerých obrazových dat pomocí filtrací (tj. transformací obrazové

Více

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů A0M38SPP - Signálové procesory v praxi - přednáška 4 2 Číslicové filtry typu FIR a IIR definice operace filtrace základní rozdělení FIR, IIR základní vlastnosti, používané struktury filtrů návrhové prostředky

Více

Zvuková stránka jazyka

Zvuková stránka jazyka Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.00009 Zvuková stránka jazyka Zvukovou stránkou jazyka se zabývají dva vědní obory - fonetika a fonologie. Fonetika

Více

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx Lekce 2 Transceiver I transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx u mobilního telefonu pouze anténní přepínač řídící část dnes nejčastěji

Více

Nabídky spolupráce pro průmysl

Nabídky spolupráce pro průmysl Nabídky spolupráce pro průmysl České vysoké učení technické v Praze kontakty Prof. Ing. Pavel Sovka, CSc., e-mail: sovka@fel.cvut.cz doc. Dr. Ing. Jiří Hospodka, email: hospodka@fel.cvut.cz 17. dubna 2012

Více

Základní komunikační řetězec

Základní komunikační řetězec STŘEDNÍ PRŮMYSLOVÁ ŠKOLA NA PROSEKU EVROPSKÝ SOCIÁLNÍ FOND Základní komunikační řetězec PRAHA & EU INVESTUJEME DO VAŠÍ BUDOUCNOSTI Podpora kvality výuky informačních a telekomunikačních technologií ITTEL

Více

5 1. Úvod Automatického rozpoznávání řeči (Automatic Speech Recognition, ASR) je obor, ve kterém aktivní výzkum probíhá již od 60. let minulého století. V dnešní době nachází široké uplatnění, např. v

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy

Více

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely). Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči Úvod do praxe stínového řečníka Automatické rozpoznávání řeči Systém rozpoznávání řeči Řečník akustický řečový signál Akustická analýza O Akustický model Jazykový model p( O W) PW ( ) Dekodér W^ rozpoznaná

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace P. Mizera, P. Pollák České vysoké učení technické v Praze, Fakulta elektrotechnická, Katedra teorie obvodů mizerpet@fel.cvut.cz,

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces

Více

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové

Více

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky Při návrhu elektroakustických soustav, ale i jiných systémů, je vhodné nejprve

Více

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno Fonetika, rozpoznávání řeči HMM II. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Rozpoznávání řeči HMM Jan Černocký, ÚPGM FIT VUT Brno 1/20 Plán Něco z fonetiky fonetické abecedy.

Více

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY Lineární a adaptivní zpracování dat 1. ÚVOD: SIGNÁLY a SYSTÉMY Daniel Schwarz Investice do rozvoje vzdělávání Osnova Úvodní informace o předmětu Signály, časové řady klasifikace, příklady, vlastnosti Vzorkovací

Více

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY V PROSTŘEDÍ MATLAB K. Nováková, J. Kukal FJFI, ČVUT v Praze ÚPŘT, VŠCHT Praha Abstrakt Při rozpoznávání D binárních objektů z jejich diskrétní realizace se využívají

Více

popsat princip činnosti základních zapojení čidel napětí a proudu samostatně změřit zadanou úlohu

popsat princip činnosti základních zapojení čidel napětí a proudu samostatně změřit zadanou úlohu 9. Čidla napětí a proudu Čas ke studiu: 15 minut Cíl Po prostudování tohoto odstavce budete umět popsat princip činnosti základních zapojení čidel napětí a proudu samostatně změřit zadanou úlohu Výklad

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

Měření dat Filtrace dat, Kalmanův filtr

Měření dat Filtrace dat, Kalmanův filtr Měření dat Filtrace dat, Matematické metody pro ITS (11MAMY) Jan Přikryl Ústav aplikované matematiky ČVUT v Praze, Fakulta dopravní 3. přednáška 11MAMY čtvrtek 28. února 2018 verze: 2018-02-28 12:20 Obsah

Více

Klasifikace a rozpoznávání. Extrakce příznaků

Klasifikace a rozpoznávání. Extrakce příznaků Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám

Více

LPC. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

LPC. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39 LPC Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39 Plán signálový model artikulačního traktu. proč lineární predikce. odhad koeficientů filtru

Více

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt Vyhodnocování promluv dětí s poruchami řeči Petr Zlatník, Roman Čmejla Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha Abstrakt Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Více

Hlavní parametry rádiových přijímačů

Hlavní parametry rádiových přijímačů Hlavní parametry rádiových přijímačů Zpracoval: Ing. Jiří Sehnal Pro posouzení základních vlastností rádiových přijímačů jsou zavedena normalizovaná kritéria parametry, podle kterých se rádiové přijímače

Více

Moderní multimediální elektronika (U3V)

Moderní multimediální elektronika (U3V) Moderní multimediální elektronika (U3V) Prezentace č. 13 Moderní kompresní formáty pro přenosné digitální audio Ing. Tomáš Kratochvíl, Ph.D. Ústav radioelektroniky, FEKT VUT v Brně Program prezentace Princip

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014 A7B31ZZS 4. PŘEDNÁŠKA 13. října 214 A-D převod Vzorkování aliasing vzorkovací teorém Kvantování Analýza reálných signálů v časové oblasti řečové signály biologické signály ---> x[n] Analogově-číslicový

Více

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ 1. týden doc. Ing. Renata WAGNEROVÁ, Ph.D. Ostrava 2013 doc. Ing. Renata WAGNEROVÁ, Ph.D. Vysoká škola báňská

Více

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí Fyziologická akustika anatomie: jak to vypadá fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí hudební akustika: jak dosáhnout libých počitků Anatomie lidského ucha Vnější

Více

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

doc. Dr. Ing. Elias TOMEH   Elias Tomeh / Snímek 1 doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

Numerické řešení proudění stupněm experimentální vzduchové turbíny a budících sil na lopatky

Numerické řešení proudění stupněm experimentální vzduchové turbíny a budících sil na lopatky Konference ANSYS 2009 Numerické řešení proudění stupněm experimentální vzduchové turbíny a budících sil na lopatky J. Štěch Západočeská univerzita v Plzni, Katedra energetických strojů a zařízení jstech@kke.zcu.cz

Více

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy

Více

ZPRACOVÁNÍ SIGNÁLŮ Z MECHANICKÝCH. Jiří Tůma

ZPRACOVÁNÍ SIGNÁLŮ Z MECHANICKÝCH. Jiří Tůma ZPRACOVÁNÍ SIGNÁLŮ Z MECHANICKÝCH SYSTÉMŮ UŽITÍM FFT Jiří Tůma Štramberk 1997 ii Anotace Cílem této knihy je systematicky popsat metody analýzy signálů z mechanických systémů a strojních zařízení. Obsahem

Více

Využití neuronové sítě pro identifikaci realného systému

Využití neuronové sítě pro identifikaci realného systému 1 Portál pre odborné publikovanie ISSN 1338-0087 Využití neuronové sítě pro identifikaci realného systému Pišan Radim Elektrotechnika 20.06.2011 Identifikace systémů je proces, kdy z naměřených dat můžeme

Více

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Číslicová filtrace FIR filtry IIR filtry Tyto materiály vznikly za podpory Fondu rozvoje

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

NOVÉ METODY HODNOCENÍ OBRAZOVÉ KVALITY

NOVÉ METODY HODNOCENÍ OBRAZOVÉ KVALITY NOVÉ METODY HODNOCENÍ OBRAZOVÉ KVALITY Stanislav Vítek, Petr Páta, Jiří Hozman Katedra radioelektroniky, ČVUT FEL Praha, Technická 2, 166 27 Praha 6 E-mail: svitek@feld.cvut.cz, pata@feld.cvut.cz, hozman@feld.cvut.cz

Více

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut.

KOMPRESE OBRAZŮ. Václav Hlaváč. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. hlavac@fel.cvut. 1/24 KOMPRESE OBRAZŮ Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD 2/24 Cíl:

Více

České vysoké učení technické v Praze Fakulta elektrotechnická Katedra elektroenergetiky. Komunikace po silových vedeních Úvod do problematiky

České vysoké učení technické v Praze Fakulta elektrotechnická Katedra elektroenergetiky. Komunikace po silových vedeních Úvod do problematiky České vysoké učení technické v Praze Fakulta elektrotechnická Katedra elektroenergetiky Komunikace po silových vedeních Úvod do problematiky 8. přednáška ZS 2011/2012 Ing. Tomáš Sýkora, Ph.D. Šíření signálů

Více

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY TEMATICKÉ OKRUHY Signály se spojitým časem Základní signály se spojitým časem (základní spojité signály) Jednotkový skok σ (t), jednotkový impuls (Diracův impuls)

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

Měření doby dozvuku LABORATORNÍ ÚLOHA ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Fakulta elektrotechnická. V rámci předmětu:

Měření doby dozvuku LABORATORNÍ ÚLOHA ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. Fakulta elektrotechnická. V rámci předmětu: ČESKÉ YSOKÉ UČENÍ ECHNICKÉ PAZE Fakulta elektrotechnická LABOAONÍ ÚLOHA Měření doby dozvuku ypracovali: rámci předmětu: Specifikace: Jan HLÍDEK Multimediální technika a televize (X37M) Zvuková část předmětu

Více

Digitalizace převod AS DS (analogový diskrétní signál )

Digitalizace převod AS DS (analogový diskrétní signál ) Digitalizace signálu v čase Digitalizace převod AS DS (analogový diskrétní signál ) v amplitudě Obvykle převod spojité předlohy (reality) f 1 (t/x,...), f 2 ()... připomenutí Digitalizace: 1. vzorkování

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

Multimediální systémy

Multimediální systémy Multimediální systémy Jan Outrata KATEDRA INFORMATIKY UNIVERZITA PALACKÉHO V OLOMOUCI přednášky Získání obsahu Jan Outrata (Univerzita Palackého v Olomouci) Multimediální systémy Olomouc, září prosinec

Více

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST 9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST Modulace tvoří základ bezdrátového přenosu informací na velkou vzdálenost. V minulosti se ji využívalo v telekomunikacích při vícenásobném využití přenosových

Více

Náhodné signály. Honza Černocký, ÚPGM

Náhodné signály. Honza Černocký, ÚPGM Náhodné signály Honza Černocký, ÚPGM Signály ve škole a v reálném světě Deterministické Rovnice Obrázek Algoritmus Kus kódu } Můžeme vypočítat Málo informace! Náhodné Nevíme přesně Pokaždé jiné Především

Více

NPGR032 CVIČENÍ III. Šum a jeho odstranění teorie&praxe. Adam Novozámský (novozamsky@utia.cas.cz)

NPGR032 CVIČENÍ III. Šum a jeho odstranění teorie&praxe. Adam Novozámský (novozamsky@utia.cas.cz) NPGR032 CVIČENÍ III. Šum a jeho odstranění teorie&praxe Adam Novozámský (novozamsky@utia.cas.cz) TEORIE Šum a jeho odstranění ŠUM Co je to šum v obrázku a jak vzniká? Jaké známe typy šumu? ŠUM V obrázku

Více

Implementace Bayesova kasifikátoru

Implementace Bayesova kasifikátoru Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6

Více

Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti

Šablona: I/2Inovace a zkvalitnění výuky směřující k rozvoji čtenářské a informační gramotnosti STŘEDNÍ ODBORNÁ ŠKOLA A STŘEDNÍ ODBORNÉ UČILIŠTĚ NERATOVICE Školní 664, 277 11 Neratovice, tel.: 315 682 314, IČO: 683 834 95, IZO: 110 450 639 Ředitelství školy: Spojovací 632, 277 11 Neratovice tel.:

Více

EXPERIMENTÁLNÍ METODY I 10. Měření hluku

EXPERIMENTÁLNÍ METODY I 10. Měření hluku FSI VUT v Brně, Energetický ústav Odbor termomechaniky a techniky prostředí prof. Ing. Milan Pavelek, CSc. EXPERIMENTÁLNÍ METODY I 10. Měření hluku OSNOVA 10. KAPITOLY Úvod do měření hluku Teoretické základy

Více

Zvuk. 1. základní kmitání. 2. šíření zvuku

Zvuk. 1. základní kmitání. 2. šíření zvuku Zvuk 1. základní kmitání - vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin - podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění elastického

Více

teorie elektronických obvodů Jiří Petržela analýza šumu v elektronických obvodech

teorie elektronických obvodů Jiří Petržela analýza šumu v elektronických obvodech Jiří Petržela co je to šum? je to náhodný signál narušující zpracování a přenos užitečného signálu je to signál náhodné okamžité amplitudy s časově neměnnými statistickými vlastnostmi kde se vyskytuje?

Více

1. Úvod Jednou z! "# $ posledn % & $$' ( )(( (*+ % ( (* $ $%, (* ( (* obvodech pro elektronickou regulaci.*' (( $ /

1. Úvod Jednou z! # $ posledn % & $$' ( )(( (*+ % ( (* $ $%, (* ( (* obvodech pro elektronickou regulaci.*' (( $ / Praze 1. Úvod Jednou z! "# $ posledn % & $$' ( )(( (*+ % ( (* $ $%, (* ( (* obvodech pro elektronickou regulaci ' (% tramvajích a trolejbusech s tyristorovou výstrojí nebo v pohonech '$ (-- %.*' (( $ /

Více