České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE. Robustní parametrizace řeči na bázi

Rozměr: px
Začít zobrazení ze stránky:

Download "České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE. Robustní parametrizace řeči na bázi"

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE Robustní parametrizace řeči na bázi časových trajektorií Autor: Vedoucí práce: Bc. Vojtěch Ondráček Doc. Ing. Petr Pollák, CSc.

2 Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady (literaturu, projekty, SW atd.) uvedené v přiloženém seznamu. V Praze dne podpis i

3 Poděkování Děkuji především vedoucímu diplomové práce panu Doc. Ing. Petru Pollákovi, CSc. za výborné vedení, cenné rady a psychickou podporu při realizaci dané problematiky a Ing. Petru Fouskovi, Ph.D. za technickou podporu. ii

4 iii

5 Abstrakt Tato práce se zabývá analýzou robustnosti příznaků řečového signálu na bázi časových trajektorií (TempoRAl Patterns - TRAP). Popisuje základní variantu TRAP parametrizace pracující přímo s trajektoriemi výkonu v kritických pásmech, tak i variantu TRAP parametrizace, která redukuje počet příznaků časových trajektorií spektrogramu na základě reprezentace trajektorie pomocí DCT transformace. Prezentuje rozšířenou verzi TRAP-DCT parametrizace, která před výpočtem příznaků z časových trajektorií spektrogramu potlačuje aditivním šum pomocí rozšířeného spektrálního odečítání. Konečným výstupem TRAP parametrizace jsou aposteriorní pravděpodobnosti hlásek, které jsou získány mapováním z TRAP trajektorií pomocí umělých neuronových sítí. Použití neuronových sítí bylo řešeno dvěma způsoby: pomocí balíčku MALTAB Neural Network Toolbox (NNTbx), nabízející grafické rozhraní a snadnou analýzu natrénovaných neuronových sítí, a pomocí nástroje QuickNet, který pracuje bez grafického rozhraní a jehož výhodou je efektivní a rychlý postup trénování velkých neuronových sítí. Balíček QuickNet však překonával především hlavní omezení balíčku NNTbx v MATLABu, a to obtížnost trénování neuronových sítí větších rozměrů. V závěru práce jsou uvedeny výsledky experimentů analyzující robustnost základní a modifikované TRAP-DCT parametrizace i s použitím rozšířeného spektrálního odečítání. Testování a analýza správnosti vyhodnocení klasifikace neuronové sítě probíhala také při různém nastavení počtu neuronů ve skryté vrstvě neuronové sítě a pro různý objem dat pro trénování neuronové sítě. iv

6 Abstract This thesis deals with an analysis of the robustness of speech features based on TempoRAl Patterns (TRAP). It describes basic version of TRAP parametrization, working directly with temporal trajectories of power in critical bands, as well as with the version of TRAP parametrization, which works with reduced number of parameters describing temporal trajectories using Discrete Cosine Transform. It also presents an extended version of TRAP-DCT parametrization which suppresses an additive background noise in temporal critical-band trajectories by frequency-domain algorithm of extended spectral subtraction. The a posterior probabilities of particular phonemes are the final output of TRAP parametrization and they are obtained by mappings using artificial neural networks. The usage of neural networks was solved in two ways: firstly, using MATLAB Neural Network Toolbox (NNTbx), offering graphic interface and easy analysis of trained neural networks, and secondly, using QuickNet toolkit which worked without graphic interface but which had the advantage of efficient and fast training of large neural networks. Mainly, QuickNet toolkit overcame the main disadvantage of MATLAB NNTbx, i.e. difficulties and limitations in training of very large neural networks. Finally, analysis of basic and modified TRAP-DCT features robustness was realized within the last part of this thesis, commonly with the contribution of extended spectral subtraction in critical-band spectrogram computation. The testing of neural network classification accuracy was realized also for different settings of number of neurons in hidden layer and also for different amounts of training data. v

7 Obsah Seznam obrázků Seznam tabulek viii ix 1 Úvod 1 2 Řečové příznaky Řečový signál Vnímání řeči Krátkodobé a dlouhodobé příznaky TRAP parametrizace Spektrogram v kritických pásmech Základní TRAP příznaky TRAP-DCT TRAP se spektrálním odečítáním Mapování do tříd Neuronové sítě Základní popis MLP Princip trénovaní Implementace Softwarové balíčky Implementace TRAP parametrizace v MATLABu Klasifikace tříd, hlásek Trénovaní neuronových sítí v NNTbx Použití neuronových sítí v QuickNetu vi

8 5 Experimenty Databáze SPEECON Výběr parametriazce Testování na množství trénovacích dat Testování na 3-5 vrstvé MLP Testování CtuCopy - TRAP-DCT Počet neuronů ve skryté vrstvě Ilustrativní ukázka Závěr 38 Literatura 41 A Obsah přiloženého CD I vii

9 Seznam obrázků 2.1 Závislost frekvence na subjektivní výšce tónu Spektrogram řeči: Vlevo - Příznaky z krátkodobého spektra. Vpravo - příznaky z dlouhodobého spektra Schéma TRAP-MLP Melovská banka filtrů Schéma výpočtů kritické banky filtrů Schéma základního systému TRAP-MLP Srovnání krátkodobých a TRAP příznaků Schéma TRAP-DCT-MLP Schéma TRAP-DCT-Exten Schéma rozšířeného spektrálního odečítání Model elementárního neuronu Schéma MLP Úspěšnost klasifikace na množství trénováních dat Úspěšnost klasifikace na počtu neuronů ve skryté vrstvě Referenční klasifikace tříd na segment řeči Aposteriorní pravděpodobnosti tříd na segment řeči Vyhodnoceni nejvyšší aposteriorní pravděpodobnosti na segment řeči.. 37 viii

10 Seznam tabulek 4.1 Struktura textového souboru Struktura textového souboru požadovaných tříd Srovnání aposteriorních pravděpodobností hlásky Výběr dat z databáze - trénovací data Výběr dat z databáze - testovací data Úspěšnost klasifikace TRAP, TRAP-DCT Klasifikace TRAP-DCT na délce trénovacích dat Klasifikace TRAP-DCT-Exten na délce trénovacích dat Úspěšnost klasifikace TRAP-DCT na 3-5 vrstvé MLP Úspěšnost klasifikace TRAP-DCT-Exten Úspěšnost klasifikace TRAP-DCT na počtu neuronů Úspěšnost klasifikace TRAP-DCT-Exten na počtu neuronů Úspěšnost klasifikace hlásek ix

11 Kapitola 1 Úvod Základní a nejrozšířenější komunikace pro přenos informací mezi lidmi je mluvená řeč. V dnešní době rozvíjející se výpočetní techniky se zvyšují nároky na přirozenost komunikace mezi přístrojem a člověkem. Přirozenost této komunikace může být zvýšena právě prostřednictvím mluvené řeči. Cílem je, aby počítač byl schopen plnohodnotného dialogu s člověkem. Tento typ komunikace nám může přinést určité pohodlí nebo umožní handicapovaným lidem alternativní formu komunikace mezi počítačem. Hlasovou komunikaci dnes nalezneme například v mobilních telefonech, interaktivních aplikacích, osobních počítačích, automatizovaných informačních systémech, apod. [9] [12]. Tyto systémy jistě nejsou stále dokonalé, existuje zde stále mnoho problémů při automatickém rozpoznávání řeči, které je možné překonat a zvýšit tak spolehlivost hlasové komunikace. Jednou z cest, kde je možné hledat řešení, je oblast extrakce příznaků, které by byly robustní vůči přítomnému rušení. Většina systémů pro automatické rozpoznávání řeči používá příznaky z krátkých časových úseků řeči, tzv. krátkodobé příznaky. Tento způsob rozpoznávání řeči ovšem nezachycuje delší časový kontext, který je v řeči přirozeně přítomen. Základní myšlenkou je tedy zavést do příznaků informaci z delšího časového kontextu [5] než u běžných krátkodobých parametrizací. Tato práce popisuje metodu extrakce příznaků, pracující na bázi časových trajektorií řeči (TempoRAl Patterns - TRAP), které zachycují delší časový kontext řeči. Její modifikací a robustní variantou eliminující vliv aditivního šumu v řečovém signálu, pro zvýšení odolnosti a spolehlivosti při použití v přirozeného prostředí. Jádrem práce je analýza robustnosti TRAP parametrizace s užším zaměřením na aditivní šum v automobilu. Dále postup extrakce TRAP příznaků získaných mapováním z časových trajektorií řeči, kde mapování TRAP trajektorií probíhá pomocí umělých neuronových sítí (Neural TRAP). Vyhodnocení úspěšnosti klasifikace neuronové sítě bude 1

12 KAPITOLA 1. ÚVOD 2 probíhat na bázi aposteriorních pravděpodobností jednotlivých tříd (hlásek). Nakonec příprava vhodných trénovacích a testovacích dat pro dostatečné vyhodnocení TRAP parametrizace v reálných podmínkách. Práce je rozdělena do následujících kapitol. Druhá kapitola Řečové příznaky popisuje extrakci řečových příznaků, které jsou založeny na principu vnímání řeči lidským uchem. Následující kapitola TRAP parametrizace rozebírá postup extrakce příznaků z TRAP trajektorií i s použitím spektrálního odečítání. Podkapitola Trénování neuronových sítí popisuje strukturu a princip trénování umělých neuronových sítí a jejich následná realizace pomocí různých nástrojů je popsaná v kapitole Implementace. Kapitola Experimenty srovnává pokusy výsledků TRAP parametrů s použitím různých nastavení neuronové sítě a závěrečná kapitola pak shrnuje obecné výsledky celé práce.

13 Kapitola 2 Řečové příznaky Aplikace pro rozpoznávání řeči nepracují s časovými vzorky signálu, ale s řečovými příznaky. Časové vzorky signálu obsahují velké množství redundantní informace a velký počet vstupních dat na vstupu do klasifikátoru. Pro účely klasifikace je tedy vhodné volit řečové příznaky, které obsahují již komprimovanou podobu potřebné informace. Vhodné řešení může být použití autoregresních koeficientů, které určují vyhlazený odhad amplitudového spektra signálu na bázi lineární predikce [12], nebo použíti kepstrálních koeficientů, které aproximují tvar amplitudové spektra signálu a též zahrnují nelineární vnímání frekvence lidským sluchem. Mnohé metody extrakce příznaků (např. i v této práci popisované TRAP příznaky), jsou založeny na modelech vnímání řeči lidským uchem. Z tohoto důvodu je v této kapitole uveden stručně princip vnímání mluvené řeči [9]. 2.1 Řečový signál Zvukovou podobu řeči zachycují fonémy, ale pouze formálně. Fonémy jsou definovány jako elementy, které svou sekvencí ztotožňují zvukovou podobu každého slova. Konkrétní zvukovou podobu vysloveného fonému nazýváme hláska, která je základním kamenem při rozpoznávání jednotlivých fonému v aplikacích pro rozpoznávání řeči. Pro současnou češtinu se dá určit 39 fonému, kde množinu zvukových realizací v rámci téhož fonému nazýváme alofon. V této práci používáme i 6 alofonů, tedy nakonec pracujeme s 45 hláskami a jednou třídou, reprezentující šum v pozadí. Vlivem setrvačností mluvícího ústrojí je informace fonému rozprostřena v delším časovém úseku, tj. hláska je ovlivněna posloupností 3

14 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 4 předchozích a následujících hlásek. Nejpřesnější zachycení hlásky tedy dostaneme, když bude zachycena v co nejdelším časovém kontextu (koartikulace), např. použitím trifónu místo monofónu. Standardně používané parametrizace popisují spolu se statickými příznaky jejich časový vývoj. Z tohoto důvodu ke statickým příznakům přidáváme dynamické koeficienty označované jako delta a delta-delta parametry (diferenciální a akcelerační parametry), které zachycují kratší časový kontext řeči. V současné době se však ukazuje, že informace pro rozpoznávání řeči je zakódována ve změnách dynamiky spektra, tedy v delším časovém kontextu. 2.2 Vnímání řeči Pro pochopení některých způsobů zpracovaní řečového signálu je třeba poznat teorii vnímání řeči. Významné zjištění nastalo u vnímání výšky zvuku, které neodpovídá fyzikální výšce zvuku v Hz. Z tohoto důvodu byla zavedena tzv. subjektivní výška zvuku, jejíž jednotkou je mel 1. Při experimentech na frekvenci 1000 Hz bylo určeno, že subjektivní výška pro mel-frekvenci při 40 Ph je 1000 mel. Ostatní subjektivní výšky tonů se určí srovnáním jejich výšky s výškou nějakého referenčního tónu, kde následnou aproximací těchto bodů získali Stevens a Volkmann následující rovnici [9], m = 2595 log 10 (1 + f ), (2.1) 700 kde m je subjektivní výška v mel a f značí frekvenci v Hz. Tato funkce je zobrazena na obr Přítomnost šumu v určitém frekvenčním pásmu snižuje schopnost slyšet tón, který se nachází ve stejném pásmu, ale podle Fletchera [1] nemá vliv na naši schopnost vnímat daný tón v odlišném pásmu. Tento jev byl vysvětlen tím, že člověk používá jakýsi psychologický filtr, který ignoruje jiný šum ležící mimo dané frekvenční pásmo. Poslouchaný frekvenční tón určuje šířku takového kritického pásma. Tedy toto pásmo lze chápat jako frekvenční, ve kterém dochází ke zřetelným změnám při subjektivním vnímání zvuku. Z rozsahů slyšitelných frekvencí od 16 Hz do 16 khz lze dle Zwickera rozdělit tento rozsah na 24 pásem. Díky této skutečnosti byla navržena druhá používaná Barkova stupnice, kde tyto pásma odpovídají horní mezní frekvenci kritického pásma. Průměrná šířka kritického pásma je asi 137 mel 1 Bark. Dále bylo zjištěno, že šířky kritickým pásem 1 Mel - melodie, zkratka z anglického slova

15 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 5 frekvence [mel] frekvence [Hz] Obrázek 2.1: Závislost frekvence na subjektivní výšce tónu odpovídají zhruba 1,3 mm dlouhým úseků na bazilární membráně vnitřního ucha. Při délce bazilární membrány 32 mm lze toto chování modelovat 24 pásmovými filtry. Této vlastnosti s využívá při zpracovaní řečového signálu například při melovské kepstrální filtraci nebo perceptivní lineární analýze. 2.3 Krátkodobé a dlouhodobé příznaky Výběrem vhodných informativních příznaků (parametrizace řečového signálu), rozumíme extrakci takových příznaků, které obsahují veškeré informace pro další vhodné zpracování v komprimované podobě. V minulosti byla preferována cela řada technik pro parametrizaci řeči s ohledem na výkon výpočetní techniky a stavem poznání chování lidské řeči, které jsou založeny na zjištěných teoretických poznatcích modelovaní teorie slyšení a modelování řečové produkce, tj. např. používané PLP koeficienty (Perceptual Linear Prediction), pracující na bázi křivek hladin stejné hlasitosti, mel-frekvenční kepstrální koeficienty (MFCC - Mel Frequency Cepstral Coefficients) a LPC koeficienty (Linear predictive coding). I přes obrovský pokrok ve zpracování a parametrizaci řečového signálu nebyla nalezena taková technika pro extrakci příznaků, která by nesla hlavní a stěžejní informace pro následné zpracování. Velká část parametrizačních technik zpracovává řečový signál postupně pomocí mik-

16 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 6 rosegmentů (délka mikrosegmentu má obvykle délku 10 ms), kde výsledky jsou průběžně předkládány klasifikátoru. Ovšem tyto mikrosegmenty - krátkodobé spektrální parametry, jsou velice citlivé na změny a poruchy v komunikačním kanálu. Modernější parametrizační metody řečového signálu se snaží zachytit časovou závislost těchto mikrosegmentů s cílem dosažení vyšší robustnosti vůči chybám. Jednou z těchto metod, která bere informaci pro klasifikaci z dlouhých úseků výstupu jednotlivých kritických pásem filtrů spektrogramu viz obr 2.2, se nazývá TempoRAl Paterns parametrizace (TRAPs) [4] [5]. frekvence klasifikátor frekvence klasifikátor čas čas Obrázek 2.2: Spektrogram řeči: Vlevo - Příznaky z krátkodobého spektra. Vpravo - příznaky z dlouhodobého spektra

17 Kapitola 3 TRAP parametrizace Tato metoda parametrizace řečového signálu pracuje s delší kontextuální závislostí jednotlivých segmentů, které vychází z časových trajektorií spektrogramu. Typická délka úseku časové trajektorie je přibližně 1 s, kde tento vybraný úsek obsahuje informaci nejen o středového fonému, ale i informace o okolních fonémech. Konečnou informaci dostaneme vhodným sloučením parametrů ze všech časových trajektorií v kritických pásmech. Základní schéma TRAP parametrizace je uvedeno na obr. 3.1, Spektrogram v kritických pásmech frekvence čas foném MLP TRAP příznaky Obrázek 3.1: Schéma TRAP-MLP kde MLP (MultiLayer Perceptron) je umělá dopředná neuronová síť, jejíž základní popis je uveden v následující kapitole

18 KAPITOLA 3. TRAP PARAMETRIZACE Spektrogram v kritických pásmech Spektrogram v kritických pásmech dostaneme stejným postupem jako např. při počítání mel-kepstrálních koeficientů. Postup získání spektrogramu v kritických pásmech je rozdělen do několika kroků: Preemfáze Před vlastním zpracování v časové oblasti je vhodné provést preemfázi - kompenzace útlumu vyšších kmitočtových složkách spektra. Realizuje se jednoduchou pre-filtrací filtrem 1. řádu. Preemfáze je dána rovnicí s [n] = s[n] m.s[n 1], (3.1) kde m je koeficient preefáze, který nabývá hodnot 0, 9 < m < 1. Segmentace Zpracovávaný signál je rozdělen na krátké segmenty stejných délek (kvazistacionární úseky), které jsou váhovány vhodným okénkem a následně převedeny do frekvenční oblasti pomocí krátkodobé DFT transformace (Diskrétní Fourierova transformace). Nejpoužívanější okénko se používá Hammingovo okno, které zabraňuje nežádoucímu prosakování ve spektru. Hammingovo okno délky N vzorků je dáno rovnicí kde n nabývá hodnot 0 n N 1. w[n] = 0, 54 0, 46 cos 2πn N, (3.2) Melovský spektrogram v kritických pásmech Po preemfázi a segmentaci přejdeme k vlastní zpracování řeči ve frekvenční oblasti. Z pohledu vnímání řeči se frekvence jednotlivých tónů musí upravit dle nelineárního slyšení lidským uchem, tedy převodem frekvence z frekvenční na melodickou stupnici, dle následující rovnice Mel(f) = f mel = 2595 log 10 (1 + f ). (3.3) 700 Tento převod frekvence se provede pro každé subjektivní frekvenční pásmo, od kterého je odvozena melovská banka filtrů. Melovská banka filtrů obsahuje tedy nelineární frekvenční osu s M pásmy, které mají přenosovou frekvenční charakteristiku trojúhelníkového tvaru stejné šířky s 50% překryvem.

19 KAPITOLA 3. TRAP PARAMETRIZACE 9 H [k] k diskretni frekvence [ ] Obrázek 3.2: Melovská banka filtrů Po průchodu spektrogramu melovskou bankou filtrů dostaneme spektrogram v kritických pásmech, kde pro další výpočty se vychází z logaritmu energie v jednotlivých pásmech. Blokové schéma celého procesu je zobrazeno na obr s[n] FFT S[k] FILTER f ln(.) ln f bank,k bank,k BANK Obrázek 3.3: Schéma výpočtů kritické banky filtrů 3.2 Základní TRAP příznaky U první základní verze TRAP parametrizace [5] jsou příznaky počítání z každé časové trajektorie jednotlivých kritických frekvenčních pásem amplitudového spektra. Typická délka této časové trajektorie je 1000 ms, tedy 101 segmentů při segmentaci s krokem 10 ms. Prostřední (centrální) segment reprezentuje krátkodobé příznaky aktuálního fonému a zbylých 50 segmentů z každé strany jeho kontextuální závislost. Tyto trajektorie se následně mapují do tříd, kde výstupem mapování jsou aposteriorní pravděpodobnosti jednotlivých hlásek v daném segmentu řeči. Pro mapování časových trajektorií se používá umělá neuronová síť ANN 1 [4]. V minulosti z důvodů nedostatečného výpočetního vý- 1 ANN - Artificial Neural Network

20 KAPITOLA 3. TRAP PARAMETRIZACE 10 konu, byla každá časová trajektorie z kritického frekvenčního pásma vstupem do menších neuronových sítí viz obr. 3.4, kde v dalším kroku byla provedena finální klasifikace do jednotlivých tříd pomocí jedné větší neuronové sítě. V dnešní době je možné provádět kompletní klasifikace pomocí jedné velké neuronové sítě. Spektrogram v kritických pásmech TRAP MLP MLP frekvence čas foném 101 segmentů TRAP 101 segmentů TRAP MLP MLP TRAP příznaky MLP Obrázek 3.4: Schéma základního systému TRAP-MLP Při délce časové trajektorie spektrogramu 101 segmentů, kde spektrogram má 24 kritických pásem, dostaneme celkem 2424 příznaků na daný segment řeči. Je tedy tendence tento velký počet příznaků redukovat, při dodržení stejné délky časového kontextu. 3.3 TRAP-DCT Možným řešením redukce příznaků je použití modifikované TRAP-DCT (Discrete Cosine Transform) parametrizace, která vychází ze základní TRAP parametrizace. Zásadní změnou je použití DCT transformace na časový vývoj každého kritického frekvenčního pásma spektra, tj. parametrizací časové trajektorie spektrogramu. Máme tedy kritické mel-spektrum (výkonové, amplitudové), kde z každého kritického frekvenčního pásma se vezme časová trajektorie o délce 1000 ms (101 segmentů při segmentaci s krokem 10 ms), naváhuje se Hammingovým okénkem a z parametrizuje se pomocí DCT transformace. DCT transformace převádí časovou trajektorii do frekvenční oblasti, kde na základě vlastností kompresních metod DCT transformace stačí použít pouze prvních 25 DCT koeficientů [3], které obsahují nevýznamnější informace pro následnou klasifikaci. DCT transformace se oproti DFT (Diskrétní Fourierova Transformace) preferuje z důvodu lepších kompresních vlastností, jelikož v první části spektra leží převážná část informace

21 KAPITOLA 3. TRAP PARAMETRIZACE 11 (výkonu). Blokové schéma postupu výpočtu TRAP-DCT parametrů, ve srovnání s postupem extrakce MFCC koeficientů, je zobrazeno na obr s[n] FFT FILTER BANK ln(.) IFFT kepstrum TRAP DCT TRAP DCT kepstrum trajektorie log. energie DCT parametry trajektorie Obrázek 3.5: Srovnání krátkodobých a TRAP příznaků Oproti základní TRAP parametrizaci je dosahováno pomocí TRAP-DCT parametrizace mnohem menšího množství vstupních příznaků na vstupu neuronové sítě (600 příznaků), což umožňuje použít pro mapování pouze jednu velkou umělou neuronovou síť s menším počtem neuronů, viz obr Spektrogram v kritických pásmech DCT 25 DCT koef. MLP frekvence 101 segmentů 101 segmentů DCT DCT 25 DCT koef. 25 DCT koef. TRAP příznaky čas foném Obrázek 3.6: Schéma TRAP-DCT-MLP 3.4 TRAP se spektrálním odečítáním Pro parametrizaci řečového signálu v prostředích se silným aditivním šumem (pilotní kabiny, hlučné ulice, automobil za jízdy a jiné), je vhodné tento aditivní šum redukovat před dalším zpracováním, neboť metody pro parametrizaci řeči jsou citlivé na přítom-

22 KAPITOLA 3. TRAP PARAMETRIZACE 12 nost šumů. Techniky pro redukci aditivních šumů se standardně používají při výpočtech MFCC a PLP parametrizací [10]. Existuje mnoho způsobů pro redukci šumů jak v časové, tak ve frekvenční oblasti, ovšem neexistuje efektivní metoda použitelná pro redukci libovolného šumu v celém spektru možných aplikací. Tato práce se zaměřuje na studium vlastností verze TRAP příznaků, které pracují se spektrogramem v kritických pásmech s potlačeným aditivním šumem. Jedna z těchto možnosti TRAP-DCT-Exten redukuje šum ve frekvenční oblasti pomocí použití metody tzv. rozšířeného spektrálního odečítání viz obr s[n] FFT spektrální odečítání EXTEN FILTER BANK ln(.) TRAP DCT DCT parametry trajektorie Obrázek 3.7: Schéma TRAP-DCT-Exten Metoda rozšířeného spektrální odečítání pomocí Wienerovi filtrace předpokládá, že přítomný šum je kvazistacionární pomalu se měnící proces a dále předpokládá rychlejší spektrální změny řeči. Tato metoda nepoužívá detektor řečové aktivity a v průběhu promluvy mění vlastní parametry na bázi rychlosti změn ve spektrálních charakteristikách mezi řečí a šumem. Výsledný signál dostaneme pomocí rovnice N[k] = X[k] S[k], (3.4) kde S[k] je šum v signálu a X[k] je řečový signál s aditivním šumem. Jádrem této metody je přizpůsobený filtr, který odhaduje amplitudové spektrum šumu N i [k] = H i [k] X i [k], k = 0,..., M 1, (3.5) kde zisk filtru H[k] je určen rekurentně z kvadrátů minulých vyhlazených odhadů amplitudových spekter H i [k] 2 N i 1 [k] 2 = S i 1 [k] 2 2, k = 0,..., M 1, (3.6) + N i 1 [k] kde veličina N i [k] je odhadována rekurentně N i [k] = p N i 1 [k] + (1 p) N i [k], k = 0,..., M 1, (3.7)

23 KAPITOLA 3. TRAP PARAMETRIZACE 13 Typická hodnota parametru p je dle experimentů Veličiny N i [k] a S i [k] určují zisku filtrů H i [k], kde S i [k] = Xi [k] N i [k], k = 0,..., M 1. (3.8) Amplitudové spektrum řeči s redukovaným šumem je získáno rozdílem mezi odhadem šumu a vstupním spektrem, S i [k] = X i [k] N i [k], k = 0,..., M 1. (3.9) Na obr. 3.8 je zobrazeno grafické znázornění postupu rozšířeného spektrálního odečítání pro potlačení aditivních šumů pomocí Wienerovi filtrace. s[n] FFT Wienerův filtr N i 2 Ŝ i 2 X i 2 S i-1 2 p S i 2 N i-1 2 N i 2 Průměrování šumu Spektrální odečítání Obrázek 3.8: Schéma rozšířeného spektrálního odečítání 3.5 Mapování do tříd Při použití již zmíněných TRAP parametrizací v cílovém systému rozpoznávání řeči je nutné redukovat velký počet vstupních parametrů před následnou klasifikací, např. při vstupu do skrytých Markovových modelů (HMM). Jako vhodné řešení se ukázalo použití umělé neuronové sítě. Tato síť provádí nelineární mapování z jednoho prostoru do druhého s rozdílnou dimenzí, jejímž výsledkem je odhad aposteriorních pravděpodobností jednotlivých fonetických tříd, pro nás tedy hlásek. TRAP příznaky jsou tedy aposteriorní pravděpodobnosti jednotlivých hlásek, které jsou vstupem do další části rozpoznávače.

24 KAPITOLA 3. TRAP PARAMETRIZACE 14 Typická struktura umělé neuronové sítě je vícevrstvý perceptron (MLP - MultiLayer Perceptron), která je realizována různými programy, např. komerčním nástrojem MATLAB Neural Network Toolbox nebo balíčkem QuickNet, který je volně dostupným nástrojem z University of California at Berkeley [6]. 3.6 Neuronové sítě Inspirací pro neuronové sítě najdeme v nervových soustavách v živých organismů. První modely neuronu vznikly v roce 1943 (McCullock a Pitts). Neuronové sítě představují systémy s umělou inteligencí, které jsou označovány jako učící systémy. Výhodou neuronových sítí je, že oproti standardním algoritmům, dokáží řešit úlohy s omezenými a neúplnými daty. Neuronové sítě se začínají aplikovat ve stále více systémech např. při predikci časových řad, rozpoznávání obrazců, detekcí poruch a v ekonomice. První umělou neuronovou síť objevil v roce 1958 Frank Rosenblatt. Tato síť nese název Perceptron - model fungování neuronu v lidském mozku. Pro naše účely, se využívá vícevrstvá dopředná neuronová síť (MLP) pro řadu výhod [3], 1. MLP je diskriminativní klasifikátor, výstupem jsou aposteriorní pravděpodobností jednotlivých tříd, hlásek, 2. při použití jedné skryté vrstvy je MLP schopna mapovat nelineární funkci, pokud tato funkce existuje, mezi vstupem a výstupem, 3. MLP je založena na matematickém modelu, pro které existují různé trénovací algoritmy, např. nejpoužívanější robustní gradient-descent trénovací algoritmus (zpětné šíření chyby), který je použit v našem modelu. 4. MLP může zpracovávat paralelně velké množství vstupní dat Základní popis MLP Základní jednotkou neuronové sítě na bázi vícevrstvého perceptronu je elementární neuron, který je zobrazen na obr. 3.9.

25 KAPITOLA 3. TRAP PARAMETRIZACE 15 Obrázek 3.9: Model elementárního neuronu Tento elementární neuron má konečný počet vstupů x 1, x 2,..., x n, nelineární přenosovou funkci φ(z), práh b a jeden výstup. Váhy vstupu w 1, w 2,..., w n, reprezentují vliv působení konkrétního vstupu na výstup neuronu. Výsledný vnitřní potenciál neuronu je reprezentovaný dle rovnice ( ) m s(x) = φ b + w i x i = φ(z), (3.10) i=1 kde z je nelineární přenosová funkce. Váhy neuronu tedy představují lokální paměť neuronu. MLP Typická struktura MLP jsou tři vrstvy - vstupní, skrytá a výstupní (viz obr. 3.10). Experimentálně bylo zjištěno, že na vyřešení problému stačí pouze jedna skrytá vrstva. Při větším počtu skrytých vrstev umí síť sice lépe generalizovat, avšak za cenu pomalejší rychlosti učení. Každá vrstva obsahuje definovaný počet neuronů, kde sousední vrstvy jsou vzájemně propojeny. Neexistuje zde žádná zpětná vazba, tudíž se této síti také říká dopředná neuronová síť (feed-forward net).

26 KAPITOLA 3. TRAP PARAMETRIZACE 16 Obrázek 3.10: Schéma MLP Neurony v první vrstvě nemají žádnou přenosovou funkci, slouží pouze jako vstup. Ve skryté vrstvě se standardně používá sigmoidní přenosová funkce 1 φ 2 (z) =, (3.11) 1 + e z jejíž výsledek leží v intervalu < 0, 1 >. V poslední výstupní vrstvě mají neurony implementovanou softmax přenosovou funkci. Tato funkce vrací pravděpodobnost jednotlivých tříd, které dávají v součtu hodnotu rovno jedné, tj. φ 3,k (z) = p(λ k ) = ez k C j=1 e z k, (3.12) kde k = 1... C, je počet výstupních neuronů a p(λ k ) je pravděpodobnost hlásky λ k. Výběr dané přenosové funkce ovlivňuje způsob učení a výslednou klasifikaci dané neuronové sítě Princip trénovaní Váhové koeficienty w 1, w 2,..., w n, reprezentují paměť neuronové sítě jednotlivých vstupů neuronu x 1, x 2,..., x n,. Nastavení těchto vah probíhá následujícím procesem, tj. na vstupní vrstvu neuronové sítě se předloží data (časové trajektorie v kritických pásmech), a na výstupní vrstvu k nim odpovídající klasifikační data (třídy, hlásky). V oka-

27 KAPITOLA 3. TRAP PARAMETRIZACE 17 mžiku, kdy neuronová síť má předložena všechna potřebná data, probíhá trénování tj. adaptace vah. Trénování neuronové sítě je založeno na principu zpětné šíření chyby, kde chyba výsledné klasifikace se šíří zpět do neuronové sítě a přepočítává se do předchozích vrstev. Dle velikosti chyby se upravují dané váhy. Algoritmus zpětného šíření chyby tedy minimalizuje odchylky (chyby), mezi požadovanými hodnotami na výstupu pro danou předloženou trénovací množinu. Chybová funkce je definována následovně, E = 1 (d j y j ) 2 (3.13) 2 j tedy jako kvadrát mezi referenčním výstupem y j učení lze rozdělit do několika kroků: a skutečným výstupem d j. Samotné inicializace vah náhodnou veličinou v malém intervalu, předložení vstupních data a referenční klasifikace, výpočet výstupu sítě, adaptace vah na základě zpětné šíření chyby, opakování procesu učení, dokud je celková chyba větší než zadaná hodnota, v opačném případě se trénování ukončí. Doba, kdy se proces učení opakuje, tedy byla v jednom cyklu předložena všechna dostupná data, se v teorii neuronových sítí nazývá epocha. Při trénování MLP je nutné, aby se síť naučila data zobecňovat a nebyla na nich závislá. Pokud je již síť závislá na určitých datech, nedokáže generalizovat, tedy nedokáže klasifikovat neviditelná data. Tento stav se nazývá pře-trénování neuronové sítě. Aby tato situace nenastala, je před každou epochou neuronová síť otestována na nezávislých datech (CV - cross validation). Přesnost této klasifikace se vyhodnocuje na bázi FER (viz str. 18), kde trénování se ukončí dle určitých kritérií: 1. trénování začíná s parametrem učení 0.008, parametr učení určuje rychlost trénování a do jaké míry se adaptují váhy a práh mezi epochami, 2. pokud mezi epochami nedojde ke zlepšení FER na CV nebo na trénovacích datech o více než 0,5%, snižuje se parametr učení od této doby v každé následující epoše o polovinu, 3. pokud se po snížení rychlosti učení nezlepší FER na CV o více než 0,5%, ukončí se trénování.

28 KAPITOLA 3. TRAP PARAMETRIZACE 18 Na ověřování (CV) se obvykle používá 10% dat z předložené trénovací množiny. Tento postup je určen pro trénovaní umělé neuronové sítě pomocí nástroje QuickNet. Kritéria klasifikace Základní vyhodnocení přesnosti klasifikace umělé neuronové sítě probíhá na úrovní tříd (hlásek). Výsledné nejvyšší aposteriorní pravděpodobnosti na daný segment se přiřazuje daná třída (hláska). Výsledné hlásky se porovnají s hodnoty požadovaný, kde přesnost vyhodnocení klasifikace je definován dle vztahu FER (Frame Error Rate) FER = F mis F tot 100 [%], (3.14) kde F mis jsou nesprávně určené třídy (hlásky) na jednotlivé segmenty a F tot je celkový počet segmentů. Dané výsledky jsou pro přehlednost uváděny v procentech.

29 Kapitola 4 Implementace Výpočet TRAP příznaků na bázi neuronových sítí byly realizovány pomocí nástrojů MATLAB, CtuCopy [2], MATLAB NNTbx a balíčku QuickNet [6]. V programu MATLAB byla implementována funkce pro TRAP parametrizaci řečového signálu a v balíčku Quick- Net a NNTbx probíhá trénování neuronové sítě. Nástroj CtuCopy slouží pro parametrizaci řečového signálu s velikou možností nastavení jednotlivých parametrů. Celý systém i se skripty běží pod operačním systémem Unix, kde výpočty běžely na paralelních klastrech pod operačním systémem MEPIS Linux. 4.1 Softwarové balíčky CtuCopy Jedná se o univerzální nástroj pro pamaterizaci řečového signálů i s použitím rozšířeného spektrálního odečítání. Program vznikl v rámci tvorby diplomové a disertační práce na katedře teorie obvodů FEL ČVUT [2]. V tomto nástroji je implementovaná TRAP-DCT parametrizace a různé podpory formátu vstupních a výstupních dat. MATLAB MATLAB (R2011b) je interaktivní programové prostředí. Jedná se o skriptovací programovací jazyk, který slouží pro matematické a vědeckotechnické výpočty. MATLAB obsahuje velké množství funkcí pro zpracování a analýzu dat, má tedy velké využití pro prezentaci postupu výpočtu a rozboru výsledků dané problematiky. 19

30 KAPITOLA 4. IMPLEMENTACE 20 MATLAB NNTbx NNTbx (Neural Network Toolbox) je balíček, který lze koupit jako součást MATLABu. Jedná se o nástroj pro tvorbu, trénování a testování neuronových síťí. NNTbx nabízí grafické rozhraní pro snadnou vizualizaci neuronových sítí a velký výběr nastavení různých struktur a typů neuronových sítí. QuickNet QuickNet je nástroj sloužící pro tvorbu vícevrstvých dopředných neuronových sítí. Quick- Net je primárně určen v systémech pro zpracování řeči, ovšem muže být použit i v jiných oblastech. QuickNet, který je napsán v jazyce C++, se vyznačuje efektivním učením neuronových sítí různých velikostí. Byl vyvinut výzkumnou mezinárodní skupinou pro zpracování řeči na ICSI (International Computer Science Institute). Jedná se o opensource program, který je dostupný pro nekomerční použití zdarma. Součástí balíčku je i podpůrný program pfile utils, který slouží pro úpravu formátu vstupních a výstupních dat. 4.2 Implementace TRAP parametrizace v MATLABu TRAP parametrizace byla v MATLABu implementována do jediné funkce, která pracuje s několika vstupy a jejíž výstup je směrován do textového souboru. Výstup přímo do textového souboru byl zvolen z důvodu velkého množství výstupních hodnot, které při velkém počtu zpracovávaných dat narůstají do velkých kapacitních rozměrů, omezenou operační pamětí osobního počítače. Výpočet TRAP parametrů je proveden pomocí následují funkce function trapdct(s,m,fmin,fmax,wlen,wstep,fs,wind,coefdct,traplength, index,filename,p)

31 KAPITOLA 4. IMPLEMENTACE 21 s M fmin a fmax wlen wstep fs wind coefdct TRAPlength index filename p je vektor vstupního signálu nebo seznam souborů vstupních signálu, počet pásem banky filtrů, minimální a maximální frekvence banky filtrů, délka segmentu, délka překryvu segmentu, vzorkovací frekvence, vektor váhovacího okénka, počet DCT koeficientů, délka časové trajektorie v spektrogramu řeči v sekundách, index věty, název výstupního souboru, časová konstanta pro průměrování šumu. V této funkci je implicitně zapnuto rozšířené spektrání odečítání. Při zadaní nulové hodnoty parametru p se spektrání odečítání neuplatní. Časové trajektorie na začátku spektrogramu Na začátku nebo na konci kritického mel-spektra nemáme pro délku jedné sekundy časové trajektorie z každé strany požadovaných 50 segmentů. Tedy, na začátku parametrizace časová trajektorie obsahuje 51 segmentů místo požadovaných 101 segmentů (není zde 50 segmentů z levé strany). Po parametrizaci této kratší časové trajektorie pomocí DCT transformace dostaneme DCT koeficienty, které mají jiné frekvenční měřítko oproti DCT koeficientům získaných z časové trajektorie délky jedné sekundy. Při parametrizaci šumu, který je přítomen na začátku řečových promluv, vykazují DCT koeficienty stejný charakter a dynamiku pro různá frekvenční měřítka. Nemusíme tedy na začátek signálu přidávat šum (oblast bez řečové aktivity), abychom dodrželi požadovanou délku časové trajektorie délky jedné sekundy. Ukládání napočítaných příznaků do souboru Na každý segment u TRAP-DCT parametrizace připadá 600 příznaků, které jsou vstupem do umělé neuronové sítě. Napočítané příznaky jsou ukládány do textového souboru, kde každý řádek textového souboru obsahuje jeden dlouhý vektor DCT koeficientů postupně pro první, druhé až poslední pásmo časových trajektorií v kritických pásmech. Výstupní struktura souboru pro nástroj QuickNet vypadá následovně

32 KAPITOLA 4. IMPLEMENTACE , ,2402-0, , , ,7669-3, , , , , , , , , , , ,863-1, , , ,0548-8, , , , , ,0489 Tabulka 4.1: Struktura textového souboru kde v prvním sloupci je index věty, tedy pořadí jednotlivých signálu. V druhém sloupci je posloupnost segmentů věty a v dalších sloupcích DCT koeficienty časových trajektorií řečového signálu. Nyní se tento textový soubor musí překonvertovat na specifický pfile formát binární struktury pomocí nástroje pfile create, který je součástí balíčku pfile utils Klasifikace tříd, hlásek Při trénování umělých neuronových sítí je nutné pro jednotlivé segmenty vytvořit soubor požadovaných hodnot těchto množin, tj. vytvořit požadované aposteriorní pravděpodobnosti tříd, hlásek. K tomuto účelu byla připravena funkce function targetcreate(filelist,targetlist,savepatch,abc,fs,tlen,tstep) filelist je seznam souborů vstupních signálu, targetlist seznam souborů, které obsahují časové intervaly, jednotlivých fonému, filename název výstupního souboru, abc název souboru obsahující hlásky, fs vzorkovací frekvence, tlen délka segmentu v milisekundách, tstep překryv segmentů v milisekundách. Struktura výstupního textového souboru pro nástroj QuickNet vypadá podobně jako při ukládání DCT koeficientů,

33 KAPITOLA 4. IMPLEMENTACE Tabulka 4.2: Struktura textového souboru požadovaných tříd kde hodnoty v prvním sloupci značí index věty a hodnoty ve druhém sloupci posloupnost segmentů věty. Třetí sloupec číselně reprezentuje hlásku, kde např. hodnota 1 značí hlásku a. Následně se tento soubor převede do specifického binárního tvaru pomocí nástroje ilab create, který je součástí balíčku pfile utils Trénovaní neuronových sítí v NNTbx V této části textu bude popsána práce (trénování, testování) s neuronovými sítěmi vytvořené v prostředí MATLAB. V MATLABu se objekt vícevrstvé dopředné neuronové sítě vytvoří příkazem net = patternnet(hiddensizes,trainfcn) hiddensizes je počet neuronů ve skryté vrstvě, trainfcn vybraná trénovací funkce, kde počet neuronů ve vstupní a výstupní vrstvě se nastaví automaticky v průběhů trénovaní v závislosti na velikosti vstupních vektorů dat. Přenosové funkce neuronů se nastaví posloupností příkazů, net.layers{1}.transferfcn = logsig, net.layers{2}.transferfcn = softmax, kde funkce logsig má sigmoidní tvar přenosové funkce. Dále je nutné nastavit poměr validačních dat (CV), počet trénovacích epoch a hraniční podmínky pro předčasného ukončení trénovaní umělé neuronové sítě. Pomocí příkazu

34 KAPITOLA 4. IMPLEMENTACE 24 net = init(net) se nastaví jednotlivé váhy neuronů na náhodnou veličinu v rozmezí intervalu < 1, 1 >. Po nastavení všech parametrů se pomocí příkazu net = train (net, InputVector, TargetVector) net je objekt umělé neuronové sítě, InputVector vstupní vektor dat trénovací množiny, TargetVector vektor požadovaných hodnot trénovací množiny, trénuje neuronová síť. Váhy jednotlivých neuronů jsou uloženy v objektu net. Testování neuronové sítě se spustí příkazem OutputVector = sim(net,inputvector) InputVector je vstupní vektor dat testovací množiny, OutputVector výstupní data simulace, pravděpodobnosti jednotlivých tříd, kde výstupem jsou aposteriorní pravděpodobnosti hlásek. V NNTbx se nachází i grafické rozhraní na trénovaní a testování neuronové sítě s intuitivním nastavením všech parametrů. NNTbx je vhodný pro pochopení neuronových sítí malých rozměrů, ovšem není stavěný na trénování velkých neuronových sítí s velkým počtem vstupních parametrů trénovacích dat. Při experimentech s většími neuronovými sítěmi doba trénování dosahovala značných rozsahů. Z tohoto důvodu byl zvolen na trénování umělých neuronových sítí nástroj QuickNet. V NNTbx je ovšem možné, vytvořit neuronovou síť větších rozměrů a načíst jednotlivé váhy neuronů ze souboru získané nástrojem QuickNet. K tomuto účelu byla vytvořena funkce, která vrací aposteriorní pravděpodobnosti jednotlivých hlásek, function pp = simnet(net,s) net s je název souboru, který obsahuje natrénovaná data vah neuronů, vstupní parametry, která v NNTbx vrací numericky trochu odlišné aposteriorní pravděpodobnosti hlásek ve srovnání s nástrojem QuickNet.

35 KAPITOLA 4. IMPLEMENTACE 25 aposterironí prav. NNTbx QuickNet 1. nejvyšší 0,638 0, nejvyšší 0,572 0,288 Tabulka 4.3: Srovnání aposteriorních pravděpodobností hlásky Rozdíl aposteriorních pravděpodobností hlásky je dán mírně rozdílnou implementací přenosové funkce softmax v MATLABu. Pozice nejvyšší hodnoty aposteriorní pravděpodobností hlásky jsou v NNTbx a QuickNetu ovšem totožné. Při podrobnějším rozebírání součtu všech výstupních pravděpodobností jednotlivých tříd, nedává sumace požadovanou hodnotu jedna ale vyšší v daném segmentu řeči. Při experimentech trénování menší umělé neuronové sítě v NNTbx, musel vektor požadovaných hodnot pro daný segment řeči vypadat následovně: požadovaná třída měla přidělenou pravděpodobnost 1 a ostatní opačnou pravděpodobnost, tedy -1. Pak součet výstupních pravděpodobností jednotlivých tříd byl roven jedné. To je dáno konkrétní implementací funkce softmax v MATLABu. 4.3 Použití neuronových sítí v QuickNetu Specifikace nástroje QuickNet podpora vstupních a výstupních dat typu pfile, pre, lna, sri a nejnověji i htk, podpora CUDA (Compute Unified Device Architecture), která umožňuje spouštět výpočty i na grafické kartě osobního počítače, možnost nastavení 2 až 5 vrstev MLP, nastavení různých přenosových funkcí ve výstupní vrstvě neuronové sítě: sigmoid, sigmoidx, softmax a tanh, různé nastavení trénovacích stylů a rychlosti učení, podpora exportu napočítaných vah pro další aplikace (MATLAB). V QuickNetu existuje pouze jedna struktura neuronové sítě - vícevrstvý perceptron (MLP). Trénování se provádí ve dvou fázích, nejdříve se provede normování vstupních trénovacích dat a poté vlastní trénování neuronové sítě dle jednotlivých nástrojů, qnnorm - nástroj pro normalizaci vstupních trénovacích hodnot,

36 KAPITOLA 4. IMPLEMENTACE 26 qnstrn - nástroj pro trénování MLP, qnmultitrn - nástroj pro trénování MLP, podpora 2-5 vrstev MLP, výstup vah neuronů ve formátu MATLAB. Nástrojem qnnorm se s normalizují vstupní trénovací data před vstupem do neuronové sítě. Tyto upravená data mají nulovou střední hodnotu a jednotkový rozptyl. Po normování se spustí trénování neuronové sítě pomocí nástroje qnmultitrn, který podporuje výstup napočítaných vah neuronů ve specifickém binárním formátu, které lze exportovat do prostředí MATLAB. Před první epochou se provede náhodná inicializace vah a CV. Trénování se ukončí dle specifikací popsaných v předchozí kapitole. Nyní se přejde k vlastní ověření správné klasifikace neuronové sítě. Vyhodnocení klasifikace se prování na bázi FER, kde pro testování neuronové sítě se požívají následující nástroje qnsfwd - nástroj pro testování MLP, qnmultifwd - nástroj pro testování MLP, podpora 2-5 vrstev MLP, vstup vah ve formátu MATLAB, jejichž vstupem jsou nezávislá testovací data na trénovací množině dat. Výstupem testování jsou aposteriorní pravděpodobnosti jednotlivých tříd, hlásek.

37 Kapitola 5 Experimenty V experimentální části bylo provedeno ověření přesnosti popisu řečového signálu pomocí TRAP příznaků. Zejména bylo testováno: srovnání klasifikace v různých podmínkách, kde k řečovému signálu byl přidáním aditivní šum z automobilu, srovnání klasifikace pro různé výběry testovacích dat, přínos potlačení šumu před výpočtem TRAP příznaků z časových trajektorií spektrogramu, schopnost natrénování příslušné sítě v závislosti na množství trénovacích dat, přesnost klasifikace na různém nastavení počtu neuronů ve skryté vrstvě neuronové sítě. 5.1 Databáze SPEECON Ve všech experimentech k natrénování a testování neuronové sítě byla použita česká řečová databáze SPEECON, kde fonetická segmentace jednotlivých fonému pro dané řečové signály byla generována automaticky. Z této databáze byla vybrána malá skupina řečových signálu, kde hranice fonetické segmentace byly nastaveny ručně. SPEECON je česká databáze, která obsahuje promluvy od 590 dospělých českých mluvčích za různých nahrávacích podmínek. Délka promluvy od jednoho mluvčího je cca 30 minut [8]. 27

38 KAPITOLA 5. EXPERIMENTY 28 Výběr dat z databáze pro trénovaní neuronové sítě Data pro trénování neuronové sítě byla vybrána z řečové databáze SPEECON následujícím způsobem, název výběru dat fonetická segmentace prostředí nahrávky délka promluvy TRKA automatická kancelář - TRAU automatická automobil - Tabulka 5.1: Výběr dat z databáze - trénovací data kde prostředí nahrávky automobil obsahuje řečové signály, u kterých byl přidán aditivní šum z jedoucího automobilu v rozsahu SNR < 0, 19 > dbm. Délka promluvy bude uváděna u jednotlivých testů jednotlivě, kde přibližně 10% z této trénovací množiny dat byly použity na CV (cross validation). Výběr dat z databáze pro testování neuronové sítě Testovací data byla vybrána podmíněně při výběru trénovacích dat, tj. data pro testování neobsahují řečové promluvy, které byly použity pro trénování a CV neuronové sítě, název výběru dat fonetická segmentace prostředí nahrávky délka promluvy TESTkan automatická kancelář cca 1 hodina TESTaut automatická automobil cca 1 hodina TESTkanMN manuální kancelář minut TESTautMN manuální automobil 14.5 minut Tabulka 5.2: Výběr dat z databáze - testovací data kde výběry dat TESTkanMN a TESTautMN obsahují řečové signály od 40 mluvčích (muži a ženy) ve třech odlišných promluvách, které mají určeny hranice fonetické segmentace manuálně. U prostředí nahrávky automobil byl k řečovým signálům přidán aditivní šum z jedoucího automobilu v rozsahu SNR < 0, 19 > dbm.

39 KAPITOLA 5. EXPERIMENTY Výběr parametriazce Na jednotlivé testování správnosti klasifikace neuronové sítě byly použity tyto parametrizace, základní TRAP TRAP-DCT TRAP-DCT-Exten kde výsledky správné klasifikace se provádí na úrovni aposteriorních pravděpodobností tříd, hlásek. První test se skládá ve porovnání správné klasifikace mezi základní TRAP a TRAP-DCT parametrizací. Tento test byl proveden v článku poster 2012 [7], který obsahuje trochu jiná nastavení testovacích a trénovacích dat, než ta, co jsou zde uváděna. Nastavení MLP: TRAIN1 - délka promluvy trénovacích dat cca 14 minut, manuální fonetická segmentace, TRAIN2 - délka promluvy trénovacích dat cca 93 minut, automatická fonetická segmentace, TEST1 - délka promluvy testovacích dat cca 4 minuty, manuální fonetická segmentace, velikost neuronové sítě 600 x 1000 x 46 neuronů (2424 x 3000 x 46 u základní TRAP parametrizace), jedna skrytá vrstva, použitá parametrizace: základní TRAP, TRAP-DCT. Výběr z databáze základní TRAP TRAP-DCT TRAIN1 61,79% 66,67% TRAIN2 55,66% 60,72% Tabulka 5.3: Úspěšnost klasifikace TRAP, TRAP-DCT Z výsledku je patrné, že použití DCT transformace u TRAP-DCT parametrizace redukuje počet příznaků z časových trajektorií spektrogramu, ale i lépe vystihuje závislost segmentů. TRAP-DCT parametrizace vykazuje lepší úspěšnost správné klasifikace přibližně o 5% oproti základní TRAP parametrizaci. Z tohoto důvodu byla základní TRAP parametrizace z testování vyřazena.

40 KAPITOLA 5. EXPERIMENTY Testování na množství trénovacích dat První test se skládá na schopnosti správné klasifikace dané neuronové sítě, a to v závislosti na přiloženém množství trénovacích dat při stejném počtu neuronů ve skryté vrstvě. Velikost neuronové sítě byla tedy ve všech testech konstantní. Testy jsou rozděleny na dvě části, v první části je neuronová síť trénována na datech TRKA (prostředí kanceláře) a ve druhé části na datech TRAU, které obsahují aditivní šum z prostředí jedoucího automobilu. Nastavení MLP v závislosti na délce trénovacích dat délka promluvy testovacích dat 0,46 až 10,10 hodin, velikost neuronové sítě 600 x 1000 x 46 neuronů, jedna skrytá vrstva, použitá parametrizace: TRAP-DCT. TRAP-DCT databáze TRKA TRAU TRKA TRAU TRKA TRAU TRKA TRAU [hodin] TESTkan[%] TESTaut[%] TESTkanMN[%] TESTautMN[%] 0,46 71,09 65,19 44,32 72,69 54,04 48,75 33,04 53,42 0,99 74,11 67,38 51,77 74,18 57,25 52,22 38,54 55,92 1,65 74,75 67,79 69,05 75,59 58,38 52,00 49,98 56,82 2,52 76,07 70,20 64,86 76,11 60,20 53,39 49,07 56,99 5,03 77,39 72,26 62,30 77,53 61,65 56,12 47,23 59,36 10,10 78,07 72,87 63,73 78,10 62,60 56,16 48,69 59,87 Tabulka 5.4: Klasifikace TRAP-DCT na délce trénovacích dat Z tab. 5.4 je patrné, že při rostoucím množství trénovacích dat roste přesnost klasifikace s výjimkou přesnosti klasifikace uváděné ve třetím sloupci tabulky. Ze třetího sloupce tabulky lze sledovat, že pokud neuronová síť nebyla dostatečně naučena (TRKA - prostředí kanceláře), dokázala lépe generalizovat neviditelná data, pro nás tedy data z výběru TESTaut (prostředí z jedoucího automobilu). Při rostoucím počtu trénovacích dat, se od určité hranice zlepšovala mírně klasifikace neuronové sítě i na více zašuměných datech z prostředí jedoucího automobilu, tj. neuronová síť se začínala přizpůsobovat na dynamiku spektra řeči.

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU 3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,

Více

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Klasifikace hudebních stylů

Klasifikace hudebních stylů Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů

Více

ADA Semestrální práce. Harmonické modelování signálů

ADA Semestrální práce. Harmonické modelování signálů České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte

Více

Trénování sítě pomocí učení s učitelem

Trénování sítě pomocí učení s učitelem Trénování sítě pomocí učení s učitelem! předpokládá se, že máme k dispozici trénovací množinu, tj. množinu P dvojic [vstup x p, požadovaný výstup u p ]! chceme nastavit váhy a prahy sítě tak, aby výstup

Více

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Algoritmy a struktury neuropočítačů ASN P4 Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby Vrstevnatá struktura - vícevrstvé NN (Multilayer NN, MLNN) vstupní vrstva (input layer)

Více

Využití neuronové sítě pro identifikaci realného systému

Využití neuronové sítě pro identifikaci realného systému 1 Portál pre odborné publikovanie ISSN 1338-0087 Využití neuronové sítě pro identifikaci realného systému Pišan Radim Elektrotechnika 20.06.2011 Identifikace systémů je proces, kdy z naměřených dat můžeme

Více

Neuronové sítě v DPZ

Neuronové sítě v DPZ Univerzita J. E. Purkyně v Ústí nad Labem Fakulta životního prostředí Neuronové sítě v DPZ Seminární práce z předmětu Dálkový průzkum Země Vypracovali: Jan Lantora Rok: 2006 Zuzana Vašková Neuronové sítě

Více

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Petr Zlatník České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz Abstrakt:

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

Neuronové sítě Ladislav Horký Karel Břinda

Neuronové sítě Ladislav Horký Karel Břinda Neuronové sítě Ladislav Horký Karel Břinda Obsah Úvod, historie Modely neuronu, aktivační funkce Topologie sítí Principy učení Konkrétní typy sítí s ukázkami v prostředí Wolfram Mathematica Praktické aplikace

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších

Více

NG C Implementace plně rekurentní

NG C Implementace plně rekurentní NG C Implementace plně rekurentní neuronové sítě v systému Mathematica Zdeněk Buk, Miroslav Šnorek {bukz1 snorek}@fel.cvut.cz Neural Computing Group Department of Computer Science and Engineering, Faculty

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

3. Vícevrstvé dopředné sítě

3. Vícevrstvé dopředné sítě 3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze

Více

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN - P11 Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova

Více

Speciální struktury číslicových systémů ASN P12

Speciální struktury číslicových systémů ASN P12 Aplikace UNS v syntéze řeči modelování prozodie druhy syntezátorů Umělé neuronové sítě pro modelování prozodie Rozdíly mezi přirozenou a syntetickou řečí Požadavky: zlepšování srozumitelnosti zlepšování

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese dat Radim Farana Podklady pro výuku Obsah Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese videa Velký objem přenášených dat Typický televizní signál - běžná evropská norma pracuje

Více

Rosenblattův perceptron

Rosenblattův perceptron Perceptron Přenosové funkce Rosenblattův perceptron Rosenblatt r. 1958. Inspirace lidským okem Podle fyziologického vzoru je třívrstvá: Vstupní vrstva rozvětvovací jejím úkolem je mapování dvourozměrného

Více

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le Whale detection Brainstorming session Jiří Dutkevič Lenka Kovářová Milan Le Signal processing, Sampling theorem Spojitý signál může být nahrazen diskrétní posloupností vzorků, aniž by došlo ke ztrátě informace,

Více

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ Markéta Mazálková Katedra komunikačních a informačních systémů Fakulta vojenských technologií,

Více

Laboratorní úloha č. 8: Elektroencefalogram

Laboratorní úloha č. 8: Elektroencefalogram Laboratorní úloha č. 8: Elektroencefalogram Cíle úlohy: Rozložení elektrod při snímání EEG signálu Filtrace EEG v časové oblasti o Potlačení nf a vf rušení o Alfa aktivita o Artefakty Spektrální a korelační

Více

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

doc. Dr. Ing. Elias TOMEH   Elias Tomeh / Snímek 1 doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací

Více

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.

Více

Implementace rozpoznávače řeči na bázi TANDEM architektury

Implementace rozpoznávače řeči na bázi TANDEM architektury bakalářská práce Implementace rozpoznávače řeči na bázi TANDEM architektury Aleš Brich květen 2014 Doc. Ing. Petr Pollák, CSc. České vysoké učení technické v Praze Fakulta elektrotechnická, Katedra kybernetiky

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc Neuronové sítě a možnosti jejich využití Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc 1. Biologický neuron Osnova 2. Neuronové sítě Umělý neuron

Více

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU ANALÝZU VÍCEKANÁLOVÝCH SIGNÁLŮ Robert Háva, Aleš Procházka Vysoká škola chemicko-technologická, Abstrakt Ústav počítačové a řídicí techniky Analýza vícekanálových

Více

Zvýrazňování řeči pomocí vícekanálového zpracování

Zvýrazňování řeči pomocí vícekanálového zpracování Zvýrazňování řeči pomocí vícekanálového zpracování Václav Bolom, Pavel Sovka Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 66 27 Praha 6 Abstrakt Problém

Více

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16 Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip

Více

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky Při návrhu elektroakustických soustav, ale i jiných systémů, je vhodné nejprve

Více

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury diplomová práce Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury Bc. Aleš Brich květen 2016 Doc. Ing. Petr Pollák, CSc. České vysoké učení technické v Praze Fakulta elektrotechnická,

Více

Číslicové zpracování signálů a Fourierova analýza.

Číslicové zpracování signálů a Fourierova analýza. Číslicové zpracování signálů a Fourierova analýza www.kme.zcu.cz/kmet/exm 1 Obsah prezentace 1. Úvod a motivace 2. Data v časové a frekvenční oblasti 3. Fourierova analýza teoreticky 4. Fourierova analýza

Více

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT prof. Ing. Jiří Holčík,, CSc. NEURONOVÉ SÍTĚ otázky a odpovědi 1 AKD_predn4, slide 8: Hodnota výstupu závisí na znaménku funkce net i, tedy na tom, zda bude suma

Více

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely). Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý

Více

Signál v čase a jeho spektrum

Signál v čase a jeho spektrum Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě

Více

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005 Rozpoznávání písmen Jiří Šejnoha Rudolf Kadlec (c) 2005 Osnova Motivace Popis problému Povaha dat Neuronová síť Architektura Výsledky Zhodnocení a závěr Popis problému Jedná se o praktický problém, kdy

Více

Moderní multimediální elektronika (U3V)

Moderní multimediální elektronika (U3V) Moderní multimediální elektronika (U3V) Prezentace č. 13 Moderní kompresní formáty pro přenosné digitální audio Ing. Tomáš Kratochvíl, Ph.D. Ústav radioelektroniky, FEKT VUT v Brně Program prezentace Princip

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010

FORTANNS. havlicekv@fzp.czu.cz 22. února 2010 FORTANNS manuál Vojtěch Havlíček havlicekv@fzp.czu.cz 22. února 2010 1 Úvod Program FORTANNS je software určený k modelování časových řad. Kód programu má 1800 řádek a je napsán v programovacím jazyku

Více

Klasifikace Landau-Kleffnerova syndromu

Klasifikace Landau-Kleffnerova syndromu Klasifikace Landau-Kleffnerova syndromu malých dětí 1. Abstrakt Petr Zlatník ČVUT FEL, K13131 Katedra teorie obvodů Tento příspěvěk pojednává o klasifikaci Landau-Kleffnerova syndromu, který se projevuje

Více

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt Vyhodnocování promluv dětí s poruchami řeči Petr Zlatník, Roman Čmejla Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha Abstrakt Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

CW01 - Teorie měření a regulace

CW01 - Teorie měření a regulace Ústav technologie, mechanizace a řízení staveb CW01 - Teorie měření a regulace ZS 2010/2011 SPEC. 2.p 2010 - Ing. Václav Rada, CSc. Ústav technologie, mechanizace a řízení staveb Teorie měření a regulace

Více

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH Viktor Haškovec, Martina Mudrová Vysoká škola chemicko-technologická v Praze, Ústav počítačové a řídicí techniky Abstrakt Příspěvek je věnován zpracování biomedicínských

Více

PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček. Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011

PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček. Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011 PV021 Vícevrstvá neuronová síť pro rozeznávání mikroteček Matúš Goljer, Maroš Kucbel, Michal Novotný, Karel Štěpka 2011 Úkol sítě Rozeznávat obrázky obsahující fluorescenční mikrotečky od obrázků s nespecifickým

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů A0M38SPP - Signálové procesory v praxi - přednáška 4 2 Číslicové filtry typu FIR a IIR definice operace filtrace základní rozdělení FIR, IIR základní vlastnosti, používané struktury filtrů návrhové prostředky

Více

Umělé neuronové sítě

Umělé neuronové sítě Umělé neuronové sítě 17. 3. 2018 5-1 Model umělého neuronu y výstup neuronu u vnitřní potenciál neuronu w i váhy neuronu x i vstupy neuronu Θ práh neuronu f neuronová aktivační funkce 5-2 Neuronové aktivační

Více

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,

Více

Vlastnosti a modelování aditivního

Vlastnosti a modelování aditivního Vlastnosti a modelování aditivního bílého šumu s normálním rozdělením kacmarp@fel.cvut.cz verze: 0090913 1 Bílý šum s normálním rozdělením V této kapitole se budeme zabývat reálným gaussovským šumem n(t),

Více

Návrh frekvenčního filtru

Návrh frekvenčního filtru Návrh frekvenčního filtru Vypracoval: Martin Dlouhý, Petr Salajka 25. 9 2010 1 1 Zadání 1. Navrhněte co nejjednodušší přenosovou funkci frekvenčního pásmového filtru Dolní propusti typu Bessel, která bude

Více

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014 3ZZS 9. PŘEDNÁŠKA 24. listopadu 24 SPEKTRÁLNÍ ANALÝZA Fourierovy řady Diskrétní Fourierovy řady Fourierova transformace Diskrétní Fourierova transformace Spektrální analýza Zobrazení signálu ve frekvenční

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více

Emergence chování robotických agentů: neuroevoluce

Emergence chování robotických agentů: neuroevoluce Emergence chování robotických agentů: neuroevoluce Petra Vidnerová, Stanislav Slušný, Roman Neruda Ústav Informatiky, AV ČR Kognice a umělý život VIII Praha 28. 5. 2008 Evoluční robotika: EA & neuronové

Více

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami Josef Keder Motivace Předpověď budoucí úrovně znečištění ovzduší s předstihem v řádu alespoň několika hodin má význam

Více

Učící se klasifikátory obrazu v průmyslu

Učící se klasifikátory obrazu v průmyslu Učící se klasifikátory obrazu v průmyslu FCC průmyslové systémy s.r.o. FCC průmyslové systémy je technicko obchodní společností, působící v oblasti průmyslové automatizace. Tvoří ji dvě základní divize:

Více

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka Příklady použití tenkých vrstev Jaromír Křepelka Příklad 01 Spočtěte odrazivost prostého rozhraní dvou izotropních homogenních materiálů s indexy lomu n 0 = 1 a n 1 = 1,52 v závislosti na úhlu dopadu pro

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Středoškolská technika SCI-Lab

Středoškolská technika SCI-Lab Středoškolská technika 2016 Setkání a prezentace prací středoškolských studentů na ČVUT SCI-Lab Kamil Mudruňka Gymnázium Dašická 1083 Dašická 1083, Pardubice O projektu SCI-Lab je program napsaný v jazyce

Více

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí Fyziologická akustika anatomie: jak to vypadá fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí hudební akustika: jak dosáhnout libých počitků Anatomie lidského ucha Vnější

Více

Pokročilé operace s obrazem

Pokročilé operace s obrazem Získávání a analýza obrazové informace Pokročilé operace s obrazem Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 (BFÚ LF MU) Získávání

Více

MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ

MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ Aneta Coufalíková, Markéta Smejkalová Mazálková Univerzita obrany Katedra Komunikačních a informačních systémů Matlab ve výuce V rámci modernizace výuky byl

Více

cv3.tex. Vzorec pro úplnou pravděpodobnost

cv3.tex. Vzorec pro úplnou pravděpodobnost 3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P

Více

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004 Dokumentace k projektu č. 2 do IZP Iterační výpočty 24. listopadu 2004 Autor: Kamil Dudka, xdudka00@stud.fit.vutbr.cz Fakulta Informačních Technologií Vysoké Učení Technické v Brně Obsah 1. Úvod...3 2.

Více

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Transformace obrazu Josef Pelikán KSVI MFF UK Praha Transformace obrazu 99725 Josef Pelikán KSVI MFF UK Praha email: Josef.Pelikan@mff.cuni.cz WWW: http://cgg.ms.mff.cuni.cz/~pepca/ Transformace 2D obrazu dekorelace dat potlačení závislosti jednotlivých

Více

Příznaky pro automatické rozpoznávání řeči odvozené z dynamiky spektra

Příznaky pro automatické rozpoznávání řeči odvozené z dynamiky spektra Příznaky pro automatické rozpoznávání řeči odvozené z dynamiky spektra Petr Fousek České vysoké učení technické v Praze, Fakulta elektrotechnická fousekp@fel.cvut.cz Abstrakt: Jedním z problémů současných

Více

Neuropočítače. podnět. vnímání (senzory)

Neuropočítače. podnět. vnímání (senzory) Neuropočítače Princip inteligentního systému vnímání (senzory) podnět akce (efektory) poznání plánování usuzování komunikace Typické vlastnosti inteligentního systému: schopnost vnímat podněty z okolního

Více

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY V PROSTŘEDÍ MATLAB K. Nováková, J. Kukal FJFI, ČVUT v Praze ÚPŘT, VŠCHT Praha Abstrakt Při rozpoznávání D binárních objektů z jejich diskrétní realizace se využívají

Více

31SCS Speciální číslicové systémy Antialiasing

31SCS Speciální číslicové systémy Antialiasing ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE 2006/2007 31SCS Speciální číslicové systémy Antialiasing Vypracoval: Ivo Vágner Email: Vagnei1@seznam.cz 1/7 Převod analogového signálu na digitální Složité operace,

Více

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY V. Moldan, F. Rund Katedra radioelektroniky, fakulta elektrotechnická České vysoké učení technické v Praze, Česká republika Abstrakt Tento článek

Více

Náhodné signály. Honza Černocký, ÚPGM

Náhodné signály. Honza Černocký, ÚPGM Náhodné signály Honza Černocký, ÚPGM Signály ve škole a v reálném světě Deterministické Rovnice Obrázek Algoritmus Kus kódu } Můžeme vypočítat Málo informace! Náhodné Nevíme přesně Pokaždé jiné Především

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Globální matice konstrukce

Globální matice konstrukce Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{

Více

Příprava dat v softwaru Statistica

Příprava dat v softwaru Statistica Příprava dat v softwaru Statistica Software Statistica obsahuje pokročilé nástroje pro přípravu dat a tvorbu nových proměnných. Tyto funkcionality přinášejí značnou úsporu času při přípravě datového souboru,

Více

Kepstrální analýza řečového signálu

Kepstrální analýza řečového signálu Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači

Více

Analýza a zpracování digitálního obrazu

Analýza a zpracování digitálního obrazu Analýza a zpracování digitálního obrazu Úlohy strojového vidění lze přibližně rozdělit do sekvence čtyř funkčních bloků: Předzpracování veškerých obrazových dat pomocí filtrací (tj. transformací obrazové

Více

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ Katedra Teorie obvodů Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách Dizertační práce Josef Rajnoha Praha, únor

Více

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle

Více

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Číslicová filtrace FIR filtry IIR filtry Tyto materiály vznikly za podpory Fondu rozvoje

Více

Metody analýzy modelů. Radek Pelánek

Metody analýzy modelů. Radek Pelánek Metody analýzy modelů Radek Pelánek Fáze modelování 1 Formulace problému 2 Základní návrh modelu 3 Budování modelu 4 Verifikace a validace 5 Simulace a analýza 6 Sumarizace výsledků Simulace a analýza

Více

Direct Digital Synthesis (DDS)

Direct Digital Synthesis (DDS) ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory

Více

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE 25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE Digitalizace obrazu a komprese dat. Uveďte bitovou rychlost nekomprimovaného číslicového TV signálu a jakou šířku vysílacího pásma by s dolním částečně

Více

SYNTÉZA AUDIO SIGNÁLŮ

SYNTÉZA AUDIO SIGNÁLŮ SYNTÉZA AUDIO SIGNÁLŮ R. Čmejla Fakulta elektrotechnická, ČVUT v Praze Abstrakt Příspěvek pojednává o technikách číslicové audio syntézy vyučovaných v předmětu Syntéza multimediálních signálů na Elektrotechnické

Více

4.2.3 ŠÍŘE FREKVENČNÍHO PÁSMA CHOROVÉHO ELEMENTU A DISTRIBUČNÍ FUNKCE VLNOVÝCH NORMÁL

4.2.3 ŠÍŘE FREKVENČNÍHO PÁSMA CHOROVÉHO ELEMENTU A DISTRIBUČNÍ FUNKCE VLNOVÝCH NORMÁL 4.2.3 ŠÍŘE FREKVENČNÍHO PÁSMA CHOROVÉHO ELEMENTU A DISTRIBUČNÍ FUNKCE VLNOVÝCH NORMÁL V předchozích dvou podkapitolách jsme ukázali, že chorové emise se mohou v řadě případů šířit nevedeným způsobem. Připomeňme

Více

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ Marie Richterová 1, David Juráček 2 1 Univerzita obrany, Katedra KIS, 2 PČR MŘ Brno Abstrakt Článek se zabývá rozpoznáváním analogových a diskrétních

Více

Operace s obrazem II

Operace s obrazem II Operace s obrazem II Biofyzikální ústav Lékařské fakulty Masarykovy univerzity Brno prezentace je součástí projektu FRVŠ č.2487/2011 Osnova Matematická morfologie Segmentace obrazu Klasifikace objektů

Více

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH Jan Klapuch, Petr Pollák České vysoké učení technické v Praze, Fakulta elektrotechnická, K13131 klapujan@fel.cvut.cz, pollak@fel.cvut.cz

Více

8. Sběr a zpracování technologických proměnných

8. Sběr a zpracování technologických proměnných 8. Sběr a zpracování technologických proměnných Účel: dodat v částečně předzpracovaném a pro další použití vhodném tvaru ucelenou informaci o procesu pro následnou analyzu průběhu procesu a pro rozhodování

Více

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS Veronika NEVTÍPILOVÁ Gisáček 2013 Katedra Geoinformatiky Univerzita Palackého v Olomouci Cíle otestovat kvalitu interpolace pomocí

Více

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA VYŠŠÍ GEODÉZIE název předmětu úloha/zadání název úlohy Základy fyzikální geodézie 3/19 Legendreovy přidružené funkce

Více