České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE

Rozměr: px
Začít zobrazení ze stránky:

Download "České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE"

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE Rozpoznávání řeči při různé kvalitě vstupního signálu Autor: Bc. Martin Běhunek Vedoucí práce: Doc. Ing. Petr Pollák, CSc. Praha, 2010

2 ii

3 iii

4 Abstrakt Tato práce řeší problematiku rozpoznávání řeči při různé kvalitně vstupního signálu s užším zaměřením na zhoršenou kvalitu v důsledku uchování řečových signálů na bázi ztrátové komprese MP3. Rozpoznávání je založeno na standardním modelování elementárních akustických elementů bez kontextové závislosti pomocí skrytých Markovových modelů, přičemž je zkoumána úspěšnost rozpoznávání izolovaných slov v podobě základních číslovek i při rozpoznávání souvislé řeči v prostředí běžné kanceláře. Pozornost je věnována vhodnému nastavení základních parametrizačních technik na bázi mel-frekvenčních a PLP kepstrálních koeficientů. Jako zdroj řečových signálů byla použita databáze SPEECON. Z části této databáze byla vytvořena databáze nová, která obsahuje řečové signály komprimované metodou MP3 s rozdílnou velikostí datového toku. Signály byly převedeny do formátu MP3 enkodérem LAME. K tvorbě rozpoznávače byly využity nástroje z programového balíku HTK. Pro rozpoznávání souvislé řeči byl použit rozpoznávač řeči s velkým slovníkem Czech LVCSR. V experimentální části této práce bylo dosaženo úspěšnosti rozpoznávání izolovaných slovvrozmezí64,63%až96,89%vzávislostinakvalitěřečovéhosignálu.vpřípadě použití komprimovaných signálů metodou MP3 se zhoršila úspěšnost rozpoznávání kvalitních signálů o jednotky procent, u nekvalitních signálů byl pokles úspěšnosti o více než30%.postupnésnižovánídatovéhotokump3souborůažnahodnotu24kbpsnemělo zásadní vliv na úspěšnost rozpoznávání. V souvislé řeči bylo dosaženo 54,72% úspěšnosti u kvalitních signálů a pouze 16,98% úspěšnosti u signálů nekvalitních. iv

5 Abstract This thesis deals with the problems of speech recognition with a various quality of the input signal with a closer focus on deteriorated quality of speech signals stored using MP3 loss compression. Recognition is based on the standard HMM based modelling of elementary acoustic elements without context dependence, and the accuracy of isolated digits recognition and also the recognition of continuous speech was investigated. The recognition was performed in the environment of an ordinary office. Attention was devoted to a suitable setting of basic parameterisation techniques based on mel-frequency and PLP cepstral coefficients. ASPEECONdatabasewasusedasthesourceofspeechsignals.Anewderiveddatabase was created from a part of SPEECON database; it contains speech signals compressedbythemp3methodwithavarioussizeofbitrate.thesignalshavebeenconverted intothemp3formatusingalameencoder.toolsfromthehtkprogrampackagewere used for the creation of a recogniser. The recognition of continuous speech was realized again using HTK tools(hdecode) with simple trigram language model. Inthecaseoftheisolatedwords,theaccuracyrangedbetween64.63%and96.89%, depending on the quality of the speech signal. MP3 compression deteriorated the recognition accuracy by units of per cent for signals from high-quality channel; in the case of low-quality channel the accuracy dropped more than 30%. A gradual reduction of MP3 filesuptothebitrateof24kbpsdidnothaveasubstantialeffectontheaccuracyof the recognition. In continuous speech a 54.72% accuracy was reached with signals from high-quality channel and only a 16.98% accuracy for low-quality channels. The accuracy oflvcsrwaslowduetotheusageofrathersimplelanguagemodel. v

6 Obsah 1 Úvod 1 2 Lidská řeč a její rozpoznávání Vznikřeči Předzpracovánířečovéhosignálu Preemfáze Váhovánísignálu Parametrizaceřeči ParametrizaceLPCC ParametrizaceMFCC ParametrizacePLP Dynamickékoeficienty Energiesignálu Principrozpoznávánířeči Principstatistickéhopřístupukrozpoznávánířeči SkrytéMarkovovymodely Baum-Velchovareestimace Pravděpodobnostnípopismodelusvícesložkamiaproudy Viterbiůvalgoritmus Rozpoznáváníizolovanýchslov Rozpoznávánísouvisléřeči Tvorba řečového rozpoznávače Přípravarozpoznávače Zdrojřečovýchsignálů Výběrvhodnýchdatzdatabáze Seznammodelůfonémů vi

7 3.1.4 Gramatikarozpoznávače Tvorbařečovéhorozpoznávače Parametrizaceřečovýchsignálů TrénovánískrytýchMarkovovýchmodelů Rozpoznáváníizolovanýchslov Rozpoznávánísouvisléřeči MPEG-1 Layer III komprese zvukových souborů Pořízeníauchovánízvukovýchzáznamů PrincipMP BankafiltrůaMDCT Psychoakustickýmodel Kvantizaceúrovnísignáluakódovnání Konstrukcedatovýchrámců NevýhodyMP TvorbadatabázeřečovýchsignálůvMP3formátu PřevodřečovýchdatdoformátuMP Experimenty Hodnoceníúspěšnostirozpoznávače Značeníparametrizace Rozpoznáváníizolovanýchslov ParametrizaceMFCC ParametrizacePLP RozpoznáváníizolovanýchslovspoužitímkompreseMP ParametrizaceMFCC ParametrizacePLP Rozpoznávánísouvisléřeči Závěr 52 Literatura 54 Příloha A Obsah přiloženého CD Příloha B Seznam a verze použitého software I II vii

8 Seznam obrázků 2.1 Modelartikulačníhoaparátu Blokovéschéma-ParametrizaceLPCC Melovskábankafiltrů Blokovéschéma-ParametrizaceMFCC Blokovéschéma-ParametrizacePLP SkrytýMarkovůvmodelspětistavy Gramatikarozpoznávače Úspěšnostrozpoznávánívjednotlivýchtrénovacíchcyklech BlokovéschémaMP3enkodéru Úspěšnost rozpozávání řeči při MP3 kompresi s parametrizací MFCC Úspěšnost rozpozávání řeči při MP3 kompresi s parametrizací PLP viii

9 Seznam tabulek 3.1 PoužitémikrofonypřinahrávánídatabázeSPEECON Seznampoužitýchfonémů VzorkovacífrekvenceadatovýtokMP Úspěšnost rozpoznávání izol. slov na kanálu CS0 s parametrizací MFCC Úspěšnost rozpoznávání izol. slov na kanálu CS1 s parametrizací MFCC Úspěšnost rozpoznávání izol. slov na kanálu CS2 s parametrizací MFCC Úspěšnost rozpoznávání izol. slov na kanálu CS3 s parametrizací MFCC Úspěšnost rozpoznávání izol. slov na kanálu CS0 s parametrizací PLP Úspěšnost rozpoznávání izol. slov na kanálu CS1 s parametrizací PLP Úspěšnost rozpoznávání izol. slov na kanálu CS2 s parametrizací PLP Úspěšnost rozpoznávání izol. slov na kanálu CS3 s parametrizací PLP VýběrvhodnéparametrizaceMFCCprosouborysMP3kompresí Rozpoz.slovnakanáluCS0spoužitímkompreseMP3sparam.MFCC Rozpoz.slovnakanáluCS31spoužitímkompreseMP3sparam.MFCC Rozpoz.slovnakanáluCS2spoužitímkompreseMP3sparam.MFCC Rozpoz.slovnakanáluCS3spoužitímkompreseMP3sparam.MFCC VýběrvhodnéparametrizacePLPprosouborysMP3kompresí Rozpoz.slovnakanáluCS0spoužitímkompreseMP3sparam.PLP Rozpoz.slovnakanáluCS1spoužitímkompreseMP3sparam.PLP Rozpoz.slovnakanáluCS2spoužitímkompreseMP3sparam.PLP Rozpoz.slovnakanáluCS3spoužitímkompreseMP3sparam.PLP ÚspěšnostrozpoznávánísouvisléřečinakanáluCS ÚspěšnostrozpoznávánísouvisléřečinakanáluCS ÚspěšnostrozpoznávánísouvisléřečinakanáluCS ÚspěšnostrozpoznávánísouvisléřečinakanáluCS ix

10 Kapitola 1 Úvod Lidská řeč je jednou ze základních lidských schopností komunikace. V současnosti již existují přístroje, které dokážou reagovat na lidské povely nebo jsou samy schopny člověku řečíodpovídat.stěmitopřístrojiselzeběžněsetkatvnašemživotě,aprotoseobjevujesnaharozpoznávatřečivnezrovnaideálníchpodmínkách.bohuželipovícenež padesátiletém výzkumu v této oblasti nejsou schopny současné přístroje s člověkem plnohodnotně komunikovat. Rozpoznávání řeči není jednoduchá úloha, neboť jeden a ten samý řečník může vyslovit jedno a to samé slovo různým způsobem, kdy je ovlivněn okolním prostředím nebo svými momentálními pocity. V této diplomové práci je zkoumána úspěšnost rozpoznávání lidské řeči v reálných podmínkách kancelářského prostředí při vlivech, které mohou tento proces nepříznivě ovlivnit. Na vině mohou být zejména různě kvalitní mikrofony použité pro záznam řeči nebo jejich vzdálenost od mluvčího. Další věcí, která může mít zásadní vliv na úspěšnost rozpoznávání, je uchovávání řečových nahrávek v komprimovaném formátu. Prakticky všechny současné diktafony jsou schopny uchovat zaznamenanou řeč ve formátu MP3, proto je zkoumána také úspěšnost rozpoznávání řeči při této ztrátové kompresi zvukových souborů. Úspěšnost rozpoznávání řeči je testována při rozpoznávání izolovaných slov v podobě základních číslovek a dále při rozpoznávání souvislé řeči. K rozpoznávání řeči se v současné době využívá zejména statistických metod, kde jsou jednotlivé složky řeči modelovány pomocí tzv. skrytých Markovových modelů(hidden Markov Model, zkráceně HMM). K tomuto účelu byl využit programový balík HTK (Hidden Markov Model Toolkit), který obsahuje všechny potřebné nástroje k modelování řečových elementů a jejich následném využití pro rozpoznávání řeči. Tato práce je rozdělena do několika tematicky zaměřených kapitol. V kapitole Lidská řeč a její rozpoznávání jsou popsány základní techniky zpracování řeči, parametrizace 1

11 KAPITOLA 1. ÚVOD řečových signálů a rozpoznávání řeči na bázi skrytých Markovových modelů. Kapitola Tvorba řečového rozpoznávače popisuje implementaci řečového rozpoznávače v prostředí operačního systému Linux. V kapitole nazvané MPEG-1 Layer III komprese zvukových souborů je popsán princip MP3 komprese zvukových souborů a tvorba databáze obsahující řečové signály komprimované v tomto formátu. Poslední kapitola nesoucí název Experimenty popisuje provedené experimenty spolu s jejich výsledky při rozpoznávání řečivtétopráci. 2

12 Kapitola 2 Lidská řeč a její rozpoznávání Rozpoznávání řeči je úloha, která ze zaznamenaných řečových signálů rozpozná, co v těchto signálech bylo řečeno. Konkrétní slovo můžou různí lidé vyslovovat různými způsoby. Na této variabilitě promluv se podílí pohlaví daného člověka, jeho intonace a artikulace. Dokonce jeden a ten samý člověk může jedno a totéž slovo vyslovovat různým způsobem. Je zcela evidentní, že strojové rozpoznávání řeči není nijak jednoduchá záležitost. V této kapitole bude popsána problematika předzpracování řečových signálů, jejich parametrizace a konečně proces rozpoznávání řeči s využitím skrytých Markovových modelů. 2.1 Vznik řeči Řeč vzniká v tzv. artikulačním aparátu. Ten je tvořen plícemi, hlasivkami, dutinou hrdelní, dutinou nosní, dutinou ústní, nosem a rty. Jednotlivé hlásky jsou tvořeny výdechem vzduchu z plic, který je ovlivňován průchodem artikulačním aparátem. Celý proces vzniku řeči zjednodušeně zobrazuje obrázek 2.1, na němž je zobrazen číslicový model artikulačního aparátu. Jednotlivé hlásky se dělí na znělé a neznělé. Znělé hlásky jsou tvořeny průchodem vzduchu přes rozvibrované hlasivky, čímž se vytvoří sled impulzů. Tyto impulzy nazýváme základní řečová frekvence a u dospělého člověka tato frekvence leží v pásmu mezi 80 až 350 Hz. Neznělé hlásky jsou tvořeny širokopásmovým šumem, který vzniká při turbulentním proudění vzduchu přes rozevřené hlasivky. Velikost úrovně výstupního signálu je určena ziskem zesilovače G. Výsledný tvar signálu je tvořen ve vokálním traktu. Vokální trakt je tvořen hrdelní, nosní a ústní dutinou a představuje 3

13 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ systém rezonátorů s proměnným přenosem H(z). Nejpodstatnější část akustické energie ležívefrekvenčnímpásmudo4khz. Generátor impulzů Generátor šumu G Parametry H(z) y(z) Obrázek 2.1: Model artikulačního aparátu Lidská řeč je nestacionární kvaziperiodický signál. Jedná se tedy o signál s proměnnými parametry v čase. V krátkých úsecích odpovídajících zhruba ms se parametry signálu dají považovat za stacionární. Proto se řečový signál segmentuje na kratší segmenty, které se zpracovávají samostatně. Jednotlivé segmenty se postupně překrývají o50%svédélky. 2.2 Předzpracování řečového signálu Před zpracováním jednotlivých řečových signálů je nutné tyto signály vhodně upravit. V prvé řadě je nutné provést tzv. preemfázi a poté signál segmentovat vhodným váhovacím oknem na menší úseky Preemfáze Pro zvýraznění vyšších frekvenčních složek, potlačených při šíření zvukové vlny prostorem, je signál filtrován FIR filtrem 1. řádu typu horní propust. Daný filtr je popsán rovnicí (2.1). Parametr m se nazývá koeficient preemfáze a nejčastěji nabývá hodnoty v intervalu 0,95 1,0. s [n]=s[n] m s[n 1] (2.1) 4

14 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ Váhování signálu Při segmentaci signálu obdélníkovým oknem vzniká ve spektru signálu jev nazývaný prosakování. Prosakování vzniká při nespojitostech signálu na okrajích segmentu, který je následně periodicky prodloužen v časové oblasti při výpočtu Fourierovy transformace. Díky těmto nespojitostem na okrajích segmentů, se ve spektru signálu objevují frekvence, které nemají s původním signálem nic společného. Proto se segment signálu s(n) váhuje oknem w(n) s vhodně zvoleným tvarem, které vliv prosakování výrazně potlačí. Úpravu segmentu signálu váhovacím oknem popisuje rovnice s w (n)=s(n)w(n). (2.2) Existuje několik typů segmentačních oken s rozdílnými vlastnostmi, ale při zpracování řeči se nejčastěji využívá Hammingovo okno, které je pro okno délky N vzorků popsáno rovnicí w[n]=0,54 0,46cos 2πn N pro0 n N 1. (2.3) 2.3 Parametrizace řeči Parametrizací se rozumí extrakce vhodných příznaků řečového signálu, které tento signál popisují pro účely jeho dalšího zpracování. Parametrizační metody pro parametrizaci řečových signálů vycházejí z poznatků fyziologie artikulačního aparátu. Časové vzorky signálu jsou pro popis signálu prakticky nepoužitelné, protože je jich značné množství. Proto je snaha signál popsat jinou metodou, ve které bude počet prvků výrazně redukován. Nejvhodnější metodou je použití kepstrálních koeficientů, protože již několik nejnižších kepstrálních koeficientů dokáže aproximovat tvar frekvenčního spektra signálu. Parametry určené ze segmentu signálu se nazývají statické. Nejčastěji používané metody k získání statických parametrů řečového signálu jsou LPCC(Linear Prediction Cepstral Coefficients), MFCC(Mel-frequency Cepstral Coefficients), PLP(Perceptual Linear Predictive coding). 5

15 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ Parametrizace LPCC Parametrizační metoda lineárně predikovaných kepstrálních koeficientů využívá modelování frekvenčního spektra vstupního signálu pomocí lineárně predikovaných autoregresníchkoeficientů a k syntetizujícíhofiltru,kterýjebuzenbílýmšumem.lineárníprediktor předpovídá n-tý vzorek signálu pomocí p vzorků předcházejících. Zároveň se prediktor snaží minimalizovat chybu predikce e[n], tj. rozdíl skutečné hodnoty daného vzorku s[n] a jeho odhadu s[n]. Lineární prediktor modeluje p/2 nejvýznamnějších špiček frekvenčního spektra. To je výhodné u řečových signálů, neboť tyto špičky odpovídají formantům, tj. významným rezonančním frekvencím artikulačního aparátu. Princip lineární predikce je popsán rovnicí p e[n]=s[n] s[n]=s[n]+ a k s[n k]. (2.4) Koeficienty a k lzeurčitnapř.levinson-durbinovýmalgoritmem[17].tentoalgoritmus určujekoeficienty a k rekurzivnězautokorelačníchkoeficientůdanéhosignálu R[k]minimalizacívýkonuchybovéhosignálu e 2 [n].dalšímetodouvýpočtukoeficientů a k může být Burgův algoritmus, který počítá koeficienty minimalizační metodou součtu výkonu dopředné a zpětné predikce v křížové struktuře analyzujícího FIR filtru. Vdalšímkrokumetodyseautoregresníkoeficienty a k převedounakoeficientykepstrální c n,neboťkepstrálníkoeficientymajímenšívzájemnoukorelovatelnost.příkladvýpočtu LPCC koeficientů je zobrazen blokovým schématem 2.2. k=1 s[n] R[K] a k c n AK LPC a c Obrázek 2.2: Blokové schéma- Parametrizace LPCC Parametrizace MFCC Parametrizace na bázi melovských frekvenčních kepstrálních koeficientů[18] počítá s faktem, že je lidský sluch založen na principu spektrální analýzy. Vnímání zvukových frekvencí lidským uchem není lineární, s rostoucí frekvencí klesá frekvenční rozlišení. Proto MFCC parametrizace převádí lineární frekvenční osu v Hz na nelineární frekvenční osu 6

16 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ v melech. Převodní vztah pro jednotlivé frekvence v Hz do melovské frekvenční škály je uveden v rovnici ( f mel =2595log f ) Hz. (2.5) 700 Na spektrum signálu se aplikuje melovská banka filtrů. Ta je tvořena pásmovými filtry s trojúhelníkovou frekvenční přenosovou charakteristikou. Všechny filtry v bance mají shodnou šířkou pásma v melovské stupnici a jednotlivé pásma mají mezi sebou padesátiprocentní překryv. Pro vzorkovací frekvenci signálu 16 khz se typicky používá 20 pásem. Melovská banka filtrů je zobrazena na obrázku 2.3, kde je každé pásmo vyznačeno pro přehlednost jinou barvu. H(f) [ ] f f s [ ] Obrázek 2.3: Melovská banka filtrů 1 Výkonové melovské kepstrum se vypočítá v jednotlivých pásmech j vzorcem(2.6). Parametr H mel,j představujefrekvenčníodezvufiltruvdanémpásmu.celkovýpočet pásemmelovskébankyfiltrůje P. N/2 g j =ln S[k] 2 H mel,j [k] pro j=0,1,...,p (2.6) k=0 Výsledných N kepstrálních koeficientů melovského kepstra se vypočítá diskrétní kosinovou transformací pro daná výkonová pásma melovského kepstra g. Diskrétní kosinová transformace se v tomto případě může použít pro zjednodušení výpočtu namísto inverzní 7

17 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ diskrétní Fourierovy transformace, protože je aplikována na reálnou část spektra, která představujesudoufunkci.výpočetkoeficientů c i jeuvedenvrovnici c i = 2 P P j=1 ( πi g j cos P ) (j 0.5) pro i=0,1,...,n. (2.7) Celý proces parametrizace MFCC je zobrazen na obrázku 2.4 s[n] S[K] f mel,k lnf mel,k c n DFT Mel-BF ln(.) IDCT Obrázek 2.4: Blokové schéma- Parametrizace MFCC Parametrizace PLP Parametrizace PLP[7, 13] je založena na modelu lidského sluchového vnímání a dále bere v úvahu další vlastnosti lidského slyšení. V této metodě je opět použita nelineární frekvenční osa v podobě Barkovy frekvenční stupnice. Převod frekvencí ω v Hz na nelineární frekvenčníosuω(ω)vbarcíchjepopsánvrovnici(2.8).zdejejižaplikovánfaktlidského logaritmického vnímání výšky zvuku. Ω(ω)=6ln ( ω ) ( ω ) 2+1. (2.8) 1200 Bankafiltrůpoužitávtétometodějetvořenafiltrypopsanýmiprodanépásmo zfunkcí (2.9). Filtry jsou rozmístěny s krokem 1 Bark. 0 pro z < 2,5, 10 z+0,5 pro 2,5 z < 0,5, Ψ(z)= 1 pro 0,5 z <0,5, (2.9) (z 0,5) pro 0,5 z <1,3, 0 pro z >1,3, V dalším kroku jsou filtry v bance přizpůsobeny faktu, že člověk vnímá různě citlivě zvuky různých frekvencí. Tento jev popisují křivky hladin stejné hlasitosti. Tyto křivky 8

18 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ udávají intenzitu zvuku různých frekvencí, které způsobí člověku stejný vnímaný vjem hlasitosti jako referenční tón s kmitočtem 1 khz. Tyto křivky lze aproximovat vztahem E(ω)= ω 4 (ω 2 +56, ) (ω 2 +6, ) 2 (ω , )(ω 6 +9, ). (2.10) Výsledná frekvenční odezva filtrů v daných pásmech se vypočítá pomocí vztahu(2.11), kdeω m jestřednífrekvencedanéhofiltruvpásmu m. Φ m (Ω)=E(Ω)Ψ(Ω Ω m ) (2.11) Vážení výkonového spektra segmentu signálu P(ω) v každém pásmu m je provedeno vztahem Ξ(Ω m )= Ω m+1,3 Ω=Ω m 2,5 P(Ω)Φ m (Ω). (2.12) NaváženéspektrumΞ(Ω m )jepotéprovedenaaproximacezákonuslyšení.tentozákon stanovuje nerovnoměrnost hlasitosti vnímaného zvuku člověkem v závislosti na skutečné intenzitě tohoto zvuku. Tomuto faktu odpovídá mocnina 0,3 každého frekvenčního pásma mvevztahu ξ(ω m )=(Ξ(Ω m )) 0,3. (2.13) Na výsledné výkonové spektrum se aplikuje zpětná Fourierova transformace pro výpočet autokorelačních koeficientů pomocí Wienerovy-Chinčinovy věty. Z těchto koeficientů se poté odhadnou parametry AR modelu pomocí Levinsonova-Durbinova algoritmu. Z autoregresních koeficientů AR modelu se vypočítají kepstrální koeficienty. Celý proces parametrizace PLP je zobrazen na obrázku 2.5 s[n] S[K] S [K] B j B j R[K] a k c n DFT E(f) PLP-BF (.) 0,3 IDFT LPC a c Obrázek 2.5: Blokové schéma- Parametrizace PLP 9

19 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ Dynamické koeficienty Pro zlepšení úspěšnosti rozpoznávání řeči je vhodné doplnit statické parametrizační koeficienty dalšími koeficienty, které popisují vývoj statických parametrů v čase. K tomuto účelu se využívá odhad prvních derivací statických parametrů. Tyto parametry se nazývají delta nebo také diferenciální koeficienty, jejichž výpočet je uveden v rovnici(2.14). Odhady druhé derivace statických parametrů δ se nazývají delta-delta neboli akcelerační koeficienty. Tyto odhady se vypočítají podle vzorce(2.15), okolí pro aproximaci derivace jetypickyvolí M=2. k [i]= M m=1 m(c k[i+m] c k [i m]) M m=1 m2 pro1 k n (2.14) δ k [i]= M m=1 m( k[i+m] k [i m]) M m=1 m2 pro1 k n (2.15) Energie signálu Jako dalším parametrem popisujícím segment signálu může být jeho energetická úroveň. K výpočtu této hodnoty existuje několik metod, ale při parametrizaci se použije pouze jedna z nich. Zmíněné metody jsou krátkodobá energie signálu, logaritmus energie signálu, nultýkepstrálníkeficient c 0. Výpočet krátkodobé energie je uveden ve vzorci(2.16), výpočet logaritmu energie je uveden ve vzorci(2.17). Výpočet je prováděn v segmentu délky N vzorků. N E= s 2 [n] (2.16) n=1 N E=log s 2 [n] (2.17) n=1 10

20 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ 2.4 Princip rozpoznávání řeči V současnosti existují dva přístupy jak rozpoznávat lidskou řeč. První skupinou jsou metody založené na principu porovnávání daného slova s referenčními vzory. Rozpoznávané slovo je porovnáváno se všemi referenčními vzory a následně je klasifikováno ke slovu, se kterým je nejvíce podobné. Pro přizpůsobení časové různorodosti rozpoznávaných slov využívá tato metoda techniku DTW(Dynamic Time Warping, Dynamické borcení časové osy). Tato metoda dokáže úspěšně rozeznávat až několik desítek izolovaných slov. Mnohem efektivnější metodou pro rozpoznávání řeči je využití skrytých Markovových modelů. Tato technika je založena na statistickém modelování řečových elementů nebo celých slov. Modelování řečových elementů je mnohem výhodnější než modelování celých slov, neboť není potřeba k tvorbě jejich skrytých Markovových modelů obsáhlá řečová databáze, kde by byla všechna slova zastoupena v dostatečném množství. Jako řečovým elementem, který bude v rozpoznávači modelován, může být foném. Foném je nejmenší řečový element daného jazyka, který má rozlišovací schopnost slov. K trénování modelů fonémů je potřeba kvalitní databáze řečových signálů, ve kterých budou jednotlivé fonémy stejně procentuálně zastoupeny jako v rozpoznávaném jazyce Princip statistického přístupu k rozpoznávání řeči Celý problém statistického rozpoznávání lze velmi jednoduše popsat následujícím způsobem.nechťjeo={o 1,O 2,...,O T }vektorpříznakůdanéhoslovaaw= {w 1,w 2,...,w n } jemnožina(slovník)všechslov.cílemrozpoznávačejenalezenítakovéhoslova Ŵ,které maximalizuje podmíněnou pravděpodobnost P(W O), tj. nalezení nejpravděpodobnějšíhoslovazeslovníku W kdanémuvektorupříznakůpřipozorování O.Kvýpočtuje použit Bayesův vzorec popsaný rovnicí Ŵ=argmax P(W O)=argmax P(W)P(O W), (2.18) W W P(O) kde P(O W) je pravděpodobnost, že při vyslovení slova W bude generován vektor příznaků O. Cílem modelování řeči metodou skrytých Markovových modelů je vytvořit co možná nejlepší akustický model řeči, tj. takový model, který nejlépe oceňuje podmíněnou pravděpodobnost P(O W). Apriorní pravděpodobnost P(W) v tomto případě odpovídá posloupnosti rozpoznávaných slov. 11

21 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ Skryté Markovovy modely Skrytý Markovův model je automat s konečným počtem stavů. V oblasti rozpoznávání řeči se využívá jeho levopravá varianta, kdy s postupem času model přechází s určitou pravděpodobností do svých následujících stavů. První a poslední stav modelu se nazývá neemitující. Ostatní stavy jsou emitující, neboť model v jejich stavech generuje vektor pozorování Osvýstupnípravděpodobností b i (O).Propřechodzjednohostavudonásledujícíhojeurčenapřechodovápravděpodobnost a ij.modelsenazýváskrytý,protože generuje pouze vektor pozorování O a stav modelu spolu s jeho přechody nelze pozorovat. Jednoduchý HMM je znázorněn na obrázku 2.6. a 22 a 33 a 44 a 12 a 23 a 34 a b 2 (o 1 ) b 2 (o 2 ) b 3 (o 3 ) b 4 (o 4 ) b 4 (o 5 ) o 1 o 2 o 3 o 4 o 5 Obrázek 2.6: Skrytý Markovův model s pěti stavy Model M v každém diskrétním čase t generuje vektor pozorování O. Jednotlivé přechodovépravděpodobnosti a ij avýstupnípravděpodobnosti b i (O)vmodelujsouneznámé. Tuto situaci lze zapsat rovnicí P(O M)= X T a x(0)x(1) b x(t) (o t )a x(t)x(t+1), (2.19) t=1 kde xjestav,vekterémsemodelvdanémčase tprávěnachází.konečnádélkacesty je označena T. Podmíněná pravděpodobnost daného pozorování O musí být proto vypočítána maximalizační úlohou přes všechny možné posloupnosti přechodů mezi stavy vzorcem P(O M)=max X { T } a x(0)x(1) b x(t) (o t )a x(t)x(t+1). (2.20) t=1 12

22 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ Úloha(2.20) je řešena pomocí tzv. Virtebriova algoritmu. Tento algoritmus bude podrobněji popsán v kapitole Jednotlivé prvky vektoru pozorování O přísluší k jednomu z několika emitujících stavů b j (t)alzejevestavovémprostorupřiřaditdoshlukůdefinovanýchstředem µarozptylem r. Tyto shluky se popisují vícerozměrným Gaussovským rozdělením pomocí rovnice N ( o t ;µ j,σ j ) = 1 (2π) n Σ j exp ( 1 2 ( ) T ( ) ) ot µ j Σ 1 j ot µ j, (2.21) kde Σ je kovarianční matice obsahující hodnoty rozptylů na hlavní diagonále a n je délka vektoru o Baum-Velchova reestimace Pro stanovení hodnot parametrů modelů je využita metoda maximální věrohodnosti(maximum Likelihood, ML). Pro maximalizaci věrohodnosti se při trénování modelů využívá iterativní procedura nazvaná jako Baum-Welchův algoritmus. Trénování probíhá způsobem jako trénování vložených jednotek. To znamená, že se nejprve vytvoří pro dané slovo odpovídající fonémový Markovův model a parametry jednotlivých obsažených fonémů jsou trénovány v rámci modelu celého slova. Tím odpadá nutnost pracného a časově náročného ručního vyznačování jednotlivých fonémů v daném slově. Při rozpoznávání více slov v promluvě se jednotlivé modely slov zřetězí za sebe v neemitujících stavech. Před vlastním prováděním reestimace parametrů je nutné odhadnout výchozí hodnoty jednotlivýchstředů µ j arozptylůvšechmodelůvkovariančnímaticiσ j.kvýpočtuodhadů výchozích stavů jsou použity vzorce µ j = 1 T T o t (2.22) t=1 a Σ j = 1 T T (o t µ t )(o t µ t ) T, (2.23) t=1 kde j je stav skrytého Markovova modelu. Výchozí vypočítané odhady parametrů jsou 13

23 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ shodné pro všechny modely fonémů. V Baum-Welchově algoritmu se iterativně počítají maticepříslušnostishlukůkdanýmstavům L j (t).celýprocesprobíhávněkolikakrocích. Výchozí odhady parametrů jsou poté přepočítávány, dokud roste hodnota P(O M) pomocí vztahů µ j = T t=1 L j(t)o t T t=1 L j(t) (2.24) a Σ j = T t=1 L j(t)(o t µ t )(o t µ t ) T T t=1 L j(t). (2.25) Celý algoritmu lze popsat v následujících krocích: 1.Prokaždoumaticiakaždývektorvčitateliajmenovatelirovnic(2.24)a(2.25) použitých při re-estimaci, se alokuje potřebné paměťové místo. 2. Vypočítají se dopředné a zpětné pravděpodobnosti přechodů v každém stavu j včase t. 3.Prokaždýstav jvčase tsepoužijematice L j (t)anynějšívektorpozorování o t kaktualizaciparametrů µ j aσ j. 4.Pomocíaktualizovanýchhodnotvektroru L j (t)sevypočítajínovéhodnoty µ j aσ j. 5. Pokud je hodnota sdružené pravděpodobnosti daného pozorování a daného modelu P(O M) po této iteraci nižší než předešlá hodnota pravděpodobnosti, tak se proces reestimace ukončí. V opačném případě se použijí jiné reestimační parametry a celý proces se opakuje Pravděpodobnostní popis modelu s více složkami a proudy Každáfunkce b j (o t )můžemítsložitějšítvarshluku,nežjakýlzepopsatpomocíjednoho Gaussova rozdělení. Z tohoto důvodu je možné dané rozdělení rozdělit do více složek (směsí),jejichžpoměrsmíseníurčujeparametr c m.vektor o t navícmůžeobsahovatčásti, které jsou statisticky nezávislé. Z tohoto důvodu je žádoucí tento vektor rozdělit na části 14

24 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ zpracovávané zvlášť. Tyto nezávislé části se nazývají proudy a každý proud je umocněn parametrem γ s,odpovídajícívýznamnostidanéhoproudu. Rozdělenífunkce b j (o t )na MsměsíaSproudůbudevypadatnásledovně [ S M b j (o t )= c jsm N ( ) ] γs o st ;µ jsm,σ jsm. (2.26) s=1 m= Viterbiův algoritmus Tentoalgoritmusurčujesdruženoupravděpodobnost P(O M)aoptimálnícestumodelem M rekurzivně technikou dynamického programování. Algoritmus postupně prohledává všechnymožnépřechodyvmodeluapamatujesinejlepšícestu,pokterésedodaného stavudostal.prvníprvekvektorudopřednýchpravděpodobností α j (t)odpovídá α j (1)= α 1j b j (o 1 ).Zjednodušenělzealgoritmusposlatrovnicí α j (t)= max 2,...,N 1 {α i[t 1]α ij }b j (o t ) pro 2 j N, 2 t T, (2.27) kde NjepočetemitujícíchstavůskrytéhoMarkovovamodeluaTjedélkavektoru O Rozpoznávání izolovaných slov Jak již bylo poznamenáno v kapitole 2.4, lze sestavit skryté Markovovy modely pro celá slova. Tento postup je značně nevýhodný, protože je k tomu potřeba rozsáhlá řečová databáze, kde se bude každé slovo několikrát vyskytovat, aby u něj mohl být úspěšně vytvořen jeho model. Mnohem efektivnější technikou je rozdělit slovo na kratší úseky a ty trénovat zvlášť. Tyto subslovní elementy mohou být slabiky nebo fonémy. Použití modelů slabik naráží na problém, že ve značném množství řečových signálů lze jen velmi obtížně vymezit jejich hranice a množina všech možných slabik je velmi obrovská. Jako nejlepší metoda je použití modelů hlasových elementů- fonémů. Takových jednotek je velmi omezené množství, řádově se jedná o desítky. Navíc pro úlohu rozpoznávání řeči není nutné použít všechny fonémy daného jazyka, ale lze vystačit s počtem fonémů v řádu desítek. Pro robustnější rozpoznávače je výhodné použít kontextově závislé fonémy. To jsou fonémy, které mají závislost na okolních fonémech. Tímto způsobem lze velmi výrazně potlačit jev koartikulace. K tomuto účelu lze využít například dvojice fonémů, kdy jsou 15

25 KAPITOLA 2. LIDSKÁ ŘEČ A JEJÍ ROZPOZNÁVÁNÍ jednotlivé fonémy závislé na svém levém nebo pravém sousedním fonému. Tyto dvojice fonémů se nazývají difony. K ještě větší robustnosti modelů se využívají trifony, kdy je k danému fonému přiřazen vliv obou sousedních fonémů v promluvě Rozpoznávání souvislé řeči Pro rozpoznávání souvislé řeči je potřeba znát tzv. jazykový model[13]. Tento model popisuje statisticky gramatiku jazyka a snaží se určit slova, která budou nejpravděpodobněji následovat po slovech předešlých. Model tedy určuje apriorní pravděpodobnost posloupnosti slov P(W) v rovnici 2.18, kterou řečník vysloví. Jazykový model lze tedy definovat rovnicí P(W)= K P(w i w 1,w 2,...,w i 1 ), (2.28) i=1 kde Kjecelkovýpočetslovvdanémmodelu, W jeposloupnostslovaw 1,w 2,...,w i 1 je historie vyslovených slov. Jednoduchý jazykový model lze sestavit určením apriorních pravděpodobností výskytu všech slov. Je jasné, že některé slova z důvodu gramatiky daného jazyka nemohou po sobě následovat. Mnohem lepších výsledků lze dosáhnout použitím n-gramových modelů. Ty modelují jazyk pomocí posloupnosti n slov, které danému slovu předcházely. Nejpoužívanější modely jsou založeny na využití unignamů (n=1),bigramů(n=2)atrigramů(n=3).konstrukcedobrýchjazykovýchmodelů je velmi náročná úloha, neboť nalezení a ohodnocení například všech trigramů v daném jazyce je prakticky nemožné a pro uchování takového modelu v paměti počítače by bylo potřeba několik GB dat. 16

26 Kapitola 3 Tvorba řečového rozpoznávače Proces sestavení rozpoznávače izolovaných slov lze rozdělit do několika fází. Nejprve je nutné připravit data, která obsahují vhodné řečové promluvy. Nejsnadnější cestou k získání promluv je využití tzv. databáze hlasových signálů. Tyto promluvy budou použity pro trénování skrytých Markovových modelů a na části z nich se bude testovat úspěšnost jejich rozpoznávání pomocí natrénovaných modelů fonémů. Před vlastním zahájením procesu trénování Markovových modelů fonémů je nutné všechny použité řečové signály zparametrizovat. Při tvorbě rozpoznávače izolovaných slov se vycházelo ze zprávy[10], podle které byl sestaven rozpoznávač na bázi modelů fonémů bez kontextové závislosti, tzv. monofonů. 3.1 Příprava rozpoznávače Příprava rozpoznávače v sobě zahrnuje výběr vhodných promluv pro trénování modelů fonémů a promluv pro rozpoznávání. Dále je potřeba připravit soubory, které budou nutné pro správnou funkci jednotlivých programů z balíku HTK[19]. K tvorbě všech potřebných souborů a seznamů byl použit programovací jazyk Perl[16], jenž nativně běží v prostředí operačního systému Linux Zdroj řečových signálů Zdrojem všech řečových signálů v této práci se stala česká databáze SPEECON[11]. Jedná se o velmi kvalitní databázi řečových signálů obsahují foneticky bohatý materiál. 17

27 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Vdatabázisenacházípromluvypořízenécelkemod590dospělýcha50dětí.Nakaždého člověka připadá zhruba 322 promluv, což odpovídá asi třiceti minutám záznamu. Obsahem promluv v databázi jsou jednotlivá slova jako názvy měst, ulic, věcí, dále pak číslovky, telefonní čísla, letopočty, ové adresy, foneticky bohaté věty, otázky, spontánně vyslovené věty a podobně. Databáze se nahrávala ve čtyřech různých prostředích- domov, kancelář, automobil a veřejné místo. Každá promluva se navíc nahrávala zároveň čtyřkanálově pomocí čtyř mikrofonů lišících se typem a vzdáleností od mluvčího. Data pořízená v blízkosti jednotek centimetrů od mluvčího mají soubory označené příponou CS0 a CS1. Tyto řečové promluvy by měly mít teoreticky nejlepší kvalitu záznamu, neboť se na nich uplatňuje v nejmenší míře šum. Promluvy nahrané ve vzdálenosti jednoho metru od mluvčího mají soubory označené příponou CS2 a konečně promluvy nahrané mikrofonem umístěným od mluvčího ve vzdálenosti několika metrů jsou označeny příponou CS3. Na posledních dvou kanálech se již velmi uplatňuje šum okolí a nižší hlasitost zaznamenané řeči. Dále v textu budou pro označení řečových signálů z konkrétního kanálu použity právě jména těchto přípon souborů. Seznam použitých mikrofonů v jednotlivých prostředích je uveden v tabulce 3.1. Blízká vzdálenost Střední vzdálenost Větší vzdálenost Prostředí (2-10cm) (1m) (2-3m) CS0 CS1 CS2 CS3 Domov a Sennheiser Nokia Lavalier Sennheiser Kancelář ME 104 HDC-6D ME 64 Mikrofonbau Veřejné Sennheiser Nokia Lavalier Sennheiser Haun místo ME 104 DC-6D ME 64 MBNM-550 E-L Sennheiser Nokia Lavalier AKG Peiker Automobil ME 104 HDC-6D Q400 Mk3 T ME15/V520-1 Mikrofonbau Haun MBNM-550 E-L Tabulka 3.1: Použité mikrofony při nahrávání databáze SPEECON Všechny signály v databázi jsou zaznamenány se vzorkovacím kmitočtem 16 khz s lineárním šestnáctibitovým kvantováním. 18

28 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Výběr vhodných dat z databáze Celá databáze SPEECON obsahuje značné množství promluv, které se nehodí pro tvorbu rozpoznávače. Při trénování skrytých Markovových modelů a testování úspěšnosti rozpoznávání izolovaných slov byly použity pouze promluvy pořízené v prostředí domova a kanceláře. Z této množiny promluv byly následně vyřazeny promluvy obsahující tzv. neřečové události. Tyto promluvy obsahují zvuky, které nemají nic společného s konkrétní promluvou a tyto události by mohly nepříznivě ovlivnit trénování modelů fonémů. Neřečová událost může být např. zakašlání, výrazné nadechnutí mluvčího před začátkem promluvy nebo jakýkoliv cizí zvuk v pozadí. V případě prostředí domova byly vyřazeny promluvy, při nichž v pozadí hrála hudba. Tyto promluvy jsou označeny ve svém anotačním souboru položkou AUD=ON. Dále byly vyřazeny promluvy obsahující pouze šum, spontánní řeč, hláskování slov, ové a webové adresy. Následně byl seznam takto vytříděných promluv zdatabázerozdělenvpoměru9:1natrénovacíatestovacíseznam.zobouseznamůbyl poté vytvořen soubor MLF(Master Label File), jehož obsahem je fonémový přepis všech promluv v daném seznamu. Promluvy v trénovacím seznamu sloužily pro trénování modelů jednotlivých fonémů. Z testovacího seznamu byly použity pouze promluvy obsahující základní číslovky a při jejich rozpoznávání se testovala úspěšnost natrénovaných modelů Seznam modelů fonémů Množina modelů fonémů vychází z fonetické abecedy SAMPA[3]. Celkem bylo použito 42 modelů fonémů z této abecedy. Pro mnohem jednodušší čitelnost byly názvy fonémů převedeny z abecedy SAMPA do jednodušší podoby, kdy jsou k jejich zápisu použita pouze malá písmena abecedy. Výsledný seznam modelovaných fonémů je vypsán v tabulce 3.2. Tentoseznammodelůfonémůbylnavícdoplněnomodelkrátképauzyspamodeldlouhé pauzy sil v promluvě. Tabulka 3.2: Seznam použitých fonémů Symbolfonému Transkriptce Ortografickátranskripce a dar dar aa taata táta au auto auto Pokračování na následující straně 19

29 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Pokračování z předchozí strany Symbolfonému Transkriptce Ortografickátranskripce b baaba bába c cesta cesta cc ccixaa čichá d jeden jeden dd ddelat dělat dz ledzgde leckde dzz raadzza rádža e lef lev ee meenne méně eu euro euro f fauna fauna g guma guma h hat had x xudii chudý i bil, bil bil, byl ii viitr, liiko vítr, lýko j dojat dojat k kupec kupec l ddelaa dělá m maama máma mv tramvvaj tramvaj n viino víno nn konne koně ng bangka banka o kolo kolo oo ooda óda ou pouze pouze p pupen pupen r bere bere rr kerr keř Pokračování na následující straně 20

30 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Pokračování z předchozí strany Symbolfonému Transkriptce Ortografickátranskripce s sut sud ss dusse duše t dutii dutý tt kuttil kutil u dusse duše uu kuul kůl v laava láva z koza koza zz ruuzze růže Gramatika rozpoznávače Při testování úspěšnosti rozpoznávání izolovaných slov jsou použity promluvy obsahující pouze základní číslovky. Aby rozpoznávač věděl, jaká slova má rozpoznávat, potřebuje soubor obsahující tzv. gramatiku. Obsahem tohoto souboru je regulární výraz určující případnou posloupnost slov v rozpoznávaných promluvách. Obsah souboru gramatika je uveden níže. $digit = nula jedna dva tři čtyři pět šest sedm osm devět; (sil sil < $digit sil> sil sil) V tomto zápisu gramatiky rozpoznávač očekává nejprve ticho značené jako sil na začátku promluvy. Poté následuje jedno nebo sekvence několika slov, které jsou definovaná v proměnnou $digit. Mezi slovy je opět mezera. Po posledním slově je očekáváno opět ticho. Tento proces je zobrazen na obrázku 3.1. sil sil nula jedna... sil sil sil devět Obrázek 3.1: Gramatika rozpoznávače 21

31 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE 3.2 Tvorba řečového rozpoznávače Po selekci vhodných řečových signálů lze přejít k trénování skrytých Markovových modelů fonémů. Celý proces začíná parametrizací jednotlivých segmentů řečových signálů vybraných pro trénování a po jejím skončení může být zahájen proces trénování modelů. Na závěr se ověří kvalita jednotlivých modelů při rozpoznávání slov. V této kapitole budou popsány jednotlivé kroky Parametrizace řečových signálů K parametrizaci řečových signálů byly použity dvě techniky- MFCC a PLP. Parametrizace MFCC je prováděna programem HCopy z balíku HTK a k parametrizaci PLP je využit program CtuCopy[8]. Každý z programů používá jiný konfigurační soubor pro detailní nastavení parametrizace. Konstanta preemfáze měla v obou případech hodnotu 0,97. Liftrovací koeficient váhování kepstra byl 22 a v obou případech bylo použito Hammingovo váhovací okno při segmentaci řečového signálu. Parametrizační vektor, vypočítaný z každého segmentu, měl délku 39. Obsahoval jednu hodnotu logaritmu energie, 12 statických, 13 diferenciálních a 13 akceleračních koeficientů. Nastavení segmentace Pro zjištění vlivu úspěšnosti rozpoznávání řeči v závislosti na délce segmentu signálu byly při parametrizace použity celkem tři varianty těchto segmentů. Jednotlivé segmentační úseky měly parametry délkaokna16msapřekryv8ms, délkaokna25msapřekryv10ms, délkaokna32msapřekryv16ms. Překryv těchto segmentů byl volen tak, aby pokud možno odpovídal 50% délky okna, neboť se v práci[14] neukázalo, že by jiná velikost překryvu segmentů vedla k lepším výsledkům při rozpoznávání. 22

32 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Detailní popis nastavení parametrizace MFCC Program HCopy se spouští se dvěma parametry, kde první odpovídá použitému konfiguračnímu souboru parametrizace a druhý představuje seznam souborů, které se budou parametrizovat. HCopy -C konfigurace -S codetr.scp Početpásembankyfiltrůbylnastavennahodnoty22a30.Tytovelikostibankfiltrů byly voleny s ohledem na délky segmentačních oken. Detailní výpis konfigurace parametrizačního souboru je uveden níže. SOURCEKIND = WAVEFORM # na vstupu jsou zvukova data SOURCEFORMAT = NOHEAD # vstupni data jsou bez hlavicky SOURCERATE = 625 # doba periody vzorkovani * 10^-7 TARGETKIND = MFCC_E_D_A # typ parametrizace TARGETRATE = # prekryv segmentu * 10^-7 WINDOWSIZE = # delka segmentu reci * 10^-7 USEHAMMING = T # pouziti Hammingova okenka PREEMCOEF = 0.97 # koeficient preemfaze NUMCHANS = 22 # pocet pasem banky filtru CEPLIFTER = 22 # liftrace kepstra NUMCEPS = 12 # pocet keps. koef. na vystupu ENORMALISE = F # neprovedeni normalizace energie Výše popsanýn nastavením konfiguračního souboru se provede parametrizace signálu snastavenoudélkousegmentu32msapřekryvem16ms.melovskábankafiltrůmá22 pásem. Podrobnější popis jednotlivých nastavení parametrů lze nalézt v[19]. Detailní popis nastavení parametrizace PLP Při parametrizaci PLP se z řečového segmentu vypočítá pouze 12 statických parametrů a logaritmus energie, protože program CtuCopy neumí vypočítat dynamické parametrizační koeficienty. Tyto koeficienty musí být vždy dopočítávány při reestimaci parametrů Markovových modelů programem HERest z balíku HTK. Program tucopy slouží jako přímá náhrada programu HCopy z balíku HTK a proto je spouštěn obdobným způsobem. 23

33 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE ctucopy -C konfigurace -S codetr.scp Banka filtrů má 19 pásem. Tato hodnota je omezena použitou vzorkovací frekvencí v parametrizovaných signálech. Řád lineární predikce pro odhad autoregresních koeficientů byl nastaven na hodnotu 10. Výpis nastavení konfiguračního souboru s popisem nejdůležitějších parametrů je uveden níže. -endian_in little -endian_out big -format_in raw # vstupni data jsou bez hlavicky -format_out htk # vystupni format dat odpovida formatu HTK -preem 0.97 # koeficient preemfaze -dither # pridani nepatrneho sumu do signalu -fs # perioda vzorkovani signalu v Hz -w 32 # delka okna v ms -s 16 # delka prekryvu okna v ms -remove_dc on # odstaneni st. slozky ze signalu -nr_mode none -fb_scale bark # Barkova frekvencni osa -fb_shape trapez # podoba filtru v bance -fb_norm off -fb_power on -fb_eqld on # aplikace krivek stejne hlasitosti -fb_inld on # aplikace zakonu intenzity slyseni -fb_definition 1-19/19filters # pocet pasem banky filtru -fea_kind lpc # metoda vypoctu keps. koef. -fea_lporder 10 # rad linearniho prediktoru -fea_ncepcoefs 12 # pocet keps. koef. na vystupu -fea_c0 off -fea_e on # vypocet logaritmu energie -fea_rawenergy off -fea_lifter 22 # liftrace kepstra Nastavení všech parametrů je obdobné, jako v případě výpočtu MFCC koeficientů. Rozdíl je pouze v nastavení Barkovy frekvenční osy a jiné použité bance filtrů. Významy jednotlivých nastavení jsou popsány v[8] a[7]. 24

34 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Trénování skrytých Markovových modelů Celý proces trénování skrytých Markovových modelů s využitím programů HTK lze rozdělit do několika mezikroků, které budou podrobněji popsány v následujících podkapitolách. Odhad počátečních parametrů modelů Před trénováním skrytých Markovových modelů fonémů je nutné alespoň orientačně určit výchozí hodnoty středů a rozptylů shluků modelů, ze kterých se bude vycházet. K tomuto účelu obsahuje balík HTK program HCompV. Ten vypočítá výchozí hodnoty ze seznamu zparametrizovaných promluv určených parametrem-s a výsledný prototyp modelu fonému uloží do složky hmm0. Konfigurační soubor config2 při trénování obsahuje pouze řádek TARGETKIND MFCC E D A, program HCompV se spouští následujícím příkazem. HCompV -A -C config2 -f m -S train.scp -M hmm0 proto Vypočítané hodnoty odhadů parametrů se poté naklonují všem modelům fonémů, tedy všechny modely budou mít stejné výchozí hodnoty. Tento odhad parametrů nebyl pořizován ze všech zparametrizovaných promluv v trénovacím seznamu. Důvod k tomuto kroku byl ten, že občas docházelo k špatnému odhadu výchozích hodnot ze signálů na kanálech CS2 a CS3, kde byly tyto hodnoty vypočítány značně nepřesně a nepodařilo se již provést pozdější reestimaci těchto modelů. V případě použití asi jedné padesátiny řečových promluv z trénovacího seznamu byly vždy odhady pořízeny bezproblémově a tento úkon neměl žádný vliv na úspěšnost rozpoznávání. Po inicializaci výchozích stavů skrytých Markovových modelů fonémů se provede třikrát po sobě Baum-Welchova reestimace programem HERest. Tento program se spouští následujícím způsobem. HERest -A -X LAB -C config2 -I phones0.mlf -m 0 -t \ -S train.scp -H hmm0/macros -H hmm0/hmmdefs -M hmm1 monophones0 Přepínač-I definuje seznam všech fonémů bez modelu krátké pauzy. Přepínač-t definuje hodnoty prořezávacích prahů v použitém algoritmu pro výpočet parametrů modelů. Po trojité reestimaci jsou výsledné modely uloženy ve složce hmm3. 25

35 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Úprava modelů pro ticho V následujícím kroku jsou doplněny modely fonémů modelem pro krátkou pauzu sp. Tato pauza je vytvořena jako další přechod mezi druhým a čtvrtým stavem Markovových modelů. Po doplnění dlouhé pauzy jsou všechny modely dvakrát reestimovány, nyní již se seznamem fonémů obsahujícím i model krátké pauzy definovaném přepínačem-i v programu HERest. Výsledné modely jsou uloženy ve složce hmm7. Zarovnání trénovacích dat V dalším kroku se provede zarovnání trénovacích dat. Tento proces představuje vyřazení těch promluv z trénovacího seznamu, které se nedaří alespoň částečně rozpoznat. Rozpoznaný obsah každé promluvy se porovnává se vzorem uloženým v souboru words.mlf a pokud se ním alespoň částečně neshoduje, není daná promluva použita pro další trénování. Výsledný zarovnaný seznam promluv se uložen do souboru aligned.mlf. Zarovnání trénovacích dat provádí program HVite. HVite -D -A -X lab -y LAB -T 0 -l * -o SWT -b SILENCE -C config2 -a \ -H hmm7/macros -H hmm7/hmmdefs -i aligned.mlf -m -t I words.mlf \ -S train.scp dict monophones1 Po zarovnání trénovacích dat se opět provede dvojitá reestimace modelů. Výsledné modely jsou uloženy ve složce hmm9. Rozdělení modelu na více složek a proudů Krozdělenívektoru b j danéhomodelunavícesložekasměsísloužíprogramhhed. Vprvnímkrokujsoumodelyrozdělenyna3proudyaposlézena32směsí.Konfigurační soubory pro provedení daných rozdělení se jmenují splitstreams.hed a splitmix.hed. Program HHEd se spouští následujícím způsobem. HHEd -H hmm9/macros -H hmm9/hmmdefs -M hmm10 splitstreams.hed monophones1 HHEd -H hmm10/macros -H hmm10/hmmdefs -M hmm11 splitmix.hed monophones1 Finální dotrénování modelů V dalších krocích se pouze provádí několikanásobná reestimace modelů. Konečná podoba modelů je uložena ve složce hmm23. Další trénování již nemá smysl, neboť dochází k tzv. přetrénování modelů. To znamená, že při jejich použití klesá úspěšnost rozpoznávání 26

36 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE promluv z testovacího seznamu, protože se v maximální možné míře skryté Markovovy modely fonémů přizpůsobují právě promluvám z trénovacího seznamu. Obrázek 3.2 zobrazuje vzrůstající úspěšnost rozpoznávání izolovaných slov v trénovacích cyklech od procesu zarovnání trénovacího seznamu po konečný 23. cyklus trénování modelů. 100 Úspěšnost rozpoznávání[%] Trénovací cyklus Obrázek 3.2: Úspěšnost rozpoznávání v jednotlivých trénovacích cyklech 3.3 Rozpoznávání izolovaných slov K rozpoznávání izolovaných slov slouží program HVite. Ten použije finální modely fonémů, které jsou uloženy ve složce hmm23 a pomocí nich se pokusí rozpoznat zparametrizované promluvy v testovacím seznamu test.scp s využitím slovníku dict, který obsahuje seznam všech rozpoznávaných slov s jejich fonémovou transkripcí. Výsledek úspěšnosti rozpoznávání bude uložen do souboru results.mlf. Program HVite se spouští následujícím způsobem. HVite -C config2 -H hmm23/macros -H hmm23/hmmdefs -S test.scp -l * \ -i results.mlf -w wdnet -p -0 -s 5 dict monophones1 Rozpoznané promluvy jsou následně porovnány se skutečným obsahem testovacích promluv. Tato operace je prováděna programem HResults, který poté vypíše procentuální úspěšnost rozpoznávání testovacích promluv spolu s dalšími užitečnými informacemi. 27

37 KAPITOLA 3. TVORBA ŘEČOVÉHO ROZPOZNÁVAČE Program HResults se spouští následujícím příkazem, kde soubor wordstest.mlf obsahuje přesný obsah promluv a soubor vypisslov obsahuje výpis všech rozpoznávaných slov. HResults -I wordstest.mlf vypisslov results.mlf Podrobnější popis výpisu výsledků rozpoznávání programem HResults je uveden v kapitole Rozpoznávání souvislé řeči K rozpoznávání souvislé řeči byl použit program Czech LVCSR(Large Vocabulary Continuous Speech Recognition)[15][1]. Jedná se o rozpoznávač řeči s velkým slovníkem. Tento rozpoznávač využívá k rozpoznávání promluv s velkým slovníkem program HDecode z balíku HTK. Trénování skrytých Markovových modelů zde probíhá na úrovni trifonů s mezislovním kontextem. Po natrénování jsou výsledné modely uloženy ve složce hmm50. Program byl upraven pro dávkové spouštění a pro snadný export výsledků rozpoznávání. K spouštění rozpoznávače se využívá skript PROCES.sh, který je umístěn ve složce/am/script. Jako jazykový model při rozpoznávání souvislé řeči byl použitý trigramový model cnk tg1 cut1[12]. Tento jazykový model byl vytvořen z Českého národního korpusu [5] a obsahuje celkem slov. Tento počet slov je velmi malý pro úspěšné rozpoznávání souvislé řeči, proto jsou výsledky rozpoznávání souvislé řeči brány pouze orientačně. 28

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16 Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip

Více

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely). Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý

Více

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Petr Zlatník České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz Abstrakt:

Více

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Západočeská univerzita v Plzni. Fakulta aplikovaných věd. Katedra kybernetiky BAKALÁŘSKÁ PRÁCE Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE PLZEŇ, 2016 MARTIN JAHN Prohlášení Předkládám tímto k posouzení a obhajobě bakalářskou práci zpracovanou na

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky BAKALÁŘSKÁ PRÁCE PLZEŇ, 2016 ONDŘEJ VÁCHAL Prohlášení Předkládám tímto k posouzení a obhajobě bakalářskou práci zpracovanou na

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

Kepstrální analýza řečového signálu

Kepstrální analýza řečového signálu Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači

Více

Klasifikace Landau-Kleffnerova syndromu

Klasifikace Landau-Kleffnerova syndromu Klasifikace Landau-Kleffnerova syndromu malých dětí 1. Abstrakt Petr Zlatník ČVUT FEL, K13131 Katedra teorie obvodů Tento příspěvěk pojednává o klasifikaci Landau-Kleffnerova syndromu, který se projevuje

Více

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči Úvod do praxe stínového řečníka Automatické rozpoznávání řeči Systém rozpoznávání řeči Řečník akustický řečový signál Akustická analýza O Akustický model Jazykový model p( O W) PW ( ) Dekodér W^ rozpoznaná

Více

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU 3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,

Více

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3.

Komprese dat Obsah. Komprese videa. Radim Farana. Podklady pro výuku. Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese dat Radim Farana Podklady pro výuku Obsah Komprese videa a zvuku. Komprese MPEG. Komprese MP3. Komprese videa Velký objem přenášených dat Typický televizní signál - běžná evropská norma pracuje

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Semestrální práce: Rozpoznání hláskované řeči a převedení na text VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství Ústav mechaniky těles, mechatroniky a biomechaniky Technická 2, Brno 616 69 RSZ Základy zpracování signálu Semestrální práce: Rozpoznání hláskované

Více

Úvod do praxe stínového řečníka. Proces vytváření řeči

Úvod do praxe stínového řečníka. Proces vytváření řeči Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.

Více

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the

Více

7 Další. úlohy analýzy řeči i a metody

7 Další. úlohy analýzy řeči i a metody Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866,

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.

Více

ADA Semestrální práce. Harmonické modelování signálů

ADA Semestrální práce. Harmonické modelování signálů České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte

Více

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA

Více

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace

Více

U Úvod do modelování a simulace systémů

U Úvod do modelování a simulace systémů U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení

Více

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky Pulsní kódová modulace, amplitudové, frekvenční a fázové kĺıčování Josef Dobeš 24. října 2006 Strana 1 z 16 Základy radiotechniky 1. Pulsní modulace Strana 2 z 16 Pulsní šířková modulace (PWM) PAM, PPM,

Více

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY TEMATICKÉ OKRUHY Signály se spojitým časem Základní signály se spojitým časem (základní spojité signály) Jednotkový skok σ (t), jednotkový impuls (Diracův impuls)

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky DIPLOMOVÁ PRÁCE PLZEŇ, 2016 MICHAL KLÍMA PROHLÁŠENÍ Předkládám tímto k posouzení a obhajobě diplomovou práci zpracovanou na závěr

Více

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo Pravděpodobnostní usuzování v čase Markovské procesy příklad: diabetický pacient, hladina inzulinu, léky, jídlo předpokládáme, že se množina možných stavů S nemění v průběhu času předpokládáme diskrétní

Více

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ Katedra Teorie obvodů Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách Dizertační práce Josef Rajnoha Praha, únor

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Číslicové filtry. Honza Černocký, ÚPGM

Číslicové filtry. Honza Černocký, ÚPGM Číslicové filtry Honza Černocký, ÚPGM Aliasy Digitální filtry Diskrétní systémy Systémy s diskrétním časem atd. 2 Na co? Úprava signálů Zdůraznění Potlačení Detekce 3 Zdůraznění basy 4 Zdůraznění výšky

Více

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt Vyhodnocování promluv dětí s poruchami řeči Petr Zlatník, Roman Čmejla Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha Abstrakt Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Více

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE Pokročil ilé metody rozpoznávánířeči Vyučující: Prof. Ing. Jan Nouza, CSc., ITE Cíl předmětu: Seznámit se s nejmodernějšími metodami rozpoznávánířeči s využitím modulové stavebnice HTK (Hidden Model Markov

Více

Klasifikace a rozpoznávání. Extrakce příznaků

Klasifikace a rozpoznávání. Extrakce příznaků Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám

Více

Signál v čase a jeho spektrum

Signál v čase a jeho spektrum Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě

Více

Klasifikace hudebních stylů

Klasifikace hudebních stylů Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů

Více

Implementace Bayesova kasifikátoru

Implementace Bayesova kasifikátoru Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6

Více

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email: pollak@fel.cvut.cz http://noel.feld.cvut.cz/vyu/a2m31rat

Více

MKI Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0.

MKI Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0. MKI -00 Funkce f(z) má singularitu v bodě 0. a) Stanovte oblast, ve které konverguje hlavní část Laurentova rozvoje funkce f(z) v bodě 0. V jakém rozmezí se může pohybovat poloměr konvergence regulární

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství Interaktivní systém pro detekci řečového signálu Interactive System with Speech

Více

7. Funkce jedné reálné proměnné, základní pojmy

7. Funkce jedné reálné proměnné, základní pojmy , základní pojmy POJEM FUNKCE JEDNÉ PROMĚNNÉ Reálná funkce f jedné reálné proměnné je funkce (zobrazení) f: X Y, kde X, Y R. Jde o zvláštní případ obecného pojmu funkce definovaného v přednášce. Poznámka:

Více

Rozpoznávání řeči s malým slovníkem s nástroji KALDI

Rozpoznávání řeči s malým slovníkem s nástroji KALDI Diplomová práce Rozpoznávání řeči s malým slovníkem s nástroji KALDI Miroslav Forman 10.ledna 2016 Vedoucí práce: doc. Ing. Petr Pollák, CSc. Konzultant: Ing. Petr Mizera České vysoké učení technické v

Více

SRE 03 - Skryté Markovovy modely HMM

SRE 03 - Skryté Markovovy modely HMM SRE 03 - Skryté Markovovy modely HMM Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno SRE 03 - Skryté Markovovy modely HMM Jan Černocký, ÚPGM FIT VUT Brno 1/35 Plán... SRE 03 - Skryté

Více

Algoritmy a struktury neuropočítačů ASN P8b

Algoritmy a struktury neuropočítačů ASN P8b Algoritmy a struktury neuropočítačů ASN P8b Úvod - přirozená řeč jako zvukový signál Základní pojmy z fonetiky Charakteristiky mluvené řeči Přirozená řeč jako zvukový signál Řeč (speech) - komplex technických,

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722 Základy a aplikace digitálních modulací Josef Dobeš Katedra radioelektroniky (13137), blok B2, místnost 722 dobes@fel.cvut.cz 6. října 2014 České vysoké učení technické v Praze, Fakulta elektrotechnická

Více

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi

Více

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004

Iterační výpočty. Dokumentace k projektu č. 2 do IZP. 24. listopadu 2004 Dokumentace k projektu č. 2 do IZP Iterační výpočty 24. listopadu 2004 Autor: Kamil Dudka, xdudka00@stud.fit.vutbr.cz Fakulta Informačních Technologií Vysoké Učení Technické v Brně Obsah 1. Úvod...3 2.

Více

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči

Úvod do praxe stínového řečníka. Automatické rozpoznávání řeči Úvod do praxe stínového řečníka Automatické rozpoznávání řeči Systém rozpoznávání řeči Wˆ = arg max P W O = arg max p O W P W W ( ) ( ) ( ) W Akustická analýza potlačit vysokou informační redundanci řečového

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF

Více

Vlastnosti a modelování aditivního

Vlastnosti a modelování aditivního Vlastnosti a modelování aditivního bílého šumu s normálním rozdělením kacmarp@fel.cvut.cz verze: 0090913 1 Bílý šum s normálním rozdělením V této kapitole se budeme zabývat reálným gaussovským šumem n(t),

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

oddělení Inteligentní Datové Analýzy (IDA)

oddělení Inteligentní Datové Analýzy (IDA) Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {

Více

Grafika na počítači. Bc. Veronika Tomsová

Grafika na počítači. Bc. Veronika Tomsová Grafika na počítači Bc. Veronika Tomsová Proces zpracování obrazu Proces zpracování obrazu 1. Snímání obrazu 2. Digitalizace obrazu převod spojitého signálu na matici čísel reprezentující obraz 3. Předzpracování

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné

Více

LPC. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

LPC. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39 LPC Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39 Plán signálový model artikulačního traktu. proč lineární predikce. odhad koeficientů filtru

Více

Laboratorní úloha č. 8: Elektroencefalogram

Laboratorní úloha č. 8: Elektroencefalogram Laboratorní úloha č. 8: Elektroencefalogram Cíle úlohy: Rozložení elektrod při snímání EEG signálu Filtrace EEG v časové oblasti o Potlačení nf a vf rušení o Alfa aktivita o Artefakty Spektrální a korelační

Více

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury diplomová práce Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury Bc. Aleš Brich květen 2016 Doc. Ing. Petr Pollák, CSc. České vysoké učení technické v Praze Fakulta elektrotechnická,

Více

BAKALÁŘSKÁ PRÁCE EVALUACE TRÉNOVACÍCH DAT K TVORBĚ SPORTOVNÍCH AKUSTICKÝCH MODELŮ ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD

BAKALÁŘSKÁ PRÁCE EVALUACE TRÉNOVACÍCH DAT K TVORBĚ SPORTOVNÍCH AKUSTICKÝCH MODELŮ ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD ZÁPADOČESKÁ UNIVERZITA V PLZNI FAKULTA APLIKOVANÝCH VĚD KATEDRA KYBERNETIKY BAKALÁŘSKÁ PRÁCE EVALUACE TRÉNOVACÍCH DAT K TVORBĚ SPORTOVNÍCH AKUSTICKÝCH MODELŮ Plzeň, 2016 Jan Hás Prohlášení Předkládám tímto

Více

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů

Kapitola 1. Signály a systémy. 1.1 Klasifikace signálů Kapitola 1 Signály a systémy 1.1 Klasifikace signálů Signál představuje fyzikální vyjádření informace, obvykle ve formě okamžitých hodnot určité fyzikální veličiny, která je funkcí jedné nebo více nezávisle

Více

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání.

KOMPRESE OBRAZŮ. Václav Hlaváč, Jan Kybic. Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání. 1/25 KOMPRESE OBRAZŮ Václav Hlaváč, Jan Kybic Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz http://cmp.felk.cvut.cz/ hlavac KOMPRESE OBRAZŮ, ÚVOD

Více

Interpolace, ortogonální polynomy, Gaussova kvadratura

Interpolace, ortogonální polynomy, Gaussova kvadratura Interpolace, ortogonální polynomy, Gaussova kvadratura Petr Tichý 20. listopadu 2013 1 Úloha Lagrangeovy interpolace Dán omezený uzavřený interval [a, b] a v něm n + 1 různých bodů x 0, x 1,..., x n. Nechť

Více

5. Umělé neuronové sítě. Neuronové sítě

5. Umělé neuronové sítě. Neuronové sítě Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně

Více

Funkce komplexní proměnné a integrální transformace

Funkce komplexní proměnné a integrální transformace Funkce komplexní proměnné a integrální transformace Fourierovy řady I. Marek Lampart Text byl vytvořen v rámci realizace projektu Matematika pro inženýry 21. století (reg. č. CZ.1.07/2.2.00/07.0332), na

Více

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,

Více

Primární zpracování radarového signálu dopplerovská filtrace

Primární zpracování radarového signálu dopplerovská filtrace ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE K13137 - Katedra radioelektroniky A2M37RSY Jméno Stud. rok Stud. skupina Ročník Lab. skupina Václav Dajčar 2011/2012 2. 101 - Datum zadání Datum odevzdání Klasifikace

Více

11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina.

11MAMY LS 2017/2018. Úvod do Matlabu. 21. února Skupina 01. reseni2.m a tak dále + M souborem zadané funkce z příkladu 3 + souborem skupina. 11MAMY LS 2017/2018 Cvičení č. 2: 21. 2. 2018 Úvod do Matlabu. Jan Přikryl 21. února 2018 Po skupinách, na které jste se doufám rozdělili samostatně včera, vyřešte tak, jak nejlépe svedete, níže uvedená

Více

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnávání Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Periodicita v časových

Více

31SCS Speciální číslicové systémy Antialiasing

31SCS Speciální číslicové systémy Antialiasing ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE 2006/2007 31SCS Speciální číslicové systémy Antialiasing Vypracoval: Ivo Vágner Email: Vagnei1@seznam.cz 1/7 Převod analogového signálu na digitální Složité operace,

Více

X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky

X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky X3EO - Elektrické obvody Kmitočtové charakteristiky Doc. Ing. Petr Pollák, CSc. Letní semestr 5/6!!! Volné šíření není povoleno!!! Fázory a spektra Fázor harmonického průběhu Û m = U m e jϕ ut) = U m sinωt

Více

Pavel Cenek, Aleš Horák

Pavel Cenek, Aleš Horák Syntéza a rozpoznávání řeči Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Obsah: Rozpoznávání řeči Související technologie Úvod do počítačové lingvistiky 3/11 1 / 20

Více

Odhady - Sdružené rozdělení pravděpodobnosti

Odhady - Sdružené rozdělení pravděpodobnosti Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více

Implementace rozpoznávače řeči na bázi TANDEM architektury

Implementace rozpoznávače řeči na bázi TANDEM architektury bakalářská práce Implementace rozpoznávače řeči na bázi TANDEM architektury Aleš Brich květen 2014 Doc. Ing. Petr Pollák, CSc. České vysoké učení technické v Praze Fakulta elektrotechnická, Katedra kybernetiky

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE

25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE 25. DIGITÁLNÍ TELEVIZNÍ SIGNÁL A KABELOVÁ TELEVIZE Digitalizace obrazu a komprese dat. Uveďte bitovou rychlost nekomprimovaného číslicového TV signálu a jakou šířku vysílacího pásma by s dolním částečně

Více

P7: Základy zpracování signálu

P7: Základy zpracování signálu P7: Základy zpracování signálu Úvodem - Signál (lat. signum) bychom mohli definovat jako záměrný fyzikální jev, nesoucí informaci o nějaké události. - Signálem je rovněž funkce, která převádí nezávislou

Více

Modelování a simulace Lukáš Otte

Modelování a simulace Lukáš Otte Modelování a simulace 2013 Lukáš Otte Význam, účel a výhody MaS Simulační modely jsou nezbytné pro: oblast vědy a výzkumu (základní i aplikovaný výzkum) analýzy složitých dyn. systémů a tech. procesů oblast

Více

Číslicové zpracování signálů a Fourierova analýza.

Číslicové zpracování signálů a Fourierova analýza. Číslicové zpracování signálů a Fourierova analýza www.kme.zcu.cz/kmet/exm 1 Obsah prezentace 1. Úvod a motivace 2. Data v časové a frekvenční oblasti 3. Fourierova analýza teoreticky 4. Fourierova analýza

Více

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB

REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB 62 REGRESNÍ ANALÝZA V PROSTŘEDÍ MATLAB BEZOUŠKA VLADISLAV Abstrakt: Text se zabývá jednoduchým řešením metody nejmenších čtverců v prostředí Matlab pro obecné víceparametrové aproximační funkce. Celý postup

Více

1 LIMITA FUNKCE Definice funkce. Pravidlo f, které každému x z množiny D přiřazuje právě jedno y z množiny H se nazývá funkce proměnné x.

1 LIMITA FUNKCE Definice funkce. Pravidlo f, které každému x z množiny D přiřazuje právě jedno y z množiny H se nazývá funkce proměnné x. 1 LIMITA FUNKCE 1. 1 Definice funkce Pravidlo f, které každému z množiny D přiřazuje právě jedno y z množiny H se nazývá funkce proměnné. Píšeme y f ( ) Někdy používáme i jiná písmena argument (nezávisle

Více

4 HMM a jejich trénov

4 HMM a jejich trénov Pokročilé metody rozpoznávánířeči Přednáška 4 HMM a jejich trénov nování Skryté Markovovy modely (HMM) Metoda HMM (Hidden Markov Model kryté Markovovy modely) reprezentujeřeč (lovo, hláku, celou promluvu)

Více

Teorie náhodných matic aneb tak trochu jiná statistika

Teorie náhodných matic aneb tak trochu jiná statistika Teorie náhodných matic aneb tak trochu jiná statistika B. Vlková 1, M.Berg 2, B. Martínek 3, O. Švec 4, M. Neumann 5 Gymnázium Uničov 1, Gymnázium Václava Hraběte Hořovice 2, Mendelovo gymnázium Opava

Více

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající Řečové detektory využívající ergodické Markovovské modely J. Tatarinov, P. Pollák České vysoké učení technické v Praze Fakulta elektrotechnická Abstrakt Tento článek prezentuje využití ergodických Markovovských

Více

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie Syntéza a rozpoznávání řeči Obsah: Související technologie Pavel Cenek, Aleš Horák E-mail: hales@fi.muni.cz http://nlp.fi.muni.cz/poc_lingv/ Text to Speech, TTS Konverze textu do mluvené podoby V ideálním

Více

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ 1. týden doc. Ing. Renata WAGNEROVÁ, Ph.D. Ostrava 2013 doc. Ing. Renata WAGNEROVÁ, Ph.D. Vysoká škola báňská

Více

Cvičná bakalářská zkouška, 1. varianta

Cvičná bakalářská zkouška, 1. varianta jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA INFORMAČNÍCH TECHNOLOGIÍ ÚSTAV POČÍTAČOVÉ GRAFIKY A MULTIMÉDIÍ FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND

Více

Využití neuronové sítě pro identifikaci realného systému

Využití neuronové sítě pro identifikaci realného systému 1 Portál pre odborné publikovanie ISSN 1338-0087 Využití neuronové sítě pro identifikaci realného systému Pišan Radim Elektrotechnika 20.06.2011 Identifikace systémů je proces, kdy z naměřených dat můžeme

Více

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno Fonetika, rozpoznávání řeči HMM II. Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Rozpoznávání řeči HMM Jan Černocký, ÚPGM FIT VUT Brno 1/20 Plán Něco z fonetiky fonetické abecedy.

Více

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky Při návrhu elektroakustických soustav, ale i jiných systémů, je vhodné nejprve

Více

Direct Digital Synthesis (DDS)

Direct Digital Synthesis (DDS) ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory

Více

Globální matice konstrukce

Globální matice konstrukce Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Speciální struktury číslicových systémů ASN P12

Speciální struktury číslicových systémů ASN P12 Aplikace UNS v syntéze řeči modelování prozodie druhy syntezátorů Umělé neuronové sítě pro modelování prozodie Rozdíly mezi přirozenou a syntetickou řečí Požadavky: zlepšování srozumitelnosti zlepšování

Více

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti

Zvuková karta. Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti Zvuk a zvuková zařízení. Vývoj, typy, vlastnosti Zvuková karta Počítač řady PC je ve své standardní konfiguraci vybaven malým reproduktorem označovaným jako PC speaker. Tento reproduktor je součástí skříně

Více

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení Zvuk včetně komprese Digitálně = lépe! Je to ale pravda? Obsah přednášky Digitalizace spojitého signálu. Aliasing, kvantizační chyba. Praktická realizace digitálního zvukového řetězce. Komprese zvuku.

Více

8. Sběr a zpracování technologických proměnných

8. Sběr a zpracování technologických proměnných 8. Sběr a zpracování technologických proměnných Účel: dodat v částečně předzpracovaném a pro další použití vhodném tvaru ucelenou informaci o procesu pro následnou analyzu průběhu procesu a pro rozhodování

Více

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u

Více

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více