České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE. Robustní parametrizace řeči na bázi

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů DIPLOMOVÁ PRÁCE Robustní parametrizace řeči na bázi časových trajektorií Autor: Vedoucí práce: Bc. Vojtěch Ondráček Doc. Ing. Petr Pollák, CSc.

2 Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady (literaturu, projekty, SW atd.) uvedené v přiloženém seznamu. V Praze dne podpis i

3 Poděkování Děkuji především vedoucímu diplomové práce panu Doc. Ing. Petru Pollákovi, CSc. za výborné vedení, cenné rady a psychickou podporu při realizaci dané problematiky a Ing. Petru Fouskovi, Ph.D. za technickou podporu. ii

4 iii

5 Abstrakt Tato práce se zabývá analýzou robustnosti příznaků řečového signálu na bázi časových trajektorií (TempoRAl Patterns - TRAP). Popisuje základní variantu TRAP parametrizace pracující přímo s trajektoriemi výkonu v kritických pásmech, tak i variantu TRAP parametrizace, která redukuje počet příznaků časových trajektorií spektrogramu na základě reprezentace trajektorie pomocí DCT transformace. Prezentuje rozšířenou verzi TRAP-DCT parametrizace, která před výpočtem příznaků z časových trajektorií spektrogramu potlačuje aditivním šum pomocí rozšířeného spektrálního odečítání. Konečným výstupem TRAP parametrizace jsou aposteriorní pravděpodobnosti hlásek, které jsou získány mapováním z TRAP trajektorií pomocí umělých neuronových sítí. Použití neuronových sítí bylo řešeno dvěma způsoby: pomocí balíčku MALTAB Neural Network Toolbox (NNTbx), nabízející grafické rozhraní a snadnou analýzu natrénovaných neuronových sítí, a pomocí nástroje QuickNet, který pracuje bez grafického rozhraní a jehož výhodou je efektivní a rychlý postup trénování velkých neuronových sítí. Balíček QuickNet však překonával především hlavní omezení balíčku NNTbx v MATLABu, a to obtížnost trénování neuronových sítí větších rozměrů. V závěru práce jsou uvedeny výsledky experimentů analyzující robustnost základní a modifikované TRAP-DCT parametrizace i s použitím rozšířeného spektrálního odečítání. Testování a analýza správnosti vyhodnocení klasifikace neuronové sítě probíhala také při různém nastavení počtu neuronů ve skryté vrstvě neuronové sítě a pro různý objem dat pro trénování neuronové sítě. iv

6 Abstract This thesis deals with an analysis of the robustness of speech features based on TempoRAl Patterns (TRAP). It describes basic version of TRAP parametrization, working directly with temporal trajectories of power in critical bands, as well as with the version of TRAP parametrization, which works with reduced number of parameters describing temporal trajectories using Discrete Cosine Transform. It also presents an extended version of TRAP-DCT parametrization which suppresses an additive background noise in temporal critical-band trajectories by frequency-domain algorithm of extended spectral subtraction. The a posterior probabilities of particular phonemes are the final output of TRAP parametrization and they are obtained by mappings using artificial neural networks. The usage of neural networks was solved in two ways: firstly, using MATLAB Neural Network Toolbox (NNTbx), offering graphic interface and easy analysis of trained neural networks, and secondly, using QuickNet toolkit which worked without graphic interface but which had the advantage of efficient and fast training of large neural networks. Mainly, QuickNet toolkit overcame the main disadvantage of MATLAB NNTbx, i.e. difficulties and limitations in training of very large neural networks. Finally, analysis of basic and modified TRAP-DCT features robustness was realized within the last part of this thesis, commonly with the contribution of extended spectral subtraction in critical-band spectrogram computation. The testing of neural network classification accuracy was realized also for different settings of number of neurons in hidden layer and also for different amounts of training data. v

7 Obsah Seznam obrázků Seznam tabulek viii ix 1 Úvod 1 2 Řečové příznaky Řečový signál Vnímání řeči Krátkodobé a dlouhodobé příznaky TRAP parametrizace Spektrogram v kritických pásmech Základní TRAP příznaky TRAP-DCT TRAP se spektrálním odečítáním Mapování do tříd Neuronové sítě Základní popis MLP Princip trénovaní Implementace Softwarové balíčky Implementace TRAP parametrizace v MATLABu Klasifikace tříd, hlásek Trénovaní neuronových sítí v NNTbx Použití neuronových sítí v QuickNetu vi

8 5 Experimenty Databáze SPEECON Výběr parametriazce Testování na množství trénovacích dat Testování na 3-5 vrstvé MLP Testování CtuCopy - TRAP-DCT Počet neuronů ve skryté vrstvě Ilustrativní ukázka Závěr 38 Literatura 41 A Obsah přiloženého CD I vii

9 Seznam obrázků 2.1 Závislost frekvence na subjektivní výšce tónu Spektrogram řeči: Vlevo - Příznaky z krátkodobého spektra. Vpravo - příznaky z dlouhodobého spektra Schéma TRAP-MLP Melovská banka filtrů Schéma výpočtů kritické banky filtrů Schéma základního systému TRAP-MLP Srovnání krátkodobých a TRAP příznaků Schéma TRAP-DCT-MLP Schéma TRAP-DCT-Exten Schéma rozšířeného spektrálního odečítání Model elementárního neuronu Schéma MLP Úspěšnost klasifikace na množství trénováních dat Úspěšnost klasifikace na počtu neuronů ve skryté vrstvě Referenční klasifikace tříd na segment řeči Aposteriorní pravděpodobnosti tříd na segment řeči Vyhodnoceni nejvyšší aposteriorní pravděpodobnosti na segment řeči.. 37 viii

10 Seznam tabulek 4.1 Struktura textového souboru Struktura textového souboru požadovaných tříd Srovnání aposteriorních pravděpodobností hlásky Výběr dat z databáze - trénovací data Výběr dat z databáze - testovací data Úspěšnost klasifikace TRAP, TRAP-DCT Klasifikace TRAP-DCT na délce trénovacích dat Klasifikace TRAP-DCT-Exten na délce trénovacích dat Úspěšnost klasifikace TRAP-DCT na 3-5 vrstvé MLP Úspěšnost klasifikace TRAP-DCT-Exten Úspěšnost klasifikace TRAP-DCT na počtu neuronů Úspěšnost klasifikace TRAP-DCT-Exten na počtu neuronů Úspěšnost klasifikace hlásek ix

11 Kapitola 1 Úvod Základní a nejrozšířenější komunikace pro přenos informací mezi lidmi je mluvená řeč. V dnešní době rozvíjející se výpočetní techniky se zvyšují nároky na přirozenost komunikace mezi přístrojem a člověkem. Přirozenost této komunikace může být zvýšena právě prostřednictvím mluvené řeči. Cílem je, aby počítač byl schopen plnohodnotného dialogu s člověkem. Tento typ komunikace nám může přinést určité pohodlí nebo umožní handicapovaným lidem alternativní formu komunikace mezi počítačem. Hlasovou komunikaci dnes nalezneme například v mobilních telefonech, interaktivních aplikacích, osobních počítačích, automatizovaných informačních systémech, apod. [9] [12]. Tyto systémy jistě nejsou stále dokonalé, existuje zde stále mnoho problémů při automatickém rozpoznávání řeči, které je možné překonat a zvýšit tak spolehlivost hlasové komunikace. Jednou z cest, kde je možné hledat řešení, je oblast extrakce příznaků, které by byly robustní vůči přítomnému rušení. Většina systémů pro automatické rozpoznávání řeči používá příznaky z krátkých časových úseků řeči, tzv. krátkodobé příznaky. Tento způsob rozpoznávání řeči ovšem nezachycuje delší časový kontext, který je v řeči přirozeně přítomen. Základní myšlenkou je tedy zavést do příznaků informaci z delšího časového kontextu [5] než u běžných krátkodobých parametrizací. Tato práce popisuje metodu extrakce příznaků, pracující na bázi časových trajektorií řeči (TempoRAl Patterns - TRAP), které zachycují delší časový kontext řeči. Její modifikací a robustní variantou eliminující vliv aditivního šumu v řečovém signálu, pro zvýšení odolnosti a spolehlivosti při použití v přirozeného prostředí. Jádrem práce je analýza robustnosti TRAP parametrizace s užším zaměřením na aditivní šum v automobilu. Dále postup extrakce TRAP příznaků získaných mapováním z časových trajektorií řeči, kde mapování TRAP trajektorií probíhá pomocí umělých neuronových sítí (Neural TRAP). Vyhodnocení úspěšnosti klasifikace neuronové sítě bude 1

12 KAPITOLA 1. ÚVOD 2 probíhat na bázi aposteriorních pravděpodobností jednotlivých tříd (hlásek). Nakonec příprava vhodných trénovacích a testovacích dat pro dostatečné vyhodnocení TRAP parametrizace v reálných podmínkách. Práce je rozdělena do následujících kapitol. Druhá kapitola Řečové příznaky popisuje extrakci řečových příznaků, které jsou založeny na principu vnímání řeči lidským uchem. Následující kapitola TRAP parametrizace rozebírá postup extrakce příznaků z TRAP trajektorií i s použitím spektrálního odečítání. Podkapitola Trénování neuronových sítí popisuje strukturu a princip trénování umělých neuronových sítí a jejich následná realizace pomocí různých nástrojů je popsaná v kapitole Implementace. Kapitola Experimenty srovnává pokusy výsledků TRAP parametrů s použitím různých nastavení neuronové sítě a závěrečná kapitola pak shrnuje obecné výsledky celé práce.

13 Kapitola 2 Řečové příznaky Aplikace pro rozpoznávání řeči nepracují s časovými vzorky signálu, ale s řečovými příznaky. Časové vzorky signálu obsahují velké množství redundantní informace a velký počet vstupních dat na vstupu do klasifikátoru. Pro účely klasifikace je tedy vhodné volit řečové příznaky, které obsahují již komprimovanou podobu potřebné informace. Vhodné řešení může být použití autoregresních koeficientů, které určují vyhlazený odhad amplitudového spektra signálu na bázi lineární predikce [12], nebo použíti kepstrálních koeficientů, které aproximují tvar amplitudové spektra signálu a též zahrnují nelineární vnímání frekvence lidským sluchem. Mnohé metody extrakce příznaků (např. i v této práci popisované TRAP příznaky), jsou založeny na modelech vnímání řeči lidským uchem. Z tohoto důvodu je v této kapitole uveden stručně princip vnímání mluvené řeči [9]. 2.1 Řečový signál Zvukovou podobu řeči zachycují fonémy, ale pouze formálně. Fonémy jsou definovány jako elementy, které svou sekvencí ztotožňují zvukovou podobu každého slova. Konkrétní zvukovou podobu vysloveného fonému nazýváme hláska, která je základním kamenem při rozpoznávání jednotlivých fonému v aplikacích pro rozpoznávání řeči. Pro současnou češtinu se dá určit 39 fonému, kde množinu zvukových realizací v rámci téhož fonému nazýváme alofon. V této práci používáme i 6 alofonů, tedy nakonec pracujeme s 45 hláskami a jednou třídou, reprezentující šum v pozadí. Vlivem setrvačností mluvícího ústrojí je informace fonému rozprostřena v delším časovém úseku, tj. hláska je ovlivněna posloupností 3

14 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 4 předchozích a následujících hlásek. Nejpřesnější zachycení hlásky tedy dostaneme, když bude zachycena v co nejdelším časovém kontextu (koartikulace), např. použitím trifónu místo monofónu. Standardně používané parametrizace popisují spolu se statickými příznaky jejich časový vývoj. Z tohoto důvodu ke statickým příznakům přidáváme dynamické koeficienty označované jako delta a delta-delta parametry (diferenciální a akcelerační parametry), které zachycují kratší časový kontext řeči. V současné době se však ukazuje, že informace pro rozpoznávání řeči je zakódována ve změnách dynamiky spektra, tedy v delším časovém kontextu. 2.2 Vnímání řeči Pro pochopení některých způsobů zpracovaní řečového signálu je třeba poznat teorii vnímání řeči. Významné zjištění nastalo u vnímání výšky zvuku, které neodpovídá fyzikální výšce zvuku v Hz. Z tohoto důvodu byla zavedena tzv. subjektivní výška zvuku, jejíž jednotkou je mel 1. Při experimentech na frekvenci 1000 Hz bylo určeno, že subjektivní výška pro mel-frekvenci při 40 Ph je 1000 mel. Ostatní subjektivní výšky tonů se určí srovnáním jejich výšky s výškou nějakého referenčního tónu, kde následnou aproximací těchto bodů získali Stevens a Volkmann následující rovnici [9], m = 2595 log 10 (1 + f ), (2.1) 700 kde m je subjektivní výška v mel a f značí frekvenci v Hz. Tato funkce je zobrazena na obr Přítomnost šumu v určitém frekvenčním pásmu snižuje schopnost slyšet tón, který se nachází ve stejném pásmu, ale podle Fletchera [1] nemá vliv na naši schopnost vnímat daný tón v odlišném pásmu. Tento jev byl vysvětlen tím, že člověk používá jakýsi psychologický filtr, který ignoruje jiný šum ležící mimo dané frekvenční pásmo. Poslouchaný frekvenční tón určuje šířku takového kritického pásma. Tedy toto pásmo lze chápat jako frekvenční, ve kterém dochází ke zřetelným změnám při subjektivním vnímání zvuku. Z rozsahů slyšitelných frekvencí od 16 Hz do 16 khz lze dle Zwickera rozdělit tento rozsah na 24 pásem. Díky této skutečnosti byla navržena druhá používaná Barkova stupnice, kde tyto pásma odpovídají horní mezní frekvenci kritického pásma. Průměrná šířka kritického pásma je asi 137 mel 1 Bark. Dále bylo zjištěno, že šířky kritickým pásem 1 Mel - melodie, zkratka z anglického slova

15 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 5 frekvence [mel] frekvence [Hz] Obrázek 2.1: Závislost frekvence na subjektivní výšce tónu odpovídají zhruba 1,3 mm dlouhým úseků na bazilární membráně vnitřního ucha. Při délce bazilární membrány 32 mm lze toto chování modelovat 24 pásmovými filtry. Této vlastnosti s využívá při zpracovaní řečového signálu například při melovské kepstrální filtraci nebo perceptivní lineární analýze. 2.3 Krátkodobé a dlouhodobé příznaky Výběrem vhodných informativních příznaků (parametrizace řečového signálu), rozumíme extrakci takových příznaků, které obsahují veškeré informace pro další vhodné zpracování v komprimované podobě. V minulosti byla preferována cela řada technik pro parametrizaci řeči s ohledem na výkon výpočetní techniky a stavem poznání chování lidské řeči, které jsou založeny na zjištěných teoretických poznatcích modelovaní teorie slyšení a modelování řečové produkce, tj. např. používané PLP koeficienty (Perceptual Linear Prediction), pracující na bázi křivek hladin stejné hlasitosti, mel-frekvenční kepstrální koeficienty (MFCC - Mel Frequency Cepstral Coefficients) a LPC koeficienty (Linear predictive coding). I přes obrovský pokrok ve zpracování a parametrizaci řečového signálu nebyla nalezena taková technika pro extrakci příznaků, která by nesla hlavní a stěžejní informace pro následné zpracování. Velká část parametrizačních technik zpracovává řečový signál postupně pomocí mik-

16 KAPITOLA 2. ŘEČOVÉ PŘÍZNAKY 6 rosegmentů (délka mikrosegmentu má obvykle délku 10 ms), kde výsledky jsou průběžně předkládány klasifikátoru. Ovšem tyto mikrosegmenty - krátkodobé spektrální parametry, jsou velice citlivé na změny a poruchy v komunikačním kanálu. Modernější parametrizační metody řečového signálu se snaží zachytit časovou závislost těchto mikrosegmentů s cílem dosažení vyšší robustnosti vůči chybám. Jednou z těchto metod, která bere informaci pro klasifikaci z dlouhých úseků výstupu jednotlivých kritických pásem filtrů spektrogramu viz obr 2.2, se nazývá TempoRAl Paterns parametrizace (TRAPs) [4] [5]. frekvence klasifikátor frekvence klasifikátor čas čas Obrázek 2.2: Spektrogram řeči: Vlevo - Příznaky z krátkodobého spektra. Vpravo - příznaky z dlouhodobého spektra

17 Kapitola 3 TRAP parametrizace Tato metoda parametrizace řečového signálu pracuje s delší kontextuální závislostí jednotlivých segmentů, které vychází z časových trajektorií spektrogramu. Typická délka úseku časové trajektorie je přibližně 1 s, kde tento vybraný úsek obsahuje informaci nejen o středového fonému, ale i informace o okolních fonémech. Konečnou informaci dostaneme vhodným sloučením parametrů ze všech časových trajektorií v kritických pásmech. Základní schéma TRAP parametrizace je uvedeno na obr. 3.1, Spektrogram v kritických pásmech frekvence čas foném MLP TRAP příznaky Obrázek 3.1: Schéma TRAP-MLP kde MLP (MultiLayer Perceptron) je umělá dopředná neuronová síť, jejíž základní popis je uveden v následující kapitole

18 KAPITOLA 3. TRAP PARAMETRIZACE Spektrogram v kritických pásmech Spektrogram v kritických pásmech dostaneme stejným postupem jako např. při počítání mel-kepstrálních koeficientů. Postup získání spektrogramu v kritických pásmech je rozdělen do několika kroků: Preemfáze Před vlastním zpracování v časové oblasti je vhodné provést preemfázi - kompenzace útlumu vyšších kmitočtových složkách spektra. Realizuje se jednoduchou pre-filtrací filtrem 1. řádu. Preemfáze je dána rovnicí s [n] = s[n] m.s[n 1], (3.1) kde m je koeficient preefáze, který nabývá hodnot 0, 9 < m < 1. Segmentace Zpracovávaný signál je rozdělen na krátké segmenty stejných délek (kvazistacionární úseky), které jsou váhovány vhodným okénkem a následně převedeny do frekvenční oblasti pomocí krátkodobé DFT transformace (Diskrétní Fourierova transformace). Nejpoužívanější okénko se používá Hammingovo okno, které zabraňuje nežádoucímu prosakování ve spektru. Hammingovo okno délky N vzorků je dáno rovnicí kde n nabývá hodnot 0 n N 1. w[n] = 0, 54 0, 46 cos 2πn N, (3.2) Melovský spektrogram v kritických pásmech Po preemfázi a segmentaci přejdeme k vlastní zpracování řeči ve frekvenční oblasti. Z pohledu vnímání řeči se frekvence jednotlivých tónů musí upravit dle nelineárního slyšení lidským uchem, tedy převodem frekvence z frekvenční na melodickou stupnici, dle následující rovnice Mel(f) = f mel = 2595 log 10 (1 + f ). (3.3) 700 Tento převod frekvence se provede pro každé subjektivní frekvenční pásmo, od kterého je odvozena melovská banka filtrů. Melovská banka filtrů obsahuje tedy nelineární frekvenční osu s M pásmy, které mají přenosovou frekvenční charakteristiku trojúhelníkového tvaru stejné šířky s 50% překryvem.

19 KAPITOLA 3. TRAP PARAMETRIZACE 9 H [k] k diskretni frekvence [ ] Obrázek 3.2: Melovská banka filtrů Po průchodu spektrogramu melovskou bankou filtrů dostaneme spektrogram v kritických pásmech, kde pro další výpočty se vychází z logaritmu energie v jednotlivých pásmech. Blokové schéma celého procesu je zobrazeno na obr s[n] FFT S[k] FILTER f ln(.) ln f bank,k bank,k BANK Obrázek 3.3: Schéma výpočtů kritické banky filtrů 3.2 Základní TRAP příznaky U první základní verze TRAP parametrizace [5] jsou příznaky počítání z každé časové trajektorie jednotlivých kritických frekvenčních pásem amplitudového spektra. Typická délka této časové trajektorie je 1000 ms, tedy 101 segmentů při segmentaci s krokem 10 ms. Prostřední (centrální) segment reprezentuje krátkodobé příznaky aktuálního fonému a zbylých 50 segmentů z každé strany jeho kontextuální závislost. Tyto trajektorie se následně mapují do tříd, kde výstupem mapování jsou aposteriorní pravděpodobnosti jednotlivých hlásek v daném segmentu řeči. Pro mapování časových trajektorií se používá umělá neuronová síť ANN 1 [4]. V minulosti z důvodů nedostatečného výpočetního vý- 1 ANN - Artificial Neural Network

20 KAPITOLA 3. TRAP PARAMETRIZACE 10 konu, byla každá časová trajektorie z kritického frekvenčního pásma vstupem do menších neuronových sítí viz obr. 3.4, kde v dalším kroku byla provedena finální klasifikace do jednotlivých tříd pomocí jedné větší neuronové sítě. V dnešní době je možné provádět kompletní klasifikace pomocí jedné velké neuronové sítě. Spektrogram v kritických pásmech TRAP MLP MLP frekvence čas foném 101 segmentů TRAP 101 segmentů TRAP MLP MLP TRAP příznaky MLP Obrázek 3.4: Schéma základního systému TRAP-MLP Při délce časové trajektorie spektrogramu 101 segmentů, kde spektrogram má 24 kritických pásem, dostaneme celkem 2424 příznaků na daný segment řeči. Je tedy tendence tento velký počet příznaků redukovat, při dodržení stejné délky časového kontextu. 3.3 TRAP-DCT Možným řešením redukce příznaků je použití modifikované TRAP-DCT (Discrete Cosine Transform) parametrizace, která vychází ze základní TRAP parametrizace. Zásadní změnou je použití DCT transformace na časový vývoj každého kritického frekvenčního pásma spektra, tj. parametrizací časové trajektorie spektrogramu. Máme tedy kritické mel-spektrum (výkonové, amplitudové), kde z každého kritického frekvenčního pásma se vezme časová trajektorie o délce 1000 ms (101 segmentů při segmentaci s krokem 10 ms), naváhuje se Hammingovým okénkem a z parametrizuje se pomocí DCT transformace. DCT transformace převádí časovou trajektorii do frekvenční oblasti, kde na základě vlastností kompresních metod DCT transformace stačí použít pouze prvních 25 DCT koeficientů [3], které obsahují nevýznamnější informace pro následnou klasifikaci. DCT transformace se oproti DFT (Diskrétní Fourierova Transformace) preferuje z důvodu lepších kompresních vlastností, jelikož v první části spektra leží převážná část informace

21 KAPITOLA 3. TRAP PARAMETRIZACE 11 (výkonu). Blokové schéma postupu výpočtu TRAP-DCT parametrů, ve srovnání s postupem extrakce MFCC koeficientů, je zobrazeno na obr s[n] FFT FILTER BANK ln(.) IFFT kepstrum TRAP DCT TRAP DCT kepstrum trajektorie log. energie DCT parametry trajektorie Obrázek 3.5: Srovnání krátkodobých a TRAP příznaků Oproti základní TRAP parametrizaci je dosahováno pomocí TRAP-DCT parametrizace mnohem menšího množství vstupních příznaků na vstupu neuronové sítě (600 příznaků), což umožňuje použít pro mapování pouze jednu velkou umělou neuronovou síť s menším počtem neuronů, viz obr Spektrogram v kritických pásmech DCT 25 DCT koef. MLP frekvence 101 segmentů 101 segmentů DCT DCT 25 DCT koef. 25 DCT koef. TRAP příznaky čas foném Obrázek 3.6: Schéma TRAP-DCT-MLP 3.4 TRAP se spektrálním odečítáním Pro parametrizaci řečového signálu v prostředích se silným aditivním šumem (pilotní kabiny, hlučné ulice, automobil za jízdy a jiné), je vhodné tento aditivní šum redukovat před dalším zpracováním, neboť metody pro parametrizaci řeči jsou citlivé na přítom-

22 KAPITOLA 3. TRAP PARAMETRIZACE 12 nost šumů. Techniky pro redukci aditivních šumů se standardně používají při výpočtech MFCC a PLP parametrizací [10]. Existuje mnoho způsobů pro redukci šumů jak v časové, tak ve frekvenční oblasti, ovšem neexistuje efektivní metoda použitelná pro redukci libovolného šumu v celém spektru možných aplikací. Tato práce se zaměřuje na studium vlastností verze TRAP příznaků, které pracují se spektrogramem v kritických pásmech s potlačeným aditivním šumem. Jedna z těchto možnosti TRAP-DCT-Exten redukuje šum ve frekvenční oblasti pomocí použití metody tzv. rozšířeného spektrálního odečítání viz obr s[n] FFT spektrální odečítání EXTEN FILTER BANK ln(.) TRAP DCT DCT parametry trajektorie Obrázek 3.7: Schéma TRAP-DCT-Exten Metoda rozšířeného spektrální odečítání pomocí Wienerovi filtrace předpokládá, že přítomný šum je kvazistacionární pomalu se měnící proces a dále předpokládá rychlejší spektrální změny řeči. Tato metoda nepoužívá detektor řečové aktivity a v průběhu promluvy mění vlastní parametry na bázi rychlosti změn ve spektrálních charakteristikách mezi řečí a šumem. Výsledný signál dostaneme pomocí rovnice N[k] = X[k] S[k], (3.4) kde S[k] je šum v signálu a X[k] je řečový signál s aditivním šumem. Jádrem této metody je přizpůsobený filtr, který odhaduje amplitudové spektrum šumu N i [k] = H i [k] X i [k], k = 0,..., M 1, (3.5) kde zisk filtru H[k] je určen rekurentně z kvadrátů minulých vyhlazených odhadů amplitudových spekter H i [k] 2 N i 1 [k] 2 = S i 1 [k] 2 2, k = 0,..., M 1, (3.6) + N i 1 [k] kde veličina N i [k] je odhadována rekurentně N i [k] = p N i 1 [k] + (1 p) N i [k], k = 0,..., M 1, (3.7)

23 KAPITOLA 3. TRAP PARAMETRIZACE 13 Typická hodnota parametru p je dle experimentů Veličiny N i [k] a S i [k] určují zisku filtrů H i [k], kde S i [k] = Xi [k] N i [k], k = 0,..., M 1. (3.8) Amplitudové spektrum řeči s redukovaným šumem je získáno rozdílem mezi odhadem šumu a vstupním spektrem, S i [k] = X i [k] N i [k], k = 0,..., M 1. (3.9) Na obr. 3.8 je zobrazeno grafické znázornění postupu rozšířeného spektrálního odečítání pro potlačení aditivních šumů pomocí Wienerovi filtrace. s[n] FFT Wienerův filtr N i 2 Ŝ i 2 X i 2 S i-1 2 p S i 2 N i-1 2 N i 2 Průměrování šumu Spektrální odečítání Obrázek 3.8: Schéma rozšířeného spektrálního odečítání 3.5 Mapování do tříd Při použití již zmíněných TRAP parametrizací v cílovém systému rozpoznávání řeči je nutné redukovat velký počet vstupních parametrů před následnou klasifikací, např. při vstupu do skrytých Markovových modelů (HMM). Jako vhodné řešení se ukázalo použití umělé neuronové sítě. Tato síť provádí nelineární mapování z jednoho prostoru do druhého s rozdílnou dimenzí, jejímž výsledkem je odhad aposteriorních pravděpodobností jednotlivých fonetických tříd, pro nás tedy hlásek. TRAP příznaky jsou tedy aposteriorní pravděpodobnosti jednotlivých hlásek, které jsou vstupem do další části rozpoznávače.

24 KAPITOLA 3. TRAP PARAMETRIZACE 14 Typická struktura umělé neuronové sítě je vícevrstvý perceptron (MLP - MultiLayer Perceptron), která je realizována různými programy, např. komerčním nástrojem MATLAB Neural Network Toolbox nebo balíčkem QuickNet, který je volně dostupným nástrojem z University of California at Berkeley [6]. 3.6 Neuronové sítě Inspirací pro neuronové sítě najdeme v nervových soustavách v živých organismů. První modely neuronu vznikly v roce 1943 (McCullock a Pitts). Neuronové sítě představují systémy s umělou inteligencí, které jsou označovány jako učící systémy. Výhodou neuronových sítí je, že oproti standardním algoritmům, dokáží řešit úlohy s omezenými a neúplnými daty. Neuronové sítě se začínají aplikovat ve stále více systémech např. při predikci časových řad, rozpoznávání obrazců, detekcí poruch a v ekonomice. První umělou neuronovou síť objevil v roce 1958 Frank Rosenblatt. Tato síť nese název Perceptron - model fungování neuronu v lidském mozku. Pro naše účely, se využívá vícevrstvá dopředná neuronová síť (MLP) pro řadu výhod [3], 1. MLP je diskriminativní klasifikátor, výstupem jsou aposteriorní pravděpodobností jednotlivých tříd, hlásek, 2. při použití jedné skryté vrstvy je MLP schopna mapovat nelineární funkci, pokud tato funkce existuje, mezi vstupem a výstupem, 3. MLP je založena na matematickém modelu, pro které existují různé trénovací algoritmy, např. nejpoužívanější robustní gradient-descent trénovací algoritmus (zpětné šíření chyby), který je použit v našem modelu. 4. MLP může zpracovávat paralelně velké množství vstupní dat Základní popis MLP Základní jednotkou neuronové sítě na bázi vícevrstvého perceptronu je elementární neuron, který je zobrazen na obr. 3.9.

25 KAPITOLA 3. TRAP PARAMETRIZACE 15 Obrázek 3.9: Model elementárního neuronu Tento elementární neuron má konečný počet vstupů x 1, x 2,..., x n, nelineární přenosovou funkci φ(z), práh b a jeden výstup. Váhy vstupu w 1, w 2,..., w n, reprezentují vliv působení konkrétního vstupu na výstup neuronu. Výsledný vnitřní potenciál neuronu je reprezentovaný dle rovnice ( ) m s(x) = φ b + w i x i = φ(z), (3.10) i=1 kde z je nelineární přenosová funkce. Váhy neuronu tedy představují lokální paměť neuronu. MLP Typická struktura MLP jsou tři vrstvy - vstupní, skrytá a výstupní (viz obr. 3.10). Experimentálně bylo zjištěno, že na vyřešení problému stačí pouze jedna skrytá vrstva. Při větším počtu skrytých vrstev umí síť sice lépe generalizovat, avšak za cenu pomalejší rychlosti učení. Každá vrstva obsahuje definovaný počet neuronů, kde sousední vrstvy jsou vzájemně propojeny. Neexistuje zde žádná zpětná vazba, tudíž se této síti také říká dopředná neuronová síť (feed-forward net).

26 KAPITOLA 3. TRAP PARAMETRIZACE 16 Obrázek 3.10: Schéma MLP Neurony v první vrstvě nemají žádnou přenosovou funkci, slouží pouze jako vstup. Ve skryté vrstvě se standardně používá sigmoidní přenosová funkce 1 φ 2 (z) =, (3.11) 1 + e z jejíž výsledek leží v intervalu < 0, 1 >. V poslední výstupní vrstvě mají neurony implementovanou softmax přenosovou funkci. Tato funkce vrací pravděpodobnost jednotlivých tříd, které dávají v součtu hodnotu rovno jedné, tj. φ 3,k (z) = p(λ k ) = ez k C j=1 e z k, (3.12) kde k = 1... C, je počet výstupních neuronů a p(λ k ) je pravděpodobnost hlásky λ k. Výběr dané přenosové funkce ovlivňuje způsob učení a výslednou klasifikaci dané neuronové sítě Princip trénovaní Váhové koeficienty w 1, w 2,..., w n, reprezentují paměť neuronové sítě jednotlivých vstupů neuronu x 1, x 2,..., x n,. Nastavení těchto vah probíhá následujícím procesem, tj. na vstupní vrstvu neuronové sítě se předloží data (časové trajektorie v kritických pásmech), a na výstupní vrstvu k nim odpovídající klasifikační data (třídy, hlásky). V oka-

27 KAPITOLA 3. TRAP PARAMETRIZACE 17 mžiku, kdy neuronová síť má předložena všechna potřebná data, probíhá trénování tj. adaptace vah. Trénování neuronové sítě je založeno na principu zpětné šíření chyby, kde chyba výsledné klasifikace se šíří zpět do neuronové sítě a přepočítává se do předchozích vrstev. Dle velikosti chyby se upravují dané váhy. Algoritmus zpětného šíření chyby tedy minimalizuje odchylky (chyby), mezi požadovanými hodnotami na výstupu pro danou předloženou trénovací množinu. Chybová funkce je definována následovně, E = 1 (d j y j ) 2 (3.13) 2 j tedy jako kvadrát mezi referenčním výstupem y j učení lze rozdělit do několika kroků: a skutečným výstupem d j. Samotné inicializace vah náhodnou veličinou v malém intervalu, předložení vstupních data a referenční klasifikace, výpočet výstupu sítě, adaptace vah na základě zpětné šíření chyby, opakování procesu učení, dokud je celková chyba větší než zadaná hodnota, v opačném případě se trénování ukončí. Doba, kdy se proces učení opakuje, tedy byla v jednom cyklu předložena všechna dostupná data, se v teorii neuronových sítí nazývá epocha. Při trénování MLP je nutné, aby se síť naučila data zobecňovat a nebyla na nich závislá. Pokud je již síť závislá na určitých datech, nedokáže generalizovat, tedy nedokáže klasifikovat neviditelná data. Tento stav se nazývá pře-trénování neuronové sítě. Aby tato situace nenastala, je před každou epochou neuronová síť otestována na nezávislých datech (CV - cross validation). Přesnost této klasifikace se vyhodnocuje na bázi FER (viz str. 18), kde trénování se ukončí dle určitých kritérií: 1. trénování začíná s parametrem učení 0.008, parametr učení určuje rychlost trénování a do jaké míry se adaptují váhy a práh mezi epochami, 2. pokud mezi epochami nedojde ke zlepšení FER na CV nebo na trénovacích datech o více než 0,5%, snižuje se parametr učení od této doby v každé následující epoše o polovinu, 3. pokud se po snížení rychlosti učení nezlepší FER na CV o více než 0,5%, ukončí se trénování.

28 KAPITOLA 3. TRAP PARAMETRIZACE 18 Na ověřování (CV) se obvykle používá 10% dat z předložené trénovací množiny. Tento postup je určen pro trénovaní umělé neuronové sítě pomocí nástroje QuickNet. Kritéria klasifikace Základní vyhodnocení přesnosti klasifikace umělé neuronové sítě probíhá na úrovní tříd (hlásek). Výsledné nejvyšší aposteriorní pravděpodobnosti na daný segment se přiřazuje daná třída (hláska). Výsledné hlásky se porovnají s hodnoty požadovaný, kde přesnost vyhodnocení klasifikace je definován dle vztahu FER (Frame Error Rate) FER = F mis F tot 100 [%], (3.14) kde F mis jsou nesprávně určené třídy (hlásky) na jednotlivé segmenty a F tot je celkový počet segmentů. Dané výsledky jsou pro přehlednost uváděny v procentech.

29 Kapitola 4 Implementace Výpočet TRAP příznaků na bázi neuronových sítí byly realizovány pomocí nástrojů MATLAB, CtuCopy [2], MATLAB NNTbx a balíčku QuickNet [6]. V programu MATLAB byla implementována funkce pro TRAP parametrizaci řečového signálu a v balíčku Quick- Net a NNTbx probíhá trénování neuronové sítě. Nástroj CtuCopy slouží pro parametrizaci řečového signálu s velikou možností nastavení jednotlivých parametrů. Celý systém i se skripty běží pod operačním systémem Unix, kde výpočty běžely na paralelních klastrech pod operačním systémem MEPIS Linux. 4.1 Softwarové balíčky CtuCopy Jedná se o univerzální nástroj pro pamaterizaci řečového signálů i s použitím rozšířeného spektrálního odečítání. Program vznikl v rámci tvorby diplomové a disertační práce na katedře teorie obvodů FEL ČVUT [2]. V tomto nástroji je implementovaná TRAP-DCT parametrizace a různé podpory formátu vstupních a výstupních dat. MATLAB MATLAB (R2011b) je interaktivní programové prostředí. Jedná se o skriptovací programovací jazyk, který slouží pro matematické a vědeckotechnické výpočty. MATLAB obsahuje velké množství funkcí pro zpracování a analýzu dat, má tedy velké využití pro prezentaci postupu výpočtu a rozboru výsledků dané problematiky. 19

30 KAPITOLA 4. IMPLEMENTACE 20 MATLAB NNTbx NNTbx (Neural Network Toolbox) je balíček, který lze koupit jako součást MATLABu. Jedná se o nástroj pro tvorbu, trénování a testování neuronových síťí. NNTbx nabízí grafické rozhraní pro snadnou vizualizaci neuronových sítí a velký výběr nastavení různých struktur a typů neuronových sítí. QuickNet QuickNet je nástroj sloužící pro tvorbu vícevrstvých dopředných neuronových sítí. Quick- Net je primárně určen v systémech pro zpracování řeči, ovšem muže být použit i v jiných oblastech. QuickNet, který je napsán v jazyce C++, se vyznačuje efektivním učením neuronových sítí různých velikostí. Byl vyvinut výzkumnou mezinárodní skupinou pro zpracování řeči na ICSI (International Computer Science Institute). Jedná se o opensource program, který je dostupný pro nekomerční použití zdarma. Součástí balíčku je i podpůrný program pfile utils, který slouží pro úpravu formátu vstupních a výstupních dat. 4.2 Implementace TRAP parametrizace v MATLABu TRAP parametrizace byla v MATLABu implementována do jediné funkce, která pracuje s několika vstupy a jejíž výstup je směrován do textového souboru. Výstup přímo do textového souboru byl zvolen z důvodu velkého množství výstupních hodnot, které při velkém počtu zpracovávaných dat narůstají do velkých kapacitních rozměrů, omezenou operační pamětí osobního počítače. Výpočet TRAP parametrů je proveden pomocí následují funkce function trapdct(s,m,fmin,fmax,wlen,wstep,fs,wind,coefdct,traplength, index,filename,p)

31 KAPITOLA 4. IMPLEMENTACE 21 s M fmin a fmax wlen wstep fs wind coefdct TRAPlength index filename p je vektor vstupního signálu nebo seznam souborů vstupních signálu, počet pásem banky filtrů, minimální a maximální frekvence banky filtrů, délka segmentu, délka překryvu segmentu, vzorkovací frekvence, vektor váhovacího okénka, počet DCT koeficientů, délka časové trajektorie v spektrogramu řeči v sekundách, index věty, název výstupního souboru, časová konstanta pro průměrování šumu. V této funkci je implicitně zapnuto rozšířené spektrání odečítání. Při zadaní nulové hodnoty parametru p se spektrání odečítání neuplatní. Časové trajektorie na začátku spektrogramu Na začátku nebo na konci kritického mel-spektra nemáme pro délku jedné sekundy časové trajektorie z každé strany požadovaných 50 segmentů. Tedy, na začátku parametrizace časová trajektorie obsahuje 51 segmentů místo požadovaných 101 segmentů (není zde 50 segmentů z levé strany). Po parametrizaci této kratší časové trajektorie pomocí DCT transformace dostaneme DCT koeficienty, které mají jiné frekvenční měřítko oproti DCT koeficientům získaných z časové trajektorie délky jedné sekundy. Při parametrizaci šumu, který je přítomen na začátku řečových promluv, vykazují DCT koeficienty stejný charakter a dynamiku pro různá frekvenční měřítka. Nemusíme tedy na začátek signálu přidávat šum (oblast bez řečové aktivity), abychom dodrželi požadovanou délku časové trajektorie délky jedné sekundy. Ukládání napočítaných příznaků do souboru Na každý segment u TRAP-DCT parametrizace připadá 600 příznaků, které jsou vstupem do umělé neuronové sítě. Napočítané příznaky jsou ukládány do textového souboru, kde každý řádek textového souboru obsahuje jeden dlouhý vektor DCT koeficientů postupně pro první, druhé až poslední pásmo časových trajektorií v kritických pásmech. Výstupní struktura souboru pro nástroj QuickNet vypadá následovně

32 KAPITOLA 4. IMPLEMENTACE , ,2402-0, , , ,7669-3, , , , , , , , , , , ,863-1, , , ,0548-8, , , , , ,0489 Tabulka 4.1: Struktura textového souboru kde v prvním sloupci je index věty, tedy pořadí jednotlivých signálu. V druhém sloupci je posloupnost segmentů věty a v dalších sloupcích DCT koeficienty časových trajektorií řečového signálu. Nyní se tento textový soubor musí překonvertovat na specifický pfile formát binární struktury pomocí nástroje pfile create, který je součástí balíčku pfile utils Klasifikace tříd, hlásek Při trénování umělých neuronových sítí je nutné pro jednotlivé segmenty vytvořit soubor požadovaných hodnot těchto množin, tj. vytvořit požadované aposteriorní pravděpodobnosti tříd, hlásek. K tomuto účelu byla připravena funkce function targetcreate(filelist,targetlist,savepatch,abc,fs,tlen,tstep) filelist je seznam souborů vstupních signálu, targetlist seznam souborů, které obsahují časové intervaly, jednotlivých fonému, filename název výstupního souboru, abc název souboru obsahující hlásky, fs vzorkovací frekvence, tlen délka segmentu v milisekundách, tstep překryv segmentů v milisekundách. Struktura výstupního textového souboru pro nástroj QuickNet vypadá podobně jako při ukládání DCT koeficientů,

33 KAPITOLA 4. IMPLEMENTACE Tabulka 4.2: Struktura textového souboru požadovaných tříd kde hodnoty v prvním sloupci značí index věty a hodnoty ve druhém sloupci posloupnost segmentů věty. Třetí sloupec číselně reprezentuje hlásku, kde např. hodnota 1 značí hlásku a. Následně se tento soubor převede do specifického binárního tvaru pomocí nástroje ilab create, který je součástí balíčku pfile utils Trénovaní neuronových sítí v NNTbx V této části textu bude popsána práce (trénování, testování) s neuronovými sítěmi vytvořené v prostředí MATLAB. V MATLABu se objekt vícevrstvé dopředné neuronové sítě vytvoří příkazem net = patternnet(hiddensizes,trainfcn) hiddensizes je počet neuronů ve skryté vrstvě, trainfcn vybraná trénovací funkce, kde počet neuronů ve vstupní a výstupní vrstvě se nastaví automaticky v průběhů trénovaní v závislosti na velikosti vstupních vektorů dat. Přenosové funkce neuronů se nastaví posloupností příkazů, net.layers{1}.transferfcn = logsig, net.layers{2}.transferfcn = softmax, kde funkce logsig má sigmoidní tvar přenosové funkce. Dále je nutné nastavit poměr validačních dat (CV), počet trénovacích epoch a hraniční podmínky pro předčasného ukončení trénovaní umělé neuronové sítě. Pomocí příkazu

34 KAPITOLA 4. IMPLEMENTACE 24 net = init(net) se nastaví jednotlivé váhy neuronů na náhodnou veličinu v rozmezí intervalu < 1, 1 >. Po nastavení všech parametrů se pomocí příkazu net = train (net, InputVector, TargetVector) net je objekt umělé neuronové sítě, InputVector vstupní vektor dat trénovací množiny, TargetVector vektor požadovaných hodnot trénovací množiny, trénuje neuronová síť. Váhy jednotlivých neuronů jsou uloženy v objektu net. Testování neuronové sítě se spustí příkazem OutputVector = sim(net,inputvector) InputVector je vstupní vektor dat testovací množiny, OutputVector výstupní data simulace, pravděpodobnosti jednotlivých tříd, kde výstupem jsou aposteriorní pravděpodobnosti hlásek. V NNTbx se nachází i grafické rozhraní na trénovaní a testování neuronové sítě s intuitivním nastavením všech parametrů. NNTbx je vhodný pro pochopení neuronových sítí malých rozměrů, ovšem není stavěný na trénování velkých neuronových sítí s velkým počtem vstupních parametrů trénovacích dat. Při experimentech s většími neuronovými sítěmi doba trénování dosahovala značných rozsahů. Z tohoto důvodu byl zvolen na trénování umělých neuronových sítí nástroj QuickNet. V NNTbx je ovšem možné, vytvořit neuronovou síť větších rozměrů a načíst jednotlivé váhy neuronů ze souboru získané nástrojem QuickNet. K tomuto účelu byla vytvořena funkce, která vrací aposteriorní pravděpodobnosti jednotlivých hlásek, function pp = simnet(net,s) net s je název souboru, který obsahuje natrénovaná data vah neuronů, vstupní parametry, která v NNTbx vrací numericky trochu odlišné aposteriorní pravděpodobnosti hlásek ve srovnání s nástrojem QuickNet.

35 KAPITOLA 4. IMPLEMENTACE 25 aposterironí prav. NNTbx QuickNet 1. nejvyšší 0,638 0, nejvyšší 0,572 0,288 Tabulka 4.3: Srovnání aposteriorních pravděpodobností hlásky Rozdíl aposteriorních pravděpodobností hlásky je dán mírně rozdílnou implementací přenosové funkce softmax v MATLABu. Pozice nejvyšší hodnoty aposteriorní pravděpodobností hlásky jsou v NNTbx a QuickNetu ovšem totožné. Při podrobnějším rozebírání součtu všech výstupních pravděpodobností jednotlivých tříd, nedává sumace požadovanou hodnotu jedna ale vyšší v daném segmentu řeči. Při experimentech trénování menší umělé neuronové sítě v NNTbx, musel vektor požadovaných hodnot pro daný segment řeči vypadat následovně: požadovaná třída měla přidělenou pravděpodobnost 1 a ostatní opačnou pravděpodobnost, tedy -1. Pak součet výstupních pravděpodobností jednotlivých tříd byl roven jedné. To je dáno konkrétní implementací funkce softmax v MATLABu. 4.3 Použití neuronových sítí v QuickNetu Specifikace nástroje QuickNet podpora vstupních a výstupních dat typu pfile, pre, lna, sri a nejnověji i htk, podpora CUDA (Compute Unified Device Architecture), která umožňuje spouštět výpočty i na grafické kartě osobního počítače, možnost nastavení 2 až 5 vrstev MLP, nastavení různých přenosových funkcí ve výstupní vrstvě neuronové sítě: sigmoid, sigmoidx, softmax a tanh, různé nastavení trénovacích stylů a rychlosti učení, podpora exportu napočítaných vah pro další aplikace (MATLAB). V QuickNetu existuje pouze jedna struktura neuronové sítě - vícevrstvý perceptron (MLP). Trénování se provádí ve dvou fázích, nejdříve se provede normování vstupních trénovacích dat a poté vlastní trénování neuronové sítě dle jednotlivých nástrojů, qnnorm - nástroj pro normalizaci vstupních trénovacích hodnot,

36 KAPITOLA 4. IMPLEMENTACE 26 qnstrn - nástroj pro trénování MLP, qnmultitrn - nástroj pro trénování MLP, podpora 2-5 vrstev MLP, výstup vah neuronů ve formátu MATLAB. Nástrojem qnnorm se s normalizují vstupní trénovací data před vstupem do neuronové sítě. Tyto upravená data mají nulovou střední hodnotu a jednotkový rozptyl. Po normování se spustí trénování neuronové sítě pomocí nástroje qnmultitrn, který podporuje výstup napočítaných vah neuronů ve specifickém binárním formátu, které lze exportovat do prostředí MATLAB. Před první epochou se provede náhodná inicializace vah a CV. Trénování se ukončí dle specifikací popsaných v předchozí kapitole. Nyní se přejde k vlastní ověření správné klasifikace neuronové sítě. Vyhodnocení klasifikace se prování na bázi FER, kde pro testování neuronové sítě se požívají následující nástroje qnsfwd - nástroj pro testování MLP, qnmultifwd - nástroj pro testování MLP, podpora 2-5 vrstev MLP, vstup vah ve formátu MATLAB, jejichž vstupem jsou nezávislá testovací data na trénovací množině dat. Výstupem testování jsou aposteriorní pravděpodobnosti jednotlivých tříd, hlásek.

37 Kapitola 5 Experimenty V experimentální části bylo provedeno ověření přesnosti popisu řečového signálu pomocí TRAP příznaků. Zejména bylo testováno: srovnání klasifikace v různých podmínkách, kde k řečovému signálu byl přidáním aditivní šum z automobilu, srovnání klasifikace pro různé výběry testovacích dat, přínos potlačení šumu před výpočtem TRAP příznaků z časových trajektorií spektrogramu, schopnost natrénování příslušné sítě v závislosti na množství trénovacích dat, přesnost klasifikace na různém nastavení počtu neuronů ve skryté vrstvě neuronové sítě. 5.1 Databáze SPEECON Ve všech experimentech k natrénování a testování neuronové sítě byla použita česká řečová databáze SPEECON, kde fonetická segmentace jednotlivých fonému pro dané řečové signály byla generována automaticky. Z této databáze byla vybrána malá skupina řečových signálu, kde hranice fonetické segmentace byly nastaveny ručně. SPEECON je česká databáze, která obsahuje promluvy od 590 dospělých českých mluvčích za různých nahrávacích podmínek. Délka promluvy od jednoho mluvčího je cca 30 minut [8]. 27

38 KAPITOLA 5. EXPERIMENTY 28 Výběr dat z databáze pro trénovaní neuronové sítě Data pro trénování neuronové sítě byla vybrána z řečové databáze SPEECON následujícím způsobem, název výběru dat fonetická segmentace prostředí nahrávky délka promluvy TRKA automatická kancelář - TRAU automatická automobil - Tabulka 5.1: Výběr dat z databáze - trénovací data kde prostředí nahrávky automobil obsahuje řečové signály, u kterých byl přidán aditivní šum z jedoucího automobilu v rozsahu SNR < 0, 19 > dbm. Délka promluvy bude uváděna u jednotlivých testů jednotlivě, kde přibližně 10% z této trénovací množiny dat byly použity na CV (cross validation). Výběr dat z databáze pro testování neuronové sítě Testovací data byla vybrána podmíněně při výběru trénovacích dat, tj. data pro testování neobsahují řečové promluvy, které byly použity pro trénování a CV neuronové sítě, název výběru dat fonetická segmentace prostředí nahrávky délka promluvy TESTkan automatická kancelář cca 1 hodina TESTaut automatická automobil cca 1 hodina TESTkanMN manuální kancelář minut TESTautMN manuální automobil 14.5 minut Tabulka 5.2: Výběr dat z databáze - testovací data kde výběry dat TESTkanMN a TESTautMN obsahují řečové signály od 40 mluvčích (muži a ženy) ve třech odlišných promluvách, které mají určeny hranice fonetické segmentace manuálně. U prostředí nahrávky automobil byl k řečovým signálům přidán aditivní šum z jedoucího automobilu v rozsahu SNR < 0, 19 > dbm.

39 KAPITOLA 5. EXPERIMENTY Výběr parametriazce Na jednotlivé testování správnosti klasifikace neuronové sítě byly použity tyto parametrizace, základní TRAP TRAP-DCT TRAP-DCT-Exten kde výsledky správné klasifikace se provádí na úrovni aposteriorních pravděpodobností tříd, hlásek. První test se skládá ve porovnání správné klasifikace mezi základní TRAP a TRAP-DCT parametrizací. Tento test byl proveden v článku poster 2012 [7], který obsahuje trochu jiná nastavení testovacích a trénovacích dat, než ta, co jsou zde uváděna. Nastavení MLP: TRAIN1 - délka promluvy trénovacích dat cca 14 minut, manuální fonetická segmentace, TRAIN2 - délka promluvy trénovacích dat cca 93 minut, automatická fonetická segmentace, TEST1 - délka promluvy testovacích dat cca 4 minuty, manuální fonetická segmentace, velikost neuronové sítě 600 x 1000 x 46 neuronů (2424 x 3000 x 46 u základní TRAP parametrizace), jedna skrytá vrstva, použitá parametrizace: základní TRAP, TRAP-DCT. Výběr z databáze základní TRAP TRAP-DCT TRAIN1 61,79% 66,67% TRAIN2 55,66% 60,72% Tabulka 5.3: Úspěšnost klasifikace TRAP, TRAP-DCT Z výsledku je patrné, že použití DCT transformace u TRAP-DCT parametrizace redukuje počet příznaků z časových trajektorií spektrogramu, ale i lépe vystihuje závislost segmentů. TRAP-DCT parametrizace vykazuje lepší úspěšnost správné klasifikace přibližně o 5% oproti základní TRAP parametrizaci. Z tohoto důvodu byla základní TRAP parametrizace z testování vyřazena.

40 KAPITOLA 5. EXPERIMENTY Testování na množství trénovacích dat První test se skládá na schopnosti správné klasifikace dané neuronové sítě, a to v závislosti na přiloženém množství trénovacích dat při stejném počtu neuronů ve skryté vrstvě. Velikost neuronové sítě byla tedy ve všech testech konstantní. Testy jsou rozděleny na dvě části, v první části je neuronová síť trénována na datech TRKA (prostředí kanceláře) a ve druhé části na datech TRAU, které obsahují aditivní šum z prostředí jedoucího automobilu. Nastavení MLP v závislosti na délce trénovacích dat délka promluvy testovacích dat 0,46 až 10,10 hodin, velikost neuronové sítě 600 x 1000 x 46 neuronů, jedna skrytá vrstva, použitá parametrizace: TRAP-DCT. TRAP-DCT databáze TRKA TRAU TRKA TRAU TRKA TRAU TRKA TRAU [hodin] TESTkan[%] TESTaut[%] TESTkanMN[%] TESTautMN[%] 0,46 71,09 65,19 44,32 72,69 54,04 48,75 33,04 53,42 0,99 74,11 67,38 51,77 74,18 57,25 52,22 38,54 55,92 1,65 74,75 67,79 69,05 75,59 58,38 52,00 49,98 56,82 2,52 76,07 70,20 64,86 76,11 60,20 53,39 49,07 56,99 5,03 77,39 72,26 62,30 77,53 61,65 56,12 47,23 59,36 10,10 78,07 72,87 63,73 78,10 62,60 56,16 48,69 59,87 Tabulka 5.4: Klasifikace TRAP-DCT na délce trénovacích dat Z tab. 5.4 je patrné, že při rostoucím množství trénovacích dat roste přesnost klasifikace s výjimkou přesnosti klasifikace uváděné ve třetím sloupci tabulky. Ze třetího sloupce tabulky lze sledovat, že pokud neuronová síť nebyla dostatečně naučena (TRKA - prostředí kanceláře), dokázala lépe generalizovat neviditelná data, pro nás tedy data z výběru TESTaut (prostředí z jedoucího automobilu). Při rostoucím počtu trénovacích dat, se od určité hranice zlepšovala mírně klasifikace neuronové sítě i na více zašuměných datech z prostředí jedoucího automobilu, tj. neuronová síť se začínala přizpůsobovat na dynamiku spektra řeči.

Zobrazit více