České vysoké učení technické v Praze Fakulta elektrotechnická DIPLOMOVÁ PRÁCE. Pitch-synchronní segmentace řečového

Rozměr: px
Začít zobrazení ze stránky:

Download "České vysoké učení technické v Praze Fakulta elektrotechnická DIPLOMOVÁ PRÁCE. Pitch-synchronní segmentace řečového"

Transkript

1 České vysoké učení technické v Praze Fakulta elektrotechnická DIPLOMOVÁ PRÁCE Pitch-synchronní segmentace řečového signálu Praha, 212 Autor: Petr Mizera

2 Prohlášení Prohlašuji, že jsem svou diplomovou práci vypracoval samostatně a použil jsem pouze podklady ( literaturu, projekty, SW atd.) uvedené v přiloženém seznamu. V Praze dne podpis i

3 Poděkování Děkuji vedoucímu diplomové práce Doc. Ing. Petru Pollákovi, CSc. za jeho odborné vedení, cenné rady a připomínky při tvorbě práce. Dále bych také rád poděkoval mé rodině. ii

4 Abstrakt Diplomová práce se věnuje problematice segmentace a následné syntéze řečového signálu s možnými prozodickými modifikacemi. V práci je prezentován návrh a implementace kompletního algoritmu, realizujícího tzv. pitch-synchronní segmentaci řečového signálu a a zpětné řetězení řečových segmentů umožňující požadované prozodické modifikace výsledného syntetizovaného signálu. První část práce je zaměřena na výběr vhodného algoritmu odhadu základní frekvence a následného umístění hlasivkových pulsů. Byly analyzovány 3 algoritmy odhadu základního tónu řeči a 4 algoritmy pro umístění hlasivkových pulsů. Jako nejvhodnější řešení byl vybrán algoritmus ACF. Druhá část práce řeší vlastní pitch-synchronní segmentaci a následnou syntézu s požadovanými prozodickými modifikacemi, tedy s možnou změnou základního tónu řeči resp. se změnou rychlosti promluvy. Všechny zmiňované algoritmy byly implementovány v programovém systému MATLAB, a to jako samostatné funkce, tak i v rámci jednoduché GUI aplikace PSS-ZS&PM, v rámci které je možné provádět požadované prozodické modifikace. Dosažená kvalita syntetizovaného řečového signálu byla ověřena ilustrativními poslechovými testy. Přesnost algoritmu odhadu umístění hlasivkových pulsů byla testována na dostupných datech s ručně označenými pozicemi hlasivkových pulsů. iii

5 Abstract This thesis deals with segmentation and successive synthesis of speech signal with possible prosody modifications. The design and the implementation of so called pitchsynchronous segmentation with the following inverse concatenation of speech segments allowing prosodic modifications are contributed as the main result of this work. The first part of presented work is focused on the choice of suitable algorithm of fundamental frequency estimation commonly with an estimation of pitch marks positions. Within this part 3 algorithms of fundamental frequency estimation and 4 pitch-mark location algorithms were studied and finally, the algorithm ACF was chosen as optimal solution for our purposes. The second part addresses the realization of pitch-synchronous segmentation and the following inverse synthesis of speech signal with required prosody modification, i.e. with the possible change of fundamental frequency and speed of an utterance respectively. All presented algorithms were implemented within programming system MATLAB, either in the form of separate functions or within a simple GUI application. The next chapter describes the PSS-ZS&PM, where above mentioned prosody modification can be realized demonstratively for chosen utterance. The achieved quality of synthetic speech signal was tested by listening tests. The accuracy of pitch mark estimation algorithms was analyzed on the basis of available speech database with manually set pitch mark positions. iv

6 vlozit originální zadánííííííííííííííííí!!!!! v

7 Obsah Seznam obrázků Seznam tabulek Seznam použitých zkratek viii ix x 1 Úvod 1 2 Vznik řečového signálu a jeho vlastnosti 3 3 Zpracování řečového signálu Analýza v časové oblasti Určení základního tónu a hlasivkových pulsů Odhad základní frekvence řečového signálu Metoda ACF Metoda YIN Metoda využívající chyby LPC Metoda v kepstrální oblasti Metody odhadu umístění hlasivkových pulsů Algoritmus využívající signál z Laryngographu Standardně používaný algoritmus Modifikace standardního algoritmu Algoritmus MPA Segmentace a syntéza PSOLA TD-PSOLA Algoritmus PSS-ZS&PM Návrh algoritmu Implementace algoritmu vi

8 5.3 Grafické interaktivní prostředí Experimenty Přesnost algoritmů PDA a PMA Kritéria hodnocení Použité databáze Dosažené výsledky Experimenty se změnou prosodie Závěr 43 Literatura 46 A Struktura CD I vii

9 Seznam obrázků 2.1 Anatomie hlasového traktu Hlasivky Krátkodobé časové charakteristiky Autokorelační funkce znělého segmentu Autokorelační funkce předzpracovaného znělého segmentu Odhad základní frekvence pomocí metody YIN Autokorelační funkce předzpracovaného znělého segmentu Odhad základní frekvence z reálného kepstra Řečový a hlasivkový signál Rozdílně orientované hlasivkové pulsy Pitch-synchronní segmentace a zpětná syntéza Blokové schéma navrženého algoritmu PSS-ZS&PM Odhad umístění hlasivkových pulsů Grafické uživatelské prostředí okno č Grafické uživatelské prostředí okno č Histogramy hodnot kritérií Změny prozodických charakteristik Porovnání kvality na základě spektrogramů viii

10 Seznam tabulek 6.1 Nastavené parametry algoritmu PSS-ZS&PM Hodnocení algoritmu PDA Hodnocení algoritmu PMA ix

11 Seznam použitých zkratek ACF BLA DFT FIR FD-PSOLA GCI GEH GEL GUI LAG LPC LP-PSOLA MACF MBR-PSOLA MPA PCM PDA PMA PSOLA TD-PSOLA TTS VE UVE autokorelační funkce Baseline Algorithm diskrétní Fourierova transformace filtr s konečnou impulzní odezvou Frequency Domain Pitch Synchronous Overlap and Add ráz uzavření hlasivek Gross error high Gross error low grafické uživatelské rozhraní velikost základní periody ve vzorcích lineární prediktivní analýza Linear Prediction Pitch Synchronous Overlap and Add modifikovaná autokorelační funkce Multi-Band Re-synthesis OverLap-Add Multi-Phase Algorithm pulzní kódová modulace algoritmus detekující základní frekvenci algoritmus detekující hlasivkové pulsy Pitch Synchronous Overlap and Add Time Domain Pitch Synchronous Overlap and Add Text - To Speech Voiced error Unvoiced error x

12 Kapitola 1 Úvod Člověk nejčastěji využívá pro komunikaci s ostatními lidmi řeč. V současné době je snahou vytvořit systém, který by využíval přirozeného vyjádření informace člověkem pomocí řeči i při komunikaci se strojem. Systém, jehož cílem by bylo zajistit komunikaci směrem člověk-stroj, ale i stroj-člověk, musí mít vyřešenu problematiku rozpoznávání řeči, porozumění rozpoznanému obsahu a syntézy řeči. Při komunikaci směrem stroj - člověk musí docházet k procesu uměle vytváření řeči. V současných hlasových technologiích je v procesu vytváření řeči nejčasteji využívána technika konkatenační syntézy, která nejvíce využívá metody TD-PSOLA, jejíž základem je metoda pitch-synchronní segmentace. Metodě pitch-synchronní segmentace bude věnována diplomová práce. Z poznatků procesu vytváření řeči je známo, že řečový signál je nestacionární. Chcemeli tedy řečový signál zpracovávat v časové nebo spektrální oblasti, musíme nejprve signál segmentovat do kvazistacionárních úseků 1. Pro segmentaci řečového signálu se standardně používá segmentace s rovnoměrným krokem, např. při zpracování, zvýrazňování řeči. Pro speciální úlohy je někdy výhodnější použít pitch-synchronní segmentaci, např. při syntéze řeči. Cílem pitch-synchronní segmentace je rozklad řečového signálu do kvazistacionárních úseků, které jsou synchronní s hlasivkovými pulsy. Tyto řečové segmenty představují řečové jednotky, z kterých jsou vybrány reprezentanti řečových jednotek, které jsou uloženy do korpusu řečových jednotek a pak využívány metodou TD-PSOLA při řetězení, čímž vzniká uměle vytvořený řečový signál, který přenáší informaci směrem stroj - člověk. Cílem diplomové práce je navrhnout algoritmus pitch-synchronní segmentace řečového signálu a implementace navrženého algoritmu v programovém prostředí MATLAB. Dále bude možné provést zpětnou syntézou segmentovaného signálu s možností změny rychlosti promluvy resp. změny základního tónu řeči. V závěru práce bude otestována kvalita navržené pitch-synchronní segmentace na vhodné množině testovacích dat. 1 Kvazistacionární úsek, představuje krátkodobý stacionární řečový signál, kde délka úseku vychází z dynamických vlastností artikulačních orgánů. 1

13 KAPITOLA 1. ÚVOD 2 V diplomové práci ve druhé kapitole je věnován prostor vzniku řeči, vysvětlení pojmů základní perioda, hlasivkový puls. Dále jsou uvedeny základní vlastnosti a charakteristiky řečového signálu. Třetí kapitola je věnována metodám pro odhad základní frekvence hlasivkového tónu. Jsou zde popsány základní přístupy a metoda YIN [1]. A dále metody pro odhad umístění hlasivkových pulsů (pitch marků). Čtvrtá kapitola je zaměřena na metodu pitch-synchronní segmentace řečového signálu a následnou syntézu řečového signálu s prozodickými modifikacemi. V následující kapitole je podrobně popsán návrh vlastního algoritmu a implementace algoritmu v programovém prostředí MATLAB, které je určeno pro vědeckotechnické účely. Dále obsahuje popis vytvořeného interaktivního grafického prostředí. Poslední kapitola je určená experimentům se změnou prozodie a uvádí dosaženou kvalitu navrženého algoritmu. Informuje o databázích, na kterých byl algoritmus testován a jsou v ní popsána kritéria hodnotící kvalitu syntetizovaného modifikovaného řečového signálu.

14 Kapitola 2 Vznik řečového signálu a jeho vlastnosti Řečový signál vzniká součinným pohybem různých orgánů, které společně vytvářejí hlasový trakt a jsou řízeny z nervového ústrojí člověka. Hlasový trakt lze rozdělit na tři hlavní ústrojí: dýchací, hlasové a artikulační. Anatomie hlasového traktu je znázorněna na obr a) b) d) e) f) c) g) h) Obrázek 2.1: a) dutina nosní, b) tvrdé patro, c) měkké patro, d) jazyk, e) hrtanová příklopka, f) hlasivky, g) hrtan, h) průdušnice 1 Obrázek 2.1 byl převzatý z [2]. 3

15 KAPITOLA 2. VZNIK ŘEČOVÉHO SIGNÁLU A JEHO VLASTNOSTI 4 a) b) c) d) e) f) g) h) Obrázek 2.2: a) jamka, b) hrtanová příklopka, c) hrtanová uzlina, d) hlasivková řasa, e) ventikulární řasa, f) příklopková chrupavka, g) klínovitá chrupavka, h) hlasivková štěrbina Proud vzduchu, který vychází z plic představuje základ pro vznik řečového signálu (hlasu). Při vytváření českého jazyka se používá jen proud vzduchu, který vychází z plic, ale některé jazyky používají při vytváření určitých slov proud vzduchu při nádechu, který v českém jazyce je používán pro pausu. Vycházející proud vzduchu z plic dále prochází průdušnicí do hrtanu, ve kterém se nachází hlasové ústrojí. Důležitou část hrtanu při vytváření řečového signálu představují hlasivky. Hlasivky jsou dvě slizniční hlasivkové žlázy napnuté v místě nejužšího průchodu hrtanové dutiny, zobrazené na obr Při vytváření řečového signálu jsou hlasivky sevřené. Tímto postavením se pod nimi hromadí vycházející proud vzduchu a vytváří na ně tlak. Pružné hlasivky se pod působením tlaku otevírají, část nahromaděného vzduchu odchází do nadhrtanových dutin. Následuje ráz uzavření hlasivek (GCI - Glottal Closure Instant) a tento proces se periodicky opakuje. Rázu uzavření hlasivek odpovídá v zaznamenaném řečovém signálu okamžik s výraznou amplitudou. Tyto okamžiky se označují jako hlasivkové pulsy (ang. Pitch marks) a mají důležitý význam při pitch-synchronní segmentaci. Periodickým kmitáním hlasivek je vytvářen základní hlasivkový tón, který tvoří základ lidského hlasu. Perioda kmitání hlasivek je nazývána perioda základního hlasivkového tónu a je značená T. Důležitá je i převrácená hodnota základní periody f = 1/T, která představuje frekvenci základního hlasivkového tónu. V této práci bude prováděn pomocí algoritmů číslicového zpracování signálu odhad této základní frekvence, jejíž odhadnutá hodnota bude základem pro algoritmy odhadu umístění hlasivkových pulsů, které jsou základem pro pitch-synchronní segmentaci. 2 Obrázek 2.2 byl převzatý z [4].

16 KAPITOLA 2. VZNIK ŘEČOVÉHO SIGNÁLU A JEHO VLASTNOSTI 5 Jsou-li hlasivky při vytváření řečového signálu sevřené, vzniká základní tón, který je základem znělých hlásek. Neznělé hlásky jsou vytvářeny proudem vzduchu procházejícího rozevřenými hlasivkami, který je modifikován v nadhrtanových dutinách a neobsahuje tedy základní tón. Jsou-li hlasivky úplně v klidu a rozevřené, dochází pouze k dýchání. Proud vzduchu vycházející z hrtanu dále postupuje do nadhrtanových dutin, kde se nachází artikulační ústrojí, ve kterém dochází k frekvenčním modifikacím akustického signálu. Artikulační ústrojí se skládá z dutin: ústní, nosní, hrdelní. Dutina ústní obsahuje artikulační orgány. Nejdůležitějšími orgány používané při vytváření řeči jsou jazyk, rty a měkké patro. Tyto dutiny představují rezonanční prostory, které při vytváření řečového signálu mění svou velikost i tvar a tím vytvářejí jednotlivé řečové jednotky. Změna velikosti, tvaru a poloha artikulačních orgánů trvá určitý časový okamžik, který se označuje jako koartikulace. Akustické rezonanční frekvence těchto dutin jsou označovány jako formanty, pomocí nichž je možné rozlišit jednotlivé hlásky. Vytvořený řečový signál je ústním otvorem vyzařován do prostoru, ve kterém se šíří pomocí akustické vlny [5], [17].

17 Kapitola 3 Zpracování řečového signálu V předchozí kapitole byl popsán řečový signál jako akustický signál, který je dán změnou tlaku vzduchu a frekvenční modifikací ve vokálním traktu. Aby bylo možné akustický signál číslicově zpracovávat, musí být nejprve mikrofónem převeden na elektrický analogový signál a následně digitalizován. Procesem digitalizace je reprezentován číselnou posloupností hodnot a tyto hodnoty nabývají konečného počtu. V této kapitole budou popsány charakteristiky řečového signálu, které budou následně využity v metodách určování základního tónu hlasu. 3.1 Analýza v časové oblasti Při analýze řečového signálu je nutné vždy uvažovat, že se jedná o signál nestacionární. Proto při získávání charakteristik řečového signálu musí být řečový signál segmentován do krátkodobých časových segmentů (rámců), ve kterých je signál téměř stacionární. Charakteristiky jsou pak označovány jako krátkodobé charakteristiky. Délka segmentu je v rozsahu 1-3 ms. Krátkodobé charakteristiky jsou počítány v každém segmentu. Výsledkem analýzy je vektor příznaků, který popisuje řečový signál. Důležité jsou krátkodobé energetické charakteristiky, zejména energie, výkon, efektivní hodnota. Definované rovnicemi N E = x 2 [n], (3.1) i=1 P = 1 N x 2 [n], (3.2) N i=1 6

18 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 7 E [ db ] Energie v db cas Efektivni hodnota RMS.5 ZCR [ Hz ] cas Pocet pruchodu nulou cas Obrázek 3.1: Krátkodobé časové charakteristiky N x 2 [n] i=1 RMS =, (3.3) N kde x[n] jsou vzorky řečového signálu, N je velikost segmentu. Hodnoty těchto chatakteristik umožňují detekovat změny v řečovém signálu. V mnoha pracích jsou používány jako součást detektorů řečové aktivity. Krátkodobá funkce středního počtu průchodu nulou normovaná ke vzorkovací frekvenci f s (ZCR = Zero Crossing Rate) je definovaná ZCR = 1 N N n=1 sgn(x[n]) (x[n 1]) 2 f s [Hz]. (3.4) Hodnota ZCR umožňuje rozlišení mezi znělým a neznělým úsekem řeči. V neznělém úseku tato hodnota strmě narůstá. Nevýhodou této funkce je, že reaguje i v místě paus, ve kterých se nacházejí vyšší hodnoty šumu. Kratkodobá autokorelační charakteristika je vyjádřena rovnicí (3.5). R x [k] = 1 N x[n]x[n + k] pro k =, ±1, ±2,..., (3.5) N k 1 k=

19 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 8 Rovnice představuje vychýlený odhad autokorelačních koeficientů. Autokorelační funkce je využívána při odhadu periody základního hlasivkového tónu [22]. 3.2 Určení základního tónu a hlasivkových pulsů Základní hlasivkový tón, který obsahuje řečový signál ve znělých úsecích, patří mezi základní parametry tohoto signálu. Základní tón, jak bylo popsáno ve druhé kapitole, je vytvářen kmitajícími hlasivkami. Počet těchto kmitů za sekundu udává základní frekvenci. Ta je udávána v odborné literatuře v rozmezí 6-4 Hz. U mužského hlasu se pohybuje v rozmezí 8-16 Hz, u ženského hlasu je tato hodnota větší 15-3 Hz a v dětském hlase dosahuje až 2-6 Hz [19] Odhad základní frekvence řečového signálu V současné době existuje mnoho metod odhadu základního hlasivkového tónu označované jako PDA (Pitch Detection Algorithm), ale zatím neexistuje metoda, kterou by bylo možné považovat za univerzální. Nepříjemností při detekci základního tónu jsou formantové frekvence, které vznikají v artikulačních dutinách (dutině hrdelní, ústní a nosní). Tento problém je v některých algoritmech potlačen pomocí předzpracování signálu. Metody odhadu základního tónu lze rozdělit na metody: v časové, frekvenční a kepstrální oblasti. V následujících podkapitolách budou uvedeny základní přístupy k odhadu základního tónu Metoda ACF Metody založené na autokorelační funkci patří mezi základní přístupy v časové oblasti pro detekci periodicity. Z vlastností autokorelační funkce je známo, že pro periodické signály je také periodická a periodu určují vzdálenosti mezi opakujícími se maximy. Této skutečnosti je využíváno při odhadu základní periody znělého úseku řečového signálu. Aby krátkodobá autokorelační funkce zachytila periodu základního tónu, musí být velikost segmentu v rozmezí 2-4 ms [19].Vychýlený tvar autokorelační funkce je definovaný rovnicí (3.6) N k 1 R x [k] = x[n]x[n + k] pro k =, ±1, ±2,...,, (3.6) k= kde k je velikost zpoždění, N je velikost segmentu. Další vlastností autokorelační funkce je, že se jedná o sudou funkci, která má maximum umístěné v počátku. Autokorelační

20 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 9.1 Casovy prubeh x[n] n R[k] R[k] 1 x 1-3 Odhad autokorelacni funkce k 1 x 1-3 Casovy prubeh k Obrázek 3.2: Autokorelační funkce znělého segmentu funkce je tedy symetrická kolem počátku. Proto je používána pro odhad periody jen polovina průběhu autokorelační funkce. Dalšího maxima nabývá v okamžiku, kdy dojde k posunutí signálu o délku periody. Perioda základního tónu je určena jako vzdálenost prvního maxima od počátku. Aby bylo zamezeno odhadu falešných frekvencí, je zavedeno omezení, které určuje interval, ve kterém se bude maximum autokorelační funkce vyhledávat. Velikost intervalu je volena s ohledem na rozsah základní frekvence lidského hlasu v rozmezí 5-5 Hz [19]. Na obr. 3.2 je zobrazen průběh autokorelační funkce znělého segmentu řečového signálu. Z průběhu je vidět, že maximum je umístěno v počátku. Dále jsou vyznačeny meze, ve kterých je vyhledáváno první maximum od počátku. Vzdálenost prvního maxima od počátku v počtu vzorků je označována v odborné literatuře jako LAG nebo L [7], [19]. Pomocí rovnice (3.7) je tato vzdálenost přepočítána na velikost základní frekvence f. f = f S L (3.7) Metoda ACF dosahuje dobrých výsledků, i když je v řečovém signálu obsažen šum [24]. Chyby, které vznikají při odhadu základní periody, jsou způsobeny formantovou struk-

21 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 1 1 Predzpracovany recovy segment x[n] R[k] n x 1-5 Odhad zakladni frekvence f k Obrázek 3.3: Autokorelační funkce předzpracovaného znělého segmentu turou. Ta způsobuje, že se kolem výrazného maxima u znělého segmentu řeči nacházejí v jeho okolí další vrcholy, které někdy způsobují chybu určení správné pozice maxima [19], [24]. Z tohoto důvodu byly navrženy metody, které mají za cíl vliv formantových frekvencí potlačit. Jednou z metod je modifikovaná autokorelační funkce (MACF) [9], [19], [2] a [23]. Základem této metody je autokorelační funkce, která je aplikována na signál, který byl omezen dolní propustí a spektrálně zploštěn. Dolní propust je realizována filtrem s konečnou impulsní odezvou (FIR) s mezní frekvencí 9 Hz [2]. Spektrální zploštění je realizováno pomocí nelineární techniky centrálního a amplitudového omezení definované rovnicemi (3.8) a (3.9). x[n] h L pro x[n] > h L c 1 [n] = pro x[n] h L (3.8) x[n] + h L pro x[n] < h L 1 pro c 1 [n] > h L c 2 [n] = pro c 1 [n] h L (3.9) 1 pro c 1 [n] < h L Kde c 1 [n] a c 2 [n] je centrálně a amplitudově omezený signál, h L je omezovací úroveň. Omezovací úroveň je určena na základě rozdělení analyzovaného segmentu do tří mikrosegmentů. V každém mikro-segmentu je následně nalezena maximální absolutní hodnota

22 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 11 Rozdilova funkce d[k] 1 d [k] k 2 1 Kumulovana stredni normalizovana rozdilova funkce k Obrázek 3.4: Odhad základní frekvence pomocí metody YIN a z těchto tří hodnot je vybrána minimální, jako omezovací úroveň [19]. Vyjádřeno rovnicí (3.1). h L = p min{max( s 1 [n] ; max( s 2 [n] ); max( s 3 [n] ))} (3.1) Kde p=,6 až,8, s 1 [n], s 2 [n], s 3 [n] jsou tři mikro-segmenty. Na obr. 3.3 je zobrazen průběh předzpracovaného signálu a jeho autokorelační funkce, z které se odhaduje základní perioda Metoda YIN Metoda YIN, čtená jako yang, patří mezi další metody, které se snaží snížit chybu odhadu základní periody řečového signálu. Tato metoda vychází z rozdílové funkce d[k] definované rovnicí (3.11) a zobrazené na obr. 3.4 N 1 d[k] = (x[n] x[n k]) 2, (3.11) n= kde k je velikost zpoždění, N je velikost segmentu. Rovnice je podobná definici autokorelace, jen zde se provádí rozdíl vzajemně posunutých vzorků a v průběhu rozdílové funkce se při odhadu základní periody vyhledává minimum. Perioda základního tónu je určena prvním postranním minimem rozdílové funkce. Přesnost odhadu je opět ovlivněna formantovou strukturou, která vytváří okolní minima, jenž v některých případech mohou způsobit chybu odhadu. Pro potlačení této chyby byla navržena kumulovaná střední nor-

23 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 12 malizovaná rozdílová funkce d [k] (ang. Cumulative mean normalized difference function) definovaná rovnicí (3.12) a zobrazena na obr d [k] = 1, pro k =, 1 k d[k], pro k = 1, 2,..., N 1, k d[j] j=1 (3.12) V obr. 3.4 je vyznačena prahová hodnota čarvenou čárou. Poklesne-li průběh pod hranici je vybráno minimum pro odhad základní periody, jestliže průběh nepoklasne pod hranici, je vybráno globání minimum z průběhu pro odhad základní periody. Tento práh by měl opět snížit chybu odhadu základní frekvence, ale v případech, kdy nepoklesne průběh pod prahovou hranici může dojít k hrubé chybě. Pro snížení této chyby je doporučeno provést kvadratickou interpolaci a vyhledávat minima jen v určitém intervalu, ve kterém se předpokladá f. Tato metoda je detailně popsána v práci [1]. Pozice minima opět určuje velikost základní periody ve vzorcích a podle rovnice (3.7) je vypočtena hodnota základní frekvence Metoda využívající chyby LPC Je další metoda, která využívá pro odhad zakladní periody autokorelační funkci. Předzpracování signálu je zde realizováno pomocí lineární prediktivní analýzy, kde pro odhad základní frekce je využíváno chyby lineární predikce. Predikovaný signál je získán pomocí rovnice (3.13) ˆx[n] = p α i x[n k], (3.13) k=1 kde α i jsou autoregresní koeficienty, ˆx[n] jsou predikované vzorky, k je velikost zpoždění, p je řád prediktoru. Chybový signál e[n] je vyjádřen rovnicí (3.14). e[n] = x[n] ˆx[n] (3.14) Základní výhodou použití chybového signálu je, že neobsahuje informace o spektrálních modifikacích, které vznikají v artikulačním ústrojí. Na chybový signál je aplikována autokorelační funkce a pomocí postupu popsaných v části ACF je získána velikost odhadnuté základní frekvence. Průběh postupu je zobrazen na obr Metoda v kepstrální oblasti Reálné kepstrum c r [n] je definované rovnicí (3.15) c r [n] = IDF T {ln DF T {x[n]} } (3.15)

24 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 13 e(n) R[k].1 Predzpracovany recovy segment - (chybovy signal e(n)) n x 1-6 Odhad zakladni frekvence f k Obrázek 3.5: Autokorelační funkce předzpracovaného znělého segmentu Realne kepstrum c r [n] n Obrázek 3.6: Odhad základní frekvence z reálného kepstra Při výpočtu krátkodobého kepstra řečového signálu je na každý segment aplikováno váhovácí okénko. Často je využíváno okénko Hammingovo, které má lepší spektrální vlastnosti nežli obdélníkové okénko. Kepstrum umožňuje oddělit část buzení a část, která popisuje stav artikulačního ústrojí. Pro odhad základní periody řečového signálu je využíváno reálné kepstrum dané rovnicí (3.14). Na obr. 3.6 je zobrazen průběh reálného kepstra znělého a neznělého segmentu řeči. Několik prvních kepstrálních koeficientů popisuje tvar spektra(spektrální modifikace vzniklé v artikulačním ústrojí). Tyto koeficiety jsou používány jako příznaky při rozpoznávání. V úloze odhadu základní periody je využíváno částí kepstra v intervalu kvefrence [-], tento interval odpovídá intervalu 5-5 Hz při vzorkovací frekvenci 16 khz. V tomto intervalu je vyhledáno maximum a vzdálenost tohoto maxima představuje velikost základní frekvence, znázorněno na obr. 3.6.

25 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 14.2 Recovy signal.1 x[n] n x 1 4 Hlasivkovy signal x H [n] n x 1 4 Obrázek 3.7: Řečový a hlasivkový signál 3.3 Metody odhadu umístění hlasivkových pulsů Hlasivkové pulsy, které vznikají v okamžiku rázu uzavření hlasivek, jsou v anglické literatuře označované jako tzv. Pitch Marks. Pro nalezení pozic hlasivkových pulsů ve znělém úseku řeči, se zpočátku využívalo odorníků, kteří označovali pozice hlasivkových pulsů v řečovém signálu manuálně. Dále je možné využít algoritmy označované jako PMA (Pitch Mark-ing Algorithms), které naleznou pozice hlasivkových pulsů automaticky v řečovém nebo v hlasivkovém signálu. Přesnost první metody je vykoupena časovou náročností, která je potřeba pro manuální nalezení hlasivkových pulsů. Přístup pomocí algoritmů odhadu umístění pozic hlasivkových pulsů je naopak časově nenáročný za cenu omezené přestnosti. Pro dosažení vyšší přesnosti těchto algoritmů je vyžadován co nejpřesnější odhad základního tónu [1], [81] a [23]. V pracích [6], [1] je dále uvedeno, že pro zvýšení přesnosti algoritmů je důležité určit, v jaké polaritě se budou vyhledávat pozice hlasivkových pulsů. Znalost

26 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 15 pozic hlasivkových pulsů je důležitá pro konkatenační syntézu a dále je využívána při prozodických modifikacích řečového signálu pomocí metody TD-PSOLA. Na obr. 3.7 jsou zobrazeny průběhy řečového i hlasivkového signálu a červenou barvou jsou označeny pozice hlasivkových pulsů Algoritmus využívající signál z Laryngographu V následující části uvedu jen algoritmy, které pozice hlasivkových pulsů vyhledají automaticky. Algoritmus BLA (Baseline Algorithm) uvedený v [2] patří mezi algoritmy, které využívají hlasivkového signálu, který zaznamenal přístroj Laryngograph. Průběh takového signálu je zobrazen na obr Postup algoritmu lze popsat v následujících krocích: 1. Zaznamenaný hlasivkový signál je nejprve předzpracován, kdy na signál je aplikována derivace, která má za cíl zvýraznit okamžiky rázu uzavření hlasivek. 2. Následně je signál prahován. Hodnota prahu je nastavena na takovou hodnotu, aby v signálu zůstaly jen pozice hlasivkových pulsů. 3. Poté je provedeno vyhlazení, které ze souboru kandidátů hlasivkových pulsů odstraní ty hlasivkové pulsy, které jsou blízko u sebe a nebo doplní hlasivkové pulsy, které byly odstraněny prahováním. 4. V posledním kroku tento algoritmus vyrovná časový posun mezi řečovým a hlasivkovým signálem. Protože řečový signál je zpožděn za hlasivkovým signálem z důvodu umístění elektrod Laryngografu na hrtanu a mikrofónu před rty řečníka. Vyrovnání časového posuvu je důležité, protože při pitch-synchronní segmentaci nebo prozodických modifikacích se na pozice hlasivkových pulsů v řečovém signálu umísťuje okénko, kterým je vybrána řečová jednotka. Podrobnější popis algoritmu lze nalézt v práci [2] Standardně používaný algoritmus Algoritmus vytvořený v práci [6] využívá pro určení pozic hlasivkových pulsů řečový signál. Pro nalezení pozic hlasivkových pulsů je využit v současné době již standardní postup, kdy jsou v prvém kroku nalezeny kandidáti na pozice hlasivkových pulsů a v druhém kroku je provedena jejich optimalizace. Algoritmus uvedený v práci [14], který bude dále popsán jako první, vychází z algoritmu [6] a byl využit v práci [13] při realizaci TTS systému. Postup určení pozic hlasivkových pulsů je navržený tak, aby tento algoritmus mohl

27 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 16 být používán v aplikacích, které mají pracovat v reálném čase. Předpokladem algoritmu, který bude dále popsán je, že signál již byl segmentován do segmentů stejné délky. Pro každý segment je určeno, zda je znělý či neznělý a pro znělé segmenty byla odhadnuta velikost základní periody. Postup algoritmu lze popsat v následujících krocích: 1. Ve znělém segmentu je vyhledáno maximum. Pozice tohoto maxima představuje první nalezený hlasivkový puls. 2. Velikost odhadnuté základní periody ve znělém segmentu je použita pro určení rozsahu, ve kterém se budou vyhledávat kandidáti na další hlasivkový puls. Rovnice 3.16 a rovnice 3.17 definují rozsah nalevo SSR i napravo SRL od pozice hlasivkového pulsu, ve kterém je vyhledáno N = 3 kandidátů na pozici hlasivkového pulsu [14]. SRR = [k m + q L ; k m + (2 q L )] (3.16) SRL = [k m q L ; k m (2 q L )] (3.17) Kde k m je pozice hlasivkového pulsu s nejvyšší hodnotou v segmentu, q je parametr, který upravuje šířku intervalu a L je velikost odhadnuté základní periody ve vzorcích. 3. Krok 1 a 2 jsou prováděny v každém znělém segmentu řečového signálu, ve kterém je vždy nalezeno N kandidátů. V posledním kroku je využito dynamického programování, kterým je nalezeno optimální pořadí hlasivkových pulsů ze všech možných kandidátů. Podrobný postup je popsán v [6], [14] Modifikace standardního algoritmu V práci [3] navrhnují, aby vstupem do algoritmu odhadu umístění hlasivkových pulsů nebyl řečový signál, ale dvě funkce: odhadnutý okamžitý výkon a základní vlna. Hodnoty okamžitého odhadnutého výkonu P [i] jsou vypočteny dle rovnice 3.18 P [i] = L j=1 (s[j] w[j i]) 2 L j=1 w 2 [j], (3.18) kde w je Hammingovo okénko délky L (L je velikost základní periody ve vzorcích). Velikost Hammingova okénka je při výpočtu proměnná a v každém vzorku úměrná odhadnuté základní frekvenci. Hodnoty funkce základní vlny jsou získány průchodem řečového signálu filtrem typu dolní propust se zlomovým kmitočtem odpovídající f, realizováno jako

28 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 17 konvoluce řečového signálu s Hammingovým okénkem délky L. Podle okamžitých hodnot těchto dvou funkcí je na základě kritérií rozhodnuto, která funkce je výhodnější pro vstup do algoritmu odhadu umístění hlasivkových pulsů. Stanovená kritéria souvisejí s určitými problémy těchto funkcí např. při určování pozic hlasivkových pulsů z okamžitých hodnot odhadnutého výkonu může někdy docházet k tzv. zdvojení hlasivkových pulsů, kdy jsou nalezené pozice hlasivkových pulsů těsně vedle sebe. Další problém může být způsoben tzv. kolísáním základní periody (ang. jitter), které může způsobit detekci falešných hlasivkových pulsů, podrobně uvedeno v [3]. Postup algoritmu lze shrnou v následujích bodech: 1. Pro každý segment je určeno zda se jedná o znělý, neznělý segment, smíšený či nepravidelný nebo segment ticha. Více informaci v [3]. 2. Ve znělém segmentu jsou určeny pozice hlasivkových pulsů na základě hodnot okamžitého odhadnutého výkonu. 3. Jestliže v některé části segmentu nesplní tato funkce stanovené kritérium při určení pozice hlasivkového pulsu, je další pozice hlasivkového pulsu vyhledána v druhé funkci a vynechaný hlasivkový puls je určen pomocí interpolace či extrapolace. 4. Pro nepravidelné segmenty je využita kratkodobá energetická funkce a ve smíšených segmentech je využívána interpolace nebo extrapolace z okolních segmentů. 5. Ve neznělých segmentech či segment ticha, jsou pozice virtuálních hlasivkových pulsů umístěny s rovnoměrnou vzdáleností Algoritmus MPA Poslední algoritmus označovaný jako MPA (Multi-Phase Algorithm), který bude uveden v této části, byl vytvořen v práci [1]. V této práci autoři navrhují pro zvýšení detekce hlasivkových pulsů použít řečový i hlasivkový signál a dále uvažovat při určování hlasivkových pulsů polaritu řečového signálu. Jak je uvedeno v pracích [6], [1] a [11] mohou být hlasivkové pulsy orientované v zaznamenaném řečovém signálu kladně i záporně. Tato skutečnost má vliv na přesnost algoritmů určujících umístění hlasivkových pulsů, jak je uvedeno v [1]. Na obr. 3.8 jsou znázorněny rozdílně orientované hlasivkové pulsy. Jestliže algoritmus vyhledává pozice hlasivkových pulsů v opačné polaritě nežli jsou umístěny, nenachází se v předpokládaném rozsahu úmístění žádná výrazná hodnota. Ale více nevýrazných hodnot, jak je možné vidět na obr. 3.8, které již neodpovídají rázu uzavření hlasivek, a proto nelze rozhodnout, který znich má algoritmus označit. Tato situace zapříčiní určení falešných hlasivkovcýh

29 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 18 Recovy signal - hlasivkove pulsy umisteny v kladne polarite x[n] n Recovy signal - hlasivkove pulsy umisteny v zaporne polarite x 1 4 x[n] n Obrázek 3.8: Rozdílně orientované hlasivkové pulsy x 1 4 pulsů, které způsobují při pitch-synchronní segmentaci nebo prozodických modifikacích slyšitelné artefakty. V pracích [6], [1], [11] je navrženo řešení ke snížení vzniku těchto nespojitostí v syntetizovaném řečovém signálu. Před aplikací algoritmu odhadu umístění hlasivkových pulsů by mělo být rozhodnuto, jaká je výrazná polarita v řečovém signálu. Výrazná polarita v řečovém signálu je určena pomocí algoritmu popsaného v [11]. Algoritmus MPA, který využívá hlasivkového i řečového signálu lze popsat v následujících krocích. 1. Prvním krokem tohoto algoritmu je odhad znělosti segmentu. Pro odhad znělosti je využíváno jak hlasivkového, tak řečového signálu. Signály jsou segmentovány do segmentů délky 2 ms s překryvem 1 ms. Pro každý segment je vypočtena krátkodobá energie, ZCR a dále je využit algoritmus YIN pro určení znělosti. 2. Z hlasivkového signálu je odhadnuta základní frekvence pomocí algoritmu YIN. 3. V následujícím kroku jsou získány dvě posloupnosti kandidátů na hlasivkové pulsy z hlasivkového i řečového signálu. Posloupnost kandidátů na hlasivkové pulsy je v hlasivkovém signálu nalezena pomocí modifikovaného algoritmu BLA, více v [1]. Další kandidáti na hlasivkové pulsy, jsou získány z řečového signálu pomocí algoritmu vytvořeného v práci [6] a popsaného výše. 4. Spojením těchto dvou posloupností vznikne jedna společná poslouponost kandidátu na hlasivkové pulsy, která je použita pro nalezení výsledné optimální sekvence. V tomto kroku je dále každému kandidátu na hlasivkový puls přiřazeno tzv.

30 KAPITOLA 3. ZPRACOVÁNÍ ŘEČOVÉHO SIGNÁLU 19 skóre, podle kterého bude využitím dynamického programování nalezena optimální posloupnost. Detailní popis je v práci [6], [1]. 5. Posledním krokem je post-procesing, kterým jsou z posloupnosti odstraněni kandidáti, kteří mají mezi sebou minimální vzdálenost a mohlo by se jednat o dva hlasivkové pulsy, které jsou těsně u sebe. Výsledkem tohoto algoritmu je posloupnost hlasivkových pulsů, u který je i známo jejich skóre. Skóre je určeno na základě velikosti amplitudy hlasivkového pulsu a vzdáleností k sousednímu hlasivkovému pulsu. Tímto skórem algoritmus informuje o výsledné vytvořené poslouposti a důvěře pozic jednotlivých hlasivkových pulsů.

31 Kapitola 4 Segmentace a syntéza Segmentace řečového signálu představuje rozklad řečového signálu do kvazistacionárních segmentů. Pro standardní algoritmy zpracování řečového signálu jsou tyto kvazistacionární segmenty ekvidistantně rozmístěny po celém řečovém signálu. Ale v některých aplikacích např. korpusově orientované syntéze nebo při prozodických modifikacích řečového signálu pomocí metody TD-PSOLA je vyžadováno, aby segmenty o délce dvojnásobku základní periody byly synchronní s hlasivkovými pulsy. Takto provedená segmentace řečového signálu zvyšuje výrazně kvalitu syntetizované či prozodicky modifikované řeči. Kvalita především závisí na přesnosti algoritmu odhadu umístění hlasivkových pulsů v řečovém signálu, které byly uvedeny v předešlé kapitole. Následující obr. 4.1 zobrazuje pitch-synchronní segmentaci řečového signálu a následnou syntézu s prozodickými modifikacemi. 4.1 PSOLA PSOLA (Pitch Synchronous Ovelap and Add) je metoda, která je využívána při konkatenační syntéze řečového signálu. Metoda je uvedena a podrobně popsána v publikacích [19], [22] a pracích [15], [16]. Touto metodou je možné řetězit krátkodobé signály (segmenty) řečového signálu synchronně s hlasivkovými pulsy a zároveň modifikovat jejich prozodické charakteristiky. Algoritmus PSOLA je realizován v časové oblasti TD-PSOLA, frekvenční oblasti FD-PSOLA nebo ve variantě LP-PSOLA, MBR-PSOLA. Následující část bude dále věnována algoritmu TD-PSOLA, který umožňuje v časové oblasti modifikovat prozodické charakteristiky řečového signálu. 2

32 KAPITOLA 4. SEGMENTACE A SYNTÉZA TD-PSOLA Algoritmus TD-PSOLA(Time Domain PSOLA) je velmi rozšířený v systémech TTS (Text-to-Speech). Důvodem jsou jeho dobré vlastnosti: výpočetní nenáročnosti a efektivita. Je velmi uplatňován i v aplikacích, jejichž cílem jsou prozodické modifikace lidského hlasu. Algoritmus lze popsat v následujících krocích. 1. Algoritmus předpokládá, že je znám průběh základní frekvence řečového signálu, a že jsou známy pozice hlasivkových pulsů ve znělých i neznělých úsecích řečového signálu. 2. V prvním kroku je proveden rozklad řečového signálu do krátkodobých segmentů synchronně s hlasivkovými pulsy znázorněno na obr Při rozkladu jsou využívány oba uvedené předpoklady. Velikost krátkodobého segmentu je v průběhu rozkladu proměnná a rovna vždy dvojnásobku velikosti lokálnímu odhadu základní periody [15], [19]. Krátkodobý segment je vždy umístěn svým středem na hlasivkový puls v řečovém signálu. Tím je zajištěno, že krátkodobý segment odebírá vzorky řečového signálu synchronně s hlasivkovými pulsy. Odebraný krátkodobý řečový segment je následně váhován Hannovým okénkem. Hannovo okénko je zvoleno díky svým vlastnostem, kterými je při zpětné syntéze snahou zajistit, aby zřetězení krátkodobých segmentů bylo co nejhladší [15], [19]. 3. Ve druhém kroku jsou prováděny časové nebo frekvenční modifikace. Časové modifikace představují změnu délky (doby trvání) řečového signálu, při kterých by neměly být ovlivněny frekvenční vlastnosti. Časovou modifikací je dosaženo zpomalení řeči (prodlužování signálu) nebo zrychlení řeči (zkracování signálu). Frekvenční modifikace představují změny frekvenčních vlastností řečového signálu (změny základní frekvence, formantové struktury) bez ovlivnění časových vlastností. Při provádění modifikací se vychází z posloupnosti časových okamžiků, na které jsou umístěny hlasivkové pulsy ve vstupním řečovém signálu, dále budou označeny P vst [j]. V [15], [19] jsou uvedeny parametry α, β, pro které je v další části textu předpokládáno, že mají konstantní hodnotu. Parametr α představuje faktor, který ovlivňuje velikost změny v časovém měřítku modifikovaného signálu. Tímto faktorem jsou pomocí rovnice 4.1 vypočteny nové pozice hlasivkových pulsů P v [i], které jsou v [15], [19] označovány jako virtuální hlasivkové pulsy. P v [i] = α P vst [j] (4.1)

33 KAPITOLA 4. SEGMENTACE A SYNTÉZA 22 Kde j je pořadí hlasivkového pulsu ve vstupním řečovým signálu, i je pořadí virtuálních hlasivkových pulsů v umělém syntetizovaném signálu. Parametr β je faktor ovlivňující vzdálenost mezi hlasivkovými pulsy, pomocí něhož jsou dosaženy změny základní frekvence. Velikost základní frekvence v modifikovaném umělém syntetizovaném signálu je vypočtena pomocí rovnice 4.2 T v [i] = β T vst [j], (4.2) kde T v [i] je modifikovaná základní frekvence, T vst [j] je základní frekvence v místě j-tého hlasivkového pulsu ve vstupním signálu. Pozice hlasivkových pulsů v syntetizovaném modifikovaném řečovém signálu jsou definovány pomocí rovnice 4.3 a rovnice 4.4 P s [] = P vst [], (4.3) kde P s jsou pozice hlasivkových pulsů v syntetizovaném řečovém signálu, P vst jsou pozice hlasivkových pulsů ve vstupním řečovém signálu. P s [i + 1] = P s [i] + β T vst [j] (4.4) Na první pozici hlasivkového pulsu v syntetizovaném řečovém signálu je přiřazen první hlasivkový puls ze vstupního řečového signálu dle rovnice 4.3. Pomocí rovnice 4.4 jsou vytvořeny další pozice hlasivkovcýh pulsů v syntetizovaném signálu takovým způsobem, aby při změně časového měřítka nedocházelo ke změnám frekvenčních charakteristik. Proto jsou nové pozice hlasivkových pulsů synchronní se základní periodou odpovídající j-tému hlasivkovému pulsu ve vtupním signálu, při parametru β rovna jedné. 4. V následujícím kroku je hlasivkovému pulsu v syntetizovaném řečovém signálu P s [i + 1] přiřazen vstupní hlasivkový puls P vst [j], který je vybrán na základě rovnice 4.5 a rovnice 4.5 d[j] = abs( P v P s [i + 1]), (4.5) kde d[j] je vektor vzdáleností mezi vektorem virtuálních hlasivkových pulsů P v a pozicí hlasivkového pulsu v syntetizovaném signálu P s [i + 1]. Ve vektoru vzdáleností je nalezena minimální hodnota, která určuje, jaký virtuální hlasivkový puls je nejblíže k hlasivkovému pulsu ve vstupním řečovém signálu, zapsáno rovnicí 4.6. j = min(find( d == min( d))), (4.6) Pomocí rovnice 4.6 je určen jaký vstupní hlasivkový puls P vst [j] bude přiřazen na pozici P s [i + 1] v umělém syntetizovaném signálu. Takovýmto způsobem jsou

34 KAPITOLA 4. SEGMENTACE A SYNTÉZA 23 přiřazeny na všechny pozice hlasivkových pulsů v umělém syntetizovaném signálu vstupní hlasivkové pulsy. Prozodických modifikací je pak dosaženo tím, že některé hlasivkové pulsy se v umělém syntetizovaném signálu opakují, tím dochází k zpomalování rychlosti řeči, nebo některé hlasivkové pulsy jsou vynechány, a tím dochází naopak ke zrychlení řečového signálu. Změny základní frekvence jsou dosaženy ovlivňováním parametru β, který prodlouží či zkrátí vzdálenost mezi pozicemi hlasivkových pulsů v umělém syntetizovaném signálu dle rovnice Poslední částí algoritmu je zpětná syntéza řečového signálu. Postup vytvoření umělého syntetizovaného modifikovaného řečového signalu je znázorněn obr V předešlých krocích byl vstupní řečový signál nejprve rozložen do řečových segmentů (jednotek) pomocí pitch-synchronní segmentace, dále byl váhován pomocí Hannova okna. Následně byla provedena prozodická modifikace, kdy byly přiřazeny vstupní hlasivkové pulsy hlasivkovým pulsům v umělém syntetizovaném signálu. V posledním kroku jsou na pozice hlasivkových pulsů v umělém syntetizovaním řečovém signálu vkládány jim odpovídající řečové jednotky synchroně s hlasivkovými pulsy. Řečové jednoty jsou vždy vzájemně umístěny s 5% překryvem, čímž je zabráněno modifikacím energie, které jsou způsobeny váhováním řečových segmentů Hannovým oknem. Výsledný umělý syntetizovaný řečový signál je vytvořen pomocí metody PSOLA, která tyto překrývající se řečové segmenty sečte [19], [15].

35 KAPITOLA 4. SEGMENTACE A SYNTÉZA 24 1 Pitch-synchronni segmentace a vahovani segmentu Hannovym oknem x[n] n 1 Recove segmenty (jednotky) x[n] n 1 x[n] n 1 x[n] n 1 x[n] n Zpetna synteza recoveho signalu se zmenou zakladni frekvence x[n] n Obrázek 4.1: Pitch-synchronní segmentace a zpětná syntéza

36 Kapitola 5 Algoritmus PSS-ZS&PM Na základě metod uvedených v předešlých kapitolách bude v této kapitole navržen a popsán algoritmus pitch-synchronní segmentace řečového signálu s následnou zpětnou syntézou s prozodickými modifikacemi dále označován PSS-ZS&PM. V další části je uvedena jeho implementace v prostředí MATLAB a popis vytvořeného interaktivního grafického prostředí. 5.1 Návrh algoritmu Navržený algoritmus PSS-ZS&PM je znázorněn pomocí blokového schématu na obr Vstupem do algoritmu je řečový signál, který je nejprve segmentován do kvazistacionárních segmentů s ekvidistantní vzdáleností. Následně jsou pro každý segment vypočítány krátkodobé časové charakteristiky. Z nich nejdůležitější jsou krátkodobá energie a krátkodobý počet průchodů nulou (ZCR), které jsou jako parametry vstupem do detektoru znělosti řečového segmentu. Detektor znělých segmentů je realizován jako off-line detektor. Z parametrů krátkodobé energie a počtu průchodů nulou jsou nastaveny prahy prah E a prah ZCR dle rovnice (5.1) a rovnice (5.2) prah E = E min + (E p ) (E max E min ), (5.1) prah ZCR = mean(zcr) ZCR p, (5.2) podle kterých je rozhodnuto, zda je daný segment znělý, či neznělý. Kde E max / E min je maximální/ minimální hodnota krátkodobé energie v řečovém signálu, E p je parametr ovlivňující prahovou hodnotu (E p =,4), ZCR je střední hodnota krátkodobého počtu průchodů nulou v řečovém signálu, ZCR p je parametr ovlivňující prahovou hod- 25

37 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 26 Řečový signál Segmentace Z/NZ detektor PMA Pitch-synchronní seg. Řečové jednotky Řečové jednotky Modifikace prozodie PSOLA Syntetizovaný signál Obrázek 5.1: Blokové schéma navrženého algoritmu PSS-ZS&PM notu (ZCR p = 2.1). Hodnoty parametrů E p a ZCR p byly stanoveny empiricky na základně španělské databáze Spanish SPEECON, která byla použita při experimentech. Znělé segmenty jsou pak vstupem bloku PMA, který provádí odhad umístění hlasivkových pulsů. V bloku PMA je nejprve provedeno předzpracování znělého segmentu řečového signálu pomocí metody centrálního-amplitudového omezení nebo chyby lineární predikce. Jejich cílem je potlačit vliv formantových frekvencí, které při odhadu základní frekvence mají rušivý efekt. Poté je odhadnuta základní frekvence. Pro odhad základní frekvence je možné využít metod ACF, YIN a metodu v kepstrální oblasti. Z provedených experimentů vykazuje nejpřesnější odhad základní frekvence metoda ACF, která byla aplikována na znělé segmenty. Znalost odhadnuté základní frekvence je dále využita při odhadu umístění hlasivkových pulsů ve znělých segmentech řečového signálu. Pro odhad umístění hlasivkových pulsů byl realizován algoritmus, který každý znělý řečový segment rozdělí do N mikro-segmentů na základě odhadnuté základní frekvence podle rovnice (5.3) a rovnice (5.4) f s MS l (i) = floor( f seg(i) p A), (5.3) kde MS l (i) je velikost mikro-segmentu v i-tém segmentu, f s je vzorkovací frekvence, f seg(i) je velikost odhadnuté základní frekvence v i-tém segmentu, p je parametr ovliv-

38 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 27.2 Znely segment recoveho signalu.1 x[n] n Obrázek 5.2: Odhad umístění hlasivkových pulsů ňující velikost mikro segmentu(p A =, 8). S l N = floor( ), (5.4) MS l (i) Kde N je počet mikro-segmentů v segmentu i, S l je velikost segmentu. Dále jsou v každém mikro-segmentu nalezeny vzorky s minimální hodnotou, která odpovídá pozicím hlasivkových pulsů znázorněno na obr Výsledkem algoritmu odhadu umístění hlasivkových pulsů jsou odhadnuté pozice hlasivkových pulsů ve znělých úsecích řečového signálu. Jelikož odhad pozic hlasivkových pulsů závisí na odhadnuté základní frekvenci, může někdy v okamžiku špatného odhadu dojít k nalezení falešných hlasivkových pulsů. Proto je dále provedena optimalizace umístění hlasivkových pulsů. Cílem optimalizace je odebrat falešné hlasivkové pulsy, které by způsobily vznik slyšitelných artefaktů při modifikacích řečového signálu pomocí metody TD-PSOLA. Pozice hlasivkových pulsů vstupují do bloku Pitch-synchronní segmentace, který provádí pitch-synchronní segmentaci řečového signálu. Výsledkem jsou řečové segmenty v systémech konkatenační syntézy označované jako řečové jednotky. Tyto řečové segmenty vstupují do do bloku Modifikace prozodie, kde jsou provedeny požadované změny základní frekvence a délky řečového signálu na základě hodnot parametů α, β. Výsledný syntetizovaný modifikovaný řečový signál je vytvořen v posledním bloku PSOLA, ve kterém jsou modifikované řečové segmenty řetězeny synchronně s hlasivkovými pulsy a sečteny.

39 KAPITOLA 5. ALGORITMUS PSS-ZS&PM Implementace algoritmu Algoritmus PSS-ZS&PM byl na základě požadavku v zadání diplomové práce implementován v programovém prostředí MATLAB. Algoritmus je rozdělen do dílčích částí, které odpovídají jednotlivým blokům v blokovém schématu na obr č.1. Tyto bloky jsou realizovány pomocí funkcí, které budou v této části uvedeny a krátce bude popsána jejich aplikace. Dílčí funkce realizující algoritmus PSS-ZS&PM: cas char.m Funkcí cas-char.m je realizován výpočet krátkodobých časových charakteristik. Vstupní parametry: x - signál/vector fs - vzorkovací frekvence Výstup: RMS - efektivní hodnota Is - intenzita PP - špička-špička ZCR - počet průchodů nulou f acf.m, f kep.m, f YIN.m Funkcemi f acf.m, f kep.m, f YIN.m je odhadnuta velikost základní frekvence. První funkce využívá autokorelační funkce, druhá provádí odhad v kepstrální oblasti, třetí funkce realizuje algoritmus YIN. Vstupní parametry: krat Seg ZN - Krátkodobé znělé segmenty w - Váhovací okno wnum - Počet segmentu wlen - Délka okna pro segmentaci v počtu vzorku fs - Vzorkovací kmitočet f max - Maximální předpokládaná f f min - Minimální předpokládaná f CA OMZ - Předzpracování signálu pomoci central. a amp. omezení E LPC - Předzpracování signálu pomoci chyby LPC Výstup: y - Vektor s odhadnutou základní frekvencí

40 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 29 NZ hlas puls.m Cílem funkce NZ hlas puls.m je vytvořit pozice hlasivkových pulsů v neznělých segmentech řečového signálu z důvodu požadavku metody TD- PSOLA, která jich využívá při prozodických modifikacích. Vstupní parametry: NZ seg - Vektor parametru určující znělost, neznělosst seg. wnum - Počet segmentu wlen - Velikost segmentu fs - Vzorkovací frekvence q - Parametr ovlivňující vzdálenost mezi vir. hlas. pulsy Výstup: y - Vektor s uměle vytvořenými pozicemi hlasivkových pulsů v NZ seg. OP hlas puls.m Funkce OP hlas puls.m optimalizuje pozice hlasivkových pulsů tak, aby byly odstraněny falešné hlasivkové pulsy, které vznikly při odhadu hlasivkových pulsů. Vstupní parametry: sig - Vektro, Vstupní signál KS HLP - Vektor, kandidáti na hlasivkové pulsy f max - Předpokládaná max. základní frekvence f min - Předpokládaná min. základní frekvence fs - Vzorkovací kmitočet POL - Parametr informující o polaritě v jaké se předpokl. hlas. puls Výstup: y - Vektor s optimálně umístěnými pozicemi hlasivkových pulsů OU hlas puls.m Funkce OU hlas puls.m provádí odhad hlasivkových pulsů ve znělých segmentech řečového signálu. Vstupní parametry: KS ZN - Matice, krátkodobě znělé segmenty F seg - Vektor, velikost základní frekvence v segmentech P A - Parametr ovlivňující velikost mikro-segmentu [.4 -.8] fs - Vzorkovací kmitočet slen - počet vzorku v signálu

41 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 3 wlen - Délka okna pro segmentaci v poctu vzorků wnum - Počet segmentu wstep - Posun okna po signálu POL - Parametr informující o polaritě v jaké se předpokl. hlas. puls Výstup: y - Vektor s odhadnutými pozicemi hlasivkových pulsů polarita.m Funkce polarita.m nalezne v řečovém signálu významnou polaritu. Tato informace je následně využita při vyhledávání pozic hlasivkových pulsů. Vstupní parametry: x - signál/vector fs - Vzorkovací frekvence F - Typická základní frekvence prah - prah (.2-.7) Výstup: y - Významná polarita řečového signálu pr ca omez.m Funkce pr ca omez.m provádí předzpracování řečového segmentu pomocí centrálního a amplitudového omezení. Vstupní parametry: x - signál/vector k - koeficient k=.6-.8 ; m - m=1; První metoda pro určení omezovací úrovně - m=2; Druhá metoda pro určení omezovací úrovně Výstup: y - signál/vector pr e LPC.m Funkce pr e LPC.m provádí předzpracování řečového segmentu pomocí chyby lineární predikce. Vstupní parametry: segment - řečový segment Výstup: y - předzpracovaný segment

42 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 31 td psola.m Funkce td psola.m realizuje rozklad řečového signálu synchronně s hlasivkovými pulsy, prozodickou modifikaci a výsledné řetězení segmentů, čímž vznikne syntetizovaný řečový signál, který má modifikované prozodické charakteristiky. Vstupní parametry: sig - Vstupní řečový signál HP - Pozice hlasivkových pulsů a jejich odhadnutá f alpha - Parametr ovlivňující rychlost řeči řečníka beta - Parametr ovlivňující základní frekvenci řečníka Výstup: y - syntetizovaný modifikovaný řečový signál vyh pres PDA.m Funkce vyh pres PDA.m provádí vyhodnocení přesnosti algoritmu odhadu základní frekvence pomocí kritérií: GEH, GEL, VE, UVE. Vstupní parametry: ref f - Referenční zakladní frekvence odhad f - Odhadnutá základní frekvence Výstup: y - Kritéria hodnotící algoritmus PDA vyh pres PMA.m Funkce vyh pres PMA.m provádí vyhodnocení přesnosti algoritmu odhadu umístění hlasivkových pulsů. Vstupní parametry: pozice RHP - Referenční pozice hlas. pulsu Ref F - Referenční základní frekvence pozice OHP - Odhadnuté pozice hlasivkových pulsů vyh min int - Interval správně určených hlasivkových pulsů Výstup: y - Přesnost algoritmu odhadu umístění hlasivkových pulsů

43 KAPITOLA 5. ALGORITMUS PSS-ZS&PM Grafické interaktivní prostředí Vytvořené grafické interaktivní prostředí znázorněné na obr. 5.3 a obr. 5.4 umožňuje uživateli nastavovat parametry a metody, které se mají provést v jednotlivých blocích algoritmů PSS-ZS&PM prostřednictvím ovládacích prvků. Ovládací prvky volají jednotlivé funkce uvedené v předešlé části a nastavují jejich parametry. Nastavováním parametrů a metod je umožněno uživateli jednoduše optimalizovat algoritmus a docílit vyšší kvality syntetizovaného modifikovaného řečového signálu. Interaktivní prostředí se skládá ze dvou hlavních oken. První okno znázorněné na obr. 5.3 realizuje bloky Segmentace, Z/NZ detektor, PMA algoritmu zobrazené na blokovém schématu na obr Levá část označená Ovladací panel slouží k nastavení jednotlivých parametrů algoritmů. V následujících bodech je uvedeno, jaké parametry lze modifikovat v jednotlivých krocích navrženého algoritmu PSS-ZS&PM. Segmentace (Vzorkovací frekvence, Velikost segmentu, Posun segmentu, Váhovací okno (Rectangular, Hamming, Hannovo)) Časové charakteristiky (Energie, Výkon, Efektivni hodnota, Intenzita, Špičkašpička, Počet průchodů nulou) Znělý/neznělý detektor Odhad základní frekvence (Předzpracování řečového signálu (Centralní a amplitudové omezení, Chyba lineární predikce)), Metody (ACF, YIN, Kepstrum), Vyhlazení průběhu základní frekvence (Media, řád) Odhad umístění hlasivkových pulsů Část zobrazení je určená pro zobrazení: časových charakteristik, prahů Z/NZ detektoru, odhadnuté základní frekvence a odhadnutých pozic hlasivkových pulsů. Výsledkem této části jsou odhadnuté pozice hlasivkových pulsů. Druhé okno realizuje bloky Pitch-synchronní segmentace, Modifikace prozodie a PSOLA a dále umožňuje provádět hodnocení kvality syntetizovaného modifikovaného řečového signálu. Levá část slouží k nastavení parametrů α, β algoritmu TD-PSOLA pomocí něhož jsou dosaženy změny prozodie. Obsahuje ovládací prvky, které umožňují přehrát řečový i umělý syntetizovaný signál. Levá spodní část je určena pro zobrazení výsledků metod hodnotících přesnost odhadu základní frekvence a odhadu umístění hlasivkových pulsů. Část zobrazení slouží pro zobrazení vstupního a modifikovaného řečového signálu, spektrogramů obou signálů, které lze využít pro hodnocení kvality provedených prozodických modofikací. Dále je určena pro zobrazení: odhadnutých a referenčních pozic hlasivkových pulsů, odhadnuté a referenční základní frekvence vstupního řečového signálu.

44 Obrázek 5.3: Grafické uživatelské prostředí okno č. 1 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 33

45 Obrázek 5.4: Grafické uživatelské prostředí okno č. 2 KAPITOLA 5. ALGORITMUS PSS-ZS&PM 34

46 Kapitola 6 Experimenty V této kapitole budou uvedeny výsledné experimenty a jejich vyhodnocení a kritéria využitá při hodnocení. Kvalita prozodicky modifikovaného řečového signálu bude ověřena na základě porovnání spekter a vnímáním syntetizované řeči, protože nejsou k dispozici referenční modifikované řečové signály, s kterými by mohlo být provedeno srovnání. Dále budou využity pro hodnocení kvality kritéria určující přesnost algoritmů PDA a PMA. 6.1 Přesnost algoritmů PDA a PMA Možnost využití při hodnocení kvality výsledného syntetizovaného řečového signálu i kritéria určující přesnost algoritmů PDA a PMA je dána vlastnostmi metody TD-PSOLA, o kterých je známo, že výsledná kvalita umělého syntetizovaného signálu závisí na přesnosti odhadu pozic hlasivkových pulsů, které jsou důležité při rozkladu řečového signálu do řečových jednotek. Dále základem přesnosti algoritmu odhadu umístění hlasivkových pulsů, který je použit v diplomové práci, je spávně odhadnutá základní frekvence. Z tohoto důvodu budou použita pro hodnocení navženého algoritmu PSS-ZS&PM kritéria hodnotící přesnost algoritmů PDA a PMA Kritéria hodnocení Základem níže uvedených kritérií využitých při hodnocení přesnosti algoritmu PDA a PMA jsou řečové databáze, které mají vytvořeny soubor s referencemi základní frekvence a umístění hlasivkových pulsů v řečových signálech. K hodnocení přesnosti algoritmů PDA budou uvedena kritéria, která jsou využita v [7], [12], [23]. 35

47 KAPITOLA 6. EXPERIMENTY 36 Vyšší hrubá chyba označovaná GEH (Gross error high), je definována jako hodnota v procentech, která vyjádřuje, kolik znělých segmentů má odhadnutou hodnotu základní frekvence vyšší než 2% referenční hodnoty základní frekvence. Nižší hrubá chyba označována GEL (Gross error low), je definována opačně, než předchozí. Vyjadřuje hodnotu v procentech, která uvádí počet znělých segmentů s hodnotou odhadnuté základní frekvence nižší než 2% referenční hodnoty. Znělá chyba VE (Voiced error) udává hodnotu v procentech, která představuje jaká část znělých segmentů byla chybně určena jako neznělá. Neznělá chyba UVE (Unvoiced error) udává naopak hodnotu v procentech, která představuje jaká část neznělých segmentů byla chybně určena jako znělá. K vyhodnocení přesnosti algoritmů PMA pomocí níže uvedené metody je nutné mít k dispozici řečovou databázi, jejíž součástí je i soubor s referenčními pozicemi hlasivkových pulsů. Na základě souboru referenčních hlasivkových pulsů a souboru odhadnutých hlasivkových pulsů je provedeno porovnání těchto dvou souborů na základě dynamického programování [1]. Algoritmus pro vyhodnocení přesnosti je založen na třech matematických operacích, pomocí nichž se snaží soubor odhadnutých hlasivkových pulsů přeuspořádat tak, aby se rovnal souboru s referenčními hlasivkovými pulsy. 1. První matematickou operací je substituce S. Substituce má za cíl odhadnutý hlasivkový puls, který se nachází ve vzdálenosti větší jak 1% od referenční pozice hlasivkového pulsu, umístit na tuto referenční pozici. 2. Druhou operací je odebrání (delete) D. Nastane-li situace, že odhadnutý hlasivkový puls se nachází na správné referenční pozici a v okolí této pozice je další odhadnutý hlasivkový puls, je tento odhadnutý hlasivkový puls falešný a ze souboru odhadnutých hlasivkových pulsů je odebrán. 3. Poslední operací je doplnění (include) I. Do souboru odhadnutých hlasivkových pulsů bude doplněn další hlasivkový puls v případě, že v okolí referenční pozice hlasivkového pulsu se nenacházel žádný odhadnutý hlasivkový puls. Po ukončení algoritmu, který provedl určitý počet operací potřebných k rovnosti těchto dvou souborů, je informace o počtu vykonaných operací dále využita pro určení přesnosti algoritmu odhadu umístění hlasivkových pulsů dle vztahu (6.1) P = N R N S N D N I N R 1%, (6.1)

48 KAPITOLA 6. EXPERIMENTY 37 kde N R je počet hlasivkových pulsů v souboru referenčních hlasivkových pulsů, N S je počet operací substituce, N D je počet operací odebrání, N I je počet operací doplnění. Za správně umístěné hlasivkové pulsy jsou považovány všechny odhadnuté hlasivkové pulsy, které se nacházejí do vzdálenosti 1% od referenční pozice hlasivkového pulsu. Hodnota 1% je uvedena v [1], [11] a vychází z výsledku v práci [2], kde uvádějí, že kvalita syntetizované řeči vytvořené pomocí metody PSOLA není snížena, jsou-li pozice hlasivkových pulsů určeny s touto nepřesností Použité databáze Experimenty byly prováděny na dvou řečových databázích. Na Španělské databázi, která byla výběrem z rozsáhlé databáze Spanish SPEECON. Databáze Spanish SPEECON byla vytvořena na základě 6 mluvčích (5 % muži a 5% ženy) ve věku let. Řečový signál byl snímán čtyřmi mikrofóny a digitalizován vzorkovací frekvencí 16 khz a kvantován 16-bit lineární PCM. K této databázi byly dodatečně vytvořeny reference základní frekvence a umístění hlasivkových pulsů. Soubor s referencemi hlasivkových pulsů byl vytvořen ve dvou krocích. V prvním kroku byly hlasivkové pulsy nalezeny automaticky a ve druhém kroku byla provedena manuální kontrola umístění hlasivkových pulsů [8]. Druhou použitou databází při experimentech byla anglická databáze 1, kterou vytvořil Paul Bagshaw na univerzitě v Edinburghu. Databáze byla namluvena pěti muži a pěti ženami. Součástí databáze je i signál, který zaznamenal přístroj Laryngograph. Řečové i hlasivkové signály byly zaznamenány vzorkovací frekvencí 2 khz. 1 Databáze je dostupná z

49 KAPITOLA 6. EXPERIMENTY Dosažené výsledky Algoritmy PDA a PMA byly testovány na výběru ze Španělské databáze Spanish SPE- ECON. Tento výběr představoval 18 promluv s různou úrovní šumu. Parametry navrženého algoritmu PSS-ZS&PM, které jsou uvedeny v tabulce (6.1), byly získány experimenty. Při takto nastavených parametrech bylo dosaženo nejlepší hodnoty přesnosti odhadu umístění hlasivkových pulsů, uvedené v tabulce (6.3) a nejnižších hodnot kritérií přesnosti odhadu základní frekvence uvedených v tabulce (6.2). Parametry Velikost segmentu Posun segmentu Vahovací okno segmentu Metoda Před. signalu f Metoda odhadu f Max f Min f 32 [ms] 32 [ms] Obdelníkové [ ] ACF 6 [Hz] 36 [Hz] Vyhlazení odhadu f Median, řád 3 Polarita hlas. pulsů Záporná Tabulka 6.1: Nastavené parametry algoritmu PSS-ZS&PM [%] GEH 3,734 GEL 13,612 VE 6,1444 UVE 8,7343 Tabulka 6.2: Hodnocení algoritmu PDA V tabulce (6.2) uvedené kritérium VE a UVE hodnotí v navrženém algoritmu PSS- ZS&PM přesnost detektoru Z/NZ, který je založen na příznacích energie a ZCR. Hodnoty uvádějí, že 6,14 % znělých segmentů bylo chybně označeno za neznělé a 8,73 % neznělých segmentů bylo naopak určeno za znělé. Dále GEH uvádí, že 3,73 % znělých segmentů

50 KAPITOLA 6. EXPERIMENTY 39 mělo odhadnutu hodnotu základní frekvence vyšší než 2 % referenční základní frekvence. Naopak GEL uvádí, že 13,6 % segmentů mělo odhadnutou hodnotu základní frekvence nižší jak 2 % referenční. P [%] N D /N [%] N S /N [%] N I /N [%] globálně 69,654 1,2586 1,991 18,194 střední hodnota 71,3 1,754 12,66 14,76 směrodatná odchylka 12,23 2,163 8,677 13,11 Tabulka 6.3: Hodnocení algoritmu PMA Nastavením parametrů navrhnutého algoritmu PSS-ZS&PM dle tabulky (6.1) bylo dosaženo přesnosti odhadu umístění hlasivkových pulsů 69,65 %. Na přesnost navrženého algoritmu má nejvíce vliv parametr ovlivňující, v jaké polaritě se budou vyhledávat hlasivkové pulsy. Na následujících histogramech budou zobrazeny četnosti hodnot P [%], N D /N [%], N S /N [%], N I /N [%].

51 KAPITOLA 6. EXPERIMENTY 4 2 Histogram P Cetnost P[%] 6 Histogram N D /N Cetnost N D /N[%] 4 Histogram N S /N Cetnost N S /N[%] 4 Histogram N I /N Cetnost N I /N[%] Obrázek 6.1: Histogramy hodnot kritérií

52 KAPITOLA 6. EXPERIMENTY Experimenty se změnou prosodie amplituda amplituda amplituda amplituda amplituda Vstupni recovy signal cas Syntetizovany modifikovany recovy signal, parametr alpha = 1; beta = cas Syntetizovany modifikovany recovy signal, parametr alpha = 1; beta = cas Syntetizovany modifikovany recovy signal, parametr alpha =.7; beta = cas Syntetizovany modifikovany recovy signal, parametr alpha = 1.4; beta = cas Obrázek 6.2: Změny prozodických charakteristik V této části budou uvedeny experimenty, které měly za cíl změny prozodie řečového signálu. Na obr. 6.2 jsou zobrazeny časové průběhy syntetizovaných modifikovaných řečových signálů. První časový průběh představuje vstupní řečový signál, který je pomocí parametrů α a β metody TD-PSOLA modifikován. Hodnota β umožňuje změny základní frekvence. Je-li hodnota parametru β < 1 dochází ke zvýšení základní frekvence. V případě β > 1 dochází ke snížení základní frekvence. Změny v časovém měřítku ovlivňuje

53 KAPITOLA 6. EXPERIMENTY 42 Obrázek 6.3: Porovnání kvality na základě spektrogramů hodnota parametru α, je-li α < 1 dochází ke zkracování řečového signálu, čímž je dosaženo zrychlení řeči. V opačném případě kdy parametr α > 1 dochází k prodlužování řečového signálu, tedy k zpomalení řeči. Zobrazeno na časových průbězích v obr Kvalitu syntetizovaného modifikovaného řečového signálu je možné kontrolovat v časových průbězích, kdy při změnách základní frekvence nesmí docházet ke změnám časového měřítka. Další hodnocení kvality výsledné syntetizované řeči je možné provádět porovnáním spektrogramů vstupního řečového signálu a modifikovaného. Na obr. 6.3 jsou zobrazeny spektrogramy. Při modifikacích časového měřítka nesmí docházet ke změnám základní frekvence a formantových frekvencí. Spodní řada spektrogramů na obr. 6.2 zobrazuje spektrogramy řečových signálů, kterými bylo ovlivněno časové měřítko. Ve spektrogramech je možné pozorovat, že základní frekvence a formantové frekvence zůstaly zachovány. Poslední možností jak hodnotit kvalitu, je pomocí ilustrativních poslechových testů.

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace P. Mizera, P. Pollák České vysoké učení technické v Praze, Fakulta elektrotechnická, Katedra teorie obvodů mizerpet@fel.cvut.cz,

Více

Úvod do praxe stínového řečníka. Proces vytváření řeči

Úvod do praxe stínového řečníka. Proces vytváření řeči Úvod do praxe stínového řečníka Proces vytváření řeči 1 Proces vytváření řeči člověkem Fyzikální podstatou akustického (tedy i řečového) signálu je vlnění elastického prostředí v oboru slyšitelných frekvencí.

Více

ADA Semestrální práce. Harmonické modelování signálů

ADA Semestrální práce. Harmonické modelování signálů České vysoké učení technické v Praze ADA Semestrální práce Harmonické modelování signálů Jiří Kořínek 31.12.2005 1. Zadání Proveďte rozklad signálu do harmonických komponent (řeč, hudba). Syntetizujte

Více

Kepstrální analýza řečového signálu

Kepstrální analýza řečového signálu Semestrální práce Václav Brunnhofer Kepstrální analýza řečového signálu 1. Charakter řečového signálu Lidská řeč je souvislý, časově proměnný proces. Je nositelem určité informace od řečníka k posluchači

Více

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the

Více

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU 3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,

Více

Zvuk. 1. základní kmitání. 2. šíření zvuku

Zvuk. 1. základní kmitání. 2. šíření zvuku Zvuk 1. základní kmitání - vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin - podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění elastického

Více

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš KVANTOVÁNÍ ZVUKOVÝCH SIGNÁLŮ NÍZKÉ ÚROVNĚ Abstrakt Quantization of acoustic low level signals David Bursík, Miroslav Lukeš Při testování kvality A/D převodníků se používají nejrůznější testovací signály.

Více

Úvod do zpracování signálů

Úvod do zpracování signálů 1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování

Více

Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno

Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz. FIT VUT Brno Určování základního tónu řeči Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno Určování základního tónu řeči Jan Černocký, ÚPGM FIT VUT Brno 1/37 Plán Charakteristiky základního tónu

Více

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014 A7B31ZZS 4. PŘEDNÁŠKA 13. října 214 A-D převod Vzorkování aliasing vzorkovací teorém Kvantování Analýza reálných signálů v časové oblasti řečové signály biologické signály ---> x[n] Analogově-číslicový

Více

31SCS Speciální číslicové systémy Antialiasing

31SCS Speciální číslicové systémy Antialiasing ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE 2006/2007 31SCS Speciální číslicové systémy Antialiasing Vypracoval: Ivo Vágner Email: Vagnei1@seznam.cz 1/7 Převod analogového signálu na digitální Složité operace,

Více

Fyzikální podstata zvuku

Fyzikální podstata zvuku Fyzikální podstata zvuku 1. základní kmitání vzduchem se šíří tlakové vzruchy (vzruchová vlna), zvuk je systémem zhuštěnin a zředěnin podstatou zvuku je kmitání zdroje zvuku a tím způsobené podélné vlnění

Více

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU

UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU UŽITÍ KOHERENČNÍ FUNKCE PRO DISTRIBUOVANOU ANALÝZU VÍCEKANÁLOVÝCH SIGNÁLŮ Robert Háva, Aleš Procházka Vysoká škola chemicko-technologická, Abstrakt Ústav počítačové a řídicí techniky Analýza vícekanálových

Více

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky Pulsní kódová modulace, amplitudové, frekvenční a fázové kĺıčování Josef Dobeš 24. října 2006 Strana 1 z 16 Základy radiotechniky 1. Pulsní modulace Strana 2 z 16 Pulsní šířková modulace (PWM) PAM, PPM,

Více

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST

9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST 9. PRINCIPY VÍCENÁSOBNÉHO VYUŽITÍ PŘENOSOVÝCH CEST Modulace tvoří základ bezdrátového přenosu informací na velkou vzdálenost. V minulosti se ji využívalo v telekomunikacích při vícenásobném využití přenosových

Více

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních

Více

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

Algoritmy a struktury neuropočítačů ASN P8b

Algoritmy a struktury neuropočítačů ASN P8b Algoritmy a struktury neuropočítačů ASN P8b Úvod - přirozená řeč jako zvukový signál Základní pojmy z fonetiky Charakteristiky mluvené řeči Přirozená řeč jako zvukový signál Řeč (speech) - komplex technických,

Více

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014 A7B3ZZS. PŘEDNÁŠKA Návrh filtrů. prosince 24 Návrhy jednoduchých filtrů Návrhy složitějších filtrů Porovnání FIR a IIR Nástroje pro návrh FIR filtrů v MATLABu Nástroje pro návrh IIR filtrů v MATLABu Kvantování

Více

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů A0M38SPP - Signálové procesory v praxi - přednáška 4 2 Číslicové filtry typu FIR a IIR definice operace filtrace základní rozdělení FIR, IIR základní vlastnosti, používané struktury filtrů návrhové prostředky

Více

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

doc. Dr. Ing. Elias TOMEH   Elias Tomeh / Snímek 1 doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Frekvenční spektrum Dělení frekvenčního pásma (počet čar) Průměrování Časovou váhovou funkci Elias Tomeh / Snímek 2 Vzorkovací

Více

Číslicové filtry. Honza Černocký, ÚPGM

Číslicové filtry. Honza Černocký, ÚPGM Číslicové filtry Honza Černocký, ÚPGM Aliasy Digitální filtry Diskrétní systémy Systémy s diskrétním časem atd. 2 Na co? Úprava signálů Zdůraznění Potlačení Detekce 3 Zdůraznění basy 4 Zdůraznění výšky

Více

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky Při návrhu elektroakustických soustav, ale i jiných systémů, je vhodné nejprve

Více

Analýza a zpracování digitálního obrazu

Analýza a zpracování digitálního obrazu Analýza a zpracování digitálního obrazu Úlohy strojového vidění lze přibližně rozdělit do sekvence čtyř funkčních bloků: Předzpracování veškerých obrazových dat pomocí filtrací (tj. transformací obrazové

Více

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16 Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip

Více

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy

Více

1 Zpracování a analýza tlakové vlny

1 Zpracování a analýza tlakové vlny 1 Zpracování a analýza tlakové vlny 1.1 Cíl úlohy Prostřednictvím této úlohy se naučíte a zopakujete: analýzu biologických signálů v časové oblasti, analýzu biologických signálů ve frekvenční oblasti,

Více

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra kybernetiky DIPLOMOVÁ PRÁCE PLZEŇ, 2012 JAKUB KOPŘIVA P R O H L Á Š E N Í Předkládám tímto k posouzení a obhajobě diplomovou práci zpracovanou

Více

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH Jan Klapuch, Petr Pollák České vysoké učení technické v Praze, Fakulta elektrotechnická, K13131 klapujan@fel.cvut.cz, pollak@fel.cvut.cz

Více

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha SYNTÉZA ŘEČI Petr Horák horak@ufe.cz Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha Obsah Úvod a historie Zpracování textu Modelování prozodie Metody syntézy řeči Aplikace syntézy řeči Petr Horák SYNTÉZA

Více

Neuronové časové řady (ANN-TS)

Neuronové časové řady (ANN-TS) Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci

Více

MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ

MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ MATLAB PRO PODPORU VÝUKY KOMUNIKAČNÍCH SYSTÉMŮ Aneta Coufalíková, Markéta Smejkalová Mazálková Univerzita obrany Katedra Komunikačních a informačních systémů Matlab ve výuce V rámci modernizace výuky byl

Více

Akustika. 3.1 Teorie - spektrum

Akustika. 3.1 Teorie - spektrum Akustika 3.1 Teorie - spektrum Rozklad kmitů do nejjednodušších harmonických Spektrum Spektrum Jedna harmonická vlna = 1 frekvence Dvě vlny = 2 frekvence Spektrum 3 vlny = 3 frekvence Spektrum Další vlny

Více

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,

Více

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Lineární a adaptivní zpracování dat 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně Daniel Schwarz Investice do rozvoje vzdělávání Osnova Opakování: signály a systémy Vlastnosti systémů Systémy

Více

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory Číslo projektu Číslo materiálu CZ.1.07/1.5.00/34.0581 VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory Název školy Střední odborná škola a Střední odborné učiliště, Dubno Autor Ing. Miroslav Krýdl Tematická

Více

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) Petr Zlatník České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz Abstrakt:

Více

Klasifikace hudebních stylů

Klasifikace hudebních stylů Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů

Více

filtry FIR zpracování signálů FIR & IIR Tomáš Novák

filtry FIR zpracování signálů FIR & IIR Tomáš Novák filtry FIR 1) Maximální překývnutí amplitudové frekvenční charakteristiky dolní propusti FIR řádu 100 je podle obr. 1 na frekvenci f=50hz o velikosti 0,15 tedy 1,1dB; přechodové pásmo je v rozsahu frekvencí

Více

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY TEMATICKÉ OKRUHY Signály se spojitým časem Základní signály se spojitým časem (základní spojité signály) Jednotkový skok σ (t), jednotkový impuls (Diracův impuls)

Více

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014 3ZZS 9. PŘEDNÁŠKA 24. listopadu 24 SPEKTRÁLNÍ ANALÝZA Fourierovy řady Diskrétní Fourierovy řady Fourierova transformace Diskrétní Fourierova transformace Spektrální analýza Zobrazení signálu ve frekvenční

Více

Při návrhu FIR filtru řešíme obvykle následující problémy:

Při návrhu FIR filtru řešíme obvykle následující problémy: Návrh FIR filtrů Při návrhu FIR filtru řešíme obvykle následující problémy: volba frekvenční odezvy požadovaného filtru; nejčastěji volíme ideální charakteristiku normovanou k Nyquistově frekvenci, popř.

Více

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ

VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ VYUŽITÍ MATLABU PRO PODPORU VÝUKY A PŘI ŘEŠENÍ VÝZKUMNÝCH ÚKOLŮ NA KATEDŘE KOMUNIKAČNÍCH A INFORMAČNÍCH SYSTÉMŮ Markéta Mazálková Katedra komunikačních a informačních systémů Fakulta vojenských technologií,

Více

FUNKCE PRO DETEKCI ZÁKLADNÍ FREKVENCE

FUNKCE PRO DETEKCI ZÁKLADNÍ FREKVENCE REAL-TIME MOŽNOSTI ZKRÁCENÉ AUTOKORELAČNÍ FUNKCE PRO DETEKCI ZÁKLADNÍ FREKVENCE Jan Bartošek Katedra teorie obvodů, ČVUT, Technická 2, 166 27 Praha Abstract Článek se zabývá možnostmi energeticky normalizované

Více

Signál v čase a jeho spektrum

Signál v čase a jeho spektrum Signál v čase a jeho spektrum Signály v časovém průběhu (tak jak je vidíme na osciloskopu) můžeme dělit na periodické a neperiodické. V obou případech je lze popsat spektrálně určit jaké kmitočty v sobě

Více

0.0001 0.001 0.01 0.1 1 10 100 1000 10000. Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí

0.0001 0.001 0.01 0.1 1 10 100 1000 10000. Čas (s) Model časového průběhu sorpce vyplývá z 2. Fickova zákona a je popsán následující rovnicí Program Sorpce1.m psaný v prostředí Matlabu slouží k vyhlazování naměřených sorpčních křivek a výpočtu difuzních koeficientů. Kromě standardního Matlabu vyžaduje ještě Matlab Signal Processing Toolbox

Více

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie Doc. Ing. Petr Pollák, CSc. Míst. 461, email: pollak@fel.cvut.cz http://noel.feld.cvut.cz/vyu/a2m31rat

Více

Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti

Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti Lineární a adaptivní zpracování dat 3. SYSTÉMY a jejich popis ve frekvenční oblasti Daniel Schwarz Osnova Opakování: systémy a jejich popis v časové oblasti Fourierovy řady Frekvenční charakteristika systémů

Více

Laboratorní úloha č. 8: Elektroencefalogram

Laboratorní úloha č. 8: Elektroencefalogram Laboratorní úloha č. 8: Elektroencefalogram Cíle úlohy: Rozložení elektrod při snímání EEG signálu Filtrace EEG v časové oblasti o Potlačení nf a vf rušení o Alfa aktivita o Artefakty Spektrální a korelační

Více

Direct Digital Synthesis (DDS)

Direct Digital Synthesis (DDS) ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Direct Digital Synthesis (DDS) Přímá číslicová syntéza Tyto materiály vznikly za podpory

Více

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická

Číslicová filtrace. FIR filtry IIR filtry. ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Ing. Radek Sedláček, Ph.D., katedra měření K13138 Číslicová filtrace FIR filtry IIR filtry Tyto materiály vznikly za podpory Fondu rozvoje

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722

Základy a aplikace digitálních. Katedra radioelektroniky (13137), blok B2, místnost 722 Základy a aplikace digitálních modulací Josef Dobeš Katedra radioelektroniky (13137), blok B2, místnost 722 dobes@fel.cvut.cz 6. října 2014 České vysoké učení technické v Praze, Fakulta elektrotechnická

Více

7. listopadu 2018 Hlas a řeč. Hudební nástroje. Formantové syntézy. Číslicové pásmové propusti. Aplikace

7. listopadu 2018 Hlas a řeč. Hudební nástroje. Formantové syntézy. Číslicové pásmové propusti. Aplikace B2M3SYN 6. PŘEDNÁŠKA 7. listopadu 28 Hlas a řeč fonace, prosodie, artikulace hlasivkový tón, formanty Hudební nástroje rozdělení podle vzniku tónu rozsahy, spektra, formanty Formantové syntézy Klattův

Více

Příloha č. 1. amplitudová charakteristika filtru fázová charakteristika filtru / frekvence / Hz. 1. Určení proudové hustoty

Příloha č. 1. amplitudová charakteristika filtru fázová charakteristika filtru / frekvence / Hz. 1. Určení proudové hustoty Příloha č. 1 Při hodnocení expozice nízkofrekvenčnímu elektromagnetickému poli (0 Hz 10 MHz) je určující veličinou modifikovaná proudová hustota J mod indukovaná v tělesné tkáni. Jak je uvedeno v nařízení

Více

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který BIOLOGICKÉ A LÉKAŘSKÉ SIGNÁLY VI. VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU VARIABILITA SRDEČNÍHO RYTMU, tj. fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot okamžité

Více

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ

ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ 1. týden doc. Ing. Renata WAGNEROVÁ, Ph.D. Ostrava 2013 doc. Ing. Renata WAGNEROVÁ, Ph.D. Vysoká škola báňská

Více

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka Příklady použití tenkých vrstev Jaromír Křepelka Příklad 01 Spočtěte odrazivost prostého rozhraní dvou izotropních homogenních materiálů s indexy lomu n 0 = 1 a n 1 = 1,52 v závislosti na úhlu dopadu pro

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cziba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické

Více

SYNTÉZA AUDIO SIGNÁLŮ

SYNTÉZA AUDIO SIGNÁLŮ SYNTÉZA AUDIO SIGNÁLŮ R. Čmejla Fakulta elektrotechnická, ČVUT v Praze Abstrakt Příspěvek pojednává o technikách číslicové audio syntézy vyučovaných v předmětu Syntéza multimediálních signálů na Elektrotechnické

Více

SIMULACE JEDNOFÁZOVÉHO MATICOVÉHO MĚNIČE

SIMULACE JEDNOFÁZOVÉHO MATICOVÉHO MĚNIČE SIMULE JEDNOFÁZOVÉHO MATICOVÉHO MĚNIČE M. Kabašta Žilinská univerzita, Katedra Mechatroniky a Elektroniky Abstract In this paper is presented the simulation of single-phase matrix converter. Matrix converter

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV TELEKOMUNIKACÍ FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF TELECOMMUNICATIONS

Více

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

doc. Dr. Ing. Elias TOMEH   Elias Tomeh / Snímek 1 doc. Dr. Ing. Elias TOMEH e-mail: elias.tomeh@tul.cz Elias Tomeh / Snímek 1 Elias Tomeh / Snímek 2 Elias Tomeh / Snímek 3 Elias Tomeh / Snímek 4 ZÁKLADNÍ VIBRODIAGNOSTICKÉ MĚŘICÍ METODY Měření celkových

Více

Jasové transformace. Karel Horák. Rozvrh přednášky:

Jasové transformace. Karel Horák. Rozvrh přednášky: 1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace

Více

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSOVÝCH SIGNÁLŮ Jiří TŮA, VŠB Technická univerzita Ostrava Petr Czyž, Halla Visteon Autopal Services, sro Nový Jičín 2 Anotace: Referát se zabývá

Více

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24 Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24 Martin Vondrášek České vysoké učení v Praze, Fakulta elektrotechnická vondram3@fel.cvut.cz Abstrakt: Kochleární implantát

Více

Virtuální elektrody v kochleárních implantátech Nucleus 24

Virtuální elektrody v kochleárních implantátech Nucleus 24 Virtuální elektrody v kochleárních implantátech Nucleus 24 Martin Vondrášek České vysoké učení v Praze, Fakulta elektrotechnická vondram3@fel.cvut.cz Abstrakt: Kochleární implantát je elektronické zařízení,

Více

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A LINEÁRNÍ SYSTÉMY SIGNÁLY A LINEÁRNÍ SYSTÉMY prof. Ing. Jiří Holčík, CSc. holcik@iba.muni.cz II. SIGNÁLY ZÁKLADNÍ POJMY SIGNÁL - DEFINICE SIGNÁL - DEFINICE Signál je jev fyzikální, chemické, biologické, ekonomické či jiné

Více

Při návrhu FIR filtru řešíme obvykle následující problémy:

Při návrhu FIR filtru řešíme obvykle následující problémy: Návrh FIR filtrů Při návrhu FIR filtru řešíme obvykle následující problémy: volba frekvenční odezvy požadovaného filtru; nejčastěji volíme ideální charakteristiku normovanou k Nyquistově frekvenci, popř.

Více

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci JAK VZNIKÁ LIDSKÝ HLAS? JAN ŠVEC Katedra biofyziky, ik Př.F., Univerzita Palackého v Olomouci HLAS: Všichni jej každodenně používáme, ale víme o něm v podstatě jen málo Studium lidského hlasu Je založeno

Více

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM Spektrální analýza a diskrétní Fourierova transformace Honza Černocký, ÚPGM Povídání o cosinusovce 2 Argument cosinusovky 0 2p a pak každé 2p perioda 3 Cosinusovka s diskrétním časem Úkol č. 1: vyrobit

Více

Flexibilita jednoduché naprogramování a přeprogramování řídícího systému

Flexibilita jednoduché naprogramování a přeprogramování řídícího systému Téma 40 Jiří Cigler Zadání Číslicové řízení. Digitalizace a tvarování. Diskrétní systémy a jejich vlastnosti. Řízení diskrétních systémů. Diskrétní popis spojité soustavy. Návrh emulací. Nelineární řízení.

Více

P7: Základy zpracování signálu

P7: Základy zpracování signálu P7: Základy zpracování signálu Úvodem - Signál (lat. signum) bychom mohli definovat jako záměrný fyzikální jev, nesoucí informaci o nějaké události. - Signálem je rovněž funkce, která převádí nezávislou

Více

Primární zpracování radarového signálu dopplerovská filtrace

Primární zpracování radarového signálu dopplerovská filtrace ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE K13137 - Katedra radioelektroniky A2M37RSY Jméno Stud. rok Stud. skupina Ročník Lab. skupina Václav Dajčar 2011/2012 2. 101 - Datum zadání Datum odevzdání Klasifikace

Více

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY Lineární a adaptivní zpracování dat 1. ÚVOD: SIGNÁLY a SYSTÉMY Daniel Schwarz Investice do rozvoje vzdělávání Osnova Úvodní informace o předmětu Signály, časové řady klasifikace, příklady, vlastnosti Vzorkovací

Více

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH Viktor Haškovec, Martina Mudrová Vysoká škola chemicko-technologická v Praze, Ústav počítačové a řídicí techniky Abstrakt Příspěvek je věnován zpracování biomedicínských

Více

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza B2M31SYN 9. PŘEDNÁŠKA 7. prosince 2016 Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza Granulační syntéza Jako alternativu k popisu pomocí sinusovek při úvahách o zvuku navrhl

Více

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni KTE/TEVS - Rychlá Fourierova transformace Pavel Karban Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni 10.11.011 Outline 1 Motivace FT Fourierova transformace

Více

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291

vzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291 Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených

Více

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY FACULTY OF ELECTRICAL ENGINEERING AND COMMUNICATION DEPARTMENT OF

Více

2. GENERÁTORY MĚŘICÍCH SIGNÁLŮ II

2. GENERÁTORY MĚŘICÍCH SIGNÁLŮ II . GENERÁTORY MĚŘICÍCH SIGNÁLŮ II Generátory s nízkým zkreslením VF generátory harmonického signálu Pulsní generátory X38SMP P 1 Generátory s nízkým zkreslením Parametry, které se udávají zkreslení: a)

Více

Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů

Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů Část 1 - Syntéza orchestrálních nástrojů pro symfonickou báseň B.Smetany "Vltava" Cílem této části práce je syntetizovat symfonickou báseň B.Smetany

Více

Číslicové zpracování signálů a Fourierova analýza.

Číslicové zpracování signálů a Fourierova analýza. Číslicové zpracování signálů a Fourierova analýza www.kme.zcu.cz/kmet/exm 1 Obsah prezentace 1. Úvod a motivace 2. Data v časové a frekvenční oblasti 3. Fourierova analýza teoreticky 4. Fourierova analýza

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství Interaktivní systém pro detekci řečového signálu Interactive System with Speech

Více

ZÁKLADY DATOVÝCH KOMUNIKACÍ

ZÁKLADY DATOVÝCH KOMUNIKACÍ ZÁKLADY DATOVÝCH KOMUNIKACÍ Komunikační kanál (přenosová cesta) vždy negativně ovlivňuje přenášený signál (elektrický, světelný, rádiový). Nejčastěji způsobuje: útlum zeslabení, tedy zmenšení amplitudy

Více

Hlavní parametry rádiových přijímačů

Hlavní parametry rádiových přijímačů Hlavní parametry rádiových přijímačů Zpracoval: Ing. Jiří Sehnal Pro posouzení základních vlastností rádiových přijímačů jsou zavedena normalizovaná kritéria parametry, podle kterých se rádiové přijímače

Více

Laboratorní úloha č. 8: Polykardiografie

Laboratorní úloha č. 8: Polykardiografie pletys. dech FKG EKG-II. [mv] Laboratorní úloha č. 8: Polykardiografie Úvod: Polykardiografie je současný záznam několika metod sledujících různé projevy srdečního cyklu. Základem jsou elektrokardiografie,

Více

Návrh frekvenčního filtru

Návrh frekvenčního filtru Návrh frekvenčního filtru Vypracoval: Martin Dlouhý, Petr Salajka 25. 9 2010 1 1 Zadání 1. Navrhněte co nejjednodušší přenosovou funkci frekvenčního pásmového filtru Dolní propusti typu Bessel, která bude

Více

Digitalizace převod AS DS (analogový diskrétní signál )

Digitalizace převod AS DS (analogový diskrétní signál ) Digitalizace signálu v čase Digitalizace převod AS DS (analogový diskrétní signál ) v amplitudě Obvykle převod spojité předlohy (reality) f 1 (t/x,...), f 2 ()... připomenutí Digitalizace: 1. vzorkování

Více

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky

Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky A0M38SPP - Signálové procesory v praxi - přednáška 7 2 Motivace příklad použití lokace radarového echa Význam korelace Popis náhodných signálů číselné charakteristiky (momenty) Matematická definice korelační

Více

elektrické filtry Jiří Petržela filtry založené na jiných fyzikálních principech

elektrické filtry Jiří Petržela filtry založené na jiných fyzikálních principech Jiří Petržela filtry založené na jiných fyzikálních principech piezoelektrický jev při mechanickém namáhání krystalu ve správném směru na něm vzniká elektrické napětí po přiložení elektrického napětí se

Více

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx

transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx Lekce 2 Transceiver I transmitter Tx - vysílač receiver Rx přijímač (superheterodyn) duplexer umožní použití jedné antény pro Tx i Rx u mobilního telefonu pouze anténní přepínač řídící část dnes nejčastěji

Více

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci LIDSKÝ HLAS JAN ŠVEC Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci HLAS: Všichni jej každodenně používáme, ale víme o něm v podstatě jen málo Studium lidského

Více

Obr. 1 Činnost omezovače amplitudy

Obr. 1 Činnost omezovače amplitudy . Omezovače Čas ke studiu: 5 minut Cíl Po prostudování tohoto odstavce budete umět definovat pojmy: jednostranný, oboustranný, symetrický, nesymetrický omezovač popsat činnost omezovače amplitudy a strmosti

Více

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely). Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý

Více

PSK1-9. Číslicové zpracování signálů. Číslicový signál

PSK1-9. Číslicové zpracování signálů. Číslicový signál Název školy: Autor: Anotace: PSK1-9 Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka Princip funkce číslicové filtrace signálu Vzdělávací oblast: Informační a komunikační

Více

ZÁKLADY DATOVÝCH KOMUNIKACÍ

ZÁKLADY DATOVÝCH KOMUNIKACÍ ZÁKLADY DATOVÝCH KOMUNIKACÍ Komunikační kanál (přenosová cesta) vždy negativně ovlivňuje přenášený signál (elektrický, světelný, rádiový). Nejčastěji způsobuje: útlum zeslabení, tedy zmenšení amplitudy

Více

13 Měření na sériovém rezonančním obvodu

13 Měření na sériovém rezonančním obvodu 13 13.1 Zadání 1) Změřte hodnotu indukčnosti cívky a kapacity kondenzátoru RC můstkem, z naměřených hodnot vypočítej rezonanční kmitočet. 2) Generátorem nastavujte frekvenci v rozsahu od 0,1 * f REZ do

Více

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Automatická detekce anomálií při geofyzikálním průzkumu Lenka Kosková Třísková NTI TUL Doktorandský seminář, 8. 6. 2011 Cíle doktorandské práce Seminář 10. 11. 2010 Najít, implementovat, ověřit a do praxe

Více