FORANA. 1. Úvod. 2 Vznik akustického signálu řeči v mluvidlech. Pavel GRILL 1, Jana TUČKOVÁ 2

Podobné dokumenty
A6M31BSG 2. PŘEDNÁŠKA 1. března 2018

Digitální přenosové systémy a účastnické přípojky ADSL

SYNTÉZA AUDIO SIGNÁLŮ

Klasifikace Landau-Kleffnerova syndromu

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Spojité regulátory - 1 -

Matematika I A ukázkový test 1 pro 2018/2019

Regresní a korelační analýza

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

MOŽNOSTI PREDIKCE DYNAMICKÉHO CHOVÁNÍ LOPAT OBĚŽNÝCH KOL KAPLANOVÝCH A DÉRIAZOVÝCH TURBÍN.

Číslicové zpracování a analýza signálů (BCZA) Spektrální analýza signálů

REGRESNÍ ANALÝZA. 13. cvičení

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Lokace odbavovacího centra nákladní pokladny pro víkendový provoz

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

4 Parametry jízdy kolejových vozidel

9. Měření kinetiky dohasínání fluorescence ve frekvenční doméně

MODELOVÁNÍ A SIMULACE

HUDEBNÍ EFEKT DISTORTION VYUŽÍVAJÍCÍ ZPRACOVÁNÍ PŘÍRŮSTKŮ SIGNÁLŮ ČASOVĚ

DYNAMICKÉ MODULY PRUŽNOSTI NÁVOD DO CVIČENÍ

Mechatronické systémy s elektronicky komutovanými motory

KOMPLEXNÍ ČÍSLA. Algebraický tvar komplexního čísla

ANALÝZA VLIVU DEMOGRAFICKÝCH FAKTORŮ NA SPOKOJENOST ZÁKAZNÍKŮ VE VYBRANÉ LÉKÁRNĚ S VYUŽITÍM LOGISTICKÉ REGRESE

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

Analýza závislosti veličin sledovaných v rámci TBD

Teoretické modely diskrétních náhodných veličin

í I Průchod a rozptyl záření gama ve vrstvách materiálu Prof. Ing. J. Šeda, DrSc. KDAIZ - PJPI

SCIENTIFIC PAPERS OF THE UNIVERSITY OF PARDUBICE APLIKACE NEURONOVÝCH SÍTÍ PRO DETEKCI PORUCH SIGNÁLŮ

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

MOŽNOSTI MODELOVÁNÍ A ŘEŠENÍ STŘETU PŘI OBJASŇOVÁNÍ FINGOVANÝCH DOPRAVNÍCH NEHOD

11 Tachogram jízdy kolejových vozidel

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

Teoretické modely diskrétních náhodných veličin

Interference na tenké vrstvě

MĚŘENÍ ELEKTRICKÝCH PARAMETRŮ V OBVODECH S PWM ŘÍZENÝMI ZDROJI NAPĚTÍ Electric Parameter Measurement in PWM Powered Circuits

Čísla a aritmetika. Řádová čárka = místo, které odděluje celou část čísla od zlomkové.

ADA Semestrální práce. Harmonické modelování signálů

ANALÝZA PRODUKCE OLEJNIN ANALYSIS OF OIL SEED PRODUCTION. Lenka Šobrová

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

Univerzita Pardubice Fakulta ekonomicko-správní. Modelování predikce časových řad návštěvnosti web domény pomocí SVM Bc.

Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek

MEZNÍ STAVY A SPOLEHLIVOST OCELOVÝCH KONSTRUKCÍ LIMIT STATES AND RELIABILITY OF STEEL STRUCTURES

Kinetika spalovacích reakcí

Univerzita Tomáše Bati ve Zlíně

Využití logistické regrese pro hodnocení omaku

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

ANALÝZA RIZIKA A JEHO CITLIVOSTI V INVESTIČNÍM PROCESU

Staré mapy TEMAP - elearning

ANALÝZA RIZIKA A CITLIVOSTI JAKO SOUČÁST STUDIE PROVEDITELNOSTI 1. ČÁST

Obsah. Příloha (celkový počet stran přílohy 13) Závěrečná zpráva o výsledcích experimentu shodnosti ZČB 2013/2

PODKLADY PRO PRAKTICKÝ SEMINÁŘ PRO UČITELE VOŠ. Logaritmické veličiny používané pro popis přenosových řetězců. Ing. Bc. Ivan Pravda, Ph.D.

Optimalizační přístup při plánování rekonstrukcí vodovodních řadů

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Transformace dat a počítačově intenzivní metody

1 Elektrotechnika 1. 9:00 hod. G 0, 25

Bezdrátové ovládání pro Vaši domácnost. Katalog produktů

Přemysl Žiška, Pravoslav Martinek. Katedra teorie obvodů, ČVUT Praha, Česká republika. Abstrakt

Zvuk. 1. základní kmitání. 2. šíření zvuku

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Statistická šetření a zpracování dat.

NUMERICAL INTEGRATION AND DIFFERENTIATION OF SAMPLED TIME SIGNALS BY USING FFT

ALGORITMUS SILOVÉ METODY

Statistická energetická analýza (SEA)

URČOVÁNÍ TRENDŮ A JEJICH VÝZNAM PRO EKONOMIKU

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Přednášky část 4 Analýza provozních zatížení a hypotézy kumulace poškození, příklady. Milan Růžička

Model IS-LM Zachycuje současnou rovnováhu na trhu zboží a služeb a trhu peněz.

Přednáška č. 11 Analýza rozptylu při dvojném třídění

STATISTIKA (pro navazující magisterské studium)

popsat činnost základních zapojení převodníků U-f a f-u samostatně změřit zadanou úlohu

ZÁPADOČESKÁ UNIVERZITA V PLZNI

STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY

Teorie elektrických ochran

USE OF FUGACITY FOR HEADSPACE METHODS VYUŽITÍ FUGACITNÍ TEORIE PRO METODY HEADSPACE

ARITMETICKOLOGICKÁ JEDNOTKA

MODEL LÉČBY CHRONICKÉHO SELHÁNÍ LEDVIN. The End Stage Renal Disease Treatment Model

POROVNÁNÍ MEZI SKUPINAMI

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Měření příkonu míchadla při míchání suspenzí

Úvod do praxe stínového řečníka. Proces vytváření řeči

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE. 1 Komplexní úloha FAKULTA STAVEBNÍ - OBOR STAVEBNÍ INŽENÝRSTVÍ KATEDRA SPECIÁLNÍ GEODÉZIE

České vysoké učení technické v Praze Fakulta biomedicínského inženýrství

Určování parametrů elektrického obvodu v MS Excelu

ANALÝZA ÚČETNÍCH VÝKAZŮ FIRMY POMOCÍ ČASOVÝCH ŘAD

6 LINEÁRNÍ REGRESNÍ MODELY

Základy finanční matematiky

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Teorie efektivních trhů (E.Fama (1965))

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

Vysoká škola báňská - Technická univerzita Ostrava Fakulta elektrotechniky a informatiky LOGICKÉ OBVODY pro kombinované a distanční studium

n lokální působení různých vnějších faktorů ovlivňujících růst a zánik živých organismů n lokální variace vnitřních proměnných biologických systémů.

2. ELEKTRICKÉ OBVODY STEJNOSMĚRNÉHO PROUDU

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

SIMULACE A ŘÍZENÍ PNEUMATICKÉHO SERVOPOHONU POMOCÍ PROGRAMU MATLAB SIMULINK. Petr NOSKIEVIČ Petr JÁNIŠ

Metody zvýšení rozlišovací obrazů

Hodnocení využití parku vozidel

TRANSPORT VLHKOSTI VE VZORCÍCH IZOLAČNÍCH MATERIÁLŮ

Transkript:

FORANA Pavel GRILL 1, Jana TUČKOVÁ 2 České vysoké učení techncké v Praze, Fakulta elektrotechncká, Katedra teore obvodů Abstrakt Jedním z příznaků vývojové dysfáze je částečná porucha tvorby a porozumění řeč nebo její úplná ztráta. Aby bylo možné provádět výzkum řeč nemocných dětí, je nejprve nutné provádět správnou parametrzac řečového sgnálu u zdravých dětí. Tato práce se věnuje programu FORANA, který byl vytvořen z důvodu správné extrakce formantových kmtočtů z řečového sgnálu. 1. Úvod Vývojová dysfáze je onemocnění, které se projevuje ztíženou schopností nebo neschopností naučt se verbálně komunkovat, když podmínky pro rozvoj řeč jsou přměřené. Toto onemocnění je způsobené poruchou centrálního zpracování řečového sgnálu. Je zde předpoklad, že k příčně tohoto stavu dochází díky dfuznímu postžení centrálního nervového systému, který zasahuje v podstatě celou centrální korovou oblast. Příčny vznku mohou být jednak v poškození mozku v období prenatálním, pernatálním a postnatálním, ale dále se uvažuje, že na onemocnění má vlv dědčnost. Poruchy v řeč a opoždění vývoj řeč se spíše objevují u chlapců než u dívek, a to as v poměru 4:1. Z EEG vyšetření byly též u některých pacentů zjštěny epleptcké výboje, kde se nalézají řečová a sluchová centra. Nejvýraznější znak vývojové dysfáze je nápadně opožděný vývoj řeč. Další příznak je nerovnoměrný vývoj osobnost. Vývojovou dysfáz lze nejen detekovat a analyzovat ze sgnálu mozkové aktvty, tj. z EEG vyšetření, ale z analýz pacentových promluv. Předpokládá se, že je u této poruchy ovlvněna tvorba řeč, dochází k posunu formantových kmtočtů, které lze z řečového sgnálu extrahovat. Cílem celého projektu, který je společný pro katedru teore obvodů FEL ČVUT v Praze a Dětské neurologcké klnky 2. Lékařské fakulty UK v Praze - Motole, je nalezení vztahů mez klnckým a elektrofyzologckým projevy u dětí, které trpí touto poruchou. Dílčím úkolem tohoto projektu je volba optmální parametrzace s využtím umělých neuronových sítí (UNS). S tímto úkolem souvsí vznk programu FORANA (Formant Analyss). 2 Vznk akustckého sgnálu řeč v mluvdlech Všechny zvukové složky řeč [PAL94] jsou složené zvuky mající tónovou a šumovou povahu. Zdrojem zvuku tónového charakteru je hlasové ústrojí. Základním prvkem řeč je základní tón, který se označuje F0. Charakterzuje jej kmtání hlasvek a ldského zabarvení nabývá po průchodu dutnam nad hrtanem, kde dochází k rezonancím, které jej zeslují a přdávají svrchní harmoncké tóny - formanty. Takto obohacený zvuk vnímáme jako ldský hlas.

2.1 Formanty Formant [PAL94], [GRI08] je obecně charakterzován jako koncentrace akustcké energe v okolí určté frekvence. V řečovém pásmu se jch nalézá více. Jednotlvé formany se vyskytují na různých frekvencích odpovídajících zhruba ntervalům 1000 Hz pro dospělého mluvčího. Velce zřetelně s je můžeme prohlédnout na spektrogramu, kde jsou zobrazeny tmavým pásy. Čím jsou tyto pásy tmavší, tím více akustcké energe charakterzují. Na spektrogramu (Obr. 1) je namapováno pět formantových pásem, které jsou zobrazeny červeným body. Obr. 1 Zobrazení prvních pět formantových pásem červeným body ve spektrogramu. Změny základního tónu a formantů ovlvňují vnímání hlasu. Změny v základním tónu nterpretujeme jako změny v melod řeč. Změnám prvního formantu (F1) odpovídají změny ve vertkálním pohybu jazyka, změnám druhého formantu (F2) odpovídají změny v horzontálním pohybu jazyka a třetí formant (F3) je ovlvňován změnam v dutně nosní. Pro samohlásky jsou tedy nejvýznamnější první dva až tř formanty, a to v pořadí F2, F1, F3. Vyšší formanty jsou pro všechny samohlásky praktcky stejné, obsahují značnou část nformace o barvě hlasu mluvčího. Pokud s dáme první dva formanty (F1 a F2) do vzájemného vztahu, dostaneme tzv. vokalcký trojúhelník. Ten nám jednotlvé samohlásky dělí do tří tříd v závslost na poloze těchto formantů. První třídu tvoří samohláska a, druhou třídu tvoří samohlásky e a a třetí třída je tvořena samohláskam o a u.

Vokalcký trojúhelník Horzontální poloha jazyka Přední střední Zadní Vertkální poloha jazyka vysoké,í u,ú středové e,é o,ó nízké a,á Tab. 1 Vokalcký trojúhelník [PAL94]. 2.2 Výpočet formantových frekvencí Většna postupů [GRI08], [PSU06], [TUC09], [UHL07] pro dentfkac formantových kmtočtů pracuje ve frekvenční oblast a vychází z analýzy spektrální obálky stanovené metodou LPC. Exstují v podstatě dva postupy jak určt ze spektra LPC hodnoty formantových frekvencí. První z nch zjšťuje kořeny polynomu A(z) (tedy póly přenosové funkce H(z)) a druhý, který hledá na spektrální obálce lokální maxma odvozená z lneárního predktoru. Výpočet pólů přenosové funkce zjstíme z kořenů polynomu A(z), které se zjstí vyřešením rovnce (1) Q Q 1 Q 2 z + a1 z + a2z +... + aq 1z + aq = 0 (1) Tato rovnce je Q-tého řádu s reálným koefcenty. V jejím řešení převažují páry komplexně sdružených kořenů. Uvažme jednu dvojc komplexně sdružených kořenů z jϕ z = z e a jϕ = z e rozloženou v z-rovně podle Obr. 2a (φ je argument z [rad]). Odpovídající formantovou frekvenc F a šířku pásma formantu B pro pokles charakterstky o 3dB lze vyjádřt pomocí vztahů (2 a 3): F f s.arg z = [ Hz] (2) 2π B f s.arg z = [ Hz] (3) 2π kde T je peroda vzorkování původního akustckého sgnálu. Souvslost velčn F a B lze znázornt ve frekvenční oblast obrázkem Obr. 2b.

Obr. 2 Ilustrace rozložení: a) dvojce komplexně sdružených kořenů polynomu A(z), b) odpovídající frekvenční charakterstka [PSU95]. 3. FORANA Pro náš výzkum v oblast zpracování řečového sgnálu dětí s neurologckou poruchou se snažíme preferovat pops řečového sgnálu pomocí formantové analýzy. Softwarový program FORANA [GRI08] byl vytvořen v programovém prostředí MATLAB. K vývoj programu nás vedl především požadavek korektní formantové analýzy. Původně se extrakce formantových kmtočtů z řečového sgnálu zajšťovala pomocí programu PRAAT [1]. Tento program byl vytvořen Paulem Boersmanem a Davdem Weennkem z katedry fonetky na amsterdamské unverztě a je uznáván a používán fonetky na celém světě. Př analýze řečového sgnálu se objevují chyby v klasfkac formantů. Nelze proto považovat výsledky získané programem PRAAT za bezchybné. Bylo přstoupeno k vývoj programu, který by formanty klasfkoval s mnmálním chybam. Dalším požadavkem, který ovlvňoval vznk FORANY, byla nutnost zautomatzovat celý procesu extrakce formantů z řečového sgnálu. Bez toho nelze provádět efektvně výzkum dětské řeč, jelkož množství dat, které je zapotřebí zpracovat, je velké. Na následujícím obrázku (Obr. 3) je vdět grafcká ukázka programu FORANA. O správnost klasfkace formantových kmtočtů se stará mplementovaný přerovnávací algortmus SAL a umělá neuronová síť, a to samoorganzující se mapa (SOM). Nejprve jsou vypočtené formanty zkontrolovány a případné chyby v jejch určení opraveny, aby došlo k jejch správné klasfkac. Na následujících grafech jsou ukázány vypočtené formanty pomocí tohoto programu. V prvním grafu (Obr. 4) vdíme formanty, na které nejsou použty korekční metody opravující jejch chybnou klasfkac. V druhém grafu (Obr. 5) jsou zobrazeny formanty získané po použtí korekčních metod.

Obr. 3 Programové prostředí FORANA. Obr. 4 Nepřerovnané formanty.

Obr. 5 Přerovnané formanty pomocí SAL a následně UNS SSOM. Pro ověření správnost našch postupů zavedeme statstcké jednotky [ZVA04]. Těm jsou průměr a směrodatná odchylka. Průměr (4), nebol střední hodnotu, vypočítáme, jestlže součet všech hodnot dělíme jejch počtem: x = 1 n n = 1 x (4) Pokud jsou pozorování soustředěna kolem svého průměru, je jejch varablta malá. Jsou-l data naopak roztroušena ve značné vzdálenost od průměru, pak je jejch varablta velká. Toho s můžeme všmnout u formantových kmtočtů. Proto je zapotřebí zavést pojem směrodatná odchylka, která se vypočte z následujícího vztahu (5). s = 1 n 1 k = 1 n ( x x ) 2 (5) V Tab. 2 je statstcky zpracovaná směrodatná odchylka. V procentech je vyjádřena úspěšnost klasfkace přerovnání. Čím je hodnota vyjádřená v procentech menší, tím je věc,

vysvětleny zkratky k metodám, které jsou použty v předchozí tabulce. V Tab. 3 jsou popsky k Tab. 2. Směrodatná odchylka Pojmy N SAL SOM N nepřerovnané formanty 5 = 1 F 2283 1497 % 100 66 SAL SSOM Formanty přerovnané korekčním metodam Tab. 2 Směrodatná odchylka. Tab. 3 Pops zkratek použtých v Tab.1. 4. Závěr Z prezentovaných výsledků vyplývá, že použtí korekčních metod, které přerovnávají formanty má své opodstatnění, jelkož nám zaručuje jejch správnou klasfkac. Předností ve využtí kombnací klascké metody a umělé neuronové sítě spočívá v tom, že se odstraní nedostatky obou zmíněných metod a dojde se k relevantním a správným výsledkům analýzy řečového sgnálu. Poděkování Tato práce je podporována z výzkumného záměru č.msm6840770012 Transdscplnární výzkum v bomedcínském nženýrství 2 (expermentální část) a grantů GAČR č. 102/09/0989 Nové perspektvní metody vysoce kvaltní syntézy mluvené češtny (teoretcká část), Analýza a modelování bologckých a řečových sgnálů, GAČR č. 102/08/H008, a "Rozpoznávání mluvené řeč v reálných podmínkách" ("Speech Recognton under Real World Condtons"), GACR 102/08/0707. Reference [GRI08] GRILL, P.: Analýza promluv dětí v závslost na věku. Dplomová práce ČVUT, 2008 [PAL94] PALKOVÁ, Z.: Fonetka a fonologe češtny. Unverzta Karlova, Praha 1994, ISBN 80-7066-843-1. [PSU06] Psutka, J.-Muller, L.-Matousek, J.-Radová, V.: Mluvíme s počítačem česky, Academa Praha, 2006, ISBN 80-200-0203-0. [TUC09] TUCKOVÁ, J.: Vybrané aplkace umelých neuronových sítí pr zpracování sgnálu. Nakladatelství CVUT Praha, leden 2009. ISBN 978-80-01-04229-8. [UHL07] UHLÍŘ, J., SOVKA, P., POLLÁK P., HANŽL V., ČMEJLA R.: Technologe hlasových komunkací. Vydavatelství ČVUT, 2007, 276 s., ISBN 978-80-01-03888-8.

[ZVA04] ZVÁROVÁ J.: Základy statstky pro bomedcínské obory. Karolnum Praha 2004, třetí dotsk 1. vydání, ISBN 80-7184-786-0. [1] PRAAT http://www.fon.hum.uva.nl/praat/ Kontaktní nformace: 1.autor: Ing.Pavel Grll, grllpavel@seznam.cz, tel:+420 737955555 2.autor: Doc.Ing.Jana Tučková tuckova@fel.cvut.cz, tel: +420 721502556