FORANA Pavel GRILL 1, Jana TUČKOVÁ 2 České vysoké učení techncké v Praze, Fakulta elektrotechncká, Katedra teore obvodů Abstrakt Jedním z příznaků vývojové dysfáze je částečná porucha tvorby a porozumění řeč nebo její úplná ztráta. Aby bylo možné provádět výzkum řeč nemocných dětí, je nejprve nutné provádět správnou parametrzac řečového sgnálu u zdravých dětí. Tato práce se věnuje programu FORANA, který byl vytvořen z důvodu správné extrakce formantových kmtočtů z řečového sgnálu. 1. Úvod Vývojová dysfáze je onemocnění, které se projevuje ztíženou schopností nebo neschopností naučt se verbálně komunkovat, když podmínky pro rozvoj řeč jsou přměřené. Toto onemocnění je způsobené poruchou centrálního zpracování řečového sgnálu. Je zde předpoklad, že k příčně tohoto stavu dochází díky dfuznímu postžení centrálního nervového systému, který zasahuje v podstatě celou centrální korovou oblast. Příčny vznku mohou být jednak v poškození mozku v období prenatálním, pernatálním a postnatálním, ale dále se uvažuje, že na onemocnění má vlv dědčnost. Poruchy v řeč a opoždění vývoj řeč se spíše objevují u chlapců než u dívek, a to as v poměru 4:1. Z EEG vyšetření byly též u některých pacentů zjštěny epleptcké výboje, kde se nalézají řečová a sluchová centra. Nejvýraznější znak vývojové dysfáze je nápadně opožděný vývoj řeč. Další příznak je nerovnoměrný vývoj osobnost. Vývojovou dysfáz lze nejen detekovat a analyzovat ze sgnálu mozkové aktvty, tj. z EEG vyšetření, ale z analýz pacentových promluv. Předpokládá se, že je u této poruchy ovlvněna tvorba řeč, dochází k posunu formantových kmtočtů, které lze z řečového sgnálu extrahovat. Cílem celého projektu, který je společný pro katedru teore obvodů FEL ČVUT v Praze a Dětské neurologcké klnky 2. Lékařské fakulty UK v Praze - Motole, je nalezení vztahů mez klnckým a elektrofyzologckým projevy u dětí, které trpí touto poruchou. Dílčím úkolem tohoto projektu je volba optmální parametrzace s využtím umělých neuronových sítí (UNS). S tímto úkolem souvsí vznk programu FORANA (Formant Analyss). 2 Vznk akustckého sgnálu řeč v mluvdlech Všechny zvukové složky řeč [PAL94] jsou složené zvuky mající tónovou a šumovou povahu. Zdrojem zvuku tónového charakteru je hlasové ústrojí. Základním prvkem řeč je základní tón, který se označuje F0. Charakterzuje jej kmtání hlasvek a ldského zabarvení nabývá po průchodu dutnam nad hrtanem, kde dochází k rezonancím, které jej zeslují a přdávají svrchní harmoncké tóny - formanty. Takto obohacený zvuk vnímáme jako ldský hlas.
2.1 Formanty Formant [PAL94], [GRI08] je obecně charakterzován jako koncentrace akustcké energe v okolí určté frekvence. V řečovém pásmu se jch nalézá více. Jednotlvé formany se vyskytují na různých frekvencích odpovídajících zhruba ntervalům 1000 Hz pro dospělého mluvčího. Velce zřetelně s je můžeme prohlédnout na spektrogramu, kde jsou zobrazeny tmavým pásy. Čím jsou tyto pásy tmavší, tím více akustcké energe charakterzují. Na spektrogramu (Obr. 1) je namapováno pět formantových pásem, které jsou zobrazeny červeným body. Obr. 1 Zobrazení prvních pět formantových pásem červeným body ve spektrogramu. Změny základního tónu a formantů ovlvňují vnímání hlasu. Změny v základním tónu nterpretujeme jako změny v melod řeč. Změnám prvního formantu (F1) odpovídají změny ve vertkálním pohybu jazyka, změnám druhého formantu (F2) odpovídají změny v horzontálním pohybu jazyka a třetí formant (F3) je ovlvňován změnam v dutně nosní. Pro samohlásky jsou tedy nejvýznamnější první dva až tř formanty, a to v pořadí F2, F1, F3. Vyšší formanty jsou pro všechny samohlásky praktcky stejné, obsahují značnou část nformace o barvě hlasu mluvčího. Pokud s dáme první dva formanty (F1 a F2) do vzájemného vztahu, dostaneme tzv. vokalcký trojúhelník. Ten nám jednotlvé samohlásky dělí do tří tříd v závslost na poloze těchto formantů. První třídu tvoří samohláska a, druhou třídu tvoří samohlásky e a a třetí třída je tvořena samohláskam o a u.
Vokalcký trojúhelník Horzontální poloha jazyka Přední střední Zadní Vertkální poloha jazyka vysoké,í u,ú středové e,é o,ó nízké a,á Tab. 1 Vokalcký trojúhelník [PAL94]. 2.2 Výpočet formantových frekvencí Většna postupů [GRI08], [PSU06], [TUC09], [UHL07] pro dentfkac formantových kmtočtů pracuje ve frekvenční oblast a vychází z analýzy spektrální obálky stanovené metodou LPC. Exstují v podstatě dva postupy jak určt ze spektra LPC hodnoty formantových frekvencí. První z nch zjšťuje kořeny polynomu A(z) (tedy póly přenosové funkce H(z)) a druhý, který hledá na spektrální obálce lokální maxma odvozená z lneárního predktoru. Výpočet pólů přenosové funkce zjstíme z kořenů polynomu A(z), které se zjstí vyřešením rovnce (1) Q Q 1 Q 2 z + a1 z + a2z +... + aq 1z + aq = 0 (1) Tato rovnce je Q-tého řádu s reálným koefcenty. V jejím řešení převažují páry komplexně sdružených kořenů. Uvažme jednu dvojc komplexně sdružených kořenů z jϕ z = z e a jϕ = z e rozloženou v z-rovně podle Obr. 2a (φ je argument z [rad]). Odpovídající formantovou frekvenc F a šířku pásma formantu B pro pokles charakterstky o 3dB lze vyjádřt pomocí vztahů (2 a 3): F f s.arg z = [ Hz] (2) 2π B f s.arg z = [ Hz] (3) 2π kde T je peroda vzorkování původního akustckého sgnálu. Souvslost velčn F a B lze znázornt ve frekvenční oblast obrázkem Obr. 2b.
Obr. 2 Ilustrace rozložení: a) dvojce komplexně sdružených kořenů polynomu A(z), b) odpovídající frekvenční charakterstka [PSU95]. 3. FORANA Pro náš výzkum v oblast zpracování řečového sgnálu dětí s neurologckou poruchou se snažíme preferovat pops řečového sgnálu pomocí formantové analýzy. Softwarový program FORANA [GRI08] byl vytvořen v programovém prostředí MATLAB. K vývoj programu nás vedl především požadavek korektní formantové analýzy. Původně se extrakce formantových kmtočtů z řečového sgnálu zajšťovala pomocí programu PRAAT [1]. Tento program byl vytvořen Paulem Boersmanem a Davdem Weennkem z katedry fonetky na amsterdamské unverztě a je uznáván a používán fonetky na celém světě. Př analýze řečového sgnálu se objevují chyby v klasfkac formantů. Nelze proto považovat výsledky získané programem PRAAT za bezchybné. Bylo přstoupeno k vývoj programu, který by formanty klasfkoval s mnmálním chybam. Dalším požadavkem, který ovlvňoval vznk FORANY, byla nutnost zautomatzovat celý procesu extrakce formantů z řečového sgnálu. Bez toho nelze provádět efektvně výzkum dětské řeč, jelkož množství dat, které je zapotřebí zpracovat, je velké. Na následujícím obrázku (Obr. 3) je vdět grafcká ukázka programu FORANA. O správnost klasfkace formantových kmtočtů se stará mplementovaný přerovnávací algortmus SAL a umělá neuronová síť, a to samoorganzující se mapa (SOM). Nejprve jsou vypočtené formanty zkontrolovány a případné chyby v jejch určení opraveny, aby došlo k jejch správné klasfkac. Na následujících grafech jsou ukázány vypočtené formanty pomocí tohoto programu. V prvním grafu (Obr. 4) vdíme formanty, na které nejsou použty korekční metody opravující jejch chybnou klasfkac. V druhém grafu (Obr. 5) jsou zobrazeny formanty získané po použtí korekčních metod.
Obr. 3 Programové prostředí FORANA. Obr. 4 Nepřerovnané formanty.
Obr. 5 Přerovnané formanty pomocí SAL a následně UNS SSOM. Pro ověření správnost našch postupů zavedeme statstcké jednotky [ZVA04]. Těm jsou průměr a směrodatná odchylka. Průměr (4), nebol střední hodnotu, vypočítáme, jestlže součet všech hodnot dělíme jejch počtem: x = 1 n n = 1 x (4) Pokud jsou pozorování soustředěna kolem svého průměru, je jejch varablta malá. Jsou-l data naopak roztroušena ve značné vzdálenost od průměru, pak je jejch varablta velká. Toho s můžeme všmnout u formantových kmtočtů. Proto je zapotřebí zavést pojem směrodatná odchylka, která se vypočte z následujícího vztahu (5). s = 1 n 1 k = 1 n ( x x ) 2 (5) V Tab. 2 je statstcky zpracovaná směrodatná odchylka. V procentech je vyjádřena úspěšnost klasfkace přerovnání. Čím je hodnota vyjádřená v procentech menší, tím je věc,
vysvětleny zkratky k metodám, které jsou použty v předchozí tabulce. V Tab. 3 jsou popsky k Tab. 2. Směrodatná odchylka Pojmy N SAL SOM N nepřerovnané formanty 5 = 1 F 2283 1497 % 100 66 SAL SSOM Formanty přerovnané korekčním metodam Tab. 2 Směrodatná odchylka. Tab. 3 Pops zkratek použtých v Tab.1. 4. Závěr Z prezentovaných výsledků vyplývá, že použtí korekčních metod, které přerovnávají formanty má své opodstatnění, jelkož nám zaručuje jejch správnou klasfkac. Předností ve využtí kombnací klascké metody a umělé neuronové sítě spočívá v tom, že se odstraní nedostatky obou zmíněných metod a dojde se k relevantním a správným výsledkům analýzy řečového sgnálu. Poděkování Tato práce je podporována z výzkumného záměru č.msm6840770012 Transdscplnární výzkum v bomedcínském nženýrství 2 (expermentální část) a grantů GAČR č. 102/09/0989 Nové perspektvní metody vysoce kvaltní syntézy mluvené češtny (teoretcká část), Analýza a modelování bologckých a řečových sgnálů, GAČR č. 102/08/H008, a "Rozpoznávání mluvené řeč v reálných podmínkách" ("Speech Recognton under Real World Condtons"), GACR 102/08/0707. Reference [GRI08] GRILL, P.: Analýza promluv dětí v závslost na věku. Dplomová práce ČVUT, 2008 [PAL94] PALKOVÁ, Z.: Fonetka a fonologe češtny. Unverzta Karlova, Praha 1994, ISBN 80-7066-843-1. [PSU06] Psutka, J.-Muller, L.-Matousek, J.-Radová, V.: Mluvíme s počítačem česky, Academa Praha, 2006, ISBN 80-200-0203-0. [TUC09] TUCKOVÁ, J.: Vybrané aplkace umelých neuronových sítí pr zpracování sgnálu. Nakladatelství CVUT Praha, leden 2009. ISBN 978-80-01-04229-8. [UHL07] UHLÍŘ, J., SOVKA, P., POLLÁK P., HANŽL V., ČMEJLA R.: Technologe hlasových komunkací. Vydavatelství ČVUT, 2007, 276 s., ISBN 978-80-01-03888-8.
[ZVA04] ZVÁROVÁ J.: Základy statstky pro bomedcínské obory. Karolnum Praha 2004, třetí dotsk 1. vydání, ISBN 80-7184-786-0. [1] PRAAT http://www.fon.hum.uva.nl/praat/ Kontaktní nformace: 1.autor: Ing.Pavel Grll, grllpavel@seznam.cz, tel:+420 737955555 2.autor: Doc.Ing.Jana Tučková tuckova@fel.cvut.cz, tel: +420 721502556