Akusticko - fonetické charakteristiky neplynulých promluv



Podobné dokumenty
Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

AKUSTICKÁ ANALÝZA INTENZITY A RYCHLOSTI ŘEČI U PARKINSONOVY NEMOCI

EOG. ERG Polysomnografie. spánkové cykly poruchy spánku. Úvod ke cvičení

ø. Laboratorní úloha č.11: Elektrookulogram

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Laboratorní úloha č. 9: Elektrookulogram ø

Popisná statistika. Komentované řešení pomocí MS Excel

Jana Vránová, 3. lékařská fakulta UK

Klasifikace Landau-Kleffnerova syndromu

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Lineární klasifikátory

Matematické modelování dopravního proudu

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

ADA Semestrální práce. Harmonické modelování signálů

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Support Vector Machines (jemný úvod)

Jasové transformace. Karel Horák. Rozvrh přednášky:

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Lineární regrese. Komentované řešení pomocí MS Excel

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Jednofaktorová analýza rozptylu

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

České akustické společnosti. Obsah

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

7. Rozdělení pravděpodobnosti ve statistice

11 Analýza hlavních komponet

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

23. Matematická statistika

Aplikovaná statistika v R

KLIMA ŠKOLY. Zpráva z evaluačního nástroje Klima školy. Škola Testovací škola - vyzkoušení EN, Praha. Termín

Statistika pro geografy

Systém rizikové analýzy při sta4ckém návrhu podzemního díla. Jan Pruška

Diagnostika infarktu myokardu pomocí pravidlových systémů

Úloha - rozpoznávání číslic

StatSoft Jak poznat vliv faktorů vizuálně

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

= = 2368

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Náhodné signály. Honza Černocký, ÚPGM

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

promluvách založených na rychlém opakováni slabik /pa/-/ta/ /ka/

9 Kolmost vektorových podprostorů

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Číslo projektu: CZ.1.07/1.5.00/ Název projektu: Inovace a individualizace výuky Autor: Mgr. Martin Fryauf Název materiálu: Kriminalistická

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Zvýrazňování řeči pomocí vícekanálového zpracování

Klasifikace předmětů a jevů

TECHNICKÁ UNIVERZITA V LIBERCI

Diskrétní náhodná veličina

IDENTIFIKACE BIMODALITY V DATECH

SCLPX 07 2R Ověření vztahu pro periodu kyvadla

OHYB (Napjatost) M A M + qc a + b + c ) M A = 2M qc a + b + c )

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Strojové učení Marta Vomlelová

Chyby měření 210DPSM

FYZIKÁLNÍ PRAKTIKUM FJFI ČVUT V PRAZE

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Testování statistických hypotéz

Stanovení Ct hodnoty. Stanovení míry variability na úrovni izolace RNA, reverzní transkripce a real-time PCR

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Příklady použití tenkých vrstev Jaromír Křepelka

Kybernetika a umělá inteligence, cvičení 10/11

TECHNICKÁ UNIVERZITA V LIBERCI

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Trénování sítě pomocí učení s učitelem

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Teorie náhodných matic aneb tak trochu jiná statistika

7 ZÁVĚRY. 3. Podobně jako žákovská družstva kmenového klubu experimentálního družstva byla sledována i žákovská družstva dalších vybraných klubů.

SIMULACE ZVUKOVÉHO POLE VÍCE ZDROJŮ

Regresní analýza 1. Regresní analýza

Úvod do optimalizace, metody hladké optimalizace

Číselné charakteristiky a jejich výpočet

Interpretace a korelace dynamické a statické penetrační zkoušky pro efektivnější navrhování dopravních staveb

Lombardův efekt v řečové databázi CLSD

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

10. Předpovídání - aplikace regresní úlohy

Pokročilé operace s obrazem

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

Mnohorozměrná statistická data

Základy teorie pravděpodobnosti

Transkript:

Akusticko - fonetické charakteristiky neplynulých promluv Petr Bergl České vysoké učení technické v Praze, Fakulta elektrotechnická berglp1@fel.cvut.cz 31. října 2007 Abstrakt: Tento příspěvek popisuje základní analýzy akusticko fonetických parametrů, které byly vyhodnoceny pro část databáze koktavých jedinců. Tyto parametry jsou porovnány s výsledky pro plynule hovořící mluvčí. Srovnáván je poměr ticho/řeč (za použití SVM klasifikátoru jako detektoru řečové aktivity), dále obsazení úrovní intenzity a energetická obálka signálu. Na závěr je popsán souhrnný parametr odvozený z výše zmíněných. 1. Úvod Mezi nejčastější poruchy plynulosti řeči patří brebtavost a koktavost. Brebtavost je charakteristická překotným tempem řeči, náhlými lokálními změnami rychlosti a rytmu. V důsledku toho se stává řeč těžko srozumitelnou. Koktavost (balbuties) se projevuje opakováním určitých hlásek či slabik (repetice), prodlužováním hlásek (prolongace), četnými pauzami apod. Důležitý rozdíl mezi těmito onemocněními je ten, že brebtaví si svoji poruchu neuvědomují. Naopak koktaví si jsou své poruchy dobře vědomi. S tím spojený stres pak může vést až ke strachu z mluvení (logofobie). Problémem při léčbě koktavosti je objektivní stanovení její vážnosti. Tu popisuje např. Youngův index: I Y = 100 Nnepl N slov, (1) kde N nepl je počet neplynulostí a N slov je počet slov. Existují též subjektivní škály, např. Rileyho škála (viz [1]) definuje pro konkrétní příznak 6 stupňů: 0 neprojevuje se; 1 je nepostřehnutelný, pokud se nezačne hledat; 2 náhodným posluchačům je nepostřehnutelný; 3 uvádí posluchače do rozpaků; 4 velmi rozptyluje; 5 úporný a těžký.

Určení těchto indexů vyžaduje posouzení specialistou foniatrem. Výsledek tohoto soudu však může být subjektivní, výsledné indexy se mohou mezi foniatry lišit. Při posuzování pokroků léčby více lékaři by se tak teoreticky mohlo stát, že nebude správně pozorováno zlepšení či zhoršení neplynulosti. Metoda, která by automaticky a hlavně objektivně určila vážnost poruchy řeči, by byla velkým přínosem. Umožnila by zejména určení tíže poruchy (jakousi absolutní hodnotu ), dále hodnocení výsledků léčby a porovnání efektivnosti a účinnosti léčebného postupu s jiným léčebným postupem. Dle mého názoru jsou možné dva základní přístupy k vyvinutí takové metody: 1) Automatické zaměření všech neplynulostí (repetic, prolongací atd.). 2) Definice parametrů obecně charakterizujících plynulost řeči (např. poměr ticho/řeč). Odchylky těchto parametrů od normy by byly ukazatelem onemocnění. Tato práce se zabývá druhou možností, v následujících kapitolkách se seznámíme s několika akusticko fonetickými charakteristikami a porovnáme je mezi zdravými a koktavými jedinci. 2. Signály a jejich charakteristiky 2.1. Databáze signálů Základem výzkumu je databáze obsahující signály od cca 160 mluvčích s různou vážností poruchy plynulosti řeči, k dispozici máme také promluvy kontrolních zdravých jedinců. Databáze obsahuje jak čtený 1 tak volně formulovaný text. Text pochází z Babičky od Boženy Němcové: Podzim na starém bělidle V okolí starého bělidla začínalo být smutno a ticho. Les byl světlejší, stráň žloutla, vítr a vlny odnášely chomáče starého listí bůh ví kam. Ozdoba sadu uschována byla v komoře. V zahrádce kvetla astra, měsíčky a umrlčí kvítky. Na louce za splavem růžověly se naháčky a v noci prováděla tam světélka svoje rejdy. Když babička šla s dětmi na procházku, nezapomněli chlapci na papírové draky, které pak na vrchu pouštěli. 2.2. Klasifikátor SVM V dalším textu se zmíníme o klasifikátoru SVM (Support Vector Machine). Ten rozděluje lineárně separabilní data ideální nadrovinou, tj. nadrovinou, která má od trénovacích vzorů největší vzdálenost (největší margin). Tím minimalizuje chybu na datech skutečných. S nelineárně separabilními daty si SVM poradí použitím kernel funkcí, v našem případě RBF (Radial Basis Function). Případnou neseparabilitu dat řeší zavedením relaxačních proměnných, které jsou nulové pro správně klasifikované vzory, nenulové pro špatně klasifikované. Minimalizací sumy relaxačních proměnných se zaručí vhodný průběh nadroviny. Pro účely této práce však stačí SVM chápat jako nástroj, na jehož vstup přivedeme parametry krátkého úseku signálu (např. energii, počet průchodů nulou), a na jejímž výstupu obdržíme 0 či 1 (ticho vs. řeč apod.). 2.3. Zkoumané charakteristiky Všechny následující charakteristiky jsou zkoumány na 9 pacientech s poměrně vážnou poruchou plynulosti řeči a na 9 kontrolních zdravých jedincích. Zkoumán je čtený text Podzim na starém bělidle. 1 U všech jedinců, co umí číst (účastníky jsou i velmi malé děti).

Obrázek 1: Histogramy pro délky intervalů řeči resp. ticha. Obrázek 2: Hodnoty poměru ticho/řeč pro 18 jedinců. 2.3.1. Poměr ticho řeč V promluvách pěti zdravých jedinců byly označeny úseky ticho řeč. Poté byly signály segmentovány s pevnou délkou okna L = 50 ms a překryvem 2 3L. Pro každý segment 3 byly určeny následující parametry 2 : počet průchodů nulou vztažený k délce segmentu; logaritmus energie úseku; první lpc koeficient; logaritmus energie chyby predikce; korelační koeficient; první a druhý spektrální moment; pět maxim segmentu, přičemž první je maximem v první pětině segmentu, druhé je maximem v druhé pětině segmentu atd. Pro 4 promluvy byl natrénován SVM klasifikátor. Úspěšnost na testovacích datech (pátá promluva) byla přes 90%. S tímto natrénováním byly klasifikovány všechny promluvy (zdravých i koktavých). Z výsledků byla spočítána délka každého intervalu řeči, resp. ticha. Četnosti délek vyneseme do histogramů, viz obr. 1, přičemž všechny četnosti byly normovány celkovým počtem úseků dané promluvy (ten je u koktavých podstatně vyšší). Přerušovanou čarou jsou vždy vykresleny hodnoty pro zdravé, plnou pro nemocné jedince. Všimněme si následujících vlastností: 1) intervaly řeči u zdravých jsou delší, typicky nad 1.5 s; 2) intervaly ticha mezi 0.5 1 s jsou u zdravých méně četné. Na obr. 2 je vynesen poměr ticho/řeč pro všech 18 účastníků této studie. Pro kontrolní (zdravé) mluvčí vychází v rozmezí od 0.1 do 0.35. Pro koktavé je v rozmezí od 0.3 do 1.5. 2 Více o některých parametrech viz [3].

Obrázek 3: Histogramy obsazení úrovní intenzity. Vlevo: Průměrné hodnoty. Vpravo: Histogramy všech přes sebe. Detail úpatí, tj. hodnot kolem nuly. K překryvu hodnot dochází jen pro jednoho jedince. Tento výsledek jistě není překvapující. Dá se předpokládat, že promluvy neplynule hovořících osob obsahují více ticha. 2.3.2. Obsazení úrovní intenzity Pokud zdravý jedinec čte, poměrně rovnoměrně využívá hladiny intenzity zvuku, tj. při čtení nekřičí, na slova nedává přehnaný důraz apod. Oproti tomu koktaví často při vyslovování vyvíjejí větší snahu, kladou větší důraz na počátky slov apod. To by se mělo projevit rozdíly v obsazení jednotlivých úrovní intenzity (tj. v amplitudách vzorků řečového signálu). Signály nejdříve zbavíme střední hodnoty a normujeme. Hodnoty vzorků se tak budou pohybovat od 1 do +1. Poté definujeme 200 intervalů, v nichž se mohou pohybovat, tj. od 1 do +1 s krokem 0.01. Pro každý interval spočteme jeho obsazení, tj. kolik vzorků do něj spadá. Výsledky vydělíme počtem vzorků (délkou signálu), obdržíme relativní četnosti vynesené do histogramů na obr. 3. Na levém obrázku nalezneme průměrné hodnoty pro všechny signály. Je zřejmé, že pro kontrolní promluvy jsou úrovně obsazeny rovnoměrněji. Na pravém obrázku jsou histogramy vykreslené přes sebe (je vyobrazen jen detail úpatí ). Zde můžeme pozorovat, že v přihrádkách kolem hodnoty 0.05 jsou všechny četnosti pro zdravé jedince větší než četnosti jedinců postižených poruchou plynulosti řeči. Četnost v tomto binu by se tedy dala použít jako klasifikátor zdravých vs. koktavých jedinců. 2.3.3. Analýza energetické obálky Nyní se budeme zajímat o energetickou obálku promluv. Signál normujeme, zbavíme stejnosměrné složky a každý vzorek umocníme na druhou. Výsledné vzorky přivedeme na vstup integrátoru, čímž obdržíme energetickou obálku promluvy. Dále stanovíme práh p, na jehož základě určíme náběžné hrany obálky. Ukázku pro p = 0.4 nalezneme na obr. 4 vlevo. Pro danou hodnotu prahu představuje průměrný počet náběžných hran za jednu sekundu parametr, jež budeme zkoumat. Přesněji řečeno jeho rozdílnost mezi mluvčími trpícími koktavostí a mluvčími kontrolními. Je zřejmé, že tento parametr bude značně závislý na volbě prahu p. Průměrný počet náběžných hran pro hodnoty p od 0.05 do 0.95 je vyobrazen na obr. 4 vpravo. Silná plná čára reprezentuje průměr pro koktavé, přerušovaná čára pro kontrolní jedince. Tenkými plnými čarami je zobrazen interval vymezený směrodatnou odchylkou. Za pozornost stojí výsledky pro p = 0.1, kde je průnik oblastí pro obě skupiny prázdný. Průměrný počet náběžných hran za jednu sekundu s prahem p = 0.1 mů-

Obrázek 4: Vlevo: Signál, jeho energetická obálka a její náběžné hrany pro práh 0.4. Vpravo: Průměrný počet náběžných hran energetické obálky za sekundu pro různé hodnoty prahu p (vyobrazeny výsledky pro koktavé a kontrolní jedince spolu se směrodatnými odchylkami). žeme tedy považovat za parametr schopný rozlišovat patologii promluvy (obecná platnost tohoto závěru samozřejmě musí být ještě ověřena na větší části databáze). Za zmínku stojí fakt, že velmi podobné závěry lze učinit, pokud energetickou obálku nahradíme její derivací. 2.4. Souhrn parametrů V předchozích odstavcích jsme definovali několik jednoduchých parametrů. Nyní pro každý signál dáme tyto parametry dohromady a signál budeme reprezentovat jediným číslem. Nejdříve jednoznačně stanovme uvažované charakteristiky: poměr ticho řeč; obsazení úrovní intenzity, konkrétně hodnoty pro biny ±0.05; průměrný počet náběžných hran energetické obálky za jednu sekundu s prahem p = 0.1; průměrný počet náběžných hran derivace energetické obálky za jednu sekundu s prahem p = 0.1. Tento výčet představuje pět čísel pro každý signál. Tato čísla transformujme tak, aby jejich vysoká hodnota byla ukazatelem patologie. Tak je tomu např. u poměru ticho řeč, u obsazení úrovní intenzity je tomu naopak. Dále provedeme normalizaci do rozpětí od nuly do jedné. Poté velmi snadno vypočteme jakousi průměrnou známku, danou průměrem transformovaných a normovaných hodnot. Z obr. 5 je zjevné, že známka je pro všechny kontrolní jedince (signály 1 9) menší než pro jedince koktavé (signály 10 18). 3. Závěr Se záznamy 9 zdravých a 9 koktavých jedinců byly provedeny tři jednoduché pokusy. V prvním byl použit klasifikátor SVM pro detekci řeč ticho. Bylo zjištěno, že poměr ticho/řeč je u koktavých vyšší. Tento závěr je naprostou samožřejmostí, řeč koktavých zjevně obsahuje více pauz.

Obrázek 5: Průměrná známka, signály 1 9 jsou kontrolní, signály 10 18 jsou pro koktavé jedince. Další experiment zkoumal obsazení úrovní intenzity. Pro hodnoty intenzity kolem 0, 05 jsou relativní četnosti všech zdravých větší než četnosti všech jedinců postižených poruchou plynulosti řeči. Zde je však nutné podotknout, že pracovat s intenzitou zvukového signálu je věc ošidná, signály musejí být zkontrolovány, zda se v průběhu nahrávání intenzita nemění vlivem pohybu mluvčího (nahrávky byly pořízeny s pevným mikrofonem), změnami nastavení zesilovače apod. Poslední pokus zkoumal průměrný počet náběžných hran energetické obálky za jednu sekundu. Bylo ukázáno, že pro správně nastavený práh je tento parametr schopen poukázat na patologii v signálu. Závěrem uveďme, že pokud z výše zmíněných charakteristik vygenerujeme jednu souhrnnou, tvoří její hodnoty pro kontrolní a pro koktavé jedince disjunktní množiny. Poděkování Děkuji MUDr. M. Hrbkové a Dr.Ing. J. Vokřálovi z Foniatrické kliniky 1.LF UK a VFN za poskytnutí signálů. Tento výzkum byl podporován z grantů GAČR 102/03/H085 Modelování biologických a řečových signálů, IGA MZ ČR NR 8287-3/2005, Počítačová analýza řečového projevu a celonočních EEG záznamů u dětí resp. výzkumného záměru MŠMT MSM6840770012 Transdisciplinární výzkum v biomedicínckém inženýrství 2. Reference [1] M. Lašťovka, J. Vokřál, L. Černý, K. Radilová, M. Hrdličková, Hodnocení tíže poruchy plynulosti řeči pomocí neuronových sítí, Závěrečná zpráva grantu 237/1998/C/1.LF [2] J.Psutka, Komunikace s počítačem mluvenou řečí, Academia, Praha, 1995 [3] Bishnu S. Atal, L.R. Rabinier, A Pattern Recognition Approach to Voiced Unvoiced- Silence Classification with Application to Speech Recognition, IEEE Transactions on Acoustics, 1976.