DTW. Petr Zlatník, Roman Čmejla. zlatnip@fel.cvut.cz, cmejla@fel.cvut.cz. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení



Podobné dokumenty
Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Klasifikace Landau-Kleffnerova syndromu

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Zvýrazňování řeči pomocí vícekanálového zpracování

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Akusticko - fonetické charakteristiky neplynulých promluv

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

AKUSTICKÁ ANALÝZA INTENZITY A RYCHLOSTI ŘEČI U PARKINSONOVY NEMOCI

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Semestrální práce: Rozpoznání hláskované řeči a převedení na text


DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

ELIMINACE VLIVU DRUHÉ ROTACE PŘI AFINNĚ INVARIANTNÍM 2D ROZPOZNÁVÁNÍ

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24

Úloha - rozpoznávání číslic

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

Anotace. Klíčová slova: 1. Úvod

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Biomedicínské inženýrství na ČVUT FEL

ADA Semestrální práce. Harmonické modelování signálů

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Lombardův efekt v řečové databázi CLSD

7 Další. úlohy analýzy řeči i a metody

Diagnostika infarktu myokardu pomocí pravidlových systémů

SYNTÉZA AUDIO SIGNÁLŮ

Klasifikace předmětů a jevů

Jan Kaiser ČVUT, Fakulta elektrotechnická, katedra Radioelektroniky Technická 2, Praha 6

Speciální struktury číslicových systémů ASN P12

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

BMII. B i o m e d i c a l D a t a P r o c e s s i n g G r o u p

Aplikovaná numerická matematika

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

NAKI - ČRo archiv - Zpřístupnění archivu Českého rozhlasu pro sofistikované vyhledávání

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Název práce: DIAGNOSTIKA KONTAKTNĚ ZATÍŽENÝCH POVRCHŮ S VYUŽITÍM VYBRANÝCH POSTUPŮ ZPRACOVÁNÍ SIGNÁLU AKUSTICKÉ EMISE

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

Z OBRAZOVÉHO ZÁZNAMU. Jan HAVLÍK. Katedra teorie obvodů, Fakulta elektrotechnická

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Magisterský program Biomedicínské inženýrství a informatika na ČVUT FEL Praha

5. Umělé neuronové sítě. Neuronové sítě

Dálkový průzkum Země. Klasifikace obrazu

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Příklad. Řešte v : takže rovnice v zadání má v tomto případě jedno řešení. Pro má rovnice tvar

Teorie náhodných matic aneb tak trochu jiná statistika

KLASIFIKÁTOR IZOLOVANÝCH SLOV NA BÁZI UMĚLÉ NEURONOVÉ SÍTĚ

Využití RPS pro potlačování šumu v řečových signálech

Laserový skenovací systém LORS vývoj a testování přesnosti

Signál v čase a jeho spektrum

Diktovací sw NovaVoice zkušenosti. D.Zoubek KZM FN Motol

Využití neuronové sítě pro identifikaci realného systému

Algoritmy a struktury neuropočítačů ASN P8b

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Jasové transformace. Karel Horák. Rozvrh přednášky:

ZPRACOVÁNÍ A ANALÝZA EEG. Jan Prokš. Katedra teorie obvodů, Fakulta elektrotechnická, České vysoké učení technické v Praze.

Matematické modelování dopravního proudu

České vysoké učení technické v Praze Fakulta biomedicínského inženýrství

Ing. Tomáš MAUDER prof. Ing. František KAVIČKA, CSc. doc. Ing. Josef ŠTĚTINA, Ph.D.

Zpracování biologických signálů umělými neuronovými sítěmi

Teorie měření a regulace

T- MaR. Ústav technologie, mechanizace a řízení staveb. Teorie měření a regulace. Podmínky názvy. 1.c-pod. ZS 2015/ Ing. Václav Rada, CSc.

Nabídky spolupráce pro průmysl

Analytické metody v motorsportu

Typografie odborného textu (doplňující texty) Odstavec, dělení slov a sazební obrazec

Umělá inteligence a rozpoznávání

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace

Implementace Bayesova kasifikátoru

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Neubauer, K. a kol. NEUROGENNÍ PORUCHY KOMUNIKACE U DOSPĚLÝCH (Praha, Portál, r. vydání 2007).

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Klasifikace hudebních stylů

Analytické metody v motorsportu

Virtuální elektrody v kochleárních implantátech Nucleus 24

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

ANALÝZA SIGNÁLŮ SPOJITÉ AKUSTICKÉ EMISE

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

prázdninách Praha

Algoritmy a struktury neuropočítačů ASN P3

Strojové učení se zaměřením na vliv vstupních dat

Struktura a typy lékařských přístrojů. X31LET Lékařskátechnika Jan Havlík Katedra teorie obvodů

Hlasové vypínání elektrických přístrojů 1 ÚVOD. 11

Náhodné signály. Honza Černocký, ÚPGM

Robustní odhady statistických parametrů

Ekonomické aspekty statistické regulace pro vysoce způsobilé procesy. Kateřina Brodecká

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Efektivní komunikace díky inovativním hlasovým technologiím. Praha, Call centrum ve finančních službách

Jaroslav Tuma. 8. února 2010

ZKUŠEBNÍ PROTOKOLY. B1M15PPE / část elektrické stroje cvičení 1

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

analýzy dat v oboru Matematická biologie

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

GIS ANALÝZA VLIVU DÁLNIČNÍ SÍTĚ NA OKOLNÍ KRAJINU. Veronika Berková 1

Transkript:

Vyhodnocování vad řeči dětí s využitím algoritmu DTW Petr Zlatník, Roman Čmejla České vysoké učení technické v Praze, Fakulta elektrotechnická zlatnip@fel.cvut.cz, cmejla@fel.cvut.cz Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení vad řeči dětí. Princip metody je založen na algoritmu borcení časové osy, pro zvýšení robustnosti je využito více vstupních charakteristik řeči a výsledky jsou průměrovány. V článku jsou uvedeny dílčí výsledky rozboru vlivu jednotlivých řečových parametrizací s vyhodnocením modifikovaných přístupů, kdy je použito méně parametrizací. Dále je uvedeno vyhodnocení vlivu funkce průchodu maticí vzdáleností DTW na přesnost klasifikace a je zmíněno hodnocení vlivu změn fonetické struktury jako je vynechání hlásky nebo slabiky v testovaných slovech. 1. Úvod Uvedená metoda slouží ke klasifikaci vad řeči dětí postižených vývojovou dysfázií (vývojová nemluvnost dítěte, dítě má problém s řečí již od doby, kdy začíná mluvit) popřípadě afázií (porucha mozkových center, která odpovídají za tvorbu řeči za stavu, když již dítě umělo mluvit, pokud se přidají epileptické výboje v mozku, jedná se o tzv.: Landau-Kleffnerův syndrom). Děti mají problémy s vyslovováním slov (některé hlásky jsou prodlouženy, zaměněny nebo vynechány), nejsou schopny vyslovit souvislejší větu. Projekt je řešen ve spolupráci s Fakultní nemocnicí v Motole, kde jsou nahrávány promluvy postižených dětí včetně léčby. Metoda byla navržena s cílem oddělit promluvy nemocných dětí od zdravých a hlavně by měla být schopna vyhodnotit, zda se stav dítěte v průběhu léčby lepší nebo ne. 2. Algoritmus DTW a realizace klasifikátoru Algoritmus DTW [9] byl původně určen pro realizaci rozpoznávače izolovaných slov. Byla provedena jeho modifikace [1, 2, 10] tak, aby ho bylo možno využít pro klasifikaci nesrozumitelnosti dětských promluv. Jednotlivé promluvy jsou segmentovány s překryvem 50 %, segmenty jsou váhovány Hammingovým oknem a parametrizovány. Popis parametrizací je v následujícím odstavci. Následně je vypočítána z porovnávaných dvou promluv matice euklidovských vzdáleností [9]. Ta je procházena z jednoho rohu do protilehlého a je vypočítán celkový součet akumulovaných vzdáleností, který charakterizuje míru odlišnosti obou slov. Toto je základní princip popisované metody klasifikace slov, kdy se porovnávaly

promluvy jednoho slova od zdravých a nemocných dětí a pro promluvu nemocného dítěte se předpokládala větší akumulovaná vzdálenost. Protože při využití jedné parametrizace (první pokusy byly prováděny pro kepstrální koeficienty) docházelo občas ke vzniku chyb a špatné klasifikaci slov, byl navržen systém [1, 2, 10], kdy se využívá více různých vstupních charakteristik řeči. Tím jsou promluvy hodnoceny z více fonologických aspektů a dojde k eliminaci chyb. Nejprve jsou všechny promluvy (pro konkrétní testované slovo, např.: mateřídouška) od zdravých dětí porovnány pomocí algoritmu DTW navzájem a je vypočítána průměrná akumulovaná vzdálenost každého slova zdravého dítěte ode všech ostatních. Následně jsou porovnány promluvy nemocných dětí (nebo obecněji nové testované promluvy) s promluvami zdravých (již dříve zpracovaných a uložených v referenční databázi) a opět je vypočítána průměrná vzdálenost promluv nemocných dětí ode všech zdravých. Tyto výpočty jsou provedeny pro všechny využité parametrizace. Aby bylo možné výsledky spojit dohromady, je nutné provést pro každou parametrizaci normování vzdáleností (maximální hodnota pro zdravé děti je rovna jedné) a výsledky je možné sečíst přes všechny parametrizace, tím dojde při správné funkci algoritmu ke spolehlivějšímu a výraznějšímu oddělení promluv nemocných dětí. 2.1. Vybrané řečové charakteristiky - počet průchodů nulou - logaritmus energie - logaritmus energie chyby predikce - první koeficient lineární predikce - první kepstrální koeficient - druhý kepstrální koeficient - jedenáct kepstrálních koeficientů - koeficienty odrazu - dvanáct koeficientů lineární predikce - melovské spektrální koeficienty - logaritmované melovské spektrální koeficienty - melovské kepstrální koeficienty - spektrální PLP koeficienty - (kepstrální) PLP koeficienty - spektrální PLP-RASTA koeficienty - (kepstrální) PLP-RASTA koeficienty

2.2. Optimalizace DTW algoritmu Aby DTW algoritmus co nejlépe odděloval promluvy nemocných dětí od zdravých, byly provedeny pokusy o jeho optimalizaci. Jedny z prvních pokusů, které byly prováděny, bylo normování všech promluv jak od zdravých, tak i od nemocných dětí na stejný počet segmentů pomocí vztahů v [9], (7.26-7.29). Dále bylo zkoušeno vyhlazování a určité typy normalizace parametrizovaných hodnot signálu [9] (7.62-7.67). Ukázalo se, že tyto kroky jsou pro naše účely nevhodné, nebot byly určeny pro zlepšení vlastností algoritmu pro účely rozpoznávání slov, ale v naší aplikaci smazávají rozdíly mezi promluvami od zdravých a nemocných dětí, čímž se výsledky zhoršují. Při realizaci DTW algoritmu je možno volit různé funkce průchodu maticí vzdáleností [9]. Experimentálně bylo ověřeno, že nejlepších výsledků bylo dosaženo pro směr průchodu definovaný následující rovnicí. g(i 1, j) + d(i, j) g(i, j) = g(i, j 1) + d(i, j) g(i 1, j 1) + d(i, j) Kde i = 1, 2,..., I, j = 1, 2,..., J, I a J jsou počty segmentů první a druhé promluvy, které se porovnávají, d(i, j) je lokální hodnota euklidovské vzdálenosti pro aktuální indexy i a j. Celkovou vzdálenost obou slov udává pak hodnota g(i, J), která bývá dělena hodnotou (I + J) [9], při využití DTW jako rozpoznávače slov. Protože v naprosté většině promluv nemocných dětí dochází jednak k záměně, ale hlavně k prodlužování hlásek i promluv, je vhodné vynechat dělení g(i, J) hodnotou (I +J), čímž se zlepší odstup promluv nemocných dětí od zdravých, což je další krok při optimalizaci DTW. Problém může nastat tehdy, když nemocné dítě promluvu výrazně zkrátí oproti zdravým (např.: místo slova mateřídouška je řečeno slovo matouška a podobně). Zde se potom akumulovaná vzdálenost sníží až k nejvyšším hodnotám zdravých dětí a slovo je obtížně klasifikováno. Daná situace bude dále testována, budou se hledat parametrizace, které jsou na zkrácení slova méně citlivé. Je vhodné počítat celkové akumulované vzdálenosti součtem hodnot z několika různých vyslovených slov dětí, čímž se zvýrazní odstup nemocných od zdravých a tento problém se potlačí. Dále je vhodné testy provádět pro více slabičná slova, protože některé nemocné děti vyslovují jedno a dvouslabičná slova téměř jako zdravé. (1) 3. Experimentální výsledky 3.1. Vliv parametrizací na úspěšnost klasifikace DTW algoritmus byl nastaven podle popisu v předchozím odstavci. Jednotlivé parametrizace byly vyhodnocovány pro různá slova a byly prováděny testy, jak dobře oddělují promluvy nemocných dětí od zdravých. Lze říci, že jako nejpřesnější se jeví kepstrální PLP a PLP-RASTA koeficienty, popřípadě velmi dobře pracují koeficienty FBANK. Tento závěr vyplývá i z pokusů, které naznačují, že ostatní parametrizace řadí promluvy od zdravých dětí k hranici nemocných, pokud některé zdravé dítě má chraptivý a zastřený hlas. Tento závěr odpovídá teoretickým předpokladům, protože PLP a PLP-RASTA koeficienty byly navrženy s ohledem na potlačení rozdílů mezi mluvčími pro zvýšení úspěšnosti rozpoznání řeči.

Ukázka výsledků pro slovo mateřídouška je na obrázku 1, kde jsou vyneseny vzdálenosti pro 18 nemocných dětí (bílý průběh) a pro 6 nemocných (černý průběh), horní část obrázku je pro normovaný součet přes všech 16 parametrizací, dolní část je jen pro 3 parametrizace FBANK, PLP a PLP-RASTA koeficienty. Z obrázku je vidět, že dochází skutečně ke smazávání rozdílů mezi zdravými dětmi, algoritmus je méně citlivý na mluvčího. Obrázek 1: Výsledek klasifikace slova mateřídouška pro všech 16 parametrizací (horní část) a pro 3 parametrizace FBANK, PLP a PLP-RASTA (dolní část), černé průběhy reprezentují nemocné děti 3.2. Vliv počtu slabik slov na klasifikaci Protože jsou jednotlivé nemocné děti různě postižené, dochází k tomu, že některé z nich například tříslabičná slova vyslovují správně a až od čtyř nebo pěti slabičných slov začínají mít problémy, popřípadě nevysloví až delší věty. Naopak, některé děti nevysloví již tříslabičná slova. Proto bylo provedeno porovnání promluv od jednotlivých samohlásek, souhlásek, přes dvou, tří, čtyř a pěti-slabičná slova. Výsledek je na obrázku 2 a byl vygenerován následujícím způsobem. Bylo klasifikováno šest různých nemocných dětí a porovnání bylo provedeno s osmnácti zdravými přes všechny parametrizace. Nejprve se klasifikovaly samohlásky a, e, i, o, u, a došlo se k sumám průměrných normovaných akumulovaných vzdáleností, ty byly následně sečteny. Postup je proveden dále pro souhlásky, jedno, dvou, tří, čtyř a pěti-slabičná slova a je provedeno další normování všech průběhů na hodnotu 1 k maximální hodnotě zdravých dětí pro všech sedm průběhů. Z obrázku je vidět, že od tříslabičných slov dochází k výraznějšímu odstupu většiny nemocných dětí od zdravých. K malému odstupu dochází u některých nemocných dětí již u samohlásek. Je to dáno tím, že je občas nezřetelně vyslovují nebo prodlužují. Hodnoty vzdáleností z obrázku 2 jsou dále uvedeny v tabulce 1, kde jsou uvedeny jak pro zdravé tak i pro nemocné děti střední hodnoty (mean), směrodatné odchylky (std), minimální hodnoty (min) a maximální hodnoty (max) normovaných průměrných hodnot celkových akumulovaných vzdáleností. Z tabulky je vidět, že všechny nemocné děti jsou spolehlivě klasifikovány od tříslabičných slov, hodnota min je vždy větší než jedna.

Obrázek 2: Normované výsledky porovnání pro samohlásky, souhlásky, jedno, dvou, tří, čtyř a pěti-slabičná slova, černé průběhy reprezentují nemocné děti ZDRAVÉ NEMOCNÉ mean std min max mean std min max samohlásky 0,82 0,07 0,74 1,00 1,02 0,07 0,91 1,09 souhlásky 0,70 0,10 0,58 1,00 1,00 0,11 0,85 1,18 jednoslabičná 0,75 0,09 0,66 1,00 1,04 0,14 0,80 1,17 dvouslabičná 0,85 0,07 0,74 1,00 1,12 0,17 0,90 1,32 tříslabičná 0,84 0,08 0,75 1,00 1,34 0,23 1,07 1,67 čtyřslabičná 0,92 0,05 0,84 1,00 1,54 0,36 1,11 2,00 pěti-slabičná 0,94 0,04 0,88 1,00 1,72 0,31 1,22 1,96 Tabulka 1: Tabulka středních hodnot (mean), směrodatných odchylek (std), minimálních (min) a maximálních (max) hodnot normovaných celkových akumulovaných vzdáleností. 3.3. Posouzení vývoje léčby nemocného dítěte Na obrázku 3 je posouzení vývoje léčby jednoho dítěte po čtyřech měsících léčby, výsledek byl dosažen součtem a normováním výsledků klasifikace z pěti obtížných slov na výslovnost: motovidlo, popelnice, televize, různobarevný a mateřídouška. Je vidět, že stav dítěte se zlepšil. Výsledek klasifikace odpovídá hodnocením lékařů a psychologů. Obrázek 3: Pokles vzdáleností při úspěšné léčbě dítěte

4. Závěr V práci je popsán algoritmus pro vyhodnocování promluv dětí s vývojovou dysfázií, popřípadě afázií s popisem vhodných parametrizací a modifikace DTW algoritmu pro tyto účely. Dosavadní experimenty naznačují možnost využití metody pro objektivní posouzení nemoci a hodnocení jejího vývoje. Další práce budou zaměřeny na testování algoritmu a vlivu jednotlivých parametrizací na rozšířenějších databázích promluv, bude vyhodnocen vliv šumu na úspěšnost klasifikace. 5. Poděkování Práce je podporována granty GA ČR - 102/03/H085 Modelování biologických a řečových signálu, IGA MZ ČR - NR 8287-3/2005 Počítačová analýza řečového projevu a celonočních EEG záznamu u dětí a MŠM6840770012 Transdisciplinární výzkum v biomedicínském inženýrství 2. Reference [1] Čmejla R.: Vyhodnocování výslovnosti s využitím DTW algoritmu. Výzkumná zpráva LK01/2005, K13131, FEL ČVUT, Praha, srpen, 2005. [2] Zlatník P., Čmejla R.: Application of the DTW algorithm for disordered speech evaluation. Digital Technologies 05. University of Žilina, 2005, Slovak Republic. [3] Rabiner L., Juang P.: Fundamental of speech recognition. Prentice Hall, U.S.A., 1984. [4] Young S., et al.: The HTK Book. Version 3.2.1, Cambridge 2002, England. [5] ETSI.: European Telecommunications Standards Institute Nov. 2003, ETSI Standard, ETSI ES 202212, Version 1.1.1 France. [6] Harrington J., Cassidy S.: Techniques in speech acoustics. Kluwer Academic Publishers 1999, Netherlands. [7] Deller J. R., Hansen J. H. L., Proakis J. G.: Discrete-time processing of speech signals. IEEE Press 2000, U.S.A.. [8] Hermansky H., Morgan N.: Rasta processing of speech. IEEE Transaction on Speech and Audio Processing, Vol. 2, No. 4, pp. 587-589, October 1994, U.S.A. [9] Psutka J.: Komunikace s počítačem mluvenou řečí. Academia Praha, 1995, printed by CENTA, spol. s. r. o., Veveří 39, Brno. [10] Zlatník P., Čmejla R.: Disordered Speech Evaluation Using the DTW Algorithm. Analysis of biomedical signals and images, ISSN 1211-412X, Biosignal 2006, Brno.