ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2005

Podobné dokumenty
Lombardův efekt v řečové databázi CLSD

Analýza mozkové aktivity: inverzní úloha

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Klasifikace Landau-Kleffnerova syndromu

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

7 Další. úlohy analýzy řeči i a metody

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

Statistická teorie učení

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Úloha - rozpoznávání číslic

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Globální matice konstrukce


Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

1. Přednáška. Ing. Miroslav Šulai, MBA

Algoritmy a struktury neuropočítačů ASN - P11

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

ADA Semestrální práce. Harmonické modelování signálů

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

A2M31RAT- Řečové aplikace v telekomunikacích

v Praze mezi kanály EEG Ondřej Drbal 5. ročník, stud. sk. 9

Summer Workshop of Applied Mechanics. Vliv mechanického zatížení na vznik a vývoj osteoartrózy kyčelního kloubu

Pravděpodobnost, náhoda, kostky

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Zvýrazňování řeči pomocí vícekanálového zpracování

Využití neuronové sítě pro identifikaci realného systému

vzorek vzorek

Speciální struktury číslicových systémů ASN P12

Numerická stabilita algoritmů

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

Moderní systémy pro získávání znalostí z informací a dat

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Vektorové obvodové analyzátory

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Cvičná bakalářská zkouška, 1. varianta

Rozdělování dat do trénovacích a testovacích množin

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

Nabídky spolupráce pro průmysl

Pravděpodobnost, náhoda, kostky

A/D převodníky - parametry

Teorie náhodných matic aneb tak trochu jiná statistika

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Kybernetika a umělá inteligence, cvičení 10/11

Jednofaktorová analýza rozptylu

Přehled vhodných metod georeferencování starých map

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

SYLABUS PŘEDNÁŠKY 10 Z GEODÉZIE 1

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

Nové požadavky na zvukoměrnou techniku a jejich dopad na hygienickou praxi při měření hluku. Ing. Zdeněk Jandák, CSc.

13 Měření na sériovém rezonančním obvodu

Analýza časového vývoje 3D dat v nukleární medicíně

Lineární klasifikátory

Citlivost kořenů polynomů

Elektrofyziologické metody a studium chování a paměti

Neuronové časové řady (ANN-TS)

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

U Úvod do modelování a simulace systémů

SYLABUS 9. PŘEDNÁŠKY Z INŢENÝRSKÉ GEODÉZIE

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

PRAKTIKUM I. Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Pracoval: Pavel Ševeček stud. skup.: F/F1X/11 dne:

Analytické znaky laboratorní metody Interní kontrola kvality Externí kontrola kvality

Experimentální realizace Buquoyovy úlohy

Semestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

PARAMETRICKÁ STUDIE VÝPOČTU KOMBINACE JEDNOKOMPONENTNÍCH ÚČINKŮ ZATÍŽENÍ

Klasifikace a rozpoznávání. Extrakce příznaků

Teorie měření a regulace

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Algoritmy pro shlukování prostorových dat

Operační zesilovač, jeho vlastnosti a využití:

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

14 - Moderní frekvenční metody

7. Rozdělení pravděpodobnosti ve statistice

SIMULACE ZVUKOVÉHO POLE VÍCE ZDROJŮ

Struktura a typy lékařských přístrojů. X31LET Lékařskátechnika Jan Havlík Katedra teorie obvodů

Summer Workshop of Applied Mechanics. Závislost úhlu rozevření mužské aorty na věku a lokalizaci

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Pokročilé operace s obrazem

Úvodem Dříve les než stromy 3 Operace s maticemi

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Biofyzikální ústav LF MU Brno. jarní semestr 2011

South Bohemia Mathematical Letters Volume 23, (2015), No. 1, DĚLENÍ KRUHU NA OBLASTI ÚVOD

Automatická segmentace slov s pomocí nástroje Affisix. Michal@Hrusecky.net, Hlavacova@ufal.mff.cuni.cz

Transkript:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra teorie obvodů ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2005 Editoři sborníku Doc. Ing. Petr Pollák, CSc. Doc. Ing. Roman Čmejla, CSc. Prosinec 2005

ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2005 Editoři: Doc. Ing. Petr Pollák, CSc. Doc. Ing. Roman Čmejla, CSc. pollak@feld.cvut.cz cmejla@feld.cvut.cz Katedra teorie obvodů http://amber.feld.cvut.cz vedoucí: Prof. Ing. Jan Uhlíř, CSc. Laboratoř zpracování řeči http://noel.feld.cvut.cz/speechlab vedoucí: Prof. Ing. Jan Uhlíř, CSc. LaBiS - Laboratoř biologických signálů Společné pracoviště 3. LF UK a FEL ČVUT FEL http://amber.feld.cvut.cz/bio Laboratoř analýzy a zpracování biologických signálů České vysoké učení technické v Praze Fakulta elektrotechnická, Katedra teorie obvodů Technická 2, 166 27 Praha 6 - Dejvice vedoucí: Prof. Ing. Pavel Sovka, CSc. Výzkumná laboratoř EEG Ústav normální, patologické a klinické fyziologie 3. lékařská fakulta, Universita Karlova v Praze vedoucí: Prof. PhDr. Andrej Stančák, CSc. Poděkování: Tato publikace vznikla za podpory grantu GAČR 102/02/0124 Hlasové technologie v podpoře informační společnosti, GAČR 102/03/H085 Modelování biologických a řečových signálů a výzkumných záměrů MSM 210000012 Transdisciplinární výzkum v oblasti biomedicínského inženýrství a MSM 212300014 Výzkum v oblasti informačních technologií a komunikací. Vydalo nakladatelství ČVUT, Zikova 4, 166 36 Praha 6, v roce 2005. ISBN: 80-01-03412-7

Ediční poznámka Předložený sborník je souhrnem prací realizovaných doktorandy katedry teorie obvodů v různých aplikačních oblastech číslicového zpracování signálů. Sborník je vydáván především s cílem o zaznamenání stavu výzkumu jednotlivých výzkumných úkolů v daném kalendářním roce. Sborník navazuje na v uplynulém období vydáváné sborníky Analýza a zpracování signálů I - VI, které byly souhrnem prezentací v rámci pravidelných doktroandských prezentací. Oproti uvedené předchozí řadě sborníků je cílem této nové řady podat výklad o stavu řešení daného výzkumného úkolu v ucelenější psané podobě. V Praze 5. prosince 2005 Doc. Ing. Roman Čmejla, CSc. Doc. Ing. Petr Pollák, CSc. editoři sborníku

Předmluva Studenti doktorského studijního programu na katedře teorie obvodů si pravidelně sdělují výsledky své výzkumné práce. Ta je vesměs orientována na teorii signálů, resp. metody a algoritmy zpracování signálů v hlasových komunikacích a v biomedicínských a dalších aplikacích. Sborník, který se Vám dostává do rukou je složen z vybraných prezentací, které studenti přednesli v uplynulém půlroce v rámci doktorandských seminářů. Semináře jsou místem, kde diskuse přinášejí kritiku, nápady a podněty pro zpracování konkrétních témat disertací. Text sborníku však dává i určitý náhled na okruhy vědeckého zájmu katedry. Vědecká práce na katedře je podporována nejen institucionálními výzkumnými záměry, ale i účelově financovanými konkrétními projekty několika grantových agentur. Všem poskytovatelům podpory vědecké práce tímto sborníkem chceme poděkovat. Zájemce, které naše témata zaujmou, rádi uvítáme na našich seminářích. Jejich program pod názvem Pondělky je na internetových stránkách V Praze 12. 12. 2005. Prof. Ing. Jan Uhlíř, CSc. vedoucí katedry teorie obvodů http://amber.feld.cvut.cz/bio/

Obsah Hynek Bořil: Lombardův efekt v řečové databázi CLSD 1 Ondřej Drbal: Možnosti predikce epileptického záchvatu 7 Zdeněk Chaloupka: Algoritmus analýzy poruch řeči - metody testování a výsledky 14 Josef Mlynář: Analýza mozkové aktivity: inverzní úloha 21 Lukáš Ručkay: Použití analýzy nezávislých komponent při zpracování biologických signálů 27 Pavel Štemberk: AT&T FSM toolkit pro účely rozpoznávání řeči 36 Jiří Tatarinov: Detektory řečové aktivity založené na skrytých Markovových modelech 46 Jiří Vass: Přehled metod detekce mechanického poškození ložisek v časové oblasti 54 Martin Vondrášek: Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární implantáty 60 Petr Zlatník: Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS) 68

Hynek Bořil 1 Lombardův efekt v řečové databázi CLSD Hynek Bořil České vysoké učení v Praze, Fakulta elektrotechnická borilh@gmail.com Abstrakt: V tomto příspěvku jsou prezentovány výsledky analýz parametrů řečové databáze CLSD (Czech Lombard Speech Database). Databáze se zaměřuje na modelování Lombardova efektu (LE) pro účely zvýšení robustnosti rozpoznávání řeči v hlučném prostředí. CLSD je tvořena nahrávkami neutrální řeči a řeči produkované v několika typech simulovaného hlučného prostředí. V porovnání s jinými dostupnými databázemi zaměřenými na LE, v našem případě byla do korpusu databáze zahrnuta rozsáhlá sada foneticky bohatých slov a vět za účelem pokrytí celého fonémového slovníku českého jazyka a relativně velké množství číslovek umožňující provádění statisticky význačných rozpoznávacích testů. 1. Úvod Lombardův efekt je způsoben změnami řečových charakteristik mluvčího ve snaze o zvýšení srozumitelnosti promluvy v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f 0, změnami polohy a šířky formantových laloků (danými konfiguracemi dutin vokálního traktu), sklonem amplitudového spektra a rozložením energie v jednotlivých frekvenčních pásmech [2]. Změny některých zmíněných řečových parametrů mohou výrazně zhoršit úspěšnost rozpoznávače natrénovaného na neutrální řeči. Některé současně dostupné velké řečové databáze obsahují promluvy nahrané v prostředích s různým hlukovým pozadím (např. kanceláře, veřejná prostranství, kabiny automobilu) pro potřeby trénování a testování rozpoznávače na reálných hlučných signálech. Nepříznivé je, že u hlučných nahrávek lze těžko oddělit dopad hluku a LE na rozpoznávač (pokud není možno hluk v nahrávkách dostatečně potlačit). V některých případech navíc mluvčí promluvy spíše jen čtou, aniž by se snažili zajistit jejich srozumitelnost a reagovali na okolní hluk [3]. V případě speciálních databází zaměřených na analýzu LE, simulované hlučné prostředí je vytvořeno reprodukcí nahrávek hluků do uzavřených sluchátek na hlavě mluvčího. Tím je zajištěn vysoký odstup signálu od šumu v nahrávaném řečovém signálu [1, 4]. V tomto příspěvku jsou popsány výsledky analýz řečových parametrů na databázi CLSD [5], která byla nahrána přímo za účelem analýzy a modelování LE. 2. Popis databáze CLSD CLSD obsahuje nahrávky neutrální řeči a řeči produkované v různých typech simulovaného hlučného prostředí (hluky z kabiny jedoucího automobilu vybrané z databáze CAR2E [6], umělé pásmové šumy). Pro účely nahrávání Lombardovy řeči byla obvyklá konfigurace, při které je hluk pouštěn do sluchátek mluvčího, rozšířena o přítomnost operátora, který slyší ve sluchátkách stejný hluk smíchaný s hlasem mluvčího. Intenzita hlasu mluvčího v odposlechu operátora je snížena o úroveň odpovídající zvolené virtuální vzdálenosti mluvčího a operátora. V případě, že operátor nerozumí promluvě, vyzve mluvčího k zopakování položky.

2 Hynek Bořil Tato konfigurace motivovala mluvčí, aby se snažili docílit srozumitelnosti promluv. Ve většině případů byla volena virtuální vzdálenost 3 m a úroveň hluku 90 db SPL. V současné době CLSD obsahuje nahrávky od 26 mluvčích, kde každý se zúčastnil nahrávání v neutrálních i Lombardových podmínkách. Promluvy byly snímány close-talk a hands-free mikrofonem. Dále prezentované analýzy byly prováděny na signálech z close-talk mikrofonu. 3. Analýzy Abychom mohli posoudit míru zastoupení LE v databázi CLSD, byly analyzovány parametry, které jsou jím obvykle znatelně ovlivňovány, a to SNR (intenzita hlasu), změny v rozložení základního řečového tónu (f 0 ), pozice a šířky prvních čtyř formantových laloků, průměrné délky fonémů a slov a úspěšnost při rozpoznávání číslovek [7]. 3.1 Rozložení SNR V některých případech je nutné v průběhu nahrávání měnit citlivost mikrofonního předzesilovače, aby byl efektivně využit dynamický rozsah vstupního převodníku, tj. abychom se vyhnuli nedostatečnému vybuzení resp. přebuzení vstupního signálu při výrazných změnách hlasové intenzity mluvčího. To má za následek, že hlasovou intenzitu nelze odhadovat přímo z amplitudy signálu. Pokud ovšem můžeme hluk okolí považovat za stacionární, relativní změny hlasové intenzity mohou být odhadovány přímo z průběhu SNR. Navíc, pokud bychom znali absolutní úroveň okolního hluku, můžeme odhadnout i absolutní hlasovou intenzitu. Jelikož všechny nahrávky v CLSD byly nahrávány v kanceláři s prakticky konstantní hladinu hluku a na úrovni jednotlivých mluvčí nedocházelo ke změně pozice nahrávání, hluk zde lze považovat za téměř stacionární. Jeho absolutní hladina však nebyla v průběhu nahrávání měřena. Pro potřeby analýz bylo určováno tzv. segmentální SNR [8, 9]. 1600 CLSD Channel SNR Histograms Number of Utterances 1400 1200 1000 800 600 400 200 Close-talk Clean Hands-free Clean Close-talk LE Hands-free LE 0-10 10 30 50 70 SNR (db) Obrázek 1: Rozložení SNR v kanálech CLSD Jak je patrné z obrázku 1, kde Clean v legendě značí neutrální promluvy a LE promluvy v simulovaném hluku, u Lombardových promluv dochází k výraznému nárůstu průměrné hlasové intenzity. Průměrné SNR close-talk kanálu se v tomto případě pohybuje okolo 50 db, u neutrálních nahrávek okolo 30 db, je tedy zaručeno, že analyzované řečové parametry a rozpoznávací experimenty nebudou narušeny přítomností hluku.

Hynek Bořil 3 3.2 Základní řečový kmitočet Průběh f 0 byl analyzován v systému WaveSurfer [10]. Detekce byla prováděna ve všech znělých úsecích neutrálních a Lombardových promluv. Na obrázku 2 indexy F a M představují ženské a mužské mluvčí. Number of Frames (x 10 000) 6 5 4 3 2 1 CLSD - Fundamental Frequency Distribution Clean_F LE_F Clean_M LE_M Obrázek 2: Rozložení f 0 Spojitá čára s maximem na nižší frekvenci představuje rozložení mužského f 0 a spojitá čára s maximem na vyšší frekvenci rozložení ženského f 0 v neutrální řeči, čárkované čáry pak rozložení v Lombardově řeči. Je patrné, že při Lombardově řeči dochází v CLSD k výraznému posuvu rozložení f 0 směrem k vyšším frekvencím. Maximum rozložení mužského f 0 se při LE posouvá výše než je maximum f 0 neutrální ženské řeči, maximum ženského f 0 se pak posouvá do oblasti typického výskytu prvního formantu, což může mít výrazný negativní dopad na úspěšnost rozpoznávání, jak bude ukázáno dále. 3.3 Formanty 0 70 120 170 220 270 320 370 420 470 520 570 Frequency (Hz) Analýza formantů byla prováděna také v systému WaveSurfer. Monofónový rozpoznávač [11] natrénovaný na 70 mluvčích z databáze SPEECON byl použit pro automatické zarovnání pozic fonémů. Pro detekci pozic formantů bylo použito LPC 12. řádu. Informace o pozicích a šířkách pásem prvních čtyř formantů byly přiřazeny odpovídajícím fonémům. Na obrázku 3 jsou ukázány průměrné pozice prvních dvou formantů vybraných samohlásek v číslovkách. F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 /i/ /u/ /i'/ /u'/ /e/ /o/ CLSD - Male Vowel Formants /e'/ /a/ /o'/ /a'/ 300 400 500 600 700 800 900 F1 (Hz) F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 300 400 500 600 700 800 900 F1 (Hz) Obrázek 3: Pozice formantů vybraných samohlásek v číslovkách /i/ /u/ /u'/ /i'/ /e/ CLSD - Female Vowel Formants /o/ /e'/ /a/ /o'/ /a'/

4 Hynek Bořil Plnou čarou jsou spojeny formantové pozice samohlásek v neutrálních promluvách a čárkovanou v Lombardových promluvách. Jak u mužských, tak u ženských mluvčích je patrný výrazný posun pozic prvních dvou formantů při Lombardově řeči. U 3. a 4. formantu již změny nebyly tak systematické, proto zde nejsou uvedeny. Také výrazné posuvy šířky pásma prvního formantu byly pozorovány u některých samohlásek v číslovkách. B 1M,F značí šířku pásma prvního formantu u mužských resp. ženských mluvčích, σ značí odpovídající směrodatnou odchylku. Sloupce kurzívou značí Lombardovu řeč. Hláska B 1M (Hz) σ M (Hz) B 1M (Hz) σ M (Hz) B 1F (Hz) σ F (Hz) B 1F (Hz) σ F (Hz) /a/ 269 88 152 59 232 85 171 68 /e/ 168 94 99 44 169 73 130 49 /i/ 125 53 108 52 132 52 133 58 /o/ 239 88 157 81 246 91 158 62 /u/ 134 67 142 81 209 95 148 66 3.4 Délky formantů Tabulka 1: Ukázka změn šířky pásma prvního formantu při LE Automatické zarovnávání fonémů bylo použito také pro analýzu změn průměrných délek hlásek při Lombardově řeči. Jelikož typická délka fonému závisí slovu, ve kterém se foném nachází, srovnání bylo provedeno na úrovni jednotlivých slov. Průměrné délky fonémů a směrodatné odchylky byly určovány pro promluvy obsahující číslice. Rozdíl v délce trvání fonému ve stejném slově vysloveném v Lombardových a neutrálních podmínkách je určen T T T C2 C1 = C1 100 (%), (1) kde T Cx představuje průměrnou dobu trvání fonému v podmínkách x. Slovo Foném # N # LE T N (s) σ Tn (%) T LE (s) σ Tle (%) (%) Jedna /e/ 583 939 0.031 3.39 0.082 17.73 161.35 Dvje /e/ 586 976 0.087 7.12 0.196 15.84 126.98 Čtiri /r/ 35 241 0.041 3.00 0.089 12.92 115.92 Pjet /e/ 555 909 0.056 4.44 0.154 11.48 173.71 Sedm /e/ 358 583 0.080 7.49 0.179 19.93 122.46 Osm /o/ 310 305 0.086 3.07 0.203 27.68 135.25 Devjet /e/ 609 932 0.043 3.22 0.120 12.97 177.20 Tabulka 2: Změny délek fonémů při LE U řady fonémů v CLSD byly pozorovány systematické změny délek trvání, v některých případech docházelo ke zkracování, v jiných k prodlužování. Změny délek překračující 100 % jsou ukázány v tabulce 2. # N a # L značí počet analyzovaných neutrálních a Lombardových číslovek.

Hynek Bořil 5 3.5 Délky slov Změny délek slov byly pozorovány, ale nedosahovaly zdaleka úrovně změn u fonémů. Je to způsobeno tím, že zatímco délky některých fonémů se při LE zkracují, délky jiných se prodlužují, takže ve výsledné délce slova se tyto změny navzájem často téměř vyruší. byla určována podle rovnice (1), T zde reprezentuje délku slova. Slovo # N T N (s) σ Tn (%) # LE T LE (s) σ Tle (%) (%) Nula 497 0,397 10,94 802 0,476 15,67 19,87 Jedna 583 0,441 12,78 939 0,527 16,52 19,56 Dvje 586 0,365 11,39 976 0,423 13,82 15,87 3.6 Rozpoznávání číslovek Tabulka 3: Změny délek slov Abychom získali představu, jaký mají změny analyzovaných řečových parametrů dopad jako celek na úspěšnost neutrálního rozpoznávače, na závěr bylo provedeno rozpoznávání číslovek. Použit byl rozpoznávač zmíněný v odstavci 3.3. Testovací data byla tvořena promluvami obsahujícími izolované, opakované a opakované vázané číslovky. V tabulce 4 jsou shrnuty výsledky rozpoznávání, WRR značí úspěšnost rozpoznávání na úrovni slov (Word Recognition Rate). Typ dat Neutral F Neutral M LE F LE M Počet mluvčích 12 14 12 14 Počet číslovek 4930 1423 5360 6303 WRR 92.70% 96.20% 57.18% 83.71% Tabulka 4: Úspěšnost rozpoznávání číslovek Jelikož u mužů a žen dochází k rozdílnému posunu v řečových parametrech, úspěšnost rozpoznávání byla testována odděleně. U mužů došlo k poklesu úspěšnosti o 13,5 %, u žen o 35,5 %. Výrazně vyšší pokles u žen lze vysvětlit pozorovaným posuvem maxima rozdělení f 0 do oblasti typického výskytu prvního formantu, a dále posunem prvních dvou formantů do oblastí, ve kterých se v trénovacích datech nikdy nevyskytovaly. 4. Závěr V příspěvku byly prezentovány výsledky analýz řečových parametrů na databázi CLSD. U promluv s LE byly pozorovány výrazné změny hlasové intenzity, rozložení f 0, polohy a šířky pásma prvních dvou formantů a délek fonémů. U 3. a 4. formantu k systematickým změnám nedocházelo. Délky slov při LE zůstávaly prakticky stejné, což je způsobeno faktem, že délky některých fonémů se zkracují a u jiných prodlužují. Na závěr bylo provedeno rozpoznávání na číslovkách. U mužů klesla úspěšnost o 13,5 %, u žen o 35, 5 %. Výraznější zhoršení u žen je zřejmě způsobeno posunem f 0 a prvních formantů do oblastí, které nebyly pokryty v trénovaní množině dat rozpoznávače. Je patrné, že v CLSD je LE silně zastoupen a databáze je tedy vhodná pro jeho analýzu a modelování.

6 Hynek Bořil 5. Poděkování Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 Nové směry ve výzkumu a využití hlasových technologií, sběr dat byl podpořen grantem GAČR 102/03/H085 Modelování biologických a řečových signálů a výzkumným záměrem MSM 6840770014 Výzkum perspektivních informačních a komunikačních technologií. Reference [1] Hansen, J. H. L.: Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(2):151-170 [2] Womack, B. D., Hansen, J. H. L.: Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(1-2):131-150 [3] Bořil, H.: Recognition of Speech under Lombard Effect. Proc. 14th Czech-German Workshop on Speech Processing, Prague, Czech Republic, 2004, 110 113 [4] Chi, S. M., Oh, Y. H.: Lombard Effect Compensation and Noise Suppression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, Philadelphia, 1996, 4:2013-2016 [5] Bořil, H., Pollák, P.: Design and Collection of Czech Lombard Speech Database. INTERSPEECH-05, Lisboa, Portugal, 2005, 1577-1580 [6] Pollák, P., Vopička, J., Sovka, P.: Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, Budapest, Hungary 1999, 5:2263-6 [7] Bořil, H., Pollák, P.: Comparison of Three Czech Speech Databases from the Standpoint of Lombard Effect Appearance. Proc. ASIDE 2005, COST278 Final Workshop and ISCA Tutorial and Research Workshop, 10-11 November 2005, Aalborg, Denmark, [CD-ROM] [8] Pollák, P.: Efficient and Reliable Measurement and Evaluation of Noisy Speech Background. Proc. 11th European Signal Processing Conference EUSIPCO, Toulouse, 2002. [9] Vondrášek, M., Pollák, P.: Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency. Radioengineering, 2005, 14(1):6-11, [10] Sjölander, K., Beskow, J.: WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China 2000. [11] Young, S. et al: The HTK Book ver. 2.2. Entropic Ltd 1999.

Ondřej Drbal 7 Moznosti predikce epileptickeho zachvatu Ondrej Drbal Ceske vysoke ucen technicke v Praze, Fakulta elektrotechnicka drbalo@fel.cvut.cz Abstrakt: Epilepsie je jedna z mnoha onemocnen mozku, jakozto nejkomplexnejsho organu lidskeho tela. Toto onemocnen se projevuje motorickou nebo nemotorickou aktivitou. Clem mnoha vedcu na celem svete je predpovedet prichazejc epilepticky zachvat alespon nekolik minut dopredu tak, aby se to pacient dozvedel predtm, nez zachvat zacne. 1. Uvod Z vyhodnocovacho hlediska prace mozku je nejprehlednejsm parametrem rychlost generovan elektrickych vyboju, denovana v cyklech za sekundu (Hz) [4]. Ponevadz k elektrickemu vyboji dochaz oddelene v kazde jednotlive nervove bunce{neuronu, chceme-li merenm zskat udaj o aktualnm vykonu mozku v konkretnm casovem okamziku, je z praktickeho hlediska nutne, abychom merili cela vets ci mens neuronaln pole. To nam umoznuje zskat castecne zprumerovane hodnoty, protoze jmenovite vykony jednotlivych seskupen neuronu s ohledem na jejich konkretn funkce i lokalizaci se vzdy ponekud lis. Pomoc EEG tedy merme promenlive signaly, jejichz zdrojem jsou synchronizovane vyboje nervovych bunek, src se neuronovymi okruhy. Epilepsie je pomerne zavazne onemocnen a v jeho nasledku muze dojt ke zranen nebo dokonce smrti, kdyz pacient napr pri zachvatu upadne. Pokud by u sebe mohl nosit \krabicku", ktera by ho upozornila nekolik minut dopredu, mohl by na prichazejc zachvat zareagovat a pripravit se na nej, napr. si lehnout nebo se posadit. Samozrejme cesta k tomuto cli je dlouha a nejista. 1.1. EEG a epilepsie EEG signaly zdraveho cloveka maj charakter sumu, pricemz aktivita v pasmu delta je pomerne nzka. Vysokou aktivitu v delta pasmu, kterou nelze klasikovat jako patologickou je v prpade bezesneho spanku, v ostatnch prpadech se jedna o jev patologicky, napr. bezvedom, epilepticky zachvat... V prpade, kdy zacna epilepticky zachvat, muzeme sledovat zmeny v charakteru EEG signalu. Typu epileptickych zachvatu existuje mnoho, nicmene velmi casto muzeme detekovat tzv. komplex hrot{vlna. Velmi vysoky narust a vyska hrotu jsou zpusobeny synchronizovanym vybojem velkeho pole neuronu. V centru zachvatu dojde k vyboji a okoln neurony na tento velky vyboj odpov take vybojem - synchronne a v tuto chvli nemohou korektne vykonavat svoji funkci - prenaset dulezite signaly. Epilepticke projevy muzeme rozdelit:

8 Ondřej Drbal Motoricke projevy, ktere se tykaj svalu, tedy projevy, u kterych dochaz k pohybu. Muze dochazet ke snzen i zvysen svalove kontrakce. Nemotoricke projevy, u kterych nedochaz k pohybu, pacient pouze ct ruzne prznaky kterymkoliv ze smyslu. 2. Mozne metody predikce Hlavn otazkou je, zda je epilepticky zachvat predikovatelny. Nekter psi maj tu schopnost, ze sveho pana, na ktereho jsou zvykl a naucen, dokaz varovat nekolik minut, nekdy i hodinu pred blzcm se zachvatem. Ne kazdy pes je vsak schopen se toto naucit. To ze pes dokaze zachvat predikovat ukazuje na jeho empaticke schopnosti, ale bohuzel to jednoznacne nedokazuje, ze je zachvat z principu predikovatelny ze signalu EEG. Rozhodl jsem se, ze vyzkousm nektere metody, ktere jsem pouzil pro meren zpozden mezi signaly EEG a nektere metody, ktere jsou uvadeny v ruznych clancch. Tyto metody jsou popsany nze. 3. Vzajemna koherence Vzajemna koherence [3] 2 xy (f) = js xy(f)j 2 S x (f)s y (f) ; 0 2 xy 1 (1) udava mru presnosti odhadu vzajemneho frekvencnho spektra. Kdyz jsem pracoval na metodach pro meren zpozden mezi signaly EEG, pouzval jsem koherenci pro urcen useku spektra, kde byla linearn cast faze frekvencnho spektra. V prpade, ze v signalu byl zachvat, byla koherence v urcitem frekvencnm pasmu vysoka, v prpade signalu bez zachvatu byla koherence nzka v celem frekvencnm pasmu. To me vedlo k myslence vypoctat casovy vyvoj koherence. Takovy prubeh lze videt na obrazku 1. 1000 500 s T3 0 500 1000 1500 0 0.5 1 1.5 2 2.5 3 3.5 sample [ ] x 10 6 1 0.8 normalized γ 2 0.6 0.4 0.2 0 0 0.5 1 1.5 2 2.5 3 3.5 sample [ ] x 10 6 Obrazek 1: Vyvoj vzajemne koherence

Ondřej Drbal 9 Z prubehu je videt, ze koherence zacna vyznamne narustat az ve chvli, kdy je jiz zachvat zacna. Z toho duvodu jsem se rozhodl tuto metodu opustit a venovat se metodam jinym, ktere vykazuj dle clanku slibnejs vysledky. 4. Nelinearn analyzy 4.1. Entropie Entropii lze denovat jako urcitou mru neusporadanosti a neurcitosti systemu. Entropii lze vypoctat z jakehokoliv signalu, tedy i ze signalu EEG. Entropie je denovana jako lze vypoctat i vzajemnou entropii H(X) = H(X; Y ) = X x2 XX x2 y2 Z techto hodnot lze vypoctat tzv. vzajemnou informaci a jej normu [2] p(x) log p(x); (2) p(x; y) log p(x; y): (3) I(X; Y ) = H(X) + H(Y ) H(X; Y ) (4) jji(x; x )jj = max min + X max = min I(x; x ) (5) Tato mra informace nam udava, kolik informace v sobe signal nese. Pokud ma signal charakter sumu, je mra informace vysoka, stejne tak v prpade signalu EEG bez zachvatu. Pokud se signal zjednodus, zacne mra informace klesat, jako v prpade synchronizace EEG signalu - jako v prpade signalu EEG se zachvatem. Prubehy entropie vypadaj podle tohoto ocekavan, jak ukazuje obrazek 2. Na obrazku 3 je upraveny prubeh entropie s odpovdajcm EEG signalem. Bohuzel je videt, ze ani v tomto prpade nen videt pouhym okem nic pred zachvatem, co by davalo velke sance teto metode, ze by byla schopna zachvat predikovat. Samozrejme jsou pred zachvatem videt urcite poklesy, ale na to, abychom byli schopni urcit, ze maj opravdu neco spolecneho s blzcm se zachvatem, je treba signal dale zpracovat. Jedna z moznost je vyuzt skrytych Markovovych modelu (HMM), ale v soucasne dobe nemam na tuto statistickou analyzu dostatek signalu. 4.2. Fazovy prostor Vycslen kvantikatoru chaosu totiz vyzaduje sledovat trajektorii dynamickeho systemu ve fazovem prostoru. Takova trajektorie v dostatecne dlouhe realizaci aproximuje atraktor systemu. Z namerene casove rady jedne ci lepe nekolika stavovych promennych rekonstruujeme trajektorii tak, ze pri dodrzen jistych pozadavku zustanou zachovany podstatne vlastnosti dynamiky systemu. Trajektorii lze rekonstruovat v podstate pro libovolny signal, tedy i pro signaly EEG. Jedna z moznost, jak rekonstruovat trajektorii ve fazovem prostoru je metoda casovych zpozden. Mejme posloupnost x(t i ), ze ktere vytvorme vektor na leve strane rovnice 6

10 Ondřej Drbal 2.6 2.5 2.4 2.3 2.2 2.1 2 1.9 1.8 0 500 1000 1500 Obrazek 2: Prubeh entropie EEG signal 1500 1000 500 0 500 0.5 1 1.5 2 2.5 3 x 10 6 Entropy 2.5 2.4 2.3 2.2 2.1 50 100 150 200 250 300 350 2 64 X(t 1 ) X(t 2 ). X(t i ) Obrazek 3: Upravena entropie 3 x(t 1) x(t 1 + ) x(t 1 + 2 ) : : : x(t 1 + (m 1) x(t 75 26 = 2 ) x(t 2 + ) x(t 2 + 2 ) : : : x(t 2 + (m 1) 4... x(t 1 ) x(t i + ) x(t i + 2 ) : : : x(t i + (m 1) kde je casove zpozden a m je tzv. dimenze vnoren. 4.2.1. Volba casoveho zpozden 3 75 ; (6) Casove zpozden nesm byt ani male, protoze potom by byl rozdl mezi sousednmi stavy prlis maly, ani velke, protoze potom by se zacala ztracet souvislost mezi jednotlivymi stavy. V literature lze nalezt, ze pro urcen casoveho zpozden se da pouzt autokorelacn funkce. Hodnota casoveho zpozden se potom vol takova, pri ktere hodnota autoko-

Ondřej Drbal 11 relacn funkce klesne pod jistou mez. Bezna volba teto hodnoty je 1 =e, 1=10, 0. 4.2.2. Volba vhodne dimenze vnoren Dimenze vnoren by mela byt vets nez 2d c kde d c je denovano jako m > 2d c ; (7) ln M(r) d c = lim ; (8) r!0 ln r kde M(r) je minimaln pocet mnozin o charakteristickem rozmeru r, potrebny k pokryt zkoumaneho objektu. Ukazuje se, ze vyhodna pro EEG signaly je dimenze vnoren m = 4. Jak muze vypadat rekonstrukce trajektorie signalu EEG bez zachvatu ukazuje obrazek 4(a) a signalu se zachvatem obrazek 4(b). (a) Signal bez zachvatu (b) Signal se zachvatem Obrazek 4: Trajektorie signalu V prpade, ze nalezneme trajektorie pro kazdy segment signalu tuto trajektorii, lze z techto segmentu vypoctat tzv. korelacn hustotu [1] C(r) = 1 N 2 NX NX t 1 =1 t 2 =1 (r jx(t 1 ) X(t 2 )j); (9) Na obrazcch 5(a) a 5(b) jsou videt prubehy korelacn hustoty. Pokud se tyto signaly dale zanalyzuj pomoc Bayesovskeho detektoru, objev se 2{10 minut pred zachvatem v prubehu spicky, ktere mohou ukazovat na blzc se zachvat. 4.3. Pruchodu nulou Tato metoda je podobna metode fazoveho prostoru. Signal se opet nasegmentuje a naleznou se vsechny casy, kdy signal protnul osu x smerem nahoru. Tyto jednotlive useky jsou potom souradnice v 3D prostoru. Tyto \chomace" (obr. 6) se nasledne zpracuj obdobnym zpusobem jako u metody fazoveho prostoru a vysledny prubeh se opet zanalyzuje Bayesovskym detektorem. Vysledne prubehy pro ruzne parametry detekce jsou vyobrazeny na obrazku 7. Je videt, ze pred zachvatem se objevuj vyrazne spicky, ktere opet mohou mt souvislost s blzcm se zachvatem.

0.5 1 1.5 2 2.5 3 12 Ondřej Drbal 500 1.4 0 1.2 500 1000 1 1500 0.8 x 10 6 0.6 1.4 0.4 1.2 0.2 1 0.8 0 0.6 0.4 0.2 0.2 0.4 100 200 300 400 500 600 700 4500 5000 5500 6000 6500 7000 7500 8000 (a) Cely prubeh (b) Okol zachvatu Obrazek 5: EEG signal a korelacn hustota 100 90 80 70 60 50 40 30 20 10 0 80 60 40 20 0 0 10 20 30 40 50 Obrazek 6: Chomac 5. Testovan a srovnan Na otestovan jsem mel pouze malo signalu. Nektere z techto signalu byly dlouhe nekolik hodin, pricemz na konci byl zachvat. Metoda fazoveho prostoru i pruchody nulou vzdy nekolik minut dopredu pred zachvatem vyobrazily na svych vyslednych prubezch vyrazne spicky. Prvn dve metody jsem prestal testovat z duvodu male pravdepodobnosti uspechu. 6. Zaver V teto praci jsem popsal nektere mozne metody pro predikci epileptickych zachvatu. Podle dosavadnch testu se metody jev tak, ze pokud povedou k cli, bude pravdepodobne nutne nastavit parametry specialne pro kazdeho pacienta.

0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 Ondřej Drbal 13 500 0 500 1000 1500 x 10 5 15 10 5 0 50 100 150 200 250 300 350 400 450 10 8 6 4 2 0 50 100 150 200 250 300 350 400 450 500 8 6 4 2 0 50 100 150 200 250 300 350 400 450 500 Obrazek 7: Vysledne prubehy metody pruchody nulou Podekovan Tento projekt vznikl za podpory vyzkumneho programu Modelovan biologickych a recovych signalu c. GA CR - 102/03/H085 (Biological and Speech Signal Modelling). Reference [1] Martinerie J., Adam C., Le Van Quyen M., Baulac M., Clemenceau S., Renault B., Varela F. J. Epileptic seizures can be anticipated by non-linear analysis. NATURE MEDICINE 4 (1998), 1173{1176. [2] Palus M., Komarek V., Prochazka T., Hrncr Z., Sterbova K. Synchronization and information ow in eegs of epileptic patients. IEEE Engineering im medicine and biology 5 (2001), 65{71. [3] Sovka P., Pollak P. Vybrane metody cslicoveho zpracovan signalu, 1. ed. CVUT, 2001. [4] Svatos J. Biologicke signaly I - genese, zpracovan a analyza, 2. ed. CVUT, 1998.

14 Zdeněk Chaloupka Algoritmus analýzy poruch řeči metody testování a výsledky 1. Úvod Zdeněk Chaloupka, Jan Uhlíř České vysoké učení v Praze, Fakulta elektrotechnická chaloz1@fel.cvut.cz, uhlir@fel.cvut.cz Abstrakt: Metody testování a první výsledky algoritmu pro analýzu poruch řeči jsou prezentovány v tomto textu. Pro potřeby testování byl navržen jednoduchý algoritmus, který vyžaduje pouze správně vyslovená slova a využívá systému popisu nahrávky v HTK pro vytvoření chyby výslovnosti v promluvě. Výsledky algoritmu vedly k navrhnutí jeho modifikace. Rovněž je ukázáno porovnání přesnosti zarovnání jednotlivých parametrizací implementovaných v HTK. Významné vady v řeči se objevují u dětí ve spojitosti s onemocněním LKS (Landau- Kleffnerův Syndrom [2]). Úkolem je navrhnout algoritmus schopný určit v promluvě s řečovými defekty, projevujícími se zejména nesprávným řazením a odlišným časovým zarovnáním jednotlivých hlásek, míru postižení řeči. Byla navržena metoda založená na bázi HMM, která je schopná lokalizovat jednotlivé hlásky v promluvách a určovat jejich trvání. V předchozích pracích [3, 4] bylo ukázáno s jakou přesností je algoritmus schopen lokalizovat začátky a konce hlásek (srovnání s ručním zarovnáním), nebyla však ukázána nejvhodnější parametrizace. V tomto textu je ukázáno, která parametrizace je nejvhodnější. Důležitější částí je však bezesporu testování funkčnosti algoritmu na skutečných datech. K dispozici však není dostatek kvalitních nahrávek a navíc je problém s fonetickým přepisem (je nesnadné u skutečných nahrávek rozlišit vyslovenou hlásku). Odtud plyne snaha testovat data na uměle zdeformovaných nahrávkách. Fyzická záměna nebo vynechání hlásky však způsobí značné nespojitosti a deformace řečového signálu, proto byl vytvořen testovací algoritmus, který simuluje řečové vady jiným způsobem. 2. Trénování a testování modelů HMM Pro natrénování modelů HMM byl použit programový balík HTK [6], který obsahuje veškeré základní nástroje potřebné pro práci s modely. Vstupními daty byly vektory parametrů řečových signálů obsahujících správně vyslovená slova. Pro trénování modelů bylo použito 26 zdravých mluvčích a pro testování 16 zdravých mluvčích. Trénování probíhalo Baum-Welchovým re-estimačním algoritmem, který je implementován v HTK a jeho princip je možné najít v lit. [5]. Obrázek 1: Levo-pravý model HMM bez přeskoků

Zdeněk Chaloupka 15 Daný problém si vyžaduje testování na datech s nějakou výslovnostní vadou (těchto nahrávek je velmi málo), a proto byl k trénování použit i jiný model HMM, než jaký je obvyklý u rozpoznávačů řeči. Model pro rozpoznávače bývá většinou třístavový a bez přeskoků jednotlivých stavů (viz obrázek 1). Pro účely rozpoznávání dat s nějakou řečovou vadou (např. vynechání hlásky) by mohlo být výhodnější použít model s přeskoky, protože by model mohl rychleji přejít do nového stavu. Pro trénování jednotlivých stavů byl použit pouze monofónový model, protože bylo zjištěno, že jeho přesnost je nejlepší s množstvím dat, která máme k trénování k dispozici [4]. Prvním úkolem však je testování vhodnosti použitých parametrizací. 3. Testování parametrizací Důležitým krokem, který zajisté velmi ovlivňuje dosažené výsledky v dané úloze je parametrizace dat. Pro tuto úlohu byly vybrány parametrizace pomocí kepstrálních koeficientů (melfrekvenční, klasické), koeficientů LPC (koeficienty odrazu) a percepčních lineárních koeficientů (PLP). Ukazatelem vhodnosti jednotlivých parametrizací byla přesnost zarovnání hlásek slova pomocí HMM [4]. Přesněji to bylo procento hlásek, které byly nalezeny s odchylkou menší než 30ms od referenčního zarovnání. Algoritmus zarovnání je implementován v HTK pod názvem forced alignment a jeho princip je blíže vysvětlen např. v literatuře [4, 5]. 3.1 Porovnání přesnosti jednotlivých parametrizací Srovnání jednotlivých parametrizací probíhalo porovnáním referenčního zarovnání (vytvořené ručně v programu WaveSurfer [7]) se zarovnáním obdrženým na výstupu algoritmu z HTK (forced alignment). Výsledky jsou přehledně zobrazeny v tabulce 1. MFCC CC LPC PLP 74,19-71,18 62,50 Tabulka 1: Porovnání úspěšnosti jednotlivých parametrizací (v procentech) Z tabulky je jasně patrné, že melfrekvenční kepstrální koeficienty jsou nejvhodnější pro tento typ úlohy. Je to dáno zajisté tím, že trénovací data jsou značně zašuměná a melovské kepstrální koeficienty jsou velmi odolné proti šumu. To je zřejmě také důvodem proč kepstrální koeficienty samotné nebyly schopny vůbec zarovnat testovací data. 4. Testování algoritmu pro řečové signály s vadou Protože nemáme k dispozici dostatek dat, která by obsahovala výslovnostní chyby a labelování takové databáze by bylo velmi náročné, přistoupili jsme k vytvoření vlastního testovacího algoritmu. Myšlenka testovacího algoritmu spočívala ve využití nahrávek od zdravých dětí, které byly ručně zdeformovány. Fyzická deformace nahrávky však nepřipadala v úvahu, protože by došlo ke značným nespojitostem (např. při vyjmutí hlásky) a v řadě případů by byla technicky téměř neproveditelná (zaměnění hlásek). Samozřejmě vytvoření takové množiny testovacích nahrávek by bylo časově neúnosně náročné. Z principu funkce algoritmu využitého k zarovnávání testovacích dat vyplývá, že fonetický obsah promluvy je obsažen v jediném popisovém souboru. Tento tzv. labelovací soubor obsahuje fonetický přepis slova, aby program HTK mohl přiřadit danému slovu

16 Zdeněk Chaloupka správné modely jednotlivých hlásek. Využitím této skutečnosti je možné dosáhnout vytvoření chyby v dané nahrávce bez potřeby fyzické deformace. Otázka modelu fonému, který má být nahrazen a fonému, který bude vložen, byla vyřešena vytvořením konfusní tabulky všech modelů HMM. Konfusní tabulka porovnává v euklidovském prostoru všechny modely HMM (každého s každým) a jako náhrada byl vybrán foném nejbližší k vyjímanému. Tím byla simulována nejhorší možná varianta, která by mohla nastat. Schéma výsledného testovacího algoritmu je na obrázku 2. Pokud je již připraven soubor obsahující promluvu s chybou, je využito algoritmu uveřejněného v předchozí práci [4] pro zarovnání promluvy. Tento algoritmus nalezne časové zarovnání jednotlivých hlásek ve zkoumaném slově a vypočítá délky těchto hlásek. V dalším kroku jsou jednotlivé hlásky porovnány s jejich průměrnými délkami (vypočtenými z původních dat neobsahujících chybu) pro dané slovo a je vyhodnoceno zda je hláska v pořádku nebo ne (schéma na obrázku 2)..LAB soubor.lab soubor motovidlo chyba motividlo zarovnání v HTK délky fonémů porovnání ref. délky fonémů soubor motovidlo.wav soubor motovidlo.wav 1/0 Obrázek 2: Simulace výslovnostní chyby pro testovací algoritmus 4.1 Výsledky srovnání délek hlásek Testování algoritmu probíhalo na množině nahrávek od zdravých mluvčích (16) a průměrné délky hlásek v jednotlivých slovech byly vypočteny právě z těchto dat. Aby mohl vzniknout interval správné délky hlásky, byla vypočítána odchylka od průměru, která byla přičtena a odečtena od průměru (tím vznikne požadovaný interval). Výsledky algoritmu jsou na následující tabulce 2. Odlišné velikosti intervalů ww 2,70 6,45 6,45 gg 61,46 55,49 39,11 gw 19,36 15,60 10,98 wg 16,47 22,44 38,82 Tabulka 2: Výsledky porovnávání délek hlásek (v procentech) V tabulce znamenají zkratky ww špatné rozeznané jako špatné a gg dobré určené jako dobré. Jak lze nahlédnout z tabulky, výsledky hledání nejsou uspokojivé. Důvod je velmi jednoduchý. Porovnáme-li tímto algoritmem slova bez simulovaných vad dostáváme následující úspěšnosti: wg 32,63% a gg 67,36%. Z toho jasně vyplývá, že odchylky hlásek od jejich průměrných hodnot jsou značné a tudíž na základě délek hlásek nemůžeme určit jejich správnost. Pro analýzy poruch řeči je algoritmus porovnání délek hlásek v stávající

Zdeněk Chaloupka 17 podobě nepoužitelný. Využitím modelu, který obsahoval přeskoky jednotlivých stavů, nebylo dosaženo lepších výsledků. 5. Využití pravděpodobnostního skóre Výstupem algoritmu zarovnávání hlásek je nejen začátek a konec hlásky ve slově, ale i velikost pravděpodobnosti generované modelem hlásky. Nabízí se využít tohoto pravděpodobnostního skóre pro analýzu deformace řeči. Nutností je výsledné skóre normovat na počet segmentů, které daný model generuje, protože jinak dochází ke zkreslení výsledného skóre průchodem modelu přes více segmentů. Vyplývá to z funkce zarovnávání založené na Viterbiho algoritmu (obrázek 3). Obrázek 3: Viterbiho algoritmus 5.1 Výsledky srovnání pravděpodobnostního skóre Testovací podmínky jsou v tomto případě naprosto schodné jako v případě předchozím. Pouze se porovnává zda se změnila hodnota pravděp. skóre (ve skutečnost je to logaritmus pravděp. skóre výsledné skóre je jinak velmi malé). Předpoklad je, že velikost pravděp. skóre by měla klesat se vzrůstajícím počtem chyb. Výsledky testu jsou patrné v tabulce 3. počet chyb 1 2 1/2 úspěšnost 72,05 82,61 71,43 Tabulka 3: Nalezení slova s chybnou hláskou (v procentech) V tabulce znamená 1/2 porovnání pravděpodobnostního skóre slov s jednou a se dvěma chybami. Z tabulky je vidět, že algoritmus reaguje na vložení jiného písmene. Zde je potřeba připomenout, že změna mezi modely je velmi malá, protože za náhradu byl vybrán model nejvíce podobný nahrazovanému.

18 Zdeněk Chaloupka Algoritmus je tedy podle testu funkční a v ideálním případě by mohl být schopný dělit testovaná data do shluků (clustering). Pokud by se skutečně data shlukovala, by bylo možné pozorovat putování skóre pro slovo s více chybami do shluku dat s výslovnostní vadou a naopak. Na obrázku 4 je vyobrazeno rozdělení dat do shluků. Obrázek 4: Rozřazení pravděp. skóre do shluků, kolečko - slova bez chyb Z obrázku je jasné, že pravděp. skóre netvoří žádné shluky. Podíváme-li se do tabulky 4, lze nahlédnout, proč tomu tak je. Bez chyby Jedna chyba -722.61-714.31-640.01-668.78-774.49-832.89-631.77-638.37-693.85-725.58-646.13-664.39-694.47-688.14-611.39-622.46-609.28-610.01-572.78-592.89 Tabulka 4: Pravděp. skóre pro jednotlivá slova

Zdeněk Chaloupka 19 Rozdíl mezi pravděpodobnostním skóre slova (od různých řečníků) je daleko větší, než posun skóre pro jedno slovo bez chyby a s chybou. Data se tedy nemůžou shlukovat. Výsledky však vedou na myšlenku, že by bylo možné pozorovat posun ve výslovnosti (zlepšení/zhoršení) pro jednoho řečníka s odstupem času na pohybu pravděp. skóre. Pro testování této teze bylo použito několik reálných málo dat, která byla k dispozici. 5.2 Testování na reálných datech Testovacími daty bylo několik slov od postiženého dítěte a nahrávky byly pořizovány s několika měsíčním odstupem. Poslechovým testem byla stanovena úroveň postižení. Slovo Skóre Poslech -747.77 3 motovidlo -672.96 2-634.05 1-631.03 1 popelnice -691.34 2-717.32 3-353.87 1 sokol -374.04 2-374.69 3-482.94 3 dědeček -520.22 2-550.19 1 Tabulka 5: Testování na reálných datech, 3 značí nejvíce postižené Při testování bylo použito 11 slov a v 8 případech se poslechový test shodoval s výsledky dosažené porovnáváním pravděp. skóre, ale tím není řečeno, že algoritmus je spolehlivý. Algoritmus je nutné testovat na více reálných datech. 6. Závěr Nejvhodnější parametrizací pro tento typ úlohy a tato data se zdá být melfrekvenční kepstrální koeficienty. Je to dáno zejména tím, že trénovací data jsou dosti zasažena šumem. Byl nalezen testovací algoritmus, který byl s úspěchem použit z důvodu nedostatku dat s vadami řeči. Bylo ukázáno, že algoritmus určující vady v řeči na základě analýzy délky hlásek nemůže být funkční z důvodu velkého rozptylu délek jednotlivých hlásek pro různé řečníky. Algoritmus založený na bázi porovnávání pravděp. skóre byl již úspěšný v rozpoznávání slov se zaměněnou hláskou. Není možno jej však použít pro shlukování (clustering) dat, protože rozdíly mezi hodnotami pravděp. skóre pro jedno slovo a různé řečníky jsou značné. Testováním algoritmu na skutečných datech se ukázalo, že pro jednoho

20 Zdeněk Chaloupka mluvčího je posun výsledného skóre jasně patrný, ale bohužel nelze učinit jednoznačné závěry, protože testovacích dat bylo v době testování velmi málo. Dalším krokem tedy bude sběr testovacích dat a pro zpřesnění algoritmu budou natrénovány modely, které budou specifické pro jedno slovo a každou hlásku v tomto slově. 7. Poděkování Tato práce byla podporována z grantu IGA MZ ČR NR8287-3/2005, Počítačová analýza řečového projevu a celonočních EEG záznamů u dětí a z grantu GA ČR 102/05/0278, Nové směry ve výzkumu a využití hlasových technologií. Reference [1] STEMMER, G. - HACKER, C. - STEIDL, S. - NÖTH, E.: Acoustic Normalization of Children's Speech. In EUROSPEECH-2003, 1313-1316. [2] WARWICKER, B. - LEES, J.: Landau Kleffner Syndrome. [online]. February 2001. [cit. 2005-01-19]. <http://www.bobjanet.demon.co.uk/lks/home.html> [3] CHALOUPKA, Z. - UHLÍŘ, J.: Using Standard Algorithm and Cepstral Transformations for Analysis of Mispronounciation and Incorrect Phoneme Sequencing. In Digital Technologies 2004. Žilina: Technical University of Žilina, 2004, vol. 1, s. 44-48. ISBN 80-8070-334-5. [4] CHALOUPKA, Z.: Analysis of Mispronounciation Using Time Alignment of Phonemes. In ESSP-2005, 277-282, ISBN 3-938863-17-X. [5] YOUNG, S. The HTKBook (for HTK Version 3.1) [online]. [cit. 2005-01-19]. <http://nesl.ee.ucla.edu/projects/ibadge/docs/asr/htk/htkbook.pdf>. [6] HTK [software package]. Ver. 3.2.1. December 2002 [cit. 2005-01-19]. [7] SJÖLANDER, K.- BESKOW, J.: WaveSurfer - an Open Source Speech Tool. Proc. of ICSLP 2000, Bejing, China. 2000.

Josef Mlynář 21 Analýza mozkové aktivity: inverzní úloha Josef Mlynář České vysoké učení technické v Praze, Fakulta elektrotechnická mlynarj@centrum.cz Abstrakt: Práce se zabývá srovnáním vybraných metod řešení inverzního problému v procesu EEG zdrojové analýzy. Analýza schopnosti lokalizovat jeden dipól byla provedena na sférickém a reálně tvarovaném modelu hlavy pro metody Mimum norm, Weighted minimum norm a Loreta. Snahou bylo podchytit přesnost lokalizace v závislosti na hloubce dipólu. Analýza prokázala přímý vliv neúplného pokrytí povrchu EEG senzory na přesnost lokalizace. V práci je dále prezentována automatická metoda klasifikace polohy zdrojů pro redukci zdrojových pozic podle anatomických kriterií. 1. Úvod Jedním z hlavních trendů současné medicíny je zdrojová analýza dat, při které se snažíme ke změřené mozkové aktivitě odhadnout zdroje, které změřenou mozkovou aktivitu produkují. Výsledky zdrojové analýzy pomáhají osvětlit některé neurologické mechanizmy mozkové činnosti, mohou též pomoci při lokalizaci epileptických ložisek a jiné patologické aktivity. Proces analýzy mozkové aktivity lze shrnout do tří navazujících úloh: příprava modelů hlavy, řešení dopředného a inverzního problému. Modely hlavy geometrickou strukturou a vodivostními poměry aproximují reálné elektrické vlastnosti. Cílem dopředné úlohy je zjistit, jak definovaný zdroj (model zdrojové aktivity) ovlivní potenciál na povrchu modelu hlavy. Výstupem je tzv. lead field matice, která mapuje příspěvky vybrané konfigurace zdrojů k potenciálu dílčích povrchových elektrod. Posledním krokem je řešení inverzního problému, při kterém se snažíme ze změřeného potenciálu na povrchu hlavy odhadnout distribuci a amplitudu zdrojů. 2. Metody 2.1. Příprava dat pro inverzní řešení Během výpočtu lokalizačních úloh je nutné omezit prostor zdrojů, které se podílejí na modelované mozkové aktivitě. Základní redukce spočívá v anatomickém omezení uvažuje se prostor zdrojů obklopený povrchem mozku. U sférických modelů je řešení velmi jednoduché. U normalizovaných modelů lze koregistrovat zdrojové pozice s Talairachovým (indexovaným) atlasem. U individuálních modelů je tato operace složitější, vyžaduje koregistraci s individuálním snímkem anatomie a segmentaci mozkové tkáně, což mnohdy znamená interakci s uživatelem. Jinou možností je využití již připravených trojúhelníkových modelů. Proces přípravy zdrojů pak probíhá tak, že se generuje pravidelná mříž s

22 Josef Mlynář pevnou mezizdrojovou vzdáleností. Pomocí popisovaného algoritmu se klasifikuje pozice zdroje, a vyřadí se ty, které leží mimo požadovaný objem. Numerické řešení je podobné s řešením dopředného problému. Používá stejnou diskretizaci povrchu a popis jednotlivých elementů. Podobně jako dopředné řešení i klasifikace je plně automatická operace. 2.1.1. Klasifikace pozice v 3D prostoru Ukazuje se, že T (r q ) podle rovnice (1) je schopné rozlišit relaci pozice zdroje r q a uzavřené plochy S tak, jak definují požadavky (2). T (r q ) = t(r, r q ).ds(r) (1) S { 0; rq uvnitř S T (r q ) = 0; r q vně S (2) Po vzoru Gaussovy věty elektrostatického pole lze zkonstruovat jednoduché pole s extrémem v r q a výslednou rovnici normovat tak, že funkční hodnoty klasifikační funkce budou ležet v intervalu 0, 1. 2.2. Inverzní úloha t(r, r q ) = 1 4π (r r q ) r r q 3 Řešení inverzního problému není jednoznačné a perfektní. Naměřená data neobsahují dostatek informace pro perfektní lokalizaci zdrojů aktivity. Principem inverzních metod ([1], [2], [3], [4]) je minimalizace rozdílu mezi naměřenými daty a daty získanými řešením dopředné úlohy. Definujme V jako potenciál změřený elektrodami na skalpu, matici K jako lead field matici popisující příspěvek i-tého zdroje q i k potenciálu j-té elektrody V j a q jako vektor dipólových momentů generátorů. V = K.q (3) Odhadnutý vektor dipólových momentů ˆq hledáme ve tvaru (4), kde T = K inv je generalizovaná inverze obdélníkové matice K. ˆq = K inv.v = T.V (4) Chybová funkce Err vyjadřuje l2-normu rozdílu mezi skutečnými q a odhadnutými ˆq hodnotami intenzity generátorů aktivity. Err = q ˆq 2 = (I T.K).q 2 (5) Řešením minimalizační úlohy min{err} pro neznámou matici T je rovnice (6). Pzn.: [M] + značí Moore-Penrose pseudoinverzi matice M. T = W 1.K T.[K.W 1.K T ] + ; (6) Volba matice W odlišuje dílčí řešení. Pro bližší specifikaci parametrů Ω a B viz. [1]. Minimum Norm (MN): W = I Řešení (6) s požadavkem minimální kvadratické velikosti řešení. Chyba lokalizace zdrojů narůstá s hloubkou generátoru.

Josef Mlynář 23 Obrázek 1: Výsledek klasifikačního algoritmu. Na obrázku jsou zobrazeny zdroje (černé body), klasifikované jako intracerebrální a část povrchu mozkové tkáně. Weighted Minimum Norm (WMN): W = Ω 2 - matice Ω 2 normuje výkon, jakým se na elektrodách projeví různě hluboké zdroje. Tímto opatřením se koriguje závislost chyby na hloubce generátoru. Loreta: W = Ω.B T.B.Ω - matice B je prostorový laplacian mezi jednotlivými zdroji. Inverze způsobí upřednostnění vyhlazených řešení. Fyziologickým opodstatněním pro použití Lorety je skutečnost, že neuronová aktivita je v blízkých korových strukturách mnohdy korelovaná (současná aktivace neuronové populace). 3. Experimenty a výsledky 3.1. Klasifikace zdrojových pozic Algoritmus klasifikace zdrojů byl testován a) na sférickém trojúhelníkovém modelu za účelem ověření přesnosti b) na reálném modelu mozkové tkáně za účelem ověření robustnosti vůči různým tvarům obklopující plochy. Pro tyto experimenty byla vygenerovaná kulová plocha s průměrem 15 cm. V případě realisticky tvarované plochy byl model v reálném měřítku, složen z 1280 trojúhelníků. Prahováním klasifikační funkce T (r q ) podle rovnice (1) na 0.5 byly rozděleny zdrojové pozice do 2 skupin (uvnitř a vně plochy). Chyba klasifikace souvisí s počtem trojúhelníků, jimiž je plocha aproximována. V případě sférického objemu byl testovací zdroj posouván podle x-ové osy od středu do dvojnásobku poloměru sféry. Chyba špatně klasifikovaných zdrojů nepřesáhla 1 mm, což je v relaci s velikostí aproximujících elementů. Ověření klasifikační funkce na reálném modelu je zobrazeno na obrázku 1. Zdroje jsou rozmístěné v pravidelné kubické mřížce 51 51 51 bodů a pokrývají celý objem klasifikační vrstvy. Zdroje klasifikované jako intracerebrální jsou na obrázku vyznačeny černými body. Všechny zdroje byly klasifikovány úspěšně. Vzhledem ke skutečnosti, že výpočet klasifikační funkce používá stejné diskretizace a velmi podobného popisu, je klasifikace časově velmi efektivní.

24 Josef Mlynář 3.2. Lokalizace inverzních metod Uvedené tři metody byly vzájemně porovnány a) na sférickém modelu, za účelem srovnání přesnosti lokalizace a porovnání omezujících vlastností. b) na reálném modelu za účelem prověření pozorovaných vlastností a vlivu reálného tvaru modelu na přesnost lokalizace. Zdroje byly rozmístěny v pravidelné kubické mřížce (vzdálenost mezi zdroji: 7mm). V případě jednovrstvého sférického modelu byla lead field matice sestavena pro kouli s poloměrem r = 75 mm, konduktivitou σ = 0.33 s/m. Elektrody (111 senzorových pozic) byly rozmístěné po povrchu hraniční sféry projekcí reálných koordinát na sférický povrch. Tím je možné postihnout vliv částečného pokrytí povrchu na přesnost lokalizace. Zdrojové pozice jsou omezené objemem sféry. V případě reálného modelu byl soubor zdrojů omezen objemem mozku, z důvodů výrazné chyby lokalizace byly dále redukovány zdroje v oblasti mozečku. Pro každou zdrojovou pozici zdroje r qi, každou j-tou {x, y, z} orientaci a jednotkovou amplitudu generátoru byl spočten potenciál V = K. q ij na všech elektrodách. Ze získaného skalpového potenciálu byly odhadnuty amplitudy zdrojů ˆq = T.V. Zdroj s maximální amplitudou max(ˆq) je považován za ohnisko odhadnuté aktivity. V chybových mapách je srovnána chyba lokalizace počítaná pro ij-tý zdroj jako Err(i) = q ij max(ˆq). Rozsah barevné škály (0..9) voxelů Rozsah barevné škály (0..80) mm Obrázek 2: Minimum norm: Chybová mapa lokalizace dipólu na sférickém (vlevo) a reálném (vpravo) modelu hlavy. Po řádcích jsou zobrazeny koronální, sagitální a transversální řez. 3.3. Zhodnocení schopnosti lokalizace U metody Minimum norm lze (podle očekávání) pozorovat (obr. 2.) výrazný nárůst chyby s rostoucí hloubkou testovaného dipólu. Metoda Weighted minimum norm by měla závislost chyby na hloubce korigovat. Podle pokusů (obr. 3.) se chyba snížila, z 9 voxelů na cca 3-4 voxely. V kvalitativním srovnání Loreta (obr. 4.) lokalizuje nejpřesněji. Chyba je největší v hraniční oblasti. Na hranici zdrojové množiny není prostorový laplacian plně

Josef Mlynář 25 definovaný a chyba lokalizace podkorových zdrojů je způsobena pravděpodobně tím. Ve srovnání se zbylými dvěma metodami je Loreta nejpřesnější, maximální chyba lokalizace je okolo 2-3 voxelů. Všechny srovnávané metody mají největší lokalizační chybu v prostoru, který není pokryt elektrodami. Snížená schopnost lokalizace v těchto oblastech je patrná ve všech demonstračních obrázcích. Se zmenšením plochy pokryté elektrodami lokalizační schopnost rovněž klesá. Má-li se zhodnotit lokalizace na reálném modelu, je nutné poznamenat, že chybně odhadnuté dipóly (často centrální) bývají mylně lokalizovány v hlubších anatomických oblastech (mozeček, prodloužená mícha, spodní strana frontálních laloků). Je proto účelné omezit prostor možných dipólů tak, aby nezasahoval do těchto oblastí. 4. Závěry Práce se zabývá srovnáním metod řešení inverzního problému v procesu EEG zdrojové analýzy. Metody MN a WMN jsou ve srovnání s Loretou méně přesné, přesnost lokalizace Lorety je vykoupena vyhlazeným řešením. Všechny metody vykazují chybu v prostoru, který není pokryt elektrodami. Se zmenšením plochy pokryté elektrodami lokalizační schopnost metod klesá. U reálných modelů dochází často k parazitní aktivitě zdrojů v hlubších anatomických oblastech (mozeček, prodloužená mícha, spodní strana frontálních laloků). Je proto účelné omezit prostor možných dipólů tak, aby nezasahoval do těchto oblastí. V práci je dále prezentována automatická metoda intra-/extracerebrální klasifikace polohy zdrojů. Metoda je přesná a tvarově robustní. Narozdíl od koregistračního postupu nevyžaduje interakci s uživatelem, existuje-li model klasifikační vrstvy. Rozsah barevné škály (0..8) voxelů Rozsah barevné škály (0..80) mm Obrázek 3: Weighted MN: Chybová mapa lokalizace dipólu na sférickém (vlevo) a reálném (vpravo) modelu hlavy. Po řádcích jsou zobrazeny koronální, sagitální a transversální řez.

26 Josef Mlynář Rozsah barevné škály (0..5) voxelů Rozsah barevné škály (0..80) mm Obrázek 4: Loreta: Chybová mapa lokalizace dipólu na sférickém (vlevo) a reálném (vpravo) modelu hlavy. Po řádcích jsou zobrazeny koronální, sagitální a transversální řez. Poděkování Teoretická část práce byla podporována Grantovou agenturou České republiky (102-03- -H085) a vývoj software byl podporován Transdisciplinárním výzkumným záměrem v biomedicínckém inženýrství 2 (MSM6840770012). Reference [1] Pascual-Marqui, R.D.: Review of Methods for Solving the EEG Inverse Problem. International Journal of Boielectromagnetism, vol.1, no.1, pages 75-86, 1999; Printed Issue ISSN 1457-7857, Internet Issue ISSN 1456-7865 [2] Pascual-Marqui, R.D.; Esslen, M.; Lehmann, D.: Functional imaging with low resolution brain electromagnetic tomography (LORETA): review, new comparisons, and new validation., Japanese Journal of Clinical Neurophysiology, vol 30, pages 81-94, 2002 [3] Rahola, L.; Tissari, S.: Iterative solution of dense linear systems arising from the electrostatic integral equation in MEG., Physics in Medicine and Biology 47, pages 961-975, 2002 [4] Babiloni, F.; Babiloni, C.; Carduci, F.; Romani, G.L.; Rossini, P.M.; Angleone, L.M.; Cincotti, F.: Multimodal integration of high-resolution EEG and functional magnetic resonance imaging data: a simulation study., NeuroImage 19, pages 1-15, 2003

Lukáš Ručkay 27 Použití analýzy nezávislých komponent při zpracování biologických signálů Lukáš Ručkay České vysoké učení technické v Praze, Fakulta elektrotechnická lukas.ruckay@centrum.cz Abstrakt: Aplikace analýzy nezávislých komponent(ica) je rychle se rozšiřující oblast výzkumu a mnoho vědeckých týmu se věnuje zkoumání jejího přínosu pro slepou separaci signálů a dekonvoluci signálů odhalující nové informace o lidském mozku a těle. Cílem tohoto dokumentu je zjistit, zdali ICA je vhodná pro separaci biologických signálů jako je EEG a EMG. Neméně důležitým cílem je zjistit, zda analýza hlavních komponent(pca) je vhodná pro redukci dimenze dat pro následné zpracování ICA. Zda jsou techniky PCA a ICA vhodné pro slepou separaci signálů a za jakých podmínek ukážeme na několika aplikacích. 1. Úvod V oblasti zpracování signálů se velice často setkáváme s problémem, kdy námi naměřené signály jsou ovlivněny nějakým faktorem a neodpovídají tedy skutečným signálům. Tímto faktorem může být např. malá selektivita senzoru a tedy zaznamenaný signál reprezentuje kombinaci několika signálů. Příkladem může být např. pole senzorů(mikrofony snímající řeč od několika osob současně, nebo elektrody snímající mozkovou aktivitu EEG). V obou případech každý senzor zaznamenává signál složený ze zdrojových signálů zastoupených různou měrou. Pro analýzu signálů ovšem nestačí znát jen kombinaci zdrojových signálů, ale také samotné zdrojové signály. Separací signálů se zabývá několik metod můžeme jmenovat např. analýzu hlavních komponent(pca), analýzu nezávislých komponent(ica) nebo faktorovou analýzu. Naším hlavním cílem v oblasti zpracování biologických signálů je zvýšení rozpoznávacího skórevdatabázieegobsahujícípohybypalceamalíčkunastejnéstranětěla.ktomuje potřeba zjistit, zda je metoda ICA vhodná pro separaci biologických signálů jako je EEG nebo EMG. Dalším cílem je zjistit, zda analýza hlavních komponent(principal Component Analysis, PCA) je vhodná pro předzpracování dat pro následné použití ICA. PCA se používá pro dekorelaci signálů což snižuje výpočetní náročnost následujícího algoritmu ICAatakésepoužíváproredukcidimenzedat,cožopětvedekesníženívýpočetnínáročnosti. Posledním požadavkem je zjistit za jakých podmínek a omezení je ICA použitelná na EEG a MEG data. Všechny tyto otázky se pokusíme zodpovědět pomocí výsledků několika prací různých autorů.

28 Lukáš Ručkay 2. Aplikace ICA na biologické signály(eeg) Než ukážeme některé výsledky aplikace ICA na biologické signály je nutné jmenovat některá omezení a předpoklady pro její použití[1],[2],[3]. 1. Proudy tekoucí z různých zdrojů směrem k snímacím elektrodám jsou mixovány lineárně. 2. Časové zpoždění signálů na cestě od zdroje k elektrodě je zanedbatelné. 3. Počet hledaných nezávislých komponent(independent component, IC) je menší nebo roven počtu elektrod. 4. Nezávislé komponenty mají negaussovské rozdělení(ve skutečnosti jedna IC může mít gaussovské rozdělení). Přestože signály procházejí směrem od zdroje k elektrodě přes mozkomíšní mok, lebku a skalp, signály jsou mixovány lineárně[4],[2]. Druhý předpoklad je taktéž splněn. Zde se pouze odkážeme na[5]. Třetí bod udává omezení metody ICA, kdy můžeme pomocí této metody získat jen tolik nezávislých komponent kolik máme k dispozici signálů. Tento bod může a nemusí být omezením podle povahy daného problému. V případě kdy budeme odstraňovat pouze artefakty z EEG tak tento bod nepředstavuje problém[2]. I čtvrtý bod je splněn, neboť biologické signály i artefakty vykazují negaussovský charakter[5]. 2.1. Výsledky některých prací používající ICA Práce[6] se zabývá zvýšením koherence EEG EMG signálů pomocí ICA. Práce poukazuje naskutečnost,kdysevmnohapřípadechvyberepouzejedenkanáleegajedenkanál EMG a mezi těmito kanály je počítána koherence. Autoři práce však zvolil jiný přístup, kdypoužilimetoduicaproseparacinezávislýchkomponentjakzeegtakizemg. Nezávislé komponenty dále upravují pomocí Emperical Mode Decomposition(EMD) a touto metodou získávají Intrinsic Mode Functions(IMFs) které odhadují obálku EMG IC. Mezi těmito komponentami(emg IC IMF a EEG IC) poté počítají koherence a ukazují, žeminimálně2eegickorespondujísemgicimfsmnohemvětšívýznamnostínežpři EEG EMG koherenci. Autorům práce se podařilo zvýšit koherenci EEG EMG v pásmu 10Hza30Hz,takjakukazujeobr.1.Subjekt,jehožEEGaEMGautořipoužili,bylažena pravák. Subjekt mačkal spontánně pravou ruku po dobu 45s. EEG bylo zaznamenáno 20 elektrodami rozmístěnými podle systému 10/20 a EMG bylo snímáno 11 elektrodami. Práce[7] popisuje rozdíly mezi metodami SVD(Singular Value Decomposition) a ICA. Autoři poukazují na hlavní nedostatek SVD, který spočívá v dekompozici vektorů do ortogonálního prostoru. Naproti tomu ICA odhaluje v datech skryté vzory, které jsou vzájemně nezávislé. Dále zmiňují nedostatek ICA, který spočívá v nejednoznačnosti pořadí získaných nezávislých komponent. Autory navržený způsob seřazení nezávislých komponent je založen na výsledcích SVD a ICA. Konkrétně užívají matici vlastních čísel a dále odhad inverze mixážní matice. Z těchto matic počítají váhy jednotlivých komponent. Autoři zmiňované aspekty ukazují na simulovaných EEG a EMG datech a výsledky obou metod porovnávají. Pro simulaci rozdílů mezi SVD a ICA vytvořili 3 vrstvý model hlavy v němž umístili dipóly simulující mozkovou aktivitu. Pro snímání EEG použili 81 elektrod rozmístěných podle systému 10/20. Ke snímaným datům rovněž přidali gaussovský šum, SNR=15dB. Redukci dimenze dat provedli pomocí PCA, výběrem vlastních čísel

Lukáš Ručkay 29 Coherence 0.08 0.07 0.06 0.05 0.04 0.03 EEG IC vs. EMG IC IMF EEG F3 channel vs. EMG IC IMF EEG IC vs. surrogate EEG F3 channel vs. EMG channel (unrectified) EEG F3 channel vs. EMG channel (rectified) Coherence 0.16 0.14 0.12 0.1 0.08 0.06 EEG IC vs. EMG IC IMF EEG F3 channel vs. EMG IC IMF 0.02 0.04 0.01 0.02 0 0 10 20 30 40 50 Frequency (Hz) 0 0 10 20 30 40 50 Frequency (Hz) Obrázek 1: Významné zvýšení koherence v pásmu 30Hz(levý obrázek) a v pásmu 10Hz (pravý obrázek) při použití technik ICA(komponenty IC) a EMD(komponenty IMF). Převzatoz[6]. přesahující stanovenou mez a vlastní komponenty nakonec seřadili podle vlivu na měřená data. Ze zjištěných komponent a inverze mixážní matice autoři rekonstruují polohu zdrojového dipólu a tyto rekonstruované dipóly jsou velice blízko simulovaným zdrojům aktivity. Metodou ICA autoři dosáhli lepších výsledků než metodu SVD. Autor diplomové práce[8] se věnuje analýze nezávislých komponent v EEG datech. V prvních kapitolách stručně popisuje hlavní princip ICA a problematiku s ní spojenou. Též je ve stručnosti odvozen známý algorimus FastICA, jenž autor využívá v dalších kapitolách. V následující kapitole popisuje důvod a způsob použití ICA na EEG data. Otázkou pořadí jednotlivých komponent, která je jedna z nejednoznačností v oblasti BSS, se autor zabývá v samostatná kapitole a navrhuje vlastní způsob řešení hledání nejcenějšího párování v úplném bipartitiním grafu. Dále autor zkoumá závislost chyby odhadu komponent nadélcedatajejichentropii,neboťseukazuje,žekomponentasvyššíentropiíjehůřeodhadnutelná. Výsledky testu jsou uvedeny v několika grafech za použití FastICA algoritmu amnoharůznýchnastaveníadélekdat.aplikacíicanaeegdata,jížjeodstraňování nežádoucích artefaktů se zabývá předposlední kapitola. Autor reálná EEG data rozseparoval a znovu smíchal s umělým artefaktem simulující např mrkání oka, síťové rušení či jiný periodický signál. Ve většině případů došlo k úspěšné separaci a následnému odstranění artefaktu, pouze při malých intenzitách artefaktů byly problémy, kdy se zároveň odstranila i část užitečné informace. Poslední kapitola je věnována otázce stacionarity lineárního modelu EEG dat, kterou autor nepotvrdil ani nevyvrátil. Hlavním cílem diplomové práce[9] je analýza EEG signálů pomocí ICA. V úvodní kapitole se autor věnuje metodám zpracování EEG a poukazuje na možnost použití ICA. Ve třetí a nejobsáhlejší kapitole se autor věnuje problematice ICA, podrobně zde vysvětluje vlastnosti a chování ICA a FastICA algoritmu. Rovněž zde uvádí předzpracování dat pomocí PCA. Část kapitoly věnuje optimálnímu nastavení algoritmu FasICA, které provádí na základě několika testů. Autor zejména testuje vliv volby nelinearity a délky dat na konvergenci algoritmu. Tyto testy provádí s uměle vytvořenými daty. Takto nalezené optimální nastavení algoritmu FastICA dále používá pro zpracování EEG dat. Čtvrtá kapitola se již věnuje samotné analýze nezávislých komponent pohybového EEG snímaného na 8 zdravých lidech. 64 kanálové EEG vzorkované 500Hz obsahuje proximální a distální pohyby

30 Lukáš Ručkay pravidelně po 10s. Elektrody byly rozmístěny podle systému 10/20. Prvním krokem analýzy je odhad počtu nezávislých komponent, který autor provádí pomocí několika testů za použití PCA. Při použití 95% intervalu spolehlivosti se počet významných komponent pohybuje v intervalu 20 29 pro 10s záznam obsahující pohyb. Pro celý záznam dlouhý 270s je počet komponent o něco vyšší, 28 37. Samotnou analýzu EEG provádí pomocí frekvenční analýzy, kdy v intervalu-4.5s až-3.5s před pohybem je stanovena referenční hladina spektra. V oblasti samotného pohybu autor počítá spektrum a to normuje referenční hladinou a nakonec spektra průměruje přes celý znáznam. V experimentech používá frekvenční rozsah 5 40Hz a v tomto pásmu se objevovala synchronizce(event related Synchronization, ERS) a desynchronizace(event related Desynchronization, ERD). Některé zajímavé komponenty jsou podrobeny hlubšímu zkoumání a autor u nich poukazuje na souvislost mezi ERS, ERD a samotným pohybem. V závěru práce autor naznačuje přínos použití ICA při konstrukci automatického systému klasifikující jednotlivé komponenty za pužití skrytých Markovských modelů(hidden Markov Model, HMM). Další rozsáhlou prací je diplomová práce[3]. V úvodu se autor věnuje současnému stavu problematiky a v další kapitole popisuje PCA, EVD a SVD. Samostatná kapitola je věnována popisu ICA a statistikám vyšších řádů. Dobře známý algoritmus FastICA a gradientní algoritmus pro ICA autor popisuje v šesté, resp. sedmé kapitole. Následující kapitola je věnována experimentům se známými daty(umělé signály, popř. řečové signály).natěchtotestechautorukazuje sílu algoritmufasticaastanovujekritériapro hodnocení kvality separace užité v poslední kapitole, kde jsou experimenty s biologickými daty. V této kapitole autor používá dva algoritmy ICA(FastICA batch algoritmus a RunICA adaptivní algoritmus) pro separaci artefaktů z EEG. Artefakty byly s pomocí zpětné projekce na skalp úspěšně rozpoznány a oba algoritmy poskytovaly prakticky stejné výsledky. Autořiprací[10]a[11]sevprvnějmenovanémčlánkuzabývajíaplikacíPCAaICApro eliminaci artefaktů v EEG datech. Autoři k reálným EEG datům přidali umělé artefakty (amplitudový a síťový) a ty se posléze snažili eliminovat oběmi metodami. Dekomponované EEG vizuálně prohlédli a ručně označili některé komponenty jako nežádoucí(obsahující artefakty či rušení). Ze zbylých komponent zpětně rekonstruovali EEG. Metoda ICA poskytla lepší výsledky, protože komponenty nalezené pomocí PCA obsahovaly jak artefakty tak i část užitečného signálu. Komponenty ICA obsahovaly jen artefakty. Ve druhém článku autoři popisují metodu ICA pro zpracování EEG dat obsahující epileptické výboje. Metodou ICA izolují hrotovou aktivitu, tak že rozloží analyzované EEG na nezávislé komponenty z nichž některé obsahují hroty. Časové zpoždění hrotů v jednotlivých kanálech ICA detekuje rozložením epileptických hrotů do dvou a více komponent. Tyto vlastnosti prezentovali a ověřili na reálných EEG datech, do kterých přidali hroty s cílem simulovat epileptickou aktivitu. Autoři práce[2] popisují použití metody ICA v případě znalosti nějaké apriorní informace, což je i případ většiny neurofyziologických analýz. Metodu ICA se znalostí apriorní informace označují jako cica(temporally constrained ICA). Metoda cica je schopná nalézt komponentu, která je nezávislá a zároveň nejvíce podobná referenčnímu signálu. Tímto způsobem může být odhadnuta i jen jedna komponenta, která splňuje kritéria. To navícšetřívýpočetníčasaimplementacejemožnávreálnémčase. Blízkost komponenty a reference může být měřena pomocí korelace, MSE(Mean Squared Error) nebo jiným

Lukáš Ručkay 31 způsobem. Autoři zvolili korelaci. Obrázek 2: Odstranění ECG artefaktu z EMG pomocí cica(levý obrázek). Referenční signál je získán prahovaním měřeného signálu. Odstranění síťového artefaktu z EMG pomocí cica(pravý obrázek). Reference síťového artefaktu je vytvořena uměle. Převzato z[2]. V mnoha případech je referenční signál znám předem a proto je možné použít cica. V případě, kdy není referenční signál znám, je tento odvozen z nahraných dat např. jednoduchým prahováním, či hodnotou znaménka jak uvádějí autoři, viz. obr.2. První testy autoři provedli na umělých datech a jako reference byly použity jak původní signály (hodnotaznaménka)taki falešné signály.algoritmuskonvergovalkesprávnéhodnotě ivevětšiněpřípadů falešné reference. NareálnýchEEGaEMGdatechtéžprovedliněkoliktestůjakukazujíobr.2aobr.3. První test ukazuje levá část obr.3 a jedná se odstranění očního artefaktu(eog). Referenci představující artefakt EOG získali prahováním absolutní hodnoty signálu z vybrané elektrody(fp1). Výsledek cica i zpětně zrekonstruovaný signál je opět vidět na obrázku. Další dva testy jsou zobrazeny na obr.2, levá část ukazuje odstranění ECG artefaktu a pravá část odstranění síťového artefaktu z EMG dat. Referenci pro ECG artefakt opět získali pomocí prahování absolutní hodnoty signálu(elektroda 141), zatímco referenci pro síťový artefakt vytvořili uměle. Rekonstruované signály bez artefaktů jsou opět vidět na obrázku. Poslední test spočíval v postupném odstraňování síťového artefaktu, EOG a ECGartefaktuzMEGdat,opětjepostupvidětvpravéčástiobr.3. cica je rychlá a efektivní metoda extrakce artefaktů z mnohokanálového záznamu EEG nebo MEG a částečně řeší problém pořadí komponent. Další z uvedených prací[5] se zabývá aplikací metody ICA na identifikaci a extrakci artefaktůzeegamegdat.autořivúvoduzmiňujítradičnípřístupyextrakcerysůa redukce dimenze pomocí metod PCA, projection pursuit(pp) a faktorová analýza(factor analysis, FA). V popisovaném dokumentu se však autoři zabývají metodou ICA pro slepou separaci signálů. Ve druhé kapitole popisují model ICA a také algoritmus FastICA s redukcí dimenze pomocí PCA. Dekorelace dat je výsledek PCA, což autoři považují za nevýhodu při separaci signálů dekorelace a nezávislost je ekvivalentní pouze pro gaussovské signály a proto mohou být pomocí PCA separovány pouze signály s gaussovským rozdělením. Ve třetí kapitole se autoři zabývají platností ICA modelu na EEG a MEG

32 Lukáš Ručkay Obrázek 3: Odstranění EOG artefaktu z EEG dat(levý obrázek). Postupné odstraňování síťového,eogaecgartefaktuzmegdat(pravýobrázek).převzatoz[2]. data a rovněž ukazují nezávislost artefaktů jako je ECG nebo EOG. Též zmiňují fakt, že většinaenergieeegamegjevpásmupod1khzavýsledekřešenímaxwellovýchrovnic je ten, že časové zpoždění je zanedbatelné. Protože FastICA algoritmus zpracovává celý záznam dat, odpadá striktní požadavek na stacionaritu. Čtvrtá kapitola je již věnována analýze EEG a MEG dat. Identifikace a odstranění artefaktů je ukázáno na MEG datech. V další části textu se věnují popisu výsledků slepé separace evokovaných potenciálů. Ve vlastním testu ukazují jak může být ICA použita pro analýzu odezev při současné stimulaci somatosenzorické a sluchové oblasti. Testovaný subjekt byl stimulován dotykovými(vibrotaktilními) podněty spojenými se zvukovou reprodukcí. Metodou ICA byla sluchová a somatosenzorická aktivita oddělena do dvou prvních komponent jak ukazuje obr.4. Signál reprezentující somatosenzorickou aktivitu dosahuje svého maxima přibližně 60ms po stimulu, kdežto signál reprezentující sluchovou aktivitu později, přibližně 110ms postimulu.naobr.4jetéžuvedenosrovnánímetodicaapcaprouvedenýtestaje vidět, že PCA nedokázala jednoznačně oddělit signál a artefakt. V dalším testu se autoři pokusili dekomponovat sluchové evokované potenciály, které byly získány průměrováním. Stimulace subjektu se skládala z 200 úseků obsahující 100ms trvající tón 1kHz a cca 1s pauzuatentotónbylpřehrávánvblízkostipravéhoucha.opětpomocíicadošlok úspěšnédekompozici,kdežtospomocípcanikoli.zobr.5jevidět,žeic1aic2korespondují s odezvou typicky označenou jako N1m s charakteristickým zpožděním 100ms po stimulaci. IC1 s kratší latencí je silnější na levé hemisféře, kdežto IC2 s dominantním vlivem na N1m je silnější na pravé hemisféře. V závěru práce autoři hodnotí algoritmus FastICAjakovhodnýproextrakcirozdílnýchtypůartefaktůzEEGaMEG,dokonceiv případě kdy tyto poruchy jsou menší než mozková aktivita na pozadí. Hlavním cílem práce[12] je navrhnout model generátoru mozkové aktivity pozadí s vlo-

Lukáš Ručkay 33 (a) (b) (c) (d) (e) Obrázek 4: Výsledek aplikace FastICA na průměrnou MEG odezvu na dotykové podněty. (a) zdrojová data,(b) vybělené komponenty,(c) nezávislé komponenty,(d),(e) lokalizace prvníchdvouicdomozku.převzatoz[5]. a) b) c) d) Obrázek 5:(a) hlavní a(b) nezávislé komponenty nalezené ve sluchově evokovaných potenciálech.(c) a(d) 4 nezávislé komponenty rozkreslené do MEG záznamu z levé a pravé hemisféry. Převzato z[5]. ženými plně nastavitelnými visuálními evokovanými potenciály(vep). Druhým cílem je porovnat výsledky dekompozice modelem generovaných VEP pomocí SVD a ICA. Autoři vytvořili model hlavy jako 3D homogenní, sférický, izotropní prostor s bodovými zdroji aktivity. Typy zdrojů zvolili následující: harmonický signál, bílý šum, barevný šum a tranzientní signál. Zdroje navíc mohly mít fixní polohu nebo se pohybovat lineárně nebo otáčivě. Záznam délky 2s snímali 19 elektrodami a poté podrobili analýze SVD a ICA. Celkem75testůselišilotvaremEEGaVEP,různýmihodnotamiSNRapohybyzdrojů.Jak autoři tvrdí, ICA rozkládá signály do nezávislých a SVD do nekorelovaných komponent, ani jedna metoda však neslouží k přímé lokalizaci zdroje prostorové rozložení zůstává ukryto. K lokalizaci zdrojů je potřeba užít dalších výsledků. Schopnosti obou algoritmů analyzovali jako funkci SNR. Pro separaci použili algoritmus ICA navržený pány Bell a Sejnowski. Některá omezení a předpoklady pro správnou funkci ICA záměrně porušili v některýchtestech.metodaicanašlaveegdatechdvatypyzdrojů:jedenznichodpovídávep.z19elektrodzískali19icaztěchto19komponentvybraliicsouvisejícís

34 Lukáš Ručkay VEPnazákladětvaruazpožděnípostimulu.ProreálnáEEGdatajepotřebazískattvar VEP pomocí průměrování EMG. Dalším krokem je projekce relevantních komponent na skalp a ty, které jsou promítnuty pouze do zrakové oblasti(visual cortex), jsou relevantní. Během manuální detekce autoři odvodili pravidla pro následnou automatickou detekci VEP. Většina energie kandidátských komponent musí být v časovém intervalu aktivity oblasti V1, pro reálná EEG se tranzienta objevuje v intervalu 80 100ms po stimulu a netrvá déle než 300ms. Poté je provedena projekce vybraných komponent a ty musí padnoudooblastiv1.ztestůautořiodvodilizávěr,žestačí2icmapovanéjendooblasti V1 pro správnou detekci. V ostatních případech je potřeba brát v úvahu více komponent zasahujících do oblasti V1. Na závěr je testován čas a velikost prvního maxima a minima. Pro automatické určení maxima energie autoři počítají energie segmentů délky w a segmentsmaximálníenergiímusíbýtvintervaluvepahodnotaenergiemusíbýt p větší než v okolních segmentech. Takovýto signál je pak dobrým kandidát pro VEP. Druhý automatický krok spočívá v projekci komponent na skalp a zejména do oblasti V1. Zbytková projekce(projekce do ostatních oblastí) komponenty vyhodnocená z projekční matice musí být menší než prahová hodnota. Nevýhoda těchto kroků je ta, že používají experimentálně zjištěné konstanty. V testech použili pohyblivé zdroje, které byly dekomponovány do několika tranzientních komponent. Pro konstantní pozorovací bod a pohyblivý zdroj je amplituda signálu modulovánafaktorem1/x 2 vzávislostinavzdálenosti x.žádnýztestovanýchpohyblivých zdrojů nenarušil dekompozici dat. SVD je metoda vhodná pro odhad počtu prostorově nezávislých zdrojů nebo pro separaci zdrojů od šumu s využitím statistik druhého řádu. Pomocí SVD může být zvýšen SNR za předpokladu, že šum je stacionární a bílý(zřetelně viditelné rozdíly mezi malými a velkými vlastními čísly). Výsledkytestůjsounásledující:ze60VEPjichbylodetekováno48,u4nedošlokrozhodnutí a zbylých 8 bylo označeno chybně. V těchto číslech je zahrnuto i rozdílné SNR. Jestliže SNR původních signálů bylo 30dB, pak komponenty ICA mají téměř 30dB a komponenty SVD jen 6dB. ICA poskytuje výborné vlastnosti SNR pro případ nestacionárního šumu, SVD nikoli. Reálné EEG signály jsou nestacionární a proto autoři doporučují ICA pro analýzu. 3. Závěry Práce poskytuje alespoň částečný pohled do oblasti použití metody ICA pro analýzu a zpracování biologických signálů. Několik prací je věnováno srovnání metod ICA, PCA, SVDavšechnytytoprácesevzávěrushodujíanavrhujímetoduICAproanalýzubiosignálů. Několik dalších článků poskytuje náhled, jakým způsobem je možné metodu ICA využít pro analýzu biosignálů. Pokud autoři prováděli redukci dimenze, tak za použití metody PCA. Důležitým závěrem tedy je vhodnost techniky PCA pro redukci dimenze dat. Stejně tak autoři ve svých článcích doporučují techniku ICA pro analýzu biosignálů a v převážné většině případů používali algoritmus FastICA. Za použití algoritmu FastICA se autorům podařilo oddělit některé typy mozkové aktivity, což také potvrzuje možnost oddělení pohybové aktivity. Na základě těchto závěrů použijeme metodu ICA(algoritmus FastICA) i v naší analýze a klasifikaci EEG signálů s některými doporučeními uvedenými v textu včetně předzpracování pomocí PCA.

Lukáš Ručkay 35 Poděkování Tato práce byla podpořena výzkumným programem Transdisciplinární výzkum v biomedicínckém inženýrství 2, č. MSM 6840770012 a grantem Modelování biologických a řečových signálů, č. GAČR- 102/03/H085. Reference [1]T-P.Jung,S.Makeig,T-W.Lee,M.J.McKoewn,G.Brown,A.J.Bell,andT.J. Sejnowski. Independent Component Analysis of Biomedical Signals. In The 2nd Int l Workshop on Indeppendent Component Analysis and Signal Separation, pages 633 644, 2000. [2] C.J. James and O.J. Gibson. Temporally Constrained ICA: An Application to Artifact Rejection in Electromagnetic Brain Signal Analysis. IEEE Transaction on Biomedical Engineering, 50(9):1108 1116, September 2003. [3] T. Zeman. Blind Signal Separation. master s thesis, ČVUT FEL, březen 2000. [4] A. Hyvärinen and E. Oja. Independent Component Analysis- Algorithm and Application. Technical report, Neural Network Research Centre Helsinky University of Technology, March 2000. [5] R. Vigário, J. Särelä, V. Jousmäki, M. Hämäläinen, and E. Oja. Independent Component Approach to the Analysis of EEG and MEG Recordings. IEEE Transaction on Biomedical Engineering, 47(5):589 593, May 2000. [6] M.J. McKeown, R. Saab, and R. Abu-Gharbieh. A Combined Independent Component Analysis(ICA)/ Empirical Mode Decomposition(EMD) Method to Infer Corticomuscular Coupling. In Proceedings of the 2nd International IEEE EMBS, Conference on Neural Engineering, pages 679 682, March 2005. [7]J.Kastner,M.Fuchs,andM.Wagner. ComparisonbetweenSVDandICAaspreprocessing tools for source reconstruction. Conference Biomag2000, August 2004. [8] Z. Koldovský. Analýza nezávislých komponent v EEG datech. diplomová práce, ČVUT FJFI, 2002. [9] O. Konopka. Analýza EEG signálů pomocí ICA. diplomová práce, ČVUT FEL, březen 2005. [10] A. Černošek, V. Krajča, S. Petránek, and J. Mohylová. Praktické zkušenosti s aplikací metody analýzy nezávislých komponent a analýzy hlavních komponent pro eliminaci EEG artefaktů. Lékař a technika, 31:31 38, 2000. [11] A. Černošek, V. Krajča, J. Mohylová, and M. Matoušek. Detekce časového zpoždění hrotů v EEG signálu metodou ICA. Lékař a technika, 32:22 26, 2001. [12] M. Drozd, P. Husar, A. Nowakowski, and G. Henning. Detecting Evoked Potentials with SVD and ICA-Based Statistical Models. IEEE Engineering in Medicine and Biology Magazine, pages 51 58, January/February 2005.

36 Pavel Štemberk AT&T FSM toolkit pro účely rozpoznávání řeči Pavel Štemberk České vysoké učení technické v Praze, Fakulta elektrotechnická stembep@fel.cvut.cz Abstrakt: Předložená práce popisuje koncepci rozpoznávače řeči sestaveného pomocí AT&T nástrojů pro operace s konečnými překladovými automaty (FSM). Základní výhoda v použití konečných automatů pro stavbu rozpoznávací sítě spočívá v možnosti její optimalizace pomocí FSM nástrojů. Skryté Markovovy modely (HMM) jsou trénovány pomocí HTK nástrojů a české databáze SPEECON, na které je poté testován i rozpoznávač samotný. Zatím je Viterbiho algoritmus hledání nejpravděpodobnější cesty realizován AT&T nástrojem drecog. V závěru jsou uvedeny výsledky testů rychlosti rozpoznávače s optimalizovanou sítí pro jednu skupinu promluv (cca 100 mluvčích) a ukázka správnosti realizace rozpoznávací sítě jako porovnání úspěšnosti nástroje HVite a přípravou dat pro AT&T nástroje programem rct. 1. Úvod Významným milníkem v rozpoznávání řeči byly 80. léta, kdy se systémy pro ASR (Automatic speech recognition) začaly realizovat pomocí statistických metod na bázi HMMs (Hidden Markov models) [8]. V roce 1989 vznikla na univerzitě v Cambridge první verze HTK (Hidden Markov Model Toolkit) [11]. Jedná se o kolekci knihoven a modulů v jazyce C, které jsou nezbytné pro stavbu rozpoznávače na bázi HMM. V polovině 90. let aplikoval Mehryar Mohry [2] jako vedoucí jednoho z výzkumných týmů v AT&T laboratořích WFSTs (Weighted Finite-State Transducers) v rozpoznávání řeči [3]. K dispozici dal nástroje pro operace mezi WFST a jejich optimalizace v podobě FSM knihovny. Pro rozpoznávání samotné vyvinul knihovnu DCD, pomocí které je možné sestavit rozpoznávací síť (RN) z jednotlivých komponent v podobě WFST, nalézt nejpravděpodobnější cestu v RN pro danou vstupní promluvu a soubor HMM, převažování RN na základě akustických dat a zarovnat referenční automat s hypotetickým za použití editovatelných vzdáleností [2]. Veškeré nástroje, které dal Mohry k dispozici jsou dostupné pouze v binární formě. V případě FSM knihovny to nevadí, protože je-li RN jednou zkonstruována, pomocí naimplementovaného Viterbiho algoritmu spolu se zparametrizovanou vstupní promluvou je možné nalézt nejpravděpodobnější cestu. Odtud je jasné, že stavba vlastního Viterbiho dekodéru by měla být též součástí mé dizertační práce. Stejně i stavba jednotlivých komponent rozpoznávače pro velký seznam slov (gramatika, slovník, překladový automat kontextové závislosti a automat reprezentující HMM) je významnou součástí vytvoření rozpoznávače na bázi WFST.

Pavel Štemberk 37 2. FSM a rozpoznávání řeči Váhové automaty s konečným počtem stavů (dále jen WFSM) závisí mimo jiné na algebraické struktuře použitého semiringu [6]. Semiring (K,,, 0, 1) je tak množina K obsahující dvě matematické operace a, pro které platí 0 a = a 0 = a 1 a = a 1 = a a K. (1) Například semiringem je (N, +,., 0, 1). Váhy používané pro rozpoznávání řeči často reprezentují pravděpodobnosti. Patřičný semiring pro uvedené použití se tak nazývá pravděpodobnostní semiring (R, +,., 0, 1). Jak již bylo uvedeno v předchozí kapitole, je výhodné počítat s logaritmy pravděpodobností. Logaritmický semiring má pro tento případ tvar (R + { }, ladd, +,, 0). Pokud je používán Viterbiho algoritmus, kde se operace součtu nevyskytuje, použijeme tzv. tropical semiring (R + { }, max, +,, 0). 2.1. Váhové automaty s konečným počtem stavů (WFSA) Modely, jako je např. HMM pro rozpoznávání řeči jsou speciálním případem váhového automatu konečných stavů - WFSA. WFSA A = (Σ, Q, E, i, F, λ, ρ) (2) přes semiring K je dán vstupní množinou Σ, konečnou množinou stavů Q, konečným počtem přechodů E Q (Σ {ɛ}) K Q, počátečním stavem i Q, množinou konečných stavů F Q, počáteční váhou λ a konečnou váhovou funkcí ρ. Přechod t = (t, l(t), w(t), t + ) E může být reprezentován spojnicí ze zdrojového stavu t do cílového stavu t + s návěštím l(t) a váhou w(t), která v rozpoznávačích řeči velmi často reprezentuje logaritmus pravděpodobnosti. Cesta v A je posloupnost pospojovatelných přechodů, pro které platí t + i = t i+1, i = 1,..., n 1. (3) Návěští ɛ značí přechod nepředpokládající vstup. Úspěšná cesta π = t 1... t n je cestou z počátečního stavu i do koncového stavu f F. π má přiřazeno své návěští, pospojované z návěští jednotlivých přechodů l(π) = l(t 1 )... l(t n ) a svou váhu, což je operace mezi inicializační vahou, vahami jednotlivých přechodů a konečnou vahou ρ(t + n ) w(π) = λ w(t 1 ) w(t 2 )... w(t n ) ρ(t + n ). (4) Posloupnost symbolů x je akceptována automatem A, pokud existuje cesta π s návěštím x tak, že l(π) = x. (5) Celková váha přiřazená automatem A posloupnosti x je dána operací mezi vahami všech úspěšných cest π s posloupností jednotlivých návěští x. WFSA tak mapuje vstupní posloupnost symbolů na váhy úspěšných cest.

38 Pavel Štemberk <sil>:<sil>/1 0 1 dáma:dáma/0.5 jezdec:jezdec/0.5 2 4 na:na/0.5 na:na/0.5 5 e/1 3 pět:pět/0.5 čtyři:čtyři/0.5 6 7 <sil>:<sil>/0.5 <sil>:<sil>/0.5 8 0 č:čtyři/0.5 š:čtyři/0.5 1 t:<eps>/1 2 i:<eps>/1 3 ř:<eps>/0.5 r:<eps>/0.5 4 i:<eps>/1 5 d:dva/1 6 v:<eps>/1 7 a:<eps>/1 8 Obrázek 1: Příklady WFST 2.2. Váhové překladové automaty (WFST) Váhové překladové automaty s konečnými stavy (dále jen WFST - Weighted Finite-State Transducers) se od WFSA liší doplněním jednoduchého návěští přechodů párem (i, o) vstupního návěští i a výstupního o. WFST T = (Σ, Ω, Q, E, i, F, λ, ρ) (6) přes semiring K je dán vstupní množinou návěští Σ, výstupní množinou návěští Ω, konečnou množinou stavů Q, konečným počtem přechodů E Q (Σ {ɛ}) (Ω {ɛ}) K Q, počátečním stavem i Q, množinou konečných stavů F Q, počáteční váhou λ a konečnou váhovou funkcí ρ. Přechod t = (t, l i (t), l o (t), w(t), t + ) E může být reprezentován spojnicí ze zdrojového stavu t do cílového stavu t + se vstupním návěštím l i (t), výstupním návěštím l o (t) a vahou w(t). Definice cesty, její posloupnosti návěští a vah je shodná s WFSA. Přibyla zde posloupnost výstupních návěští úspěšné cesty a ta je dána složením jednotlivých výstupních návěští podél této cesty. Gramatika reprezentovaná na obr. 1 pomocí WFST by pomocí WFSA vypadala stejně, avšak označením přechodů by chyběly výstupní návěští. Reprezentace pomocí WFST se tak používá mnohem častěji. Na obr. 1 dole je pak znázorněn příklad slovníku mapujícího jednotlivé fonémy do slov, kde váhy coby pravděpodobnosti reprezentují věrohodnost alternativní výslovnosti. 2.3. Operace mezi WFST WFSA, resp. WFST je možné zpracovávat pomocí operací [3] [6]. Ty jsou zobrazeny v následující tabulce, kde silně vytištěné operace se často používají v rozpoznávání řeči a budou zde popsány. Všechny operace jsou popsány v [3] nebo v manuálu k libovolnému FSM toolkitu (viz dále). konstrukční operace optimalizující - identické ostatní closure A epsilon removal reverse union A B determinization inversion concatenation AB minimization FSA projection (FSM FSA) complementation Ā FSA equivalence intersection A B FSA weight pushing composition A B FST best path

Pavel Štemberk 39 Na obr. 1 je ukázka jednoduché gramatiky a lexikonu (shora). Pokud budou do lexikonu vstupem jednotlivé fonémy, výstupem z něj jsou slova, které pak použijeme jako vstup do automatu gramatiky pro zmapování dané věrohodnosti posloupnosti slov. Pokud z těchto dvou překladových automatů chceme udělat jeden, použijeme operaci skládání (composition). 2.3.1. Skládání (composition) Skládání dvou WFST R a S T = R S (7) má za následek vytvoření cesty mapující posloupnost návěští u na posloupnost w právě když WFST R mapuje posloupnost u na posl. v a současně WFST S mapuje posl. v na posl. w. Váhy jsou pak výsledkem operátoru mezi odpovídajícími přechody WFST R a S [6, 9]. Skládání se tak používá pro spojování jednotlivých částí RN. Stavy výsledného WFST c:a/0.300 a:b/0.600 0 a:b/0.100 b:a/0.200 1 2 a:a/0.400 b:b/0.5 3/0.600 0 b:c/0.300 1 a:b/0.400 2/0.699 c:b/0.900 a:c/0.400 (0,0) (1,1) c:b/0.700 (1,2) a:b/0.800 a:b/1 (3,2)/1.299 Obrázek 2: Příklad skládání dvou WFST po operaci skládání (7) jsou dány párem stavů WFST R a S pokud Počáteční stav je párem počátečních stavů R a S Koncové stavy jsou párem koncových stavů R a S Pro každý pár přechodů t R z r do r a t S z s do s existuje přechod t z (r, s) do (r, s ) tak, že výstupní návěští t R je rovno vstupnímu návěští t S Přechod t tak přebírá vstupní návěští z t R, výstupní z t S váhu jako operaci vah t R a t S. Problematika prázdných návěští ɛ je diskutována např. v [5] Na obr. 2 je příklad operace skládání [6]. Je zde použit tropical semiring, operace tak znamená součet (váhy sečteny). 2.3.2. Determinizace WFST je deterministický, pokud každý z jeho stavů má nejvýše jeden přechod pro dané vstupní návěští [6]. Obr. 3 ilustruje příklad determinizace slovníku číslovek. Jak je z obrázku vidět, determinizace zajišťuje jedinečné vstupní návěští pro přechod z každého stavu. To se po determinizaci projeví jakýmsi rozvětvením automatu. Pro WFST, resp. WFSA zde platí zachování nejnižší váhy úspěšné cesty [6]. Determinizace je identickou operací. Znamená to, že vznikající automat je ekvivalentní původnímu. Dva WFSA jsou ekvivalentní, pokud přiřazují stejné váhy pro každou možnou vstupní

40 Pavel Štemberk d:deset 1 e:<eps> 2 s:<eps> 3 e:<eps> 4 t:<eps> 5 d:dva 6 v:<eps> 7 a:<eps> 8 0 d:dvacet d:dvanáct 9 v:<eps> 10 a:<eps> c:<eps> 11 12 e:<eps> 13 t:<eps> 14 o:osm 15 v:<eps> 16 a:<eps> 17 n:<eps> 18 á:<eps> 19 c:<eps> 20 t:<eps> 21 22 s:<eps> 23 m:<eps> 24 s:<eps> 6 e:<eps> 9 t:<eps> 13 e:deset 3 c:dvacet 10 e:<eps> 14 t:<eps> 16 0 d:<eps> o:osm 1 2 v:<eps> s:<eps> 4 5 a:<eps> m:<eps> 7 8 n:dvanáct <eps>:dva 11 12 á:<eps> 15 c:<eps> 17 t:<eps> 18 Obrázek 3: Příklad determinizace lexikonu (část rozpoznávací kaskády) posloupnost. Váhy mohou být rozmístěny odlišně, váha všech možných úspěšných cest musí být zachována. Dva WFST jsou ekvivalentní, pokud mapují stejnou výstupní posloupnost a stejné váhy úspěšných cest. Rozmístění vah podél úspěšné cesty být identické nemusí. Časová náročnost je úměrná n 2, kde n je počet stavů. Je možné dokázat, že ne všechny váhové automaty jdou determinovat. Nicméně platí, že determinizovat lze každý acyklický WFSA nebo WFST [6]. Podrobný popis algoritmu je možné najít např v [3]. 2.3.3. Minimalizace Každý deterministický automat může být minimalizován. Výsledný automat B má po minimalizaci nejmenší možný počet stavů a přechodů ze všech možných deterministických automatů ekvivalentních původnímu automatu A. Minimalizace FSA je celkem výkonný <eps> d 1 v e 4 a 3 7 s n c 9 6 á 10 e c 8 t 11 0 o 2 s 5 m Obrázek 4: Příklad minimalizace determinizovaného lexikonu z obr. 3 proces; časová náročnost je zde úměrná m + n, resp. m log n pro acyklický případ, resp. obecný případ, kde m je počet přechodů a n počet stavů. Příklad minimalizace determinizovaného lexikonu z obr. 3 ilustruje obr. 4. Algoritmus minimalizace WFSA vyžaduje před minimalizací samotnou tzv. řazení vah [6, 3].

Pavel Štemberk 41 2.4. Rozpoznávací síť Rozpoznávací sítí rozumíme složení [1] kde H C L G, (8) H - WFST mapující stavy jednotlivých HMM na kontextově závislé fonémy C - WFST mapující kontextově závislé fonémy (trifóny) na kontextově nezávislé L - slovník, resp. lexikon mapující fonémy do slov G - stavový automat reprezentující gramatiku (pravděpodobnost posloupnosti slov) 2.4.1. WFST gramatiky Zjednodušený příklad gramatiky pro hru šachy je zobrazen na obr. 1 nahoře. Gramatika muže být vytvořena buď ručně, nebo pomocí nějakých dlouhých textů bez pravopisných chyb. Ve druhém případě automat gramatiky nazýváme n-gram, kde n je historie předchozích slov. Například pro n = 2 a dvě slova w1 a w2 bude automat gramatiky vypadat dle obr. 5 a. P (w) zde označuje věrohodnost výskytu slova w a P (w1 w2) věrohodnost w1:w1/p(w1 w1) w2:w2/p(w2 w2) w2:w2/p(w2 w1) 0 w1:w1/p(w1) 1 w2:w2/p(w2) w1:w1/p(w1 w2) 2 a) jedna:jedna/0.480 jedna:jedna/0.671 jedna:jedna/1.048 1/0 <eps>:<eps>/2.672 0 <eps>:<eps>/4.342 <eps>:<eps>/4.342 dva:dva/0.932 dva:dva/0.801 3/0!EXIT:!EXIT/0.124 dva:dva/0.174 dva:dva/0.442 2/0 jedna:jedna/0.833!exit:!exit/0.133 4 b) Obrázek 5: a) - Bigram pro slova w1 a w2 - princip udělování pravděpodobností, b) - Skutečná reprezentace bigramu pro 2 slova - generováno pomocí nástrojů HLStats a rct výskytu slova w1 po slově w2. Skutečná reprezentace i se vstupně-výstupními modely ticha dle [12] je pak zobrazena na obr. 5 b. 2.4.2. WFST pro lexikon WFST pro lexikon mapuje vstupní posloupnost fonémů na slova, přičemž může brát v úvahu alternativní výslovnost (např. obr. 6 dole). 2.4.3. WFST kontextové závislosti Tento WFST mapuje kontextově závislé fonémy (trifóny) na kontextově nezávislé. Automat je poměrně rozlehlý, neboť obsahuje n 2 +n+1 stavů a n 3 +2n 2 +n přechodů, kde n je počet fonémů. Na obr. 7 je z důvodů přehlednosti zobrazen WFST pouze pro dva fonémy, kde kontextově závislý foném je označen jako foném/levý kontext pravý kontext.

42 Pavel Štemberk <sil>:<sil>/0 p:p/0 1/0 2 é:<eps>/0.693 @:<eps>/0.693 3 <sp>:<eps>/0 4/0 0 e:s/0.693 s:s/0.693 5 7 s:<eps>/0 @:<eps>/0 6 8 <sp>:<eps>/0 <sp>:<eps>/0 9/0 Obrázek 6: Příklad slovníku s alternativními výslovnostmi a:a/<eps>_<eps> <sp>:<sp> <sil>:<sil> 1 a:a/a_<eps> a:a/a_a a:a/b_a a:a/b_<eps> <sp>:<sp> <sil>:<sil> a:a/<eps>_a 3 a:a/a_b b:b/<eps>_a b:b/a_a 4 0 a:a/<eps>_b a:a/b_b 5 b:b/a_<eps> b:b/b_a b:b/<eps>_b b:b/a_b b:b/b_b <sp>:<sp> 6 b:b/b_<eps> 2 <sil>:<sil> b:b/<eps>_<eps> Obrázek 7: Příklad FST kontextové závislosti; pro jednoduchost pouze pro dva fonémy a a b. Např. vstupní posloupnost a b a a bude mapována na a/ɛ b b/a a a/b a a/a ɛ a naopak, prohodíme-li vstupní a výstupní návěští automatu (tzv. inverze) 2.4.4. WFST reprezentující HMM HMM byly podrobněji popsány v předchozí kapitole. Automat musí obsahovat všechny použité modely s kontextovou závislostí. V případě rozsáhlejších systémů může v praxi jít i o cca 10000 modelů. Váhy jsou reprezentovány pomocí matice přechodů A, distribučními funkcemi b j o(t) jednotlivých vektorů pozorování o(t). Váhy je tak možné doplnit až po rozvinutí rozpoznávací kaskády do dopředné nedeterministické sítě a po ukončení promluvy. Ukázka dvou uzavřených HMM je na obr. 8 2.5. Rozpoznávání řeči s použitím WFST Konkrétní postup, který vede k vytvoření rozpoznávače založeného na FSM pomocí AT&T nástrojů a mých vlastních (rct a hdp) je možné nalézt na [12] a to včetně těchto nástrojů, resp. odkazů na ně. Měl-li bych uvedený postup stručně shrnout, vypadal by takto: 1. z vybrané posloupnosti slov (vět) generujeme bigram v ARPA formátu (backedoff state - viz obr. 5 b.), vytvoříme seznam těchto slov a seznam alternativních výslovností. Tento bigram pak převedeme do binární podoby AT&T WFST G

Pavel Štemberk 43 <sil>#0:<eps>/2.329 <sil>#0:<eps>/0.178 <sil>#1:<eps>/0.068 <sil>#2:<eps>/0.060 <eps>:<sil>/0 1 <sp>#1:<eps>/0.178 <sil>#0:<eps>/2.712 2 <sil>#2:<eps>/3.599 <sil>#1:<eps>/2.716 3 <sil>#2:<eps>/3.455 4/0 0 <eps>:<sp>/0 5 <sp>#1:<eps>/2.712 <eps>:<sp>/2.716 6/0 Obrázek 8: Příklad dvou HMM pro krátkou pauzu a ticho 2. pomocí hdp máme-li příslušný slovník, nebo nástroje pro fonetickou transkripci transc v opačném případě, spolu se seznamem alternativních výslovností vytvoříme slovník L. Z jeho souboru symbolů pomocí rct je snadné vytvořit zbývající komponenty C, L 3. nástroj z AT&T knihovny DCD dmake sestaví pomocí skládání a optimalizačních operací RN min(det(h det(c det(l G))))). (9) 4. nástroj z AT&T knihovny DCD drecog aplikuje Viterbiho algoritmus [8, 11] na výslednou RN spolu tak s daným formátem HMM modelů a vstupních zparametrizovaných promluv dá na výstupu nejpravděpodobnější posloupnost slov v AT&T FSM formátu. 5. pomocí rct je možné tento tvar výstupu převést na mlf soubor, který se dá snadno porovnat s originálním pomocí HTK nástroje HResult 3. Dosažené výsledky 3.1. Testovaná data Veškeré HMM modely byly trénovány pomocí HTK Toolkitu [11] a řečové databáze SPE- ECON (550 dospělých lidí, přibližně 200 hodin čistých promluv) z FEL ČVUT. Z důvodů úspory času jsou HMM modely natrénovány pouze na 99 lidech (cca 33 hodin čisté promluvy) a je použita pouze jedna mixture [8, 11]. Jako parametrizace je použit 39 rozměrný vektor (energie + 12 mel kepstrálních + 13 delta + 13 akceleračních koef.) na segment délky 32 ms. Jednotlivé komponenty RN (H,C,L,G) jsou zkonstruovány pomocí programu rct, kde G je realizován jako bigram z promluv uložených v mlf souboru. Zbytek potřebných dat pro AT&T nástroj drecog je realizován rovněž pomocí nástroje rct [12]. 3.2. Test rychlosti rozpoznávače Pro tento test bylo vybráno 91 lidí-promluv (cca 800 slov), zejména číslovek. Složitost WFST gramatiky realizované jako bigram je 51 stavů a 470 přechodů. Na obr. 9 je výsledek tohoto testu. Je vidět, že na takto jednoduchou gramatiku není možné hledat pozitivní výsledky bez použití klestění. Rozpoznávač s hodnotami cen klestěni pod 120 se tedy v tomto případě zdá rychlejší, než HTK nástroj HVite, kde je čas rozpoznávání 22 s a úspěšnost 82.53%.

44 Pavel Štemberk correct words & recognition time vs. prunning - drecog 0.0 40.0 80.0 120.0 160.0 200.0 240.0 120 76 100 72 recognition time [sec] 80 60 40 20 0 HVite drecog - correct words score drecog - recognition time 68 64 60 56 52 48 correct words [%] -20 44 0.0 40.0 80.0 120.0 160.0 200.0 240.0 beam prunning [-] Obrázek 9: Závislost času rozpoznávání & úspěšnosti rozpoznaných slov na klestěni slov úspěšných sl. Typ použitých všech HTK FSM CQ (ano-ne) 4 202 99% 99% CI (0-9) 11 400 95% 95% CC (0-9) 12 1991 92% 92% CB (0-9) 12 1554 94% 95% EN (nums.) 35 2744 81% 80% CE (nums.) 38 1089 84% 82% CM (curr.) 47 1426 90% 80% CL (spell) 55 2383 65% 61% CT (time) 61 1009 86% 77% CD (dates) 115 1426 90% 80% CW (i.adr.) 348 2086 63% Tabulka 1: Porovnání výsledného skóre při použití nástrojů HTK a AT&T, kde jsou jednotlivé komponenty RN realizovány programem rct 3.3. Test správnosti realizace jednotlivých komponent RN Tab. 3.3. ukazuje různé typy promluv v databázi SPEECON. Položky uváděné jako nums a 0-9 značí číslovky, curr. číslovky s měnami a i.adr internetové adresy. Rozpoznávací skóre dle očekávání klesá s rostoucím počtem použitých slov. Patrné rozdíly v úspěšnosti mezi rozpoznáváním pomocí HTK a FSM nástrojů jsou pravděpodobně důsledkem stále nedokonalé reprezentace jednotlivých komponent realizovaných programem rct. 4. Závěry V případě testu rychlosti rozpoznávání je testovaná síť příliš malá na to abychom mohli dělat nějaké závěry. Nicméně rychlejšího rozpoznávání se dá dosáhnout pomocí klestění.

Pavel Štemberk 45 Nástroj pro přípravu jednotlivých komponent RN rct je dle testů uvedených testů nutno zdokonalit na srovnatelnou úroveň úspěšnosti rozpoznávání s HTK toolkitem. Nejpropastnější rozdíly (až 10%) vznikají při použití více různých slov. Z uvedeného plyne, že další práce bude věnována možnosti rozpoznávání s obsáhlým slovníkem (klidně i 100 000 slov). Tak bude možné realizovat mnohem hodnověrnější testy rychlosti rozpoznávání, než je tento případ pro cca 12 slov. Poděkování Tato práce byla podporována grantem GAČR 102/05/0278 New Trends in Research and Application of Voice Technology, GAČR 102/03/H085 Biological and Speech Signals Modeling a výzkumným záměrem MŠMT 6840770014 Research in the Area of the Prospective Information and Navigation Technologies. Reference [1] Fernando, C.; Pereira, N.; Riley, M. Speech recognition by composition of weighted finite automata. MIT Press, Cambridge, Massachusetts (1997). [2] Mohri, M. Mohri s homepage. http://www.cs.nyu.edu/ mohri/index.html. [3] Mohri, M. Finite-state transducters in language and speech processing. Association for Computational Linguistic (1997). [4] Mohri, M. Minimization algorithms for sequential transducer. Theoretical Computer science (1997), 177 201. [5] Mohri, M.; Fernando, C.; Pereira, N. The design principles of weighted finite-state transducer library. Theoretical Computer science (2000), 17 32. [6] Mohri, M.; Fernando, C.; Pereira, N. Weighted finite state transducters in speech recognition. Computer Speech and Language (2002), 69 88. [7] Mohri, M.; Riley, M. Network optimizations for large vocabulary speech recognition. MIT Press, Cambridge, Massachusetts (1997). [8] Rabiner, L. R.; Juang, B.-H. Fundamentals of Speech Recognition. Murray Hill, New Yersey, USA, 1993. [9] Roche, E.; Schabes, Y. Finite-State Language Processing. MIT Press, USA, 1997. [10] Rogalewicz, V. Pravděpodobnost a statistika pro inženýry. Vydavatelství ČVUT, CZ, 1998. [11] Young, S. The HTK Book (for HTK Version 3.2.1). Microsoft Corporation, Cambridge University Engineering Department, USA, 2002. [12] Štemberk, P. At&t fsm toolkit pro rozpoznávání řeči. http://stembep.wz.cz/fsmhowto/index.html.

46 Jiří Tatarinov Detektory řečové aktivity založené na skrytých Markovových modelech. Jiří Tatarinov České vysoké učení technické v Praze, Fakulta elektrotechnická tatarij1@fel.cvut.cz Abstrakt: Tento článek pojednává o možnostech detekce řeči. Tradiční detektory řeší tuto úlohu pomocí klasifikátorů založených na prahování vhodných řečových charakteristik. V prezentovaném článku je použit přístup založený na statistickém modelování - skrytých Markovových modelech. Bylo navrženo několik různých klasifikátorů a na jejich základě byly sestrojeny detektory řečové aktivity. Detektory byly testovány a zhodnoceny na signálech z databáze SpeechDat. Detektory využívající skryté Markovovy modely dosahují lepších výsledků než tradiční detektory. Největší přínos prezentovaných detektorů spočívá ve zlepšení klasifikace silně zarušených signálu. 1. Úvod Detekce řečové aktivity hraje důležitou roli v oblasti zpracování řeči a je objektem současného výzkumu. Detektory řečové aktivity (Voice Activity Detector - VAD) jsou používány v průběhu rozpoznávání řeči a pro odhadování SNR (Signal to Noise Ratio). VAD jsou využívány v algoritmech zvýrazňování řeči. Jiné aplikace můžou být v oblasti komunikací, například VoIP (Voice over Internet Protokol), kde VAD slouží pro snížení nutné přenosové kapacity. To je dosaženo nepřenášením paketů obsahující ticho. Bylo také ukázáno, že VAD můžou přispět k zvětšení přesnosti rozpoznávání řeči. V běžném řečovém signálu je obvyklé velké množství přestávek v řeči. To ospravedlňuje využití oddělené klasifikace přítomnosti řeči od samotného rozpoznávání řeči. Detektor řečové aktivity je algoritmus, který určí zda je přenášený zvuk lidská řeč nebo ticho na pozadí. Obecně by se dalo říct, že pro tento účel je vhodné využít vhodnou parametrizaci řeči, která zdůrazní rozdíly mezi řeči a tichem. Často jsou používány tyto parametrizace: energie, počet průchodů nulou, kepstrální koeficienty, aj. Algoritmy detekce řeči se liší nejenom využitou parametrizací, ale i způsobem klasifikace. V tomto článku jsou studovány možnosti klasifikace pomocí skrytých Markovových modelů vhodné pro detekci řeči. Skryté Markovové modely (HMM) jsou statistické stavové automaty, které modelují prvky řeči a v úloze rozpoznávání řeči dosahují výborné výsledky. Proto jsou vhodné i pro detekci přítomnosti řeči. Tradiční energetické, spektrální, kepstrální nebo koherenční detektory využívají práh pro stanovení míry přítomnosti řeči. Nevýhoda tohoto přístupu spočívá v tom, že je nutné empiricky optimalizovat některé relevantní parametry detektoru - například konstanty

Jiří Tatarinov 47 prahování. Dále tyto algoritmy jsou citlivé na náhlé změny v krátkodobých řečových charakteristikách, což se odráží ve velkém množství krátkodobých falešných detekcí. Tento problém je obvykle řešen různými metodami vyhlazování výsledků detekce řeči. Jiný způsob může spočívat ve změně přístupu ke klasifikaci řeči. Motivací pro využití Markovových modelů je překonat nevýhody tradičních algoritmu principiálně rozdílným přístupem k rozlišení řečí od ticha (pozadí) založeném na statistickém modelování. Tradiční detektory pracují pouze s aktuálním signálem a jeho vlastnostem jsou přizpůsobeny. Naopak statistický přístup spočívá v tom, že se bere v úvahu vetší množství signálů a jejich vlastnosti jsou modelovány. To je hlavní výhoda při využití skrytých Markovových modelů. Dále většina tradičních detektorů předpokládá relativně stacionární povahu pozadí a nejsou přizpůsobené pro detekci řeči s rychleji se měnícím pozadím. Jenže šumové pozadí je často nestacionární a mění své statistické parametry v průběhu času. Výhoda detektorů založených na HMM spočívá v tom, že umožňují detekovat řeč i na šumovém pozadí obsahující rychlejší změny. Dále umožňují modelovat časový vývoj šumového pozadí, čímž můžeme zvětší citlivost detektoru na některé specifické situace, například rozjezd nebo zastavení auta, atp. Modelování uvedených situací je dosaženo použitím různých typů modelů. Stacionární pozadí může být modelováno pomocí jednostavových modelů a nestacionární proces pomocí vícestavového HMM, kde každý stav odpovídá určitému stacionárnímu úseku řeči. Tyto úvahy opravňují využití HMM pro detekci řečové aktivity. 2. Rozdělení prezentovaných detektorů řečových aktivit V tomto textu je používán pojem - segment - ve dvou různých významech. První - krátkodobý segment - odpovídá běžně používanému termínu, tj. segment, ze kterého je vypočítán jeden vektor parametrů. Druhým termínem - dlouhodobý segment - je v tomto textu myšlena posloupnost vektorů parametrů. V této práci byly navrženy detektory využívající pro klasifikaci skryté Markovové modely, přičemž byly zvoleny různé přístupy k této problematice. První přístup spočívá v tom, že je řeč nejprve klasifikována na základě příslušnosti HMM k danému dlouhodobému segmentu. Z příslušného dlouhodobému segmentu je spočítána pravděpodobnost, že segment byl generován HMM modelem. Výsledné pravděpodobnosti jsou nakonec prahovány. Detektory tohoto typu můžeme rozdělit do kategorií podle délky použitých segmentů na detektory využívající dlouhodobý segment stejné délky rostoucí délky rostoucí délky (on-line přístup) U jiných detektorů využívající Markovovy modely je detekce založená na základě průchodu sítí složené z HMM a samotná klasifikace řeči je určená pomocí příslušností stavů (modelů) sítě k segmentu řeči zjištěná pomocí token passing algoritmu.

48 Jiří Tatarinov 2.1. Detektory založené na prahování HMM pravděpodobností Tato třída algoritmů je založená na modelování úseků řeči pomocí jednoho nebo více HMM. Jeden model obvykle odpovídá úsekům šumového pozadí a druhý model úsekům řeči. Ohodnocení míry přítomnosti řečí je prováděno v pravidelných intervalech pro dlouhodobé segmenty stejné nebo rostoucí délky. Tímto ohodnocením je myšlen výpočet HMM pravděpodobnosti, tj. pravděpodobnosti, že HMM generuje příslušný úsek řeči nebo šumu. Výstupem jsou vektory pravděpodobností příslušné ke každému segmentu řeči. V případě, že byl použit pouze jeden model šumu může být prahována přímo tato pravděpodobnost. Pro situaci, kdy byly využity modely dva - model řeči a model šumu - jsou pravděpodobnosti nejprve vzájemně odečteny a výsledný rozdíl je prahován. Tyto vektory, které jsou prahovány, jsou označeny jako kriteriální funkce. 2.1.1. Kriteriální funkce Kriteriální funkce jsou vypočítány pomocí následujících vztahů Je-li použit jeden model šumu λ N f[n] = log(p (O λ N )) (1) Pro dva modely šumu λ N a řeči λ S 2.1.2. Výpočet HMM pravděpodobnosti f[n] = log(p (O λ S )) log(p (O λ N )) (2) Dopředná procedura (forward procedure) může být využita pro výpočet HMM pravděpodobnosti P (O t λ) ze segmentu délky t. Pro daný segment je t konstantou. Někdy je nutné získat pravděpodobnosti z více segmentů rostoucí délky, abychom dostali posloupnost pravděpodobností P l t=1(o t λ) = P (O 1 λ), P (O 2 λ),, P (O l λ). (3) Tuto posloupnost bychom mohli získat opakovaným využíváním dopředné procedury. V praxi by to ovšem bylo zbytečně výpočetně náročné, proto byla využita následující upravená dopředná procedura 1. Nastavení počátečních hodnot 2. Následující prvek α 1 (i) = π i b i (o 1 ), 1 i N (4) [ N ] α t+1 (j) = α t (i)a ij b j (o t+1 ), (5) i=1 N P (O t+1 λ) = α t+1 (i) (6) i=1

Jiří Tatarinov 49 2.1.3. Klasifikace Jak bylo výše uvedeno, klasifikace probíhá pomocí prahování. Pro výpočet prahu existuje několik metod vodných pro online nebo offline využití. V prezentovaných algoritmech byla využita procedura vhodná pro offline využití. Výpočet prahu je proveden z a% nejmenších hodnot a b% nejvyšších hodnot vektoru parametru, ze kterých je vypočteno µ a a µ b. Práh T hr je získán z následujícího vztahu T hr = l(µ b µ a ) + µ a, l (0, 1) (7) Je-li vypočten práh, samotná klasifikace je provedena tak, že segmenty, kde f[n] > T hr jsou označeny jako ticho a segmenty, kde f[n] < T hr jsou označeny jako řeč. Nyní známe všechny důležité bloky využity v jednotlivých detektorech, jejichž struktura je vysvětlena v následujících sekcích. 2.1.4. Detektor využívající segmenty stejné délky (FL) Tento detektor analyzuje HMM pravděpodobnosti z posunovaných dlouhodobých segmentů stejné délky z jednoho nebo dvou modelů. Algoritmus je následující 1. Inicializace - Úvodní nastavení parametrů modelů ticha a λ N a řeči λ S. 2. Trénování - Trénování pomocí Baum-Welchova algoritmu. 3. Kriteriální funkce - Výpočet kriteriální funkce pomocí vztahů (1) a (2). 4. Klasifikace - Je využita metoda prahování popsána vztahem (7), detekce a vyhlazení mediánovým filtrem. 2.1.5. Detektor využívající segmenty rostoucí délky (IL) Nevýhoda předchozího postupu spočívá právě v použitém dlouhodobém segmentu statické délky. Nejvyšší HMM pravděpodobnosti bude dosaženo, je-li vyhodnocována část signálu shodná s trénovacími daty. Vliv má i délka vyhodnocovaných (trénovacích) segmentů. Délky vyhodnocovaných a trénovacích segmentů se ovšem liší, a proto má smysl optimalizovat délku segmentu. Jedna z možností řešení tohoto problému by bylo vypočítat HMM pravděpodobnosti segmentů všech možných délek a posunutí. Tato úloha by ovšem byla velmi výpočetně náročná, proto posunutí a délky segmentů budou počítány pouze pro dané intervaly. Algoritmus je definován v následujících bodech 1. Inicializace - Úvodní nastavení parametrů modelu ticha λ N. 2. Trénování - Trénování pomocí Baum-Welchova algoritmu. 3. HMM pravděpodobnosti - Jsou počítány pro všechny segmenty O se, kde s je začátek segmentu a e značí konec segmentu. Získáme posloupnosti pravděpodobností pomocí upravené dopředné procedury P k=n/p,s=n,e=n k=1,s=kp,e=s (O se λ) = P (O 11 λ), P (O 12 λ),, P (O 1N λ), P (O pp λ), P (O p(p+1) λ),, P (O pn λ), P (O (2p)(2p) λ), P (O 2p(2p+1) λ),, P (O (2p)N λ),. P (O NN λ) = P SE (O se λ), (8)

50 Jiří Tatarinov kde p je délka intervalu posunutí. Obrázek 1: Rozpoznávací gramatika. 4. Kriteriální funkce - Posloupnosti HMM pravděpodobností jsou nejprve diferencovány, abychom dostaly měřítko změn pravděpodobností PD SE (O se λ) = diff(p SE (O se λ), d), (9) kde d je řád použité diference. Kriteriální funkce je pak definována f[n] = f[e] = max(p d (s, e)). (10) s 5. Klasifikace - Je využita metoda prahování popsána vztahem (7), detekce a vyhlazení mediánovým filtrem. 2.1.6. On-line detektory využívající segmenty rostoucí délky (On-line IL) Nevýhoda předchozího algoritmu spočívá v příliš velké výpočetní náročnosti. Tomu by se mohlo předejít zmenšení počtu segmentů jejichž pravděpodobnost je počítána. To může být dosaženo dynamickým nastavením kroku posunutí začátku segmentu. O délce posunutí rozhoduje vývoj pravděpodobností v závislosti na délce okénka. Rozhodovací pravidlo je formulováno pomocí následujících vztahů D(t) = log[p (O t λ)] log[p (O t 1 λ)] (11) Pokud je diference menší než konstanta C d, D(t) < C d, nastavíme současný index jako začátek nového segmentu. 2.2. Detektory řeči založené na token passing algoritmu (TPA) Detekce je založena na základě sledování průchodem sítě složené z modelů ticha a řeči vycházející z gramatiky ukázané na obrázku. Průchod sítí je zjištěn pomocí token passing algoritmu. V podstatě se jedná o upravené rozpoznávače řeči. Narozdíl od nich je však nutné trénovat modely na olabelovaných datech, kde musí být známy časové okamžiky začátků a konců promluv. Hlavní výhodou této třídy detektorů je nejenom jejich vysoká přesnost, ale i průběh výstupní detekční funkce, která již nepotřebuje další vyhlazení. Tuto skutečnost vidíme na obrázku, kde je výstup porovnán z výstupem kepstrálního detektoru, který je založen na prahování. 3. Experimenty S výše prezentovanými detektory byla provedená řada experimentů. Pro tyto experimenty byla použita databáze SpeechDat(E), která byla nahrávána v tichém prostředí. Experimenty byly provedeny na datech s rozdílným odstupem signálu od šumu. Rozdílný odstup

Jiří Tatarinov 51 8 6 4 2 0-2 3 4 5 6 7 8 Time [s] TPA VAD Prahovací VAD Obrázek 2: Ukázka výstupu detektorů. signálu od šumu byl dosažen umělým smícháním čistých nahrávek se skutečným rušením nahraným v autě. Všechny experimenty vyžadovaly úvodní natrénování HMM. K tomu byla použita trénovací množina skládající se z 685 vět čtených dospělými muži a ženami složených z 10ti různých číslic. Pro testování byla použita množina obsahující 160 vět stejného druhu. Množiny byly vzájemně odlišné. Pro trénování bylo nutné olabelovat vstupní řečové signály, což bylo provedeno pomocí zarovnání (forced alignment). Porovnání výsledků prezentovaných detektorů bylo uděláno s ručně olabelovanými signály. Výsledky prezentovaných detektorů byly porovnány s výsledky kepstrálního detektoru. Pro porovnání detektorů byly zvoleny tyto parametry: správně detekovaná řeč - P (A/S), správně detekované ticho - P (A/N), rozlišení řeč/ticho definované a správná detekce definována P (A) = P (A/S)P (S) + P (A/N)P (N) (12) P (B) = P (A/S)P (A/N), (13) kde P (S) a P (N) jsou poměr počtů segmentů řeči a ticha k celkovému počtu segmentů. U tradičních detektorů založených na prahování bylo použito 16 kepstrálních koeficientů počítaných z okének (krátkodobý segment) délky 8 a 32 ms. Posun byl vždy 4 ms. U detektorů ohodnocujících segmenty vektorů parametrů pomocí HMM bylo použito pouze 5 kepstrálních koeficientů. Všechny zde použité kepstrální koeficienty byly vypočítány pomocí DFT. U detektorů využívající token passing algoritmus byly použity mel-kepstrální koeficienty (MFCC O D A, tj 12 mel-kepstrálních koeficientů včetně nultého koeficientu, 12 akceleračních a delta koeficientů) vypočítaných z okének délky 25 ms s posunem 10 ms. 3.1. Výsledky experimentů Výsledky experimentů jsou na obrázcích 3, 4, 5 a 6, kde jsou pro každou konfiguraci a SNR vypočteny střední hodnoty a standardní odchylky z výsledků dosažených na testovací množině. Z obrázků je vidět, že téměř všechny detektory založené na HMM překonávají kepstrální detektor. HMM detektory (kromě FL) dosáhly velmi dobré výsledky správné detekce řeči. Naopak kepstrální detektor a detektor FL dosahují lepších výsledků při detekci pauz. Všechny detektory dosahují horších výsledků pro řeč nižším SNR než u řeči s vyšším SNR. Tato závislost je významná zvláště u kepstrálních detektorů - čím nižší je SNR signálů, tím větší je rozdíl mezi HMM detektory a kepstrálním detektorem. Použití

52 Jiří Tatarinov 1 1 0.9 0.95 0.9 0.8 0.85 P(A S) 0.7 0.6 P(A N) 0.8 0.75 0.7 0.5 0.4 0.3 VAD FL VAD IL On-line VAD IL Kepstrální VAD 8ms Kepstrální VAD 32ms 0 5 10 15 20 25 30 SNR [db] 0.65 0.6 0.55 0.5 VAD FL VAD IL On-line VAD IL Kepstrální VAD 8ms Kepstrální VAD 32ms 0 5 10 15 20 25 30 SNR [db] Obrázek 3: P (A S) Obrázek 4: P (A N) 1 1 0.95 0.9 0.9 0.85 0.8 0.8 0.7 P(A) 0.75 P(B) 0.6 0.7 0.65 0.6 0.55 VAD FL VAD IL On-line VAD IL Kepstrální VAD 8ms Kepstrální VAD 32ms 0 5 10 15 20 25 30 SNR [db] 0.5 0.4 0.3 VAD FL VAD IL On-line VAD IL Kepstrální VAD 8ms Kepstrální VAD 32ms 0 5 10 15 20 25 30 SNR [db] Obrázek 5: P (A) Obrázek 6: P (B) většího počtu směsí se odrazilo ve zlepšení výkonnosti HMM detektoru. Největší rozdíl mezi kepstrálním detektorem a nejúspěšnějším HMM detektorem je u signálů s SNR = 0, a to až o 30%. Nejlepší výsledky byly dosaženy pomocí detektoru využívající token passing algoritmus. 4. Závěry Tento článek prezentoval možnosti detekce řeči pomocí skrytých Markovových modelů. Bylo navrženo několik různých klasifikátorů a na jejím základě byly sestrojeny detektory řečové aktivity. Výsledky navržených detektorů byly srovnány s výsledky kepstrálního detektoru. Detektory využívající HMM byly úspěšnější u řečových signálů s nízkým SNR. Nejlepší výsledky byly dosaženy pomocí detektoru využívající token passing algoritmus. Detektory využívající HMM dosáhly stejné nebo lepší výsledky než kepstrální detektor. Přínos jednotlivých detektorů je shrnut v následujících bodech Detektor řeči založené na token passing algoritmu - Navržený detektor je velmi odolný ke krátkodobým změnám řečových charakteristik. Není nutné vyhlazování výstupu detektoru. VAD je úspěšný při nízkém SNR a robustnost k šumu je vysoká. U signálu z nízkým SNR = 0 dosahuje lepších výsledku než kepstrální detektor až o 30 procent.

Jiří Tatarinov 53 Detektor využívající segmenty stejné délky - Tento detektor umožňuje zohlednit časový vývoj vektorů parametrů, čímž je dosaženo lepší klasifikace pro pozadí obsahující rychlé změny. Oproti předchozímu detektoru je implementace jednoduší a umožňuje on-line detekci, protože není nutné provádět zpětné stopování, které je součástí token passing algoritmu. VAD je úspěšný hlavně při nízkém SNR. U signálů s vyšším SNR dosahuje stejných výsledků jako kepstrální detektor. Detektor využívající segmenty rostoucí délky - Při porovnání s předchozím detektorem je zde umožněno přesněji přízpůsobit délku okna rozpoznávané části signálu a tím zvýšit přesnost klasifikace. Detektor byl úspěšný u řeči s nízkým SNR. Nevýhoda tohoto detektoru je velká výpočetní náročnost. On-line detektor využívající segmenty rostoucí délky - Tento detektor vychází z předchozího detektoru a má nižší výpočetní náročnost dosaženou pomocí dynamického nastavení velikosti segmentu. V další práci bych se chtěl soustředit na podrobnější zhodnocení výhod a nevýhod prezentovaných detektorů a otestovat je na různých typech šumových signálů. Dále bych chtěl upřesnit, ve kterých případech detekce selhává, pomocí podrobnější analýzy výstupu navržených detektorů Chtěl bych se zaměřit na možnosti využití ergodických modelů a porovnat výstupy zde navržených detektorů s ITU-T G.729. Poděkování Prezentovaná práce byla podporována granty GAČR 102/05/0278 New Trends in Research and Application of Voice Technology, GAČR 102/03/H085 Biological and Speech Signals Modeling a MSM 6840770014 Research in the Area of the Prospective Information and Navigation Technologies. Reference [1] McKinley, B.; Whipple, G. H. Model based speech pause detection. [2] Pollák, P.; Sovka, P. The study of speech/pause detectors for speech enhancement methods. [3] Pollák, P.; Sovka, P.; Uhlíř, J. Cepstral speech/pause detectors. [4] Rabiner, L. R.; Juang, B. H. Fundamentals of speech recognition. Prentice-Hall, Englewood Cliffs, New Jersey, 1993. [5] Sohn, J., K. N. S.; Sung, W. A statistical model-based voice activity detection. [6] Tanyer, S. G.; Özer, H. Voice activity detection in nonstationary noise. [7] Young, S.; Evermann, G.; Kershaw, D.; Moore, G.; Odell, J.; Ollason, D.; Valtchev, V.; Wodland, P. The HTK Book. Cambridge University Engineering Department, 2001-2002. [8] Zhang, J.; Ward, W.; Pellom, B. Phone based voice activity detection using online bayesian adaptation with conjugate normal distributions.

54 Jiří Vass Přehled metod detekce mechanického poškození ložisek v časové oblasti Jiří Vass České vysoké učení technické v Praze, Fakulta elektrotechnická vassj@fel.cvut.cz Abstrakt: Tento článek poskytuje přehled metod zabývajících se diagnostikou mechanických závad v ložiscích, se zaměřením na metody pracující v časové oblasti. Nejprve je popsán princip a vlastnosti nejčastěji používaných statistických indikátorů, konkrétně crest faktoru a špičatosti. Poté je zmapován historický vývoj algoritmů působících v časové doméně, a to formou podrobného rozboru nejvýznamnějších publikací. Dále je stručně nastíněn obsah novějších prací kombinujících statistické ukazatele s pokročilými technikami zpracování signálu, jako je např. vlnková transformace či neuronové sítě. Závěrem jsou uvedeny metody založené na použití Kolmogorov-Smirnova(KS) testu. 1. Úvod Valivá ložiska hrají významnou úlohu v mnoha průmyslových aplikacích pro jejich zásadní vliv na funkčnost rotujících strojů. Z tohoto důvodu byla úloha detekce mechanických závad v ložiscích studována mnoha autory, s cílem vyvinout plně automatický diagnostický systém, skládající se nejčastěji z bloků předzpracování signálu a klasifikace. Nejstarší metody analýzy vibračních dat za účelem odhalení závad ložisek byly publikoványpřibližněodroku1960.vroce1984prezentovalmcfaddenasmith[1]shrnutívté době hojně používané metody high-frequency resonance technique(hfrt). O 15 let později posoudili Tandon a Choudhury[2] výsledky četných výzkumných prací z 80. a 90. let 20. století. Tento článek poskytuje rozsáhlý přehled metod analýzy stavu ložisek v časové i frekvenční doméně, a také vysvětluje princip vzniku vibrací a šumu v ložiscích. Rovněž byly pokryty různé techniky sběru dat, včetně vibračních měření, měření tlaku a intenzity zvuku, tzv. shock pulse metody(spm) a metody akustické emise(ae). Další rozsáhlá bibliografie byla publikována v roce 2004 dvojicí autorů Peng a Chu[3], kteří shrnuli moderní diagnostické metody využívající vlnkovou transformaci(wt). Pozornost byla věnována zejména následujícím klíčovým tématům: časově-frekvenční analýza, extrakce příznaků vady, detekce singularit, odšumování a zvýrazňování slabých signálů, identifikace systémů a komprese vibračních signálů. V našem přehledu je kladen důraz na metody v časové oblasti, s cílem naznačit poslední trendy v této problematice. Článek je rozdělen na tři základní části. Sekce 2 se zabývá základními principy a teorií využívanou v diagnostice ložisek v časové oblasti. V sekci 3 jsou v chronologickém pořadí popsány významné příspěvky spadající do kategorie metod založených na statistických ukazatelích. Sekce 4 popisuje práce využívající statistické testy.

Jiří Vass 55 2. Diagnostika ložisek v časové oblasti První experimenty s odhalováním mechanických závad byly provedeny v časové doméně, jelikož časové metody jsou relativně jednoduché a výpočetně nenáročné. Časový přístup vychází principiálně ze statistiky a proto z pravidla zahrnuje výpočet statistického ukazatele nebo je proveden statistický test. Zatímco první typ metod byl aplikován v četných publikacích, druhý typ byl doposud využit pouze omezeným počtem autorů[16],[17]. Mnoho statistických metod obecně zkoumá vlastnosti hustoty pravděpodobnosti(pdf) vibračního signálu. Pro vibrační signál změřený na ložisku v dobrém stavu je většinou předpokládáno normální(gaussovo) rozdělení. Naopak v případě poškozeného ložiska je uvažováno rozdělení negaussovské s dominantními konci způsobenými relativním nárůstem počtu vyšších amplitud. Je dobře známo, že tyto vyšší amplitudy jsou v principu zapříčiněny přítomností periodických impulzů generovaných závadou na ložisku. Nicméně místo přímého posuzování křivky PDF je všeobecně více používán výpočet vhodného skalárního indikátoru, který popisuje tvar rozdělení. Nejpoužívanějšími indikátory tvaru je špičatost(kurtosis) a tzv. crest faktor. Crest faktor je definován jako poměr maximální absolutní hodnoty signálu(tzv. crest value) ku efektivní hodnotě(rms). Hodnota crest faktoru by se měla pohybovat v rozmezí tří až šesti pro signál s gaussovským amplitudovým rozdělením; hodnota vyšší než šest je považována za indikaci defektu ložiska. Špičatost je definována jako čtvrtý centrální statistický moment normalizovaný čtvrtou mocninou směrodatné odchylky(std). Teoreticky je špičatost rovna třem pro nepoškozená ložiska s gaussovským rozdělením a narůstá tehdy, když vibrační signál obsahuje impulzy vzniklé závadou. Přestože se špičatost jeví jako nejužitečnější ze všech statistických indikátorů, Tandon and Choudhury[2] podotkli, že v průmyslu se špičatost nestala příliš používaným nástrojem pro monitorování stavu ložisek. Z tohoto důvodu jsou statistické indikátory v poslední době využívány zejména ve spojení s pokročilými technikami zpracování signálu. Například Williams a kol.[9] zkombinovali časové indikátory s metodami high-frequency resonance technique(hfrt) a adaptive line enhancer(ale) za účelem studia životnosti ložisek při dlouhodobém běhu až do jejich destrukce. Altmann a Mathew[10] použili špičatost a ukazatel SPR(spectrum peak ratio) jako vstupní parametry neuro-fuzzy sítě s cílem inteligentní extrakce vlnkových paketů obsahujících informaci o závadě. Prabhakar a kol.[11] aplikovali špičatost a efektivní hodnotu pouze jako pomocné indikátory; poloha různých typů defektů ložiska byla odhalována pomocí diskrétní vlnkové transformace(dwt). Špičatost byla také využita v maximalizačním kritériu dvojice autorů Lin a Zuo[12], jehož cílem byl výběr optimální Morletovy vlnky pro filtrační účely. Samanta a Al-balushi[13] navrhli diagnostickou proceduru založenou na umělé neuronové síti(ann) využívající příznaky extrahované přímo ze segmentů signálu. Konkrétně bylo použito pět příznaků z časové domény: efektivní hodnota, rozptyl, šikmost(skewness), špičatost a šestý normalizovaný centrální moment. Pro dosažení uspokojivých výsledků předcházelo extrakci příznaků také jednoduché předzpracování signálu, např. filtrace pásmovou propustí a detekce obálky. Sun a kol.[14] upotřebili statistické parametry jako příznaky diagnostického systému založeného na rozpoznávání vzorů(pattern recognition). Kromě špičatosti a crest faktoru byly zužitkovány i jiné míry špičatosti dat, např. clearance faktor, impulse faktor, normalizovaná hodnota špička-špička a normalizovaná efektivní hodnota. Byl také navržen algoritmus využívající ANN k mapování příznaků do dvojrozměrného klasifikačního prostoru, ve kterém byly stanoveny po částech lineární hranice oddělující shluky příslušející šesti různým stavům ložiska.

56 Jiří Vass 3. Statistické ukazatele Dyer a Stewart[4] v roce 1978 publikovali historicky první článek, v němž byla použita špičatost pro detekci mechanických závad ložisek. Autoři pozorovali, že pro nepoškozená ložiska zůstává špičatost konstantní bez ohledu na měnící se zatížení a rychlost otáčení motoru. Na druhou stranu se však hodnota špičatosti mění v průběhu vývoje defektu a bohužel tak dochází k poklesu na původní úroveň při nepoškozeném ložisku, pokud defekt dospěje do velmi pokročilého stádia. Z tohoto důvodu bylo doporučeno počítat špičatost raději v několika vybraných frekvenčních pásmech. Výsledkem tohoto postupu by měla být jednoduchá metoda posouzení stavu ložiska bez nutnosti analýzy historického vývoje dat(trend analysis). Tandon[5] porovnal několik běžně užívaných vibračních parametrů pro monitorování stavu ložisek. Každý z parametrů byl stanoven z naměřeného signálu zrychlení a poté graficky vynesen v závislosti na velikosti defektu(v mikrometrech). Výsledky naznačovali, že nejvhodnějším ukazatelem se zdá být celkový výkon signálu, následovaný metodami měření špičkové a efektivní hodnoty. Crest faktor byl považován za špatný indikátor, protože poskytoval srovnatelné hodnoty pro dobrá i špatná ložiska. Dále bylo určováno kepstrum vibračního signálu, ve kterém byla stanovena úroveň v decibelech na charakteristických kvefrencích vady. Bylo zjištěno, že kepstrum sice dokáže efektivně detekovat vady na vnějším prstenci ložiska, avšak zjistitelnost vad na prstenci vnitřním byla nedostatečná. Martin a Honarvar[6] nejprve nezpracovaný vibrační signál v časové oblasti dvoucestně usměrnili, aby dosáhli zlepšení citlivosti statistických ukazatelů. Následkem tohoto kroku byl nárůst hodnot všech statistických momentů, což se prokázalo být obzvláště užitečné pro šikmost(normalizovaná forma třetího centrálního momentu). Mimoto byl použit hornofrekvenční filtr pro potlačení pásma do 4 khz za účelem snížení vlivu nežádoucích nízkých kmitočtů a také pro odstranění všech deterministických dat pocházejících z jiných energetických zdrojů v rámci testovaného stroje. Autoři usoudili, že dosažené výsledky jsou nezávislé na fluktuacích zátěže i otáčkové rychlosti, a že navržená metoda má potenciál pro detekci ložiskových závad v raném stádiu vývoje. Heng a Nor[7] studovali již zavedené indikátory jako crest faktor, šikmost a špičatost a porovnávali jejich výkonnost s parametry odvozenými z distribuční funkce rozdělení beta. Přestože jsou teoreticky stabilnější než centrální momenty, parametry a a b funkce beta neposkytly žádné podstatné výhody oproti špičatosti a crest faktoru. Navíc byl zkoumán vliv rychlosti otáčení hřídele na vlastnosti statistických ukazatelů. Experimenty prokázali, že velikost většiny parametrů klesá, pokud se rychlost pohybuje mezi 1500 rpm(25hz)a2500rpm(41.6hz),cožjevprotikladusezávěrypředchozíchprací[4], [6]. Tato závislost byla objasněna na základě toho, že některé komponenty krytu ložiska (např. fixační kroužky) jsou citlivé na podélné vybuzení na frekvencích odpovídajících výše zmíněným rychlostem otáčení. Jelikož špičatost a crest faktor nejsou vždy používány zcela korektně, Pachaud a kol.[8] prezentovali vynikající analytickou studii zaměřenou na příspěvky těchto dvou indikátorů k identifikaci charakteristických impulzů vady. Zejména se jednalo o matematické odvození hodnot obou indikátorů pro čistý simulovaný sled impulzů a jeho exponenciálně klesající obálku. Odvozené vzorce byly důkladně interpretovány s cílem demonstrovat vlastnosti a omezení těchto indikátorů. Konkrétně byly zjištěny následující souvislosti. Vysoká hodnota špičatosti nebo crest faktoru znamená pouze to, že vybuzené rezonance mají dostatečné množství času k útlumu mezi dvěma následnými podněty.

Jiří Vass 57 Špičatost je schopna detekce mechanické závady pouze v případě, pokud je její hodnota přinejmenším rovna 3,5. Tato podmínka je splněna jen tehdy, je-li minimální perioda opakování impulzů rovna alespoň 2,8 násobku časové konstanty. Crest faktor je mnohem méně citlivý ukazatel než špičatost, neboť vyžaduje delší periodu opakování impulzů. Minimální perioda musí být 2,5 až 3 násobek časové konstanty pro špičatost, zatímco crest faktor požaduje periodu 7 až 13 krát delší než je časová konstanta. Špičatost je extrémně citlivá na šum(mnohem více než crest faktor) a předzpracování signálu je proto nezbytně nutné pro úspěšné využití výhod tohoto indikátoru. Špičatost je ukazatelem, jenž je velmi citlivý na otáčkovou rychlost. Snížení rychlosti na polovinu redukuje špičatost na poloviční hodnotu, zatímco velikost crest faktoru jevydělenahodnotou 2.TatovlastnostjeveshoděspozorovánímHengaaNora [7] a pravděpodobně vyvrací výsledky starších publikací[4],[6]. Dron a kol.[15] odšumovali vibrační signál pomocí spektrálního odečítání za účelem zlepšení citlivosti crest faktoru a špičatosti. Spektrální odečítání(spectral subtraction) je metoda založená na krátkodobé Fourierově transformaci(stft), jež umožňuje potlačení časově invariantního šumu v signálu. Poté, co byl nežádoucí šum pozadí touto metodou omezen, byly oba časové indikátory vypočítány v širokém a úzkém pásmu. Zatímco v prvním případě bylo uvažováno celé frekvenční pásmo 0-20 khz, v případě druhém byla samostatně analyzována pásma čtyři: 0-5 khz, 5-10 khz, 10-15 khz a 15-20 khz. Dosažené výsledky jasně ukázali, že odstraňování šumu zvyšuje velikost špičatosti i crest faktoru, a pozitivně tak přispívá k dřívější detekci vady ložiska. Testované ložisko bylo prohlášeno za vadné, jestliže špičatost překročila zvolený práh rovný třem nebo crest faktor vzrostl nad hodnotu prahu šest. 4. Kolmogorov-Smirnovův test V článku autorů Kara a Mohantyho[16] byly vibrační signatury dobrých a špatných ložisek statisticky porovnávány pomocí Kolmogorov-Smirnova(KS) testu. Rozhodování bylo založeno na dvoumnožinovém KS testu se statistikou D-stat(statistická vzdálenost) a odpovídající hodnotou pravděpodobnosti(p-value). Vzdálenost D-stat je definována jako maximální absolutní rozdíl mezi cílovým rozdělením a rozdělením referenčním, kdy jsou obě rozdělení reprezentována svými kumulativními distribučními funkcemi(cdf). Bylo předpokládáno, že každý defekt se vyznačuje odlišným rozdělením pravděpodobnosti a proto bylo každé testované ložisko porovnáváno se všemi ostatními. Kdykoli vzdálenost D-stat překročila kritickou hodnotu(práh) pro zvolenou úroveň věrohodnosti α = 5%, nulová hypotéza byla zamítnuta ve prospěch hypotézy alternativní. Alternativní hypotéza (H = 1) byla definována následovně: Dvě množiny dat nebyly vybrány ze stejné populace, t.j. dvě testovaná ložiska jsou statisticky odlišná. Kromě toho byl parametr D-stat porovnán s konvenčními ukazateli jako je střední hodnota, rozptyl, šikmost a špičatost. Bylo pozorováno, že hodnoty konvenčních ukazatelů se neřídí žádným pravidelným vzorem, a proto je téměř nemožné použít je pro důvěryhodné posouzení chybnosti ložiska. Autoři též poukázali na přednosti KS testu v porovnání se Studentovým t-testem a usoudili, že t-test selhává ve zdůrazňování rozdílů mezi porovnávanými ložisky. Závěrem poznamenejme, že KS test byl do oblasti vibrodiagnostiky uveden trojicí autorů Andrade, Edat a Badi[17], kteří tento statistický nástroj poprvé aplikovali na monitorování stavu ozubených kol.

58 Jiří Vass 5. Závěry Tato práce se zabývá problematikou detekce mechanických závad ve valivých ložiscích. V tomto příspěvku byla provedena rešerše doposud publikovaných článků týkajících se metod v časové oblasti. Z provedeného rozboru vyplývá, že samotné použití statistických indikátorů již v současné době neposkytuje uspokojivé výsledky, a to zejména z důvodu přítomnosti nežádoucího šumu pozadí, který maskuje podstatnou informaci pro diagnostiku stavu ložiska. Proto je nutné naměřený vibrační signál nejprve předzpracovat vhodnou metodou DSP, např. s využitím spektrálního odečítání, pásmové filtrace či vlnkové transformace. Dále bylo zjištěno, že ačkoli někteří autoři[4],[6] považovali špičatost a crest factor za ukazatele nezávislé na rychlosti a zátěži, jiným autorům[7],[8] se podařilo prokázat tezi opačnou. Rovněž byl stručně popsán Kolmogorov-Smirnovův test, jenž se jeví jako perspektivní nástroj pro statistickou analýzu vibračních signálů. Poděkování Tato práce vznikla za podpory výzkumného záměru MSM6840770014 Výzkum perspektivních informačních a komunikačních technologií a grantu GA ČR 102/03/H085 Modelování biologických a řečových signálů. Autor článku by rád vyjádřil své poděkování také oběma odborným vedoucím, kterými jsou Prof. Ing. Pavel Sovka, CSc., Katedra teorie obvodů, FEL ČVUT a Doc. Ing. Radislav Šmíd, Ph.D., Katedra měření, FEL ČVUT. Poděkování za odborné konzultace a poskytnutí databáze vibračních signálů patří rovněž Cristině Cristalli a Barbaře Torcianti z firmy AEA s.r.l. v Itálii. Reference [1] McFadden P.D.; Smith J.D. Vibration monitoring of rolling element bearings by the high frequency resonance technique a review. Tribology International, Vol. 17, No. 1, 1984, 3 10. [2] Tandon N.; Choudhury A. A review of vibration and acoustic measurement methods for the detection of defects in rolling element bearings. Tribology International, Vol. 32, No. 8, Aug. 1999, 469-480. [3] Peng Z.K.; Chu F.L. Application of the wavelet transform in machine condition monitoring and fault diagnostics: a review with bibliography. Mechanical Systems and Signal Processing, Vol. 18, No. 2, Mar. 2004, 199-221 [4] Dyer D.; Stewart R.M. Detection of rolling element bearing damage by statistical vibration analysis. Journal of Mechanical Design, Vol. 100, No. 2, 1978, 229-235. [5] Tandon N. A comparison of some vibration parameters for the condition monitoring of rolling element bearings. Measurement, Vol. 12, No. 3, Jan. 1994, 285-289. [6] Martin H.R.; Honarvar F. Application of statistical moments to bearing failure detection. Applied Acoustics, Vol. 44, No. 1, Apr. 1995, 67-77. [7] Heng R.B.W.; Nor M.J.M. Statistical analysis of sound and vibration signals for monitoring rolling element bearing condition. Applied Acoustics, Vol. 53, No. 1-3, Jan.-Mar. 1998, 211-226.

Jiří Vass 59 [8] Pachaud C.; Salvetat R.; Fray C. Crest factor and kurtosis contributions to identify defects inducing periodical impulsive forces. Mechanical Systems and Signal Processing, Vol.11,No.6,Nov.1997,903-916. [9] Williams T.; Ribadeneira X.; Billington S.; Kurfess T. Rolling element bearing diagnostics in run-to-failure lifetime testing. Mechanical Systems and Signals Processing, Vol.15,No.5,2001,979 993. [10] Altmann J.; Mathew J. Multiple band-pass autoregressive demodulation for rollingelement bearing fault diagnosis. Mechanical Systems and Signal Processing, Vol. 15, No. 5, Sep. 2001, 963-977. [11] Prabhakar S.; Mohanty A.R.; Sekhar A.S. Application of discrete wavelet transform for detection of ball bearing race faults. Tribology International, Vol. 35, No. 12, Dec. 2002, 793-800. [12] Lin J.; Zuo M.J. Gearbox fault diagnosis using adaptive wavelet filter. Mechanical Systems and Signal Processing, Vol. 17, No. 6, Nov. 2003, 1259-1269. [13] Samanta B.; Al-balushi K.R. Artificial neural network based fault diagnostics of rolling element bearings using time-domain features. Mechanical Systems and Signal Processing, Vol. 17, No. 2, Mar. 2003, 317-328. [14] Sun Q.; Chen P.; Zhang D.; Xi F. Pattern recognition for automatic machinery fault diagnosis. Journal of Vibration and Acoustics, Vol. 126, Apr. 2004, 307-316. [15] Dron J.P.; Bolaers F.; Rasolofondraibe l. Improvement of the sensitivity of the scalar indicators(crest factor, kurtosis) using a de-noising method by spectral subtraction: application to the detection of defects in ball bearings. Journal of Sound and Vibration, Vol.270,No.1-2,Feb.2004,61-73. [16] Kar Ch.; Mohanty A.R. Application of KS test in ball bearing fault diagnosis. Journal of Sound and Vibration, Vol. 269, No. 1-2, 2004, 439-454. [17] Andrade F.A.; Esat I.I.; Badi M.N.M. Gear condition monitoring by a new application of the Kolmogorov Smirnov test. Proceedings of the Institute of Mechanical Engineers, Vol. 215, No. 6, 2001, 653-661.

60 Martin Vondrášek Zpětná rekonstrukce řeči a virtuální elektroda pro kochleární implantáty. Martin Vondrášek České vysoké učení v Praze, Fakulta elektrotechnická vondram3@fel.cvut.cz Abstrakt: Kochleární implantát je elektronické zařízení, které nahrazuje sluchový vjem pacientům s těžkou sluchovou vadou pomocí stimulace sluchového nervu proudovými pulsy. Tento příspěvek se zabývá možnostmi rekonstrukce řeči z proudových pulsů a porovnáním rekonstruované řeči s řečí původní. Zpětnou rekonstrukci řeči lze využít při vývoji nových strategií bez náročných testů s pacienty. Druhá část příspěvku shrnuje možnosti vytvoření virtuální elektrody pro implantáty Nucleus 24 Contour Advance. Následně jsou prezentovány výsledky testů rozpoznání virtuální elektrody proveden0 na pacientech. 1. Úvod Kochleární implantát [1, 5] je elektronické zařízení zprostředkující sluchové vjemy pacientům s těžkou sluchovou vadou. Sluchové vjemy jsou vyvolávány přímou elektrickou stimulací sluchového nervu proudovými impulsy uvnitř hlemýždě. Algoritmus převodu akustického signálu na sled proudových impulsů je nazýván kódovací strategií. V současnosti jsou firmou Cochlear používány tři typy kódovacích strategií ACE, CIS a SPEAK. Algoritmy implementující kódovací strategie jsou uloženy v řečovém procesoru. Vlastní stimulace je prováděna implantátem, jehož tělo je umístněno na hlavě pod kůží pacienta, přičemž sada elektrod je zavedena do hlemýždě. 2. Princip zpracování řeči v řečovém procesoru Kódovací strategie představují soubor pravidel, která definují, jak bude snímaný zvuk v řečovém procesoru analyzován a zakódován. Kochleární implantát Nucleus 24 Contour Advance umožňuje tří typů kódovacích strategií - Spectral Peak (SPEAK), Continuous Interleaved Sampling (CIS) a Advanced Combination Encoder (ACE) [1]. Implementace jednotlivých strategií se mírně liší podle typu řečového procesoru. Základem všech typů kódovacích strategií je výběr několika frekvenčních pásem analyzované řeči. Zpracovávaná řeč se rozdělí na segmenty, aplikuje se Fourierova transformace. Filtrací ve spektru jsou podle zvolené kódovací strategie vybrána určitá frekvenční pásma segmentu zpracovávané řeči a z výkonu v každém z pásem je určena velikost budicího impulsu. Informace o budicích impulsech a použitých pásmech je přenesena vysílací cívkou do vnitřního implantátu. V případě strategie SPEAK [2, 3] (obr 1b) je kmitočtové pásmo 0 8 khz rozděleno na 20 pásem pomocí banky pásmových propustí. Šířka propustného pásma jednotlivých filtrů není konstantní. Nejnižší kmitočtové pásmo je nejužší, šířka propustného pásma se nelineárně zvětšuje. V každém z pásem je vypočtena energie. Následně je vybráno několik pásem s největší energií, jejich velikost se zakóduje a přenese do implantátu. Implantát pak budí vlákna sluchového nervu proudovými pulzy. V případě strategie SPEAK je použito 20 elektrod určených pro stimulaci. V jednom segmentu zpracovávané řeči je pro stimulaci

Martin Vondrášek 61 použit stejný počet elektrod, jako je počet vybraných maxim. Velikost amplitudy stimulačního pulsu je určena energií daného pásma. Větší energii odpovídá větší amplituda pulsu. Počet přenášených pásem je závislý na kódovací mapě pacienta, na intenzitě signálu a tvaru krátkodobého spektra. Počet pásem se může pohybovat mezi 1 až 10, typicky 6 až 8 pásem. Pro vyvolání sluchového vjemu v uchu pacienta je nutno stimulační pulsy opakovat se stimulačním kmitočtem. V případě strategie SPEAK stimulační kmitočet nabývá pouze jedné hodnoty 250 Hz. Strategie ACE [2, 3] (obr. 1c) je principielně podobná strategii SPEAK. Kmitočtové pásmo je ale rozděleno na 22 subpásem a v každém segmentu může být vybíráno 1-20 maxim. Stimulační kmitočet můžeme nastavit na několik hodnot: 250, 500, 720, 900, 1200, 1800 a 2400 Hz. Strategii ACE tak charakterizuje velký počet přenášených pásem a vysoká stimulační rychlost. Princip strategie CIS [2, 3] (obr 1d) je odlišný. Kmitočtové pásmo je opět rozděleno na subpásma bankou filtrů. Počet filtrů je ale nižší: 4, 6, 8 nebo 12. V každém pásmu je určena energie. V případě strategie CIS se neprovádí výběr maxim, ale informace o velikosti energie je trvale přenášena do implantátu. Stimulace probíhá na stejném počtu elektrod, jako je počet použitých subpásem. Stimulační kmitočet může nabývat jedné z hodnot: 900, 1200, 1800 a 2400 Hz. Strategii CIS můžeme charakterizovat jako strategii maximálně využívající přenosovou rychlost, která poskytuje jen omezený počet subpásem. 1 0.9 0.8 0.7 Frequency 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 Time a) b) a) Výstup strategie ACE. b) Výstup strategie CIS. c) d) Obrázek 1: Spektrogram původního signálu a), výstup strategie SPEAK b), výstup strategie ACE c), výstup strategie CIS d). 3. Rekonstrukce řeči Zpětnou rekonstrukci řeči můžeme provádět dvěma způsoby: syntézou pomocí součtu sinusových signálů nebo buzením banky filtrů jednotkovými pulsy.

62 Martin Vondrášek 3.1 Syntéza pomocí součtu sinusových signálů V případě syntézy pomocí součtu sinusových signálů [2] je rekonstruovaný signál složen z několika sinusoid s různými kmitočty podle vzorce: kde A k (t) je amplituda obálky k-tého pásma. Tato amplituda je nenulová jen v okamžicích, kdy je v příslušném k-tém pásmu vybráno maximum a k je počet pásem analyzující banky filtrů. Kmitočty f k jsou střední kmitočty propustných pásem analyzující banky filtrů. Počet nenulových amplitud A k (t) je v každém časovém okamžiku stejný, jako je počet přenášených pásem. Fáze původního signálu není pro rekonstrukci použita. Strategie ACE, SPEAK i CIS přenášejí informaci pouze o modulu spektra, nikoli o fázi. Na obrázku 2 a) je uveden spektrogram řečového signálu asa a spektrogram rekonstruovaného signálu z 6-ti přenášených maxim (obr. 2 b). Ve střední části rekonstruovaného signálu můžeme pozorovat jednotlivé sinusoidy, z kterých je signál složen. V ostatních částech obrázku jsou přenášená maxima na nízkých kmitočtech. Filtry na nízkých kmitočtech mají malou šířku a jednotlivé sinusoidy splývají. 1 N st () = Ak()sin(2 t π * fk *), t k = 1 1 CIS reconsrtuction (1) 0.9 0.8 0.7 0.9 0.8 0.7 Frequency 0.6 0.5 0.4 Frequency 0.6 0.5 0.4 0.3 0.2 0.1 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 Time 0 0 1000 2000 3000 4000 5000 6000 7000 Time a) b) Obrázek 2: Spektrogram původního a) a rekonstruovaného signálu b). 3.2 Buzení banky číslicových filtrů jednotkovými pulsy První krok rekonstrukce buzením banky filtrů [4] je převod proudových pulsů na amplitudově váhované dirakovy pulsy (obr. 3). Jednotlivé dirakovy pulsy jsou přiváděny do banky filtrů. Stimulační kmitočet určuje počet dirakových pulsů přivedených do banky filtrů za vteřinu. Banka filtrů je v případě strategií SPEAK a ACE identická s bankou použitou při analýze. V případě strategie CIS je použita banka filtrů strategie ACE. Výstupy ze všech filtrů jsou na závěr sečteny. Na obrázku 4 b) je uveden spektrogram rekonstruovaného signálu při použití 6-ti maxim. V porovnání se signálem rekonstruovaným pomocí součtu sinusových signálů má bohatší spektrum, které je více podobné původnímu spektru. bandpas filter 22 current samples CS/ unit pulse*gain multiplexer... bandpas filter 2 sum output signal bandpas filter 1 Obrázek 3: Blokové schéma metody buzení banky filtrů.

Martin Vondrášek 63 1 0.9 0.8 0.7 1 0.9 0.8 0.7 CIS reconsrtuction Frequency 0.6 0.5 0.4 Frequency 0.6 0.5 0.4 0.3 0.2 0.1 0.3 0.2 0.1 0 0 1000 2000 3000 4000 5000 6000 7000 Time a) b) Obrázek 4: Spektrogram původního a) a rekonstruovaného signálu b). 3.3 Porovnání rekonstrukcí Pro porovnání obou výše popsaných rekonstrukcí byla použita kepstrální vzdálenost [6]. Kepstrální koeficienty byly určeny pomocí Fourierovy transformace. Rekonstruovaný a původní řečový signál byl rozdělen do subpásem bankou filtrů, stejnou jako při analýze strategií ACE, CIS nebo SPEAK. Kepstrální vzdálenost byla určena pro každý segment v každém sledovaném pásmu. Průměrná vzdálenost v segmentu byla určena z pásem, ve kterých bylo energetické maximum použité pro rekonstrukci. Nakonec byla vypočtena průměrná vzdálenost pro znělé a neznělé části řečového signálu a pro pauzy. 3.3.1 Kepstrální vzdálenost Kepstrální vzdálenost d pro N-tý segment rekonstruovaného a původního signálu byla určena jako: M 2 dn [ ] = 4.3429 ( ck [ ] c[ k]), (2) kde ci[k] je k-tý kepstrální koeficient N-tého segmentu původního signálu a cr[k] k-tý kepstrální koeficient N-tého segmentu rekonstruovaného signálu. Kepstrální koeficienty ci[0] reprezentující energii signálů nebyly použity. Řád M nabýval hodnoty 10 pro kepstrální koeficienty určené pomocí LPC, a 30 pro kepstrální koeficienty, určené Fourierovou transformací. 3.4 Výsledky porovnání rekonstrukcí V této kapitole jsou uvedeny vybrané výsledky rekonstrukce řeči z proudových pulsů. Kompletní výsledky rekonstrukce řeči z proudových pulsů jsou uvedeny v [8]. 3.4.1 Buzení banky číslicových filtrů k = 1 i 0 0 1000 2000 3000 4000 5000 6000 7000 Time Závislost průměrné kepstrální vzdálenosti ve znělých i neznělých úsecích řeči a v pauzách pro strategii SPEAK je uvedena na obrázku 5a). Kepstrální vzdálenost ve znělých úsecích řeči roste s počtem vybraných maxim (viz. Kapitola 2). Pro znělé úseky řeči kepstrální vzdálenost naopak klesá. V případě pauz nabývá kepstrální vzdálenost minima pro 7 pásem. Vliv stimulačního kmitočtu (500, 900 a 1200 Hz) a počtu vybraných subpásem na rekonstruovaný signál pro strategii ACE je na obrázku 5b). Trend je pro všechny stimulační kmitočty stejný, mění se jen počáteční hodnota průměrné kepstrální vzdálenosti od 2,3 db (500 Hz) do 2 db (1200 Hz). V případě strategie CIS (obr. 5c)) dosahuje kepstrální vzdálenost větších změn než r