LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Podobné dokumenty
Lombardův efekt v řečové databázi CLSD

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

Nabídky spolupráce pro průmysl

A2M31RAT- Řečové aplikace v telekomunikacích

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

7 Další. úlohy analýzy řeči i a metody

Klasifikace Landau-Kleffnerova syndromu

Úvod do praxe stínového řečníka. Proces vytváření řeči

Speciální struktury číslicových systémů ASN P12

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

Akustika pro posluchače HF JAMU

ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2005

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

A HYPERMEDIÁLNÍ MULTIMEDIÁLNÍ SYSTÉMY ZÁKLADNÍ VLASTNOSTI. Zvuk a jeho nahrávání ZVUK. reakce logaritmická, frekvenčně závislá

SIMULACE ZVUKOVÉHO POLE VÍCE ZDROJŮ

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24


Semestrální práce: Rozpoznání hláskované řeči a převedení na text

VLIV STÁLÉHO PŘEVODU NA ÚROVEŇ VIBRACÍ A HLUKU PŘEVODOVKY ŠKODA

Harmonizace metod vyhodnocení naměřených dat při zkratových zkouškách

ADA Semestrální práce. Harmonické modelování signálů

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

PNG-2. Přenosný generátor bílého šumu a Generátor aktivačního tónu. Popis a návod k použití. Před použitím přístroje si prosím přečtěte tento návod

Zvýrazňování řeči pomocí vícekanálového zpracování

Sítě SFN Systém pro analýzu a vizualizaci pokrytí a rušení vysílacích sítí

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Algoritmy a struktury neuropočítačů ASN P8b

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

EXPERIMENTÁLNÍ METODY I 10. Měření hluku

Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Semestrální práce z předmětu Matematika 6F

Akustika. 3.1 Teorie - spektrum

A2M31RAT - Řečové aplikace v telekomunikacích. Robustní řečové parametrizace

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

Výzkum komunikačního účinku propagace firmy GOTECH s.r.o. Eva Solařová

VLIV GEOMETRICKÉ DISPERZE

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Vlny konečné amplitudy vyzařované bublinou vytvořenou jiskrovým výbojem ve vodě

Návod k obsluze Bluetooth FM transmiter DFS-BC26

ANALÝZY HISTORICKÝCH DEŠŤOVÝCH ŘAD Z HLEDISKA OCHRANY PŮDY PŘED EROZÍ

JAK LZE VYUŽÍT GRAFICKÉHO ZOBRAZENÍ AKUSTICKÉHO SIGNÁLU PŘI VÝUCE JAZYKA A SPRÁVNÉ VÝSLOVNOSTI

Technický list. Změňte svá očekávání

bliss Zvuk, který vám vykouzlí úsměv na tváři bliss Technický list

Akustika pro posluchače HF JAMU

Řečové technologie pomáhají překonávat bariéry

2010 FUNKČNÍ VZOREK. Obrázek 1 Budič vibrací s napěťovým zesilovačem

Problematika ozvučování zohledňuje tyto disciplíny:

Noise Measurement Měření hluku

Efektivní komunikace díky inovativním hlasovým technologiím. Praha, Call centrum ve finančních službách

Měření závislosti přenosové rychlosti na vložném útlumu

VLIV OKRAJOVÝCH PODMÍNEK NA VÝSLEDEK ZKOUŠKY TEPELNÉHO VÝKONU SOLÁRNÍHO KOLEKTORU

Parametrická studie vlivu vzájemného spojení vrstev vozovky

ÚJMA NA ŽIVOTNÍM PROSTŘEDÍ POŠKOZENÍM LESA

Operační zesilovač. Úloha A2: Úkoly: Nutné vstupní znalosti: Diagnostika a testování elektronických systémů

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Základní komunikační řetězec

Next line show use of paragraf symbol. It should be kept with the following number. Jak může státní zástupce věc odložit zmiňuje 159a.

Modelování magnetického pole v železobetonových konstrukcích

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

FUNKCE PRO DETEKCI ZÁKLADNÍ FREKVENCE

AKUSTICKÁ ANALÝZA INTENZITY A RYCHLOSTI ŘEČI U PARKINSONOVY NEMOCI

Referenční hodnoty vokalických formantů pro mladé dospělé mluvčí standardní češtiny

MALÉ KYTAROVÉ KOMBO - MANUÁL

Klasifikace hudebních stylů

MECHANISMUS TVORBY PORÉZNÍCH NANOVLÁKEN Z POLYKAPROLAKTONU PŘIPRAVENÝCH ELEKTROSTATICKÝM ZVLÁKŇOVÁNÍM

Novinky v programu Miraf SongBook 7

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci

Simulace letního a zimního provozu dvojité fasády

Náhradní ohybová tuhost nosníku

Centrum kompetence automobilového průmyslu Josefa Božka - AutoSympo a Kolokvium Božek až , Roztoky -

VOLBA SAMOSTATNÉHO CENTRÁLNÍHO ÚTVARU LOGISTIKY VE VÝROBNÍM PODNIKU

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

Anténní řada 2x2 pro přenos digitálního TV signálu v pásmu 4,4 až 5 GHz

BETON V ENVIRONMENTÁLNÍCH SOUVISLOSTECH

AKUSTICKÝ PRŮVODCE. Úloha podhledů v aktivní akustice STROPNÍ PODHLEDY. [S námi se přání stávají skutečností] DOBRÝ POCIT PROSTŘEDÍ

SYNTÉZA AUDIO SIGNÁLŮ

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Systémy evakuačního rozhlasu VARIODYN D1

Abstrakty. obsah a struktura

2. Použitá data, metoda nedostatkových objemů

Případová studie: Zvýšení přirozené návštěvnosti ivt.cz. Případová studie: Zvýšení přirozené návštěvnosti ivt.

íta ové sít baseband narrowband broadband

Jan Kaiser ČVUT, Fakulta elektrotechnická, katedra Radioelektroniky Technická 2, Praha 6

AKUSTICKÁ MĚŘENÍ Frekvenční spektrum lidského hlasu

Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

3D model města pro internetové aplikace. Jakub Dolejší. Ing. Tomáš Dolanský, Ph.D.

Názor na zadlužení obyvatel a státu březen 2017

TECHNOLOGICKÝ LIST čís. 59

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

SOFTWARE NA ZPRACOVÁNÍ MRAČEN BODŮ Z LASEROVÉHO SKENOVÁNÍ. Martin Štroner, Bronislav Koska 1

Kapitola 9: Návrh vstupního zesilovače

VLIV MLETÍ ÚLETOVÉHO POPÍLKU NA PRŮBĚH ALKALICKÉ AKTIVACE

GUI PRO DEMONSTRACI PRINCIPŮ BINAURÁLNÍ LOKALIZACE ZDROJŮ ZVUKU

Transkript:

Abstrakt LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON Lombard Effect in CLSD and SPEECON Speech Databases Hynek Bořil * Úspěšnost systémů automatického rozpoznávání řeči výrazně klesá v hlučném prostředí. Tento pokles je způsoben nejen samotnou přítomností šumu v analyzovaném řečovém signálu, ale také změnami v produkci řeči, kterými se mluvčí snaží zvýšit srozumitelnost promluvy v reakci na okolní hluk. Tyto změny jsou nazývány Lombardův efekt (LE). Cílem analýzy LE je návrh degradačního modelu popisujícího vztah mezi Lombardovou a neutrální řečí. Pokud je takovýto vztah nalezen, je možno navrhnout parametrizace řečového signálu méně citlivé na vliv LE. V této zprávě je porovnána databáze Czech SPEECON s nově vytvořenou databází Czech Lombard Speech Database. Srovnání je provedeno z hlediska parametrů citlivých na LE za účelem vyhodnocení použitelnosti zmíněných databází pro analýzu a modelování LE. Abstract The performance of speech recognition systems decreases rapidly in the presence of environmental noise. The degradation is not only caused by noise corruption of speech, but also by modifications of speech production by speaker in an effort to increase communication efficiency. Such speech production changes are called Lombard effect (LE). Goal of the LE analysis is proposal of a degradation model representing relations between Lombard speech and clean speech. If such a relation is found, features more robust to LE can be proposed. In this paper, speech features sensitive to LE are analysed and compared for Czech SPEECON database and newly established Czech Lombard Speech Database to evaluate their suitability for LE analysis and modeling. Úvod LE je spojen se změnami v produkci řeči za účelem zvýšení její srozumitelnosti v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f 0 a změnami polohy a šířky fomantových laloků (danými konfiguracemi dutin vokálního traktu) [2]. Základní architektury rozpoznávání řeči s LE mohou být rozděleny do 3 skupin užití robustní parametrizace řečového signálu, ekvalizace LE a natrénování rozpoznávače na řeč s LE. První dva přístupy předpokládají užití rozpoznávače natrénovaného na řeči bez LE s front-endem zajišťujícím normalizaci řečových parametrů. Třetí přístup je založen na trénování rozpoznávače přímo na řeč s LE. Vzhledem k velké závislosti projevů LE na mluvčím a typu hluku se třetí přístup příliš neosvědčil. Cílem analýz LE je vyjádření vztahů mezi neutrální a Lombardovou řečí [1, 3]. Pokud jsou takové vztahy nalezeny, je možno navrhnout vhodnou řečovou parametrizaci či ekvalizaci řečových parametrů. * Ing. Hynek Bořil, Katedra teorie obvodů, ČVUT FEL, Technická 2, 166 27 Praha 6 Dejvice tel.: +420 22435 2820, e-mail: borilh@fel.cvut.cz 100

V současné době je k dispozici několik českých řečových databází nahraných částečně či zcela v reálných hlučných prostředích. Přítomnost hluku v nahrávkách však neumožňuje zcela odděleně analyzovat vlil LE a vliv hluku. V řadě nahrávek také mluvčí nereagují odpovídajícím způsobem na okolní hluk a pouze čtou jednotlivé promluvy [4]. V následujícím textu je představena nově vytvořená databáze CLSD [5], její parametry jsou srovnány s databází Czech SPEECON [6]. Struktura a sběr CLSD Databáze je zaměřena na analýzu a modelování LE. V současné době obsahuje promluvy 26 mluvčích, 12 žen a 14 mužů. Všichni mluvčí byli nahráváni jak v neutrálních tak simulovaných hlučných podmínkách. Složení databáze Skladba databáze je obdobná databázi SPEECON, některé velmi specifické položky, především hláskovaná slova, internetové adresy a spontanní promluvy, byly vyřazeny. Databáze sestává z následujících typů promluv: Foneticky bohatý materiál slova a věty. Izolované a vázané číslovky, přirozená čísla. Příkazy různé aplikační povely. Speciální položky data, časové údaje apod. Pro dostatečné pokrytí celého fonetického slovníku českého jazyka je v každém nahrávacím bloku (1 mluvčí, 1 nahrávací podmínky) začleněno 30 foneticky bohatých vět. Aby bylo možno provádět statisticky význačné rozpoznávací testy s malým slovníkem, každý blok obsahuje 470 izolovaných, opakovaných a vázaných číslovek. Pro srovnání jeden blok SPEECONu obsahuje 40 číslovek. Nahrávací platforma Promluvy byly nahrávány digitálně na pevný disk. V případě nahrávání se simulovanými hlučnými podmínkami slyšel mluvčí odposlech svého hlasu smíchaný s reprodukovaným šumem v uzavřených sluchátkách. Operátor měl do sluchátek puštěný identický hluk smíchaný s odposlechem promluvy mluvčího o intenzitě snížené vzhledem ke zvolené virtuální vzdálenosti od mluvčího obr. 1. SPEAKER middle talk close talk noise + speech mon. H&T RECORDER OK next / BAD - again speech monitor OPERATOR Obr 1. Nahrávací konfigurace V případě nesrozumitelnosti operátor vyžadoval opakování promluvy. Tato konfigurace motivuje mluvčího naplnit definici LE reagovat na okolní hluk za účelem zvýšení srozumitelnosti promluvy. 101

Nahrávací sada sestává ze 2 uzavřených sluchátek AKG K44 a 2 mikrofonů identických se SPEECONem close-talk Sennheiser ME-104 a hands-free Nokia NB2 umístěných v odlišných vzdálenostech od úst. Hlukové pozadí Materiál pro nahrávání v simulovaném hlučném prostředí je tvořen 25 vzorky z jedoucího automobilu vybranými z databáze CAR2E [7] a 4 umělými pásmovými šumy (62 125, 75 300, 220 1120, 840 2500 Hz). Zvolené typy hluků umožňují pozorování změn produkce řeči při přirozeném hlukovém pozadí a při hlucích zasahujících pásma typického výskytu základního řečového tónu a prvních formantových kmitočtů. Nastavení úrovně odposlechu hluku Pro reprodukovatelné nastavení hlasitosti simulovaného hluku bez potřeby průběžného používání hlukoměru byla měřením na umělé hlavě zjištěna závislost úrovně akustického tlaku SPL (Sound Pressure Level) ve sluchátkách na efektivní hodnotě napětí naprázdno na výstupu zvukové karty V RMS_OL obr. 2. Pro požadované SPL pak stačí pro referenční šum nastavit příslušnou efektivní hodnotu napětí naprázdno na výstupu zvukové karty. Jednotlivé hluky byly normalizovány podle RMS, čímž byla zajištěna stejná úroveň SPL pro všechny nahrávky v bloku. SPL bylo pro většinu mluvčích voleno 90 db, virtuální vzdálenost 3 m. 105 100 Soundcard Output Voltage vs. Noise SPL 95 90 SPL (db) 85 80 75 70 65 60 Obr. 2. Závislost SPL hluku na napětí na výstupu zvukové karty naprázdno Struktura databáze Czech SPEECON Databáze obsahuje nahrávky promluv v různých reálných prostředích, pro porovnávání parametrů s CLSD byla vybrána prostředí office a car. Obsah databáze byl zmíněn v oddílu o CLSD. Testy na databázích V RMS _ OL 20 log (db) 6 SPL = 4.386 10 0 50 100 150 200 250 300 350 400 VRMS_OL (mv) Pro obě databáze byly testovány parametry citlivé na LE. Bylo analyzováno rozložení základního řečového tónu f 0, polohy prvních 4 formantových laloků a jejich šířky. Aby bylo 102

možno posoudit vliv posuvu parametrů při LE na úspěšnost rozpoznávání, byly provedeny rozpoznávací testy na slovníku tvořeném číslovkami. Pro detekci formantů a f 0 byl použit volně šiřitelný systém WaveSurfer [8]. Rozpoznávač číslovek byl vytvořen v HTK (Hidden Markov Model Toolkit) [9]. Základní řečový tón f 0 Analýza f 0 byla prováděna pro znělé úseky všech neutrálních a Lombardových promluv. Na obr. 3 a 4 jsou ukázány rozložení f 0 pro nahrávky z kanceláře a auta databáze SPEECON a neutrální a Lombardovy nahrávky databáze CLSD. 120000 Fundamental Frequency Distribution 100000 Number of Frames 80000 60000 40000 Office Car 20000 0 70 170 270 370 470 570 Frequency (Hz) Obr. 3. Rozložení f 0 pro nahrávky v prostředí office a car ve SPEECONu Number of Frames 70000 60000 50000 40000 30000 20000 Fundamental Frequency Distribution Neutral LE 10000 0 70 170 270 370 470 570 Frequency (Hz) Obr. 4. Rozložení f 0 pro neutrální a Lombardovy nahrávky v CLSD V obou případech je patrný posuv f 0 při promluvách v hlučném prostředí. U CLSD je posuv díky vysoké úrovni hluku a potřebě srozumitelnosti promluv výrazně vyšší, střední hodnota mužského f 0 se posunuje výše nežli je typický výskyt ženského f 0 neutrální řeči, ženské f 0 se pak posouvá až do oblasti typického výskytu prvních formantů. 103

Formanty Abychom mohli analyzovat formanty pro jednotlivé hlásky, je potřeba znát časové polohy těchto hlásek v promluvách a těm pak přiřadit odpovídající hodnoty formantových kmitočtů. Polohy hlásek byly určeny automatickým labelováním monofonním rozpoznávačem natrénovaným na 70 mluvčích SPEECONu. Stavy modelů monofónů obsahují 32 směsí (mixtures), pro parametrizaci bylo použito 12 kepstrálních koeficientů, energetický koeficient, delta a delta-delta koeficienty. Automatické labelování bylo provedeno v obou databázích na promluvách s číslicemi. Pro detekci prvních 4 formantových kmitočtů a šířek odpovídajících formantových laloků byla ve WaveSurferu zvolena metoda založená na LPC 12 řádu. Informace o formantech byly přiřazeny příslušným hláskám. Na obr. 5, 6, 7 a 8 jsou ukázány polohy prvních dvou formantových kmitočtů pro tyto samohlásky /a/, /e/, /i/, /o/ a /u/. 2400 2200 i Female Vowel Formants F2 (Hz) 2000 1800 1600 1400 1200 1000 u u' i' 300 350 400 450 500 550 600 650 700 F1 (Hz) Obr. 5. Polohy F 1 a F 2 pro vybrané samohlásky SPEECON ženy e' o' e o a a' Office Car 2400 2200 Male Vowel Formants F2 (Hz) 2000 1800 1600 i i' e e' Office Car 1400 1200 1000 u u' 300 350 400 450 500 550 600 650 700 F1 (Hz) Obr. 6. Polohy F 1 a F 2 pro vybrané samohlásky SPEECON muži o' o a a' 104

2400 2200 2000 /i/ /i'/ /e/ Female Vowel Formants /e'/ F2 (Hz) 1800 1600 1400 1200 1000 /u/ /u'/ /o/ 300 400 500 600 700 800 900 F1 (Hz) Obr. 7. Polohy F 1 a F 2 pro vybrané samohlásky CLSD ženy /a/ /o'/ /a'/ Neutral LE 2400 Male Vowel Formants 2200 F2 (Hz) 2000 1800 1600 /i/ /i'/ /e/ /e'/ Neutral LE 1400 1200 1000 Obr. 8. Polohy F 1 a F 2 pro vybrané samohlásky CLSD muži Jak je z grafů patrné, k posunu prvních formantových kmitočtů u samohlásek dochází při změně nahrávacího prostředí u obou databází, u CLSD je posuv podstatně výraznější. Zatímco mužské formanty se posouvají do oblastí typických pro formanty ženské, ženské se posouvají do zcela netypických oblastí, což může představovat značné problémy pro rozpoznávač natrénovaný na neutrální řeči, jak bude ukázáno dále. Rozpoznávací testy /u/ /u'/ /o/ 300 400 500 600 700 800 900 F1 (Hz) V závěru byl vyhodnocován vliv LE na úspěšnost rozpoznávání číslovek. Pro tuto úlohu byl použit rozpoznávač zmíněný v předchozím oddílu. Rozpoznávání bylo prováděno na položkách s izolovanýmy, opakovanými a vázanými číslovkami. Výsledky pro obě databáze jsou shrnuty v tab. 1 a 2. V prvním řádku tabulek je uvedeno, pro jaký typ dat byly testy prováděny, M a F značí mužské a ženské promluvy. V druhém řádku je uveden počet testovaných mluvčích, ve třetím počet rozpoznávaných číslovek, ve čtvrtém je WRR (Word Recognition Rate) úspěšnost rozpoznávání na úrovni slov. /a/ /o'/ /a'/ 105

Data set Office F Office M Car F Car M Num. of speakers 22 31 28 42 Num. of digits 880 1219 1101 1657 WRR 94.55% 95.73% 95.37% 89.50% Tab. 1 Výsledky rozpoznávání číslic SPEECON Data set Neutral F Neutral M LE F LE M Num. of speakers 12 14 12 14 Num. of digits 4930 1423 5360 6303 WRR 92.70% 96.20% 57.18% 83.71% Tab. 2 Výsledky rozpoznávání číslic CLSD V případě SPEECONu nedošlo v případě promluv v autě k výraznému zhoršení rozpoznávacího scóre, nejvyšší propad byl o necelých 6 % u mužských promluv. U ženských promluv nedošlo ke statisticky význačné změně úspěšnosti. U CLSD je pokles úspěšnosti rozpoznávání patrný jak pro mužské 12,5 % tak pro ženské 35,5 % promluvy. Výraznější zhoršení v případě ženských promluv může být spojeno s posunem formantů jak bylo prezentováno v předchozím oddílu, tj. zatímco mužské formanty se posouvají spíše do oblastí výskytu ženských formantů, ženské se posouvají do oblastí dosti neobvyklých, na něž rozpoznávač neutrální řeči nebyl trénován. Závěr Byly prezentovány výsledky analýz řečových parametrů citlivých na LE u databází Czech SPEECON a CLSD. Ukázalo se, že přestože v případě SPEECONu dochází u promluv z jedoucího auta k určitému posunu parametrů, nemá to významný vliv na úspěšnost neutrálního rozpoznávače. Navíc u těchto nahrávek lze těžko rozlišit případný negativní vliv šumu v řečovém signálu a LE. U CLSD dochází k výraznému posuvu řečových parametrů, což se projevuje i značným poklesem úspěšnosti rozpoznávání, u mužů došlo ke zhoršení o 12,5 % a u žen o 35,5 %, což potvrzuje, že v CLSD je LE výrazně zastoupen a databáze je tudíž vhodná k analýzám a modelování LE. Poděkování Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 Nové směry ve výzkumu a využití hlasových technologií, sběr dat byl podpořen grantem GAČR 102/03/H085 Modelování biologických a řečových signálů a výzkumným záměrem MSM 6840770014 Výzkum perspektivních informačních a komunikačních technologií. Literatura [1] HANSEN, J. H. L. Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, 20(2):151-170, November 1996. 106

[2] WOMACK, B.D., HANSEN, J. H. L. Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, 20(1-2):131-150, November 1996. [3] CHI, S. M., OH, Y. H. Lombard Effect Compensation and Noise Supression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, 4:2013-2016, Philadelphia, 1996. [4] BOŘIL, H. Recognition of Speech under Lombard Effect. Proc. of the 14th Czech- German Workshop on Speech Processing, p. 110 113, Prague, Czech Republic, 2004. [5] BOŘIL, H., BOŘIL, T., POLLÁK, P. Design of Lombard Speech Database. Proc. Radioelektronika 2005, Brno, Czech Republic, 2005. [6] www.speecon.com [7] POLLÁK, P., VOPIČKA, J., SOVKA, P. Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, 5:2263-6, Budapest, Hungary 1999. [8] SJÖLANDER, K., BESKOW, J. WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China, 2000. [9] YOUNG, S. et al. The HTK Book ver. 2.2. Entropic Ltd 1999. 107