Lombardův efekt v řečové databázi CLSD

Podobné dokumenty
LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Josef Rajnoha. České vysoké učení technické v Praze, Fakulta elektrotechnická rajnoj1@fel.cvut.cz

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2005

A2M31RAT- Řečové aplikace v telekomunikacích

Nabídky spolupráce pro průmysl

ADA Semestrální práce. Harmonické modelování signálů

7 Další. úlohy analýzy řeči i a metody

Úvod do praxe stínového řečníka. Proces vytváření řeči

Algoritmy a struktury neuropočítačů ASN P8b

Speciální struktury číslicových systémů ASN P12

Zvýrazňování řeči pomocí vícekanálového zpracování

Analýza chování algoritmu MSAF při zpracování řeči v bojových prostředcích

A2M31RAT - Řečové aplikace v telekomunikacích. Robustní řečové parametrizace

Nové požadavky na zvukoměrnou techniku a jejich dopad na hygienickou praxi při měření hluku. Ing. Zdeněk Jandák, CSc.

DTW. Petr Zlatník, Roman Čmejla. Abstrakt: Příspěvek popisuje metodu, která byla vyvinuta pro vyhodnocení

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

PSK1-5. Frekvenční modulace. Úvod. Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka. Název školy: Vzdělávací oblast:

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Virtuální elektrody v kochleárních implantátech Nucleus 24

Akustika. 3.1 Teorie - spektrum

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

Klasifikace Landau-Kleffnerova syndromu

A/D převodníky - parametry

Příznaky pro automatické rozpoznávání řeči odvozené z dynamiky spektra

A HYPERMEDIÁLNÍ MULTIMEDIÁLNÍ SYSTÉMY ZÁKLADNÍ VLASTNOSTI. Zvuk a jeho nahrávání ZVUK. reakce logaritmická, frekvenčně závislá

Strategie ACE využívající virtuální elektrody v kochleárních implantátech Nucleus 24


Snímání biologických signálů. A6M31LET Lékařská technika Zdeněk Horčík Katedra teorie obvodů

Srovnání hlučnosti povrchů vozovek (metoda CPX) Doprava, zdraví a životní prostředí Brno

Wavelet transformace v metodách zvýrazňování řeči

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

4. Sebevraždy podle pohlaví

Úloha D - Signál a šum v RFID

CW01 - Teorie měření a regulace

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

FUNKCE PRO DETEKCI ZÁKLADNÍ FREKVENCE

Použití mluvených korpusů ve vývoji systému pro rozpoznávání českých přednášek *

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Quantization of acoustic low level signals. David Bursík, Miroslav Lukeš

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

3.cvičen. ení. Ing. Bc. Ivan Pravda

MĚŘENÍ A ANALÝZA ELEKTROAKUSTICKÝCH SOUSTAV NA MODELECH. Petr Kopecký ČVUT, Fakulta elektrotechnická, Katedra Radioelektroniky

Základní komunikační řetězec

Technický list. Změňte svá očekávání

Měření neelektrických veličin. Fakulta strojního inženýrství VUT v Brně Ústav konstruování

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Normální (Gaussovo) rozdělení

DETEKCE HRAN V BIOMEDICÍNSKÝCH OBRAZECH

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Algoritmy a struktury neuropočítačů ASN P09. Analýza emocionální řeči neuronovými sítěmi Proč?

14 - Moderní frekvenční metody

Statistiky seniorů. Základní statistické ukazatele ve formě komentovaných grafů. Dokument mapuje dopravní nehody seniorů a jejich následky

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky

Pravděpodobnost, náhoda, kostky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Akustika pro posluchače HF JAMU

Zvuk. 1. základní kmitání. 2. šíření zvuku

Grafika na počítači. Bc. Veronika Tomsová

Hlavní parametry rádiových přijímačů

AKUSTICKÁ ANALÝZA INTENZITY A RYCHLOSTI ŘEČI U PARKINSONOVY NEMOCI

Signál v čase a jeho spektrum

katedra technických zařízení budov, fakulta stavební ČVUT TZ 31: Vzduchotechnika cvičení č.1 Hluk v vzduchotechnice vypracoval: Adamovský Daniel

VLIV GEOMETRICKÉ DISPERZE

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

EXPERIMENTÁLNÍ METODY I 10. Měření hluku

VY_32_INOVACE_E 15 03

Normalizace textu. Text to Speech, TTS Konverze textu do mluvené podoby. Pavel Cenek, Aleš Horák. Obsah: Související technologie

SYNTÉZA AUDIO SIGNÁLŮ

MĚŘENÍ AKUSTICKÝCH VELIČIN. Ing. Barbora Hrubá, Ing. Jiří Winkler Kat. 225 Pozemní stavitelství 2014

SOUNDMAN. Stereo Binaurálni Sluchatkovy Mikrofon. Vyráběno a distribuováno společností:

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

8. Sběr a zpracování technologických proměnných

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

KVALITA DAT POUŽITÁ APLIKACE. Správnost výsledku použití GIS ovlivňuje:

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

ROZPOZNÁNÍ TITULU GRAMOFONOVÉ DESKY PODLE KRÁTKÉ UKÁZKY

vzorek vzorek

Biostatistika Cvičení 7

jednotky + Projekty Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno

Problematika hluku z větrných elektráren. ČEZ Obnovitelné zdroje s.r.o.

ANALÝZA LIDSKÉHO HLASU

Inovace a zkvalitnění výuky směřující k rozvoji odborných kompetencí žáků středních škol

Akusticko - fonetické charakteristiky neplynulých promluv

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Odhad základního tónu řeči s lokalizací hlasivkových pulsů a pitch-synchronní segmentace

Struktura a typy lékařských přístrojů. X31LET Lékařskátechnika Jan Havlík Katedra teorie obvodů

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci

Měření na výkonovém zesilovači 1kW/144MHz by OK1GTH

You created this PDF from an application that is not licensed to print to novapdf printer (

Transkript:

Lombardův efekt v řečové databázi CLSD Hynek Bořil České vysoké učení v Praze, Fakulta elektrotechnická borilh@gmail.com Abstrakt: V tomto příspěvku jsou prezentovány výsledky analýz parametrů řečové databáze CLSD (Czech Lombard Speech Database). Databáze se zaměřuje na modelování Lombardova efektu (LE) pro účely zvýšení robustnosti rozpoznávání řeči v hlučném prostředí. CLSD je tvořena nahrávkami neutrální řeči a řeči produkované v několika typech simulovaného hlučného prostředí. V porovnání s jinými dostupnými databázemi zaměřenými na LE, v našem případě byla do korpusu databáze zahrnuta rozsáhlá sada foneticky bohatých slov a vět za účelem pokrytí celého fonémového slovníku českého jazyka a relativně velké množství číslovek umožňující provádění statisticky význačných rozpoznávacích testů. 1. Úvod Lombardův efekt je způsoben změnami řečových charakteristik mluvčího ve snaze o zvýšení srozumitelnosti promluvy v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f 0, změnami polohy a šířky formantových laloků (danými konfiguracemi dutin vokálního traktu), sklonem amplitudového spektra a rozložením energie v jednotlivých frekvenčních pásmech [2]. Změny některých zmíněných řečových parametrů mohou výrazně zhoršit úspěšnost rozpoznávače natrénovaného na neutrální řeči. Některé současně dostupné velké řečové databáze obsahují promluvy nahrané v prostředích s různým hlukovým pozadím (např. kanceláře, veřejná prostranství, kabiny automobilu) pro potřeby trénování a testování rozpoznávače na reálných hlučných signálech. Nepříznivé je, že u hlučných nahrávek lze těžko oddělit dopad hluku a LE na rozpoznávač (pokud není možno hluk v nahrávkách dostatečně potlačit). V některých případech navíc mluvčí promluvy spíše jen čtou, aniž by se snažili zajistit jejich srozumitelnost a reagovali na okolní hluk [3]. V případě speciálních databází zaměřených na analýzu LE, simulované hlučné prostředí je vytvořeno reprodukcí nahrávek hluků do uzavřených sluchátek na hlavě mluvčího. Tím je zajištěn vysoký odstup signálu od šumu v nahrávaném řečovém signálu [1, 4]. V tomto příspěvku jsou popsány výsledky analýz řečových parametrů na databázi CLSD [5], která byla nahrána přímo za účelem analýzy a modelování LE. 2. Popis databáze CLSD CLSD obsahuje nahrávky neutrální řeči a řeči produkované v různých typech simulovaného hlučného prostředí (hluky z kabiny jedoucího automobilu vybrané z databáze CAR2E [6], umělé pásmové šumy). Pro účely nahrávání Lombardovy řeči byla obvyklá konfigurace, při které je hluk pouštěn do sluchátek mluvčího, rozšířena o přítomnost operátora, který slyší ve sluchátkách stejný hluk smíchaný s hlasem mluvčího. Intenzita hlasu mluvčího v odposlechu operátora je snížena o úroveň odpovídající zvolené virtuální vzdálenosti mluvčího a operátora. V případě, že operátor nerozumí promluvě, vyzve mluvčího k zopakování položky.

Tato konfigurace motivovala mluvčí, aby se snažili docílit srozumitelnosti promluv. Ve většině případů byla volena virtuální vzdálenost 3 m a úroveň hluku 90 db SPL. V současné době CLSD obsahuje nahrávky od 26 mluvčích, kde každý se zúčastnil nahrávání v neutrálních i Lombardových podmínkách. Promluvy byly snímány close-talk a hands-free mikrofonem. Dále prezentované analýzy byly prováděny na signálech z close-talk mikrofonu. 3. Analýzy Abychom mohli posoudit míru zastoupení LE v databázi CLSD, byly analyzovány parametry, které jsou jím obvykle znatelně ovlivňovány, a to SNR (intenzita hlasu), změny v rozložení základního řečového tónu (f 0 ), pozice a šířky prvních čtyř formantových laloků, průměrné délky fonémů a slov a úspěšnost při rozpoznávání číslovek [7]. 3.1 Rozložení SNR V některých případech je nutné v průběhu nahrávání měnit citlivost mikrofonního předzesilovače, aby byl efektivně využit dynamický rozsah vstupního převodníku, tj. abychom se vyhnuli nedostatečnému vybuzení resp. přebuzení vstupního signálu při výrazných změnách hlasové intenzity mluvčího. To má za následek, že hlasovou intenzitu nelze odhadovat přímo z amplitudy signálu. Pokud ovšem můžeme hluk okolí považovat za stacionární, relativní změny hlasové intenzity mohou být odhadovány přímo z průběhu SNR. Navíc, pokud bychom znali absolutní úroveň okolního hluku, můžeme odhadnout i absolutní hlasovou intenzitu. Jelikož všechny nahrávky v CLSD byly nahrávány v kanceláři s prakticky konstantní hladinu hluku a na úrovni jednotlivých mluvčí nedocházelo ke změně pozice nahrávání, hluk zde lze považovat za téměř stacionární. Jeho absolutní hladina však nebyla v průběhu nahrávání měřena. Pro potřeby analýz bylo určováno tzv. segmentální SNR [8, 9]. 1600 CLSD Channel SNR Histograms Number of Utterances 1400 1200 1000 800 600 400 200 Close-talk Clean Hands-free Clean Close-talk LE Hands-free LE 0-10 10 30 50 70 SNR (db) Obrázek 1: Rozložení SNR v kanálech CLSD Jak je patrné z obrázku 1, kde Clean v legendě značí neutrální promluvy a LE promluvy v simulovaném hluku, u Lombardových promluv dochází k výraznému nárůstu průměrné hlasové intenzity. Průměrné SNR close-talk kanálu se v tomto případě pohybuje okolo 50 db, u neutrálních nahrávek okolo 30 db, je tedy zaručeno, že analyzované řečové parametry a rozpoznávací experimenty nebudou narušeny přítomností hluku.

3.2 Základní řečový kmitočet Průběh f 0 byl analyzován v systému WaveSurfer [10]. Detekce byla prováděna ve všech znělých úsecích neutrálních a Lombardových promluv. Na obrázku 2 indexy F a M představují ženské a mužské mluvčí. Number of Frames (x 10 000) 6 5 4 3 2 1 CLSD - Fundamental Frequency Distribution Clean_F LE_F Clean_M LE_M Obrázek 2: Rozložení f 0 Spojitá čára s maximem na nižší frekvenci představuje rozložení mužského f 0 a spojitá čára s maximem na vyšší frekvenci rozložení ženského f 0 v neutrální řeči, čárkované čáry pak rozložení v Lombardově řeči. Je patrné, že při Lombardově řeči dochází v CLSD k výraznému posuvu rozložení f 0 směrem k vyšším frekvencím. Maximum rozložení mužského f 0 se při LE posouvá výše než je maximum f 0 neutrální ženské řeči, maximum ženského f 0 se pak posouvá do oblasti typického výskytu prvního formantu, což může mít výrazný negativní dopad na úspěšnost rozpoznávání, jak bude ukázáno dále. 3.3 Formanty 0 70 120 170 220 270 320 370 420 470 520 570 Frequency (Hz) Analýza formantů byla prováděna také v systému WaveSurfer. Monofónový rozpoznávač [11] natrénovaný na 70 mluvčích z databáze SPEECON byl použit pro automatické zarovnání pozic fonémů. Pro detekci pozic formantů bylo použito LPC 12. řádu. Informace o pozicích a šířkách pásem prvních čtyř formantů byly přiřazeny odpovídajícím fonémům. Na obrázku 3 jsou ukázány průměrné pozice prvních dvou formantů vybraných samohlásek v číslovkách. F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 /i/ /u/ /i'/ /u'/ /e/ /o/ CLSD - Male Vowel Formants /e'/ /a/ /o'/ /a'/ 300 400 500 600 700 800 900 F1 (Hz) F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 300 400 500 600 700 800 900 F1 (Hz) Obrázek 3: Pozice formantů vybraných samohlásek v číslovkách /i/ /u/ /u'/ /i'/ CLSD - Female Vowel Formants /e/ /o/ /e'/ /a/ /o'/ /a'/

Plnou čarou jsou spojeny formantové pozice samohlásek v neutrálních promluvách a čárkovanou v Lombardových promluvách. Jak u mužských, tak u ženských mluvčích je patrný výrazný posun pozic prvních dvou formantů při Lombardově řeči. U 3. a 4. formantu již změny nebyly tak systematické, proto zde nejsou uvedeny. Také výrazné posuvy šířky pásma prvního formantu byly pozorovány u některých samohlásek v číslovkách. B 1M,F značí šířku pásma prvního formantu u mužských resp. ženských mluvčích, σ značí odpovídající směrodatnou odchylku. Sloupce kurzívou značí Lombardovu řeč. Hláska B 1M (Hz) σ M (Hz) B 1M (Hz) σ M (Hz) B 1F (Hz) σ F (Hz) B 1F (Hz) σ F (Hz) /a/ 269 88 152 59 232 85 171 68 /e/ 168 94 99 44 169 73 130 49 /i/ 125 53 108 52 132 52 133 58 /o/ 239 88 157 81 246 91 158 62 /u/ 134 67 142 81 209 95 148 66 3.4 Délky formantů Tabulka 1: Ukázka změn šířky pásma prvního formantu při LE Automatické zarovnávání fonémů bylo použito také pro analýzu změn průměrných délek hlásek při Lombardově řeči. Jelikož typická délka fonému závisí slovu, ve kterém se foném nachází, srovnání bylo provedeno na úrovni jednotlivých slov. Průměrné délky fonémů a směrodatné odchylky byly určovány pro promluvy obsahující číslice. Rozdíl v délce trvání fonému ve stejném slově vysloveném v Lombardových a neutrálních podmínkách je určen T T T C2 C1 = C1 100 (%), (1) kde T Cx představuje průměrnou dobu trvání fonému v podmínkách x. Slovo Foném # N # LE T N (s) σ Tn (%) T LE (s) σ Tle (%) (%) Jedna /e/ 583 939 0.031 3.39 0.082 17.73 161.35 Dvje /e/ 586 976 0.087 7.12 0.196 15.84 126.98 Čtiri /r/ 35 241 0.041 3.00 0.089 12.92 115.92 Pjet /e/ 555 909 0.056 4.44 0.154 11.48 173.71 Sedm /e/ 358 583 0.080 7.49 0.179 19.93 122.46 Osm /o/ 310 305 0.086 3.07 0.203 27.68 135.25 Devjet /e/ 609 932 0.043 3.22 0.120 12.97 177.20 Tabulka 2: Změny délek fonémů při LE U řady fonémů v CLSD byly pozorovány systematické změny délek trvání, v některých případech docházelo ke zkracování, v jiných k prodlužování. Změny délek překračující 100 % jsou ukázány v tabulce 2. # N a # L značí počet analyzovaných neutrálních a Lombardových číslovek.

3.5 Délky slov Změny délek slov byly pozorovány, ale nedosahovaly zdaleka úrovně změn u fonémů. Je to způsobeno tím, že zatímco délky některých fonémů se při LE zkracují, délky jiných se prodlužují, takže ve výsledné délce slova se tyto změny navzájem často téměř vyruší. byla určována podle rovnice (1), T zde reprezentuje délku slova. Slovo # N T N (s) σ Tn (%) # LE T LE (s) σ Tle (%) (%) Nula 497 0,397 10,94 802 0,476 15,67 19,87 Jedna 583 0,441 12,78 939 0,527 16,52 19,56 Dvje 586 0,365 11,39 976 0,423 13,82 15,87 3.6 Rozpoznávání číslovek Tabulka 3: Změny délek slov Abychom získali představu, jaký mají změny analyzovaných řečových parametrů dopad jako celek na úspěšnost neutrálního rozpoznávače, na závěr bylo provedeno rozpoznávání číslovek. Použit byl rozpoznávač zmíněný v odstavci 3.3. Testovací data byla tvořena promluvami obsahujícími izolované, opakované a opakované vázané číslovky. V tabulce 4 jsou shrnuty výsledky rozpoznávání, WRR značí úspěšnost rozpoznávání na úrovni slov (Word Recognition Rate). Typ dat Neutral F Neutral M LE F LE M Počet mluvčích 12 14 12 14 Počet číslovek 4930 1423 5360 6303 WRR 92.70% 96.20% 57.18% 83.71% Tabulka 4: Úspěšnost rozpoznávání číslovek Jelikož u mužů a žen dochází k rozdílnému posunu v řečových parametrech, úspěšnost rozpoznávání byla testována odděleně. U mužů došlo k poklesu úspěšnosti o 13,5 %, u žen o 35,5 %. Výrazně vyšší pokles u žen lze vysvětlit pozorovaným posuvem maxima rozdělení f 0 do oblasti typického výskytu prvního formantu, a dále posunem prvních dvou formantů do oblastí, ve kterých se v trénovacích datech nikdy nevyskytovaly. 4. Závěr V příspěvku byly prezentovány výsledky analýz řečových parametrů na databázi CLSD. U promluv s LE byly pozorovány výrazné změny hlasové intenzity, rozložení f 0, polohy a šířky pásma prvních dvou formantů a délek fonémů. U 3. a 4. formantu k systematickým změnám nedocházelo. Délky slov při LE zůstávaly prakticky stejné, což je způsobeno faktem, že délky některých fonémů se zkracují a u jiných prodlužují. Na závěr bylo provedeno rozpoznávání na číslovkách. U mužů klesla úspěšnost o 13,5 %, u žen o 35, 5 %. Výraznější zhoršení u žen je zřejmě způsobeno posunem f 0 a prvních formantů do oblastí, které nebyly pokryty v trénovaní množině dat rozpoznávače. Je patrné, že v CLSD je LE silně zastoupen a databáze je tedy vhodná pro jeho analýzu a modelování.

5. Poděkování Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 Nové směry ve výzkumu a využití hlasových technologií, sběr dat byl podpořen grantem GAČR 102/03/H085 Modelování biologických a řečových signálů a výzkumným záměrem MSM 6840770014 Výzkum perspektivních informačních a komunikačních technologií. Reference [1] Hansen, J. H. L.: Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(2):151-170 [2] Womack, B. D., Hansen, J. H. L.: Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(1-2):131-150 [3] Bořil, H.: Recognition of Speech under Lombard Effect. Proc. 14th Czech-German Workshop on Speech Processing, Prague, Czech Republic, 2004, 110 113 [4] Chi, S. M., Oh, Y. H.: Lombard Effect Compensation and Noise Suppression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, Philadelphia, 1996, 4:2013-2016 [5] Bořil, H., Pollák, P.: Design and Collection of Czech Lombard Speech Database. INTERSPEECH-05, Lisboa, Portugal, 2005, 1577-1580 [6] Pollák, P., Vopička, J., Sovka, P.: Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, Budapest, Hungary 1999, 5:2263-6 [7] Bořil, H., Pollák, P.: Comparison of Three Czech Speech Databases from the Standpoint of Lombard Effect Appearance. Proc. ASIDE 2005, COST278 Final Workshop and ISCA Tutorial and Research Workshop, 10-11 November 2005, Aalborg, Denmark, [CD-ROM] [8] Pollák, P.: Efficient and Reliable Measurement and Evaluation of Noisy Speech Background. Proc. 11th European Signal Processing Conference EUSIPCO, Toulouse, 2002. [9] Vondrášek, M., Pollák, P.: Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency. Radioengineering, 2005, 14(1):6-11, [10] Sjölander, K., Beskow, J.: WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China 2000. [11] Young, S. et al: The HTK Book ver. 2.2. Entropic Ltd 1999.