Lombardův efekt v řečové databázi CLSD

Lombardův efekt v řečové databázi CLSD Hynek Bořil České vysoké učení v Praze, Fakulta elektrotechnická borilh@gmail.com Abstrakt: V tomto příspěvku jsou prezentovány výsledky analýz parametrů řečové databáze CLSD (Czech Lombard Speech Database). Databáze se zaměřuje na modelování Lombardova efektu (LE) pro účely zvýšení robustnosti rozpoznávání řeči v hlučném prostředí. CLSD je tvořena nahrávkami neutrální řeči a řeči produkované v několika typech simulovaného hlučného prostředí. V porovnání s jinými dostupnými databázemi zaměřenými na LE, v našem případě byla do korpusu databáze zahrnuta rozsáhlá sada foneticky bohatých slov a vět za účelem pokrytí celého fonémového slovníku českého jazyka a relativně velké množství číslovek umožňující provádění statisticky význačných rozpoznávacích testů. 1. Úvod Lombardův efekt je způsoben změnami řečových charakteristik mluvčího ve snaze o zvýšení srozumitelnosti promluvy v hlučném prostředí [1]. Z hlediska řečových parametrů se LE projevuje jako nelineární zkreslení závislé na konkrétním mluvčím a typu a úrovni okolního hluku. LE se projevuje především změnami hlasové intenzity, průběhem základního řečového kmitočtu f 0, změnami polohy a šířky formantových laloků (danými konfiguracemi dutin vokálního traktu), sklonem amplitudového spektra a rozložením energie v jednotlivých frekvenčních pásmech [2]. Změny některých zmíněných řečových parametrů mohou výrazně zhoršit úspěšnost rozpoznávače natrénovaného na neutrální řeči. Některé současně dostupné velké řečové databáze obsahují promluvy nahrané v prostředích s různým hlukovým pozadím (např. kanceláře, veřejná prostranství, kabiny automobilu) pro potřeby trénování a testování rozpoznávače na reálných hlučných signálech. Nepříznivé je, že u hlučných nahrávek lze těžko oddělit dopad hluku a LE na rozpoznávač (pokud není možno hluk v nahrávkách dostatečně potlačit). V některých případech navíc mluvčí promluvy spíše jen čtou, aniž by se snažili zajistit jejich srozumitelnost a reagovali na okolní hluk [3]. V případě speciálních databází zaměřených na analýzu LE, simulované hlučné prostředí je vytvořeno reprodukcí nahrávek hluků do uzavřených sluchátek na hlavě mluvčího. Tím je zajištěn vysoký odstup signálu od šumu v nahrávaném řečovém signálu [1, 4]. V tomto příspěvku jsou popsány výsledky analýz řečových parametrů na databázi CLSD [5], která byla nahrána přímo za účelem analýzy a modelování LE. 2. Popis databáze CLSD CLSD obsahuje nahrávky neutrální řeči a řeči produkované v různých typech simulovaného hlučného prostředí (hluky z kabiny jedoucího automobilu vybrané z databáze CAR2E [6], umělé pásmové šumy). Pro účely nahrávání Lombardovy řeči byla obvyklá konfigurace, při které je hluk pouštěn do sluchátek mluvčího, rozšířena o přítomnost operátora, který slyší ve sluchátkách stejný hluk smíchaný s hlasem mluvčího. Intenzita hlasu mluvčího v odposlechu operátora je snížena o úroveň odpovídající zvolené virtuální vzdálenosti mluvčího a operátora. V případě, že operátor nerozumí promluvě, vyzve mluvčího k zopakování položky.

Tato konfigurace motivovala mluvčí, aby se snažili docílit srozumitelnosti promluv. Ve většině případů byla volena virtuální vzdálenost 3 m a úroveň hluku 90 db SPL. V současné době CLSD obsahuje nahrávky od 26 mluvčích, kde každý se zúčastnil nahrávání v neutrálních i Lombardových podmínkách. Promluvy byly snímány close-talk a hands-free mikrofonem. Dále prezentované analýzy byly prováděny na signálech z close-talk mikrofonu. 3. Analýzy Abychom mohli posoudit míru zastoupení LE v databázi CLSD, byly analyzovány parametry, které jsou jím obvykle znatelně ovlivňovány, a to SNR (intenzita hlasu), změny v rozložení základního řečového tónu (f 0 ), pozice a šířky prvních čtyř formantových laloků, průměrné délky fonémů a slov a úspěšnost při rozpoznávání číslovek [7]. 3.1 Rozložení SNR V některých případech je nutné v průběhu nahrávání měnit citlivost mikrofonního předzesilovače, aby byl efektivně využit dynamický rozsah vstupního převodníku, tj. abychom se vyhnuli nedostatečnému vybuzení resp. přebuzení vstupního signálu při výrazných změnách hlasové intenzity mluvčího. To má za následek, že hlasovou intenzitu nelze odhadovat přímo z amplitudy signálu. Pokud ovšem můžeme hluk okolí považovat za stacionární, relativní změny hlasové intenzity mohou být odhadovány přímo z průběhu SNR. Navíc, pokud bychom znali absolutní úroveň okolního hluku, můžeme odhadnout i absolutní hlasovou intenzitu. Jelikož všechny nahrávky v CLSD byly nahrávány v kanceláři s prakticky konstantní hladinu hluku a na úrovni jednotlivých mluvčí nedocházelo ke změně pozice nahrávání, hluk zde lze považovat za téměř stacionární. Jeho absolutní hladina však nebyla v průběhu nahrávání měřena. Pro potřeby analýz bylo určováno tzv. segmentální SNR [8, 9]. 1600 CLSD Channel SNR Histograms Number of Utterances 1400 1200 1000 800 600 400 200 Close-talk Clean Hands-free Clean Close-talk LE Hands-free LE 0-10 10 30 50 70 SNR (db) Obrázek 1: Rozložení SNR v kanálech CLSD Jak je patrné z obrázku 1, kde Clean v legendě značí neutrální promluvy a LE promluvy v simulovaném hluku, u Lombardových promluv dochází k výraznému nárůstu průměrné hlasové intenzity. Průměrné SNR close-talk kanálu se v tomto případě pohybuje okolo 50 db, u neutrálních nahrávek okolo 30 db, je tedy zaručeno, že analyzované řečové parametry a rozpoznávací experimenty nebudou narušeny přítomností hluku.

3.2 Základní řečový kmitočet Průběh f 0 byl analyzován v systému WaveSurfer [10]. Detekce byla prováděna ve všech znělých úsecích neutrálních a Lombardových promluv. Na obrázku 2 indexy F a M představují ženské a mužské mluvčí. Number of Frames (x 10 000) 6 5 4 3 2 1 CLSD - Fundamental Frequency Distribution Clean_F LE_F Clean_M LE_M Obrázek 2: Rozložení f 0 Spojitá čára s maximem na nižší frekvenci představuje rozložení mužského f 0 a spojitá čára s maximem na vyšší frekvenci rozložení ženského f 0 v neutrální řeči, čárkované čáry pak rozložení v Lombardově řeči. Je patrné, že při Lombardově řeči dochází v CLSD k výraznému posuvu rozložení f 0 směrem k vyšším frekvencím. Maximum rozložení mužského f 0 se při LE posouvá výše než je maximum f 0 neutrální ženské řeči, maximum ženského f 0 se pak posouvá do oblasti typického výskytu prvního formantu, což může mít výrazný negativní dopad na úspěšnost rozpoznávání, jak bude ukázáno dále. 3.3 Formanty 0 70 120 170 220 270 320 370 420 470 520 570 Frequency (Hz) Analýza formantů byla prováděna také v systému WaveSurfer. Monofónový rozpoznávač [11] natrénovaný na 70 mluvčích z databáze SPEECON byl použit pro automatické zarovnání pozic fonémů. Pro detekci pozic formantů bylo použito LPC 12. řádu. Informace o pozicích a šířkách pásem prvních čtyř formantů byly přiřazeny odpovídajícím fonémům. Na obrázku 3 jsou ukázány průměrné pozice prvních dvou formantů vybraných samohlásek v číslovkách. F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 /i/ /u/ /i'/ /u'/ /e/ /o/ CLSD - Male Vowel Formants /e'/ /a/ /o'/ /a'/ 300 400 500 600 700 800 900 F1 (Hz) F2 (Hz) 2400 2200 2000 1800 1600 1400 1200 1000 300 400 500 600 700 800 900 F1 (Hz) Obrázek 3: Pozice formantů vybraných samohlásek v číslovkách /i/ /u/ /u'/ /i'/ CLSD - Female Vowel Formants /e/ /o/ /e'/ /a/ /o'/ /a'/

Plnou čarou jsou spojeny formantové pozice samohlásek v neutrálních promluvách a čárkovanou v Lombardových promluvách. Jak u mužských, tak u ženských mluvčích je patrný výrazný posun pozic prvních dvou formantů při Lombardově řeči. U 3. a 4. formantu již změny nebyly tak systematické, proto zde nejsou uvedeny. Také výrazné posuvy šířky pásma prvního formantu byly pozorovány u některých samohlásek v číslovkách. B 1M,F značí šířku pásma prvního formantu u mužských resp. ženských mluvčích, σ značí odpovídající směrodatnou odchylku. Sloupce kurzívou značí Lombardovu řeč. Hláska B 1M (Hz) σ M (Hz) B 1M (Hz) σ M (Hz) B 1F (Hz) σ F (Hz) B 1F (Hz) σ F (Hz) /a/ 269 88 152 59 232 85 171 68 /e/ 168 94 99 44 169 73 130 49 /i/ 125 53 108 52 132 52 133 58 /o/ 239 88 157 81 246 91 158 62 /u/ 134 67 142 81 209 95 148 66 3.4 Délky formantů Tabulka 1: Ukázka změn šířky pásma prvního formantu při LE Automatické zarovnávání fonémů bylo použito také pro analýzu změn průměrných délek hlásek při Lombardově řeči. Jelikož typická délka fonému závisí slovu, ve kterém se foném nachází, srovnání bylo provedeno na úrovni jednotlivých slov. Průměrné délky fonémů a směrodatné odchylky byly určovány pro promluvy obsahující číslice. Rozdíl v délce trvání fonému ve stejném slově vysloveném v Lombardových a neutrálních podmínkách je určen T T T C2 C1 = C1 100 (%), (1) kde T Cx představuje průměrnou dobu trvání fonému v podmínkách x. Slovo Foném # N # LE T N (s) σ Tn (%) T LE (s) σ Tle (%) (%) Jedna /e/ 583 939 0.031 3.39 0.082 17.73 161.35 Dvje /e/ 586 976 0.087 7.12 0.196 15.84 126.98 Čtiri /r/ 35 241 0.041 3.00 0.089 12.92 115.92 Pjet /e/ 555 909 0.056 4.44 0.154 11.48 173.71 Sedm /e/ 358 583 0.080 7.49 0.179 19.93 122.46 Osm /o/ 310 305 0.086 3.07 0.203 27.68 135.25 Devjet /e/ 609 932 0.043 3.22 0.120 12.97 177.20 Tabulka 2: Změny délek fonémů při LE U řady fonémů v CLSD byly pozorovány systematické změny délek trvání, v některých případech docházelo ke zkracování, v jiných k prodlužování. Změny délek překračující 100 % jsou ukázány v tabulce 2. # N a # L značí počet analyzovaných neutrálních a Lombardových číslovek.

3.5 Délky slov Změny délek slov byly pozorovány, ale nedosahovaly zdaleka úrovně změn u fonémů. Je to způsobeno tím, že zatímco délky některých fonémů se při LE zkracují, délky jiných se prodlužují, takže ve výsledné délce slova se tyto změny navzájem často téměř vyruší. byla určována podle rovnice (1), T zde reprezentuje délku slova. Slovo # N T N (s) σ Tn (%) # LE T LE (s) σ Tle (%) (%) Nula 497 0,397 10,94 802 0,476 15,67 19,87 Jedna 583 0,441 12,78 939 0,527 16,52 19,56 Dvje 586 0,365 11,39 976 0,423 13,82 15,87 3.6 Rozpoznávání číslovek Tabulka 3: Změny délek slov Abychom získali představu, jaký mají změny analyzovaných řečových parametrů dopad jako celek na úspěšnost neutrálního rozpoznávače, na závěr bylo provedeno rozpoznávání číslovek. Použit byl rozpoznávač zmíněný v odstavci 3.3. Testovací data byla tvořena promluvami obsahujícími izolované, opakované a opakované vázané číslovky. V tabulce 4 jsou shrnuty výsledky rozpoznávání, WRR značí úspěšnost rozpoznávání na úrovni slov (Word Recognition Rate). Typ dat Neutral F Neutral M LE F LE M Počet mluvčích 12 14 12 14 Počet číslovek 4930 1423 5360 6303 WRR 92.70% 96.20% 57.18% 83.71% Tabulka 4: Úspěšnost rozpoznávání číslovek Jelikož u mužů a žen dochází k rozdílnému posunu v řečových parametrech, úspěšnost rozpoznávání byla testována odděleně. U mužů došlo k poklesu úspěšnosti o 13,5 %, u žen o 35,5 %. Výrazně vyšší pokles u žen lze vysvětlit pozorovaným posuvem maxima rozdělení f 0 do oblasti typického výskytu prvního formantu, a dále posunem prvních dvou formantů do oblastí, ve kterých se v trénovacích datech nikdy nevyskytovaly. 4. Závěr V příspěvku byly prezentovány výsledky analýz řečových parametrů na databázi CLSD. U promluv s LE byly pozorovány výrazné změny hlasové intenzity, rozložení f 0, polohy a šířky pásma prvních dvou formantů a délek fonémů. U 3. a 4. formantu k systematickým změnám nedocházelo. Délky slov při LE zůstávaly prakticky stejné, což je způsobeno faktem, že délky některých fonémů se zkracují a u jiných prodlužují. Na závěr bylo provedeno rozpoznávání na číslovkách. U mužů klesla úspěšnost o 13,5 %, u žen o 35, 5 %. Výraznější zhoršení u žen je zřejmě způsobeno posunem f 0 a prvních formantů do oblastí, které nebyly pokryty v trénovaní množině dat rozpoznávače. Je patrné, že v CLSD je LE silně zastoupen a databáze je tedy vhodná pro jeho analýzu a modelování.

5. Poděkování Teoretická část práce vznikla za podpory grantu GAČR 102/05/0278 Nové směry ve výzkumu a využití hlasových technologií, sběr dat byl podpořen grantem GAČR 102/03/H085 Modelování biologických a řečových signálů a výzkumným záměrem MSM 6840770014 Výzkum perspektivních informačních a komunikačních technologií. Reference [1] Hansen, J. H. L.: Analysis and Compensation of Speech under Stress and Noise for Environmental Robustness in Speech Recognition. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(2):151-170 [2] Womack, B. D., Hansen, J. H. L.: Classification of Speech under Stress Using Target Driven Features. Speech Communications, Special Issue on Speech under Stress, November 1996, 20(1-2):131-150 [3] Bořil, H.: Recognition of Speech under Lombard Effect. Proc. 14th Czech-German Workshop on Speech Processing, Prague, Czech Republic, 2004, 110 113 [4] Chi, S. M., Oh, Y. H.: Lombard Effect Compensation and Noise Suppression for Noisy Lombard Speech Recognition. Proc. ICSLP '96, Philadelphia, 1996, 4:2013-2016 [5] Bořil, H., Pollák, P.: Design and Collection of Czech Lombard Speech Database. INTERSPEECH-05, Lisboa, Portugal, 2005, 1577-1580 [6] Pollák, P., Vopička, J., Sovka, P.: Czech Language Database of Car Speech and Environmental Noise. EUROSPEECH-99, Budapest, Hungary 1999, 5:2263-6 [7] Bořil, H., Pollák, P.: Comparison of Three Czech Speech Databases from the Standpoint of Lombard Effect Appearance. Proc. ASIDE 2005, COST278 Final Workshop and ISCA Tutorial and Research Workshop, 10-11 November 2005, Aalborg, Denmark, [CD-ROM] [8] Pollák, P.: Efficient and Reliable Measurement and Evaluation of Noisy Speech Background. Proc. 11th European Signal Processing Conference EUSIPCO, Toulouse, 2002. [9] Vondrášek, M., Pollák, P.: Methods for Speech SNR Estimation: Evaluation Tool and Analysis of VAD Dependency. Radioengineering, 2005, 14(1):6-11, [10] Sjölander, K., Beskow, J.: WaveSurfer - an Open Source Speech Tool. Proc. ICSLP 2000, Bejing, China 2000. [11] Young, S. et al: The HTK Book ver. 2.2. Entropic Ltd 1999.