České vysoké učení technické v Praze Fakulta elektrotechnická Disertační práce Srpen 2010 Jiří Tatarinov
České vysoké učení technické v Praze Fakulta elektrotechnická Katedra teorie obvodů Detektory řečové aktivity na bázi skrytých Markovových modelů Disertační práce Jiří Tatarinov Praha, srpen 2010 Doktorský studijní program: Elektrotechnika a informatika Studijní obor: Teoretická elektrotechnika Školitel: Doc. Ing. Petr Pollák, CSc.
Abstrakt Disertační práce se zabývá detekcí řečové aktivity, procesem klasifikace řečového signálu do dvou tříd řeči a šumu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem nejen současného výzkumu, ale i aplikací v oblasti řečových technologií. Hraje důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. Primárním cílem této práce je prostudovat a srovnat algoritmy detekce řečové aktivity využívající skryté Markovovy modely a následně navrhnout optimalizované detektory na jejich bázi. Práce se zaměřuje na detekci v relativně silně zarušeném prostředí, kde v současnosti často používané heuristické detektory výrazně selhávají. Uvedené algoritmy vedly ke konstrukci poměrně robustních detektorů, které fungovaly spolehlivě jak v rušném, tak v tišším prostředí. V první části této práce je navržena platforma pro testování a objektivní zhodnocení detektorů řečové aktivity, kde jsou zahrnuty implementace různých referenčních VAD včetně detektoru podle doporučení G.729. Byla vytvořena referenční databáze pro testování úspěšnosti VAD obsahující asi 3 hodiny řečových signálů s označením přesných hranic řečových a neřečových segmentů. Unikátní vlastností je přesné značení neřečových událostí. Označen je vždy typ, začátek, konec události a paralelní označení přesných hranic změn jednotlivých prostředí. Druhá část práce se zabývá návrhem a optimalizací detektorů na bázi GMM a HMM dohromady s analýzou možností zpracování řečového signálu vedoucí k výběru nejvhodnějších parametrů řeči pro řešenou úlohu. Bylo zjištěno, že parametry, které jsou nejlépe schopny rozlišit dvě dané třídy, jsou spektrální percepčně lineární koeficienty RASTA. Je navržen detektor řečové aktivity klasifikující na základě vzdálenosti mezi HMM řeči a šumu. Přínos navrženého VAD spočívá v možnosti plynulé změny jeho nastavení tak, aby klasifikoval přesněji buď v řečových nebo v neřečových úsecích signálu při současném zachování strukturálního způsobu klasifikace pomocí HMM. Při srovnání s referenčními VAD dosahuje u signálu nahraných v prostředí jedoucího auta 52% snížení celkové chyby klasifikace. Dále byl testován a optimalizován fonémový HMM VAD, který přítomnost řečové aktivity zjišťuje na základě nejpravděpodobnějšího průchodu rozpoznávací sítě složené z HMM monofonů a šumu. Pro signály nahrané v jedoucím automobilu byla snížena chyba detekce řeči o více než 71%. Ve specifických případech, ve kterých se projevuje výhodnost modelování struktury řeči a šumu, například u nahrávek se slyšitelným řazením jiného rychlostního stupně, bylo dosaženo snížení chyby o 85%. Na závěr je navržen a optimalizován detektor řečové aktivity, který strukturu promluvy modeluje pomocí dvou obecných modelů řeči a šumu a ke klasifikaci používá algoritmus cestování žetonů. Byly analyzovány dvě různé struktury modelů levo-pravé a ergodické HMM. V prostředí jedoucího automobilu bylo dosaženo snížení chyby klasifikace o 61%. Realizované testy na signálech obsahujících reálné rušení různého typu s větším důrazem na prostředí jedoucího automobilu ukázaly větší přesnost HMM a GMM detektory ve srovnání s referenčním detektorem energetickým a kepstrálním, či detektory dle doporučení G.729. Lepší výsledky jsou dosaženy hlavně na signálech se silnějším šumovým pozadím, kde navržené detektory klasifikují přesněji zejména neřečové segmenty a ve specifických případech byla snížena chyba klasifikace o 85%. i
Abstract This doctoral thesis deals with voice activity detection, a process of speech classification into two classes speech or noise. The voice activity detection represents an important part of general research in the field of speech processing and is a subject of many contemporary research activities and many applications of speech technology. The primary aim of this work was to study, propose and compare the voice activity detection algorithms based on hidden Markov models. This work focuses on the detection in relatively noisy environment, where heuristic detectors currently often used, significantly fail. Relatively robust detectors operating well in both silent or noisy environment were proposed. In the first part of this work the platform for testing and objective evaluation of voice activity detectors is designed. Implementation of different VAD, together with the reference detector in accordance with the recommendationg G.729 are also included. For testing of proposed voice activity detectors the reference database was created. It contains about 3 hours of speech signals with anotations indicating the precise boundaries of speech and noisy segments. A unique feature is the accurate marking of non-speech events, labels, beginings and ends of events are included for each event. The time marks of environmental changes are also included. The second part deals with the design and optimalization of detectors based on GMM and HMM, commonly with the study of using different speech parametrizations. Concluding the spectral perceptual linear coefficients RASTA are the best speech parameters to distinguish between speech and noise. The voice activity detector based on discrimination of distance measure between Markov model of speech and noise was designed. The main contribution of the VAD is its possibility to continuously change its settings to achieve more accurate classification either in speech or noise while preserving the structural method of classification using HMM. The 52% reduction of error decision rate has been achieved in a noisy environment in moving car. Further, the phoneme HMM voice activity detector was tested and optimized. The principle of classification is finding the best path through the recognition network which consist from HMM of monophones and noise. The 71% error reduction has been achieved using signals recorded in noisy moving car. The 85% reduction of error decision rate has been achieved for speech recordings whith specific non-speech event like gear shifting. Finally the HMM voice activity detector using two general models of speech and noise was designed and optimized. The different HMM types were tested left-right and ergodic HMM. The 61% error reduction was achieved in the noisy environment in a moving car. Proposed detectors were compared with referential heuristic algorithms based on energy and cepstral analysis, and with the VAD according to ITU-T G.729 recommendation. The testing of suggested algorithms was realized using the utterances with real noise recorded mainly in running car and the contribution of proposed statistical detectors based on GMM and HMM is evident, especially, for speech signals collected in very noisy environment. In particular recordings of noisy speech the 85% reduction of error rate was achieved. ii
Prohlášení Prohlašuji, že jsem svou disertační práci vypracoval samostatně a použil jsem pouze podklady uvedené v přiloženém seznamu. V Praze dne 28. srpna 2010 Jiří Tatarinov iii
Poděkování Rád bych poděkoval všem, kteří se zasloužili o vznik této práce. Především děkuji svému školiteli Doc. Ing. Petru Pollákovi, CSc. za obětavou pomoc, cenné rady a připomínky v průběhu celého doktorského studia, které vedly k výraznému zkvalitnění této práce. Dále bych rád poděkoval kolegům doktorandům za řadu diskusí o problematice i doktorském studiu obecně. Děkuji svým blízkým a přátelům za trpělivost, za duchovní, duševní a materiální podporu během studia. Tento výzkum byl podporován granty GAČR 102/03/H085 Modelování biologických a řečových signálů, GAČR 102/08/0707 Rozpoznávání mluvené řeči v reálných podmínkách a výzkumným záměrem MSM 6840770014 Výzkum perspektivních informačních a komunikačních technologií. Databáze CZKCC vznikla v rámci společného projektu a za finanční podpory firmy TEMIC TELEFUNKEN GmbH se sídlem v Ulmu v roce 2001. Databáze není veřejně dostupná a jejím vlastníkem je v současné době Harman/Becker, Ulm, Germany. iv
Obsah 1 Úvod 1 2 Stav problematiky detekce řečové aktivity 3 2.1 Detekce řečové aktivity............................. 3 2.2 Lidská řeč.................................... 3 2.2.1 Model vytváření řeči.......................... 4 2.2.2 Struktura řeči.............................. 4 2.3 Šum....................................... 6 2.4 Rozdíly mezi řečí a šumem........................... 6 2.5 Základní myšlenky řešení............................ 7 2.6 Akustická analýza................................ 7 2.6.1 Výkon (energie)............................. 7 2.6.2 Intenzita................................. 8 2.6.3 Počet průchodů nulou......................... 8 2.6.4 Základní hlasivkový tón, periodicita.................. 8 2.6.5 Entropie................................. 9 2.6.6 Koherenční funkce........................... 10 2.6.7 Koeficienty lineární predikce...................... 10 2.6.8 Kepstrální analýza........................... 10 2.6.9 Kepstrální koeficienty LPC....................... 11 2.6.10 Mel-frekvenční kepstrální koeficienty................. 12 2.6.11 Perceptivně lineární prediktivní analýza............... 12 2.6.12 Metoda RASTA-PLP.......................... 13 2.6.13 Delta a akcelerační koeficienty..................... 14 2.6.14 Srovnání parametrů........................... 15 2.7 Klasifikace.................................... 15 2.7.1 Detektory řeči založené na prahování................. 15 2.7.2 LDA................................... 17 2.7.3 LRT................................... 17 2.7.4 Neuronové sítě............................. 18 2.7.5 SVM................................... 18 2.7.6 Směs Gaussovských hustotních funkcí................. 18 2.7.7 Skryté Markovovy modely....................... 19 2.8 Referenční detektory řečové aktivity...................... 19 2.8.1 Kepstrální detektor........................... 19 2.8.2 ITU-T G.729b VAD.......................... 20 v
vi OBSAH 3 Cíle práce, motivace 23 3.1 Motivace..................................... 23 3.2 Vlastní cíle práce................................ 24 3.3 Obsah práce................................... 25 4 Základní experimentální setup 27 4.1 Získávání parametrů řečového signálu..................... 27 4.2 Kritéria..................................... 28 4.2.1 Základní kritéria............................ 28 4.2.2 Rozšířená kritéria............................ 29 4.3 Další vytvořené nástroje............................ 30 4.4 Nastavení kepstrálního a energetického VAD................. 31 4.4.1 ROC křivka............................... 31 4.4.2 Optimalizace hodnoty prahu...................... 32 4.4.3 Optimalizace prahu kepstrálního detektoru.............. 33 4.4.4 Optimalizace prahu energetického detektoru............. 33 4.5 Množiny signálů................................. 33 4.5.1 Trénovací množiny........................... 34 4.5.2 Testovací množiny........................... 34 5 Testovací databáze 37 5.1 Dostupné řečové databáze........................... 37 5.2 Návrh databáze pro detekci řečové aktivity.................. 38 5.3 Výběr nahrávek................................. 38 5.4 Hranice řečových položek............................ 38 5.5 Testovací množiny............................... 39 5.5.1 Databáze CAR2ECS a množina CAR2ECSVAD.......... 39 5.5.2 Databáze SPEECON a množina SPEECONVAD.......... 39 5.5.3 Databáze CZKCC a množina CZKCCVAD.............. 40 5.6 Analýza testovacích množin.......................... 41 6 Detekce na bázi GMM 45 6.1 Detekce přítomnosti řeči s GMM....................... 45 6.2 Analýza vhodné parametrizace......................... 47 6.2.1 Jednorozměrné parametrizace..................... 47 6.2.2 Vícerozměrné parametrizace...................... 49 6.3 Analýza parametrizací pomocí vzdálenosti Kullback-Leibler......... 52 6.4 Experimenty................................... 53 6.4.1 Vliv použité parametrizace...................... 53 6.4.2 Optimalizace počtu směsí....................... 54 6.4.3 Vliv rušného prostředí automobilu................... 55 6.4.4 Experimenty s neřečovými událostmi................. 56 6.4.5 Experimenty na dalších typech řečových položek........... 57 6.4.6 Shrnutí.................................. 57 7 Detekce na bázi HMM 59 7.1 Dekódování řeči................................. 59 7.2 Akustické modelování řeči pomocí HMM................... 60 7.3 Analýza možností využití HMM za účelem detekce přítomnosti řeči.... 61
OBSAH vii 7.3.1 Výběr modelované části promluvy................... 62 7.3.2 Struktura modelu............................ 62 7.3.3 Klasifikační algoritmus......................... 63 7.3.4 Způsob inicializace a trénování.................... 64 7.3.5 Shrnutí analýzy............................. 65 7.4 Fonémový detektor řečové aktivity...................... 65 7.5 VAD vyhodnocující vzdálenosti HMM (DHMM).............. 67 7.6 VAD modelující promluvy pomocí dvou HMM................ 69 7.7 Experimenty................................... 70 7.7.1 Fonémový detektor řečové aktivity.................. 70 7.7.2 VAD vyhodnocující vzdálenosti HMM (DHMM)........... 75 7.7.3 VAD modelující promluvy pomocí dvou HMM............ 80 8 Shrnující experimenty 89 8.1 Detekce v prostředí automobilu........................ 89 8.2 Detekce neřečových událostí.......................... 90 8.3 Detekce promluv obsahujících další typy řečových položek......... 91 8.4 Souhrnné poznámky.............................. 92 9 Závěr 95 A Tabulky a grafy výsledků experimentů 109
viii OBSAH
Seznam obrázků 2.1 Model vytváření řeči.............................. 4 2.2 Vznik zarušeného řečového signálu....................... 6 2.3 Struktura detektorů řečové aktivity...................... 7 2.4 Melovská banka filtrů.............................. 11 2.5 Výpočet Melovských kepstrálních koeficientů................. 12 2.6 Algoritmus kepstrálního VAD......................... 20 2.7 Struktura G729 VAD.............................. 21 4.1 Ilustrace kritérií vyhodnocující detektory řečové aktivity.......... 30 4.2 ROC pro kepstrální VAD............................ 33 4.3 ROC pro energetický VAD........................... 34 5.1 Transkripce řeči................................. 38 5.2 SSNR signálů v množině CZKCCVAD a CAR2ECSVAD.......... 42 5.3 SSNR signálů v množině SPEECONVAD................... 44 5.4 SSNR signálů obsahující neřečové události.................. 44 6.1 Ilustrace principu GMM............................ 46 6.2 Algoritmus GMM VAD............................. 47 6.3 Rozložení energie................................ 48 6.4 Rozložení počtu průchodů nulou........................ 48 6.5 Rozložení F0.................................. 49 6.6 Rozložení koeficientů lineární predikce.................... 49 6.7 Rozložení DCT kepstrálních koeficientů................... 50 6.8 Rozložení kepstrálních koeficientů LPC.................... 50 6.9 Rozložení Melovských kepstrálních koeficientů................ 50 6.10 Rozložení spektrálních PLP koeficientů.................... 51 6.11 Rozložení kepstrálních PLP koeficientů.................... 51 6.12 Rozložení spektrální PLP koeficientů RASTA................ 51 6.13 Rozložení kepstrálních PLP koeficientů RASTA............... 51 7.1 Bloky systému pro dekódování řeči...................... 60 7.2 Ilustrace generování posloupnosti....................... 61 7.3 Levo-pravý model................................ 62 7.4 Ergodický model................................ 62 7.5 Model dlouhé pauzy.............................. 62 7.6 Model krátké pauzy............................... 62 7.7 Blokové schéma fonémového VAD....................... 66 7.8 Výpočet diskriminační funkce......................... 68 ix
x SEZNAM OBRÁZKŮ 7.9 Blokové schéma VAD modelující promluvy pomocí dvou modelů...... 69 7.10 Rozpoznávací síť s ergodickými modely řeči a šumu............. 70 7.11 Ilustrace hranic řečových úseků u HMM VAD................ 71 7.12 Vliv zvyšování počtu stavů modelů na ROC charakteristiky pro DHMM VAD s CPLP koeficienty v uvedených prostředích............... 75 7.13 Nastavení prahu pro DHMM VAD pomocí ROC charakteristiky...... 76 A.1 Nastavení prahu DHMM VAD pomocí ROC charakteristiky........ 110 A.2 Vliv zvyšování počtu stavů modelů na ROC charakterisitky pro DHMM VAD v uvedených prostředích a danou parametrizaci............. 113
Seznam tabulek 4.1 Konfúzní matice absolutní hodnoty..................... 31 4.2 Konfúzní matice relativní hodnoty...................... 32 5.1 Řečové položky množiny CZKCCVAD.................... 41 5.2 Neřečové položky množiny CZKCCVAD................... 41 5.3 Prostředí nahrávek množiny CZKCCVAD.................. 41 6.1 Analýza podobnosti řečových a šumových úseku řeči pomocí vzdáleností Kullback-Leibler................................ 53 6.2 Vliv použité parametrizace na úspěšnost GMM VAD............. 54 6.3 Analýza počtu směsí u GMM VAD v uvedených prostředích........ 55 6.4 Chyby klasifikace optimálně nastaveného GMM VAD............ 56 6.5 Úspěšnost GMM VAD u promluv obsahujících různé neřečové události... 58 6.6 Úspěšnost GMM VAD na dalších typech řečových položek.......... 58 7.1 Analýza vlivu počtu směsí modelů fonémového HMM VAD......... 72 7.2 Chyby klasifikace optimálně nastaveného fonémového HMM VAD..... 73 7.3 Úspěšnost fonémového HMM VAD u promluv obsahujících různé neřečové události...................................... 74 7.4 Úspěšnost fonémového HMM VAD na dalších typech řečových položek... 74 7.5 Chyby klasifikace optimálně nastaveného DHMM VAD........... 77 7.6 Úspěšnost DHMM VAD u promluv obsahujících různé neřečové události.. 78 7.7 Úspěšnost DHMM VAD na dalších typech řečových položek......... 78 7.8 Analýza vlivu počtu směsí LP modelů HMM VAD.............. 80 7.9 Analýza počtu stavů LP modelů HMM VAD................. 81 7.10 Analýza počtu stavů modelů HMM VAD při klasifikaci promluv obsahujících slyšitelný blinkr.............................. 82 7.11 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího LP modely....................................... 83 7.12 Chyby klasifikace optimálně nastaveného HMM VAD využívajícího ergodické modely.................................. 84 7.13 Úspěšnost HMM VAD s levo-pravými modely u promluv obsahujících různé neřečové události................................. 86 7.14 Úspěšnost HMM VAD s levo-pravými modely na dalších typech řečových položek...................................... 86 7.15 Úspěšnost HMM VAD s ergodickými modely u promluv obsahujících různé neřečové události................................. 87 7.16 Úspěšnost HMM VAD s ergodickými modely na dalších typech řečových položek...................................... 87 xi
xii SEZNAM TABULEK 8.1 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv z prostředí automobilu........................... 90 8.2 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události................... 91 8.3 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících dané neřečové události................... 92 8.4 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD u promluv obsahujících slyšitelné řazení rychlosti.................. 93 8.5 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na množině CAR2ECSVAD............................. 93 8.6 Nejnižší dosažené chyby klasifikace navrhovaných a referenčních VAD na dalších typech řečových položek......................... 93 A.4 Analýza počtu směsí fonémů v prostředí stojícího automobilu se zapnutým motorem.................................... 110 A.1 Analýza počtu směsí GMM v prostředí stojícího automobilu se zapnutým motorem..................................... 111 A.2 Analýza počtu směsí modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem...................... 111 A.3 Analýza počtu stavů modelů HMM VAD s LP modely v prostředí stojícího automobilu se zapnutým motorem...................... 111 A.5 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu.... 112 A.6 Přehledová tabulka chyb klasifikace v prostředí stojícího automobilu se zapnutým motorem................................ 114 A.7 Přehledová tabulka chyb klasifikace v prostředí jedoucího automobilu... 115 A.8 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný blinkr116 A.9 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelný dech mluvčího..................................... 117 A.10 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné klapání118 A.11 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné listování papírem................................. 119 A.12 Přehledová tabulka chyb klasifikace u nahrávek obsahujících slyšitelné řazení rychlostního stupně............................ 120 A.13 Přehledová tabulka chyb klasifikace u nahrávek obsahujících jinou neřečovou událost................................... 121 A.14 Přehledová tabulka chyb klasifikace na množině CAR2ECSVAD...... 122 A.15 Přehledová tabulka chyb klasifikace u nahrávek číslic (SPEECONVAD).. 123 A.16 Přehledová tabulka chyb klasifikace na signálech obsahujících promluvy celých vět (SPEECONVAD).......................... 124
Kapitola 1 Úvod Není pochyb o tom, že se nacházíme v době převratných technologických a společenských změn. Vývoj digitálních a informačních technologií určených k vytváření, zpracování, šíření a užívání informací závažně přispěl k formování nové společnosti. Snad jednou z nejvýznamnějších charakteristik současné informační společnosti je exponenciální nárůst nových informací, dokonce nových vědeckých poznatků a jejich zpřístupnění komunikačními a informačními technologiemi často v reálném čase, bez ohledu na místo jejich výskytu. Zároveň se rozvíjí snahy vedoucí ke snadné přístupnosti veškerých informačních zdrojů a odborných informací. Nejtypičtějším příkladem komunikace v reálném čase je oblast telefonie, která se rychle rozvíjí. Pevné linky byly téměř vytlačeny mobilními telefony a dále se rozšiřuje volání po síti - VoIP 1. Nové technologie sebou přinesly specifické problémy a nedostatky, které je možné řešit, či dále vylepšovat. Například při telefonním hovoru někdy využíváme hlasitý odposlech, což vede k přenosu hlasu telefonního partnera zpět do mikrofonu, kde se smísí s naším hlasem, dochází k akustickému echu. Tento efekt lze potlačit několika způsoby, některé z nich vedou k využití detektoru řečové aktivity VAD 2. VAD je přínosem také pro video konference, kde lokalizuje zdroj rozhovoru. V průběhu konferenčního hovoru je lokalizován zdroj hovoru a videokamera je směrována na mluvčího ve chvíli, kdy hovoří. Známější je využití v internetové telefonii pro kompresi řeči, kde lze vynecháním neřečových oblastí signálů zmenšit objem přenesených dat. Účastník hovoru toto vnímá až nepřirozeným ztišením reproduktoru, protože není přenášen okolní šum. Podobný přínos má VAD pro mobilní radiové sítě (GSM nebo CDMA), které často využívají DTX 3. To je metoda umožňující dočasné vypnutí mobilního telefonu nebo zastavení přenosu dat ve chvíli, kdy není přítomen žádný hlasový vstup. Tím je dosaženo celkového zefektivnění komunikační sítě. U mobilního telefonu je také prodloužena jeho výdrž na jedno nabití baterie. VAD je používán také v některých DSVD 4 modemech, které umožňují současný přenos hlasu a digitálních dat po běžné telefonní lince. Další aplikace najdeme při zvýrazňování řeči, odhadu SNR 5 nebo v rozpoznávání řeči. Nejznámější metodou zvýrazňování řeči je spektrální odečítání, ve které je velmi důležitý přesný odečet odhadu spektra šumu. Odhad spektra šumového pozadí se získá v řečových pauzách, ve kterých není přítomna řeč. Pro kvalitu zvýrazněné řeči je tedy rozhodující bezchybná funkce detektoru řečové aktivity. Při vývoji systémů pro snižování úrovně 1 Voice Over Internet Protocol 2 Voice Activity Detector 3 Discontinuous Transmission 4 Digital Simultaneous Voice and Data 5 Signal to Noise Ratio 1
2 KAPITOLA 1. ÚVOD šumu v řečovém signálu potřebujeme kvantifikovat úroveň šumového pozadí v řečovém signálu. Standardním kritériem pro měření úrovně šumu v signálu je odstup signálu od šumu SNR. Nedílnou součástí algoritmů pro výpočet SNR je VAD. VAD se také používá u rozpoznávačů řeči, kde slouží k detekci přítomnosti hlasového vstupu. Detekce řečové aktivity hraje důležitou roli v oblasti zpracování signálů a je objektem současného výzkumu. Detektory řečové aktivity jsou využívány nejen v mnoha různých oblastech vědy, ale i v průmyslových aplikacích. Hrají důležitou roli v telekomunikacích, při rozpoznávání a zvýrazňování řeči nebo jejím přenosu. [48, 50, 91, 89]
Kapitola 2 Stav problematiky detekce řečové aktivity Detekce řečové aktivity není nová úloha a v tichém prostředí bylo již v některých úlohách dosaženo velmi vysoké přesnosti. Většina současných prací se proto soustředí na řešení této úlohy v zarušeném prostředí. Záměrem této kapitoly bude vytvoření přehledu přístupů, metod a algoritmů, které byly s větším, či menším úspěchem použity pro řešení této úlohy. Vzhledem k tomu, že bylo v uplynulých letech prezentováno velké množství nejrůznějších variant přístupů k detekci řečové aktivity, neklade si tato kapitola nároky na úplnost, ale zmiňuje jen hlavní směry při jejím řešení. Aby tento přehled mohl být srozumitelně vytvořen, budou současně zavedeny základní pojmy a teoretické informace o řeči, detekci řečové aktivity a zpracování řečového signálu. 2.1 Detekce řečové aktivity Detekce řečové aktivity je postup automatické klasifikace čistého řečového signálu, či směsi řeči a šumu do dvou tříd řeči a šumu. Zpracování řečového signálu je většinou prováděno po segmentech, ke kterým je přidělována příslušná třída. Jde tedy o úlohu, která se snaží najít vzájemné rozdíly mezi řečí a šumem. Principiální rozdíl mezi řečí a šumem je v obsažené informaci. Hlavním znakem řečových úseků je, že nesou informaci nutnou k dorozumění mezi lidmi. Zatímco šumové úseky tuto informaci nenesou. Někde na pomezí mezi řečovými a šumovými úseky jsou krátké řečové pauzy, jejichž zařazení do příslušné kategorie může být v některých případech velmi subjektivní. Před samotným návrhem řešení této úlohy je nutné znát vlastnosti řeči a šumu, aby bylo možné analyzovat jejich rozdíly, a následně najít způsob, jak je vzájemně automaticky rozlišovat. 2.2 Lidská řeč Bylo zjištěno, že akustický signál řeči obsahuje o mnoho více informací, než je obsaženo v jeho skutečném významu. Člověk využívá vnitřní mechanismy [58], které mu umožní potlačit v řečovém signálu nepotřebné údaje (barva hlasu, intonace,...) a zdůraznit pouze několik hlavních zvukových příznaků, které jsou shodné pro všechna stejná slova. Důsledkem tohoto plného porozumění řeči je i schopnost poznat, zda je řeč v promluvě přítomná či nikoliv. Mechanismy vnímání řeči člověkem jsou neznámé, a proto ani nelze využít jejich 3
4 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY analogie při návrhu prostředků pro její automatické zpracování. Nicméně je možné využít alespoň dostupných znalostí o procesu tvoření řeči. Zdrojem řeči jsou lidské řečové orgány, které se skládají z hlasivek, dutiny hrdelní, ústní a nosní, měkkého a tvrdého patra, zubů a jazyka. Zdrojem hlasové energie jsou plíce a s nimi spjaté dýchací svaly. Kmitající hlasivky jsou zdrojem znělých hlásek, tj. samohlásek a znělých souhlásek. Frekvence kmitů hlasivek závisí na tlaku vzduchu a na svalovém napětí hlasivek, pohybuje se kolem 150 400 Hz a charakterizuje základní tón lidského hlasu. Pro automatické zpracování řeči je možné řeč vhodným způsobem modelovat, což se s výhodou používá pro popis některých jejich akustických parametrů. 2.2.1 Model vytváření řeči Základem je model chování hlasivek, model hlasového traktu, který napodobuje přenosové vlastnosti lidského hlasového traktu, a model vyzařování zvuku ze rtů [58]. Při promluvě se však rozměry hlasového traktu mění, nicméně lze předpokládat, že vlastnosti hlasového traktu zůstávají konstantní v časovém úseku 10-30 ms. Budící signál je tvořen periodickým sledem prvků pro znělou řeč nebo šumovým signálem pro řeč neznělou. Výsledný model hlasové produkce lze reprezentovat celo-pólovým filtrem. Model vytváření řeči je na obrázku 2.1. Šumová podstata neznělých úseků řeči vede v důsledku k problémům při detekcí řečové aktivity, a to hlavně u neznělých hlásek. Perioda základního tónu Generátor posloupnosti impulsů Znělý/Neznělý Generátor náhodného šumu Zesílení Parametry hlasového ústrojí Model hlasové produkce Obrázek 2.1: Model vytváření řeči Dále předpoklad, že vlastnosti hlasového traktu zůstávají v takto krátkém časovém úseku konstantní vede k aplikaci metod krátkodobé analýzy, při nichž se úseky řečového signálu vydělují a zpracovávají tak, jako by to byly oddělené krátké zvuky. V časové oblasti je diskrétní výstupní odezva při fixovaných parametrech hlasového ústrojí dána konvolucí buzení a impulzní odezvy modelu hlasové produkce. Výsledkem analýzy je pak vektor, který popisuje daný mikrosegment. Volba vhodného popisu mikrosegmentů řečového signálu je stěžejní nejen pro úlohu detekce řečové aktivity. 2.2.2 Struktura řeči Strukturu lidské řeči lze popsat z různých lingvistických hledisek akustického, artikulačního, fonetického, fonologického nebo prozodického. Po nasnímání řeči mikrofonem a jeho digitalizaci, lze poměrně přímočaře získat její akustický popis. Pro následné modelování je
2.2. LIDSKÁ ŘEČ 5 ovšem vhodnější popsat strukturu řeči z hlediska fonetického či fonologického dohromady s prozodickým popisem. Z fonologického hlediska je nejmenší jednotkou řeči foném, který je definován jako nejmenší lingvistická jednotka schopná rozlišovat významové jednotky (např. slova). Fonémy lze od sebe odlišit podle způsobu a místa tvoření, podle artikulujícího orgánu nebo podle sluchového dojmu. Počet fonémů ve světových jazycích se pohybuje od 12 do 60. V českém jazyce je jich 36. Spojením několika fonémů do posloupnosti vznikne slabika a jejich kombinací slovo. Hlásky je možné rozdělit do několika skupin [58] Samohlásky Při artikulaci samohlásek je snahou udržet průchod vzduchu hlasovým traktem co nejvolnější. V akustickém spektru každé samohlásky se objevuje kromě základního tónu řada vyšších zesílených tónů, které vznikají rezonancí v dutinách hlasového traktu. Souhlásky Na rozdíl od samohlásek, souhlásky obsahují v akustické spektru charakteristický šum a jsou vytvářeny vzduchovou turbulencí, která vzniká třením výdechového proudu vzduchu o překážku vytvořenou artikulačními orgány. Překážka, kterou stavějí mluvidla do cesty výdechovému proudu, může být úplná nebo částečná. Souhlásky můžeme rozdělit na závěrové Tyto samohlásky vznikají při vytvoření úplné překážky. V okamžiku zrušení překážky vzniká krátký šum, který se podobá výbuchu. úžinové Překážka je tvořena zúžením cesty výdechovému proudu na některém místě v artikulačním ústrojí. Při tření v této úžině vzniká třecí sum. polozávěrové Při tvorbě těchto souhlásek se postupně objevují oba typy překážek. Souhlásky je možné též rozdělit podle znělosti. Vyslovením neznělé souhlásky jsou hlasivky od sebe oddáleny podobně jako při volném dýchání a propouštějí výdechový proud, aniž vytvářejí hlas. Znělé souhlásky jsou naopak při tvoření doprovázeny přítomností základního hlasivkového tónu. Při vyslovování nosních souhlásek se části procesu artikulace účastní také nosní dutina. Některé souhlásky jsou shodné, liší se jenom znělostí. Takové souhlásky jsou nazývány párové. Souhlásky, které jsou vždy znělé a nemají svůj neznělý protějšek se nazývají nepárové. Při vyslovování hlásek musí různé části hlasového ústrojí zaujímat odpovídající polohu [58]. Ke změně polohy dojde za určitou dobu, a proto se vyslovení fonému mění v závislosti na předcházejícím a následujícím zvuku. Tento jev je znám jako koartikulace. Pro jeden foném může být tolik variací, kolik je přípustných sousedních fonémů. Z tohoto důvodu byl zaveden pojem fon, jako minimální fonetická jednotka identifikující odlišné primitivní zvuky řeči. Odlišné fony určitého fonému se pak nazývají alofony. Struktura řeči je tedy její přirozenou součástí, ale většinou není součástí šumu. Detekce přítomnosti řeči by tak mohla být založena na hledání přítomnosti nebo nepřítomnosti této struktury. Je například známo, že je velmi obtížné definovat začátek a konec promluvy v případech, kdy jsou na začátku či konci promluvy neznělé okluzivy, tj. /p/, /t/, /k/, slabé neznělé frikativy, tj. /f/, /s/, /š/, /ch/, na konci promluvy znělé okluzivy, tj. /b/, /d/, /g/, znělé frikativy, tj. /v/, /z/, /ž/, /h/, nebo nosní souhlásky, tj. /m/, /n/, /ň/. Tento problém by mohl být zmenšen, když by byla využita znalost skutečnosti, že tyto hlásky jsou součástí strukturálních segmentů řeči. Tato znalost je velmi často využívána v úlohách zabývající se rozpoznáváním řeči, nicméně pro detekci řečové aktivity se používá jen zřídka.
6 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Aditivní šum Řečový signál Konvoluční šum Zarušený řečový signál Obrázek 2.2: Vznik zarušeného řečového signálu 2.3 Šum Zdroje šumu mohou být rozděleny na aditivní šumy a šumy konvoluční. Aditivní šumy nejsou korelované se signálem a podle jejich spektrálních vlastností lze rozlišit šum bílý a barevný. Konvoluční šumy jsou způsobeny například odrazy a rušením díky přenosu signálu nebo díky vlastnostem mikrofonu a zavádí nechtěné artefakty do originálního signálu, které jsou korelované s originálním signálem. Aditivní bílý šum se v reálném prostředí nevyskytuje, přesto se často využívá v modelech reálných systémů, kdy může aproximovat širokopásmové rušení, které se mu v limitním případě blíží. Bílý šum má tedy konstantní výkonovou spektrální hustotu, která je rovna jeho rozptylu σb 2. Dalším důležitým parametrem bílého šumu je jeho střední hodnota µ b, která se většinou uvažuje nulová. Nulové jsou také koeficienty autokorelační funkce kromě R[0], který je roven rozptylu σb 2. Nekorelovaný aditivní barevný šum má jiné rozložení energie ve spektru, než bílý šum. Pro tento šum je průběh autokorelační funkce nenulový nejen pro koeficient R[0], ale i pro další koeficienty. Šumový signál může být dále rozdělen na stacionární a nestacionární. Stacionární šum [59] má výkonovou spektrální hustotu téměř konstantní v čase a bývá způsoben například zvukem větráku, počítače či klimatizace, hlukem neakcelerujícího automobilového motoru, zvukem deště, šumem vzdálené konverzace apod. V reálných aplikacích se většinou předpokládá, že neznámý šum je stacionární. Naopak nestacionární šum je charakterizován tím, že se jeho spektrální charakteristiky zřetelně mění v čase [59]. Vzniká například hlukem projíždějícího auta, bouchnutím dveří, klikáním klávesnice, mlaskáním či hlasitým dýcháním při mluvení nebo štěkání psa apod. V dnešní době je možné se poměrně často setkat s nestacionárním šumem, třeba i kvůli možnostem mobilní komunikace, díky které se akustické pozadí mění v průběhu hovoru. Na závěr je třeba zmínit, že šum může mít také nepřímý vliv na řečový signál. V případech, kdy lidé mluví v hlučném prostředí, se díky snaze o efektivnější komunikaci mění i akustické parametry jejich řeči, a to nejen její intenzita, ale i základní tón hlasu, a další jeho vlastnosti. Tento nepřímý vliv hlučného prostředí je označován jako Lombardův efekt. 2.4 Rozdíly mezi řečí a šumem Vlastnosti řečového signálu jsou podrobně popsány a analyzovány díky známému zdroji, tj. hlasovém ústrojí člověka. Je-li znám konkrétní zdroj rušení, potom i jeho vlastnosti jsou známé. Problém může ovšem nastat v situacích, kdy není znám konkrétní zdroj rušení, a jeho popis je založen pouze na předpokladu, že patří do nějaké konkrétní kategorie. Zdroje
2.5. ZÁKLADNÍ MYŠLENKY ŘEŠENÍ 7 Parametr 1 Řeč Akustická analýza Parametr N Klasifikace Zařazení do třídy Obrázek 2.3: Struktura detektorů řečové aktivity rušení jsou však velmi různorodé a v některých případech i neznámé. Pro principiální vyhodnocení rozdílů mezi řečí a šumem se nejčastěji používá přístup vycházející ze znalostí vlastností řečového signálu. V neznámém signálu jsou hledány charakteristiky řeči a na základě jejich přítomnosti či nepřítomnosti se daná část signálu označí jako řeč nebo šum. Obrácený postup, kdy by se hledaly pouze charakteristické znaky šumu, by obecně nefungoval díky nepříliš konkrétnímu popisu vlastností šumu. Nejlepších výsledků lze samozřejmě dosáhnout kombinací obou přístupů. Téměř pro všechny předpokládatelné zdroje rušení lze najít nejzřetelnější rozdíly mezi řečí a vzniklým šumem v jejich akustických parametrech. Většinou platí, že řeč má větší intenzitu než šum a v případech, kdy není rozdíl v intenzitě, například kvůli přítomnosti hlasitého rušení, lze nalézt rozdíly ve spektrálních vlastnostech řeči a šumu. Pro diskriminaci řeči a šumu lze použít také mnoho dalších akustických parametrů řečového signálu, které jsou podrobně popsané v další části tohoto textu. 2.5 Základní myšlenky řešení Obecně jsou algoritmy detekce řečové aktivity založené na různých přístupech, v principu je však možné všechny modelovat dvěma základními bloky: akustickou analýzou řečového signálu řešící extrakci vhodných příznaků popisujících řečový signál a následným klasifikačním algoritmem rozlišujícím mezi řečovými a neřečovými úseky. 2.6 Akustická analýza Blok akustické analýzy řeči je navrhován vždy pro dané prostředí, ve kterém je řečový signál detekován, přičemž různé charakteristiky mají rozdílnou výpočetní náročnost i odolnost vůči případnému rušivému pozadí. Typickými výstupy akustické analýzy mohou být jednotlivé parametry jako výkon (energie) signálu, intenzita, počet průchodů nulou, entropie, kepstrální vzdálenost od pozadí, průměrná koherence apod. nebo vektory více příznaků jako jsou LPC koeficienty, kepstrální koeficienty či koherenční funkce. Dále je uveden popis a důvody využití těchto řečových parametrů dohromady s odkazy na publikace prezentující využití dané řečové charakteristiky pro detekci řečové aktivity. 2.6.1 Výkon (energie) Nejstarší a stále používané VAD jsou detektory výkonové (energetické) [25, 94, 39]. Popularita a časté používání těchto algoritmů je dána především velmi malou výpočetní náročností, kde je přítomnost hlasového signálu detekována na základě vyšší energie oproti úseku neřečovému. Krátkodobou energii lze vypočítat podle vztahu
8 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY E[n] = k= (x[k]w[n k]) 2, (2.1) kde w[n] je příslušný typ váhovacího okna, například Hammingovo, a x[n] je signál. Někdy se upřednostňuje výpočet logaritmu energie podle vztahu E l [n] = log k= (x[k]w[n k]) 2. (2.2) Znělé úseky řeči mají vyšší energii, proto zde energický detektor funguje výborně. Naopak nevýhodou je pokles spolehlivosti detekce při intenzivnějším šumovém pozadí, pro nízkoenergetické neznělé úseky řeči už i pro nižší úrovně rušivého pozadí. 2.6.2 Intenzita V některých publikacích [57] autoři raději využívají parametru intenzity, než energie. Výhodou tohoto parametru je, že není tolik citlivý na velké změny úrovně signálu. Krátkodobá intenzita je zaváděna pomocí následujícího vztahu M[n] = 2.6.3 Počet průchodů nulou k= x[k] w[n k]. (2.3) Doplňkovou charakteristikou energetických detektorů, jejíž aplikace přináší zlepšení detekce neznělých úseků u energetických detektorů, může být počet průchodů nulou - ZCR 1 [33, 35, 20]. Na rozdíl od předchozích charakteristik zaměřených na sledování amplitudy signálu, poskytuje krátkodobá funkce středního počtu průchodů signálu nulou informaci o frekvenčních vlastnostech signálu. V podstatě je toto kritérium využíváno jako jednoduchý odhad výšky tónu. Tento odhad je využitelný u monofonního zvuku. U polyfonních zvuků je velmi nepřesný. Hodnota ZCR se získá jako počet změn znaménka signálu ZCR[n] = k= kde sign(s[k]) je znaménková funkce definovaná předpisem { 1 s[k] 0 sign(s[k]) = 1 s[k] < 0. sign(s[k]) sign(s[k 1]) w[n k], (2.4) (2.5) Hodnota ZCR nicméně velmi závisí na šumovém pozadí a i zde dochází ke sbližování hodnot pro šum a pro neznělé hlásky. 2.6.4 Základní hlasivkový tón, periodicita Někteří autoři [36, 83] využívají jako další doplňkové kritérium detekci periodických složek řeči. V podstatě se jedná o odhad periody základního hlasivkového tónu 2 T 0, či její 1 Zero Crossing Rate 2 pitch period
2.6. AKUSTICKÁ ANALÝZA 9 převrácená hodnoty F 0 = 1/T 0 - fundamentální frekvence. To je významný parametr řeči, který odpovídá kmitům hlasivek. Přítomnost základního hlasivkového tónu je indikátor znělosti/neznělosti promluvy. Hodnota základního tónu je různá pro různé řečníky a tato frekvence se mění i pro jednotlivce při promluvách různých hlásek. Základní tón není přítomen v šumu, což může být použito jako důležité kritérium nepřítomnosti promluvy. K určení F 0 je možné přistupovat několika různými způsoby výpočtem autokorelační funkce nebo metodou LSPE 3. Podle publikace [59] se jeví jako nejpřesnější metody založené na využití autokorelační funkce. Hodnota periody základního tónu je určena pomocí prvního maxima autokorelační funkce, tj. pro každý segment je hledáno takové m > 0, které vyhovuje rovnici L 1 m m = argmin m R[m] = argmin m k=0 s[k]s[k + m], přičemž délka okénka musí být větší než jedna perioda základního tónu, tj. alespoň L = 20 40ms. S jiným přístupem přichází technika LSPE, která se snaží zkonstruovat periodickou funkci s periodou, která minimalizuje střední kvadratickou odchylku mezi signálem a danou periodickou funkcí. Obě metody výrazně snižují citlivost detekce řeči na bílém šumu. Takto řešený detektor funguje spolehlivě i pří nízkém SNR a je odolný k neperiodickému šumu [83]. Nicméně při periodickém šumovém pozadí nebo s parazitními periodickými složkami v signálu se spolehlivost rychle snižuje. 2.6.5 Entropie Další používané algoritmy jsou založeny na měření entropie H, která vyjadřuje míru neuspořádanosti soustavy, neboť analýzou spektra velmi zašuměné řeči bylo zjištěno, že oblasti obsahující řeč jsou více organizované než oblasti šumové. Pro systém s konečným počtem stavů S {s 1,s 2,...,s N } je entropie definována jako [68] H(S) = N P(s i )log 2 (P(s i )), (2.6) i=1 kde P(s i ) je pravděpodobnost, že byl emitován stav s i. Pro potřeby detekce řeči je výhodnější tzv. spektrální entropie H(X), která se získá pomocí předpokladu, že normalizované amplitudové spektrum segmentu signálu lze považovat za pravděpodobnostní rozdělení. Entropie ve spektrální oblasti potom může být získána substitucí P(s i ) za pravděpodobnost ω-té spektrální čáry dosazením získáme P( X(ω) 2 ) = ω X(ω) 2 (2.7) (ω) 2, H(X) = ω P( X(ω) 2 )log 2 P( (ω) 2 ). (2.8) Experimenty potvrdily, že VAD používající k výpočtu entropii pracují v prostředí s nestacionárním šumem spolehlivěji než čistě energetické. Na druhé straně selhávají v případech, kdy je signál zasažen hudebním šumem. Přínosem je naopak, že tyto VAD nejsou citlivé na změny dynamiky šumu, reagují pouze na změny spektrální povahy [65]. 3 Least Square Periodicity Estimator
10 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY 2.6.6 Koherenční funkce V systémech s vícekanálovým řečovým signálem lze zlepšení detekce silného a nestacionárního šumu dosáhnout použitím charakteristik na bázi koherenční funkce [66], která přináší principiálně novou informaci o podobnosti korelovanosti signálu ve dvou kanálech. Koherenční funkci lze získat pomoci vztahu γ 2 (e jθ ) = S xy(e jθ ) 2 S x (e jθ )S y (e jθ ), (2.9) kde S xy (e jθ ) 2 je cross spektrum vstupních signálů x [n] a y [n], a S x (e jθ ) a S y (e jθ ) jsou ESD vstupních signálů x [n] a y [n]. Hodnota koherenční funkce se blíží 1, když x [n] a y [n] jsou nezašuměné signály řeči. Naopak hodnota funkce klesá k nule pro případy, kdy x [n] a y [n] jsou nekorelované šumy. Většina šumů, například v automobilu, jsou nekorelované, proto koherenční funkce obsahuje informaci o řečové aktivitě. Nevýhodou je potřeba použití dvou mikrofonů [73], vyššího počtu vstupních kanálů a s tím související nároky na použitý hardware. Ty jsou často limitujícími faktory použití těchto algoritmů, zejména v případech aplikace v jednoduchých a snadno implementovatelných systémech s hlasovým vstupem. 2.6.7 Koeficienty lineární predikce Lineárně prediktivní kódování (LPC) je metoda analýzy akustického signálu, která se snaží na krátkodobém základu odhadnout parametry modelu vytváření řeči při relativně přijatelné výpočetní zátěži přímo z řečového signálu. Princip metody LPC je založen na předpokladu, že k-tý vzorek signálu s(k) lze popsat lineární kombinací Q předchozích vzorků a buzení u(k), tj. s(k) = Q a i s(k i) + Gu(k), i=1 kde G je koeficient zesílení a Q je řád modelu. Pokud se modeluje znělá hláska, model se budí posloupností pulzů u(k) o délce periody základního tónu. Při modelování neznělých hlásek je buzení naopak provedeno náhodným šumem. Přenosovou funkci modelu H(z) lze pak zapsat ve tvaru H(z) = G 1 + Q i=1 a iz i. Pro výpočet LPC koeficientu a i bylo vyvinuto více možných metod výpočtu. Lze je získat pomocí autokorelační nebo autokovarianční metody. Většinou se při zpracování řeči používá přístup autokorelační. Dále je možné pro výpočet koeficientů a i využít iterativního Burgova algoritmu nebo algoritmu navrženého Levinsonem a Durbinem. V klasifikačních úlohách se přímo koeficienty LPC používají jen zřídka, častěji jsou upřednostňovány dále popsané parametry odvozené z LPC koeficientů. 2.6.8 Kepstrální analýza Další výraznou skupinou tvoří detektory založené na analýze spektrálních charakteristik řeči, aproximovaných nejčastěji pomocí kepstrálních koeficientů. Kepstrální detektory řeči
2.6. AKUSTICKÁ ANALÝZA 11 1 0 f mel [mel] Obrázek 2.4: Melovská banka filtrů jsou poměrně spolehlivé a hranice použitelnosti pro detekci řeči v zarušeném prostředí je výrazně nižší než u detektorů energetických. Kepstrální analýza umožňuje ocenění fonetické struktury řeči, pomocí ní je možné zjistit, zda je segment řeči znělý či neznělý, periodu budícího signálu, je-li segment znělý, apod. Dále umožňuje popsat parametry hlasového ústrojí, protože se některé kepstrální koeficienty mapují na jeho parametry [88]. V důsledku je možné tvrdit, že kepstrální analýza je předurčena pro úlohy v oblasti zpracování řečového signálu včetně detekce řečové aktivity. Základní definice výpočtu kepstrálních koeficientů c[n] ze signálu x [n] je následující c[n] = Z 1 ln(z{x[n]}, (2.10) kde Z{ } je operátor pro z-transformaci. Uvedený vztah však není pro výpočet příliš praktický. Kepstrální koeficienty dostaneme obvykle náhradou z-transformace za DFT transformaci c[n] = IDFT {ln(dft{x[n]}}. (2.11) Tato pravděpodobně nejrozšířenější technika extrakce parametrů signálu je základem robustního VAD spolehlivého i v zašuměných prostředí. 2.6.9 Kepstrální koeficienty LPC Další možností výpočtu kepstrálních koeficientů je využití LPC koeficientů. K získání kepstrálních koeficientů je možné postupovat podle následujících vztahů c[0] = 1 2 ln(α), c[n] = a n 1 n 1 (n k)a k c[n k], n k=1 pro n > 0, přičemž a n = 0 pro n p, kde α je výkon chyby predikce a p je řád autoregresního modelu, a n jsou LPC koeficienty a c[n] jsou počítané kepstrální koeficienty. Takto získané kepstrum má rozdílné vlastnosti od kepstra vypočteného pomocí DCT. Jelikož LPC koeficienty modelují vyhlazenou spektrální obálku původního signálu, má i LPC kepstrum vyhlazený charakter, přičemž stupeň vyhlazení závisí na volbě řádu AR modelu.
12 KAPITOLA 2. STAV PROBLEMATIKY DETEKCE ŘEČOVÉ AKTIVITY Vstupní signál Segmentace Spektrum Melovská Mel-spektrum DFT váhování banka filtrů ln DCT Mel-kepstrum Obrázek 2.5: Výpočet Melovských kepstrálních koeficientů 2.6.10 Mel-frekvenční kepstrální koeficienty Mel-frekvenční kepstrální koeficienty patří mezi jedny z nejvíce používaných parametrizací. Pro detekci řečové aktivity je prezentovaného jejich použití například v [38]. Jsou navrženy tak, aby do jisté míry respektovali nelineární vnímání zvuků lidským uchem. Je totiž známo, že rozlišovací schopnost sluchu nelineárně klesá s rostoucí frekvencí. K tomu se využívají banky trojúhelníkových pásmových filtrů s lineárním rozložením frekvencí v tzv. Melovské frekvenční škále, jež je definována vztahem f m = 2595log 10 (1 + f ), (2.12) 700 kde f [Hz] je frekvence v lineární škále a f m [mel] je odpovídající frekvence v nelineární Melovské škále. Celý postup výpočtu mel-kepstrálních koeficientů je znázorněn na obrázku 2.5. Signál je nejdříve segmentován a váhován. Následně je spočítáno spektrum pomocí diskrétní Fourierovy transformace. Jeho amplitudová část vstupuje do Melovské banky filtrů, která je tvořena N trojúhelníkovými filtry standardně rozloženými přes celé frekvenční pásmo od nuly až do Nyquistovy frekvence. Tyto filtry se překrývají o 50% a dosahují maximální jednotkový přenos v polovině intervalu. Logaritmováním mel-spektra a inverzní Fourierovou transformací dostáváme Melovské kepstrální koeficienty. Jelikož pracujeme s nezáporným reálným mel-spektrem, je možné ukázat, že Fourierovu transformaci lze nahradit výpočetně méně náročnou diskrétní kosinovou transformací. Označíme-li logaritmus Melovského spektra jako mel[k] = ln(x mel [k]), (2.13) můžeme psát c i = 2 N N j=1 ( ) πi mel[j]cos (j 0,5), i = 1... N c, (2.14) N kde N c je počet požadovaných mel-kepstrálních koeficientu. 2.6.11 Perceptivně lineární prediktivní analýza Perceptivní lineární analýza se podobně jako Melovské kepstrální koeficienty snaží o popis spektrálních vlastností řečového signálu tak, aby lépe korespondoval ke způsobu, kterým slyší řečové zvuky člověk. To se dosahuje respektováním způsobu zpracování signálu lidským sluchem. Zohledňuje se několik základních faktorů.
2.6. AKUSTICKÁ ANALÝZA 13 Jednou z vlastností sluchu je, že jeho spektrální rozlišení klesá s rostoucí frekvencí. Dále platí, že je nejcitlivější uprostřed slyšitelného frekvenčního pásma. Vnímání zvuku je též ovlivněno tzv. maskováním zvuků, přičemž velikost šířky pásma se mění s frekvencí. Při výpočtu PLP parametrizace je vstupní signál nejprve segmentován a váhován, vypočteno výkonové spektrum P(ω), a dále se modelují uvedené jevy pomocí nelineární transformace původní osy frekvencí ω [rad/s] do Barkovy frekvenční stupnice Ω(ω) [bark] podle vztahu ( ) ω ( ω ) 2 Ω(ω) = 6 ln 1200π + + 1, (2.15) 1200π kde ω = 2πf a f je frekvence v Hz, a dále konstrukcí maskujících křivek, které simulují kritická pásma slyšení podle vztahů Ψ(Ω) = 0 pro Ω < 1, 3 10 2,5(Ω+0.5) pro 1,3 Ω 0,5 1 pro 0, 5 < Ω < 0, 5 10 (0.5 Ω) pro 0,5 Ω 2,5 0 pro Ω > 2, 5. (2.16) Vlivem konvoluce výkonového spektra s funkcí Ψ(Ω) dojde ke snížení frekvenčního rozlišení spektra, což umožňuje zmenšit počet spektrálních čar, aniž by došlo ke ztrátě informace ve spektru [26]. Dále PLP parametrizace reflektuje nestejnou citlivost sluchu na různých frekvencích. Tento jev je popsán tzv. křivkami konstantní hlasitosti E(ω), které jsou dány následujícím vztahem odvozeným pro hladinu hlasitosti 40 Ph E(ω) = ω 4 (ω 2 + 56,9 10 6 ) (ω 2 + 6,3 10 6 ) 2 (ω 2 + 379,4 10 6 )(ω 6 + 9,6 10 26 ), f s > 10kHz Tento vztah platí pro vzorkovací kmitočet f s nad 10 khz, což je případ všech provedených experimentů. Poslední uvažovaná vlastnost sluchu je nelineární vnímání hlasitosti v závislosti na intenzitě zvuku. Ta je aproximovaná pomocí třetí odmocniny spektra a výsledná hodnota spektrálních PLP koeficientů Φ(Ω) je dána následujícím vztahem Φ(Ω) = (E(ω)Ψ[Ω(ω)]) 0,33. Pro zlepšení vlastností PLP parametrizace se provádí její převod do kepstrálního tvaru. Nejprve následuje přepočet pomocí inverzní diskrétní Fourierovy transformace. Získáné autokorelační koeficienty jsou dále převedeny pomocí lineárního prediktivního kódování na LPC koeficienty. Ty jsou nakonec transformovány do kepstrálních PLP koeficientů. 2.6.12 Metoda RASTA-PLP PLP RASTA parametrizační koeficienty (RelAtive SpecTrA) [27, 59] byly navrženy jako parametrizace, která zajišťuje ve většině případů ještě větší úspěšnost v oblasti rozpoznávání řeči než PLP koeficienty. Pro úlohu detekce řečové aktivity bylo prezentováno