A2M31RAT- Řečové aplikace v telekomunikacích Aplikační úlohy rozpoznávání řeči a speciální techniky. Doc. Ing. Petr Pollák, CSc. 12.května2011-16:7
Obsah přednášky Adaptační techniky Teoretický základ Adaptace na mluvčího Adapatace na prostředí Příklady systémů Rozpoznávání řečníka Typy úloh rozpoznávání řečníka Základní charakteristiky používané při rozpoznávání řečníka Základní přístupy Rozpoznávání jazyka Princip a základní použití Fonotaktický přístup Fonetická segmentace Základní aplikace Popis segmentace na bázi HMM Význam volby jednotlivých parametrů rozpoznávače
I. část Adaptační techniky v systémech rozpoznávání řeči
Motivace a specifikace problému Adaptace = postupná(mírná) úprava natrénovaných modelů možno adaptovat jen vybrané parametry akustických modelů Použití adaptačních technik Přizpůsobení rozpoznávače nezávislého na mluvčím jednomu uživateli Selektivní výběr akustických modelů při přepisu zpravodajství, apod. Adaptace na podmínky prostředí
Typy adaptačních technik pro adaptace akustických modelů Podle znalosti obsahu(přepisu) adaptační promluvy Řízená adaptace- je k disposici fonetický přepis promluvy Neřízená adaptace- fonetický přepis promluvy musí být rozpoznán Podle obsahu promluvy Adaptace závislá na textu- vždy stejná promluva Adaptace nezávislá na textu Podle způsobu použití adaptačních dat Inkrementální(postupná) adaptace Bloková(dávková) adaptace Podle typu adaptovaných parametrů Adaptace akustického modelu Transformace vektoru příznaků
MAP- Maximum Aposteriori Probability metoda maximální aposteriorní pravděpodobnosti známé rozložení apriorních pravděpodobností parametrů (z natrénovaných dat, tj. starý model) nejčastěji se adaptují jenom střední hodnoty, tj. např. µ new im = τ imµ old im + T t=1 ζ t(i,m)x(t) τ im + T t=1 ζ t(i,m) - τ im -adaptačníváha - adaptace i-tého stavu m-tého akustického modelu -adaptačnídatax,tj.x(1)...x(t) - T t=1 ζ t(i,m)jeokupačnívěrohodnosti-téhostavum-tého modeluvčaset teoreticky nejlépe konverguje pro velké množství dat(+) adaptují se pouze modely elementů, které se vyskytly v adaptační množině(-)
MLLR- Maximum Likelihood Linear Regression maximálně věrohodná lineární regrese technika založená na lineární transformaci parametrů µ new im =Aµ old im +b adaptuje se transformační vztah třeba pro daný parametr výpočet transformační matice na bázi EM (Expectation-Maximization) algoritmu, odhad parametrů statistického modelu pro nepozorované realizace(jako trénování HMM) je možná bloková adaptace, použitelné i pro data, která nebyla v trénovací množině použití regresních tříd(automatické či expertní klastrování)
Techniky adaptace na známého a neznámého mluvčího Adaptace na známého mluvčího obvykle řízená adaptace přečtení jasně definovaného textu přizpůsobení(diktovacího) systému jednomu stálému uživateli Adaptace na neznámého mluvčího identifikace mluvčího a selektivní výběr modelu kombinace modelů v obecných transkripčních systémech
Výběr adaptačních dat Při on-line aplikaci na neznámého mluvčího či prostředí není speciální výběr používají se aktuálně zpracovávaná data Při aplikaci na známého mluvčího- selektivní výběr dat (přizpůsobení vlastního diktovacího či ovládacího systému) pokrytí nejčastěji se vyskytujícíh se slov co nejlepší zastoupení fonémů zastoupení důležitých řídících resp. klíčových slov zastoupení obtížně rozpoznatelných slov vybraná slova musí být jednoduše vyslovitelná VHODNÝ ROZSAH ADAPTAČNÍCH DAT
Vliv adaptace na mluvčího v LVCSR Srovnání úspěšnosti technik MAP a MLLR pro různé délky adaptačních dat Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.
Ilustrativní vliv adaptace a předzpracování na WER v systému LVCSR Experiment 100 adaptačních a 100 testovacích vět (náhodný výběr, fonetické vyvážení) Close-talk mikrofon- kvalitní signál SIsystém-18,9% SI systém, zvýrazňování řeči- 18,5% SDsystém,adaptacenamluvčího-9,7% SDsystém,adaptace+zvýraňování-9,5% Far-talk mikrofon(cca 1m), realtivně běžné prostředí kanceláře SIsystém-61,3% SI systém, zvýrazňování řeči- 36,1% SDsystém,adaptacenamluvčího-22,8% SDsystém,adaptace+zvýraňování-18,7%
Dvoufázová adaptace na neznámého mluvčího Dvoufázová adaptace na mluvčího a komplexní systém automatického přepisu televizního zpravodajství Převzato z: Petr Červa: Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči. Disertační práce. Technická univerzita v Liberci. 2007.
Ilustrativní výsledky adaptace na neznámého mluvčího Automatická transkripce televizních či rozhlasových zpráv(wer) Rozhlasové zprávy SIsystém-19,45% SDsystém-15,03% Televizní zpravodajství SIsystém-22,96% SDsystém-19,04% Vliv rozsahu slovníku v 1. fázi rozpoznávání WER po 1. fázi rozpoznávání(pro adaptaci) -300tis.slov-23,34%,200tis.slov-27,28% -100tis.slov-29,01%,50tis.slov-32,84% -10tis.slov-55,26% WER po 2. fázi rozpoznávání(finální skóre) -300tis.slov-18,73%,200tis.slov-18,76% -100tis.slov-19,00%,50tis.slov-19,08% -10tis.slov-19,03%
MLLR adaptace na prostředí MLLR adaptace na prostředí(a mluvčího) pro rozpoznávání v jedoucím automobilu Převzato z: Josef Rajnoha, Petr Pollák: ASR Systems in Noisy Environment: Analysis and Solutions for Increasing Noise Robustness. Radioenginnering, Vol. 20, No. 1, April 2011.
II. část Rozpoznávání řečníka
Aplikační oblasti úlohy rozpoznávání mluvčího ověření totožnosti mluvčího z hlediska bezpečnosti identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) kriminalistická praxe (dosud subjektivní fonetická analýza) identifikace mluvčího s největší podobností hlasu rozpoznávače řeči závislé na mluvčím - modely závislé na pohlaví mluvčího - skupinové modely (transkripční systémy pro přepis rozhlasových/tv zpravodajství)
Blokové schéma a základní úlohy rozpoznávání mluvčího filtrace digitalizace výpočet příznaků Podle typu rozhodování- 2 základní úlohy 1 Verifikace mluvčího porovnání rozhodnutí modely mluvčích ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí/ odmítnutí 2 Identifikace mluvčího rozpoznání neznámého mluvčího největší podobnost hlasu VÝSLEDEK = ID mluvčího/ skupiny
Používané příznaky pro rozpoznávání mluvčího Obecné požadavky pro příznaky resp. systémy identifikace Vysoká variabilita pro různé mluvčí Nízká variabilita pro jednoho mluvčího odolnost vůči šumu a zkreslení odolnost proti hlasovým imitátorům Používané příznaky LPC kepstrální příznaky (variabilita mezi mluvčími, malá robustnost vůči šumu) PLP, MFCC- obecně používané Speciální příznaky pro komplexnější rozhodování
Speciální příznaky pro rozpoznávání mluvčího F2v n F3v u F2v i délka trvání k...obecnějšíformulace... hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F0 ve vybrané větě(slově) průměrná hodnota F0 ve větě(slově)...apod...
Používané klasifikační metody při rozpoznávání řečníka statistické modelování na bázi GMM- Gaussian Mixture Models (směsi Gaussovských funkcí modelujících typickou reprezentaci příznaků pro daného řečníka) klasifikace na bázi VQ (měření kumulované vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů) Rozpoznávání na základě časových funkcí příznakových vektorů (v principu se počítá vzdálenost mezi vzorovým průběhem a verifikovanou promluvou- princip DTW)
Rozhodování při verifikaci mezi dvěma mluvčími na bázi GMM p(d h i ) p(d h 1 ) TA TR p(d h 2 ) FA d T FR Rozhodnutí pro mluvčího 1: pdh1 > pdh2 (mluvčí s nejvyšší emitovanou pravděpodobností) Vyhodnocování klasifikace: TA- True acceptance FA- False acceptance TR- True rejection FR- False rejection EER-EqualErrorRate FR=FA d
Obecné závěry použitelnosti systémů rozpoznávání mluvčího řečník se nesmí pokoušet měnit hlas podmínky nahrávání jsou známé nebo je lze ovlivnit obdobná data jsou k disposici pro trénování(či pro referenční promluvy) verifikační práh je experimentálně stanoven pro každou konkrétní aplikaci řečník musí se systémem spolupracovat je nutné minimalizovat možnost podvodného ovlivnění nesmí být možné použít syntezátory identifikační promluva obsahuje pouze známá slova dosahovaná chybovost 0.5% pro textově závislou verifikaci (2%potelefonu) dosahovaná chybovost 2% pro textově nezávislou verifikaci (10%potelefonu) dosahovaná chybovost 60-99% pro rozpoznávání mluvčího
III. část Rozpoznávání jazyka
Motivace a specifikace problému rozpoznávání jazyka Aplikační oblast LRE(Language Recognition) Multilingvální jazykové informační systémy Charakter jazyka určují následující rysy fonetický obsah sled fonémů(fonotaktické charaktersitiky) prosodie(f o ) slovní zásoba, morfologie slovní jazykový model
Základní principiální struktura LRE systému Extrakce příznaků MFCC resp. možné modifikace speciálnípříznakyjakoenergie,f o,rytmickécharakteristiky Klasifikace v několika stupních základem často fonémový rozpoznávač klasifikátory: GMM, ANN, SVM, RBF apod. prahování v různých stupních rozhodování Statistické modely v subsystémech akustické modely jazykové modely(na úrovni fonémů či slov) Fůze dílčích rozhodnutí(modely více jazyků) (ANN, GMM, apod.)
Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka Fonotaktický systém rozpoznávání jazyka z FIT VUT Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.
Rozpoznávání jazyka Základní principiální model systému rozpoznávání jazyka Převzato z: Pavel Matějka: Phonotactic and Acoustic Language Recognition. Disertační práce. Vysoké učení technické v Brně. 2008.
Dosahované výsledky LRE velmi závislé na konfiguraci- mnoho různých přístupů závislé na množství testovacích dat testovacídata30s EERcca5% testovacídata10s EERcca10% testovacídata3s EER20-30%
IV. část Fonetická segmentace na bázi HMM
Motivace použití fonetické segmentace Nejvýznamnější aplikace fonetické segmentace - pre-segmentace před následným manuálním labelováním - trénování rozpoznávačů řeči, -definicetřídproalgoritmynabázilda, - trénování neuronových sítí - semi-automatická VAD reference, Nejčastěji používané techniky: - na bázi korelace sousedních segmentů - Bayessovská detekce změn - zarovnání natrénovaných HMM modelů
Princip segmentačního algoritmu na bázi HMM Vstup algoritmu- signál& ortografická transkripce & natrénovaný akustický model Vlastní segmentace- zarovnání natrénovaných modelů tj. rozpoznávání fonémů(monofónů, trifónů) na bázi HMM Varianty: zarovnání u známé resp.. neznámé promluvy Základní přístup labelování známé promluvy je založen na použití generované kanonické(pravidelné) fonetické transcripce. 1 podle výslovnostních pravidel nástroj transc 2 použití speciální syntaxe pro vstup skutečné výslovnosti (Shakespeare/šejkspír) (včera/čera)(jsem/s@m) dal tři góly 3 výslovnostní lexikon může obsahovat více výslovnostních variant
Dosažitelná přesnost základní segmentace na bázi HMM SPB- angl. Shift of Phone Beginning, SPE-angl.ShiftofPhoneEnd CPL-angl.ChangeofPhoneLength Typicky dosahované výsledky: -průměrnéhodnoty:spb 8.5,SPE 16.5,CPL 7[ms] -standardníodchylky:spb 25,SPE 20,CPL 30[ms] silná závislost na použité segmentaci krátkodobé Fourierovy analýzy: - optimální volba 25/10 ms -16/8lepšíproCPL, -32/16lepšíproSPBaSPE
Příklad realizované fonetické segmentace v prostředí Praat
Závěry a diskuse k fonetické segmentaci na bázi HMM nejčastější zdroje chyb: - jako u rozpoznávání(nepřizpůsobení dat, nedostatečné natrénování) - specifické chyby v úloze segmentace: krátkéhláskyvs.3stavyhmm modelování speciálních hlásek gst práce s ortoepickou(kanonickou) fonetickou transkripcí speciální modelování- přeskoky, kratší či delší modely, apod. problémy s trénováním výslovnostní varianty pro zachycení variant výslovnosti - akceptovatelné pro neformální styl promluvy - výslovnostní varianty generovat výčtem v lexikonu - obecnější definice možných záměn výslovnosti (otázka přesnosti následného modelování- obtížné hodnocení)
Děkuji vám za pozornost!