A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16
Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip hlasové verifikace řečníka Základní popis vzniku řeči(hlasu) Anatomie hlasového ústrojí, produkce řeči Signálový model produkce řeči Řečové charakteristiky a příznaky pro identifikaci Základní frekvence řeči Spektrální charakteristiky Formanty Expertní identifikace, spektrografické metody Kepstrum, kepstrální vzdálenost
I. část Rozpoznávání řečníka
Aplikační oblasti úlohy rozpoznávání mluvčího ověření totožnosti mluvčího z hlediska bezpečnosti kriminalistická a soudní praxe- forenzní aplikace (dosud subjektivní fonetická a lingvistická analýza) identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) motivace pro použití - náhrada složitěji realizovatelných systémů - přirozenost hlasové komunikace cena Biometrická identifikace Ruka Duhovka Podpis Tvář Hlas Otisky prstů přesnost Jediná volba při dostupnosti pouze hlasového záznamu pro identifikaci
Aplikační oblasti úlohy rozpoznávání mluvčího identifikace mluvčího s největší podobností hlasu př.- identifikace volajících v call-centrech komplexní rozpoznávače řeči (LVCSR- diktovací systémy, transkripční systémy pro přepis rozhlasových/tv zpravodajství) - modely pro konkrétního mluvčího - skupinové modely - modely závislé na pohlaví mluvčího
Možnosti identifikace mluvčího historické klasické přístupy: - expertní rozhodování(fonetici, lingvisté) moderní automatizované metody: - rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ
Možnosti identifikace mluvčího historické klasické přístupy: - expertní rozhodování(fonetici, lingvisté) moderní automatizované metody: - rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ
II. část Model vzniku a základní charakteristiky řeči
Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní do žaludku do plic zubyarty dutina ústní jazyk tvrdé patro měkké patro dutina hrdelní hlasivky
Časová a spektrální reprezentace promluvy
Řečové hlásky v časové oblasti.5 Slovo šedý.5 1 2 3 4 5 6 7 8 9 1.5 Slabika še.5 5 1 15 2 25 3 Hláska š...neznělá,šumovýcharakter Hláska e... znělá, periodický charakter(harmonická struktura)
Řečové hlásky v časové oblasti.5 Slovo čtyři.5 1 2 3 4 5 6 7 8.5 Slabika čty.5 5 1 15 2 25 3 Hláska č...neznělá,šumovýcharakter Hláska t...plozivní,okluze(závěr)+exploze Hláska y... znělá, periodický charakter(harmonická struktura)
Model vzniku řeči Model generování řečového signálu f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá Model produkce řeči- AR model- nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí
Variabilita řeči Různí mluvčí: různá výška hlasu různá barva hlasu různá doba trvání hlásek 1)originalitahlasuastylumluvyřečníka-OK 2) obecná variabilita jednotlivých realizací- PROBLÉM 3) Možnost napodobení hlasu- PROBLÉM??? VHODNÝ POPIS HLASU PRO IDENTIFIKACI???
Řečové příznaky v úlohách rozpoznávání mluvčího Obecné požadavky pro příznaky resp. systémy identifikace vysoká variabilita pro různé mluvčí nízká variabilita pro jednoho mluvčího (možné vlivy- aktuální stav, nálada, stres, hluk, styl promluvy) snadný a efektivní výpočet odolnost vůči šumu a zkreslení(výše zmiňované jevy) odolnost proti imitaci hlasu Vnitřní charakteristiky- související s vytvářením řeči Získané charakteristiky- souvisejí s dynamikou pohybů hlasového traktu(dané prostředím)
Problémy biometrické reprezentace na bázi řeči Vnitřní charakteristiky řečníka dané fyzikálními rozměry hlasového ústrojí (lze obtížně napodobit) ovlivnitelné zdravotním stavem (např. nosní dutina: neměnné rozměry při artikulaci, mírné nachlazení = zásadní změna) Získané charakteristiky řečníka styl mluvy(časování, intonace, hrubost, živost, síla, srozumitelnost) jako celek komplexní charakteristika řečníka (používáno člověkem při přirozené identifikaci) nemusí být snadno modelovatelné různými modely způsob řeči lze snadno napodobit
III. část Řečové charakteristiky a možnosti využití pro identifikaci
Základní tón řeči f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá základnífrekvencef o =1/T o pro znělé hlásky s harmonickou strukturou souvisí s kmitáním hlasivek hodnotaf o jeovlivněnavlastnostmihlasivek (pružnost, hmotnost, délka) hrubá charakteristika mluvčího
Odhad základního tónu řeči f o...základnítón(frekvence)řeči...f o = 1 T o T o (L o )...základníperioda(vsekundáchvs.vevzorcích) Nejčastější metoda odhadu- na bázi autokorelační funkce (hledání postranního maxima autokorelační funkce) segment signálu x[n].1.8.6.4.2.2.4.6 L.8 5 1 15 2 25 3 35 4 45 5 n odhad autokorelační funkce.8 L.6.4 R[k].2.2.4 5 1 15 2 25 3 35 4 45 5 k
Průběh základního tónu v promluvě Krátká promluva- slovo 2 15 fo 1 5 5 1 15 2 25 Frame No. Delší promluva- věta 14 12 1 fo 8 6 4 2 1 2 3 4 5 6 Frame No. Průběhf o vpromluvě získaná(naučená)charakteristika Průměrnáhodnotaf o vnitřnícharakteristika(výškahlasu)
Spektrální charakteristiky řeči f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá spektrální charakteristiky souvisí s vokálním traktem otázka vhodné reprezentace pro identifikaci
Spektrální reprezentace řeči na bázi DFT Odhas spektra na bázi DFT: řeč je obecně nestacionární signál nutná segmentace a sledování vývoje krátkodobého spektra(spektrogram) řeč je kvazistacionární (tj. stacionární v krátkém časovém intervalu- cca 1-1 ms) 2-3 ms - typická délka krátkodobého segmentu DFT spektrum je ovlivněno prosakováním nutné váhování vhodným oknem(hammingovo) nutná segmentace s překryvem(obvykle 5%) 1 w[n] =,54,46cos 2πn N pro n N 1..8.6.4.2 5 1 15 2 25 3 35 4
Přehled možností spektrální reprezentace promluvy Spektrogram celé promluvy Spektrální reprezentace vybraného segmentu Sklon amplitudového spektra- vyšší kmitočty- nižší energie DFT spektrum: LPC reprezentace: Kepstrální koeficienty: 1 1 1 1 1 1 2 2 2 3 2 4 6 8 256 vzorků spektra (amplitudové sp.) 3 2 4 6 8 16koeficientůa k (autoregresní koef.) 3 2 4 6 8 16koeficientůc n (reálné kepstrum)
Preemfáze signálu Kompenzace sklonu amlitudového spektra s [n] =s[n] m s[n 1], m =,97 Frekvenční charakteristika preemfázového filtru H(f) [db] 1 1 2 3 4.1.2.3.4.5.6.7.8.9 1 2f fs [ ] Ilustrace vlivu preemfáze ve spektrogramu 2f fs [ ] 1.8 a) 2f fs [ ] 1.8 b).6.4.2 5 1 15 2 n[ ].6.4.2 5 1 15 2 n[ ]
Lineární prediktivní analýza p Lineárnípredikce:ŝ[n] = a k s[n k]. k=1 Lineární prediktor s[n] z 1 z 1 z 1 a 1 a 2 a p 1 ap + + + + - + ŝ[n] e[n] Chybový signál(míra kvality prediktoru) p p e[n] =s[n] ŝ[n] =s[n]+ a k s[n k] = a k s[n k]. k=1 k= s[n] z 1 z 1 z 1 a 1 a 2 a p 1 a p + + + + e[n]
Princip LPC analýzy IDEA: přesnější predikce nižší úroveň chybového signálu Kritérium- výkon chybového signálu { } J =E e 2 [n] Hledáníkoeficientůa k Minimalizacechybypredikce hledáníminimaj,i.e. J a k =, for k =1,2,...,p plineárníchrovnic Řešení a metody výpočtu(pro různé definice J): autokorelační metoda- nejčastěji používaný přístup Levinson-Durbinův algoritmus(rychlý výpočet autokor.met.) Burgův algoritmus- vychází z křížové struktury filtru
Autokorelační metoda, Yuleovy-Walkerovy rovnice R[] R[1] R[2]... R[p 1] R[1] R[] R[1] R[p 2] R[2] R[1] R[]... R[p 3]........ R[p 1] R[p 2] R[p 3]... R[] a 1 a 2.. a p = R[1] R[2].. R[p] R[k]... autokorelační koeficienty analyzovaného signálu VÝSLEDEK: a k...autoregresníkoeficienty(armodelsignálu) P p =R[]+ p k=1 a k R[k]...výkonchybovéhosignálu
AR model signálu p Dekorelační(analyzující) filtr: A(z) = a k z k k= s[n] A(z) e[n] Syntéza se skutečným chybovým signálem(ideální případ) 1 e[n] s[n] A(z) Syntéza s umělým signálem s jednotkovým výkonem(ar model) -Gzávisínaúrovnianalyzovanéhosignálu(G = P p ) u[n] G A(z) s[n]
Spektrální vlastnosti AR modelu Obecný popis AR modelu v Z-oblasti S(z) =H(z) U(z) Popis AR modelu ve frekvenční oblasti S s (e jθ ) = H(e jθ ) 2 S u (e jθ ) Vlastnostiadůsledky:-S u (e jθ )jeploché tvars s (e jθ )jekompletnězahrnutvarmodelu LPCspektrum (pokuds u (e jθ ) =1) S S(e jθ ) = H(e jθ ) 2 = G 2 A(e jθ ) 2
Srovnání LPC a DFT spektra S S(e jθ ) = H(e jθ ) 2 S[k] 2 N S(e jθ ) 1 1 2 a) b) 1 S(e jθ ) 1 2 1 4 1 4 1 6 1 6.2.4.6.8 1 2f f s.2.4.6.8 1 2f AR model: all-pole filtr, modeluje pouze špičky ve spektru (rezonátory v dutinách vokálního traktu) obecná špička = dvojice komplexně združených pólů vyššířádarmodelu=vícešpičekvlpcspektru typickéhodnoty:p=1prof s =8kHz,p=16prof s =16kHz f s
Křížová struktura AR modelu Trasnverzální struktura analyzujícího FIR filtru: s[n] z 1 z 1 z 1 a 1 a 2 a p 1 a p + + + Křížová struktura analyzujícího FIR filtru: + e[n] s[n] e () [n] e (1) [n] e (2) [n] e (p 1) [n] e (p) [n] + + + k 1 k 2 k p z 1 k 1 + z 1 k2 + z 1 g () [n] g (1) [n] g (2) [n] g (p 1) [n] g (p) [n] k k...koeficientyodrazu,přepočetk k vs.a k -Levinsonovarekurze Inicializace: a (1) 1 =k 1 Výpočetprom =2,3,...,p: a (m) m =k m a (m) j =a (m 1) j +k m a (m 1) m j, j =1,2,...,m 1 kp +
Křížová struktura AR modelu Trasnverzální struktura syntetizujícího all-pole IIR filtru: e[n] + + + + s[n] a p a p 1 a p 2 a 1 z 1 z 1 z 1 Křížová struktura syntetizujícího all-pole IIR filtru: e[n] e (p) [n] + e (p 1) [n] e (2) [n] + e (1) [n] + e () [n] s[n] k p k 2 k 1 k p k 2 k 1 + z 1 + z 1 + z 1 g (p) [n] g (p 1) [n] g (2) [n] g (1) [n] g () [n]
Burgův algoritmus Křížová struktura analyzujícího FIR filtru: s[n] e () [n] e (1) [n] e (2) [n] e (p 1) [n] e (p) [n] + + + k 1 k 2 k p k 1 k2 kp z 1 + z 1 + z 1 + g () [n] g (1) [n] g (2) [n] g (p 1) [n] g (p) [n] Minimalizační kritérium(pro každou sekci křížové struktury): J = 1 N 1 [ ( e (m) 2 ( [n]) + g (m) ) ] 2 [n] 2 n= prom=1,2,...,p. Výpočet m-tého koeficientu odrazu: k m = N 1 n=m N 1 ( 2 e (m 1) [n] g (m 1) ) [n 1] n=m ( e (m 1) ) N 1 2 ( [n] + g (m 1) ) 2 [n 1] n=m Autoregresníkoeficientya k -výpočetlevinsonovourekurzí
Formanty- definice Formant(formantové frekvence) centrální kmitočty rezonátorů vokálního traktu významné špičky ve VYHLAZENÉM krátkodobém spektru významnéformantyf1-f4vpásmudo4khz F5- méně významný(obtížně odhadnutelný formant)!!nezaměňovatsezákladnímtónemřečif (f nenídetekovatelnévevyhlazenémspektru) Souvislost s fyziologií vokálního traktu = vhodný vnitřní příznak (formantové frekvence jsou nepřímo úměrné délce vok. traktu) F i = (2i 1) c 4 VTL Pro rozlišení mluvčích- vzdálenost sousedních formantů
Formanty-OdhadnabáziLPC špičky LPC spektra- rezonátory = formanty F i -formantováfrekvence(centrálníkmitočetrezonátoru) B i -šířkapásmaformantu špičkylpcspektra-určenépólypřenosovéfunkcep i F i =f s argp i /2π B i = f s ln p i /2π Problémy: obecně menší robustnost LPC analýzy(závislost na datech) určení vhodného řádu(vliv přítomnosti šumu) seřazení vypočítaných pólů(sledování stejného formantu) vyřazení nadbytečného pólu(méně významné špičky)
OdhadformantůnabáziLPC-příklad.2 Časový průběh signálu hlaska a.1.1 Imaginary Part 1.5.5 1 1.2 2 4 6 8 1 12 14 16 18 2 Poles hlaska a 16 1.5.5 1 Real Part póly&lpcspektrumsformanty 5 1 15 2 25 3 Formanty hlaska a 35 1 2 3 4 5 6 7 8 póly& LPC spektrum s formanty(preemfáze) Poles hlaska a (preem) 1 Formanty hlaska a (preem) Imaginary Part.5.5 1 16 1.5.5 1 Real Part 15 2 25 3 35 4 1 2 3 4 5 6 7 8
Speciální příznaky pro rozpoznávání mluvčího F2v n F3v u F2v i délka trvání k...obecnějšíformulace... hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F ve vybrané větě(slově) průměrná hodnota F ve větě(slově)...apod...
Expertní metody při rozpoznávání mluvčího Forenzní lingvistika a fonetika sledování osobitých rysů projevu řečníka zaměření na artikulační zvláštnosti typické vedení melodie řeči(intonace) většinou na bázi poslechu Spektrografické metody Využívají možnost zobrazení diskutovaných hlasových charakteristik(spektrogramů,průběhuf o,trajektoriíformantů, apod.) řešeno opět na expertní bázi detaily realizace vybraných hlásek
Formanty& základní tón- odhad Praat Muž1
Formanty& základní tón- odhad Praat Muž2
Formanty& základní tón- odhad Praat Žena1
Kepstrum- definice a základní vlastnosti Základní definice pomocí Z-tranformace ĉ[n] = Z 1 {lnz{x[n]}} Přímý výpočet pomocí DFT c k [n] = IDFT{lnDFT {x[n]}}...komplexníkepstrum c r [n] = IDFT{ln DFT {x[n]} }...reálnékepstrum c v [n] = IDFT{ln 1 N DFT{x[n]} 2 }...výkonovékepstrum Vlastnosti: ĉ[n]...nekonečnědlouhé,rychleubýváknule c k [n]...konečnědlouhé,nesymetrické,informaceofázi c r [n]...konečnědlouhé,symetrické,inf.oampl.spektru c v [n]...oprotic r [n]selišípouzeměřítkemahodnotouc[] ve všech případech vždy reálné hodnoty
Kepstrum- definice a základní názvosloví Základní slovní přesmyčka: spektrum vs. kepstrum Další vybrané přesmyčky: kvefrence(frekvence)- základní proměnná kepstra[čas] liftr(filtr) liftrace(filtrace)- modifikace kepstra (váhování, oříznutí, zkracování) krátko-dobý liftr(dolno-frekvenční filtr) dlouho-dobý liftr(horno-frekvenční filtr) gamnituda(magnituda, amplituda)...
Vlastnosti reálného DFT kepstra Vlastnosti: c r [n] = IDFT{ln DFT{x[n]} } DFT kepstrum- numerický výpočet(period. a symetr.) První část- hlavní informace o tvaru amplitudového spektra tj. spektrum neperiodické složky signálu tj. spektrální obálka(vyhlazené spektrum) 1 2 2 c r [n] 1 1 2 X[k] 1 1 2 3 4 5 1 15 2 25 3 35 4 45 5 n (quefrency) 1 4 1 2 3 4 5 k (index of spectral component) Vyhlazenéspektrum: X[k] =e DFT{cn wn}
LPC kepstrum signálu Výchozíveličiny:parametryARmodelu-a k,g = E p c =lng c n = 1 n Vlastnosti: c n = a n 1 n 1 (n k)a k c n k,pron=1,2,...,p, n k=1 p (n k)a k c n k, pron =p+1,p +2,... k=1 Koeficienty Taylorova rozvoje ln H(z) (inverzní Z-transf.) Nekonečně dlouhé, první hodnoty opět nejvýznamnější Lze spočítat rekurentně, neobsahuje náhodnou složku Tvar spektra kopíruje LPC spektrum
Kepstrální analýza pro zpracování řeči LPC spektrum: Vyhlazený odhad z reálného kepstra: 1 1 1 1 2 2 3 2 4 6 8 3 2 4 6 8 První koeficienty nesou hlavní informaci o tvaru amplitudového spektra(12-2 kepstrálních koeficientů) kepstra podobných segmentů tvoří shluky = použití jako příznaky pro rozpoznávání kepstrum nese informaci o vokálním traktu = použití pro automatickou hlasovou identifikaci
DFT a LPC kepstrum- bloková schémata výpočtu Blokové schéma výpočtu kepstrálních koeficientů pomocí DFT replacements s[n] DFT S[k] ln. ln S[k] IDFT c n s[n] DFT S[k] ln. ln S[k] DCT c n Blokové schéma výpočtu LPC kepstrálních koeficientů s[n] LPC a k a c c n
Mel-kepstrum- melodická frekvenční stupnice Vhodnější výpočet kepstra: modelování nelinearity vnímání frekvence lidským sluchem Nelineární zkreslení frekvenční osy- melodická stupnice ( f ) f mel =Mel(f) =2595log 1 1+ 7 f =InvMel(f mel ) =7 (1 f mel 2595 1) 3 25 f mel [mel] 2 15 1 5 2 4 6 8 f [Hz]
MFCC- Melovské kepstrální koeficienty Blokové schéma výpočtu mel-kepstrálních koeficientů: s[n] DFT S[k] f mel,k lnf mel,k Mel-BF ln(.) DCT c n Výpočet energie v jednom pásmu N/2 g j =ln S[k] 2 H mel,j [k]. k= Habs 1.8.6.4.2.1.2.3.4.5.6.7.8.9 1 Výpočet kepstra pomocí DCT 2 c i = P P j=1 ( ) πi g j cos (j.5) P ff nejrozšířenější příznaky používané v ASR nyní hodně používané i pro rozpoznávání řečníka
Spektrální a kepstrální vzdálenost Spektrálnívzdálenost(L 2 -norma) L 2 = π π ln S 1(e jθ ) 2 S 2 (e jθ ) 2dθ 2 Spectral distance 1 S(e jθ ) 2 [db] 1 2 1 2 3 Nyquist frequency θ SpektrálnívzdálenostnabáziL 2 -normy kvantifikuje plochu ohraničnou dvěma spektry(křivkami)
Kepstrální vzdálenost Kepstrální vzdálenost L CD = (cs [] c x []) 2 +2 (c s [k] c x [k]) 2 k=1 2 Spectral distance 2 Cesptral distance 1 1 S(e jθ ) 2 [db] S(e jθ ) 2 [db] 1 1 2 1 2 3 Nyquist frequency θ 2 1 2 3 Nyquist frequency θ CDaproximujespektrálnívzdálenostnabáziL 2 -normy používá první kepstrální koeficienty vzdálenost je vypočítána ze spektrální obálky (tj. z vyhlazených spekter)
Různé definice kepstrální vzdálenosti Euklidovská vzdálenost: CD = L (c s [k] c x [k]) 2 Euklidovská vzdálenost bez c[]: kvadrát Euklidovské vzdálenosti bez c[]: vážená (liftrovaná) kepstrální vzdálenost: k= CD = L (c s [k] c x [k]) 2 CD = CD = k=1 L (c s [k] c x [k]) 2 k=1 L (L k c s [k] L k c x [k]) 2 k=1 Vždy kvantifikace rozdílů ve spektru Varianty- různá citlivost a různé měřítko
Děkuji vám za pozornost!