A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Podobné dokumenty
Kepstrální analýza řečového signálu

Úvod do praxe stínového řečníka. Proces vytváření řeči

A2M31RAT Řečový signál a jeho základní charakteristiky Model vzniku řeči. Digitalizace a základní kódovací strategie

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

31ZZS 9. PŘEDNÁŠKA 24. listopadu 2014

Algoritmy a struktury neuropočítačů ASN P8b

Úvod do zpracování signálů

LPC. Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno. LPC Jan Černocký, ÚPGM FIT VUT Brno 1/39

3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU

Akustika. 3.1 Teorie - spektrum

SYNTÉZA ŘEČI. Ústav fotoniky a elektroniky, v.v.i. AV ČR, Praha

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

ADA Semestrální práce. Harmonické modelování signálů

KTE/TEVS - Rychlá Fourierova transformace. Pavel Karban. Katedra teoretické elektrotechniky Fakulta elektrotechnická Západočeská univerzita v Plzni

A7B31ZZS 4. PŘEDNÁŠKA 13. října 2014

IDENTIFIKACE ŘEČOVÉ AKTIVITY V RUŠENÉM ŘEČOVÉM SIGNÁLU

Signál v čase a jeho spektrum

Automatická detekce anomálií při geofyzikálním průzkumu. Lenka Kosková Třísková NTI TUL Doktorandský seminář,

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

X31EO2 - Elektrické obvody 2. Kmitočtové charakteristiky

Při návrhu FIR filtru řešíme obvykle následující problémy:

JAK VZNIKÁ LIDSKÝ HLAS? Univerzita Palackého v Olomouci

A7B31ZZS 10. PŘEDNÁŠKA Návrh filtrů 1. prosince 2014

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

Klasifikace hudebních stylů

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

AKUSTICKÁ MĚŘENÍ Frekvenční spektrum lidského hlasu

DSY-4. Analogové a číslicové modulace. Evropský sociální fond Praha & EU: Investujeme do vaší budoucnosti

VOLBA ČASOVÝCH OKEN A PŘEKRYTÍ PRO VÝPOČET SPEKTER ŠIROKOPÁSMOVÝCH SIGNÁLŮ

SIGNÁLY A LINEÁRNÍ SYSTÉMY

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

SYNTÉZA AUDIO SIGNÁLŮ

Zvuk. 1. základní kmitání. 2. šíření zvuku

Vlastnosti a modelování aditivního

7. listopadu 2018 Hlas a řeč. Hudební nástroje. Formantové syntézy. Číslicové pásmové propusti. Aplikace

PSK1-5. Frekvenční modulace. Úvod. Vyšší odborná škola a Střední průmyslová škola, Božetěchova 3 Ing. Marek Nožka. Název školy: Vzdělávací oblast:

Konsonanty. 1. úvod. 2. frikativy. - zúžením v místě artikulace vzniká sloupec vzduchu, směrodatná je délka předního tubusu

B2M31SYN 9. PŘEDNÁŠKA 7. prosince Granulační syntéza Konkatenační syntéza Nelineární funkce Tvarovací syntéza

Obsah. Rozpoznávání emočních stavů pomocí analýzy řečového signálu. 1.Úvod 1.1. Model hlasového traktu

Lineární a adpativní zpracování dat. 3. Lineární filtrace I: Z-transformace, stabilita

14 - Moderní frekvenční metody

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Klasifikace Landau-Kleffnerova syndromu

Zpráva k semestrální práci z B2M31SYN Syntéza audio signálů

České vysoké učení technické v Praze Fakulta elektrotechnická. Předzpracování řeči s šumovým pozadím pro účely komunikace a rozpoznávání

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra kybernetiky a biomedicínského inženýrství

Při návrhu FIR filtru řešíme obvykle následující problémy:

MĚŘENÍ ČASOVÉHO ZPOŽDĚNÍ MEZI SIGNÁLY MOZKU: APLIKACE V EPILEPTOLOGII Jan Prokš 1, Přemysl Jiruška 2,3

MĚŘENÍ ÚHLOVÝCH KMITŮ ZA ROTACE

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

P7: Základy zpracování signálu

DETEKCE LOGOPEDICKÝCH VAD V ŘEČI

Transformace obrazu Josef Pelikán KSVI MFF UK Praha

Číslicové zpracování a analýza signálů (BCZA) Spektrální analýza signálů

A/D převodníky - parametry

Oscilátory. Oscilátory s pevným kmitočtem Oscilátory s proměnným kmitočtem (laditelné)

Náhodné signály. Honza Černocký, ÚPGM

2 Teoretický úvod Základní princip harmonické analýzy Podmínky harmonické analýzy signálů Obdelník Trojúhelník...

Akustika pro posluchače HF JAMU

Osnova. Idea ASK/FSK/PSK ASK Amplitudové... Strana 1 z 16. Celá obrazovka. Konec Základy radiotechniky

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Škola: Střední škola obchodní, České Budějovice, Husova 9. Inovace a zkvalitnění výuky prostřednictvím ICT

Lineární a adaptivní zpracování dat. 2. SYSTÉMY a jejich popis v časové doméně a frekvenční doméně

B2M31SYN SYNTÉZA AUDIO SIGNÁLŮ

LIDSKÝ HLAS JAN ŠVEC. Oddělení biofyziky, Katedra experimentální fyziky, Př.F., Univerzita Palackého v Olomouci

fluktuace jak dob trvání po sobě jdoucích srdečních cyklů, tak hodnot Heart Rate Variability) je jev, který

TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY

doc. Dr. Ing. Elias TOMEH Elias Tomeh / Snímek 1

íta ové sít baseband narrowband broadband

2. GENERÁTORY MĚŘICÍCH SIGNÁLŮ II

Jan Černocký ÚPGM FIT VUT Brno, FIT VUT Brno

Direct Digital Synthesis (DDS)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

FOURIEROVA ANAL YZA 2D TER ENN ICH DAT Karel Segeth

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Parametrické přístupy k filtraci ultrazvukových signálů

Zvuk včetně komprese. Digitálně = lépe! Je to ale pravda? X36PZA Periferní zařízení

Číslicové filtry. Honza Černocký, ÚPGM

Fyzikální podstata zvuku

Spektrální analýza a diskrétní Fourierova transformace. Honza Černocký, ÚPGM

Frekvenční charakteristiky

Jméno a příjmení. Ročník. Měřeno dne Příprava Opravy Učitel Hodnocení. Charakteristiky optoelektronických součástek

Fyziologická akustika. fyziologická akustika: jak to funguje psychologická akustika: jak to na nás působí

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

ANALÝZA POTLAČOVÁNÍ AKUSTICKÉHO ECHA A DTD DETEKCE V CHYTRÝCH TELEFONECH

A2B31SMS 2. PŘEDNÁŠKA 9. října 2017 Číslicové signály

Jasové transformace. Karel Horák. Rozvrh přednášky:

základní vlastnosti, používané struktury návrhové prostředky MATLAB problém kvantování koeficientů

MODELOVÁNÍ SUPRASEGMENTÁLNÍCH RYSŮ MLUVENÉ ČEŠTINY POMOCÍ LINEÁRNÍ PREDIKCE

Lineární a adaptivní zpracování dat. 3. SYSTÉMY a jejich popis ve frekvenční oblasti

Kvalita zvuku a obrazu v elektronických komunikacích aneb Ještě chceme HiFi?

Zpráva k semestrální práci z předmětu Syntéza audio signálů. Vypracoval: Jakub Krista Zimní semestr 2016/2017 Datum odevzdání:

VY_32_INOVACE_ENI_2.MA_05_Modulace a Modulátory

Nové požadavky na zvukoměrnou techniku a jejich dopad na hygienickou praxi při měření hluku. Ing. Zdeněk Jandák, CSc.

Modelování systémů a procesů (11MSP) Bohumil Kovář, Jan Přikryl, Miroslav Vlček. 8. přednáška 11MSP pondělí 20. dubna 2015

Mechanické kmitání a vlnění

Měření na nízkofrekvenčním zesilovači. Schéma zapojení:

Transkript:

A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu I Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:16

Obsah přednášky Úvod Aplikace hlasové biometrické verifikace Základní princip hlasové verifikace řečníka Základní popis vzniku řeči(hlasu) Anatomie hlasového ústrojí, produkce řeči Signálový model produkce řeči Řečové charakteristiky a příznaky pro identifikaci Základní frekvence řeči Spektrální charakteristiky Formanty Expertní identifikace, spektrografické metody Kepstrum, kepstrální vzdálenost

I. část Rozpoznávání řečníka

Aplikační oblasti úlohy rozpoznávání mluvčího ověření totožnosti mluvčího z hlediska bezpečnosti kriminalistická a soudní praxe- forenzní aplikace (dosud subjektivní fonetická a lingvistická analýza) identifikace pro přístup k zabezpečeným systémům (bankovní účty, vstupy do chráněných objektů) motivace pro použití - náhrada složitěji realizovatelných systémů - přirozenost hlasové komunikace cena Biometrická identifikace Ruka Duhovka Podpis Tvář Hlas Otisky prstů přesnost Jediná volba při dostupnosti pouze hlasového záznamu pro identifikaci

Aplikační oblasti úlohy rozpoznávání mluvčího identifikace mluvčího s největší podobností hlasu př.- identifikace volajících v call-centrech komplexní rozpoznávače řeči (LVCSR- diktovací systémy, transkripční systémy pro přepis rozhlasových/tv zpravodajství) - modely pro konkrétního mluvčího - skupinové modely - modely závislé na pohlaví mluvčího

Možnosti identifikace mluvčího historické klasické přístupy: - expertní rozhodování(fonetici, lingvisté) moderní automatizované metody: - rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

Možnosti identifikace mluvčího historické klasické přístupy: - expertní rozhodování(fonetici, lingvisté) moderní automatizované metody: - rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

II. část Model vzniku a základní charakteristiky řeči

Fyziologie hlasového ústrojí Artikulační orgány hlasového ústrojí člověka dutina nosní do žaludku do plic zubyarty dutina ústní jazyk tvrdé patro měkké patro dutina hrdelní hlasivky

Časová a spektrální reprezentace promluvy

Řečové hlásky v časové oblasti.5 Slovo šedý.5 1 2 3 4 5 6 7 8 9 1.5 Slabika še.5 5 1 15 2 25 3 Hláska š...neznělá,šumovýcharakter Hláska e... znělá, periodický charakter(harmonická struktura)

Řečové hlásky v časové oblasti.5 Slovo čtyři.5 1 2 3 4 5 6 7 8.5 Slabika čty.5 5 1 15 2 25 3 Hláska č...neznělá,šumovýcharakter Hláska t...plozivní,okluze(závěr)+exploze Hláska y... znělá, periodický charakter(harmonická struktura)

Model vzniku řeči Model generování řečového signálu f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá Model produkce řeči- AR model- nejjednodušší model - snadná identifikace parametrů AR modelu pomocí LPC analýzy - souvislost s rezonátory hlasového ústrojí

Variabilita řeči Různí mluvčí: různá výška hlasu různá barva hlasu různá doba trvání hlásek 1)originalitahlasuastylumluvyřečníka-OK 2) obecná variabilita jednotlivých realizací- PROBLÉM 3) Možnost napodobení hlasu- PROBLÉM??? VHODNÝ POPIS HLASU PRO IDENTIFIKACI???

Řečové příznaky v úlohách rozpoznávání mluvčího Obecné požadavky pro příznaky resp. systémy identifikace vysoká variabilita pro různé mluvčí nízká variabilita pro jednoho mluvčího (možné vlivy- aktuální stav, nálada, stres, hluk, styl promluvy) snadný a efektivní výpočet odolnost vůči šumu a zkreslení(výše zmiňované jevy) odolnost proti imitaci hlasu Vnitřní charakteristiky- související s vytvářením řeči Získané charakteristiky- souvisejí s dynamikou pohybů hlasového traktu(dané prostředím)

Problémy biometrické reprezentace na bázi řeči Vnitřní charakteristiky řečníka dané fyzikálními rozměry hlasového ústrojí (lze obtížně napodobit) ovlivnitelné zdravotním stavem (např. nosní dutina: neměnné rozměry při artikulaci, mírné nachlazení = zásadní změna) Získané charakteristiky řečníka styl mluvy(časování, intonace, hrubost, živost, síla, srozumitelnost) jako celek komplexní charakteristika řečníka (používáno člověkem při přirozené identifikaci) nemusí být snadno modelovatelné různými modely způsob řeči lze snadno napodobit

III. část Řečové charakteristiky a možnosti využití pro identifikaci

Základní tón řeči f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá základnífrekvencef o =1/T o pro znělé hlásky s harmonickou strukturou souvisí s kmitáním hlasivek hodnotaf o jeovlivněnavlastnostmihlasivek (pružnost, hmotnost, délka) hrubá charakteristika mluvčího

Odhad základního tónu řeči f o...základnítón(frekvence)řeči...f o = 1 T o T o (L o )...základníperioda(vsekundáchvs.vevzorcích) Nejčastější metoda odhadu- na bázi autokorelační funkce (hledání postranního maxima autokorelační funkce) segment signálu x[n].1.8.6.4.2.2.4.6 L.8 5 1 15 2 25 3 35 4 45 5 n odhad autokorelační funkce.8 L.6.4 R[k].2.2.4 5 1 15 2 25 3 35 4 45 5 k

Průběh základního tónu v promluvě Krátká promluva- slovo 2 15 fo 1 5 5 1 15 2 25 Frame No. Delší promluva- věta 14 12 1 fo 8 6 4 2 1 2 3 4 5 6 Frame No. Průběhf o vpromluvě získaná(naučená)charakteristika Průměrnáhodnotaf o vnitřnícharakteristika(výškahlasu)

Spektrální charakteristiky řeči f o generátor pulzů G(zesílení) Parametry hlasového ústrojí u[n] Model produkce s[n] generátor šumu znělá/neznělá spektrální charakteristiky souvisí s vokálním traktem otázka vhodné reprezentace pro identifikaci

Spektrální reprezentace řeči na bázi DFT Odhas spektra na bázi DFT: řeč je obecně nestacionární signál nutná segmentace a sledování vývoje krátkodobého spektra(spektrogram) řeč je kvazistacionární (tj. stacionární v krátkém časovém intervalu- cca 1-1 ms) 2-3 ms - typická délka krátkodobého segmentu DFT spektrum je ovlivněno prosakováním nutné váhování vhodným oknem(hammingovo) nutná segmentace s překryvem(obvykle 5%) 1 w[n] =,54,46cos 2πn N pro n N 1..8.6.4.2 5 1 15 2 25 3 35 4

Přehled možností spektrální reprezentace promluvy Spektrogram celé promluvy Spektrální reprezentace vybraného segmentu Sklon amplitudového spektra- vyšší kmitočty- nižší energie DFT spektrum: LPC reprezentace: Kepstrální koeficienty: 1 1 1 1 1 1 2 2 2 3 2 4 6 8 256 vzorků spektra (amplitudové sp.) 3 2 4 6 8 16koeficientůa k (autoregresní koef.) 3 2 4 6 8 16koeficientůc n (reálné kepstrum)

Preemfáze signálu Kompenzace sklonu amlitudového spektra s [n] =s[n] m s[n 1], m =,97 Frekvenční charakteristika preemfázového filtru H(f) [db] 1 1 2 3 4.1.2.3.4.5.6.7.8.9 1 2f fs [ ] Ilustrace vlivu preemfáze ve spektrogramu 2f fs [ ] 1.8 a) 2f fs [ ] 1.8 b).6.4.2 5 1 15 2 n[ ].6.4.2 5 1 15 2 n[ ]

Lineární prediktivní analýza p Lineárnípredikce:ŝ[n] = a k s[n k]. k=1 Lineární prediktor s[n] z 1 z 1 z 1 a 1 a 2 a p 1 ap + + + + - + ŝ[n] e[n] Chybový signál(míra kvality prediktoru) p p e[n] =s[n] ŝ[n] =s[n]+ a k s[n k] = a k s[n k]. k=1 k= s[n] z 1 z 1 z 1 a 1 a 2 a p 1 a p + + + + e[n]

Princip LPC analýzy IDEA: přesnější predikce nižší úroveň chybového signálu Kritérium- výkon chybového signálu { } J =E e 2 [n] Hledáníkoeficientůa k Minimalizacechybypredikce hledáníminimaj,i.e. J a k =, for k =1,2,...,p plineárníchrovnic Řešení a metody výpočtu(pro různé definice J): autokorelační metoda- nejčastěji používaný přístup Levinson-Durbinův algoritmus(rychlý výpočet autokor.met.) Burgův algoritmus- vychází z křížové struktury filtru

Autokorelační metoda, Yuleovy-Walkerovy rovnice R[] R[1] R[2]... R[p 1] R[1] R[] R[1] R[p 2] R[2] R[1] R[]... R[p 3]........ R[p 1] R[p 2] R[p 3]... R[] a 1 a 2.. a p = R[1] R[2].. R[p] R[k]... autokorelační koeficienty analyzovaného signálu VÝSLEDEK: a k...autoregresníkoeficienty(armodelsignálu) P p =R[]+ p k=1 a k R[k]...výkonchybovéhosignálu

AR model signálu p Dekorelační(analyzující) filtr: A(z) = a k z k k= s[n] A(z) e[n] Syntéza se skutečným chybovým signálem(ideální případ) 1 e[n] s[n] A(z) Syntéza s umělým signálem s jednotkovým výkonem(ar model) -Gzávisínaúrovnianalyzovanéhosignálu(G = P p ) u[n] G A(z) s[n]

Spektrální vlastnosti AR modelu Obecný popis AR modelu v Z-oblasti S(z) =H(z) U(z) Popis AR modelu ve frekvenční oblasti S s (e jθ ) = H(e jθ ) 2 S u (e jθ ) Vlastnostiadůsledky:-S u (e jθ )jeploché tvars s (e jθ )jekompletnězahrnutvarmodelu LPCspektrum (pokuds u (e jθ ) =1) S S(e jθ ) = H(e jθ ) 2 = G 2 A(e jθ ) 2

Srovnání LPC a DFT spektra S S(e jθ ) = H(e jθ ) 2 S[k] 2 N S(e jθ ) 1 1 2 a) b) 1 S(e jθ ) 1 2 1 4 1 4 1 6 1 6.2.4.6.8 1 2f f s.2.4.6.8 1 2f AR model: all-pole filtr, modeluje pouze špičky ve spektru (rezonátory v dutinách vokálního traktu) obecná špička = dvojice komplexně združených pólů vyššířádarmodelu=vícešpičekvlpcspektru typickéhodnoty:p=1prof s =8kHz,p=16prof s =16kHz f s

Křížová struktura AR modelu Trasnverzální struktura analyzujícího FIR filtru: s[n] z 1 z 1 z 1 a 1 a 2 a p 1 a p + + + Křížová struktura analyzujícího FIR filtru: + e[n] s[n] e () [n] e (1) [n] e (2) [n] e (p 1) [n] e (p) [n] + + + k 1 k 2 k p z 1 k 1 + z 1 k2 + z 1 g () [n] g (1) [n] g (2) [n] g (p 1) [n] g (p) [n] k k...koeficientyodrazu,přepočetk k vs.a k -Levinsonovarekurze Inicializace: a (1) 1 =k 1 Výpočetprom =2,3,...,p: a (m) m =k m a (m) j =a (m 1) j +k m a (m 1) m j, j =1,2,...,m 1 kp +

Křížová struktura AR modelu Trasnverzální struktura syntetizujícího all-pole IIR filtru: e[n] + + + + s[n] a p a p 1 a p 2 a 1 z 1 z 1 z 1 Křížová struktura syntetizujícího all-pole IIR filtru: e[n] e (p) [n] + e (p 1) [n] e (2) [n] + e (1) [n] + e () [n] s[n] k p k 2 k 1 k p k 2 k 1 + z 1 + z 1 + z 1 g (p) [n] g (p 1) [n] g (2) [n] g (1) [n] g () [n]

Burgův algoritmus Křížová struktura analyzujícího FIR filtru: s[n] e () [n] e (1) [n] e (2) [n] e (p 1) [n] e (p) [n] + + + k 1 k 2 k p k 1 k2 kp z 1 + z 1 + z 1 + g () [n] g (1) [n] g (2) [n] g (p 1) [n] g (p) [n] Minimalizační kritérium(pro každou sekci křížové struktury): J = 1 N 1 [ ( e (m) 2 ( [n]) + g (m) ) ] 2 [n] 2 n= prom=1,2,...,p. Výpočet m-tého koeficientu odrazu: k m = N 1 n=m N 1 ( 2 e (m 1) [n] g (m 1) ) [n 1] n=m ( e (m 1) ) N 1 2 ( [n] + g (m 1) ) 2 [n 1] n=m Autoregresníkoeficientya k -výpočetlevinsonovourekurzí

Formanty- definice Formant(formantové frekvence) centrální kmitočty rezonátorů vokálního traktu významné špičky ve VYHLAZENÉM krátkodobém spektru významnéformantyf1-f4vpásmudo4khz F5- méně významný(obtížně odhadnutelný formant)!!nezaměňovatsezákladnímtónemřečif (f nenídetekovatelnévevyhlazenémspektru) Souvislost s fyziologií vokálního traktu = vhodný vnitřní příznak (formantové frekvence jsou nepřímo úměrné délce vok. traktu) F i = (2i 1) c 4 VTL Pro rozlišení mluvčích- vzdálenost sousedních formantů

Formanty-OdhadnabáziLPC špičky LPC spektra- rezonátory = formanty F i -formantováfrekvence(centrálníkmitočetrezonátoru) B i -šířkapásmaformantu špičkylpcspektra-určenépólypřenosovéfunkcep i F i =f s argp i /2π B i = f s ln p i /2π Problémy: obecně menší robustnost LPC analýzy(závislost na datech) určení vhodného řádu(vliv přítomnosti šumu) seřazení vypočítaných pólů(sledování stejného formantu) vyřazení nadbytečného pólu(méně významné špičky)

OdhadformantůnabáziLPC-příklad.2 Časový průběh signálu hlaska a.1.1 Imaginary Part 1.5.5 1 1.2 2 4 6 8 1 12 14 16 18 2 Poles hlaska a 16 1.5.5 1 Real Part póly&lpcspektrumsformanty 5 1 15 2 25 3 Formanty hlaska a 35 1 2 3 4 5 6 7 8 póly& LPC spektrum s formanty(preemfáze) Poles hlaska a (preem) 1 Formanty hlaska a (preem) Imaginary Part.5.5 1 16 1.5.5 1 Real Part 15 2 25 3 35 4 1 2 3 4 5 6 7 8

Speciální příznaky pro rozpoznávání mluvčího F2v n F3v u F2v i délka trvání k...obecnějšíformulace... hodnota formantu ve vybrané hlásce šířka pásma vybraného formantu ve vybrané hlásce směrnice poklesu formantu ve vybrané hlásce Průběh F ve vybrané větě(slově) průměrná hodnota F ve větě(slově)...apod...

Expertní metody při rozpoznávání mluvčího Forenzní lingvistika a fonetika sledování osobitých rysů projevu řečníka zaměření na artikulační zvláštnosti typické vedení melodie řeči(intonace) většinou na bázi poslechu Spektrografické metody Využívají možnost zobrazení diskutovaných hlasových charakteristik(spektrogramů,průběhuf o,trajektoriíformantů, apod.) řešeno opět na expertní bázi detaily realizace vybraných hlásek

Formanty& základní tón- odhad Praat Muž1

Formanty& základní tón- odhad Praat Muž2

Formanty& základní tón- odhad Praat Žena1

Kepstrum- definice a základní vlastnosti Základní definice pomocí Z-tranformace ĉ[n] = Z 1 {lnz{x[n]}} Přímý výpočet pomocí DFT c k [n] = IDFT{lnDFT {x[n]}}...komplexníkepstrum c r [n] = IDFT{ln DFT {x[n]} }...reálnékepstrum c v [n] = IDFT{ln 1 N DFT{x[n]} 2 }...výkonovékepstrum Vlastnosti: ĉ[n]...nekonečnědlouhé,rychleubýváknule c k [n]...konečnědlouhé,nesymetrické,informaceofázi c r [n]...konečnědlouhé,symetrické,inf.oampl.spektru c v [n]...oprotic r [n]selišípouzeměřítkemahodnotouc[] ve všech případech vždy reálné hodnoty

Kepstrum- definice a základní názvosloví Základní slovní přesmyčka: spektrum vs. kepstrum Další vybrané přesmyčky: kvefrence(frekvence)- základní proměnná kepstra[čas] liftr(filtr) liftrace(filtrace)- modifikace kepstra (váhování, oříznutí, zkracování) krátko-dobý liftr(dolno-frekvenční filtr) dlouho-dobý liftr(horno-frekvenční filtr) gamnituda(magnituda, amplituda)...

Vlastnosti reálného DFT kepstra Vlastnosti: c r [n] = IDFT{ln DFT{x[n]} } DFT kepstrum- numerický výpočet(period. a symetr.) První část- hlavní informace o tvaru amplitudového spektra tj. spektrum neperiodické složky signálu tj. spektrální obálka(vyhlazené spektrum) 1 2 2 c r [n] 1 1 2 X[k] 1 1 2 3 4 5 1 15 2 25 3 35 4 45 5 n (quefrency) 1 4 1 2 3 4 5 k (index of spectral component) Vyhlazenéspektrum: X[k] =e DFT{cn wn}

LPC kepstrum signálu Výchozíveličiny:parametryARmodelu-a k,g = E p c =lng c n = 1 n Vlastnosti: c n = a n 1 n 1 (n k)a k c n k,pron=1,2,...,p, n k=1 p (n k)a k c n k, pron =p+1,p +2,... k=1 Koeficienty Taylorova rozvoje ln H(z) (inverzní Z-transf.) Nekonečně dlouhé, první hodnoty opět nejvýznamnější Lze spočítat rekurentně, neobsahuje náhodnou složku Tvar spektra kopíruje LPC spektrum

Kepstrální analýza pro zpracování řeči LPC spektrum: Vyhlazený odhad z reálného kepstra: 1 1 1 1 2 2 3 2 4 6 8 3 2 4 6 8 První koeficienty nesou hlavní informaci o tvaru amplitudového spektra(12-2 kepstrálních koeficientů) kepstra podobných segmentů tvoří shluky = použití jako příznaky pro rozpoznávání kepstrum nese informaci o vokálním traktu = použití pro automatickou hlasovou identifikaci

DFT a LPC kepstrum- bloková schémata výpočtu Blokové schéma výpočtu kepstrálních koeficientů pomocí DFT replacements s[n] DFT S[k] ln. ln S[k] IDFT c n s[n] DFT S[k] ln. ln S[k] DCT c n Blokové schéma výpočtu LPC kepstrálních koeficientů s[n] LPC a k a c c n

Mel-kepstrum- melodická frekvenční stupnice Vhodnější výpočet kepstra: modelování nelinearity vnímání frekvence lidským sluchem Nelineární zkreslení frekvenční osy- melodická stupnice ( f ) f mel =Mel(f) =2595log 1 1+ 7 f =InvMel(f mel ) =7 (1 f mel 2595 1) 3 25 f mel [mel] 2 15 1 5 2 4 6 8 f [Hz]

MFCC- Melovské kepstrální koeficienty Blokové schéma výpočtu mel-kepstrálních koeficientů: s[n] DFT S[k] f mel,k lnf mel,k Mel-BF ln(.) DCT c n Výpočet energie v jednom pásmu N/2 g j =ln S[k] 2 H mel,j [k]. k= Habs 1.8.6.4.2.1.2.3.4.5.6.7.8.9 1 Výpočet kepstra pomocí DCT 2 c i = P P j=1 ( ) πi g j cos (j.5) P ff nejrozšířenější příznaky používané v ASR nyní hodně používané i pro rozpoznávání řečníka

Spektrální a kepstrální vzdálenost Spektrálnívzdálenost(L 2 -norma) L 2 = π π ln S 1(e jθ ) 2 S 2 (e jθ ) 2dθ 2 Spectral distance 1 S(e jθ ) 2 [db] 1 2 1 2 3 Nyquist frequency θ SpektrálnívzdálenostnabáziL 2 -normy kvantifikuje plochu ohraničnou dvěma spektry(křivkami)

Kepstrální vzdálenost Kepstrální vzdálenost L CD = (cs [] c x []) 2 +2 (c s [k] c x [k]) 2 k=1 2 Spectral distance 2 Cesptral distance 1 1 S(e jθ ) 2 [db] S(e jθ ) 2 [db] 1 1 2 1 2 3 Nyquist frequency θ 2 1 2 3 Nyquist frequency θ CDaproximujespektrálnívzdálenostnabáziL 2 -normy používá první kepstrální koeficienty vzdálenost je vypočítána ze spektrální obálky (tj. z vyhlazených spekter)

Různé definice kepstrální vzdálenosti Euklidovská vzdálenost: CD = L (c s [k] c x [k]) 2 Euklidovská vzdálenost bez c[]: kvadrát Euklidovské vzdálenosti bez c[]: vážená (liftrovaná) kepstrální vzdálenost: k= CD = L (c s [k] c x [k]) 2 CD = CD = k=1 L (c s [k] c x [k]) 2 k=1 L (L k c s [k] L k c x [k]) 2 k=1 Vždy kvantifikace rozdílů ve spektru Varianty- různá citlivost a různé měřítko

Děkuji vám za pozornost!