A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Podobné dokumenty
A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Úloha: Verifikace osoby pomocí dynamického podpisu

Kybernetika a umělá inteligence, cvičení 10/11

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

7 Další. úlohy analýzy řeči i a metody

Technická univerzita v Liberci

Klasifikace a rozpoznávání. Extrakce příznaků

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Klasifikace a rozpoznávání. Lineární klasifikátory

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

UČENÍ BEZ UČITELE. Václav Hlaváč

Úloha - rozpoznávání číslic

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

Přednáška 13 Redukce dimenzionality

SRE 03 - Statistické rozpoznávání

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Učící se klasifikátory obrazu v průmyslu

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Klasifikace a rozpoznávání

MODELOVÁNÍ DYNAMIKY PROSODIE

NG C Implementace plně rekurentní

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Moderní systémy pro získávání znalostí z informací a dat

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze


Speciální struktury číslicových systémů ASN P12

Lineární klasifikátory

Apriorní rozdělení. Jan Kracík.

Algoritmy a struktury neuropočítačů ASN - P11

Algoritmy a struktury neuropočítačů ASN P3

Strojové učení se zaměřením na vliv vstupních dat

Neparametrické odhady hustoty pravděpodobnosti

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Implementace rozpoznávače řeči na bázi TANDEM architektury

Základy umělé inteligence

Umělá inteligence a rozpoznávání

LOMBARDŮV EFEKT V ŘEČOVÝCH DATABÁZÍCH CLSD A SPEECON

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Statistická analýza dat

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

Rozpoznávání v obraze

Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ FAKULTA ELEKTROTECHNIKY A KOMUNIKAČNÍCH TECHNOLOGIÍ ÚSTAV RADIOELEKTRONIKY

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Instance based learning

Dynamický podpis. vycházející z přednášek Dr. Andrzej Drygajlo,

NEURONOVÉ SÍTĚ PŘI KLASIFIKACI MLUVČÍCH NEURAL NETWORKS IN SPEAKER CLASSIFICATION

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Vytěžování znalostí z dat

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Modelování neřečových událostí pro rozpoznávání řeči v reálných podmínkách

Úvodem Dříve les než stromy 3 Operace s maticemi

4 HMM a jejich trénov

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

Dolování dat z multimediálních databází. Ing. Igor Szöke Speech group ÚPGM, FIT, VUT

Implementace Bayesova kasifikátoru

Rozdělování dat do trénovacích a testovacích množin

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Trénování sítě pomocí učení s učitelem

Tino Haderlein, Elmar Nöth

Využití metod strojového učení v bioinformatice David Hoksza

Prohlášení. V Plzni dne podpis diplomanta

Metody analýzy modelů. Radek Pelánek

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Strojové učení Marta Vomlelová

Technologie počítačového zpracování řeči

Klasifikace Landau-Kleffnerova syndromu

SRE 03 - Skryté Markovovy modely HMM

Petr Zlatník, Roman Čmejla. Katedra teorie obvodů, Fakulta elektrotechnická, ČVUT, Praha. Abstrakt

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury

Automatické vyhledávání informace a znalosti v elektronických textových datech

Možnosti modelování lesní vegetační stupňovitosti pomocí geoinformačních analýz

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

Měření dat Filtrace dat, Kalmanův filtr

Aplikace obrazové fúze pro hledání vad

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Umělé neuronové sítě

Analýza textury. Radim Šára Centrum strojového vnímání FEL ČVUT. DZO, R. Šára


Václav Matoušek KIV. Umělá inteligence a rozpoznávání. Václav Matoušek / KIV

ANALÝZA SIGNÁLŮ SPOJITÉ AKUSTICKÉ EMISE

Analytické metody v motorsportu

ÚVOD DO ROZHODOVÁNÍ PŘEDNÁŠKA. OPTIMALIZACE A ROZHODOVÁNÍ V DOPRAVĚ Přednáška 1. Zuzana Bělinová

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

StatSoft Úvod do neuronových sítí

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY

Klasifikační metody pro genetická data: regularizace a robustnost

Transkript:

A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu II Doc. Ing. Petr Pollák, CSc. 16. listopadu 216-15:14

Obsah přednášky Úlohy automatického rozpoznávání řečníka Verifikace vs. identifikace Reprezentace řečníka a algoritmy klasifikace Časové funkce(dtw) Kódová kniha(vq) Statistický model(gmm, HMM) Moderní metody na bázi i-vektorů Rozpoznávání s umělými neuronovými sítěmi Příklady systémů verifikace

I. část Úlohy automatického rozpoznávání řečníka

Metody automatického rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

Řečové příznaky v úlohách rozpoznávání mluvčího SHRNUTÍ- Používané příznaky: MFCC- obecně používané- textově nezávislé (možnost vyhlazení variability mezi mluvčími) LPC kepstrální příznaky (variabilita mezi mluvčími, přímá souvislost formanty malá robustnost vůči šumu) parametry AR modelu (menší robustnost, Itakurova vzdálenost) kombinované vektory příznaků pro komplexnější rozhodování(spíše textově závislé úlohy) f o -základnífrekvence(charakteristikahlasu) formanty(přímá souvislost s délkou vokálního traktu)

Metody automatického rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

Úlohy rozpoznávání mluvčího Používaná řešení: expertní rozhodování(fonetici, lingvisté) automatizované vyhodnocování Základní úlohy automatického rozpoznávání mluvčího: 1 Verifikace mluvčího ověření předpokládané totožnosti mluvčího 2 Identifikace mluvčího Identifikace v uzavřené množině rozpoznání neznámého mluvčího z dané množiny mluvčích Identifikace v otevřené množině rozpoznání neznámého mluvčího z neomezené množiny mluvčích identifikace& verifikace

Verifikace mluvčího totožnostspk x Databáze mluvčích spk 1 spk 2 spkx spk N signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu výpočet podobnosti spk x -ANO/NE porovnání s prahem vzdálenost(pravděpodobnost) ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí/ odmítnutí předpokl. totožnosti

Identifikace mluvčího(v uzavřené množině) Databáze mluvčích spk 1 spk 2 spk 3 signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu spk N výpočet podobnosti spk x výběr min(max) vzdálenosti(pravděpodobnosti) spk 1...spk N rozpoznání neznámého mluvčího(největší podobnost hlasu) VÝSLEDEK = ID mluvčího/ skupiny

Identifikace mluvčího(v otevřené množině) Databáze mluvčích spk 1 spk 2 spk 3 signál(spk x ) akustická analýza verifikace porovnání sprahem spk x nebo ŽÁDNÝ ZNÁMÝ MLUVČÍ příznaky vytvoření reprezentace hlasu identifikace výběr min(max) spk N výpočet podobnosti vzdálenosti(pravděpodobnosti) spk 1...spk N rozpoznání neznámého mluvčího(největší podobnost hlasu) VÝSLEDEK = ID mluvčího/ skupiny nebo ZAMÍTNUTÍ

II. část Klasifikační metody v úloze rozpoznávání řečníka

Reprezentace hlasu řečníka a klasifikační techniky Reprezentace mluvčího na bázi vzorů Vzorová promluva či jiná časová funkce: míra = DTW vzdálenost mezi vzorovou a verifikovanou reprezentací Kódová kniha používaných parametrů: míra = střední vzdálenost příznaků od typických reprezentantů Reprezentace mluvčího na bázi statistických modelů GMM modely: modelují rozložení příznaků pro daného řečníka míra = věrohodnost spočítaná z emitovaných pravděpodobností HMM modely: modelují též průchod stavy, tj. časovou funkci i-vektory: modelování prostoru středních hodnot GMM modelů Klasifikace na bázi neuronových sítí přímá identifikace mluvčího výpočet pravděpodobnosti místo GMM

Klasifikační metody při rozpoznávání řečníka- časové funkce Rozpoznávání na základě časových funkcí vzorová promluva průběh energie- rytmizace promluvy průběhf o -intonacevpromluvě Vzdálenost mezi promluvami: normalizace délky promluvy- prosté prodloužení, zkrácení (problém pro různou rychlost v rámci promluvy) normalizovaná kumulovaná vzdálenost na bázi DTW dist s =dk (O,O s ) Vzdálenost mezi všemi segmenty(normovaná na délku): d i,j = 1 p (c k [i] c k [j]) 2 proi =1,...,N;j =1,...,M NM k=1 Kumulovaná vzdálenost algoritmem dynamického programování: dk i,j =min (dk i 1,j +d i,j,dk i,j 1 +d i,j,dk i 1,j 1 +d i,j ) proi=1,...,n;j =1,...,M

DTW- shrnující popis metody Referenční promluva délky N 1 2 j c[j] M 1 dk 1,1 2 dk dk i 1,j 1 i 1,j Rozpoznávaná promluva délky M i dk i,j 1 dk i,j c[i] N dk N,M Identifikaceřečníka hledáníminimadk N,M prorůznévzory Verifikaceřečníka srovnánídk N,M sprahem jednoduchá koncepce, málo dat konkrétní časová funkce = textově závislá metoda

Klasifikace na bázi VQ Rozložení kepstra řečníka- 1 15 Cepstrum variation for speaker 1 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Klasifikace na bázi VQ Rozloženíkepstrařečníka-1&2 15 Cepstrum variation for speakers 1 & 2 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Klasifikace na bázi VQ Rozloženíkepstrařečníka-1&2&3 15 Cepstrum variation for speakers 1 & 2 & 3 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Klasifikace na bázi VQ Rozloženíkepstrařečníka-1&2&3&4 15 Cepstrum variation for speakers 1 & 2 & 3 & 4 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Vektorová kvantizace při rozpoznávání řečníka VQ- vektorová kvantizace - kvantování obecných příznakových vektorů - rozložení příznaku je popsáno kódovou knihou Kódovákniha-c s VQ...konečnýpočetreprezentantů variability příznaků (výpočet na bázi K-means algoritmu) VAD - vhodné použít pro odstranění neřečových segmentů (energetický detektor může být postačující)

Variace kepstra a kódová kniha vybraného řečníka 15 Cepstrum variation and codebook for speaker 1 1 c[3] 5 5 1 8 6 4 2 2 4 6 8 1 c[2]

Kódováknihařečníka-1 15 Codebook for speaker 1 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Kódováknihařečníka-1&2 15 Codebooks for speakers 1 & 2 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Kódováknihařečníka-1&2&3 15 Codebooks for speakers 1 & 2 & 3 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Kódováknihařečníka-1&2&3&4 15 Codebooks for speakers 1 & 2 & 3 & 4 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Klasifikační metody při rozpoznávání řečníka- VQ klasifikace na bázi VQ - měření průměrné vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů 14 Cepstrum variation of speaker 1 and codebook for speaker 1 14 Cepstrum variation speaker 1 and codebook for speaker 4 12 12 1 1 8 8 6 6 c[3] c[3] 4 4 2 2 2 2 4 4 1 5 5 1 15 c[2] 6 1 5 5 1 15 c[2]

Klasifikační metody při rozpoznávání řečníka- VQ klasifikace na bázi VQ - měření průměrné vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů 14 Cepstrum variation of speaker 1 and codebook for speaker 1 14 Cepstrum variation speaker 1 and codebook for speaker 4 12 12 1 1 8 8 6 6 c[3] c[3] 4 4 2 2 2 2 4 4 1 5 5 1 15 c[2] 6 1 5 5 1 15 c[2] dist s =mean (cd (c i,argmin c VQ,s cd (c i,c s VQ )))

Statistiky výsledků pro 4 řečníky a 1 kódovou knihu 9 Distribution of VQ distances (BLUE - correct speaker) 8 7 Counts of appearance 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Computed VQ distances Kódovákniha-zdroj:12promluv(12x5s),cca2segmentů - velikost kódové knihy: 2 Identifikace-2promluv(2xcca1s),cca12segmentů

Statistiky výsledků pro 4 řečníky a 1 kódovou knihu 9 Distribution of VQ distances (BLUE - correct speaker) 8 7 Counts of appearance 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Computed VQ distances Kódovákniha-zdroj:12promluv(12x5s),cca2segmentů - velikost kódové knihy: 2 Identifikace-2promluv(2xcca1s),cca12segmentů Průměrné hodnoty vzdálenosti

Klasifikační metody při rozpoznávání řečníka- GMM Hlavní idea - rozložení kepstra je popsáno statistickým modelem na bázi GMM M s p(o λ s ) = ci s N (o, µ s i,cs i ) i=1 - N (o, µ,c)...n-rozměrnágaussovskáfunkcedanávektorem středních hodnot µ a kovarianční maticí C - více směsí modeluje lépe variabilitu příznaků pro daného řečníka - typické počty směsí: 8-256(model řečníka), 512-248(univerzální model)- počty směsí zavisí na množství trénovacích dat

Rozložení prvků kódové knihy kepstra mluvčího A 15 Train data 5 1 c[2] 5 c[4] 5 5 1 1 2 c[1] 1 5 5 1 15 c[3] c[6] 4 2 2 4 6 4 2 2 4 6 c[5] c[8] 4 2 2 4 6 4 2 2 4 c[7]

Rozložení prvků kódové knihy kepstra mluvčího B 15 Train data 1 1 5 c[2] 5 c[4] 5 5 1 2 1 1 2 c[1] 1 5 5 1 c[3] c[6] 4 2 2 4 6 5 5 c[5] c[8] 4 2 2 4 6 4 2 2 4 6 c[7]

GMM model rozložení kepstra mluvčího A pdf(gmm c12,[x,y]) pdf(gmm c34,[x,y]).3.2.2.1.1 15 1 5 y 5 1 x 1 2 5 5 y 1 5 x 5 1 15 pdf(gmm c56,[x,y]) pdf(gmm c78,[x,y]).1.6.4.5.2 4 2 2 4 y 6 4 2 2 x 4 6 4 2 2 4 y 6 4 2 x 2 4

GMM model rozložení kepstra mluvčího B pdf(gmm c12,[x,y]) pdf(gmm c34,[x,y]).3.4.2.1.2 15 1 5 y 5 1 x 1 2 5 5 y 1 5 x 5 1 15 pdf(gmm c56,[x,y]) pdf(gmm c78,[x,y]).2.8.6.1.4.2 4 2 2 4 y 6 4 2 2 x 4 6 4 2 2 4 y 6 4 2 x 2 4

Klasifikace na bázi GMM Klasifikační míra: věrohodnostpříznakuprodanýmodel-p(o j λ s ) - hodnota věrohodnosti se počítá z celé promluvy O = (o 1,o 2,...,o n ) P(O λ s ) = N p(o j λ s ) - logaritmická věrohodnost- průměrování(sčítání) logaritmů emitovaných pravděpodobností pro všechny krátkodobé realizace (segmenty) a GMM model daného mluvčího (omezení možnosti podtečení) N logp(o λ s ) = logp(o j λ s ) - vhodné aplikovat detektor řeči pro vyřazení neřečových úseků j=1 j=1

Statistikyvýsledkůpro4řečníkya1GMMmodel 1 Distribution of emitted log-probabilities (BLUE - correct speaker) 9 8 7 Counts of appearance 6 5 4 3 2 1-7 -6-5 -4-3 -2-1 Logarithm of emitted probabilities GMMmodel-zdroj:12promluv(12x5s),cca2segmentů -početváženýchsměsívgmm:6 Identifikace-2promluv(2xcca1s),cca12segmentů

Statistikyvýsledkůpro4řečníkya1GMMmodel 1 Distribution of emitted log-probabilities (BLUE - correct speaker) 9 8 7 Counts of appearance 6 5 4 3 2 1-7 -6-5 -4-3 -2-1 Logarithm of emitted probabilities GMMmodel-zdroj:12promluv(12x5s),cca2segmentů -početváženýchsměsívgmm:6 Identifikace-2promluv(2xcca1s),cca12segmentů Průměrné hodnoty logaritmické pravděpodobnosti

Rozpoznávání mluvčího na bázi UBM-GMM Trénování GMM modelu pro jednotlivého mluvčího je problematické: - málo dat malá schopnost generalizace UBM-GMM modelování UBM- Universal Background Model (generalizující model popisující společný prostor parametrů pro všechny mluvčí) GMM model mluvčího se získává adaptací UBM - nejčastěji MAP(Maximum Aposteriori Probability) - optimální pro větší množství adaptačních dat - adaptují se jenom viděné parametry UBM-GMM systém = základ současných systémů

Rozhodování UBM-GMM verifikace Λ =log P(O λspk ) P(O λ UBM ) GMM spk řeč Features + + Decision Λ > =PŘIJATO Λ < =ZAMÍTNUTO UBM

Rozpoznávání mluvčích na bázi i-vektorů GMM-UBM: adaptace UBM GMM(pouze střední hodnoty) Mluvčího charakterizují hodnoty vektoru středních hodnot supervektor: vektordélkyc Fvšechstředníchhodnot lze použít i pro reprezentaci nahrávek(různé délky) lze pak použít i jiné klasifikátory(svm) lze provést dekompozici na složku mluvčího resp. prostředí i-vektor: jednoduchý model na bázi faktorové analýzy(jfa) m r,s = µ+tx r,s základníidea-redukcedimenzesupervektorum r,s, CF D ivec µ- supervektor nezávislý na mluvčím a nahrávce T-transformačnímaticedimenzeCF D ivec (odhad- iterativní EM algoritmus) x r,s -i-vektorpopisujícívariabilitumluvčíhočiprostředí (identity vector, itermediate vector)

Klasifikace na bázi i-vektorů i-vector: reprezentace mluvčích(trénování) či nahrávek(provoz) SVM klasifikátor s jádrovou funkcí na bázi kosinové vzdálenosti score = x T 1 x 2 x 1 x 2 verifikacehypotézy,žemluvčívnahrávce1jeshodnýs mluvčím v nahrávce 2 srovnání skóre s verifikačním prahem variabilita akustických podmínek není explicitně modelována potlačení variability akustických podmínek v prostoru i-vektorů LDA(nalezení podprostoru s optimální rozlišitelností tříd) WCCN(normalizace kovariance uvnitř tříd) PLDA-x r,s = µ+vy s +Uw r,s +ǫ r,s (modelování variability akustických podmínek)

Zobecnění rozhodování v úlohách rozpoznávání řečníka identifikace spk =argmindist s pro s =1,2,...,L s spk =argmax s P(O λ s ) pro s =1,2,...,L verifikace dist s <dist thr...předpokládanáidentitapřijata dist s >dist thr...předpokládanáidentitazamítnuta P(O λ s ) >P thr...předpokládanáidentitapřijata P(O λ s ) <P thr...předpokládanáidentitazamítnuta

Systémy rozpoznávání řečníka s neuronovými sítěmi Použití ANN(DNN) - ANN(DNN) se používají pro výpočet pravděpodobnosti místo GMM či přímo pro klasifikaci - možnost natrénování složitější funkce - přesnější pro DNN s více skrytými vrstvami(deep learning) - náročnější na trénování, zejména z hlediska množství dat (nutnost nastavení mnoha vnitřních parametrů sítě)

Klasifikace na bázi ANN/DNN Přímá klasifikace pomocí DNN - DNN ve funkci odhadu aposteriorní pravděpodobnosti řečníka VSTUP: BF, kepstrum(mfcc), možný kontext několik oken SKRYTÉ VRSTVY: 4-1 VÝSTUP: Softmax(aposteriors) VARIANTA- DNN síť s bottleneck vrstvou(komprese):

III. část Příklady systémů rozpoznávání řečníka

Hodnotící kritéria při verifikaci mluvčího- Míra stejné chyby P(O λ) P(O λ ok ) Distribution of VQ distances (BLUE - correct speaker) 9 8 7 6 TA TR P(O λ bad ) Counts of appearance 5 4 3 2 1 FA FR d 1 2 3 4 5 6 7 8 9 Computed VQ distances P thr Vyhodnocování klasifikace: TA-Trueacceptance FA-Falseacceptance:R FA = N FA N podv TR-Truerejection FR-Falserejection R FR = N FR N spref EER-EqualErrorRate(Mírastejnéchyby): R EER =R FR (P thr,eer ) =R FA (P thr,eer )

Příklady systémů J. R. Campbell: Speaker Recognition. Department of Defense Fort Meade, MD, at http://scgwww.epfl.ch přehled různých systémů verifikace Autor Příznaky Metoda Text Vstup Error Atal 74 kepstr. Pattern depend. LAB 2%(1s) Fururi 81 nor. kepstr. Pattern depend. TEL,2%(3s) Doddington 85 FB DTW depend. LAB,8%(6s) Tishby 91 kepstr. HMM 1 digits TEL 2,8%(1,5s),8%(3,5s) Reynolds 96 MFCC+ GMM indep. TEL 11%(3s) match. 6%(1s) 3%(3s) Reynolds 96 MFCC+ GMM indep. TEL 16%(3s) mism. 8%(1s) 5%(3s)

Příklady systémů NIST 21- Speaker verification evaluations. výsledky verifikace pro rozdílné evaluační podmínky GMM-UBM systémy(ubm- Universal Background Model) EER-EqualErrorRate mic-mic mic-mic2 mic-tel tel-tel Systém 1- muži 8,39 17,29 16,24 15,68 Systém 1- ženy 13,5 23,47 18,42 17,18 Systém 1- AVG 1,94 2,38 17,54 16,52 Systém 2 6, 8,64 5,32 5,11 Systém1-8kHz,25/1ms,preemfáze,16MFCC(+,+ ), log energie, energetický VAD, normalizace příznakových vektorů, 512 směsí Systém2-8kHz,25/1ms,19MFCC&c[](+ ),detektorřeči na bázi automatického přepisu(rozpoznávání), normalizace příznakových vektorů, adaptace akustických modelů, 512 směsí

Příklady systémů Současné systémy na bázi GMM a ANN/DNN Tianetal,Interspeech215-NIST21task EER2.91%-GMMUBM-248 EER 2.28%- DNN(English) EER 2.61%- DNN(Multiling) Garcia-Romero& McCree, Interspeech 215 EER 1.82% UBM-GMM- 8kHz, 25/1 ms, preemfáze, 2 MFCC+, short-time CVMN, 248 mixtures, UBM, PLDA speaker subspace EER1.23%-DNN-4-5hiddenlayers,příznaky9x4dim(2 MFCC+ ), LDA+MLLT Chen, Moreno, etal, Interspeech 215 EER 3.88-5.53% fully connected DNN- 48 mel filter-banks, 12 frame context, 4 x 256 hidden layers, softmax output function, 32 output speakers

Příklady systémů- Interspeech 216 The IBM Speaker Recognition System EER2.11%-GMM-UBM(i-vector)-MFCC-LDA EER1.49%-GMM-UBM(i-vector)-MFCC-NDA (NDA- Nearest-neighbour discriminant analysis) EER.59%- DNN-fMLLR-NDA(English) SITW-SpeakersInTheWild-core-core Speakers In The Wild Database(for speaker recognition) - 299 speakers, 8 different sessions per speaker - mismatch of acoustic conditions - core conditions(data from one person of interest) - training 618 seconds -test6-18sofspeechperfile Brno University of Technology: EER = 5.85% Quensland University of Technology, Australia: EER = 8.69%

Příklady systémů Vlasta Radová: Rozpoznávání řečníka. ZČU Plzeň. Prosinec 24. Komplexní systém využívající kombinované příznaky a víceúrovňové rozhodování - textově závislá verifikace EER.5%-vstupzmikrofonu(16kHz) EER2%-vstupztelefonnílinky(8kHz) - textově nezávislá verifikace EER2%-vstupzmikrofonu(16kHz) EER1%-vstupztelefonnílinky(8kHz)

Děkuji vám za pozornost!