A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

Podobné dokumenty
A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu II

1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15

Úloha: Verifikace osoby pomocí dynamického podpisu

Kybernetika a umělá inteligence, cvičení 10/11

Algoritmy a struktury neuropočítačů ASN P4. Vícevrstvé sítě dopředné a Elmanovy MLNN s učením zpětného šíření chyby

Klasifikace a rozpoznávání. Lineární klasifikátory

Klasifikace a rozpoznávání. Extrakce příznaků

Algoritmy a struktury neuropočítačů ASN - P11

Technická univerzita v Liberci

NG C Implementace plně rekurentní

A2M31RAT- Řečové aplikace v telekomunikacích. Aplikační úlohy rozpoznávání řeči a speciální techniky.

7 Další. úlohy analýzy řeči i a metody

Učící se klasifikátory obrazu v průmyslu

UČENÍ BEZ UČITELE. Václav Hlaváč

Algoritmy a struktury neuropočítačů ASN P9 SVM Support vector machines Support vector networks (Algoritmus podpůrných vektorů)

Přednáška 13 Redukce dimenzionality

ANALÝZA A KLASIFIKACE BIOMEDICÍNSKÝCH DAT. Institut biostatistiky a analýz

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Moderní systémy pro získávání znalostí z informací a dat

A6M33BIO- Biometrie. Biometrické metody založené na rozpoznávání hlasu I

Fakulta informačních technologií VUT Brno. Předmět: Srovnání klasifikátorů Autor : Jakub Mahdal Login: xmahda03 Datum:

Rozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).

SRE 03 - Statistické rozpoznávání

Strojové učení se zaměřením na vliv vstupních dat

Trénování sítě pomocí učení s učitelem

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Rozpoznávání v obraze

Klasifikace a rozpoznávání

Úloha - rozpoznávání číslic

Pokročil. Vyučující: Prof. Ing. Jan Nouza, CSc., ITE

Umělé neuronové sítě

Lineární klasifikátory

Vytěžování znalostí z dat

Neuronové sítě Ladislav Horký Karel Břinda

Statistická analýza dat

Testování neuronových sítí pro prostorovou interpolaci v softwaru GRASS GIS

KLASIFIKÁTOR MODULACÍ S VYUŽITÍM UMĚLÉ NEURONOVÉ SÍTĚ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Whale detection Brainstorming session. Jiří Dutkevič Lenka Kovářová Milan Le

Speciální struktury číslicových systémů ASN P12

J. Tatarinov, P. Pollák. Fakulta elektrotechnická. Abstrakt. otestován a zhodnocen na signálech z databáze CAR2CS. Detektor využívající

Vojtěch Franc Centrum strojového vnímání, Katedra kybernetiky, FEL ČVUT v Praze Eyedea Recognition s.r.o MLMU

Využití algoritmu DTW pro vyhodnocování vad řeči dětí postižených Landau-Kleffnerovým syndromem (LKS)

Modernizace a inovace výpočetní kapacity laboratoří ITE pro účely strojového učení. Jiří Málek

K možnostem krátkodobé předpovědi úrovně znečištění ovzduší statistickými metodami. Josef Keder

Preceptron přednáška ze dne

Algoritmy a struktury neuropočítačů ASN P3

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Fiala P., Karhan P., Ptáček J. Oddělení lékařské fyziky a radiační ochrany Fakultní nemocnice Olomouc

Deep learning v jazyku Python

Úvod do optimalizace, metody hladké optimalizace

Neparametrické odhady hustoty pravděpodobnosti

ANALÝZA SIGNÁLŮ SPOJITÉ AKUSTICKÉ EMISE

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

Rozpoznávání písmen. Jiří Šejnoha Rudolf Kadlec (c) 2005

Neuronové sítě v DPZ

Jasové transformace. Karel Horák. Rozvrh přednášky:

Instance based learning

MODELOVÁNÍ DYNAMIKY PROSODIE

Apriorní rozdělení. Jan Kracík.

Optimální rozdělující nadplocha 4. Support vector machine. Adaboost.

Rozdělování dat do trénovacích a testovacích množin

Vytěžování znalostí z dat

Implementace rozpoznávače řeči na bázi TANDEM architektury

Strojové učení Marta Vomlelová

Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA

Aplikace obrazové fúze pro hledání vad

Umělá inteligence a rozpoznávání

Analýza robustnosti moderních rozpoznávačů řeči na bázi TANDEM architektury

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

NEURONOVÉ SÍTĚ PŘI KLASIFIKACI MLUVČÍCH NEURAL NETWORKS IN SPEAKER CLASSIFICATION

Vojtěch Franc. Biometrie ZS Poděkování Janu Šochmanovi za slajdy vysvětlující AdaBoost

Aktivní detekce chyb

Analytické metody v motorsportu

Využití metod strojového učení v bioinformatice David Hoksza


Emergence chování robotických agentů: neuroevoluce

Bayesovská klasifikace

Umělá inteligence pro zpracování obrazu a zvuku

3. Vícevrstvé dopředné sítě

Semestrální práce: Rozpoznání hláskované řeči a převedení na text

Využití neuronové sítě pro identifikaci realného systému

1 0 0 u 22 u 23 l 31. l u11

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE

5. Umělé neuronové sítě. neuronové sítě. Umělé Ondřej Valenta, Václav Matoušek. 5-1 Umělá inteligence a rozpoznávání, LS 2015

Rosenblattův perceptron

Fakulta informačních technologíı. Extrakce obrazových příznaků 1 / 39

5. Umělé neuronové sítě. Neuronové sítě

Možnosti modelování lesní vegetační stupňovitosti pomocí geoinformačních analýz

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

Úvod do zpracování signálů

Klasifikace hudebních stylů

Implementace Bayesova kasifikátoru

Už bylo: Učení bez učitele (unsupervised learning) Kompetitivní modely

Transkript:

A6M33BIO- Biometrie Biometrické metody založené na rozpoznávání hlasu II Doc. Ing. Petr Pollák, CSc. 13. prosince 218-16:13

Obsah přednášky Úlohy automatického rozpoznávání řečníka Verifikace vs. identifikace Reprezentace řečníka a algoritmy klasifikace Časové funkce(dtw) Kódová kniha(vq) Statistický model(gmm, HMM) Moderní metody na bázi i-vektorů Rozpoznávání s umělými neuronovými sítěmi Příklady systémů verifikace

I. část Úlohy automatického rozpoznávání řečníka

Metody automatického rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

Řečové příznaky v úlohách rozpoznávání mluvčího SHRNUTÍ- Používané příznaky: MFCC- obecně používané- textově nezávislé (možnost vyhlazení variability mezi mluvčími) LPC kepstrální příznaky (variabilita mezi mluvčími, přímá souvislost formanty malá robustnost vůči šumu) parametry AR modelu (menší robustnost, Itakurova vzdálenost) kombinované vektory příznaků pro komplexnější rozhodování(spíše textově závislé úlohy) f o -základnífrekvence(charakteristikahlasu) formanty(přímá souvislost s délkou vokálního traktu)

Metody automatického rozpoznávání mluvčího Databáze mluvčích signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu SROVNÁNÍ

Úlohy rozpoznávání mluvčího Používaná řešení: expertní rozhodování(fonetici, lingvisté) automatizované vyhodnocování Základní úlohy automatického rozpoznávání mluvčího: 1 Verifikace mluvčího ověření předpokládané totožnosti mluvčího 2 Identifikace mluvčího Identifikace v uzavřené množině rozpoznání neznámého mluvčího z dané množiny mluvčích Identifikace v otevřené množině rozpoznání neznámého mluvčího z neomezené množiny mluvčích identifikace& verifikace

Verifikace mluvčího totožnost spk x Databáze mluvčích spk 1 spk 2 spkx spk N signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu výpočet podobnosti spk x -ANO/NE porovnání s prahem vzdálenost(pravděpodobnost) ověření předpokládané totožnosti mluvčího VÝSLEDEK = přijetí/ odmítnutí předpokl. totožnosti

Identifikace mluvčího(v uzavřené množině) Databáze mluvčích spk 1 spk 2 spk 3 signál(spk x ) akustická analýza příznaky vytvoření reprezentace hlasu spk N výpočet podobnosti spk x výběr min(max) vzdálenosti(pravděpodobnosti) spk 1... spk N rozpoznání neznámého mluvčího(největší podobnost hlasu) VÝSLEDEK = ID mluvčího/ skupiny

Identifikace mluvčího(v otevřené množině) Databáze mluvčích spk 1 spk 2 spk 3 signál(spk x ) akustická analýza verifikace porovnání sprahem spk x nebo ŽÁDNÝ ZNÁMÝ MLUVČÍ příznaky vytvoření reprezentace hlasu identifikace výběr min(max) spk N výpočet podobnosti vzdálenosti(pravděpodobnosti) spk 1... spk N rozpoznání neznámého mluvčího(největší podobnost hlasu) VÝSLEDEK = ID mluvčího/ skupiny nebo ZAMÍTNUTÍ

II. část Klasifikační metody v úloze rozpoznávání řečníka

Reprezentace hlasu řečníka a klasifikační techniky Reprezentace mluvčího na bázi vzorů Vzorová promluva či jiná časová funkce: míra = DTW vzdálenost mezi vzorovou a verifikovanou reprezentací Kódová kniha používaných parametrů: míra = střední vzdálenost příznaků od typických reprezentantů Reprezentace mluvčího na bázi statistických modelů GMM modely: modelují rozložení příznaků pro daného řečníka míra = věrohodnost spočítaná z emitovaných pravděpodobností HMM modely: modelují též průchod stavy, tj. časovou funkci i-vektory: modelování prostoru středních hodnot GMM modelů Klasifikace na bázi neuronových sítí přímá identifikace mluvčího výpočet pravděpodobnosti místo GMM

Klasifikační metody při rozpoznávání řečníka- časové funkce Rozpoznávání na základě časových funkcí vzorová promluva průběh energie- rytmizace promluvy průběh f o -intonacevpromluvě Vzdálenost mezi promluvami: normalizace délky promluvy- prosté prodloužení, zkrácení (problém pro různou rychlost v rámci promluvy) normalizovaná kumulovaná vzdálenost na bázi DTW dist s =dk (O,O s ) Vzdálenost mezi všemi segmenty(normovaná na délku): d i,j = 1 p (c k [i] c k [j]) 2 pro i =1,..., N; j =1,..., M NM k=1 Kumulovaná vzdálenost algoritmem dynamického programování: dk i,j =min (dk i 1,j +d i,j,dk i,j 1 +d i,j,dk i 1,j 1 +d i,j ) pro i =1,..., N; j =1,..., M

DTW- shrnující popis metody Referenční promluva délky N 1 2 j c[j] M 1 dk 1,1 2 dk dk i 1,j 1 i 1,j Rozpoznávaná promluva délky M i dk i,j 1 dk i,j c[i] N dk N,M Identifikaceřečníka hledáníminima dk N,M prorůznévzory Verifikaceřečníka srovnání dk N,M sprahem SHRNUTÍ: VÝHODY- jednoduchá koncepce, potřeba málo dat NEVÝHODA- konkrétní časová funkce textově závislá metoda

Klasifikace na bázi VQ Rozloženíkepstrařečníka-1&2&3&4 15 Cepstrum variation for speakers 1 & 2 & 3 & 4 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Srovnání obecného rozložení příznaků VQ- vektorová kvantizace - redukce počtu uchovávaných příznakových vektorů kvantování všech příznakových vektorů - rozložení příznaku je potom popsáno kódovou knihou Kódovákniha-c s VQ...konečnýpočetreprezentantůpopisující variabilitu příznaků - výpočet na bázi K-means algoritmu VAD (Voice Activity Detector) při výpočtu příznaků - vhodné pro odstranění neřečových segmentů(jednoduchý energetický detektor může být postačující pro kvalitní signál)

Variace kepstra a kódová kniha vybraného řečníka 15 Cepstrum variation and codebook for speaker 1 1 c[3] 5 5 1 8 6 4 2 2 4 6 8 1 c[2]

Kódováknihařečníka-1&2&3&4 15 Codebooks for speakers 1 & 2 & 3 & 4 1 5 c[3] 5 1 1 8 6 4 2 2 4 6 8 1 c[2]

Realizace klasifikace na bázi VQ Srovnání dvou mluvčích na bázi VQ - měření průměrné vzdálenosti aktuálních příznakových vektorů od uložených typických reprezentantů 14 Cepstrum variation of speaker 1 and codebook for speaker 1 14 Cepstrum variation speaker 1 and codebook for speaker 4 12 12 1 1 8 8 6 6 c[3] c[3] 4 4 2 2 2 2 4 4 1 5 5 1 15 c[2] 6 1 5 5 1 15 c[2] dist s =mean (cd (c i,argmin c VQ,s cd (c i,c s VQ )))

Statistiky výsledků pro 4 řečníky a 1 kódovou knihu 9 Distribution of VQ distances (BLUE - correct speaker) 8 7 Counts of appearance 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Computed VQ distances Kódovákniha-zdroj:12promluv(12x5s),cca2segmentů - velikost kódové knihy: 2 Identifikace-2promluv(2xcca1s),cca12segmentů Průměrné hodnoty vzdálenosti

Rozpoznávání řečníka na bázi GMM Hlavní idea - rozložení kepstra je popsáno statistickým modelem na bázi GMM M s p(o λ s ) = ci s N (Ó, µ s i,cs i ) i=1 - N (Ó, µ,c)... N-rozměrnágaussovskáfunkcedanávektorem středních hodnot µ a kovarianční maticí C - více směsí modeluje lépe variabilitu příznaků pro daného řečníka - typické počty směsí: 8-256(model řečníka), 512-248(univerzální model)- počty směsí zavisí na množství trénovacích dat

Rozložení prvků kódové knihy kepstra mluvčího A 15 Train data 5 1 c[2] 5 c[4] 5 5 1 1 2 c[1] 1 5 5 1 15 c[3] c[6] 4 2 2 4 6 4 2 2 4 6 c[5] c[8] 4 2 2 4 6 4 2 2 4 c[7]

Rozložení prvků kódové knihy kepstra mluvčího B 15 Train data 1 1 5 c[2] 5 c[4] 5 5 1 2 1 1 2 c[1] 1 5 5 1 c[3] c[6] 4 2 2 4 6 5 5 c[5] c[8] 4 2 2 4 6 4 2 2 4 6 c[7]

GMM model rozložení kepstra mluvčího A pdf(gmm c12,[x,y]) pdf(gmm c34,[x,y]).3.2.2.1.1 15 1 5 y 5 1 x 1 2 5 5 y 1 5 x 5 1 15 pdf(gmm c56,[x,y]) pdf(gmm c78,[x,y]).1.6.4.5.2 4 2 2 4 y 6 4 2 2 x 4 6 4 2 2 4 y 6 4 2 x 2 4

GMM model rozložení kepstra mluvčího B pdf(gmm c12,[x,y]) pdf(gmm c34,[x,y]).3.4.2.1.2 15 1 5 y 5 1 x 1 2 5 5 y 1 5 x 5 1 15 pdf(gmm c56,[x,y]) pdf(gmm c78,[x,y]).2.8.6.1.4.2 4 2 2 4 y 6 4 2 2 x 4 6 4 2 2 4 y 6 4 2 x 2 4

Klasifikace na bázi GMM Klasifikační míra: věrohodnostpříznakuprodanýmodel-p(o j λ s ) - hodnota věrohodnosti se počítá z celé promluvy O = (o 1,o 2,...,o n ) P(O λ s ) = N p(o j λ s ) - logaritmická věrohodnost- průměrování(sčítání) logaritmů emitovaných pravděpodobností pro všechny krátkodobé realizace (segmenty) a GMM model daného mluvčího (omezení možnosti podtečení) N logp(o λ s ) = logp(o j λ s ) j=1 j=1 - opět vhodné aplikovat detektor řečové aktivity

Statistikyvýsledkůpro4řečníkya1GMMmodel 1 Distribution of emitted log-probabilities (BLUE - correct speaker) 9 8 7 Counts of appearance 6 5 4 3 2 1-7 -6-5 -4-3 -2-1 Logarithm of emitted probabilities GMMmodel-zdroj:12promluv(12x5s),cca2segmentů -početváženýchsměsívgmm:6 Identifikace-2promluv(2xcca1s),cca12segmentů Průměrné hodnoty logaritmické pravděpodobnosti

Rozpoznávání mluvčího na bázi UBM-GMM Trénování GMM modelu pro jednotlivého mluvčího je problematické: - málo dat malá schopnost generalizace UBM-GMM modelování UBM- Universal Background Model - generalizující model popisující společný prostor parametrů pro všechny mluvčí GMM model mluvčího- získáný adaptací UBM - nejčastěji MAP(Maximum Aposteriori Probability) UBM-GMM systém = základ současných systémů

Rozhodování UBM-GMM verifikace Λ = log P(O λspk ) P(O λ UBM ) GMM spk řeč Features + + Decision Λ > =PŘIJATO Λ < =ZAMÍTNUTO UBM

Rozpoznávání mluvčích na bázi i-vektorů GMM-UBM: adaptace UBM GMM(pouze střední hodnoty) Mluvčího charakterizují hodnoty vektoru středních hodnot supervektor: vektor délky C F všech středních hodnot lze použít i pro reprezentaci nahrávek(různé délky) lze pak použít i jiné klasifikátory(svm) lze provést dekompozici na složku mluvčího resp. prostředí i-vektor: jednoduchý model na bázi faktorové analýzy(jfa) Ñ r,s = µ+ìü r,s základníidea-redukcedimenzesupervektoru Ñ r,s, CF D ivec µ- supervektor nezávislý na mluvčím a nahrávce Ì-transformačnímaticedimenze CF D ivec (odhad- iterativní EM algoritmus) Ü r,s -i-vektorpopisujícívariabilitumluvčíhočiprostředí (identity vector, itermediate vector)

Klasifikace na bázi i-vektorů i-vector: reprezentace mluvčích(trénování) či nahrávek(provoz) SVM klasifikátor s jádrovou funkcí na bázi kosinové vzdálenosti score = Ü T 1 Ü 2 Ü 1 Ü 2 verifikacehypotézy,žemluvčívnahrávce1jeshodnýs mluvčím v nahrávce 2 srovnání skóre s verifikačním prahem variabilita akustických podmínek není explicitně modelována potlačení variability akustických podmínek v prostoru i-vektorů LDA(nalezení podprostoru s optimální rozlišitelností tříd) WCCN(normalizace kovariance uvnitř tříd) PLDA-Ü r,s = µ+îý s + ÍÛ r,s +ǫ r,s (modelování variability akustických podmínek)

Zobecnění rozhodování v úlohách rozpoznávání řečníka identifikace spk =argmindist s pro s =1,2,...,L s spk =argmax s P(O λ s ) pro s =1,2,...,L verifikace dist s < dist thr...předpokládanáidentitapřijata dist s > dist thr...předpokládanáidentitazamítnuta P(O λ s ) > P thr...předpokládanáidentitapřijata P(O λ s ) < P thr...předpokládanáidentitazamítnuta

Systémy rozpoznávání řečníka s neuronovými sítěmi ANN/DNN- Artificial Neural Networks/Deep Neural Networks Použití: výpočet pravděpodobnosti místo GMM či přímo klasifikace VÝHODY: - možnost natrénování složitější funkce - možné rozšíření příznakového vektoru (řetězení příznaků s širším kontextem) - přesnější výsledky lze dosáhnout s DNN (vícevrstvé sítě s hlubokým učením- deep learning) - použití konvolučních sítí(cnn) umožňuje End-to-End processing (vstup: přímo signál/spektrogram, výstup: přímo ID mluvčího) NEVÝHODY: - obecně náročnější trénování(algoritmy hlubokého učení) - potřeba většího množství trénovacích dat (nastavení mnoha vnitřních parametrů sítě)

ANN, DNN- dopředný výpočet x 1 w 1 x 2 w 2 x 3 w 3 Σ z φ(z) y w n 1 x n 1 w n b Obecný výstup neuronu: y = φ ( x n b + ) m w i x i = φ(z) i=1 Sigmoidní přenosová fce ve skryté vrstvě: φ(z) = 1 1+e z Softmax přenosová fce ve výstupní vrstvě(pravděpod. C tříd, součet 1): e z k φ k (z) = p k = C j=1 ez k Lineární přenosová fce ve výstupní vrstvě- regresní síť(obecné mapování)

Trénování ANN, DNN Základní algoritmy trénování(učení) sítě: kritérium na bázi MSE(střední kvadr. chyba)- regresní síť kritérium na bázi CE(vzájemné entropie)- klasifikační síť algoritmus zpětného šíření chyby(gradient kritéria) dávkový odhad gradientu pro danou trénovací sadu gradientní stochastický algoritmus (odhad gradientu s každým vzorkem) minibatch training (odhad gradientu s menším souborem náhodně vybraných dat) Inicializace sítě před trénování: náhodná-okpro3-vrstvésítě,problémprodnn předtrénování pro DNN - RBM(Restricted Boltzmann Machines) - DPT- diskriminativní předtrénování

Klasifikace na bázi ANN/DNN Přímá klasifikace pomocí DNN(výpočet pravděpodobnosti) - DNN ve funkci odhadu aposteriorní pravděpodobnosti řečníka VSTUP: BF, kepstrum(mfcc), možný kontext několik oken SKRYTÉ VRSTVY: 4-1 VÝSTUP: Softmax(aposteriors) VARIANTA- DNN síť s bottleneck vrstvou(zúžení = komprese)

CNN(Convolution Networks): End-to-End Recognition Principiální schéma CNN: Nejčastější aplikace CNN ve zpracování obrázků Aplikace pro řeč: vstupem je spektrogram(obrázek) či signál End-to-End Recognition (tj. bez výpočtu příznaků)

CNN Siamese Speaker Verification

III. část Příklady systémů rozpoznávání řečníka

Hodnotící kritéria při verifikaci mluvčího- Míra stejné chyby 9 Distribution of VQ distances (BLUE - correct speaker) 8 7 Counts of appearance 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Computed VQ distances TA-Trueacceptance FA-Falseacceptance: R FA = N FA N podv TR-Truerejection FR-Falserejection R FR = N FR N spref EER-EqualErrorRate Míra stejné chyby: EER = R FR (P thr ) = R FA (P thr )

Příklady systémů J. R. Campbell: Speaker Recognition. Department of Defense Fort Meade, MD, at http://scgwww.epfl.ch přehled různých systémů verifikace Autor Příznaky Metoda Text Vstup Error Atal 74 kepstr. Pattern depend. LAB 2%(1s) Fururi 81 nor. kepstr. Pattern depend. TEL,2%(3s) Doddington 85 FB DTW depend. LAB,8%(6s) Tishby 91 kepstr. HMM 1 digits TEL 2,8%(1,5s),8%(3,5s) Reynolds 96 MFCC+ GMM indep. TEL 11%(3s) match. 6%(1s) 3%(3s) Reynolds 96 MFCC+ GMM indep. TEL 16%(3s) mism. 8%(1s) 5%(3s)

Příklady systémů NIST 21- Speaker verification evaluations. výsledky verifikace pro rozdílné evaluační podmínky GMM-UBM systémy(ubm- Universal Background Model) EER-EqualErrorRate mic-mic mic-mic2 mic-tel tel-tel Systém 1- muži 8,39 17,29 16,24 15,68 Systém 1- ženy 13,5 23,47 18,42 17,18 Systém 1- AVG 1,94 2,38 17,54 16,52 Systém 2 6, 8,64 5,32 5,11 Systém1-8kHz,25/1ms,preemfáze,16MFCC(+,+ ), log energie, energetický VAD, normalizace příznakových vektorů, 512 směsí Systém2-8kHz,25/1ms,19MFCC&c[](+ ),detektorřeči na bázi automatického přepisu(rozpoznávání), normalizace příznakových vektorů, adaptace akustických modelů, 512 směsí

Příklady systémů Současné systémy na bázi GMM a ANN/DNN Tianetal,Interspeech215-NIST21task EER2.91%-GMMUBM-248 EER 2.28%- DNN(English) EER 2.61%- DNN(Multiling) Garcia-Romero& McCree, Interspeech 215 EER 1.82% UBM-GMM- 8kHz, 25/1 ms, preemfáze, 2 MFCC+, short-time CVMN, 248 mixtures, UBM, PLDA speaker subspace EER1.23%-DNN-4-5hiddenlayers,příznaky9x4dim(2 MFCC+ ), LDA+MLLT Chen, Moreno, etal, Interspeech 215 EER 3.88-5.53% fully connected DNN- 48 mel filter-banks, 12 frame context, 4 x 256 hidden layers, softmax output function, 32 output speakers

Příklady systémů- Interspeech 216 The IBM Speaker Recognition System EER2.11%-GMM-UBM(i-vector)-MFCC-LDA EER1.49%-GMM-UBM(i-vector)-MFCC-NDA (NDA- Nearest-neighbour discriminant analysis) EER.59%- DNN-fMLLR-NDA(English) SITW-SpeakersInTheWild-core-core Speakers In The Wild Database(for speaker recognition) - 299 speakers, 8 different sessions per speaker - mismatch of acoustic conditions - core conditions(data from one person of interest) - training 618 seconds -test6-18sofspeechperfile Brno University of Technology: EER = 5.85% Quensland University of Technology, Australia: EER = 8.69%

Příklady systémů- Interspeech 218 Muckenhirn, Magimai-Doss, Marcel: On Learning Vocal Tract System Related Speaker Discriminative Information from Raw Signal Using CNNs EER 3.5%- GMM-UBM(standard baseline approach) EER 2.4%- ISV(inter-session variability) EER 2.82/5.87%- i-vector, cosine distance/plda EER 5.%- JFA(Joint Factor Analysis) EER.8/1.15%-CNN(kW1=3/kW1=3) EER.75%-Fusionof2CNNsystems(averagescore)

Příklady systémů Vlasta Radová: Rozpoznávání řečníka. ZČU Plzeň. Prosinec 24. Komplexní systém využívající kombinované příznaky a víceúrovňové rozhodování - textově závislá verifikace EER.5%-vstupzmikrofonu(16kHz) EER2%-vstupztelefonnílinky(8kHz) - textově nezávislá verifikace EER2%-vstupzmikrofonu(16kHz) EER1%-vstupztelefonnílinky(8kHz)

Děkuji vám za pozornost!