Prohlášení. V Plzni dne podpis diplomanta

Transkript

1 Prohlášení Předkládám tímto k posouzení a následné obhajobě diplomovou práci zpracovanou na závěr studia na Fakultě aplikovaných věd Západočeské univerzity v Plzni. Prohlašuji, že jsem zadanou diplomovou práci zpracoval zcela samostatně, pouze s použitím literatury a pramenů, jejichž úplný seznam je její součástí a za odborného vedení vedoucího diplomové práce. V Plzni dne podpis diplomanta

2 Anotace Tato diplomová práce se zabývá vyšetřováním relativní účinnosti různých metod normalizace skóre v systémech verifikace řečníka podle hlasu. Rozpoznávání podle hlasu patří mezi tzv. biometrické identifikační techniky. Na úlohu rozpoznávání působí množství poruch. Pomocí normalizačních metod se je snažíme odstranit. Experimenty byly založeny na různě velkých korpusech dat, mimo jiné korpus Timit a Yoho. Byly testovány off-line i on-line metody, metody založené na Bayesovském způsobu i pomocí standardizace rozložení pravděpodobnosti skóre. K porovnání se používal model pozadí. Jako nejlepší normalizace vyšla metoda UCN (neomezený skupinový model). Chyba EER při normalizaci modelem pozadí byla redukována použitím normalizační metody UCN z původních 0,63% na 0,1%. Klíčová slova: Biometrické charakteristiky, normalizace skóre, normalizace Bayesovským způsobem, normalizace standardizací rozložení pravděpodobnosti skóre, MFCC, GMM, CN, UCN, UCEN, CIC, T-normalitace, Z-normalizace, model pozadí, oap Annotation This diploma paper presents an investigation into relative effectiveness of various score normalization methods in speaker verification system. peaker verification is so-called biometrical identification methods. For this task is affected much faults. It is possible to minimalize these faults with the aid of score normalization. The experimental investigations are based on the use of various speech materials, e.g. Timit database or Yoho database. For tests of relative effectiveness were used off-line and on-line methods, Bayesian solution and tandardizing a score distribution. For comparing improvement of effectiveness was used a BackGround Model (BGM). The best normalization was found Unconstraint Cohort Normalization (UCN). Equal Error Rate (EER) when using BGM was reduced from 0,63% to 0,1% at using UCN. Key words: Biometrical characteristics, score normalization, normalization with Bayesian solution, normalization with tandardizing a score distribution, MFCC, GMM, CN, UCN, UCEN, CIC, T- norm, Z-norm, Background Model, oap

3 Západočeská Univerzita Fakulta Aplikovaných Věd Katedra Kybernetiky Metody normalizace skóre v úloze verifikace řečníka Diplomová práce Zbyněk Zajíc květen 2006

4 Obsah 1. Úvod Cíle diplomové práce Obsah jednotlivých kapitol 3 2. Úlohy v problému rozpoznávání řečníka Biometrické metody verifikace Rozdělení úlohy rozpoznávání Postup rozpoznávání Důvody nutnosti normalizace 6 3. ystém pro rozpoznání řečníka Extrakce příznaků Melovské kepstrální koeficienty (MFCC) Reprezentace modelu řečníka měs Gaussovských rozložení (GMM) Úloha rozpoznávání Verifikace Identifikace v uzavřené množině Identifikace v otevřené množině Normalizace skóre Bayesovský způsob větový model kupinový model Neomezený skupinový model kupinový model s extrapolací Neomezený skupinový model s extrapolací Robustní neomezený skupinový model s extrapolací Virtuální řečník tandardizace rozložení pravděpodobnosti skóre Zero normalizace (Z-norm) Testová normalizace (T-norm) Výběr skupiny Kritéria pro srovnání řečníků Metody výběru skupiny Druhy chyb ve verifikaci řečníka Programové řešení tručný popis oap Popis vytvořeného verifikačního modulu Verify_BGM Vstupní/výstupní soubory verifikačního modulu Popis programů pro vytvoření kohorty ort_loglike.exe ort_models.exe Výpočet EER CompEER_KW.exe

5 6. Experimenty Testované korpusy dat UWB-RobustVerify100CZ DoD Timit Yoho Použitá parametrizace Použité modelování Výsledky experimentů UWB-RobustVerify100CZ DoD Timit Yoho Časová náročnost algoritmů Závěr 40 eznam literatury 41 Přílohy

6 1. Úvod Verifikace řečníka je jedna z úloh v problému rozpoznávání řečníka podle hlasu. Jde o jednoznačné rozhodnutí o identitě člověka, v naší úloze označovaného za řečníka. Rozpoznávání podle hlasu patří mezi tzv. biometrické identifikační techniky [3,4]. Jsou to identifikační techniky založené na určitých vnitřních charakteristikách osoby (např. hlas, otisky prstů, geometrie ruky apod.). V úloze se předpokládá, že tyto vnitřní charakteristiky jsou pro každého jedinečné a nemohou se vyskytovat u nikoho jiného. Tím lze podle nich jednoznačně identifikovat danou osobu. ystémy pro rozpoznávání osoby podle biometrických charakteristik mohou využít více různých vnitřních rysů člověka. Pokud je však dostupný pouze hlas rozpoznávané osoby (řečníka), musí se systém spolehnout při identifikaci pouze na vyslovenou promluvu. Takové úkoly jsou řešeny systémem rozpoznání řečníka dle hlasu. Pro systémy provádějící identifikaci podle hlasu řečníka je nutná jejich automatická činnost. V praktických aplikacích totiž časová náročnost takové úlohy závisí na velikosti množiny rozpoznávaných řečníků (dochází k velkému množství porovnávání jednotlivých dat mezi sebou). Požadavkem je práce systému v reálném čase. V průběhu rozpoznávání můžeme narazit na řadu problémů, které můžou znesnadnit řešení této úlohy. Nejobvyklejší jsou problémy a poruchy vznikající během nahrávání nebo vlivem komunikačního kanálu. Díky tomu se mohou lišit promluvy jednoho řečníka nahrané v různých časových okamžicích. Minimalizovat tyto poruchy lze mimo jiné i pomocí normalizace skóre, jíž se zabývá tato práce Cíle diplomové práce Cílem této diplomové práce je implementovat různé metody normalizace skóre v úloze verifikace řečníka podle hlasu. Je nutné otestovat tyto metody na různých verifikačních úlohách, vyhodnotit jejich přínos, a porovnat jejich účinnost mezi sebou Obsah jednotlivých kapitol Možné přístupy k úloze rozpoznávání řečníka jsou popsány v kapitole 2. Kapitola 3 rozebírá systém pro rozpoznávání řečníka a přichází s dekompozicí tohoto systému na tři podsystémy: extrakce příznaků, tvorba modelu a vlastní rozpoznávání. Kapitola 4 obsahuje rozbor jednotlivých metod normalizace pro zvýšení účinnosti v úloze verifikace. Kapitola 5 se věnuje popisu programového řešení zadaného problému, rozebírá jednotlivé programové moduly. Kapitola 6 se zabývá testovanými experimenty, popisuje použité korpusy dat a dává zhodnocení získaných výsledků

7 2. Úlohy v problému rozpoznávání řečníka 2.1. Biometrické metody verifikace Při verifikaci identity osoby jde o potvrzení nebo vyvrácení prohlašované identity. Biometrie je oblast měření zkoumané fyziologické charakteristiky osob (např. otisky prstů, hlas, sítnice oka,podpis, ). Biometricá verifikace (autorizace) je tedy úloha potvrzení nebo vyvrácení proklamované identity osoby na základě jejích fyziologických charakteristik. Postup biometrické verifikace je přibližně stejný u všech metod, nejprve je nutné uživatele zaregistrovat, tedy načíst poprvé jeho data (často několikrát, data posléze zprůměrována). Z dat jsou vybrány jen důležité informace obsahující identitu uživatele. Při verifikaci uživatel zadá vzorek své biometrické charakteristiky a systém jej porovná s uloženou informací a vydá patřičné rozhodnutí (ano/ne). Výhody biometrik jsou nemalé, hlavním důvodem jejich používání je silná obrana proti zneužití. Biometrické charakteristiky jsou pro každou osobu jedinečné, obvykle nepřenositelné (spolu s ověřením aktuálnosti vzorku, např. přečtení aktuální hlášky systému). Je možné také tyto metody mezi sebou vzájemně kombinovat pro zvýšení spolehlivosti. Uživatel se nemusí obávat ztráty nebo odcizení. Nevýhodou je technická i finanční náročnost a nutnost zabezpečení chybovosti (přijmutí nesprávného, zamítnutí správného uživatele). Následující tabulky popisují známé biometrické verifikační metody a jejich využití. Jsou převzaté z článku Ing. Rita Pužmanová, Cc : Biometrické systémy v praxi [3] typ biometrie výhody Nevýhody přesnost Objem dat otisk prstu stálá a přesná, zavedená logické spojení 1: B technologie odebírání otisků s kriminalitou geometrie ruky třední přesnost (roste s 3D snímáním) fyzický kontakt se snímačem 1: B sítnice vysoká přesnost,mění se přiblížit se k snímači a 1: B duhovka pouze nemocí či úrazem vysoká přesnost; žádný fyzický kontakt, brýle nevadí nechat si svítit do oka vysoká cena systému vhodné pro vysoce bezpečné zóny obličejové znaky přijatelné pro uživatele žádný fyzický kontakt DNA vysoká přesnost drahé; lze systém obelhat cizím vzorkem tvar ucha netřeba fyzický kontakt zatím se zkoumá rozprostření žil na zápěstí charakteristiky hlasu podpisové charakteristiky charakteristiky psaní na klávesnici fyzický kontakt přijatelné pro uživatele; vhodné i pro vzdálenou autentizaci po telefonu naprosto přijatelné pro uživatele přijatelné pro uživatele,cenově dostupné 1: B nepříliš přesná metoda 1 KB (100 B po kompresi) přijatelnost jako u snímání otisků prstů méně přesné vliv prostředí a stavu uživatele méně přesné,může mít vliv únava nebo stres méně přesné - může mít vliv únava nebo stres Tabulka 1: Porovnání biometrických systémů 1:50 1:50-4 -

8 Obrázek 1. Podíl jednotlivých technologií biometrických systémů na trhu otisk prstu obličej dlaň duhovka podíl chybných 0,2 36 % 3,3 70 % 0 5 % 1,9 6 % odmítnutí podíl chybných přijetí 0 8 % 0,3 5 % 0 2,1 % pod 1% doba transakce 9 19 s 10 s 6 10 s 12 s velikost šablony B B 9 B 512 B počet hlavních výrobců náklady na zařízení Nízké střední střední Vysoké faktory ovlivňující výkon špinavé, suché zranění ruky horké prsty artritida, pocení různá osvětlení, orientace obličeje, změny ve vzhledu Tabulka 2: Porovnání hlavních biometrik (podle General Accounting Office UA) špatné vidění odrazy 2.2. Rozdělení úlohy rozpoznávání Existují dvě základní úlohy rozpoznávání řečníka a to identifikace a verifikace [4,2]. V úloze identifikace řečníka hledáme k dané promluvě nejpravděpodobnější model řečníka z množiny referenčních řečníků. V úloze verifikace pak ověřujeme, zda daná promluva náleží apriorně danému řečníkovi. Promluvou rozumíme nahrávku hlasu řečníka přicházející na vstup systému. Model je skupina parametrů charakterizující daného řečníka a je již uložen v systému. Dále lze úlohu identifikace rozdělit podle velikosti množiny řečníků: Identifikace v uzavřené množině - předpokládáme, že vstupní promluva patří někomu ze skupiny referenčních řečníků. Identifikace v otevřené množině - vstupní promluva neznámého řečníka nikomu ze skupiny referenčních řečníků patřit nemusí. Tento problém lze chápat jako spojení identifikace v uzavřené množině následované verifikací. Další rozdělení úlohy rozpoznávání je v závislosti na obsahu vyslovované promluvy: Textově nezávislé rozpoznávání testovaná promluva neodpovídá trénovací promluvě. Řečník v tomto případě není nucen opakovat stejnou promluvu jako při trénovací fázi (je míněna shoda v obsahu promluv). Testovací promluva může obsahovat neomezený text, popřípadě jen určité události, které se testují (např. hlásky slova,číslice). Textově závislé rozpoznávání zde je vyžadováno vyslovení stejné promluvy při testování, jako při trénovací fázi

9 2.3. Postup rozpoznávání [1] Rozpoznávání je rozděleno na dvě části (viz obr.2). Trénovací fáze, kdy jsou zpracovány referenční promluvy od každého řečníka a uloženy jejich referenční modely. Následuje testovací fáze, kdy je zpracována testovaná promluva. amotné rozpoznání může být provedeno na základě shody testované promluvy s referenčním modelem, nebo srovnáním dvou modelů. Obrázek 2. chéma testovací a trénovací fáze 2.4. Důvody nutnosti normalizace [4] Zpracovávaný řečový signál v sobě nese velké množství informace, mimo jiné individualitu řečníka (to nás zajímá, považujeme za konstantní), fonetický obsah vyslovené promluvy, okamžité pocity řečníka, jeho zdravotní stav, šum z okolí. Při řešení problému, zda daná promluva patří některému z referenčních řečníků, nebo zda pochází od neznámého řečníka, se velmi projevují nežádoucí změny a poruchy v nahrané promluvě řečníka. Tyto změny mohou mít různé příčiny: Poruchy pocházející z okolního prostředí, které se projevují jako aditivní šum na pozadí nahrávky. Poruchy a změny komunikačního kanálu, které se projevují během nahrávání. Změny stavu hlasu řečníka. To vše způsobuje neshodu mezi testovanou promluvou a dříve nahranou trénovací promluvou. V praxi je nemožné shromáždit přesné informace o existenci a velikosti rušivých jevů

10 Zatímco se změnami stavu hlasového ústrojí se rozpoznávací systémy vyrovnávají velmi těžko, chyby způsobené aditivním šumem nebo změnou komunikačního kanálu, lze minimalizovat. Jednou z možností odstranění takového rušení je i předzpracování nahrané promluvy. Při určování podobnosti testované promluvy s referenčním řečníkem z dané množiny řečníků se působení těchto poruch projeví stejnou měrou u všech referenčních řečníků. Tedy jejich relativní vzdálenost (ve stavovém prostoru řečníků) od promluvy zůstává stejná. V těchto případech nejefektivnější cestou jak vyřešit tento problém je normalizace

11 3. ystém pro rozpoznání řečníka ystémy rozpoznávání řečníka se skládají ze tří základních subsystémů [1,2], které na sebe vzájemně navazují. Jde o blok parametrizace a předzpracování signálu (promluvy), následuje blok pro tvorbu modelu a poslední subsystém tvoří vlastní rozpoznávání (viz obr.3). Obrázek 3. vázanost dílčích modulů systému rozpoznávání 3.1. Extrakce příznaků Jde o problém, jakým způsobem číselně popsat příchozí promluvu (v čase spojitý řečový signál). Nejprve je potřeba upravit signál (fáze předzpracování), tedy potlačit šum, vliv přenosového kanálu atd. Následně se nahrávka popíše množinou vektorů příznaků, které nesou informaci o identitě řečníka. Tato fáze je nazývána parametrizací. Vstupní akustický signál můžeme rozdělit na mikrosegmenty s délkou cca 10-20ms, protože v tomto krátkém okamžiku považujeme parametry hlasového ústrojí za stacionární. Tyto krátké časové okamžiky popíšeme číselným vektorem příznaků pomocí tzv. krátkodobých charakteristik, jako jsou např. Melovské kepstrální koeficienty (Mel-Frequency Cepstral Coefficients) [5,9,10] nebo Perceptivní lineární prediktivní analýza (Perceptive Lineal Prediktive Analyze) [5]. Blíže popíšeme metodu MFCC, protože je použita v našem systému Melovské kepstrální koeficienty (MFCC) Metoda MFCC je založena na respektování určitých vlastností vnímání zvuku člověkem. Jde především o respektování kritických pásem slyšení a vlivu subjektivního vnímání výšky tónů. MFCC využívá banky filtrů nelineárně rozmístěných ve frekvenční ose. Kritická pásma ovlivňují tvar filtrů (především šířku jednotlivých filtrů). ubjektivní vnímání šířky tónů ovlivňuje rozmístění jednotlivých filtrů ve frekvenční ose. Rozmístění filtrů Poloha filtrů ve frekvenční ose [Hz] je nelineární, je závislá na subjektivním vnímání výšky tónu, jde tedy o nelineární rozmístění (viz obr.4). Různé experimenty dokázaly, že člověk vnímá výšku zvuku subjektivně a tato hodnota neodpovídá její fyzikální hodnotě udané v jednotkách Hz. Proto byla zavedena tzv. subjektivní výška zvuku udaná v jednotce mel. Její závislost na skutečné hodnotě v Hz můžeme matematicky zapsat ve tvaru f Hz f mel = 2595log10(1 + ), (1) 700 kde: f mel subjektivní výška měřená v jednotce mel f Hz frekvence měřená v jednotce Hz - 8 -

12 Tvar filtrů Melovský filtr má trojúhelníkový tvar. Lze jej popsat vztahem 0 pro f m < bm, i 1 fm bm, i 1 pro bm, i 1 f m < bm, i bm, i bm, i 1 Φ( fm, i) =, (2) fm bm, i+ 1 pro bm, i fm < bm, i+ 1 bm, i bm, i+ 1 0 pro bm, i+ 1 fm kde: Φ( f m, i) funkční hodnota i-tého filtru ve frekvenci fmel M* počet filtrů je dáno vztahem b 0, b = b +, pro < i M b m,i m, 0 = m, i m, i 1 m 0 /( * m = B mw M + 1) (první filtr začíná v 0 mel a poslední končí v bodě B mw mel, viz obr.3.) * Obrázek 4. Rozmístění melovských filtrů Počet filtrů je doporučeno volit v závislosti na počtu kritických pásem. Při vzorkovací frekvenci F v [Hz] je šířka přenášeného pásma B w [Hz] podle hanonova vzorkovacího teorému rovna F v /2. Postup výpočtu MFCC (viz obr.5) Vstupní rozmluvu (akustický signál) rozdělíme na mikrosegmenty s délkou cca 30ms, protože v tomto krátkém okamžiku považujeme parametry hlasového ústrojí za stacionární. Na signál aplikujeme Hammingovo okénko (provedeme konvoluci signálu s okénkem pro zlepšení vlastností ve spektrální oblasti). Vypočteme krátkodobé výkonové spektrum P(f) pomocí diskrétní Fouriérovy transformace (DTF). Výsledek filtrujeme bankou trojúhelníkových filtrů, jejichž jednotlivé odezvy lze vyjádřit vztahem - 9 -

13 y m = bi + 1 f = bi 1 P( f Hz ) Φ( f Hz, i), i = 1,2,..., M *, (3) kde: M* počet filtrů f Hz frekvence v Hz Aplikujeme kepstrální přístup, vypočteme logaritmy energií jednotlivých filtrů y m (i). Posledním krokem je zpětná Fouriérova transformace. Vzhledem k tomu, že jsme vycházeli z výkonového spektra P(f), které je pouze reálné a symetrické, zredukuje se výpočet zpětné Fouriérovy transformace na zpětnou cosinovu transformaci (tedy diskrétní verzi, DCT). M * π cm ( j) = y m ( i) cos ( i 0,5), pro i = 0,1,..., N i 1 M * =, (4) kde: y m ( i) = log10 ym ( i) prvek kepstrální analýzy M* počet melovskách filtrů N počet melovských kepstrálních koeficientů <M* Obrázek 5. Postup výpočtu melovských kepstrálních koeficientů

14 3.2. Reprezentace modelu řečníka Jestliže již máme k jednomu danému řečníkovi vytvořené n-dimenzionální vektory příznaků z trénovací fáze (obvykle je jich více, aby lépe popisovaly řečníka), můžeme z nich vytvořit jeho model. Řečníkovy vektory se vyskytují na určitém místě v n-dimenzionálním prostoru. Model by měl popisovat právě toto charakteristické rozložení vektorů příznaků. Jednou z možností, jak vytvořit model, je použít Gaussovské rozložení pravděpodobnosti pro popis modelu. Tato metoda je pak nazývána měs Gaussovských rozložení (Gaussian Mixture Model) [5,11] měs Gaussovských rozložení (GMM) Několik posledních let je směs Gaussovských rozložení hlavním způsobem modelování řečníka pro systémy rozpoznávání podle hlasu. GMM přístup předpokládá, že pravděpodobnostní rozložení vektorů příznaků může být modelováno váženou sumou hustot pravděpodobnosti a dáno rovnicí M p( x / λ) = α N ( x, µ, C ) i= 1 i i i i, (5) kde: x n-dimensionální vstupní vektor α i váha i-té složku, platí 0 α 1 a zároveň = 1 λ model řečníka µi střední hodnota, µ R C i i n i M α i i= 1 kovarianční matice řádu nxn, pozitivně definitní (obvykle pouze diagonální pro zrychlení výpočtů) N x i, µ, C ) hustota Gaussovského rozložení pravděpodobnosti, která je ( i i jednoznačně dána střední hodnotou µ i a kovarianční maticí C i, tedy platí: 1 1 T 1 N ( x, µ, C ) = exp ( x µ ) C ( x µ ). (6) i i i ( ) i i i 2 2 p π C i Výsledná hustota pravděpodobnosti p ( x / λ) je tedy dána váženou lineární kombinací M Gaussovských rozložení N x i, µ, C ), jak ukazuje obr.6. Všechny parametry rozdělení jsou tedy ( i i = α µ i, C i reprezentovány modelem {, }, pro i = 1 M λ i,...,

15 Obrázek 6. měs Gaussovských rozložení pro M=3 Odhady parametrů λ jsou prováděny pomocí iterativního EM-algoritmu (Expectation- Maximalization) [23]

16 3.3. Úloha rozpoznávání [1,2] hoda testovacích dat (ať jsou reprezentovány přímo nebo pomocí modelu) s referenčními je dána veličinou označovanou jako skóre (jde o míru podobnosti, je také nazývána anglicky likelihood). Označíme skóre referenčního modelu λs pro promluvu O jako p(o/ λs). Způsob výpočtu skóre je závislý na typu modelu, popř. na typu obou porovnávaných modelů. Hodnota skóre je pak zpracována dle typu řešené úlohy. Nejpoužívanější skóre pro systémy založené na stochastických modelech je podmíněná pravděpodobnost, že promluva O pochází od řečníka λs Verifikace V systémech verifikace je rozhodnutí přijmout nebo odmítnout proklamovanou identitu s založeno na srovnání skóre se stanoveným prahem T. p ( O / λ ) s T < T O s O s, (7) kde: O testovaná promluva (vektor příznaků) s hledaný řečník λs referenční model proklamovaného řečníka p(o/ λs) skóre referenčního modelu λs pro testovou promluvu O T předem určený práh rozhodování Posuzujeme zde vlastně to, zda je velikost skóre testované promluvy O s referenčním modelem proklamovaného řečníka λs dostatečně vysoká Identifikace v uzavřené množině Předpokládejme, že máme N řečníků, kteří poskytli trénovací promluvu a jejich statické modelové popisy jsou λ 1, λ 2. λ N. Pokud O označíme vektor příznaků extrahovaný z testované promluvy, pak identifikace v uzavřené množině může proběhnout uvedeným způsobem: s * 1 n N { p( O / λ )} = arg max, (8) kde: O testovaná promluva (vektor příznaků) s * hledaný řečník λn referenční model řečníka p(o/ λn) skóre referenčního modelu λn pro testovou promluvu O Řečník s * je tedy autorem testované promluvy. Jde vlastně o úlohu přiřadit testovanou promluvu jednomu z nám známých řečníků, a to tomu, který vykazuje minimální rozdíl mezi referenčním modelem a testovanou promluvou (maximální skóre). n

17 Identifikace v otevřené množině Tato úloha kombinuje úlohu identifikace i verifikace. Nejprve je vybrán řečník s *, jehož model vykazuje nejvyšší skóre pro testovanou promluvu O. Poté je ověřeno, zda je autorem skutečně řečník s * nebo se jedná o promluvu od řečníka mimo referenční skupinu. Předpokládejme opět N řečníků v referenční skupině a jejich statické modelové popisy jsou λ 1, λ 2. λ N. O označí vektor příznaků extrahovaný z testované promluvy. Pak identifikace v otevřené množině může proběhnout uvedeným způsobem: { p( O / λ )} T O max n 1 n N max{ p( O / λn )} 1 n N > T O U, (9) kde: O testovaná promluva (vektor příznaků) λn referenční model řečníka p(o/ λn) skóre referenčního modelu λn pro testovou promluvu O T předem určený práh rozhodování U představuje neznámého řečníka (není v referenční skupině řečníků) Promluva O je tedy přiřazena modelu řečníka, který získal maximální skóre ze všech řečníků v systému, jen pokud je velikost maximálního skóre větší než práh T. Pokud je skóre menší než práh T, řekneme, že promluva pochází od neznámého řečníka (zde označeného např. U)

18 4. Normalizace skóre Absolutní hodnota skóre je velmi závislá na podmínkách nahrávání, promlouvaném textu apod. Tato závislost způsobuje obtížné stanovení hodnoty prahu při verifikaci. Pro překonání tohoto problému lze použít normalizační techniky. Normalizaci lze provádět v zásadě dvěma způsoby, Bayesovským způsobem [6] nebo lze standardizovat rozložení pravděpodobnosti skóre [6,7] Bayesovský způsob Na úlohu se díváme z pravděpodobnostního hlediska. Porovnáváme pravděpodobnosti vyslovení testované promluvy O řečníkem λs s pravděpodobností vyslovení jiným řečníkem λu. Řešíme tedy rovnici: p ( λ O) > p( λu / O) O λ / (10) jinak O λ. Aplikací Bayesova teorému na výše uvedenou rovnici dostáváme vztah: U p p ( O / λ ) P( λu ) > O λ ( O / λ ) P( λ ) Ü jinak O λ, U (11) kde: ( O / λ ) ( O / λ ) p p P( λ ) P( ) λ = Ü U = T l( O) verifikační skóre vypočítané v prvním stupni, (12) apriori určený práh pro ověření (druhý stupeň). (13) Hodnotu prahu je možné určit apriorně např. na základě odhadu poměru počtu oprávněných a neoprávněných osob, verifikační skóre je nutné spočítat. Častěji užívaný tvar k vyjádření verifikačního skóre v praxi je L O) = log p( O / λ ) log p( O / λ ). (14) ( U Zavedení logaritmu je motivováno faktem, že operace sčítání (resp. odečítání) je numericky mnohem snadnější než operace násobení (resp. dělení). Zdůvodnění zavedení normalizačního faktoru logp(o/λu) je následné, pokud se změní podmínky nahrávání, posune se rozložení skóre logp(o/λs). Avšak rozložení skóre logp(o/λu) se posune stejným způsobem. Pravděpodobnost logp(o/λu) ve výpočtu verifikačního skóre tedy reprezentuje dynamický práh, který je citlivý na změny v O v každém pokusu. Výpočet logp(o/λs) není problém, protože je znám model referenčního řečníka λs. Jak ale určit model λu, který reprezentuje neznámého řečníka? Tento problém je řešen vhodnou aproximací modelu λu

19 Motivací pro zavedení normalizačního faktoru p(o/λs) je fakt, že změní-li se podmínky při nahrávání testované promluvy vůči podmínkám při nahrávání trénovaní promluvy, změní se stejným způsobem rozložení skóre logp(o/λs) i rozložení skóre logp(o/λu). To ale znamená, že rozdíl mezi nimi zůstane zachován (viz obr.7). Obrázek 7. Bayessovský přístup (změna nahrávacích podmínek) větový model λ WN [6] Jednou z možností jak aproximovat neznámý model λu je nahradit jej tzv. světovým modelem (někdy je také označen jako model okolí, anglicky BackGround Model). Je generovaný použitím promluv z velké populace řečníků. V rovnici tedy nahradíme: p O / λ ) = p( O / λ ). (15) ( U WN kupinový model λ CN [6] V této metodě je každý zapsaný mluvčí přidružen se skupinou mluvčích 1 K { λ,..., λ } C =, jejichž modely jsou nejvíce konkurenční (jsou blízko referenčního řečníka λs v prostoru mluvčích). Výběr probíhá před vlastním testováním, skupina je vybrána off-line. Výpočet pak probíhá tímto způsobem: K 1 k log p( O / λ U ) = log p( O / λcn ) = log p( O / λ ) (16) K k = 1 nebo alternativa K 1 k log p( O / λ U ) = log p( O / λcn ) = log p( O / λ ). (17) K k= 1 Předpokládáme, že za referenčního řečníka se bude vydávat někdo s podobným hlasem. Řečník s velmi odlišným hlasem má daleko jak k modelu λ tak i k modelu λ CN (pak je malý rozdíl p( O / λ ) p( O / λu ) ), to může vést k přijetí tohoto podvodníka. To se řeší vytvořením přidružené skupiny mluvčích, kde jen část řečníků je blízká k referenčnímu řečníkovi. Zbytek skupiny je od něj vzdálen daleko více (myšleno v prostoru mluvčích). Pro tento případ určujeme výsledné skóre ne jako průměr, ale jako maximum: log p( O / λ ) = log p( O / λ ) = max log p( O / λ ). (18) U CN k = 1,..., K k

20 Neomezený skupinový model λ UCN [6] Vznikne spojením skupinového a světového modelu. Přidružená skupina modelů zde není vybrána apriorně, ale během testování (on-line). kupina je tvořena K modely s nejvyšším skóre λ φ (k ) pro testovanou promluvu (kromě λ ). Výsledné skóre je pak dáno: kde φ ( i) φ( j) pro i j a λ, K 1 φ ( k ) log p( O / λ U ) = log p( O / λucn ) = log p( O / λ ), (19) K φ (1) φ (2) λ modelu λ ) nejvyšší skóre k dané promluvě O. φ (K ) k = 1 λ jsou modely, které přinášejí (hned po kupinový model s extrapolací λ CEN [12] Zde není normalizační faktor (logaritmus pravděpodobnosti log p( O / λ U ) ) určen jako průměr logaritmů pravděpodobnosti modelů řečníků kohorty ( jako je tomu u metody CN ) ani brán jako maximu dané kohorty (viz metoda UCN). Místo toho je použita extrapolace této kohorty (viz obr.8). Extrapolace zohledňuje předpoklad, že model referenčního řečníka, pokud je řečník skutečně původcem nahrávky, dosahuje nejlepšího skóre. Narozdíl od maxima však extrapolace zohledňuje i trend kohorty. Proto extrapolace používající větší počet řečníků v kohortě je robustnější. Zároveň lze snadno měnit poměr mezi odmítnutými a přijmutými řečníky posouváním bodu extrapolace. Obrázek 8. Poloha normalizačního faktoru vzhledem k ostatním členům kohorty pro metody CEN, CN (střední hodnota a maximum)

21 Neomezený skupinový model s extrapolací λ UCEN [12] Počítá se naprosto stejně jako výše uvedená normalizace (tedy normalizace CEN). Změna je pouze v kohortě, ta je tvořena řečníky, kteří podávají největší hodnoty skóre při testování (tedy off-line). Jde tedy o kombinaci metod CEN a UCN Robustní neomezený skupinový model s extrapolací λ ROBA UCEN [12] Normalizační faktor (logaritmus pravděpodobnosti log p( O / λ UCEN ) ) získaný metodou UCEN je zde pro zvýšení robustnosti upraven. Tato úprava spočívá ve snížení pravděpodobnosti log p( O / λ UCEN ) v závislosti na rozdílu skóre d mezi apriorně vybranou kohortou a kohortou vybranou při testování. d log p( O / λ ) = log p( O / λ ) d (20) U UCEN 1 K k K k = 1 = φ ( k ) ( ) [ log ( / ) log ( / )] 2 UCN φ CN p O λ p O λ (21) Metodu lze samozřejmě použít i na kohorty bez extrapolace (tedy ROBA-UCN) Virtuální řečník λ V [13,14,1] kupinová normalizace CN využívá normalizační skóre log p( O / λ ), které je vytvořeno ze skóre pro nejbližší podvodníky log p( O / λ ). Tato skóre jsou ale vybírána na základě trénovací promluvy O. Tento výběr však nerespektuje různé podmínky při nahrávání. Pokud je model řečníka vytvořen ze složek (jako je tomu u GMM nebo HMM), lze tento problém řešit pomocí virtuálního řečníka. V tom případě je model λ U uměle vytvořen po složkách z nejbližších složek modelů vybraných řečníků. Ke každé složce x m modelu λ = { x 1,..., xm } je přiřazena nejbližší složka x m od modelů z vybrané skupiny. Vznikne tak model neexistujícího (virtuálního) řečníka, který má nejblíže k referenčnímu řečníku ze všech vybraných modelů ze skupiny. Jak ilustruje obr.9, je ke každé složce modelu referenčního řečníka přiřazena nejbližší složka od řečníků A,B,C nebo D, z těch je pak sestaven model virtuálního řečníka V, přidružený k řečníkovi. U

22 Obrázek 9. Vytvoření virtuálního řečníka V k referenčnímu řečníku U verifikace využívající GMM modely je virtuální řečník vybrán ze všech možných složek potenciálních podvodníků. Pro referenčního řečníka popsaného M-složkovým jednodimenzionálním GMM modelem fe platí: { wm ( ), N m ( ) } m= 1,2 M fe,... =, (22) kde: w m () statistická váha pro m-tou složku GMM N m () Gaussovo pravděpodobnostní rozložení pro m-tou složku GMM Model GMM virtuálního řečníka fe V z K nejbližších podvodníků I, je pak reprezentován následně: přidružený k referenčnímu řečníkovi, složený { wm ( V ), N m ( V )} m= 1,2 M fev,... =, (23) kde: wm ( V ) = wm ( ) pro m = 1,2,..., M N ( V ) = N ( I) pro m = 1,2,..., M a n = 1,2,..., K m n * M tatistická váha u modelu virtuálního řečníka je stejná jako u modelu referenčního řečníka. N n (I) je nejbližší složka GMM (z modelů K vybraných podvodníků) ke složce N m (). Vzdálenost (podobnost) mezi jednotlivými složkami lze určit pomocí vzorce Gaussova rozložení nebo Battacharryanovi míry (více viz kapitola Kritéria pro srovnání řečníků ) tandardizace rozložení pravděpodobnosti skóre Tyto metody mají za cíl transformovat každý tvar skóre p( O / λ U ), vyplývající z různých podmínek při nahrávání, na normalizovaný tvar. Důvod, proč pracujeme s rozdělením skóre pro neznámého řečníka p( O / λ U ) než s rozdělením skóre pravého řečníka p( O / λ ), je získat více spolehlivých odhadů pro transformační parametry. Metody jsou uvedené níže (předpokládáme Gaussovo pravděpodobnostní rozdělení, tj. 2 p( O / λ ) U N ( µ, σ ) )

23 Zero normalizace (Z-norm) [6,7] Předpokládáme, že známe podmínky při nahrávání Φ(O) promluvy O, pak lze definovat standardizaci vztahem: log p( O / λ ) µ Z ( λ, Φ( O)) L( O) = σ ( λ, Φ( O)) Z, (24) kde µ ( λ, Φ( O)) je střední hodnota a σ ( λ, Φ( O)) směrodatná odchylka, obě specifické pro Z Z prohlašovanou identitu λ a nahrávací podmínky Φ(O). V trénovací fázi je pár µ Z aσ Z vypočítaný pro každého registrovaného řečníka a všechny možné provozní podmínky Φ. Tato normalizační technika je s úspěchem používána na problém způsobený záměnou mikrofonu popř. telefonního sluchátka (podle toho je metoda známa jako handset normalization H-norm). Tato metoda však nemůže být efektivně použita v neznámých provozních podmínkách Testová normalizace (T-norm) Tato metoda nevyžaduje žádnou znalost o podmínkách nahrávání. Vychází ze znalosti množiny možných podvodníků. tandardizaci definujeme vztahem : log p( O / λ ) µ T ( O) L( O) =, (25) σ ( O) kde µ (O) je střední hodnota a σ (O) směrodatná odchylka výstupů modelů z množiny T T 1 K podvodníků C { log p( O / λ ),..., log p( O / λ )} =. Tato metoda je velmi podobná metodě neomezeného skupinového modelu, používáme jen střední hodnotu a směrodatnou odchylku. T Motivací pro použití těchto dvou transformací je použití pevného prahu. Modrá čára (viz obr.10) je rozložení vzorového skóre L(k), k=1,2,, které odpovídá daným pracovním podmínkám Φ(O) (pro Z-norm) nebo je určené z množiny podvodníků λ,k=1,,k (pro T- norm). Po standardizaci pomocí transformace skóre pak může být porovnáno s pevným prahem. k Obrázek 10. Zobrazení rozdělení skóre před a po Z/T transformaci

24 4.3. Výběr skupiny Při normalizaci skóre Bayesovským způsobem, ve skupinovém a neomezeném skupinovém modelu, bylo využíváno skupiny řečníků (tzv. kohorty). Jak takovou skupinu vybrat, tím se zabývá tato kapitola. kupinou modelů řečníků kohorty je K-nejbližších modelů k danému referenčnímu modelu. Tyto modely pak poskytují skóre podvodníků, blízkých ke skóre proklamovaného řečníka referenčního modelu. Tím je poskytnuta ochrana proti přijetí podvodníků. Referenčním modelem (řečníkem) rozumíme model odpovídající řečníkovi, pro kterého skupinu vytváříme Kritéria pro srovnání řečníků Používaná kritéria pro určení vzdálenosti mezi dvěma řečníky jsou následující: Pair-wise kritérium (Rosenberg) [15] Nejbližší modely jsou ty, které maximalizují rovnici P 1 d ( λ, λ j ) = (log p( O / λ ) log p( O / λ j )), 2 (26) kde: O testovaná promluva (vektor příznaků) λj model testovaného řečníka referenční model proklamovaného řečníka λ Divergence-like kritérium (Reynolds) [16] Nejbližší modely jsou ty, které minimalizují rovnici ( / ) P p( O / λ ) p O j λ j d ( λ, λ j ) = log log ), (27) p( O / λ ) p( O / λ ) kde: Oj sekvence vektorů příznaků testovacích dat přidružené k modelu λj λj model testovaného řečníka O sekvence vektorů příznaků testovacích dat přidružené k modelu λ referenční model proklamovaného řečníka λ j j Gaussovo pravděpodobnostní rozložení Jde vlastně o vypočítání pravděpodobnosti, proto nejbližší modely jsou ty, které maximalizují rovnici: p G ( N m ( ), N n ( I )) 1 T ( µ m, µ n, I ) C ( µ m, µ n, I ) 2 = e,(28) 2Π kde: N m () m-tá složka modelu referenčního řečníka µ m, vektor středních hodnot m-té složky modelu ref. řečníka I N n (I) m-tá složka modelu podvodníka I µ n,i vektor středních hodnot n-té složky modelu podvodníka I C kovarianční matice 1 det C

25 Battacharryanova míra [17] Nejbližší modely jsou ty, které minimalizují rovnici: d B ( N m ( ), N n ( I )) = C m n I m C,,, + n, I T 1 µ m, µ n, I ) ( µ m, µ n, I ) + log, (29) ( kde: N m () m-tá složka modelu referenčního řečníka C n,i kovarianční matice n-té složky modelu ref. řečníka N n (I) m-tá složka modelu podvodníka I µ n,i vektor středních hodnot n-té složky modelu podvodníka I C n,i kovarianční matice n-té složky modelu podvodníka I C C m, + C. C n, I Metody výběru skupiny Pro vytvoření skupiny řečníků C z referenční databáze se nejvíce používají tyto metody: Metoda náhodných podvodníků RI (Random Impostor) [2] Do skupiny C je přiřazeno K náhodně vybraných řečníků z referenční množiny, pak log p( O/ λ ) je vypočteno jako kde: U log p( O / λ ) = log p( O / λ ) = φ ( k, RI λ ) U RI max log p( O / λ k = 1,... K k-tý náhodně vybraný model φ ( k, RI ) ), (30) Metoda nejbližších podvodníků CI (Closes Impostor) [6] Do skupiny C je přiřazeno K nejbližších řečníků k referenčnímu řečníkovi, pak log p( O/ λ ) je vypočteno jako kde: U K 1 φ ( k, CI ) log p( O / λ U ) = log p( O / λci ) = log p( O / λ ), (31) K φ ( k, CI ) k = 1 λ k-tý nejbližší model k referenčnímu modelu Tento přístup však předpokládá, že za řečníka se bude vydávat někdo s podobným hlasem. Pokud má řečník velmi odlišný hlas než řečník s proklamovanou identitou, je φ ( k, CI ) modelován špatně jak modelem λ, tak referenčním modelem λ. V tomto případě φ( k, CI) bude malý rozdíl mezi log p( O / λ ) a log p( O/ λ ), což může vést k přijetí podvodníka. Řešení této situace je modifikovat tuto metodu. Do skupiny C se nezahrnuje pouze K nejbližších řečníků, ale také M nejvzdálenějších (velmi odlišných) řečníků. Těchto M řečníků pak řeší výše uvedený problém. Velikost skupiny C je pak N=K+M, log p( O/ λ U) je pak určeno jako maximum z této skupiny namísto předchozího průměru log φ ( n, CI ) p( O / λ ) = log p( O / λ ) = max log p( O / λ ). (32) U CI n= 1... N

26 Metoda blízkých shluků podvodníků CIC (Close Impostor Clustering) [1,2] Tato metoda je vylepšením předchozí CI metody. Řeší problém, kdy nejbližší podvodníci nepokrývají celé okolí kolem referenčního modelu v prostoru řečníků, ale nechávají určitou část nechráněnou (viz obr.11). Metoda CIC spočívá ve vybrání K nejbližších řečníků (zde je K podstatně vyšší než u CI metody) do skupiny. Tato skupina řečníků je pak nashlukována do N shluků. Pro shlukování může být použita jakákoliv dostupná metoda. Z každého shluku je pak vybrán jeden řečník jako její reprezentant. Může jít o řečníka nejbližšího středu shluku, nebo nejbližšího referenčnímu řečníku. Pro vybranou skupinu reprezentantů shluků je pak log p( O/ λ ) dáno vzorcem U log N 1 φ ( n, CIC ) p( O / λ U ) = log p( O / λcic ) = log p( O / λ ), (33) N n= 1 kde: φ ( n, CIC ) λ model reprezentující n-tý shluk přidružený k modelu Obrázek 11. Porovnání metod CI a CIC 4.4. Druhy chyb ve verifikaci řečníka Ve verifikačních systémech rozlišujeme dvě chyby [6,7]: chybné přijetí nesprávného řečníka (False Acceptance) a chybné odmítnutí správného řečníka (False Rejection). Tyto dvě chyby jsou na sobě závislé, jejich vzájemný vztah ukazuje ROC-křivka (Receiver Operating Characterics) [8]. Hodnoty pravděpodobnosti FA a FR je ale výhodnější vynášet jako kvantity normálního rozložení, křivka se nazývá DET-křivkou (Detection Error Trade-off) [8]. Pro gaussovská rozložení FA a FR je DET-křivka lineární, v takovém zobrazení je pak snazší porovnání dvou podobných systémů (viz obr. 12 a 13). Pro ohodnocení správné činnosti verifikačních systémů se používá skalární veličina EER (Equal Error Rate). EER vyjadřuje procento správně rozpoznaných řečníků a odpovídá prahu, pro které jsou chyby FA a FR shodné. Používají se i jiná skalární ohodnocení, které mají jinak definovaný poměr FA a FR

27 Obrázek 12. DET křivka pro vyhodnocení rozpoznání řečníka Obrázek 13. ROC křivka pro stejná data jako obr

28 5. Programové řešení K ověření účinnosti jednotlivých normalizačních metod v úloze verifikace řečníka byla vytvořena sada programů provádějící výpočty na zadaných korpusech dat. Tyto programové moduly byly začleněny do verifikačního systému oap (tate of Art Partical), který je vyvíjen katedrou kybernetiky na ZČU. Dále se kapitola zabývá funkcí jednotlivých programů v rámci systému oap, udává požadavky na jejich bezproblémový chod a možnost jejich samostatného spuštění tručný popis oap Citace z dokumentace k systému viz [18] Ing Vaněk, J., Ing Padrta, A., peaker Verification ystem oap, dokumentace k systému, Plzeň, Verifikační systém oap je složen ze samostatně spustitelných modulů, které mají pevně definované rozhraní. Byl navržen zejména pro testování funkčnosti nových modulů. chéma systému je znázorněno na obr.14. Obrázek 14. chéma verifikačního systému oap Hlavní modul generuje dávkové soubory, které ve správném pořadí a s odpovídajícími parametry používají zbývající moduly. Provede, v souladu se vstupními soubory, vyhodnocení a výsledek uloží do zvoleného výstupního souboru. Modul parametrizace provede extrakci z dané promluvy *.wav a uloží výsledek do souboru *.prm. Modul modelování nejprve načte soubor s parametrizací *.prm, provede modelování a výsledek uloží do souboru *.mdl. Verifikační modul zajišťuje určení míry shody mezi testovací a trénovací nahrávkou (mezi vstupní parametrizovanou promluvou a modelem prohlašované identity). Výsledkem je číslo z intervalu <0,1>, kde 1 značí úplnou shodu a 0 úplnou rozdílnost. Funkce a předpoklady pro spuštění tohoto modulu jsou náplní zbývající části této kapitoly

29 5.2. Popis vytvořeného verifikačního modulu Verify_BGM2 Verifikační modul je součástí systému oap, je ale možná i jeho samostatná činnost, bez závislosti na zbytku modulů. Program Verify_BGM2.exe provádí nadefinované pořadí testů mezi vstupní parametrizovanou promluvou a zadaným modelem identity. Ověřuje, patří-li příchozí promluva řečníkovi, za kterého se vydává. Pro svou činnost používá různé metody normalizace. Jaký způsob normalizace se použije pro danou úlohu udává vstupní inicializační soubor. Výsledky verifikace ukládá do výstupního souboru. Program je spouštěn příkazem: Verify_BGM2.exe File.ini Trials.txt Data Model CohortFile Train.txt Results.txt,kde: File.ini.. konfigurační soubor Trials.txt.. soubor testů Data.. cesta k souborům s daty, tedy k parametrizovaným nahrávkám *.prm (př: "Param_Test\%04d.prm" ) Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Train.txt... soubor s čísly jednotlivých modelů řečníků Result.txt.. cílový soubor, obsahuje výsledky jednotlivých testů Jednotlivé soubory budou rozebrány a popsány v následující kapitole Vstupní/výstupní soubory verifikačního modulu - Konfigurační soubor verifikačního modulu udává parametry verifikace. Při spuštění programu Verify_BGM2.exe se tyto informace zapíší do paměti. truktura tohoto souboru s možným nastavením je uvedena níže: [COMPARE-BGM2] BGMDir = "BGModels" BGMinTXTformat = 1 AverageN = 1 Informace o modelu pozadí (BackGround Model). Jméno adresáře obsahující BGM. Nastaveni zda je BGM uložen v textovém formátu. Počet nejlepších BGModelů, jejichž výsledky se průměrují. FinalDecision = 0 Pro 1 je výsledek 1 nebo 0 (jinak hodnota z intervalu <0,1>). Thresh1 = 0.0 Hodnota prahu T, o kterou musí skóre řečníka překročit skóre normalizace, aby byl vektor přiřazen řečníkovi. Thresh2 = 50.0 Minimální procento vektoru, které musí být přiřazeno řečníkovi, aby mu patřila celá promluva (má smysl pouze pro nastaveni FinalDecision = 1). NumberOfModels=630 Počet modelů v testu. Normalization = 1 Typ normalizace:pro 0-WM, 1-UCN, 2-CN, 3-Tnorm, 4-UCEN, 5-CEN, 6-CN_N. NumberOfCohort = 1 Počet členů kohorty. NejmensiCohort = 3 Počet nejmenších členů kohorty ( z konce souboru s kohortniky), je uvažováno jen pro normalizaci typu CN_N. Zrychleni = 2 Kolik vzorku se bude v předvýběru přeskakovat. Predkohort = 0.2 Kolik procent z všech rečníků bude předvýběr

30 [MODEL-DB-GMM] MixturesNumber = 0 NormalizeJ = 0 FinalJValue = FinalJumm = 0 FinalRecluster = 0 UseCF = 0 avetxt = 1 Parametry pro načítání modelu. Ukončovací podmínka shlukovaní (pro hodnotu 0 se bude shlukovat do dosazení kriteria). Normalizace kriteria (nejen ukončovacího) počtem vektoru ve shluku (je-li nastaveno na 1). Ukončovací podmínka shlukovaní - hodnota kriteria (je-li takto shlukováno). Je-li nastaveno na 1, pak se počítá celkové kriterium (součet), jinak se bere max. kriterium. Zapnutí úplného přeshlukování na konec. Bude využita informace o činiteli jistoty. Formát uložení (TXT/BIN). - oubor s testy obsahuje jednotlivé testy daného experimentu. Na každém řádku souboru je uložené číslo promluvy a číslo proklamované identity (modelu), např.: Data značí cestu k parametrizovaným nahrávkám *.prm, které byly předchozími moduly systému oap zpracovány ze vstupních testových nahrávek (*.wav). Jsou uloženy v jednom adresáři a mají číselné jméno (např. 001.prm). - Model značí cestu k souborům s modely *.gmm, které byly předchozími moduly systému oap zpracovány ze vstupních trénovacích nahrávek (*.wav). Jsou uloženy v jednom adresáři a mají číselné jméno (např. 001.gmm). - CohortFile značí cestu k souborům s kohortou pro každého řečníka. oubor má na každém řádku uloženo číslo jiného řečníka (kohortníka), který má k němu blízko. V souboru jsou kohortníci seřazeni podle vzdálenosti od referenčního řečníka. Tyto soubory jsou předvytvořeny pomocí programu ort_loglike.exe nebo ort_models.exe (budou popsány v další kapitole). Příklad části jednoho souboru OffLineCohort001.txt (pro řečníka číslo 001): Train.txt je soubor s číslem jednotlivých modelů řečníků na řádkách, např.:

31 -Result.txt je cílový soubor, obsahuje výsledky jednotlivých testů experimentu. Na každém řádku je uloženo výsledné skóre (číslo z intervalu <0,1>) pro jeden test ze souboru testů, např.: Popis programů pro vytvoření kohorty Programy ort_loglike.exe a ort_models.exe slouží k vytvoření kohorty (množiny nejbližších řečníků = kohortníků k referenčnímu řečníku) jednotlivě pro všechny řečníky korpusu. Pro daného referenčního řečníka se spočte vzdálenost jeho modelu k ostatním modelům řečníků a ti se pak seřadí podle této vzdálenosti a vytvoří kohortu. Čísla seřazených kohortníků jsou uložena v souboru s názvem referenčního řečníka. Všechny soubory s kohortami k jednotlivým řečníkům jsou uloženy v jednom adresáři ort_loglike.exe Program provádí seřazení kohortníků (nejbližších řečníků) pomocí vzdálenosti podle Rosenberga či Reynoldse (viz kapitola ). Program je spouštěn příkazem: ort_loglike.exe File.ini Train.txt Data Model CohortFile, kde File.ini.. konfigurační soubor Train.txt.. soubor s čísly modelů Data.. cesta k souborům s daty, tedy k parametrizovaným nahrávkám *.prm (př: "Param_Test\%04d.prm" ) Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k výstupním souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Obsah konfiguračního souboru: [COMPARE-CN] NumberOfModels=630 ort=0 Parametry pro porovnání modelů. Počet modelů v testu. Typ kriteria pro určení vzdálenosti ref. model model (0-pro Rosenberg, cokoliv jiného pro Reynolds). Ostatní soubory jsou shodné s popisem v kapitole

32 ort_models.exe Program provádí seřazení kohortníků (nejbližších řečníků) podle vzdálenosti jednotlivých složek jejich modelů podle Battacharryan míry (viz kapitola ). Výsledná míra je pak dána součtem od jednotlivých složek. Program je spouštěn příkazem: ort_models.exe File.ini Train.txt Model CohortFile, kde File.ini.. konfigurační soubor Train.txt.. soubor s čísly modelů Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k výstupním souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Obsah konfiguračního souboru: [COMPARE-CN] Parametry pro porovnávání modelů. NumberOfModels=630 Počet modelů v testu. [MODEL-DB-GMM] Parametry pro načítání modelu. MixturesNumber = 0 Ukončovací podmínka shlukovaní (pro hodnotu 0 se bude shlukovat do dosazení kriteria). NormalizeJ = 0 Normalizace kriteria (nejen ukončovacího) počtem vektoru ve shluku (je-li nastaveno na 1). FinalJValue = Ukončovací podmínka shlukovaní - hodnota kriteria (je-li takto shlukováno). FinalJumm = 0 Je-li nastaveno na 1, pak se počítá celkové kriterium (součet), jinak se bere max. kriterium. FinalRecluster = 0 Zapnutí úplného přeshlukování na konec. UseCF = 0 Bude využita informace o činiteli jistoty. avetxt = 1 Formát uložení (TXT/BIN). Ostatní soubory jsou shodné s popisem v kapitole Výpočet EER CompEER_KW.exe Výpočet chyby EER verifikačního testu je prováděn pomocí programu CompEER_KW.exe, jehož tvůrcem je ing. Aleš Padrta. Program je spouštěn příkazem: CompEER_KW.exe Result.txt CorrectResults.txt Min tep Max EER.txt det.txt roc.txt, kde: Result.txt.. soubor s výsledky jednotlivých testů, je vytvořen souborem Verify_BGM.exe CorrectResults.txt.. soubor se správnými výsledky (po řádcích 1 nebo 0) Min.. minimální uvažovaná hodnota prahu tep.. počet bodů ROC/DET křivky Max.. maximální uvažovaná hodnota prahu EER.txt.. cílový soubor s údajem o velikosti chyby EER daného souboru testů. det.txt.. cílový soubor s body DET-křivky roc.txt.. cílový soubor s body ROC-křivky

33 6. Experimenty Účelem provedených experimentů bylo zjistit vliv normalizačních metod na úspěšnost rozpoznávání v úloze verifikace řečníka v uzavřené množině. Bylo provedeno několik experimentů s různými korpusy dat pro různé druhy normalizací v závislosti na velikosti kohorty pro normalizaci. Výsledky testů by měly ukázat nejen jaká z normalizačních metod je nejlepší, ale také pro jaké nahrávací podmínky je jaká z metod výhodnější, či jaká je optimální velikost kohorty Testované korpusy dat Jednotlivé korpusy se lišily v počtu řečníků, nahrávacích podmínkách i ve velikosti testovací/trénovací promluvy UWB-RobustVerify100CZ [19] Jde o nahrávky 100 českých řečníků, na které jsou vytvořeny modely. Ty jsou natrénovány z 20 vět. Model pozadí je natrénován z těchto řečníků, od každého dvě věty. Test je verifikací každého řečníka s každým. Pro test je použita jedna věta. Věty pro model pozadí, pro model řečníka a pro testy jsou různé. Vzorkovací frekvence je 44,1kHz. Pro účely tohoto korpusu byly nahrávky převzorkovány na 8kHz a uloženy s 16bitovou přesností. Model je tvořen 32 složkami GMM, stejně tak i model pozadí. Experiment obsahuje šest testovacích sad A až F. ada A je s neupravenými nahrávkami získanými přes jeden mikrofon. Z těchto dat jsou natrénovány modely. V sadách B až F jsou testovací nahrávky buď modifikovány, nebo pořízeny jiným způsobem. V sadě B je k testovacím nahrávkám přimíchán aditivní šum v náhodně zvoleném poměru NR 15 nebo 20bB. Náhodně je vybrán druh šumu ze čtyř prostředí: auto, vlak, ulice a metro. V sadě C je simulováno zkreslení kanálem. To spočívá ve zkreslení frekvenční přenosové charakteristiky ve čtyřech pásmech na náhodnou hodnotu mezi 0 30dB. ada D je kombinací sady B a sady C, tedy nahrávky ze sady B jsou zkresleny průchodem kanálu. Nahrávky ze sady E jsou pořízeny paralelně jiným mikrofonem, a kromě zkreslení kanálem je zde přítomen i stacionární aditivní šum. Nahrávky sady F jsou pořízeny přes telefon. Byly pořízeny v jinou dobu než předchozí, proto neobsahuje nahrávky všech řečníků, ale jen 74 dostupných DoD [20] Tento korpus byl nahrán při dnech otevřených dveří na katedře kybernetiky ZČU v roce Obsahuje 42 řečníků, kde test je verifikací každého řečníka s každým. Celý experiment tedy obsahuje 1764 porovnání. Délka trénovací nahrávky je přibližně dva odstavce textu. Délka testovací nahrávky je v délce jedné věty až jednoho odstavce. Dat pro modely pozadí je málo, protože většina řečníků namluvila pouze dvě promluvy. Kvalita nahrávek je průměrná, byl použit hlavový mikrofon, nahrávka obsahuje běžný hluk při dni otevřených dveří. Vzorkovací frekvence je 8kHz. Model je tvořen 32 složkami GMM, model pozadí je 256 složkový GMM

Zobrazit více