Prohlášení. V Plzni dne podpis diplomanta
|
|
- Jindřich Matějka
- před 7 lety
- Počet zobrazení:
Transkript
1 Prohlášení Předkládám tímto k posouzení a následné obhajobě diplomovou práci zpracovanou na závěr studia na Fakultě aplikovaných věd Západočeské univerzity v Plzni. Prohlašuji, že jsem zadanou diplomovou práci zpracoval zcela samostatně, pouze s použitím literatury a pramenů, jejichž úplný seznam je její součástí a za odborného vedení vedoucího diplomové práce. V Plzni dne podpis diplomanta
2 Anotace Tato diplomová práce se zabývá vyšetřováním relativní účinnosti různých metod normalizace skóre v systémech verifikace řečníka podle hlasu. Rozpoznávání podle hlasu patří mezi tzv. biometrické identifikační techniky. Na úlohu rozpoznávání působí množství poruch. Pomocí normalizačních metod se je snažíme odstranit. Experimenty byly založeny na různě velkých korpusech dat, mimo jiné korpus Timit a Yoho. Byly testovány off-line i on-line metody, metody založené na Bayesovském způsobu i pomocí standardizace rozložení pravděpodobnosti skóre. K porovnání se používal model pozadí. Jako nejlepší normalizace vyšla metoda UCN (neomezený skupinový model). Chyba EER při normalizaci modelem pozadí byla redukována použitím normalizační metody UCN z původních 0,63% na 0,1%. Klíčová slova: Biometrické charakteristiky, normalizace skóre, normalizace Bayesovským způsobem, normalizace standardizací rozložení pravděpodobnosti skóre, MFCC, GMM, CN, UCN, UCEN, CIC, T-normalitace, Z-normalizace, model pozadí, oap Annotation This diploma paper presents an investigation into relative effectiveness of various score normalization methods in speaker verification system. peaker verification is so-called biometrical identification methods. For this task is affected much faults. It is possible to minimalize these faults with the aid of score normalization. The experimental investigations are based on the use of various speech materials, e.g. Timit database or Yoho database. For tests of relative effectiveness were used off-line and on-line methods, Bayesian solution and tandardizing a score distribution. For comparing improvement of effectiveness was used a BackGround Model (BGM). The best normalization was found Unconstraint Cohort Normalization (UCN). Equal Error Rate (EER) when using BGM was reduced from 0,63% to 0,1% at using UCN. Key words: Biometrical characteristics, score normalization, normalization with Bayesian solution, normalization with tandardizing a score distribution, MFCC, GMM, CN, UCN, UCEN, CIC, T- norm, Z-norm, Background Model, oap
3 Západočeská Univerzita Fakulta Aplikovaných Věd Katedra Kybernetiky Metody normalizace skóre v úloze verifikace řečníka Diplomová práce Zbyněk Zajíc květen 2006
4 Obsah 1. Úvod Cíle diplomové práce Obsah jednotlivých kapitol 3 2. Úlohy v problému rozpoznávání řečníka Biometrické metody verifikace Rozdělení úlohy rozpoznávání Postup rozpoznávání Důvody nutnosti normalizace 6 3. ystém pro rozpoznání řečníka Extrakce příznaků Melovské kepstrální koeficienty (MFCC) Reprezentace modelu řečníka měs Gaussovských rozložení (GMM) Úloha rozpoznávání Verifikace Identifikace v uzavřené množině Identifikace v otevřené množině Normalizace skóre Bayesovský způsob větový model kupinový model Neomezený skupinový model kupinový model s extrapolací Neomezený skupinový model s extrapolací Robustní neomezený skupinový model s extrapolací Virtuální řečník tandardizace rozložení pravděpodobnosti skóre Zero normalizace (Z-norm) Testová normalizace (T-norm) Výběr skupiny Kritéria pro srovnání řečníků Metody výběru skupiny Druhy chyb ve verifikaci řečníka Programové řešení tručný popis oap Popis vytvořeného verifikačního modulu Verify_BGM Vstupní/výstupní soubory verifikačního modulu Popis programů pro vytvoření kohorty ort_loglike.exe ort_models.exe Výpočet EER CompEER_KW.exe
5 6. Experimenty Testované korpusy dat UWB-RobustVerify100CZ DoD Timit Yoho Použitá parametrizace Použité modelování Výsledky experimentů UWB-RobustVerify100CZ DoD Timit Yoho Časová náročnost algoritmů Závěr 40 eznam literatury 41 Přílohy
6 1. Úvod Verifikace řečníka je jedna z úloh v problému rozpoznávání řečníka podle hlasu. Jde o jednoznačné rozhodnutí o identitě člověka, v naší úloze označovaného za řečníka. Rozpoznávání podle hlasu patří mezi tzv. biometrické identifikační techniky [3,4]. Jsou to identifikační techniky založené na určitých vnitřních charakteristikách osoby (např. hlas, otisky prstů, geometrie ruky apod.). V úloze se předpokládá, že tyto vnitřní charakteristiky jsou pro každého jedinečné a nemohou se vyskytovat u nikoho jiného. Tím lze podle nich jednoznačně identifikovat danou osobu. ystémy pro rozpoznávání osoby podle biometrických charakteristik mohou využít více různých vnitřních rysů člověka. Pokud je však dostupný pouze hlas rozpoznávané osoby (řečníka), musí se systém spolehnout při identifikaci pouze na vyslovenou promluvu. Takové úkoly jsou řešeny systémem rozpoznání řečníka dle hlasu. Pro systémy provádějící identifikaci podle hlasu řečníka je nutná jejich automatická činnost. V praktických aplikacích totiž časová náročnost takové úlohy závisí na velikosti množiny rozpoznávaných řečníků (dochází k velkému množství porovnávání jednotlivých dat mezi sebou). Požadavkem je práce systému v reálném čase. V průběhu rozpoznávání můžeme narazit na řadu problémů, které můžou znesnadnit řešení této úlohy. Nejobvyklejší jsou problémy a poruchy vznikající během nahrávání nebo vlivem komunikačního kanálu. Díky tomu se mohou lišit promluvy jednoho řečníka nahrané v různých časových okamžicích. Minimalizovat tyto poruchy lze mimo jiné i pomocí normalizace skóre, jíž se zabývá tato práce Cíle diplomové práce Cílem této diplomové práce je implementovat různé metody normalizace skóre v úloze verifikace řečníka podle hlasu. Je nutné otestovat tyto metody na různých verifikačních úlohách, vyhodnotit jejich přínos, a porovnat jejich účinnost mezi sebou Obsah jednotlivých kapitol Možné přístupy k úloze rozpoznávání řečníka jsou popsány v kapitole 2. Kapitola 3 rozebírá systém pro rozpoznávání řečníka a přichází s dekompozicí tohoto systému na tři podsystémy: extrakce příznaků, tvorba modelu a vlastní rozpoznávání. Kapitola 4 obsahuje rozbor jednotlivých metod normalizace pro zvýšení účinnosti v úloze verifikace. Kapitola 5 se věnuje popisu programového řešení zadaného problému, rozebírá jednotlivé programové moduly. Kapitola 6 se zabývá testovanými experimenty, popisuje použité korpusy dat a dává zhodnocení získaných výsledků
7 2. Úlohy v problému rozpoznávání řečníka 2.1. Biometrické metody verifikace Při verifikaci identity osoby jde o potvrzení nebo vyvrácení prohlašované identity. Biometrie je oblast měření zkoumané fyziologické charakteristiky osob (např. otisky prstů, hlas, sítnice oka,podpis, ). Biometricá verifikace (autorizace) je tedy úloha potvrzení nebo vyvrácení proklamované identity osoby na základě jejích fyziologických charakteristik. Postup biometrické verifikace je přibližně stejný u všech metod, nejprve je nutné uživatele zaregistrovat, tedy načíst poprvé jeho data (často několikrát, data posléze zprůměrována). Z dat jsou vybrány jen důležité informace obsahující identitu uživatele. Při verifikaci uživatel zadá vzorek své biometrické charakteristiky a systém jej porovná s uloženou informací a vydá patřičné rozhodnutí (ano/ne). Výhody biometrik jsou nemalé, hlavním důvodem jejich používání je silná obrana proti zneužití. Biometrické charakteristiky jsou pro každou osobu jedinečné, obvykle nepřenositelné (spolu s ověřením aktuálnosti vzorku, např. přečtení aktuální hlášky systému). Je možné také tyto metody mezi sebou vzájemně kombinovat pro zvýšení spolehlivosti. Uživatel se nemusí obávat ztráty nebo odcizení. Nevýhodou je technická i finanční náročnost a nutnost zabezpečení chybovosti (přijmutí nesprávného, zamítnutí správného uživatele). Následující tabulky popisují známé biometrické verifikační metody a jejich využití. Jsou převzaté z článku Ing. Rita Pužmanová, Cc : Biometrické systémy v praxi [3] typ biometrie výhody Nevýhody přesnost Objem dat otisk prstu stálá a přesná, zavedená logické spojení 1: B technologie odebírání otisků s kriminalitou geometrie ruky třední přesnost (roste s 3D snímáním) fyzický kontakt se snímačem 1: B sítnice vysoká přesnost,mění se přiblížit se k snímači a 1: B duhovka pouze nemocí či úrazem vysoká přesnost; žádný fyzický kontakt, brýle nevadí nechat si svítit do oka vysoká cena systému vhodné pro vysoce bezpečné zóny obličejové znaky přijatelné pro uživatele žádný fyzický kontakt DNA vysoká přesnost drahé; lze systém obelhat cizím vzorkem tvar ucha netřeba fyzický kontakt zatím se zkoumá rozprostření žil na zápěstí charakteristiky hlasu podpisové charakteristiky charakteristiky psaní na klávesnici fyzický kontakt přijatelné pro uživatele; vhodné i pro vzdálenou autentizaci po telefonu naprosto přijatelné pro uživatele přijatelné pro uživatele,cenově dostupné 1: B nepříliš přesná metoda 1 KB (100 B po kompresi) přijatelnost jako u snímání otisků prstů méně přesné vliv prostředí a stavu uživatele méně přesné,může mít vliv únava nebo stres méně přesné - může mít vliv únava nebo stres Tabulka 1: Porovnání biometrických systémů 1:50 1:50-4 -
8 Obrázek 1. Podíl jednotlivých technologií biometrických systémů na trhu otisk prstu obličej dlaň duhovka podíl chybných 0,2 36 % 3,3 70 % 0 5 % 1,9 6 % odmítnutí podíl chybných přijetí 0 8 % 0,3 5 % 0 2,1 % pod 1% doba transakce 9 19 s 10 s 6 10 s 12 s velikost šablony B B 9 B 512 B počet hlavních výrobců náklady na zařízení Nízké střední střední Vysoké faktory ovlivňující výkon špinavé, suché zranění ruky horké prsty artritida, pocení různá osvětlení, orientace obličeje, změny ve vzhledu Tabulka 2: Porovnání hlavních biometrik (podle General Accounting Office UA) špatné vidění odrazy 2.2. Rozdělení úlohy rozpoznávání Existují dvě základní úlohy rozpoznávání řečníka a to identifikace a verifikace [4,2]. V úloze identifikace řečníka hledáme k dané promluvě nejpravděpodobnější model řečníka z množiny referenčních řečníků. V úloze verifikace pak ověřujeme, zda daná promluva náleží apriorně danému řečníkovi. Promluvou rozumíme nahrávku hlasu řečníka přicházející na vstup systému. Model je skupina parametrů charakterizující daného řečníka a je již uložen v systému. Dále lze úlohu identifikace rozdělit podle velikosti množiny řečníků: Identifikace v uzavřené množině - předpokládáme, že vstupní promluva patří někomu ze skupiny referenčních řečníků. Identifikace v otevřené množině - vstupní promluva neznámého řečníka nikomu ze skupiny referenčních řečníků patřit nemusí. Tento problém lze chápat jako spojení identifikace v uzavřené množině následované verifikací. Další rozdělení úlohy rozpoznávání je v závislosti na obsahu vyslovované promluvy: Textově nezávislé rozpoznávání testovaná promluva neodpovídá trénovací promluvě. Řečník v tomto případě není nucen opakovat stejnou promluvu jako při trénovací fázi (je míněna shoda v obsahu promluv). Testovací promluva může obsahovat neomezený text, popřípadě jen určité události, které se testují (např. hlásky slova,číslice). Textově závislé rozpoznávání zde je vyžadováno vyslovení stejné promluvy při testování, jako při trénovací fázi
9 2.3. Postup rozpoznávání [1] Rozpoznávání je rozděleno na dvě části (viz obr.2). Trénovací fáze, kdy jsou zpracovány referenční promluvy od každého řečníka a uloženy jejich referenční modely. Následuje testovací fáze, kdy je zpracována testovaná promluva. amotné rozpoznání může být provedeno na základě shody testované promluvy s referenčním modelem, nebo srovnáním dvou modelů. Obrázek 2. chéma testovací a trénovací fáze 2.4. Důvody nutnosti normalizace [4] Zpracovávaný řečový signál v sobě nese velké množství informace, mimo jiné individualitu řečníka (to nás zajímá, považujeme za konstantní), fonetický obsah vyslovené promluvy, okamžité pocity řečníka, jeho zdravotní stav, šum z okolí. Při řešení problému, zda daná promluva patří některému z referenčních řečníků, nebo zda pochází od neznámého řečníka, se velmi projevují nežádoucí změny a poruchy v nahrané promluvě řečníka. Tyto změny mohou mít různé příčiny: Poruchy pocházející z okolního prostředí, které se projevují jako aditivní šum na pozadí nahrávky. Poruchy a změny komunikačního kanálu, které se projevují během nahrávání. Změny stavu hlasu řečníka. To vše způsobuje neshodu mezi testovanou promluvou a dříve nahranou trénovací promluvou. V praxi je nemožné shromáždit přesné informace o existenci a velikosti rušivých jevů
10 Zatímco se změnami stavu hlasového ústrojí se rozpoznávací systémy vyrovnávají velmi těžko, chyby způsobené aditivním šumem nebo změnou komunikačního kanálu, lze minimalizovat. Jednou z možností odstranění takového rušení je i předzpracování nahrané promluvy. Při určování podobnosti testované promluvy s referenčním řečníkem z dané množiny řečníků se působení těchto poruch projeví stejnou měrou u všech referenčních řečníků. Tedy jejich relativní vzdálenost (ve stavovém prostoru řečníků) od promluvy zůstává stejná. V těchto případech nejefektivnější cestou jak vyřešit tento problém je normalizace
11 3. ystém pro rozpoznání řečníka ystémy rozpoznávání řečníka se skládají ze tří základních subsystémů [1,2], které na sebe vzájemně navazují. Jde o blok parametrizace a předzpracování signálu (promluvy), následuje blok pro tvorbu modelu a poslední subsystém tvoří vlastní rozpoznávání (viz obr.3). Obrázek 3. vázanost dílčích modulů systému rozpoznávání 3.1. Extrakce příznaků Jde o problém, jakým způsobem číselně popsat příchozí promluvu (v čase spojitý řečový signál). Nejprve je potřeba upravit signál (fáze předzpracování), tedy potlačit šum, vliv přenosového kanálu atd. Následně se nahrávka popíše množinou vektorů příznaků, které nesou informaci o identitě řečníka. Tato fáze je nazývána parametrizací. Vstupní akustický signál můžeme rozdělit na mikrosegmenty s délkou cca 10-20ms, protože v tomto krátkém okamžiku považujeme parametry hlasového ústrojí za stacionární. Tyto krátké časové okamžiky popíšeme číselným vektorem příznaků pomocí tzv. krátkodobých charakteristik, jako jsou např. Melovské kepstrální koeficienty (Mel-Frequency Cepstral Coefficients) [5,9,10] nebo Perceptivní lineární prediktivní analýza (Perceptive Lineal Prediktive Analyze) [5]. Blíže popíšeme metodu MFCC, protože je použita v našem systému Melovské kepstrální koeficienty (MFCC) Metoda MFCC je založena na respektování určitých vlastností vnímání zvuku člověkem. Jde především o respektování kritických pásem slyšení a vlivu subjektivního vnímání výšky tónů. MFCC využívá banky filtrů nelineárně rozmístěných ve frekvenční ose. Kritická pásma ovlivňují tvar filtrů (především šířku jednotlivých filtrů). ubjektivní vnímání šířky tónů ovlivňuje rozmístění jednotlivých filtrů ve frekvenční ose. Rozmístění filtrů Poloha filtrů ve frekvenční ose [Hz] je nelineární, je závislá na subjektivním vnímání výšky tónu, jde tedy o nelineární rozmístění (viz obr.4). Různé experimenty dokázaly, že člověk vnímá výšku zvuku subjektivně a tato hodnota neodpovídá její fyzikální hodnotě udané v jednotkách Hz. Proto byla zavedena tzv. subjektivní výška zvuku udaná v jednotce mel. Její závislost na skutečné hodnotě v Hz můžeme matematicky zapsat ve tvaru f Hz f mel = 2595log10(1 + ), (1) 700 kde: f mel subjektivní výška měřená v jednotce mel f Hz frekvence měřená v jednotce Hz - 8 -
12 Tvar filtrů Melovský filtr má trojúhelníkový tvar. Lze jej popsat vztahem 0 pro f m < bm, i 1 fm bm, i 1 pro bm, i 1 f m < bm, i bm, i bm, i 1 Φ( fm, i) =, (2) fm bm, i+ 1 pro bm, i fm < bm, i+ 1 bm, i bm, i+ 1 0 pro bm, i+ 1 fm kde: Φ( f m, i) funkční hodnota i-tého filtru ve frekvenci fmel M* počet filtrů je dáno vztahem b 0, b = b +, pro < i M b m,i m, 0 = m, i m, i 1 m 0 /( * m = B mw M + 1) (první filtr začíná v 0 mel a poslední končí v bodě B mw mel, viz obr.3.) * Obrázek 4. Rozmístění melovských filtrů Počet filtrů je doporučeno volit v závislosti na počtu kritických pásem. Při vzorkovací frekvenci F v [Hz] je šířka přenášeného pásma B w [Hz] podle hanonova vzorkovacího teorému rovna F v /2. Postup výpočtu MFCC (viz obr.5) Vstupní rozmluvu (akustický signál) rozdělíme na mikrosegmenty s délkou cca 30ms, protože v tomto krátkém okamžiku považujeme parametry hlasového ústrojí za stacionární. Na signál aplikujeme Hammingovo okénko (provedeme konvoluci signálu s okénkem pro zlepšení vlastností ve spektrální oblasti). Vypočteme krátkodobé výkonové spektrum P(f) pomocí diskrétní Fouriérovy transformace (DTF). Výsledek filtrujeme bankou trojúhelníkových filtrů, jejichž jednotlivé odezvy lze vyjádřit vztahem - 9 -
13 y m = bi + 1 f = bi 1 P( f Hz ) Φ( f Hz, i), i = 1,2,..., M *, (3) kde: M* počet filtrů f Hz frekvence v Hz Aplikujeme kepstrální přístup, vypočteme logaritmy energií jednotlivých filtrů y m (i). Posledním krokem je zpětná Fouriérova transformace. Vzhledem k tomu, že jsme vycházeli z výkonového spektra P(f), které je pouze reálné a symetrické, zredukuje se výpočet zpětné Fouriérovy transformace na zpětnou cosinovu transformaci (tedy diskrétní verzi, DCT). M * π cm ( j) = y m ( i) cos ( i 0,5), pro i = 0,1,..., N i 1 M * =, (4) kde: y m ( i) = log10 ym ( i) prvek kepstrální analýzy M* počet melovskách filtrů N počet melovských kepstrálních koeficientů <M* Obrázek 5. Postup výpočtu melovských kepstrálních koeficientů
14 3.2. Reprezentace modelu řečníka Jestliže již máme k jednomu danému řečníkovi vytvořené n-dimenzionální vektory příznaků z trénovací fáze (obvykle je jich více, aby lépe popisovaly řečníka), můžeme z nich vytvořit jeho model. Řečníkovy vektory se vyskytují na určitém místě v n-dimenzionálním prostoru. Model by měl popisovat právě toto charakteristické rozložení vektorů příznaků. Jednou z možností, jak vytvořit model, je použít Gaussovské rozložení pravděpodobnosti pro popis modelu. Tato metoda je pak nazývána měs Gaussovských rozložení (Gaussian Mixture Model) [5,11] měs Gaussovských rozložení (GMM) Několik posledních let je směs Gaussovských rozložení hlavním způsobem modelování řečníka pro systémy rozpoznávání podle hlasu. GMM přístup předpokládá, že pravděpodobnostní rozložení vektorů příznaků může být modelováno váženou sumou hustot pravděpodobnosti a dáno rovnicí M p( x / λ) = α N ( x, µ, C ) i= 1 i i i i, (5) kde: x n-dimensionální vstupní vektor α i váha i-té složku, platí 0 α 1 a zároveň = 1 λ model řečníka µi střední hodnota, µ R C i i n i M α i i= 1 kovarianční matice řádu nxn, pozitivně definitní (obvykle pouze diagonální pro zrychlení výpočtů) N x i, µ, C ) hustota Gaussovského rozložení pravděpodobnosti, která je ( i i jednoznačně dána střední hodnotou µ i a kovarianční maticí C i, tedy platí: 1 1 T 1 N ( x, µ, C ) = exp ( x µ ) C ( x µ ). (6) i i i ( ) i i i 2 2 p π C i Výsledná hustota pravděpodobnosti p ( x / λ) je tedy dána váženou lineární kombinací M Gaussovských rozložení N x i, µ, C ), jak ukazuje obr.6. Všechny parametry rozdělení jsou tedy ( i i = α µ i, C i reprezentovány modelem {, }, pro i = 1 M λ i,...,
15 Obrázek 6. měs Gaussovských rozložení pro M=3 Odhady parametrů λ jsou prováděny pomocí iterativního EM-algoritmu (Expectation- Maximalization) [23]
16 3.3. Úloha rozpoznávání [1,2] hoda testovacích dat (ať jsou reprezentovány přímo nebo pomocí modelu) s referenčními je dána veličinou označovanou jako skóre (jde o míru podobnosti, je také nazývána anglicky likelihood). Označíme skóre referenčního modelu λs pro promluvu O jako p(o/ λs). Způsob výpočtu skóre je závislý na typu modelu, popř. na typu obou porovnávaných modelů. Hodnota skóre je pak zpracována dle typu řešené úlohy. Nejpoužívanější skóre pro systémy založené na stochastických modelech je podmíněná pravděpodobnost, že promluva O pochází od řečníka λs Verifikace V systémech verifikace je rozhodnutí přijmout nebo odmítnout proklamovanou identitu s založeno na srovnání skóre se stanoveným prahem T. p ( O / λ ) s T < T O s O s, (7) kde: O testovaná promluva (vektor příznaků) s hledaný řečník λs referenční model proklamovaného řečníka p(o/ λs) skóre referenčního modelu λs pro testovou promluvu O T předem určený práh rozhodování Posuzujeme zde vlastně to, zda je velikost skóre testované promluvy O s referenčním modelem proklamovaného řečníka λs dostatečně vysoká Identifikace v uzavřené množině Předpokládejme, že máme N řečníků, kteří poskytli trénovací promluvu a jejich statické modelové popisy jsou λ 1, λ 2. λ N. Pokud O označíme vektor příznaků extrahovaný z testované promluvy, pak identifikace v uzavřené množině může proběhnout uvedeným způsobem: s * 1 n N { p( O / λ )} = arg max, (8) kde: O testovaná promluva (vektor příznaků) s * hledaný řečník λn referenční model řečníka p(o/ λn) skóre referenčního modelu λn pro testovou promluvu O Řečník s * je tedy autorem testované promluvy. Jde vlastně o úlohu přiřadit testovanou promluvu jednomu z nám známých řečníků, a to tomu, který vykazuje minimální rozdíl mezi referenčním modelem a testovanou promluvou (maximální skóre). n
17 Identifikace v otevřené množině Tato úloha kombinuje úlohu identifikace i verifikace. Nejprve je vybrán řečník s *, jehož model vykazuje nejvyšší skóre pro testovanou promluvu O. Poté je ověřeno, zda je autorem skutečně řečník s * nebo se jedná o promluvu od řečníka mimo referenční skupinu. Předpokládejme opět N řečníků v referenční skupině a jejich statické modelové popisy jsou λ 1, λ 2. λ N. O označí vektor příznaků extrahovaný z testované promluvy. Pak identifikace v otevřené množině může proběhnout uvedeným způsobem: { p( O / λ )} T O max n 1 n N max{ p( O / λn )} 1 n N > T O U, (9) kde: O testovaná promluva (vektor příznaků) λn referenční model řečníka p(o/ λn) skóre referenčního modelu λn pro testovou promluvu O T předem určený práh rozhodování U představuje neznámého řečníka (není v referenční skupině řečníků) Promluva O je tedy přiřazena modelu řečníka, který získal maximální skóre ze všech řečníků v systému, jen pokud je velikost maximálního skóre větší než práh T. Pokud je skóre menší než práh T, řekneme, že promluva pochází od neznámého řečníka (zde označeného např. U)
18 4. Normalizace skóre Absolutní hodnota skóre je velmi závislá na podmínkách nahrávání, promlouvaném textu apod. Tato závislost způsobuje obtížné stanovení hodnoty prahu při verifikaci. Pro překonání tohoto problému lze použít normalizační techniky. Normalizaci lze provádět v zásadě dvěma způsoby, Bayesovským způsobem [6] nebo lze standardizovat rozložení pravděpodobnosti skóre [6,7] Bayesovský způsob Na úlohu se díváme z pravděpodobnostního hlediska. Porovnáváme pravděpodobnosti vyslovení testované promluvy O řečníkem λs s pravděpodobností vyslovení jiným řečníkem λu. Řešíme tedy rovnici: p ( λ O) > p( λu / O) O λ / (10) jinak O λ. Aplikací Bayesova teorému na výše uvedenou rovnici dostáváme vztah: U p p ( O / λ ) P( λu ) > O λ ( O / λ ) P( λ ) Ü jinak O λ, U (11) kde: ( O / λ ) ( O / λ ) p p P( λ ) P( ) λ = Ü U = T l( O) verifikační skóre vypočítané v prvním stupni, (12) apriori určený práh pro ověření (druhý stupeň). (13) Hodnotu prahu je možné určit apriorně např. na základě odhadu poměru počtu oprávněných a neoprávněných osob, verifikační skóre je nutné spočítat. Častěji užívaný tvar k vyjádření verifikačního skóre v praxi je L O) = log p( O / λ ) log p( O / λ ). (14) ( U Zavedení logaritmu je motivováno faktem, že operace sčítání (resp. odečítání) je numericky mnohem snadnější než operace násobení (resp. dělení). Zdůvodnění zavedení normalizačního faktoru logp(o/λu) je následné, pokud se změní podmínky nahrávání, posune se rozložení skóre logp(o/λs). Avšak rozložení skóre logp(o/λu) se posune stejným způsobem. Pravděpodobnost logp(o/λu) ve výpočtu verifikačního skóre tedy reprezentuje dynamický práh, který je citlivý na změny v O v každém pokusu. Výpočet logp(o/λs) není problém, protože je znám model referenčního řečníka λs. Jak ale určit model λu, který reprezentuje neznámého řečníka? Tento problém je řešen vhodnou aproximací modelu λu
19 Motivací pro zavedení normalizačního faktoru p(o/λs) je fakt, že změní-li se podmínky při nahrávání testované promluvy vůči podmínkám při nahrávání trénovaní promluvy, změní se stejným způsobem rozložení skóre logp(o/λs) i rozložení skóre logp(o/λu). To ale znamená, že rozdíl mezi nimi zůstane zachován (viz obr.7). Obrázek 7. Bayessovský přístup (změna nahrávacích podmínek) větový model λ WN [6] Jednou z možností jak aproximovat neznámý model λu je nahradit jej tzv. světovým modelem (někdy je také označen jako model okolí, anglicky BackGround Model). Je generovaný použitím promluv z velké populace řečníků. V rovnici tedy nahradíme: p O / λ ) = p( O / λ ). (15) ( U WN kupinový model λ CN [6] V této metodě je každý zapsaný mluvčí přidružen se skupinou mluvčích 1 K { λ,..., λ } C =, jejichž modely jsou nejvíce konkurenční (jsou blízko referenčního řečníka λs v prostoru mluvčích). Výběr probíhá před vlastním testováním, skupina je vybrána off-line. Výpočet pak probíhá tímto způsobem: K 1 k log p( O / λ U ) = log p( O / λcn ) = log p( O / λ ) (16) K k = 1 nebo alternativa K 1 k log p( O / λ U ) = log p( O / λcn ) = log p( O / λ ). (17) K k= 1 Předpokládáme, že za referenčního řečníka se bude vydávat někdo s podobným hlasem. Řečník s velmi odlišným hlasem má daleko jak k modelu λ tak i k modelu λ CN (pak je malý rozdíl p( O / λ ) p( O / λu ) ), to může vést k přijetí tohoto podvodníka. To se řeší vytvořením přidružené skupiny mluvčích, kde jen část řečníků je blízká k referenčnímu řečníkovi. Zbytek skupiny je od něj vzdálen daleko více (myšleno v prostoru mluvčích). Pro tento případ určujeme výsledné skóre ne jako průměr, ale jako maximum: log p( O / λ ) = log p( O / λ ) = max log p( O / λ ). (18) U CN k = 1,..., K k
20 Neomezený skupinový model λ UCN [6] Vznikne spojením skupinového a světového modelu. Přidružená skupina modelů zde není vybrána apriorně, ale během testování (on-line). kupina je tvořena K modely s nejvyšším skóre λ φ (k ) pro testovanou promluvu (kromě λ ). Výsledné skóre je pak dáno: kde φ ( i) φ( j) pro i j a λ, K 1 φ ( k ) log p( O / λ U ) = log p( O / λucn ) = log p( O / λ ), (19) K φ (1) φ (2) λ modelu λ ) nejvyšší skóre k dané promluvě O. φ (K ) k = 1 λ jsou modely, které přinášejí (hned po kupinový model s extrapolací λ CEN [12] Zde není normalizační faktor (logaritmus pravděpodobnosti log p( O / λ U ) ) určen jako průměr logaritmů pravděpodobnosti modelů řečníků kohorty ( jako je tomu u metody CN ) ani brán jako maximu dané kohorty (viz metoda UCN). Místo toho je použita extrapolace této kohorty (viz obr.8). Extrapolace zohledňuje předpoklad, že model referenčního řečníka, pokud je řečník skutečně původcem nahrávky, dosahuje nejlepšího skóre. Narozdíl od maxima však extrapolace zohledňuje i trend kohorty. Proto extrapolace používající větší počet řečníků v kohortě je robustnější. Zároveň lze snadno měnit poměr mezi odmítnutými a přijmutými řečníky posouváním bodu extrapolace. Obrázek 8. Poloha normalizačního faktoru vzhledem k ostatním členům kohorty pro metody CEN, CN (střední hodnota a maximum)
21 Neomezený skupinový model s extrapolací λ UCEN [12] Počítá se naprosto stejně jako výše uvedená normalizace (tedy normalizace CEN). Změna je pouze v kohortě, ta je tvořena řečníky, kteří podávají největší hodnoty skóre při testování (tedy off-line). Jde tedy o kombinaci metod CEN a UCN Robustní neomezený skupinový model s extrapolací λ ROBA UCEN [12] Normalizační faktor (logaritmus pravděpodobnosti log p( O / λ UCEN ) ) získaný metodou UCEN je zde pro zvýšení robustnosti upraven. Tato úprava spočívá ve snížení pravděpodobnosti log p( O / λ UCEN ) v závislosti na rozdílu skóre d mezi apriorně vybranou kohortou a kohortou vybranou při testování. d log p( O / λ ) = log p( O / λ ) d (20) U UCEN 1 K k K k = 1 = φ ( k ) ( ) [ log ( / ) log ( / )] 2 UCN φ CN p O λ p O λ (21) Metodu lze samozřejmě použít i na kohorty bez extrapolace (tedy ROBA-UCN) Virtuální řečník λ V [13,14,1] kupinová normalizace CN využívá normalizační skóre log p( O / λ ), které je vytvořeno ze skóre pro nejbližší podvodníky log p( O / λ ). Tato skóre jsou ale vybírána na základě trénovací promluvy O. Tento výběr však nerespektuje různé podmínky při nahrávání. Pokud je model řečníka vytvořen ze složek (jako je tomu u GMM nebo HMM), lze tento problém řešit pomocí virtuálního řečníka. V tom případě je model λ U uměle vytvořen po složkách z nejbližších složek modelů vybraných řečníků. Ke každé složce x m modelu λ = { x 1,..., xm } je přiřazena nejbližší složka x m od modelů z vybrané skupiny. Vznikne tak model neexistujícího (virtuálního) řečníka, který má nejblíže k referenčnímu řečníku ze všech vybraných modelů ze skupiny. Jak ilustruje obr.9, je ke každé složce modelu referenčního řečníka přiřazena nejbližší složka od řečníků A,B,C nebo D, z těch je pak sestaven model virtuálního řečníka V, přidružený k řečníkovi. U
22 Obrázek 9. Vytvoření virtuálního řečníka V k referenčnímu řečníku U verifikace využívající GMM modely je virtuální řečník vybrán ze všech možných složek potenciálních podvodníků. Pro referenčního řečníka popsaného M-složkovým jednodimenzionálním GMM modelem fe platí: { wm ( ), N m ( ) } m= 1,2 M fe,... =, (22) kde: w m () statistická váha pro m-tou složku GMM N m () Gaussovo pravděpodobnostní rozložení pro m-tou složku GMM Model GMM virtuálního řečníka fe V z K nejbližších podvodníků I, je pak reprezentován následně: přidružený k referenčnímu řečníkovi, složený { wm ( V ), N m ( V )} m= 1,2 M fev,... =, (23) kde: wm ( V ) = wm ( ) pro m = 1,2,..., M N ( V ) = N ( I) pro m = 1,2,..., M a n = 1,2,..., K m n * M tatistická váha u modelu virtuálního řečníka je stejná jako u modelu referenčního řečníka. N n (I) je nejbližší složka GMM (z modelů K vybraných podvodníků) ke složce N m (). Vzdálenost (podobnost) mezi jednotlivými složkami lze určit pomocí vzorce Gaussova rozložení nebo Battacharryanovi míry (více viz kapitola Kritéria pro srovnání řečníků ) tandardizace rozložení pravděpodobnosti skóre Tyto metody mají za cíl transformovat každý tvar skóre p( O / λ U ), vyplývající z různých podmínek při nahrávání, na normalizovaný tvar. Důvod, proč pracujeme s rozdělením skóre pro neznámého řečníka p( O / λ U ) než s rozdělením skóre pravého řečníka p( O / λ ), je získat více spolehlivých odhadů pro transformační parametry. Metody jsou uvedené níže (předpokládáme Gaussovo pravděpodobnostní rozdělení, tj. 2 p( O / λ ) U N ( µ, σ ) )
23 Zero normalizace (Z-norm) [6,7] Předpokládáme, že známe podmínky při nahrávání Φ(O) promluvy O, pak lze definovat standardizaci vztahem: log p( O / λ ) µ Z ( λ, Φ( O)) L( O) = σ ( λ, Φ( O)) Z, (24) kde µ ( λ, Φ( O)) je střední hodnota a σ ( λ, Φ( O)) směrodatná odchylka, obě specifické pro Z Z prohlašovanou identitu λ a nahrávací podmínky Φ(O). V trénovací fázi je pár µ Z aσ Z vypočítaný pro každého registrovaného řečníka a všechny možné provozní podmínky Φ. Tato normalizační technika je s úspěchem používána na problém způsobený záměnou mikrofonu popř. telefonního sluchátka (podle toho je metoda známa jako handset normalization H-norm). Tato metoda však nemůže být efektivně použita v neznámých provozních podmínkách Testová normalizace (T-norm) Tato metoda nevyžaduje žádnou znalost o podmínkách nahrávání. Vychází ze znalosti množiny možných podvodníků. tandardizaci definujeme vztahem : log p( O / λ ) µ T ( O) L( O) =, (25) σ ( O) kde µ (O) je střední hodnota a σ (O) směrodatná odchylka výstupů modelů z množiny T T 1 K podvodníků C { log p( O / λ ),..., log p( O / λ )} =. Tato metoda je velmi podobná metodě neomezeného skupinového modelu, používáme jen střední hodnotu a směrodatnou odchylku. T Motivací pro použití těchto dvou transformací je použití pevného prahu. Modrá čára (viz obr.10) je rozložení vzorového skóre L(k), k=1,2,, které odpovídá daným pracovním podmínkám Φ(O) (pro Z-norm) nebo je určené z množiny podvodníků λ,k=1,,k (pro T- norm). Po standardizaci pomocí transformace skóre pak může být porovnáno s pevným prahem. k Obrázek 10. Zobrazení rozdělení skóre před a po Z/T transformaci
24 4.3. Výběr skupiny Při normalizaci skóre Bayesovským způsobem, ve skupinovém a neomezeném skupinovém modelu, bylo využíváno skupiny řečníků (tzv. kohorty). Jak takovou skupinu vybrat, tím se zabývá tato kapitola. kupinou modelů řečníků kohorty je K-nejbližších modelů k danému referenčnímu modelu. Tyto modely pak poskytují skóre podvodníků, blízkých ke skóre proklamovaného řečníka referenčního modelu. Tím je poskytnuta ochrana proti přijetí podvodníků. Referenčním modelem (řečníkem) rozumíme model odpovídající řečníkovi, pro kterého skupinu vytváříme Kritéria pro srovnání řečníků Používaná kritéria pro určení vzdálenosti mezi dvěma řečníky jsou následující: Pair-wise kritérium (Rosenberg) [15] Nejbližší modely jsou ty, které maximalizují rovnici P 1 d ( λ, λ j ) = (log p( O / λ ) log p( O / λ j )), 2 (26) kde: O testovaná promluva (vektor příznaků) λj model testovaného řečníka referenční model proklamovaného řečníka λ Divergence-like kritérium (Reynolds) [16] Nejbližší modely jsou ty, které minimalizují rovnici ( / ) P p( O / λ ) p O j λ j d ( λ, λ j ) = log log ), (27) p( O / λ ) p( O / λ ) kde: Oj sekvence vektorů příznaků testovacích dat přidružené k modelu λj λj model testovaného řečníka O sekvence vektorů příznaků testovacích dat přidružené k modelu λ referenční model proklamovaného řečníka λ j j Gaussovo pravděpodobnostní rozložení Jde vlastně o vypočítání pravděpodobnosti, proto nejbližší modely jsou ty, které maximalizují rovnici: p G ( N m ( ), N n ( I )) 1 T ( µ m, µ n, I ) C ( µ m, µ n, I ) 2 = e,(28) 2Π kde: N m () m-tá složka modelu referenčního řečníka µ m, vektor středních hodnot m-té složky modelu ref. řečníka I N n (I) m-tá složka modelu podvodníka I µ n,i vektor středních hodnot n-té složky modelu podvodníka I C kovarianční matice 1 det C
25 Battacharryanova míra [17] Nejbližší modely jsou ty, které minimalizují rovnici: d B ( N m ( ), N n ( I )) = C m n I m C,,, + n, I T 1 µ m, µ n, I ) ( µ m, µ n, I ) + log, (29) ( kde: N m () m-tá složka modelu referenčního řečníka C n,i kovarianční matice n-té složky modelu ref. řečníka N n (I) m-tá složka modelu podvodníka I µ n,i vektor středních hodnot n-té složky modelu podvodníka I C n,i kovarianční matice n-té složky modelu podvodníka I C C m, + C. C n, I Metody výběru skupiny Pro vytvoření skupiny řečníků C z referenční databáze se nejvíce používají tyto metody: Metoda náhodných podvodníků RI (Random Impostor) [2] Do skupiny C je přiřazeno K náhodně vybraných řečníků z referenční množiny, pak log p( O/ λ ) je vypočteno jako kde: U log p( O / λ ) = log p( O / λ ) = φ ( k, RI λ ) U RI max log p( O / λ k = 1,... K k-tý náhodně vybraný model φ ( k, RI ) ), (30) Metoda nejbližších podvodníků CI (Closes Impostor) [6] Do skupiny C je přiřazeno K nejbližších řečníků k referenčnímu řečníkovi, pak log p( O/ λ ) je vypočteno jako kde: U K 1 φ ( k, CI ) log p( O / λ U ) = log p( O / λci ) = log p( O / λ ), (31) K φ ( k, CI ) k = 1 λ k-tý nejbližší model k referenčnímu modelu Tento přístup však předpokládá, že za řečníka se bude vydávat někdo s podobným hlasem. Pokud má řečník velmi odlišný hlas než řečník s proklamovanou identitou, je φ ( k, CI ) modelován špatně jak modelem λ, tak referenčním modelem λ. V tomto případě φ( k, CI) bude malý rozdíl mezi log p( O / λ ) a log p( O/ λ ), což může vést k přijetí podvodníka. Řešení této situace je modifikovat tuto metodu. Do skupiny C se nezahrnuje pouze K nejbližších řečníků, ale také M nejvzdálenějších (velmi odlišných) řečníků. Těchto M řečníků pak řeší výše uvedený problém. Velikost skupiny C je pak N=K+M, log p( O/ λ U) je pak určeno jako maximum z této skupiny namísto předchozího průměru log φ ( n, CI ) p( O / λ ) = log p( O / λ ) = max log p( O / λ ). (32) U CI n= 1... N
26 Metoda blízkých shluků podvodníků CIC (Close Impostor Clustering) [1,2] Tato metoda je vylepšením předchozí CI metody. Řeší problém, kdy nejbližší podvodníci nepokrývají celé okolí kolem referenčního modelu v prostoru řečníků, ale nechávají určitou část nechráněnou (viz obr.11). Metoda CIC spočívá ve vybrání K nejbližších řečníků (zde je K podstatně vyšší než u CI metody) do skupiny. Tato skupina řečníků je pak nashlukována do N shluků. Pro shlukování může být použita jakákoliv dostupná metoda. Z každého shluku je pak vybrán jeden řečník jako její reprezentant. Může jít o řečníka nejbližšího středu shluku, nebo nejbližšího referenčnímu řečníku. Pro vybranou skupinu reprezentantů shluků je pak log p( O/ λ ) dáno vzorcem U log N 1 φ ( n, CIC ) p( O / λ U ) = log p( O / λcic ) = log p( O / λ ), (33) N n= 1 kde: φ ( n, CIC ) λ model reprezentující n-tý shluk přidružený k modelu Obrázek 11. Porovnání metod CI a CIC 4.4. Druhy chyb ve verifikaci řečníka Ve verifikačních systémech rozlišujeme dvě chyby [6,7]: chybné přijetí nesprávného řečníka (False Acceptance) a chybné odmítnutí správného řečníka (False Rejection). Tyto dvě chyby jsou na sobě závislé, jejich vzájemný vztah ukazuje ROC-křivka (Receiver Operating Characterics) [8]. Hodnoty pravděpodobnosti FA a FR je ale výhodnější vynášet jako kvantity normálního rozložení, křivka se nazývá DET-křivkou (Detection Error Trade-off) [8]. Pro gaussovská rozložení FA a FR je DET-křivka lineární, v takovém zobrazení je pak snazší porovnání dvou podobných systémů (viz obr. 12 a 13). Pro ohodnocení správné činnosti verifikačních systémů se používá skalární veličina EER (Equal Error Rate). EER vyjadřuje procento správně rozpoznaných řečníků a odpovídá prahu, pro které jsou chyby FA a FR shodné. Používají se i jiná skalární ohodnocení, které mají jinak definovaný poměr FA a FR
27 Obrázek 12. DET křivka pro vyhodnocení rozpoznání řečníka Obrázek 13. ROC křivka pro stejná data jako obr
28 5. Programové řešení K ověření účinnosti jednotlivých normalizačních metod v úloze verifikace řečníka byla vytvořena sada programů provádějící výpočty na zadaných korpusech dat. Tyto programové moduly byly začleněny do verifikačního systému oap (tate of Art Partical), který je vyvíjen katedrou kybernetiky na ZČU. Dále se kapitola zabývá funkcí jednotlivých programů v rámci systému oap, udává požadavky na jejich bezproblémový chod a možnost jejich samostatného spuštění tručný popis oap Citace z dokumentace k systému viz [18] Ing Vaněk, J., Ing Padrta, A., peaker Verification ystem oap, dokumentace k systému, Plzeň, Verifikační systém oap je složen ze samostatně spustitelných modulů, které mají pevně definované rozhraní. Byl navržen zejména pro testování funkčnosti nových modulů. chéma systému je znázorněno na obr.14. Obrázek 14. chéma verifikačního systému oap Hlavní modul generuje dávkové soubory, které ve správném pořadí a s odpovídajícími parametry používají zbývající moduly. Provede, v souladu se vstupními soubory, vyhodnocení a výsledek uloží do zvoleného výstupního souboru. Modul parametrizace provede extrakci z dané promluvy *.wav a uloží výsledek do souboru *.prm. Modul modelování nejprve načte soubor s parametrizací *.prm, provede modelování a výsledek uloží do souboru *.mdl. Verifikační modul zajišťuje určení míry shody mezi testovací a trénovací nahrávkou (mezi vstupní parametrizovanou promluvou a modelem prohlašované identity). Výsledkem je číslo z intervalu <0,1>, kde 1 značí úplnou shodu a 0 úplnou rozdílnost. Funkce a předpoklady pro spuštění tohoto modulu jsou náplní zbývající části této kapitoly
29 5.2. Popis vytvořeného verifikačního modulu Verify_BGM2 Verifikační modul je součástí systému oap, je ale možná i jeho samostatná činnost, bez závislosti na zbytku modulů. Program Verify_BGM2.exe provádí nadefinované pořadí testů mezi vstupní parametrizovanou promluvou a zadaným modelem identity. Ověřuje, patří-li příchozí promluva řečníkovi, za kterého se vydává. Pro svou činnost používá různé metody normalizace. Jaký způsob normalizace se použije pro danou úlohu udává vstupní inicializační soubor. Výsledky verifikace ukládá do výstupního souboru. Program je spouštěn příkazem: Verify_BGM2.exe File.ini Trials.txt Data Model CohortFile Train.txt Results.txt,kde: File.ini.. konfigurační soubor Trials.txt.. soubor testů Data.. cesta k souborům s daty, tedy k parametrizovaným nahrávkám *.prm (př: "Param_Test\%04d.prm" ) Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Train.txt... soubor s čísly jednotlivých modelů řečníků Result.txt.. cílový soubor, obsahuje výsledky jednotlivých testů Jednotlivé soubory budou rozebrány a popsány v následující kapitole Vstupní/výstupní soubory verifikačního modulu - Konfigurační soubor verifikačního modulu udává parametry verifikace. Při spuštění programu Verify_BGM2.exe se tyto informace zapíší do paměti. truktura tohoto souboru s možným nastavením je uvedena níže: [COMPARE-BGM2] BGMDir = "BGModels" BGMinTXTformat = 1 AverageN = 1 Informace o modelu pozadí (BackGround Model). Jméno adresáře obsahující BGM. Nastaveni zda je BGM uložen v textovém formátu. Počet nejlepších BGModelů, jejichž výsledky se průměrují. FinalDecision = 0 Pro 1 je výsledek 1 nebo 0 (jinak hodnota z intervalu <0,1>). Thresh1 = 0.0 Hodnota prahu T, o kterou musí skóre řečníka překročit skóre normalizace, aby byl vektor přiřazen řečníkovi. Thresh2 = 50.0 Minimální procento vektoru, které musí být přiřazeno řečníkovi, aby mu patřila celá promluva (má smysl pouze pro nastaveni FinalDecision = 1). NumberOfModels=630 Počet modelů v testu. Normalization = 1 Typ normalizace:pro 0-WM, 1-UCN, 2-CN, 3-Tnorm, 4-UCEN, 5-CEN, 6-CN_N. NumberOfCohort = 1 Počet členů kohorty. NejmensiCohort = 3 Počet nejmenších členů kohorty ( z konce souboru s kohortniky), je uvažováno jen pro normalizaci typu CN_N. Zrychleni = 2 Kolik vzorku se bude v předvýběru přeskakovat. Predkohort = 0.2 Kolik procent z všech rečníků bude předvýběr
30 [MODEL-DB-GMM] MixturesNumber = 0 NormalizeJ = 0 FinalJValue = FinalJumm = 0 FinalRecluster = 0 UseCF = 0 avetxt = 1 Parametry pro načítání modelu. Ukončovací podmínka shlukovaní (pro hodnotu 0 se bude shlukovat do dosazení kriteria). Normalizace kriteria (nejen ukončovacího) počtem vektoru ve shluku (je-li nastaveno na 1). Ukončovací podmínka shlukovaní - hodnota kriteria (je-li takto shlukováno). Je-li nastaveno na 1, pak se počítá celkové kriterium (součet), jinak se bere max. kriterium. Zapnutí úplného přeshlukování na konec. Bude využita informace o činiteli jistoty. Formát uložení (TXT/BIN). - oubor s testy obsahuje jednotlivé testy daného experimentu. Na každém řádku souboru je uložené číslo promluvy a číslo proklamované identity (modelu), např.: Data značí cestu k parametrizovaným nahrávkám *.prm, které byly předchozími moduly systému oap zpracovány ze vstupních testových nahrávek (*.wav). Jsou uloženy v jednom adresáři a mají číselné jméno (např. 001.prm). - Model značí cestu k souborům s modely *.gmm, které byly předchozími moduly systému oap zpracovány ze vstupních trénovacích nahrávek (*.wav). Jsou uloženy v jednom adresáři a mají číselné jméno (např. 001.gmm). - CohortFile značí cestu k souborům s kohortou pro každého řečníka. oubor má na každém řádku uloženo číslo jiného řečníka (kohortníka), který má k němu blízko. V souboru jsou kohortníci seřazeni podle vzdálenosti od referenčního řečníka. Tyto soubory jsou předvytvořeny pomocí programu ort_loglike.exe nebo ort_models.exe (budou popsány v další kapitole). Příklad části jednoho souboru OffLineCohort001.txt (pro řečníka číslo 001): Train.txt je soubor s číslem jednotlivých modelů řečníků na řádkách, např.:
31 -Result.txt je cílový soubor, obsahuje výsledky jednotlivých testů experimentu. Na každém řádku je uloženo výsledné skóre (číslo z intervalu <0,1>) pro jeden test ze souboru testů, např.: Popis programů pro vytvoření kohorty Programy ort_loglike.exe a ort_models.exe slouží k vytvoření kohorty (množiny nejbližších řečníků = kohortníků k referenčnímu řečníku) jednotlivě pro všechny řečníky korpusu. Pro daného referenčního řečníka se spočte vzdálenost jeho modelu k ostatním modelům řečníků a ti se pak seřadí podle této vzdálenosti a vytvoří kohortu. Čísla seřazených kohortníků jsou uložena v souboru s názvem referenčního řečníka. Všechny soubory s kohortami k jednotlivým řečníkům jsou uloženy v jednom adresáři ort_loglike.exe Program provádí seřazení kohortníků (nejbližších řečníků) pomocí vzdálenosti podle Rosenberga či Reynoldse (viz kapitola ). Program je spouštěn příkazem: ort_loglike.exe File.ini Train.txt Data Model CohortFile, kde File.ini.. konfigurační soubor Train.txt.. soubor s čísly modelů Data.. cesta k souborům s daty, tedy k parametrizovaným nahrávkám *.prm (př: "Param_Test\%04d.prm" ) Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k výstupním souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Obsah konfiguračního souboru: [COMPARE-CN] NumberOfModels=630 ort=0 Parametry pro porovnání modelů. Počet modelů v testu. Typ kriteria pro určení vzdálenosti ref. model model (0-pro Rosenberg, cokoliv jiného pro Reynolds). Ostatní soubory jsou shodné s popisem v kapitole
32 ort_models.exe Program provádí seřazení kohortníků (nejbližších řečníků) podle vzdálenosti jednotlivých složek jejich modelů podle Battacharryan míry (viz kapitola ). Výsledná míra je pak dána součtem od jednotlivých složek. Program je spouštěn příkazem: ort_models.exe File.ini Train.txt Model CohortFile, kde File.ini.. konfigurační soubor Train.txt.. soubor s čísly modelů Model.. cesta k souborům s modely, tedy k souborům typu *.gmm (př: "Models\%04d.gmm"); CohortFile.. cesta k výstupním souborům s kohortou pro každého řečníka (př: "Cohort\OffLineCohort%03d.txt") Obsah konfiguračního souboru: [COMPARE-CN] Parametry pro porovnávání modelů. NumberOfModels=630 Počet modelů v testu. [MODEL-DB-GMM] Parametry pro načítání modelu. MixturesNumber = 0 Ukončovací podmínka shlukovaní (pro hodnotu 0 se bude shlukovat do dosazení kriteria). NormalizeJ = 0 Normalizace kriteria (nejen ukončovacího) počtem vektoru ve shluku (je-li nastaveno na 1). FinalJValue = Ukončovací podmínka shlukovaní - hodnota kriteria (je-li takto shlukováno). FinalJumm = 0 Je-li nastaveno na 1, pak se počítá celkové kriterium (součet), jinak se bere max. kriterium. FinalRecluster = 0 Zapnutí úplného přeshlukování na konec. UseCF = 0 Bude využita informace o činiteli jistoty. avetxt = 1 Formát uložení (TXT/BIN). Ostatní soubory jsou shodné s popisem v kapitole Výpočet EER CompEER_KW.exe Výpočet chyby EER verifikačního testu je prováděn pomocí programu CompEER_KW.exe, jehož tvůrcem je ing. Aleš Padrta. Program je spouštěn příkazem: CompEER_KW.exe Result.txt CorrectResults.txt Min tep Max EER.txt det.txt roc.txt, kde: Result.txt.. soubor s výsledky jednotlivých testů, je vytvořen souborem Verify_BGM.exe CorrectResults.txt.. soubor se správnými výsledky (po řádcích 1 nebo 0) Min.. minimální uvažovaná hodnota prahu tep.. počet bodů ROC/DET křivky Max.. maximální uvažovaná hodnota prahu EER.txt.. cílový soubor s údajem o velikosti chyby EER daného souboru testů. det.txt.. cílový soubor s body DET-křivky roc.txt.. cílový soubor s body ROC-křivky
33 6. Experimenty Účelem provedených experimentů bylo zjistit vliv normalizačních metod na úspěšnost rozpoznávání v úloze verifikace řečníka v uzavřené množině. Bylo provedeno několik experimentů s různými korpusy dat pro různé druhy normalizací v závislosti na velikosti kohorty pro normalizaci. Výsledky testů by měly ukázat nejen jaká z normalizačních metod je nejlepší, ale také pro jaké nahrávací podmínky je jaká z metod výhodnější, či jaká je optimální velikost kohorty Testované korpusy dat Jednotlivé korpusy se lišily v počtu řečníků, nahrávacích podmínkách i ve velikosti testovací/trénovací promluvy UWB-RobustVerify100CZ [19] Jde o nahrávky 100 českých řečníků, na které jsou vytvořeny modely. Ty jsou natrénovány z 20 vět. Model pozadí je natrénován z těchto řečníků, od každého dvě věty. Test je verifikací každého řečníka s každým. Pro test je použita jedna věta. Věty pro model pozadí, pro model řečníka a pro testy jsou různé. Vzorkovací frekvence je 44,1kHz. Pro účely tohoto korpusu byly nahrávky převzorkovány na 8kHz a uloženy s 16bitovou přesností. Model je tvořen 32 složkami GMM, stejně tak i model pozadí. Experiment obsahuje šest testovacích sad A až F. ada A je s neupravenými nahrávkami získanými přes jeden mikrofon. Z těchto dat jsou natrénovány modely. V sadách B až F jsou testovací nahrávky buď modifikovány, nebo pořízeny jiným způsobem. V sadě B je k testovacím nahrávkám přimíchán aditivní šum v náhodně zvoleném poměru NR 15 nebo 20bB. Náhodně je vybrán druh šumu ze čtyř prostředí: auto, vlak, ulice a metro. V sadě C je simulováno zkreslení kanálem. To spočívá ve zkreslení frekvenční přenosové charakteristiky ve čtyřech pásmech na náhodnou hodnotu mezi 0 30dB. ada D je kombinací sady B a sady C, tedy nahrávky ze sady B jsou zkresleny průchodem kanálu. Nahrávky ze sady E jsou pořízeny paralelně jiným mikrofonem, a kromě zkreslení kanálem je zde přítomen i stacionární aditivní šum. Nahrávky sady F jsou pořízeny přes telefon. Byly pořízeny v jinou dobu než předchozí, proto neobsahuje nahrávky všech řečníků, ale jen 74 dostupných DoD [20] Tento korpus byl nahrán při dnech otevřených dveří na katedře kybernetiky ZČU v roce Obsahuje 42 řečníků, kde test je verifikací každého řečníka s každým. Celý experiment tedy obsahuje 1764 porovnání. Délka trénovací nahrávky je přibližně dva odstavce textu. Délka testovací nahrávky je v délce jedné věty až jednoho odstavce. Dat pro modely pozadí je málo, protože většina řečníků namluvila pouze dvě promluvy. Kvalita nahrávek je průměrná, byl použit hlavový mikrofon, nahrávka obsahuje běžný hluk při dni otevřených dveří. Vzorkovací frekvence je 8kHz. Model je tvořen 32 složkami GMM, model pozadí je 256 složkový GMM
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceÚvod do zpracování signálů
1 / 25 Úvod do zpracování signálů Karel Horák Rozvrh přednášky: 1. Spojitý a diskrétní signál. 2. Spektrum signálu. 3. Vzorkovací věta. 4. Konvoluce signálů. 5. Korelace signálů. 2 / 25 Úvod do zpracování
Vícecv3.tex. Vzorec pro úplnou pravděpodobnost
3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P
VíceRozpoznávání izolovaných slov (malý slovník, např. číslovky, povely).
Rozpoznávání řeči Každý člověk má originální hlasové ústrojí a odlišný způsob artikulace, to se projevuje rozdílnou barvou hlasu, přízvukem, rychlostí řeči atd. I hlas jednoho řečníka je variabilní a závislý
VíceKlasifikace a rozpoznávání. Extrakce příznaků
Klasifikace a rozpoznávání Extrakce příznaků Extrakce příznaků - parametrizace Poté co jsme ze snímače obdržely data která jsou relevantní pro naši klasifikační úlohu, je potřeba je přizpůsobit potřebám
Víceoddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
VíceVlastnosti a modelování aditivního
Vlastnosti a modelování aditivního bílého šumu s normálním rozdělením kacmarp@fel.cvut.cz verze: 0090913 1 Bílý šum s normálním rozdělením V této kapitole se budeme zabývat reálným gaussovským šumem n(t),
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
VíceVYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ
VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ Michal Kořenář 1 Abstrakt Rozvoj výpočetní techniky v poslední době umožnil také rozvoj výpočetních metod, které nejsou založeny na bázi
VíceÚloha: Verifikace osoby pomocí dynamického podpisu
Cvičení z předmětu Biometrie Úloha: Verifikace osoby pomocí dynamického podpisu Jiří Wild, Jakub Schneider kontaktní email: schnejak@fel.cvut.cz 5. října 2015 1 Úvod Úloha má za cíl seznámit vás s metodami
VíceU Úvod do modelování a simulace systémů
U Úvod do modelování a simulace systémů Vyšetřování rozsáhlých soustav mnohdy nelze provádět analytickým výpočtem.často je nutné zkoumat chování zařízení v mezních situacích, do kterých se skutečné zařízení
VíceÚvod do biometrie. Vladimír Lieberzeit vladimir.lieberzeit@upek.com UPEK Inc.
Úvod do biometrie Vladimír Lieberzeit vladimir.lieberzeit@upek.com UPEK Inc. Obsah Úvod do biometrie, základy Přehled biometrických metod Otisky prstů trochu podrobněji Úvod do biometrie Úvod do biometrie
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VíceProjekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
VíceChyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
VíceROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky a mezioborových inženýrských studií ROZPOZNÁVÁNÍ AKUSTICKÉHO SIGNÁLU ŘEČI S PODPOROU VIZUÁLNÍ INFORMACE AUTOREFERÁT DISERTAČNÍ PRÁCE 2005 JOSEF CHALOUPKA
Vícebiometrických systémů a testování jejich spolehlivosti Přehled drahan@fit.vutbr.cz) Martin Drahanský (drahan(
Přehled biometrických systémů a testování jejich spolehlivosti Martin Drahanský (drahan( drahan@fit.vutbr.cz) VUT v Brně,, Fakulta informačních technologií, ÚITS, Martin Drahanský Biometrie Definice biometrie:
VíceJasové transformace. Karel Horák. Rozvrh přednášky:
1 / 23 Jasové transformace Karel Horák Rozvrh přednášky: 1. Úvod. 2. Histogram obrazu. 3. Globální jasová transformace. 4. Lokální jasová transformace. 5. Bodová jasová transformace. 2 / 23 Jasové transformace
VíceObr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.
Řešení příkladu - klasifikace testovacího subjektu pomocí Bayesova klasifikátoru: ata si vizualizujeme (Obr. ). Objem mozkových komor 9 8 7 6 5 pacienti kontroly testovací subjekt 5 6 Objem hipokampu Obr.
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceProfilování vzorků heroinu s využitím vícerozměrné statistické analýzy
Profilování vzorků heroinu s využitím vícerozměrné statistické analýzy Autor práce : RNDr. Ivo Beroun,CSc. Vedoucí práce: prof. RNDr. Milan Meloun, DrSc. PROFILOVÁNÍ Profilování = klasifikace a rozlišování
VíceSTATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
VícePosouzení přesnosti měření
Přesnost měření Posouzení přesnosti měření Hodnotu kvantitativně popsaného parametru jakéhokoliv objektu zjistíme jedině měřením. Reálné měření má vždy omezenou přesnost V minulosti sloužila k posouzení
Více1. Přednáška. Ing. Miroslav Šulai, MBA
N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy
VíceGlobální matice konstrukce
Globální matice konstrukce Z matic tuhosti a hmotnosti jednotlivých prvků lze sestavit globální matici tuhosti a globální matici hmotnosti konstrukce, které se využijí v řešení základní rovnice MKP: [m]{
VíceMATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
VíceTSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY
TSO NEBO A INVARIANTNÍ ROZPOZNÁVACÍ SYSTÉMY V PROSTŘEDÍ MATLAB K. Nováková, J. Kukal FJFI, ČVUT v Praze ÚPŘT, VŠCHT Praha Abstrakt Při rozpoznávání D binárních objektů z jejich diskrétní realizace se využívají
VíceZpracování digitalizovaného obrazu (ZDO) - Popisy III
Zpracování digitalizovaného obrazu (ZDO) - Popisy III Statistické popisy tvaru a vzhledu Ing. Zdeněk Krňoul, Ph.D. Katedra Kybernetiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Zpracování
VíceMaticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:
3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
VíceOdhad stavu matematického modelu křižovatek
Odhad stavu matematického modelu křižovatek Miroslav Šimandl, Miroslav Flídr a Jindřich Duník Katedra kybernetiky & Výzkumné centrum Data-Algoritmy-Rozhodování Fakulta aplikovaných věd Západočeská univerzita
VíceUČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
VíceVšechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a
Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a báli jste se zeptat Jedinečnou funkcí statistiky je, že umožňuje vědci číselně vyjádřit nejistotu v jeho závěrech. (G. W. Snedecor)
VíceČasové řady, typy trendových funkcí a odhady trendů
Časové řady, typy trendových funkcí a odhady trendů Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Jiří Neubauer (Katedra ekonometrie UO Brno) Časové
VíceČasové řady, typy trendových funkcí a odhady trendů
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces
Vícevzorek1 0.0033390 0.0047277 0.0062653 0.0077811 0.0090141... vzorek 30 0.0056775 0.0058778 0.0066916 0.0076192 0.0087291
Vzorová úloha 4.16 Postup vícerozměrné kalibrace Postup vícerozměrné kalibrace ukážeme na úloze C4.10 Vícerozměrný kalibrační model kvality bezolovnatého benzinu. Dle následujících kroků na základě naměřených
Více2. Schurova věta. Petr Tichý. 3. října 2012
2. Schurova věta Petr Tichý 3. října 2012 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci
Více5. Umělé neuronové sítě. Neuronové sítě
Neuronové sítě Přesný algoritmus práce přírodních neuronových systémů není doposud znám. Přesto experimentální výsledky na modelech těchto systémů dávají dnes velmi slibné výsledky. Tyto systémy, včetně
VíceCvičná bakalářská zkouška, 1. varianta
jméno: studijní obor: PřF BIMAT počet listů(včetně tohoto): 1 2 3 4 5 celkem Cvičná bakalářská zkouška, 1. varianta 1. Matematická analýza Najdětelokálníextrémyfunkce f(x,y)=e 4(x y) x2 y 2. 2. Lineární
VíceKlasifikace a rozpoznávání. Lineární klasifikátory
Klasifikace a rozpoznávání Lineární klasifikátory Opakování - Skalární součin x = x1 x 2 w = w T x = w 1 w 2 x 1 x 2 w1 w 2 = w 1 x 1 + w 2 x 2 x. w w T x w Lineární klasifikátor y(x) = w T x + w 0 Vyber
VíceSTANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák
STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ J. Pruška, T. Parák OBSAH: 1. Co je to spolehlivost, pravděpodobnost poruchy, riziko. 2. Deterministický a pravděpodobnostní přístup k řešení problémů.
VíceAlgoritmy a struktury neuropočítačů ASN P3
Algoritmy a struktury neuropočítačů ASN P3 SOM algoritmus s učitelem i bez učitele U-matice Vektorová kvantizace Samoorganizující se mapy ( Self-Organizing Maps ) PROČ? Základní myšlenka: analogie s činností
Více3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU
3 METODY PRO POTLAČENÍ ŠUMU U ŘE- ČOVÉHO SIGNÁLU V současné době se pro potlačení šumu u řečového signálu používá mnoho různých metod. Jedná se například o metody spektrálního odečítání, Wienerovy filtrace,
VíceDiskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky
Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky Interpretují rozdíly mezi předem stanovenými třídami Cílem je klasifikace objektů do skupin Hledáme
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ
VíceÚvodem Dříve les než stromy 3 Operace s maticemi
Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová
VíceKlasifikace hudebních stylů
Klasifikace hudebních stylů Martin Šimonovský (mys7@seznam.cz) Rozpoznávání hudby úloha z oblasti DSP klasifikace dle hudebních stylů
VíceVI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku
VI Maticový počet VI1 Základní operace s maticemi Definice Tabulku a 11 a 12 a 1n a 21 a 22 a 2n, a m1 a m2 a mn kde a ij R, i = 1,, m, j = 1,, n, nazýváme maticí typu m n Zkráceně zapisujeme (a ij i=1m
VíceVYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY
VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY Jan Krejčí 31. srpna 2006 jkrejci@physics.ujep.cz http://physics.ujep.cz/~jkrejci Obsah 1 Přímé metody řešení soustav lineárních rovnic 3 1.1 Gaussova eliminace...............................
VíceMATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]
MATICE Matice typu m/n nad tělesem T je soubor m n prvků z tělesa T uspořádaných do m řádků a n sloupců: a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij] a m1 a m2 a mn Prvek a i,j je prvek matice A na místě
VíceAlgoritmy a struktury neuropočítačů ASN - P11
Aplikace UNS při rozpoznání obrazů Základní úloha segmentace obrazu rozdělení obrazu do několika významných oblastí klasifikační úloha, clusterová analýza target Metody Kohonenova metoda KSOM Kohonenova
VíceTERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny
PŘEDZPRACOVÁNÍ DAT Radek Mareček TERMINOLOGIE Session soubor skenů nasnímaných během jednoho běhu stimulačního paradigmatu (řádově desítky až stovky skenů) Sken jeden nasnímaný objem... Voxel elementární
VíceSRE 03 - Statistické rozpoznávání
SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget ÚPGM FIT VUT Brno, burget@fit.vutbr.cz FIT VUT Brno SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 1/29 Opakování
VícePodobnostní transformace
Schurova věta 1 Podobnostní transformace a výpočet vlastních čísel Obecný princip: Úloha: Řešíme-li matematickou úlohu, je často velmi vhodné hledat její ekvivalentní formulaci tak, aby se řešení úlohy
VíceTeorie náhodných matic aneb tak trochu jiná statistika
Teorie náhodných matic aneb tak trochu jiná statistika B. Vlková 1, M.Berg 2, B. Martínek 3, O. Švec 4, M. Neumann 5 Gymnázium Uničov 1, Gymnázium Václava Hraběte Hořovice 2, Mendelovo gymnázium Opava
VíceZÁKLADY AUTOMATICKÉHO ŘÍZENÍ
VYSOKÁ ŠKOLA BÁŇSKÁ TECHNICKÁ UNIVERZITA OSTRAVA FAKULTA STROJNÍ ZÁKLADY AUTOMATICKÉHO ŘÍZENÍ 1. týden doc. Ing. Renata WAGNEROVÁ, Ph.D. Ostrava 2013 doc. Ing. Renata WAGNEROVÁ, Ph.D. Vysoká škola báňská
VíceÚvod do optimalizace, metody hladké optimalizace
Evropský sociální fond Investujeme do vaší budoucnosti Úvod do optimalizace, metody hladké optimalizace Matematika pro informatiky, FIT ČVUT Martin Holeňa, 13. týden LS 2010/2011 O čem to bude? Příklady
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceVektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace
Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceSemestrální projekt. Vyhodnocení přesnosti sebelokalizace VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. Fakulta elektrotechniky a komunikačních technologií
VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta elektrotechniky a komunikačních technologií Semestrální projekt Vyhodnocení přesnosti sebelokalizace Vedoucí práce: Ing. Tomáš Jílek Vypracovali: Michaela Homzová,
VíceJana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
VíceCharakterizují kvantitativně vlastnosti předmětů a jevů.
Měřicí aparatura 1 / 34 Fyzikální veličiny Charakterizují kvantitativně vlastnosti předmětů a jevů. Můžeme je dělit: Podle rozměrů: Bezrozměrné (index lomu, poměry) S rozměrem fyzikální veličiny velikost
VíceA/D převodníky - parametry
A/D převodníky - parametry lineární kvantování -(kritériem je jednoduchost kvantovacího obvodu), parametry ADC : statické odstup signálu od kvantizačního šumu SQNR, efektivní počet bitů n ef, dynamický
VíceÚvod do problematiky měření
1/18 Lord Kelvin: "Když to, o čem mluvíte, můžete změřit, a vyjádřit to pomocí čísel, něco o tom víte. Ale když to nemůžete vyjádřit číselně, je vaše znalost hubená a nedostatečná. Může to být začátek
Více8. Sběr a zpracování technologických proměnných
8. Sběr a zpracování technologických proměnných Účel: dodat v částečně předzpracovaném a pro další použití vhodném tvaru ucelenou informaci o procesu pro následnou analyzu průběhu procesu a pro rozhodování
VíceAlgoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně
Aplikace UNS v biomedicíně aplikace v medicíně postup při zpracování úloh Aplikace UNS v medicíně Důvod: nalezení exaktnějších, levnějších a snadnějších metod určování diagnóz pro lékaře nalezení šetrnějších
VíceÚlohy nejmenších čtverců
Úlohy nejmenších čtverců Petr Tichý 7. listopadu 2012 1 Problémy nejmenších čtverců Ax b Řešení Ax = b nemusí existovat, a pokud existuje, nemusí být jednoznačné. Často má smysl hledat x tak, že Ax b.
VíceNáhodné chyby přímých měření
Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.
VíceInferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů
Inferenční statistika - úvod z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů Pravděpodobnost postupy induktivní statistiky vycházejí z teorie pravděpodobnosti pravděpodobnost, že
Více1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.
VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceSTANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA
STANOVENÍ CHARAKTERU SEGMENTU ŘEČI S VYUŽITÍM REÁLNÉHO KEPSTRA Oldřich Horák Univerzita Pardubice, Fakulta ekonomicko-správní, Ústav systémového inženýrství a informatiky Abstract: The extraction of the
Více4. Aplikace matematiky v ekonomii
4. Aplikace matematiky v ekonomii 1 Lineární algebra Soustavy 1) Na základě statistických údajů se zjistilo, že závislost množství statku z poptávaného v průběhu jednoho týdne lze popsat vztahem q d =
VíceAlgoritmy pro shlukování prostorových dat
Algoritmy pro shlukování prostorových dat Marta Žambochová Katedra matematiky a informatiky Fakulta sociálně ekonomická Univerzita J. E. Purkyně v Ústí nad Labem ROBUST 21. 26. leden 2018 Rybník - Hostouň
Více1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15
Úvodní poznámky... 11 1. Vlastnosti diskretních a číslicových metod zpracování signálů... 15 1.1 Základní pojmy... 15 1.2 Aplikační oblasti a etapy zpracování signálů... 17 1.3 Klasifikace diskretních
VíceNeuronové časové řady (ANN-TS)
Neuronové časové řady (ANN-TS) Menu: QCExpert Prediktivní metody Neuronové časové řady Tento modul (Artificial Neural Network Time Series ANN-TS) využívá modelovacího potenciálu neuronové sítě k predikci
Více5 1. Úvod Automatického rozpoznávání řeči (Automatic Speech Recognition, ASR) je obor, ve kterém aktivní výzkum probíhá již od 60. let minulého století. V dnešní době nachází široké uplatnění, např. v
VíceKonvoluční model dynamických studií ledvin. seminář AS UTIA
Konvoluční model dynamických studií ledvin Ondřej Tichý seminář AS UTIA.. Obsah prezentace Scintigrafická obrazová sekvence a její analýza Konstrukce standardního modelu a jeho řešení Experiment Ovlivnění
Vícepřesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod
přesnost (reprodukovatelnost) správnost (skutečná hodnota)? Skutečná hodnota použití různých metod Měření Pb v polyethylenu 36 různými laboratořemi 0,47 0 ± 0,02 1 µmol.g -1 tj. 97,4 ± 4,3 µg.g -1 Měření
VícePravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
VíceKybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
VíceNÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:
NÁHODNÁ ČÍSLA TYPY GENERÁTORŮ, LINEÁRNÍ KONGRUENČNÍ GENERÁTORY, TESTY NÁHODNOSTI, VYUŽITÍ HODNOT NÁHODNÝCH VELIČIN V SIMULACI CO JE TO NÁHODNÉ ČÍSLO? Náhodné číslo definujeme jako nezávislé hodnoty z rovnoměrného
VíceČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE
ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA STAVEBNÍ OBOR GEODÉZIE A KARTOGRAFIE KATEDRA VYŠŠÍ GEODÉZIE název předmětu úloha/zadání název úlohy Základy fyzikální geodézie 3/19 Legendreovy přidružené funkce
VíceAutentizace. Ing. Miloslav Hub, Ph.D. 10. října 2007
Autentizace Ing. Miloslav Hub, Ph.D. 10. října 2007 Identifikace versus autentizace Identifikace je tvrzení subjektu o své identitě. Identitou subjektu může být jeho totožnost, skupinová příslušnost, schopnost,
VíceAplikovaná numerická matematika
Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních
VíceNáhodné (statistické) chyby přímých měření
Náhodné (statistické) chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně
Více7 Další. úlohy analýzy řeči i a metody
Pokročilé metody rozpoznávánířeči Přednáška 7 Další úlohy analýzy řeči i a metody jejich řešení Výsledky rozpoznávání (slovník k 413k) frantisek_vlas 91.92( 90.18) [H= 796, D= 10, S= 60, I= 15, N=866,
VíceOdhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
Více2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení
2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků
VíceImplementace Bayesova kasifikátoru
Implementace Bayesova kasifikátoru a diskriminačních funkcí v prostředí Matlab J. Havlík Katedra teorie obvodů Fakulta elektrotechnická České vysoké učení technické v Praze Technická 2, 166 27 Praha 6
VíceUsuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
Více