SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget ÚPGM FIT VUT Brno, burget@fit.vutbr.cz FIT VUT Brno SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 1/29
Opakování - Klasifikace Pomineme-li cost, problem klasifikace se dvěmi třídami se dá formulovat jako: rozhodni ω 1 pokud p(x ω 1 )P (ω 1 ) > p(x ω 2 )P (ω 2 ), jinak ω 2 0.35 0.3 p(x ω 1 )P(ω 1 ) x p(x ω 2 )P(ω 2 ) 0.25 0.2 0.15 0.1 0.05 0 3 2 1 0 1 2 3 4 5 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 2/29
Opakování - Model pro likelihood Likelihood urciteho vektoru x ziskame vyhodnocenim modelu rozlozeni hustoty pravdepodobnosti dane tridy. Trida modelovana gaussovskym rozlozenim: p(x ω j ) = N (x; µ j, Σ j ) Trida modelovana smesi gaussovskych rozlozeni: p(x ω j ) = M α ji N (x; µ ji, Σ ji ) i=1 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 3/29
Opakování - Smes gaussovskych rozlozeni Dve tridy, kazda modelovana 3-mi gaussovkami 2D data 7 0.5 0.4 0.3 0.2 0.1 6 5 4 3 6 2 4 1 2 0 0 2 0 1 2 3 4 5 6 7 8 9 1 2 0 1 2 3 4 5 6 7 8 9 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 4/29
Opakování - Celkova likelihood mnoziny dat pro jednu tridu Predpokladame, ze jednotlive clasifikovane udalosti - vektory - jsou na sobe statisticky nezavisle p(x 1, x 2, x 3,... ) = p(x 1 )p(x 2 )p(x 3 )... p(x ω) = ln p(x ω) = N p(x k ω) k=1 N ln p(x k ω) k=1 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 5/29
Opakování - Maximum likelihood odhad parametru Hledame takove parametry modelu Θ (napr. {µ, Σ, α}), ktere maximalizuji celkovou likelihood trenovacich dat: F ML (Θ) = J N j j=1 k=1 ln p Θ (x j k ω j) J je pocet trid a x j k jsou trenovaci vektory pro j-tou tridu, kterych je N j. Reseni pro modelovani kazde tridy jednou gaussovkou: Prosty odhad strednich hodnot a kovariancnich matic z dat pro danou tridu. Reseni pro GMM: Pomoci EM iterativniho algoritmu: ˆµ m = N k=1 γ m(k)x k N k=1 γ m(k) γ m (k) je pravdepodobnost okupovani m-te gaussovky vektorem x k vypoctena na zaklade soucasnych parametru modelu µ m, Σ, α SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 6/29
Opakování - Priklad vypoctu γ m (k) 0.45 p(x ω 1 ) = α 1 N(x, µ 1, σ 2 1 ) + α 2 N(x, µ 2, σ2 2 ) 0.4 0.35 α 1 N(x, µ 1, σ 2 1 ) α 2 N(x, µ 2, σ 2 2 ) 0.3 x 1 0.25 p(x ω 2 ) = α 3 N(x, µ 3, σ 2 3 ) 0.2 0.15 0.1 0.05 0 3 2 1 0 1 2 3 4 5 γ 1 (1) = α 1N (x,µ 1,σ 2 1 ) p(x 1 ω 1 ) 3 5 x 1 je trenovacim vektorem tridy ω 1, γ 2 (1) = α 2N (x,µ 2,σ 2 2 ) p(x 1 ω 1 ) 2 5 γ 3 (1) = 0 zatimco 3-ti gaussovka patri ke tride ω 2 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 7/29
Priklad - ML odhad GMM parametru 8 7 6 5 4 3 2 1 0 1 2 0 1 2 3 4 5 6 7 8 9 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 8/29
Vyhody a nevyhody ML odhadu parametru Vyhody: Jednoduchy a rychly zpusob odhadu parametru Minimalni mozna chybe klasifikace za predpokladu: nekonecneho mnozstvi trenovacich dat zvoleni modelu, ktery umoznuje verne modelovat skutecne rozlozeni pravdepodobnosti pro jednotlive tridy (napr. GMM s velkym mnozstvym gaussovek; GMM predpoklada statistickou nezavyslost vektoru. Odpovida to skutecnosti?) Nevyhody: Pro spravnou funkci klasifikatoru je potreba pouze spravne urcit rozhodovaci hranice, ale ML se snazi co nejverneji modelovat rozlozeni trid ve vsech detailech plytvani parametu modelu SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 9/29
Diskriminativni trenovani - Maximum Mutual Information Estimation I F ML (Θ) = F MMI (Θ) = = J N j j=1 k=1 J N j j=1 k=1 J N j j=1 k=1 ln p Θ (x j k ω j) ln P Θ (ω j x j k ) ln p Θ (x j k ω j)p (ω j ) J l=1 p Θ(x j k ω l)p (ω l ) MMI objektivni funkce, kterou se snazime maximalizovat je: pravdepodobnost, ze vsechny trenovaci vektory budou rozpoznany spravne. MMI objektivni funkce je tim vetsi, cim vice kazdy vektor vyhovuje rozlozeni sve tridy (stejne jako ML), ale take cim mene vyhovuje rozlozeni konkurencnich trid. SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 10/29
Diskriminativni trenovani - Maximum Mutual Information Estimation II Reseni pro GMM: pomoci Generalized EM algoritmu: ˆµ m = N k=1 (γnum m N k=1 (γnum m (k) γm den (k))x k + D m µ m (k) γm den (k)) + D m γm num (k) a γm den (k) jsou pravdepodobnost okupovani m-te gaussovky vektorem x k vypoctena na zaklade soucasnych parametru modelu µ m, Σ, α γm num (k) - trenovaci vektory mohou okupovat pouze gaussovky sve tridy (jako u ML) γm den (k) - trenovaci vektory mohou okupovat i gaussovky konkurencnich trid D m - vyhlazovaci konstanta (napr. D m = 2 γm den (k)) nutna pro stabilitu metody SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 11/29
Priklad vypoctu γm num (k) a γm den (k) 0.5 p(x ω 1 ) + p(x ω 1 ) p(x ω 1 ) = α 1 N(x, µ 1, σ 2 1 ) + α 2 N(x, µ 2, σ2 2 ) 0.4 α 1 N(x, µ 1, σ 2 1 ) α 2 N(x, µ 2, σ 2 2 ) x 1 0.3 p(x ω 2 ) = α 3 N(x, µ 3, σ 2 3 ) 0.2 0.1 0 3 2 1 0 1 2 3 4 5 γ num 1 (1) = α 1N (x,µ 1,σ 2 1 ) p(x 1 ω 1 ) 3 5 γ den 1 (1) = α 1N (x,µ 1,σ 2 1 ) p(x 1 ω 1 )+p(x 1 ω 2 ) 3 5 γ num 2 (1) = α 2N (x,µ 2,σ 2 2 ) p(x 1 ω 1 ) 2 5 γ den 2 (1) = α 2N (x,µ 2,σ 2 2 ) p(x 1 ω 1 )+p(x 1 ω 2 ) 2 6 γ num 3 (1) = 0 γ den 3 (1) = α 3N (x,µ 3,σ 2 3 ) p(x 1 ω 1 )+p(x 1 ω 2 ) 1 6 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 12/29
Priklad - MMI odhad GMM parametru 8 7 6 5 4 3 2 1 0 1 2 0 1 2 3 4 5 6 7 8 9 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 13/29
Diskriminativni trenovani - Minimum Clasification Error F MCE (Θ) = J N j j=1 k=1 sig ( ln ) p Θ (x j k ω j)p (ω j ) l j p Θ(x j k ω l)p (ω l ) MCE objektovni funkce aproximuje pocet korektne rozpoznanych vektoru. sig(x) = 1 1 e αx SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 14/29
Maximum a-posteriori odhad parametru Nyni uvazujme pouze jednu tridu, pro kterou hledame MAP odhad parametru. Pro dane trenovaci data X a apriorni rozlozeni parametru p(θ) hledame: ˆΘ = arg max Θ p(θ X) kde p(θ X) = p(x Θ)p(Θ) p(x Θ)p(Θ)dΘ p(x Θ)p(Θ) N p(x k Θ)p(Θ) k=1 V nasledujicich prikladech budem uvazovat poze tridu modelovanou gaussovskym rozlozenim a budeme odhadovat jen µ (σ 2 vudeme povazovat za znamou konstantu) SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 15/29
Priklad 1. - MAP odhad µ gaussovskeho rozlozeni 0.5 p(x µ=0) p(µ) 0.4 0.3 0.2 0.1 0 5 4 3 2 1 0 1 2 3 4 5 µ X 0.6 0.5 ML odhad MAP odhad p(µ) 0.4 0.3 0.2 0.1 0 5 4 3 2 1 0 1 2 3 4 5 µ X SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 16/29
Priklad 2. - MAP odhad µ gaussovskeho rozlozeni SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 17/29
p(µ X) pro gausovské rozložení, kde p(µ) je také dano gausovským rozložením ( ) ) ( ) Pomucka: N (x k ; µ, σ 2 ) = 1 σ exp (x µ)2 2π 2σ exp ( x2 2xµ+µ 2 2 2σ exp x2 2xµ 2 2σ 2 p(µ X) N k=1 p(x k µ)p(µ) N k=1 ( ) ( N k=1 exp (x k µ) 2 2σ 2 exp ( exp N (x k ; µ, σ 2 )N (µ; µ pri, σ 2 pri) (µ µ pri) 2 2σ 2 pri N k=1 x2 k 2µ N k=1 x k + Nµ 2 2σ 2 ) µ2 2µµ pri + µ 2 pri 2σ 2 pri ( exp (Nσ2 pri + σ2 )µ 2 2(σpri 2 N k=1 x ) k + σ 2 µ pri )µ 2σ 2 σpri 2 P µ 2 N 2 σ2 pri k=1 x k+σ 2 µ pri µ Nσpri exp 2 +σ2 N 2 σ2 σ 2 pri Nσ 2 pri +σ2 ) ( µ; σ2 P Nk=1 pri x k +σ 2 µ pri ) σ 2 σ pri 2 Nσ pri 2, +σ2 Nσ pri 2 +σ2 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 18/29
MAP odhad µ pro gausovské rozložení, kde p(µ) je také gausovské rozložením U gausovského rozložení, kde p(µ) je také definováno gausovským rozložením, je tedy a-posteriori rozložní dáno vztahem: N k=1 p(µ X) = N µ; x k + σ2 µ σ 2 pri pri σ 2, N + σ2 N + σ2 σ 2 pri σ 2 pri MAP odhad µ potom je dan stredni hodnotou p(µ X): ˆµ MAP = N k=1 x k + σ2 σ 2 pri µ pri N + σ2 σ 2 pri Bayesovské rozpoznávání P (ω X test ) p(ω)p(x test ω) = p(ω) p(x test ω, Θ)p(Θ X train )p(θ)dθ SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 19/29
Adaptace Úkol: Máme model dobře natrénovaný na velkém množství trénovacích dat. Ale chceme jej použít v novém nebo specifičtějsím prostředí (nový mikrofon, konkrétní mluvčí). Modely chceme přiypůsobit novému prostředí pomicí malého množství adaptačních dat. Adaptace s učitelem (supervised) vs. bez učitele (unsupervised) Supervised: Unsupervised: Bloková vs. inkrementální SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 20/29
MAP Adaptace MAP odhad parametrů, kde p(θ) je odvozeno z dříve natrénovaného modelu. Priklad: Třídy modelovány gaussovkami Adaptujeme pouze střední hodnoty; p(µ) = N (µ; µ pri, µ pri ) µ pri - dáno sředními dodnotami natrénovanými na všech trénovacích datech σ pri - variance středních hodnot modelů natrénovaných pro růné podmínky (podmnožiny trénovacích dat; např. různí mluvčí v trénovacích datech). SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 21/29
MAP Adaptace - gaussovské rozlození pro data i p(µ) Jednodužší obvyklé řešení: σ 2 pri = σ2 τ Supevised: τ 5 µ m adapt = P N m k=1 x m k +τµm pri N m +τ Unsupevised: µ m adapt = P N k=1 γ m(k)x k +τµ m pri P N k=1 γ m(k)+τ SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 22/29
MAP Adaptace µ i σ 7 6 Unadapted τ = 50 τ = 10 5 4 3 2 1 0 1 2 0 1 2 3 4 5 6 7 8 9 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 23/29
Adaptace s odhadem omezeného počtu parametrů Úkol: Přizpůsobení parametrů modelu adaptačním datům, pomocí transformace, která má ve srovnání s modelem mnohem méně parametrů. Příklad: Konstantní posun středních hodnot při modelování p(x ω) gaussovkami. Jak zjistíme b? Například pomocí ML kriteria: N J j F ML (b) = ln N (x j k ; µ j + b, σ 2 ) j=1 k=1 Možnost použití i jiného kriteria. Např: MAP zname-li p(b) MMI diskriminativni adaptace SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 24/29
MLLR adaptace (GMM, HMM) ML kriterium µ adapt j = Aµ j + b = Wξ j, kde ξ j = 1 µ j Reseni: ŵ i = G (i) 1 k (i)t G (i) = M m=1 1 σ (m)2 i ξ (m) ξ (m)t N k=1 γ m (k) k (i) = M N m=1 k=1 γ m (k)x i k σ (m)2 i ξ (m)t SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 25/29
MLLR adaptace (GMM, HMM) 8 6 4 2 0 2 4 0 1 2 3 4 5 6 7 8 9 SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 26/29
MLLT N (x; µ, Σ) = det(a) N (Ax; Aµ, AΣA T ) F ML (b) = J N j j=1 k=1 ln det(a) N (Ax j k ; Aµ j, diag(aσ j A T )) SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 27/29
MLLT SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 28/29
Zaver Ruzna objektivni (kriterialni) funkce lze pouzit k reseni ruznych uloh optimalizace ruznych parametru ML diskriminativni (MMI, MCE, MPE,...) MAP... Odhad parametru Adaptace MLLT... Ruzne kriteria lze take kombinovat: Diskriminativni MLLR MMI-MAP - diskriminativni odhad s vyuzitim a-priori rozlozeni parametru... Zobecneni pro HMM je primocare: γ m (k) γ sm (k) SRE 03 - Statistické rozpoznávání vzorů II Lukáš Burget, ÚPGM FIT VUT Brno, 2006/07 29/29