SRE 2 - Statistické rozpoznávání vzorů Jan Černocký ÚPGM FIT VUT Brno, cernocky@fit.vutbr.cz FIT VUT Brno SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 1/6
Plán... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 2/6
Statistical pattern recognition the art of taking in raw data and making an action based on the category of the pattern SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 3/6
input Technicky... sensing segmentation feedback... feature extraction classification missing features context post processing costs decision SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 4/6
Příklad SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 5/6
I. Snímání Co se dá o rozpoznávaných předmětech poznat? obraz, tlak, teplota, hmostnost, zvuk, pach? jak tyto veličiny prakticky získat, jde to vůbec a kolik to bude stát? jaké vlastnosti bude mít snímač a převod veličina číslo? DC offset šum linearita kalibrace stárnutí atd. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 6/6
II. Segmentace pokud jsou vzorky izolované, OK... jenže ony často nejsou: 4 x 14 3 2 1 1 2 3 4 2 4 6 8 1 12 navíc problém kontextu, který segmentaci mění... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 7/6
Musíme udělat alespoň nějakou segmentaci a-priori: N l ram s ram p ram Segmentace je pak součástí klasifikačního procesu: při rozpoznávání odhad pravděpodobností všech tříd pro všechny rámce, Viterbiho dekódování. při trénování forced alignment opět Viterbi, který optimálně natahuje segmenty na data. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 8/6
III. Výpočet příznaků Příznaky musí být především použitelné pro klasifikaci - průměr jablka / granátu?... nic moc. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 9/6
Váha a podíl červené složky v obrázku?... to už je lepší. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 1/6
Invariantnost příznaků translace (místo v obrázku, čas v řeči) rotace scale (velikost v obrázku, volume v řeči) occlusion (zakrytí objektu vs. maskování šumem) projective distorition (úhel pohledu, optika) rate (rychlost v řeči intra- a inter-speaker variabilita) deformace atd. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 11/6
IV. Klasifikace do klasifikátoru vstupují příznakové vektory: x = x 1. x P např. x = úkolem je rozhodnout se pro jednu ze tříd: diskriminativní linie (decision boundary). tvrdé rozhodnutí vs. poskytnutí skóre. weight %red SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 12/6
Tvar separační linie: lineární, nelineární SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 13/6
Problém neřešitelný pro lineární klasifikátor SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 14/6
Tvar separační linie: přetrénováno... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 15/6
Generalizace: složitá separační linie vede ke 1% rozpoznání trénovacích dat. ale může klasifikátor zcela zblbnout. testování na cross-validačních (CV) datech. Problémy klasifikátoru: Co když závisí feature na kontextu? (prohloubení dopravníku jablek/granátů, koartikulace v řeči). šum ve featurech opět generalizace. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 16/6
V. Post-processing: nastavení podle kontextu (např. změna kalibrace červené po nákupu červené lampy). určení detekčního prahu. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 17/6
Správná rozhodnutí: p(apple apple), Špatná rozhodnutí: p(apple grenade), p(grenade apple). p(grenade grenade). Pokud by šlo o detekční úlohu (často o ni jde!) a třída k detekci by byla granát, pak: p(apple grenade) MISS p(grenade apple) FALSE ALARM. Nastavení detekčního prahu podle ceny (cost) špatného rozhodnutí. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 18/6
nechceme, aby se dostal granát do marmelády čas pyrotechnika je drahý a má moc práce kvantifikace costu: c(m iss), c(f A) + a-priorní pravděposobnosti tříd. více, až s námi někdo budete dělat NIST evaluace. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 19/6
The design cycle: start collect data choose features choose model prior knowledge train model evaluate classifier end Co jiného? Výpočetní náročnost (memory/disk/cpu footprint) možnost adaptace (supervised/unsupervised/block/incremental)? SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 2/6
Bayesovská teorie rozhodování (klasifikace) notace: P ( ) bude opravdová pravděpodobnost, p( ) bude hodnota funkce rozložení pravděpodobonosti (probability density function - PDF) - likelihood (sorry, český ekvivalent věrohodnost není nic moc). stav věci (state of the nature): třída ω: ω 1 =granát, ω 2 =jablko. a-priori pravděpodobnost tříd: P (ω i ), pro slušné pravděpodobosti platí: c P (ω i ) = 1 i=1 pro nás například: P (ω 1 ) =.99, P (ω 2 ) =.1. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 21/6
Hodně blbý klasifikátor o klasifikované věci nevíme nic. klasifikační pravidlo (decision rule): rozhodni ω 1 pokudp (ω 1 ) > P (ω 2 ), jinak ω 2... hm hm, hodně blbé, hlavně u sekvence, kde už jsme 99 rozhodli jablko. Naštěstí většinou něco víme: třídně podmíněná funkce hustoty rozdělení pravděpodobnosti Class-conditional probability density function p(x ω i ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 22/6
Jak na class-conditional probability density function? Nejprve představa s diskrétními hodnotami: chci zjistit, jak je pravděpodobné, že je to granát, když je to těžké: lehký těžký jablko 8 19 granát 1 9 společná (joint) pravděpodobnost: P (granát, těžký) = 9/1 =.9 podmíněná (conditional) pravděpodobnost: P (granát těžký) = P (granát, těžký) P (granát) =.9.1 =.9 (9%) SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 23/6
Spojité hodnoty - nutno definovat podmíněné funkce hustoty rozdělení pravděpodobnosti. 3.5 x 1 3 3 p(x ω 1 ) p(x ω 2 ) 2.5 2 1.5 1.5 1 2 3 4 5 6 7 weight Rozhodování pouze na základě těchto funkcí? Dost nebezpečné, protože neberou v úvahu priors. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 24/6
Společná funkce hustoty rozložení pravděpodobnosti (joint probability density function) se dá zapsat dvěma způsoby: p(ω j, x) = P (ω j x)p(x) = p(x ω j )P (ω j ) (všimněte si, co jsou pravděpodobnosti a co PDF s!). Pak: P (ω j x) = p(x ω j)p (ω j ) p(x) P (ω j x) je to, co chceme! - pravděpodobnost ω j, když vidíme x - posterior p(x ω j ) je podmíněná funkce hustoty rozdělení pravděpodobnosti - viz obrázek - likelihood. P (ω j ) je apriorní pravděpodobnost třídy ω j - prior. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 25/6
p(x) je suma čitatelů pro všechny třídy tak, aby P (ω j x) byla slušná pravděpodobnost: c P (ω j x) = 1 nepodíĺı se na rozhodování, ale pouze normalizační faktor - evidence. j=1 p(x) = posterior = c p(x ω j )P (ω j ) j=1 likelihood prior evidence SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 26/6
Posteriory pro různé priors: 1) P (ω 1 ) = P (ω 2 ) =.5 2) P (ω 1 ) =.99, P (ω 2 ) =.1, 1.9 P(ω 1 x) P(ω 2 x) 1.9.8.8.7.7.6.6.5.5.4.4.3.3.2.2.1 1 2 3 4 5 6 7 weight.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 27/6
3) P (ω 1 ) = 1/3, P (ω 2 ) = 2/3, 4) tentýž případ bez normalizace. 1.9 2.5 x 1 3 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ).8 2.7.6 1.5.5.4 1.3.2.5.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight 1 2 3 4 5 6 7 weight SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 28/6
Rozhodování Minimializace pravděpodobnosti chyby: P (ω 1 x) pokud rozhodneme ω 2 P (chyba x) = P (ω 2 x) pokud rozhodneme ω 1 P (error) = P (error, x)dx = P (error x)p(x)dx Pokud bude všude P (error x) co nejmenší, pak i integrál bude co nejmenší. Jak na to? Pak bude což je určitě ta nejmenší možná chyba. rozhodni ω 1 pokud P (ω 1 x) > P (ω 2 x), jinak ω 2 P (error x) = min[p (ω 1 x), P (ω 2 x)], Evidence není důležitá (je pro všechny třídy stejná), klidně můžeme: rozhodni ω 1 pokud p(x ω 1 )P (ω 1 ) > p(x ω 2 )P (ω 2 ), jinak ω 2 Pozor, úplně jsme zapomněli na cost!!! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 29/6
Co ještě chybí I. - Vektory Vektory příznaků namísto skalárů - jednoduché, všude napíšeme x namísto x: Úkol 1: Co je jaká funkce? P (ω j x) = p(x ω j)p (ω j ) p(x) Úkol 2: Představte si normalizační funkci evidence: c p(x) = p(x ω j )P (ω j ) j=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 3/6
Co ještě chybí II. - Akce a jejich costy Namísto rozhodnutí můžeme definovat nějaké akce: α 1 - do marmelády, α 2 - k pyrotechnikovi. Definujeme jejich loss (průserovost) v závislosti na třídách: λ(α i ω j ) akce / třída jablko granát do marmelády 2 (dělníci musí dělat) 5 (vybuchlá marmeládovna) k pyrotechnikovi 1 (totálně nasraný pyrotechnik) 1 (nasraný pyrotechnik) Definice podmíněného nebezpečí (conditional risk) v závislosti na datech: R(α i x) = c λ(α i ω j )P (ω j x) j=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 31/6
1.9 25 R(α 1 x) R(α 2 x).8 2.7.6 15.5.4 1.3.2 5.1 P(ω 1 x) P(ω 2 x) 1 2 3 4 5 6 7 weight 1 2 3 4 5 6 7 weight Pro každé x vybereme takovou akci α i, která má nejmenší risk. Celkový risk je pak: R = R(α(x) x)p(x)dx Pokud uděláme výběr min R(α i x), dosáhneme minimální celkový Bayessovský risk R (minimum overall Bayes risk). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 32/6
Jak budeme třídy modelovat? Gaussovkama! Gaussovo (normální) rozdělení pravděpodobnosti. Jednorozměrné - univariate [ p(x) = 1 σ 2π exp 1 ( ) ] 2 x µ 2 σ = N (x; µ, σ 2 ) Parametry: µ = E[x] = σ 2 = E[(x µ) 2 ] = xp(x)dx (x µ) 2 p(x)dx SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 33/6
SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 34/6
Příkládky... 2 1.8 1.6 1.4 µ=, σ=1 µ=, σ=5 µ=, σ=.2 µ=5, σ=1 µ=5, σ=5 µ=5, σ=.2 1.2 p(x) 1.8.6.4.2 5 5 1 x SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 35/6
Jsou hodnoty Gaussovky od do 1? NE!!! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 36/6
Vícerozměrné - multivariate 1 p(x) = (2π) d 2 Σ 1 2 exp [ 1 ] 2 (x µ)t Σ 1 (x µ) = N (x; µ, Σ) vektorová střední hodnota - mean: µ = E[x] = xp(x)dx Kovarianční matice: Σ = E[(x µ)(x µ) T ] = (x µ)(x µ) T p(x)dx Pro představu - jejich prvky: µ i = E[x i ] σ ij = E[(x i µ i )(x j µ j )] SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 37/6
Příkládky....1.2.15.5.1.5.5.5.1.15.1 1.2 1 5 5 1 5 5 1 x 2 5 5 x 1 x 2 5 5 x 1.2.1.1.2.3 1 5 5 1 x 2 5 5 x 1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 38/6
Diaognální kovarianční matice - pouze srovnané Gaussovky p(x) = P N (x i ; µ i, σ i ) = i=1 P i=1 1 e [x i µ i ] 2 2σ i 2 σ i 2π.15.1.5.5.1.15.2.25.3 1.1.5.5.1.15.2.25.3 1.2.2.4.6.8.1 15 5 x 2 5 5 x 1 5 1 5 x 2 5 1 5 x 1 5 1 1 5 x 2 5 5 x 1 5 1 15 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 39/6
Diskriminační funkce mezi Gaussovkami p(x) nepřispívá ke klasifikacei P (ω j x) = p(x ω j)p (ω j ) p(x) pracujeme v logaritmu - je jedno s jakým základem, voĺıme přirozený ln diskriminační funkce jsou dány: g j (x) = ln p(x ω j ) + ln P (ω j ) srovnáním pro dvě třídy dostaneme diskriminační linii. Pro Gaussovky se dá počítat analyticky. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 4/6
Case 1: Σ i = σ 2 I SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 41/6
Case 1a: Σ i = σ 2 I včetně biasu P (ω j ) SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 42/6
Case 2: Σ i = Σ... doplnit... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 43/6
Case 2: Σ i = cokoliv SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 44/6
Maximum-LIkelihood odhad OK, víme, jak udělat klasifikátor, ale kde získat jeho parametry? předpokládáme, že máme datové sety D 1,..., D C k jednotlivým třídám. D j representují p(x ω j ) i.i.d. independent, identically distributed. třídy jsou dány svými parametry Θ j (např. µ j, Σ j nebo směs Gaussovek). my máme z D j určit parametry Θ j (předpokládáme, že vektory z jiných tříd nejsou pro ω j relevenantní. v dalším výkladu jen D, Θ. Likelihood dat p(d Θ) = n k=1 p(x k Θ) používáme, protože jsme řekli, že vektory x k budou nezávislé. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 45/6
Hledáme takové ˆΘ, které p(d Θ) maximalizuje Ilustrace: SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 46/6
Pár definic gradientní operátor: Θ = δ δθ 1 δ δθ P log-liikelihood funkce (na základu nezáleží): l(θ) = ln p(d Θ) = n ln p(x k Θ) k=1 hledáme ˆΘ = arg max Θ l(θ) A jako vždy, když se hledá maximum, položíme derivaci rovnou nule: Θ l = n Θ ln p(x k Θ) =. k=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 47/6
Danger 1: Pozor, neměli bychom chtít Maximum A-Posteriori (MAP) odhad ˆΘ = arg max Θ kde p(θ) je a-priori pravděpodobnost parametrů? l(θ)p(θ), ML je vlastně MAP pro konstantní (ploché) rozložení p(θ). Danger 2: Maximalizujeme sice likelihood, ale nikdo neví, zda to bude dobře diskriminovat! SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 48/6
ML-odhad parametrů Gaussovky - pouze µ p(x) = 1 (2π) d 2 Σ 1 2 exp [ 1 ] 2 (x µ)t Σ 1 (x µ) ln p(x µ) = 1 2 ln(2π)p 1 2 (x µ)t Σ 1 (x µ) Derivace - pomůcka pro symetrické matice: δ δx [xt Mx] = 2Mx. µ ln p(x µ) = 1 2 2Σ 1 (x k µ)( 1) = Σ 1 (x k µ) toto se položí rovno nule, v sumě pak: n Σ 1 (x k µ) = k=1 n (x k µ) = k=1 n ˆµ = 1 N k=1 x k SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 49/6
ML-odhad parametrů Gaussovky - pouze 1D, µ i σ 2 Minimalizace pro všechna data: [ p(x) = 1 σ 2π exp 1 2 ( ) ] 2 x µ ln p(x k Θ) = 1 1 ln 2πD 2 2D (x k µ) 2 Θ l = Θ ln p(x k Θ) = 1 D (x k µ) 1 2D + (x k µ) 2 2D 2 σ n 1D(x k µ) = k=1 n k=1 1 n 2D + k=1 (x k µ) 2 2D 2 = SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 5/6
Řešení:... tak toto už jsme někde viděli. ˆµ = 1 N ˆD = 1 N n k=1 x k n (x k µ) 2 k=1 Multi-variate - více matematiky, ale výsledky nebudou překvapující: n ˆµ = 1 N k=1 x k ˆΣ = 1 N n (x k ˆµ)(x k ˆµ) T k=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 51/6
Ukázka ML 1 bodů z každé třídy. těžce nediagonální lehce se překrývající. 7 6 5 4 3 x 2 2 1 1 2 1 2 3 4 5 6 7 8 9 x 1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 52/6
Diagonální Gaussovky 8 7 x 2 6 5 4 3 2.14.12.1.8.6.4 1.2 1 2 1 2 3 4 5 6 7 8 9 x 1 1 5 x 2 5 5 x 1 5 1... dost humus. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 53/6
Gaussovky s plnými Σ 1 8.2 6.15 x 2 4.1 2.5 1 2 4 2 2 4 6 8 1 x 1 5 x 2 5 5 x 1 5 1... lepší. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 54/6
Přesnější klasifikace - Gaussian Mixtures p(x ω j ) = N (x; µ j, Σ j ) p(x ω j ) = kde α ji jsou váhy jednotlivých Gaussovek a M i=1 α ji = 1. M α ji N (x; µ ji, Σ ji ), i=1 Pro všechna data je celková log-likelihood: ln p(d Θ) = n ln k=1 M α ji N (x k ; µ ji, Σ ji ) i=1 s maximalizací máme vážný problém (moc parametrů, suma v logaritmu). musíme na to jít iterativně - Expectation-maximization - EM. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 55/6
Základy algoritmu Expectation-maximization Známá data jsou X, ale také existuje něco, co neznáme: Y. Kompletní data: Z = (X, Y). likelihoods jsou (v závislosti na parametrech): p(z Θ) = p(x, y Θ) = p(y x, Θ)p(x Θ) p(x, Y Θ) je celková likelihood kompletních dat, p(x Θ) je celková likelihood nekompletních dat. Musíme mít k disposici alespoň nějaké parametry Θ (i 1), snažíme se o maximalizaci kritéria: X a Θ (i 1) jsou konstanty. Θ se snažíme najít. Q(Θ, Θ (i 1) ) = E[ln p(x, Y Θ) X, Θ (i 1) ] Y je náhodná proměnná daná rozložením hustoty pravděpodobnosti f(y X, Θ (i 1) ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 56/6
Snažíme se získat E integrováním přes všechny možné hodnoty y: Y: E[ln p(x, Y Θ) X, Θ (i 1) ] = ln p(x, y Θ)f(y X, Θ (i 1) )dy y Y toto je E-step nalezení výrazu pro expectation likelihoodu. M-step je nalezení maxima (derivace podle parametrů Θ, položení rovno nule): Iterace, nové parametry se stanou starými. Stopping criterion: malý nebo žádný přírůstek likelihood. nebo fixní počet kroků. Θ (i) = arg max Θ Q(Θ, Θ(i 1) ). SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 57/6
Expectation-maximization a Gaussian mixtures budeme ukazovat pouze pro jednu třídu (vše bude bez indexu j). vyslání datového vektoru x k některou z M Gaussovek je považováno za skrytou informaci: y k. likelihood této informace (pokud známe předchozí parametry a vektor x k ) se dá spočítat: p(y k x k, Θ (i 1) ) = α(i 1) y k N (x k ; µ y (i 1) k, Σ y (i 1) k ) p(x k Θ (i 1) ) p(x k Θ) je ovšem likelihood vyslání vektoru celou směsicí Gaussovek, kterou už jsme viděli: M α i N (x; µ i, Σ i ), i=1 SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 58/6
takže: p(y k x k, Θ (i 1) ) = α(i 1) y k M i=1 α(i 1) i N (x k ; µ y (i 1) k, Σ y (i 1) k ) N (x; µ (i 1) i, Σ (i 1) i ) neboli kolik páĺı daná Gaussovka je normalizováno součtem všech Gaussovek.... pak následuje brutální matematika: odvození Q(Θ, Θ (i 1) ). derivace podle α, µ, Σ. SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 59/6
Výsledky s parametry Θ (i 1) se pro každou Gaussovku spočítá occupation count : γ l (k) = α(i 1) l M i=1 α(i 1) i N (x k ; µ (i 1) l, Σ (i 1) N (x; µ (i 1) i l ), Σ (i 1) i ) a nové parametry jsou dány (omlouvám se za nepřítomnost stříšek ˆ)... α (i) l = 1 n n γ l (k) k=1 µ (i) l = n k=1 γ l(k)x k n k=1 γ l(k) Σ (i) l = n k=1 γ l(k)(x k µ (i) l )(x k µ (i) l n k=1 γ l(k) ) T Definice akumulátorů a příklad EM na datech... SRE 2 - Statistické rozpoznávání vzorů Jan Černocký, ÚPGM FIT VUT Brno, 25/6 6/6