Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie"

Marek Netrval
před 6 lety
Počet zobrazení:

1 Klasifikace a rozpoznávání Bayesovská rozhodovací teorie

2 Extrakce příznaků Granáty Jablka Četnost Váha [dkg]

3 Pravděpodobnosti - diskrétní příznaky Uvažujme diskrétní příznaky váhové kategorie Nechť tabulka reflektuje skutečné pravděpodobnosti jednotlivých kategorií nejlehčí lehčí lehký střední těžký těžší nejtěžší [kg]

4 Apriorní pravděpodobnost Stav věci Hádej co mám za zády, jablko nebo granát? Klasifikační pravidlo: Vyber čeho je nejvíc Třída s největší apriorní pravděpodobností (a-priori probability) P (granát) = 5 15 P ω P (ω) = 1 P (jablko) = nejlehčí. -.1 lehčí lehký střední.3.4 těžký.4.5 těžší.5.6 nejtěžší.6.7 [kg]

5 Společná pravděpodobnost Je to těžké. Hádej co to je? Klasifikační pravidlo: Ve sloupci váhové kategorie vyber nejčastější třídu Třída s největší společnou pravděpodobností (joint probability) pravděpodobnost chlívečku. ale také největší podmíněnou pravděpodobností (viz další slajd) P (granát, těžký) = P (jablko, těžký) = 6 P ω,x P (ω, x) = nejlehčí. -.1 lehčí lehký střední.3.4 těžký.4.5 těžší.5.6 nejtěžší.6.7 [kg]

6 Podmíněná pravděpodobnost Je to těžké. Z jakou pravděpodobností je to granát? Podmíněnou pravděpodobnost (conditional probability) - pravděpodobnost chlívečku dáno sloupec P (granát těžký) = nejlehčí lehčí lehký střední těžký těžší nejtěžší [kg]

7 Ještě nějaké další pravděpodobnosti P (granát) = 5 15 P(těžký) = P (granát těžký) = P (těžký granát) = 12 5 P (granát, těžký) = P (granát těžký)p (těžký) = P (granát, těžký) = P (těžký granát)p (granát) = nejlehčí lehčí lehký střední těžký těžší nejtěžší [kg]

8 Bayesův teorém Posteriorní pravděpodobnost (posterior probability) Věrohodnost (likelihood) Apriorní pravděpodobnost (prior probability) P (ω x) = P (x ω)p (ω) P (x) Evidence Věrohodnost nás zatím moc nezajímala, ale za chvíli to bude hlavní co se budeme snažit odhadovat z trénovacích dat. Již dříve jsme viděli že (product rule): Pro evidenci platí (sum rule): P (ω, x) = P (x ω)p (ω) P (x) = P ω P (ω, x) např.: P (těžký) = P (granát, těžký) + P (jablko, těžký) =

9 Maximum a-posteriori (MAP) klasifikátor Mějme 2 třídy ω 1 a ω 2 Pro daný příznak x vyber třídu ω s větší posteriorní pravděpodobností P(ω x) Vyber ω 1 pouze pokud: P (ω 1 x) > P (ω 2 x) P (x ω 1 )P (ω 1 ) P (x) > P (x ω 2)P (ω 2 ) P (x) P (ω 1, x) > P (ω 2, x)

10 Maximum a-posteriori (MAP) klasifikátor Pro každé x minimalizuje pravděpodobnost chyby: P(chyby x) = P(ω 1 x) pokud vybereme ω 2 P(chyby x) = P(ω 2 x) pokud vybereme ω 1 Pro dané x vybíráme třídu ω s větším P(ω x) minimalizace chyby Musíme ovšem znát skutečná rozložení P(ω x) nebo P(x,ω) nebo P(x ω) a P(ω), které reflektují rozpoznávaná data Obecně pro N tříd Vyber třídu s největší posteiorní pravděpodobností: arg max ω P (ω x) = arg max ω p(x ω)p (ω)

11 Spojité příznaky P(.) bude pravděpodobnost p(.) bude hodnota funkce rozložení pravděpodobnosti P (x (a, b)) = R b a p(x)dx Bude nás zajímat funkce rozložení pravděpodobnosti příznaků podmíněné třídou p(x ω) 3.5 p(x ω 1 ) p(x ω 2 ) Plocha pod funkci musí být 1 Hodnoty mohou být ale libovolné kladné.7 [kg]

12 Bayesův teorém spojité příznaky P (ω x) = p(x ω)p (ω) p(x) p(x ω) p(ω, x) = p(x ω)p(ω) p(ω x) 3.5 p(x ω 1 ) p(x ω 2 ) 2.5 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) 1 x x x P(ω 1 x) P(ω x) 2

13 MAP klasifikátor spojité příznaky Opět se budeme rozhodovat podle: P (ω 1, x) > P (ω 2, x) nebo P (ω 1 x) > P (ω 2 x) 2.5 p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) p(ω, x) 1 p(ω x) Na obrazcích vidíme, že obě pravidla vedou ke stejným rozhodnutím P(ω 1 x) x P(ω 2 x) x

14 MAP klasifikátor pravděpodobnost chyby Říkali jsme, že MAP klasifikátor minimalizuje pravděpodobnost chyby Plocha pod funkci společného rozložení pravděpodobnosti p(ω,x) v určitém intervalu x je pravděpodobnost výskytu vzoru třídy ω s příznakem v daném intervalu Jaká je tedy celková pravděpodobnost, že klasifikátor udělá chybu? Pravděpodobnost, že modrá třída je chybně klasifikována jako červená p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) Jakákoli snaha posunout hranice povede jen k větší chybě p(x ω 1 )P(ω 1 ) p(x ω 2 )P(ω 2 ) p(ω, x) p(ω, x) x x

15 Posteriorní pravděpodobnosti pro různé apriorní pravděpodobnosti Změna apriorních pravděpodobností tříd může vézt k různým rozhodnutím P (ω 1 ) = 1 3, P(ω 2) = 2 3 P (ω 1 ) = 1 2, P (ω 2) = 1 2 P (ω 1 ) = 99 1, P(ω 2) = 1 1 P(ω 1 x) P(ω 2 x) P(ω 1 x) P(ω 2 x) x x x P(ω 1 x) P(ω 2 x)

16 Vícerozměrné příznaky Místo jednorozměrného příznaku máme N rozměrný příznakový vektor x =[x 1, x 2,, x N ] např. [váha, červenost] MAP klasifikátor opět vybírá nejpravděpodobnější třídu p(ω, x) x 1 x 2

18 Parametrické modely Pro rozpoznávání s MAP klasifikátorem jsme doposud předpokládali, že známe skutečná rozloženi P(ω x) nebo P(x,ω) nebo P(x ω) a P(ω) Ve skutečnosti ale většinou známe jen trénovací vzory Pokusíme se tato rozložení odhadnout z dat budeme trénovat statistické modely silence unvoiced voiced

19 Parametrické modely Můžeme se pokusit modelovat přímo posteriorní pravděpodobnost, a tu použít přímo k rozpoznávání P(ω x) tzv. diskriminativní trénování Ale o tomto bude řeč až později Běžnější je odhadovat rozložení P(x ω) a P(ω) Tato rozložení popisují předpokládaný proces generování dat generativní modely Nejprve se musíme rozhodnout pro formu modelu, který použijeme. (např. gaussovské rozložení) silence unvoiced voiced

20 Gaussovské rozložení (jednorozměrné) N (x; μ, σ 2 ) = 1 σ 2π (x μ) 2 e 2σ p(x) x

22 Gaussovské rozložení (dvourozměrné) 1 N (x; μ, Σ) = (2π)P Σ e 1 2 (x μ)t Σ 1 (x μ) p(x) x 2 x 1

26 Odhad parametrů modelu s maximální věrohodností ˆΘ class ML = arg max Θ Y x i class p(x i Θ) Hledáme taková nastavení parametrů rozložení pravděpodobnosti Θ, které maximalizuje věrohodnost trénovacích dat (Maximum Likelihood, ML) V následujících příkladech předpokládáme, že odhadujeme parametry nezávisle pro jednotlivé třídy. Pro zjednodušení notace tedy u rozložení neuvádíme závislost na třídě ω, pouze na jejích parametrech Θ. Modely kterými se budeme zabývat jsou: Gaussovské rozloženi Směs gaussovských rozložení (Gaussian Mixture Model, GMM) V následujících přednáškách přibudou další (např. HMM)

27 Gaussovské rozložení (jednorozměrné) N (x; μ, σ 2 ) = 1 σ 2π (x μ) 2 e 2σ 2 p(x) ML odhad parametrů: μ = 1 T P i x i σ 2 = 1 T Pi (x i μ) x

28 Gaussovské rozložení (dvourozměrné) 1 N (x; μ, Σ) = (2π) P Σ e 1 2 (x μ)t Σ 1 (x μ) p(x) x 2 2 ML odhad of parametrů: μ = 1 T P i x i x 1 Pi (x i μ)(x i μ) T Σ = 1 T

29 Směs gaussovských rozložení GMM p(x Θ) = P c P cn (x; μ c, Σ c ) p(x) kde Θ = {P c, μ c, Σ c } P c P c = x 2 x 1

30 Gaussian Mixture Model Evaluation: p(x Θ) = P c P cn (x; μ c, σ 2 c ) Vzoreček můžeme chápat jen jako něco co definuje tvar funkce hustoty pravděpodobnosti nebo jej můžeme vidět jako složitější generativní model,který generuje příznaky následujícím způsobem: Napřed je jedna z gaussovských komponent vybrána tak aby respektovala apriorní pravděpodobnosti P c Příznakový vektor se generuje z vybraného gaussovského rozložení. Pro vyhodnoceni modelu ale nevíme, která komponenta příznakový vektor generovala a proto musíme marginalizovat (suma přes gaussovské komponenty násobené apriorními pravděpodobnostmi)

31 Training GMM Viterbi training Intuitive and Approximate iterative algorithm for training GMM parameters. Using current model parameters, let Gaussians to classify data as the Gaussians were different classes (Even though the both data and all components corresponds to one class modeled by the GMM) Re-estimate parameters of Gaussian using the data associated with to them in the previous step. Repeat the previous two steps until the algorithm converge.

32 Training GMM EM algorithm Expectation Maximization is very general tool applicable in many cases were we deal with unobserved (hidden) data. Here, we only see the result of its application to the problem of re-estimating parameters of GMM. It guarantees to increase likelihood of training data in every iteration, however it does not guarantees to find the global optimum. The algorithm is very similar to Viterbi training presented above. Only instead of hard decisions, it uses soft posterior probabilities of Gaussians (given the old model) as a weights and weight average is used to compute new mean and variance estimates. ˆμ (new) c = ˆσ 2 c (new) = γ ci = P Pi γ cix i i γ ci Pi γ ci(x i ˆμ (new) c ) 2 P i γ ci P cn (x i ;ˆμ (old) c,ˆσ 2(old) c ) Pc P cn (x i ;ˆμ (old) c,ˆσ c 2(old) )

Podobné dokumenty

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka