Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H i ) P(E) H MAP = H J právě když P(E H J ) P(H J ) = max i (P(E H i ) P(H i )) hypotéza s maximální věrohodností H ML = H J právě když P(E H J ) = max i P(E H i )) princip minimální deskripční délky: H MAP = H J právě když log 2 P(E H J ) + log 2 P(H J ) = max i (log 2 P(E H i ) + log 2 P(H i )) resp. H MAP = H J právě když log 2 P(E H J ) log 2 P(H J ) = min i ( log 2 P(E H i ) log 2 P(H i )) P. Berka, 2011 1/10
Naivní bayesovský klasifikátor P(H E 1,,E K ) = P(E 1,,E K H) P(H) P(E 1,,E K ) = P(H) P(E 1,,E K ) K P(E k H) k=1 hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J ) K P(E k H J ) = max Hi (P(H i ) k=1 K P(E k H i )) k=1 Učení jako aproximace (třída modelů s pevně danou strukturou) - výpočet P(H i ) a P(E k H i ) ze čtyřpolní tabulky (lze odhadnout pravděpodobnosti pro všechny 4 kombinace) H i E k a i b E k c i d H i P(H i ) = P(E k H i ) = a i + c i a i + b + c i + d a i a i + c i Problémy při výpočtu P(E k H i ); co když a i =0, proto různé korekce (viz CN2) Laplaceova korekce m-odhad a i + 1 a i + c i + R a i + m f K a i + c i + m P. Berka, 2011 2/10
příklad: klient příjem konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano P(úvěr(ano)) = 8/12 P(příjem(nízký) úvěr(ano)) = 3/8 P(konto(střední) úvěr(ano)) = 2/8 P(pohlaví(žena) úvěr(ano)) = 4/8 P(nezaměstnaný(ne) úvěr(ano)) = 5/8... P(úvěr(ne)) = 4/12 P(příjem(nízký) úvěr(ne)) = 4/4 P(konto(střední) úvěr(ne)) = 2/4 P(pohlaví(žena) úvěr(ne)) = 2/4 P(nezaměstnaný(ne) úvěr(ne)) = 1/4... Odvozování (inference) Pro ženu, která má nízký příjem, střední konto a není nezaměstnaná: P(úvěr(ano)) P(příjem(nízký) úvěr(ano)) P(konto(střední) úvěr(ano)) P(pohlaví(žena) úvěr(ano)) P(nezaměstnaný(ne) úvěr(ano)) = 0.0195 P(úvěr(ne)) P(příjem(nízký) úvěr(ne)) P(konto(střední) úvěr(ne)) P(pohlaví(žena) úvěr(ne)) P(nezaměstnaný(ne) úvěr(ne)) = 0.0208 uchazečka bude zařazena do třídy úvěr(ne) (tento příklad nebyl v trénovačích datech, klasifikátor má tedy schopnost generalizovat) P. Berka, 2011 3/10
Bayesovské sítě reprezentace znalosti o částečně nezávislých evidencích Acyklický orientovaný graf: hrany jsou pravděpodobnostní závislosti mezi náhodnými veličinami (uzly) ke každému uzlu u je přiřazena pravděpodobnostní distribuce tvaru P(u rodiče(u)) sdružená pravděpodobnostní distribuce sítě n P(u 1,.,u n ) = P(u i rodiče(u i )) i=1 Př1: P(Po,N,Pr,K,U) = P(Po) P(N) P(Pr Po,N) P(K) P(U Pr,N,K) P. Berka, 2011 4/10
P(Po(muž)) = 6/12 = 1/2 P(Po(žena)) = 6/12 = 1/2 P(N(ne)) = 6/12 = 1/2 P(N(ano)) = 6/12 = 1/2 P(Pr(vysoký) Po(muž),N(ne)) = 2/4 = 1/2 P(Pr(vysoký) Po(muž),N(ano)) = 0, je třeba korekce... Odvozování (inference) P(U(ano) Pr(vysoký)) = P(U(ano),Pr(vysoký)) P(Pr(vysoký)) = ijk P(Po(i),N(j),Pr(vysoký),K(k) U(ano)) ijkl P(Po(i),N(j),Pr(vysoký),K(k) U(l)) = ijk P(Po(i)) P(N(j)) P(Pr(vysoký) Po(i),N(j)) P(K(k)) P(U(ano) Pr(vysoký),N(j),K(k)) ijkl P(Po(i)) P(N(j)) P(Pr(vysoký) Po(i),N(j)) P(K(k)) P(U(l) Pr(vysoký),N(j),K(k)) Př2: naivní Bayes P(H,E 1,E 2,,E K ) = P(H) P(E 1 H) P(E 2 H). P(E k H) P. Berka, 2011 5/10
Učení: pravděpodobnosti (učení jako aproximace) struktura i pravděpodobnosti (učení jako prohledávání) 1. Známá struktura, veličiny plně pozorovatelné metoda maximálně věrohodného odhadu P(Pr(v) Po(m),N(a)) = četnost(pr(v),po(m),n(a)) četnost(po(m),n(a)) 2. Známá struktura, veličiny částečně pozorovatelné nepozorovatelné hodnoty lze spočítat z hodnot pozorovatelných pomocí inference v síti gradientní metoda ln P(D h) p ijk = P(Y i =y ij,u i =u ik d) p ijk d D p ijk = p ijk + P(Y i =y ij,u i =u ik d) p ijk d D P. Berka, 2011 6/10
EM algoritmus EM Algoritmus Inicializace Náhodně zvol parametry distribuce Hlavní cyklus 1. Na základě parametrů distribuce spočítej hodnoty skrytých veličin 2. Z takto spočítaných hodnot urči maximálně věrohodný odhad parametrů distribuce 3. Pokud došlo ke změně parametrů, vrať se k bodu 1. 3. Neznámá struktura, veličiny plně pozorovatelné prohledávání prostoru modelů např. pro každý uzel u při max. počtu 4 rodičů v i uvažovat (rodiče) P. Berka, 2011 7/10
Weka - Naivní Bayesovský klasifikátor Weka - Hill Climbing Weka - GA prohledávání 4. Neznámá struktura, veličiny částečně pozorovatelné EM + prohledávání prostoru modelů P. Berka, 2011 8/10
Systémy 1. Naivní Bayesovský klasifikátor Bayda z univerzity v Helsinkách (http://www.cs.helsinki.fi/research/cosco/) RoC z Open University ve Velké Britanii (http://kmi.open.ac.uk/projects/bkd/) AutoClass NASA (http://ic.arc.nasa.gov/ic/projects/bayesgroup/autoclass/) 2. Bayesovské sítě komerční Hugin dánská firma Hugin http://www.hugin.com Netica, kanadská firma Norsys http://www.norsys.com volně šířené GeNIe z univerzity v Pittsburgu (http://www2.sis.pitt.edu/~genie/), BN Power Constructor z univerzity v Albertě (http://www.cs.ualberta.ca/~jcheng/bnsoft.htm) P. Berka, 2011 9/10
Bayesian Knowledge Discoverer z Open University (http://kmi.open.ac.uk/projects/bkd/) P. Berka, 2011 10/10