Grafické pravděpodobnostní modely úvod Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz
pprůchod GPM blokem P1: úvod bayesovské sítě motivace a definice, jak nám grafy pomáhají podmíněná nezávislost, P2: usuzování použití sítě k predikci, různé algoritmy inferenčních strojů, P3: učení sítí z dat použití sítě k modelování, jak sítě slouží k pochopení vztahů mezi veličinami, P4: rozšíření a zajímavosti čas, spojité veličiny, neorientované grafy, P5: jednodušší znalostní modely jak je to v expertních systémech? příklady do zkouškového testu. A4M33RZN
pstruktura přednášky Motivace pro grafické modely prokletí dimenzionality obecného pravděpodobnostního modelu, obecný pravděpodobnostní model a znalosti? podmíněná nezávislost definice, příklady, grafový ekvivalent d-oddělení, shoda grafů vzhledem k podmíněné nezávislosti, typy grafických pravděpodobnostních modelů stručná kategorizace, bayesovské sítě základní myšlenka, příklad rodina se psem, základní úlohy a jejich obtížnost. Notace (pro binární náhodné veličiny): A... náhodná veličina, a... A = T rue, a... A = F alse, P r(a, B)... rozdělení sdružené p(ravděpodobno)sti (tabulka), P r(a, b) = P r(a = T rue, B = T rue)... pst konkrétní události (jedna položka v tabulce P r(a, B)). A4M33RZN
pproč ne obecný pravděpodobnostní model? Příklad: 3 tvrzení o světě (lidech), tvrzení pro každého buď platí nebo neplatí svět lze popsat sdruženou pstí, V: Osoba je vyšší než 180cm. M: Osoba je muž. Z: Osoba je žokej. žen a mužů je v populaci stejně, velcí jsou spíše muži, žokej je většinou malý muž V M Z Pr(V,M,Z) z v F F F 0.298 T F F T 0.002 T F T F 0.245 T F T T 0.005 T T F F 0.199 T T F T 0.001 F T T F 0.248 T T T T 0.002 F 1 pravděpodobnost platnosti věty je součtem pstí interpretací, v nichž platí Pr(v)= 0.199 + 0.001 + 0.248 + 0.002 = 0.45, 45% osob je vysokých, Pr(z v)= 1-0.001-0.002 = 0.997, 99.7% osob není vysokých nebo není žokej dále lze aplikovat libovolné pstní operace P r( v z) = P r( v,z) P r(z) = 0.007 0.01 = 0.7, 70% žokejů není vysokých pozoruji-li žokeje, bude na 70% menší než 180cm P r(m z) = P r(m,z) P r(z) = 0.007 0.01 = 0.7, 70% žokejů jsou muži vím-li, že je osoba žokej, bude na 70% také muž A4M33RZN
pproč ne obecný pravděpodobnostní model? klad modelu je v jeho univerzálnosti identická a jednoduchá struktura modelu pro všechny problémy, pro dostatečný počet vzorků zaručí konvergenci učení učením modelu chápeme odhad (sdružených) pravděpodobností, pro reálné úlohy nezvladatelný 2 n 1 pravděpodobností pro určení vztahů s n výroky pro diskrétní proměnné změna základu, pro spojité proměnné parametrické modely, odhad pstí nereálný pro experta, obtížné i experimentální stanovení z dat, i pokud bychom psti znali, exponenciální paměťové nároky a čas nutný pro inferenci zřejmé u sdružené spojité distribuční funkce, prokletí dimenzionality potřeba pozorování roste exp s počtem proměnných, pro reálné úlohy nepřehledný model neposkytuje explicitní znalost o doméně, vztahy mezi objekty zůstávají skryté v záplavě čísel. A4M33RZN
pjak bychom mohli model zjednodušit a zpřehlednit? použijeme znalosti o doméně: existuje vztah mezi všemi náhodnými proměnnými? v daném příkladu pohlaví ovlivňuje výšku i povolání, výška ovlivňuje povolání. zvoĺıme grafovou pravděpodobnostní reprezentaci lze vztahy zapsat ve formě grafu? jak tento grafický zápis interpretovat v pstním kontextu? stále potřebujeme 7 hodnost psti, nedochází ke zjednodušení, pouze přepisu, proč? hrana vede mezi všemi uzly, zatím nelze využít (podmíněné) nezávislosti. stále lze vyčíslit libovolnou sdruženou pst (a tím i libovolnou jinou pst) P r(v, m, z) = P r(m) P r(v m) P r(z v, m) = = 0.5 0.5 0.008 = 0.002 P r(m, z) = P r(v, m, z) + P r( v, m, z) = = 0.002 + 0.005 = 0.007 P r(m z) = P r(m,z) P r(z) = 0.007 0.01 = 0.7 A4M33RZN
p(podmíněná) nezávislost definice: A a B jsou podmíněně nezávislé za předpokladu C jestliže: P r(a, B C) = P r(a C) P r(b C), A, B, C, P r(c) 0 značíme A B C (podmíněnou závislost A B C) (klasická nezávislost A a B: P r(a, B) = P r(a) P r(b)) jedna pozorování dělají jiná pozorování nezajímavými za předpokladu podmíněné nezávislosti platí: P r(b C) = P r(b A, C) a P r(a C) = P r(a B, C), pozoruji-li C, stává se pro určení B pozorování A nadbytečným, pozoruji-li C, stává se pro určení A pozorování B nadbytečným. Příklad 1: výskyt infarktů (I) roste s prodejem zmrzliny (Z), veličiny I a Z jsou závislé: P r(i z) > P r(i), oboje ale roste pouze vlivem teploty (T), podmíněně k T jsou I a Z nezávislé: P r(i Z, T ) = P r(i T ). A4M33RZN
p(podmíněná) nezávislost Příklad 2: vzdělaní prarodiče (PhDg) mají vzdělané děti (PhD): P r(phd phdg) > P r(phd) znalost vzdělání rodičů (PhDp) činí prarodiče nepodstatnými: P r(p hd P hdp, P hdg) = P r(p hd P hdp) Příklad 3: ozáření (O) i kouření (K) zvyšují četnost výskytu rakoviny (R) O a K jsou zcela nezávislé veličiny: P r(o, K) = P r(o) P r(k) uvažujeme-li R zavádíme mezi O a K zdánlivou závislost!!! P r(o k, r) > P r(o k) Shrnutí Ad 1 a 2) podmíněná nezávislost střední proměnná vysvětluje závislost mezi těmi koncovými, Ad 3) nezávislost střední proměnná zavádí zdánlivou závislost. A4M33RZN
pgrafické pravděpodobnostní modely současně využívají teorii pravděpodobnosti a teorii grafů, graf = kvalitativní část modelu uzly reprezentují události / náhodné proměnné, hrany závislosti mezi nimi, podmíněnou nezávislost lze odečíst přímo z grafu. pravděpodobnost = kvantitativní část modelu lokální informace o uzlu a jeho sousedech, síla závislosti, způsob inference, odlišnosti v typech grafů (orientované/neorientované hrany, omezení), vyjádření psti a zaměření bayesovské sítě kauzální a pravděpodobnostní procesy, markovské sítě obrazy, skryté příčiny, datové toky deterministické výpočty, influenční diagramy rozhodovací procesy. A4M33RZN
pbayesovské sítě Bayesian or Bayes or belief or causal networks (BNs, CNs), Co je to bayesovská síť? orientovaný acyklický graf (directed acyclic graph DAG), uzly odpovídají náhodným proměnným (obvykle diskrétním), hrany odpovídají přímé podmíněné závislosti, uzly jsou anotované pravděpodobnostmi pst uzlu je podmíněna konjunkcí všech rodičovských uzlů, P r(p j+1 P 1,..., P j ) = P r(p j+1 rodice(p j+1 )) kořeny anotujeme rozložením apriorní psti, vnitřní uzly podmíněnými pstmi rodičů, ostatní (možné) závislosti se ignorují, Jak síť interpretovat? kompaktní reprezentace pravděpodobnostního rozložení za předpokladu podmíněné nezávislosti, kvalitativní část = graf, kvantitativní část = množina tabulek podmíněných pravděpodobností (conditional probability table CPT). A4M33RZN
pbayesovské sítě slevují z věrnosti a úplnosti popisu soustředí se na podstatné vazby, redukují tím složitost popisu a usuzování, úplný pravděpodobnostní model lze odvodit postupným rozkladem (faktorizací): P r(p 1, P 2,..., P n ) = P r(p 1 ) P r(p 2,..., P n P 1 ) = = P r(p 1 ) P r(p 2 P 1 ) P r(p 3,..., P n P 1, P 2 ) = = = P r(p 1 ) P r(p 2 P 1 ) P r(p 3 P 1, P 2 ) P r(p n P 1,..., P n 1 ) BNs jej zjednodušují na: P r(p 1,..., P n ) = P r(p 1 rodice(p 1 )) P r(p n rodice(p n )) tj. ostatní (možné) závislosti se ignorují, krajní mezí je naivní inference předpokládající nezávislost příznaků P r(p 1, P 2,..., P n ) = P r(p 1 ) P r(p 2 ) P r(p n ) pracuje pouze s marginálními pstmi lineární složitost vzhledem k počtu proměnných, používá se například při klasifikaci. A4M33RZN
pnaivní Bayesův klasifikátor speciální případ bayesovské sítě založený na čistě diagnostickém usuzování, uvažuje podmíněnou nezávislost příznaků P 1,..., P k za předpokladu znalosti diagnózy D, cílová veličina určená předem. P r(d P 1,..., P k ) = P r(p 1,..., P k D) P r(d) P r(p 1,..., P k ) P r(p 1,..., P k D) = P r(p 1 D) P r(p 2 D) P r(p k D) A4M33RZN
ptypy spojení terminologie rodič - přímý předchůdce, potomek - přímý následník, předchůdce a následník - je mezi nimi orientovaná cesta, tři typy spojení divergentní koncové proměnné jsou závislé, fixací střední veličiny závislost mizí, střední veličina (denní doba) vysvětluje závislost, kriminalita denní doba spotřeba energie (a Př. 1 infarkty). lineární koncové proměnné jsou závislé, fixací střední veličiny závislost mizí, střední veličina (obor studia) vysvětluje závislost, Simpsonův paradox: pohlaví obor studia přijetí ke studiu (a Př. 2 PhD), konvergentní koncové proměnné jsou nezávislé, fixací střední veličiny zavádíme zdánlivou závislost, teplota prodej zmrzliny kvalita prodavače (a Př. 3 ozáření), analogie například s parciálními korelacemi. A4M33RZN
pd-oddělení na základě typů spojení lze určit podmíněnou nezávislost mezi množinami uzlů lineární a divergentní spojení propouští informaci pokud nepozorujeme střední uzel, konvergentní spojení propouští informaci pozorujeme-li střední uzel nebo jeho následníka. dvě množiny uzlů X a Y jsou d-odděleny množinou Z pokud platí všechny neorientované cesty mezi libovolnou dvojicí uzlů x X a y Y jsou blokovány na cestě leží lineární nebo divergující z Z, na cestě leží konvergující w / Z (ani žádný z následníků w nesmí být ze Z), d-oddělení je ekvivalentem podmíněné nezávislosti mezi X a Y za znalosti Z, nástroj abstrakce od 3 k více uzlům při studiu šíření informace sítí. A4M33RZN
pd-oddělení příklad, BN pro auto Ben, Start, Jede Bat, Rad Zap Ben Zap, Bat, Rad Jede {Ben, Start, Jede} a {Bat, Rad} p.nezáv Ben a {Zap, Bat, Rad} jsou p.závislé množiny jsou d-odděleny množiny nejsou d-odděleny neexistuje otevřená cesta mezi žádnou dvojicí uzel Jede jede otevírá alespoň jednu cestu Benzin x Baterie, Benzin x Radio atd. Ben je přes Start připojený k Zap vše blokuje pozorovaný střední lin.uzel pozorovaný následník středního konv.uzlu A4M33RZN
ptřídy markovské ekvivalence existují DAG třídy, které definují stejné vztahy podmíněné nezávislosti reprezentují identickou sdruženou distribuci, třídu markovské ekvivalence tvoří orientované acyklické grafy, které mají identický skeleton shodují se po zrušení orientace hran, obsahují stejnou množinu amoralit amoralita = podgraf 3 uzlů takový, že: X Z a Y Z, mezi X a Y nevede hrana, tj. shodují se množiny jejich nesezdaných rodičů, při učení nelze z dat rozlišit mezi různými grafy z jedné třídy, příklad 2 tříd ekvivalence (v první P 2 P 3 P 1, ve druhé naopak P 2 P 3 ), A4M33RZN
ptřídy markovské ekvivalence uvažujme všech 25 acyklických orientovaných grafů se 3 značenými uzly A4M33RZN
ptřídy markovské ekvivalence tvoří celkem 11 tříd markovské ekvivalence A4M33RZN
psledované vlastnosti kvalitativního modelu správnost (correctness) zjednodušení P r(p j+1 P 1,..., P j ) = P r(p j+1 rodice(p j+1 )) odpovídá realitě, každý uzel sítě je p.nezávislý na svých předchůdcích za předpokladu znalosti stavu rodičů, účinnost (efficiency) do grafu nezařadíme hrany ve skutečnosti neexistující, vztahy p.nezávislosti popíšeme minimálním nutným počtem hran, hrany navíc neohrozí správnost, zpomalují ale výpočet a znepřehledňují model, příčinnost (causality) orientace hran odpovídají skutečným vztahům příčina-následek, důsledky grafy ze stejné třídy markovské ekvivalence mají shodnou správnost i účinnost, DAG s plným počtem hran je vždy správný, velmi pravděpodobně ale neúčinný. A4M33RZN
psledované vlastnosti kvalitativního modelu příklad Bonbóny s překvapením se vyrábějí ve dvou příchutích: 70% je jahodových a 30% je sardelových. Každý bonbón je zpočátku kulatý, linka pak nejprve náhodně u jistého procenta bonbónů ořízne tvar na čtverec, následně se opět náhodně jisté procento bonbónů zabaĺı do červeného a zbytek do hnědého obalu. Při výrobě jahodových bonbónů se ořezává každý pátý kus, červeně se baĺı 3 ze 4. Při výrobě sardelových bonbónů se ořezává 90% kusů, stejné procento se baĺı hnědě. Bonbóny jsou prodávány po jednom, zabalené v identických černých krabičkách. Russell, Norvig: Artificial Intelligence: A Modern Approach. A4M33RZN
psledované vlastnosti kvalitativního modelu příklad Bonbóny s překvapením se vyrábějí ve dvou příchutích: 70% je jahodových a 30% je sardelových. Každý bonbón je zpočátku kulatý, linka pak nejprve náhodně u jistého procenta bonbónů ořízne tvar na čtverec, následně se opět náhodně jisté procento bonbónů zabaĺı do červeného a zbytek do hnědého obalu. Při výrobě jahodových bonbónů se ořezává každý pátý kus, červeně se baĺı 3 ze 4. Při výrobě sardelových bonbónů se ořezává 90% kusů, stejné procento se baĺı hnědě. Bonbóny jsou prodávány po jednom, zabalené v identických černých krabičkách. Obal T var žádný vztah nezávislosti, Obal T var Chut odporuje realitě. proto také žádný nereálný. souhlasí s realitou. A4M33RZN
ppravděpodobnostní síť příklad RODINA Rodinný dům a události v něm: rodina občas odjíždí mimo domov, světlo u domu může svítit, rodina má psa, zřídka nemocného, pes může být doma nebo venku, pes může štěkat. Vztahy mezi událostmi: při odjezdu často rozsvěcí světlo u domu, téměř vždy pustí psa ven, ten je venku, i když je nemocný, pes venku zpravidla štěká, unitř ne (zevnitř štěkot není slyšet). c Charniak: Bayesian Networks withou Tears. A4M33RZN
pd-oddělení příklady SS P S RM SS P N P S SS P S pozorování RM cestu přeruší pozorování PS cestu obnoví existuje cesta z SS do PS, SS a PS jsou p. nezávislé, SS a PN jsou p. závislé, SS a PS nejsou d-odděleny, dále platí mj. dále platí mj. SS a PS jsou závislé. SS P S P V SS P N SS P S P N SS P N P V A4M33RZN
pbayesovské sítě základní úlohy inference usuzování, odvozování z pozorování jevů odvozuji pst dalších jevů, pozorování (E evidence variables), cílové proměnné (Q query variables), hledám P r(q E), resp. P r(q Q E), síť je dána (jak graf, tak CPTs), učení parametrů sítě z dat struktura sítě (graf) je dána, optimalizujeme pouze kvantitativní popis (CPTs), učení struktury sítě z dat návrh optimální struktury sítě které hrany z možného úplného grafu použít?, příliš hran komplikovaný model, příliš málo hran málo věrný model. A4M33RZN
pshrnutí pravděpodobnost rigorózní nástroj pro modelování neurčitosti, každá atomická událost je popsána rozdělením sdružené pravděpodobnosti, dotazy zodpovíme výčtem (součtem, popřípadě následným podílem) atomických událostí, nutnost zjednodušení netriviálních domén důvod: prokletí dimenzionality, řešení: nezávislost a podmíněná nezávislost, nástroj: GPM = graf (kvalita) + tabulky podmíněných pstí (kvantita). A4M33RZN
pdoporučené doplňky zdroje přednášky :: Četba Russell, Norvig: AI: A Modern Approach, Uncertain Knowledge and Reasoning (Part V) zejména neurčitost (kap. 14) a pravděpodobnostní usuzování (kap. 15), online on Google books: http://books.google.com/books?id=8jzbksh-bumc, Charniak: Bayesian Networks without Tears http://ntu.csie.org/~piaip/docs/bayesiannetworkswithouttears.pdf, Murphy: A Brief Introduction to Graphical Models and Bayesian Networks. http://www.cs.ubc.ca/~murphyk/bayes/bayes.html, Mooney: CS 391L: Machine Learning: Bayesian Learning: Beyond Naive Bayes. http://www.cs.utexas.edu/~mooney/cs391l/slides/bayes2.pdf, Bishop: Pattern Recognition and Machine Learning. Chapter 8: Graphical models, http://research.microsoft.com/%7ecmbishop/prml/bishop-prml-sample.pdf. A4M33RZN