ravděpodobnostní algoritmy: Bayesova věta Fantasy is hardly an escape from reality. It is a way of understanding it. LLoyd Alexander ravděpodobnost vs. oměr šancí ravděpodobnost - poměr počtu jedinců surčitým stavem k celku (poměr jistých a možných), až % ( až ) Odds - šance, poměr počtů jedinců dvou skupin s různým stavem (poměr jistých a ostatních), x ku jedné (jedna ku x) Vztah mezi pravděpodobností a poměrem šancí oměr šancí / (oměr šancí + ) Bayesova teorie rozhodování Reverend Thomas Bayes publikoval v roce 763 vzoreček, který se stal vědeckým podkladem pro rozhodování za nejistoty. Bayes se nesnaží dělat bodové odhady nejistých parametrů. Místo toho počítá s nejistotou obecněji. Bayes používá inverzní pravděpodobnost místo pravděpodobnosti hypotézy (parametru, modelu) za předpokladu experimentálních dat počítá spravděpodobností dat za předpokladu platící hypotézy. Bayesova věta (teorém) Jak se mění pravděpodobnostní očekávání ve světle nových důkazů. ravidlo pro rozhodování. Logické, konzistentní a univerzální. Vzorec pravděpodobnost H hypotéza, naše hypotéza E důkaz, data, evidence za předpokladu, že platí a zároveň ravděpodobnostní forma Bayesovy věty: ( ) ( H E) ( ) ( E H) ( ) ( E H) H E H H n ( E) ( E) ( Hi) ( E Hi) i...vzorec oměrová forma Bayesovy věty: ( H E ) ( noth E ) ( H ) ( noth ) ( E H ) ( E noth ) posterior _ odds prior _ odds likelihood _ ratio aposteriorní poměr šancí apriorní poměr šancí * věrohodnostní poměr zde se objevuje inverze
...vzorec Nejjednodušší forma Bayesovy věty: Aposteriorní poměr šancí apriorní poměr šancí * věrohodnostní poměr Odkud získáme apriorní pravděpodobnost (apriorní poměr šancí)? revalence, pravděpodobnost jevu (choroby) před provedením testu Využijeme veškeré dostupné informace (učebnice, encyklopedie...), educated guess okud nevíme vůbec nic, dáme všem hypotézám stejnou apriorní pravděpodobnost (flat priors, 5% pro dvě hypotézy) Apriorní pravděpodobnost je subjektivní LR Likelihood Ratio Věrohodnostní poměr. Sumarizuje veškerou informaci získanou experimentem. ravděpodobnost, že jev (data) nastane za daných podmínek (hypotéza) děleno pravděpodobností, že stejný jev nastane za jiných podmínek. odmínky jsou vzájemně se vylučující. LRX/Y ozor na záměnu ravděpodobnost, že kočka má čtyři nohy je jiná, než pravděpodobnost, že čtyřnohý tvor je kočka ( E H ) ( H E) (chyba zvaná Transposing the conditional) Věrohodnostní poměr LR Vržení kostkou LR LR > LR < důkaz je irelevantní, nepodporuje ani jednu hypotézu důkaz podporuje naši hypotézu důkaz podporuje alternativní hypotézu H: adne šestka při cinknuté kostce: (6 / kostka je cinknutá)půl na půl H2: adne šestka při férové kostce: (padne 6 / kostka je férová)jedna šestina LR ( E H) ( E H 2) ( 6 cink ) ( 6 čistá),5,67 3 2
Alkohol v dechu Co je výsledný poměr šancí? LR (zezelená požil) (zezelená nepožil) Aposteriorní poměr šancí, že osoba požila alkohol Apriorní poměr šancí * věrohodnostní poměr.95 9.5 38 9 5 Detektor lži Určování otcovství LR (ukazuje na pravdu mluvil pravdu) (ukazuje na pravdu lhal) LR (genotypy tria M-D-N je otcem) (genotypy tria M-D-N není otcem) 3 říklad: Jaká je pravděpodobnost choroby v případě, že pacient má výsledek? revalence / Specificita testu 95% Senzitivita %. revalence /, specificita 95%, senzitivita %. 3
revalence /, specificita 95%, senzitivita %. revalence /, specificita 95%, senzitivita %. revalence /, specificita 95%, senzitivita %. revalence /, specificita 95%, senzitivita %. revalence (apriorní pravděpodobnost),% (/) 5 5 revalence /, specificita 95%, senzitivita %. 4
Specifičnost 95% (falešná pozitivita /~5%) Senzitivita % (/) 5 5 5 Aposteriorní pravděpodobnost (prediktivní hodnota ho testu) počet správně pozitvních testů/ počet všech ch testů /5,2 (,2%) S použitím našeho vzorečku Aposteriorní poměr šancí apriorní poměr šancí * věrohodnostní poměr / * /(/),2 (,2%) Fylogenetické stromy: metoda hledání nejpravděpodobnějšího stromu Bayesova věta: ( H data) ( H )* ( data H ) ( data) (data) je konstantní pro všechny modely. okud je apriorní pravděpodobnost shodná pro všechny modely, tak nejvyšší pravděpodobnost charakterizuje nejlepší model. Fylogenetický příklad okud máme statistický model evoluce a výsledky pozorování, tak můžeme nalézt nejpravděpodobnější parametry I jednoduché modely evoluce jsou hodně náročné na počítače Bayesovské metody jsou nejpomalejší fylogenetické metody. MrBayes http://morphbank.ebc.uu.se/mrbayes/ Treeuzzle http://www.tree-puzzle.de/ 5
Apriorní pravděpodobnost osun od apriorní k aposteriorní pravděpodobnosti Věrohodnostní poměr Aposteriorní pravděpodobnost Výhoda Bayesovského přístupu Nevýhoda Bayesovského přístupu V biologii často vyvozujeme závěry z nejistých experimentálních dat. Bayesovský přístup si s tím poradí. Integrace přes více nejistých parametrů vyžaduje náročnou metodu Markovova řetězce a Monte Carlo. Frekventisté mají námitky proti Bayesovi: Těžce stravují subjektivní vyjádření neznámé apriorní pravděpodobnosti. rotiargumentem Bayesovců je, že frekventisté používají subjektivní vyjádření parametrů také, ale skrytě. Těžce stravují pojetí pravděpodobnosti jako měřítko (ne)jistoty jednotlivého experimentu místo pravděpodobnosti jako frekvence z opakovaných experimentů. Bayesovský přístup Bayes vs. frekventisté ravděpodobnost je měřítkem nejistoty o události. ravděpodobnost je subjektivní, závisí na pozortovateli. Jiný pozorovatel (s jinou vstupní informací a jinou předchozí zkušeností) může hodnotit pravděpodobnost jinak. Závěry jsou vyvozovány hodnocením pravděpodobností modelu za předpokladu získaných dat. Frekventistický přístup ravděpodobnost je relativní frekvence, se kterou k nějakému jevu dochází při mnohočetném opakování pokusu. ravděpodobnost je objektivní vlastností světa, nezávislá na pozorovateli. Závěry jsou získány hodnocením pravděpodobnosti získaných dat, nebo extrémnějších dat, za předpokladů daného modelu. Bayesovské pravděpodobnostní sítě ravděpodobnostní sítě sestávají z uzlů, označených stavem. ojítka mezi uzly představují podmíněné pravděpodobnosti. Spojení je směrované: šipka od A k C znamená, že A ovlivňuje C, C je podmíněno A. (a) (b) A (c a) (c b) B 95% interval kredibility je interval, který má 95% pravděpodobnost, že obsahuje odhadovaný parametr 95% konfidenční interval je jedním z výsledků takového pokusu, který má 95% pravděpodobnost, že generuje interval, který obsahuje odhadovaný parametr. (e c) C (d c) Můžeme hodnotit pravděpodobnost jakéhokoliv modelu nebo souboru modelů za předpokladu získaných dat. Údaje, které jsme nezměřili (větší rozdíl než naměřený) njsou relevantní. -hodnota v testu signifikance je pravděpodobnost, že dostaneme rozdíl mezi soubory přinejmenším tak velký, jako v našem pokusu, za předpokladu, že nulová hypotéza je správná. E D 6
říklad Bayesovské sítě říklad Bayesovské sítě Rakovina plic a symptomy. (a) (b) Odborník přes rakovinu plic nám dodá pravděpodobnosti pro každý uzel, například: A Kuřák (c a) (e c) C Rakovina plic (c b) (d c) B Expozice azbestem (rakovina kouření): rakovina zdraví Nekuřák,,999 bývalý kuřák,5,995 těžký kuřák,6,94 lehký a pasívní kuřák,4,96 a tak dále pro další uzly. E Kašel D Bolest na hrudi Bayesovské sítě ři vyplněné matici pravděpodobností naší sítě můžeme předpovídat pravděpodobnost jakéhokoliv stavu sítě za daných parametrů. Můžeme například zodpovědět otázky: Jaká je pravděpodobnost, že těžký kuřák, který byl exponován azbestu, dostane rakovinu plic? Osoba těžce kašle, bolí ji na prsou a je kuřák. Jaká je pravděpodobnost, že má rakovinu? Osoba má rakovinu. Jaká je pravděpodobnost, že byla exponovaná azbestu? 7