5.6 Bayesovská klasifikace
|
|
- Jiří Bezucha
- před 9 lety
- Počet zobrazení:
Transkript
1 5.6 Bayesovská klasifikace Metody bayesovské klasifikace vycházejí z Bayesovy věty o podmíněných pravděpodobnostech. Ačkoliv se tedy jedná o metody pravděpodobnostní, jsou intenzivně studovány v souvislosti se strojovým učením a uplatňují se rovněž v systémech pro dobývání znalostí Základní pojmy Bayesův vztah pro výpočet podmíněné pravděpodobnosti že platí hypotéza H, pokud pozorujeme evidenci E má podobu: P(H E) = P(E H) P(H) P(E) Apriorní pravděpodobnost hypotézy P(H) odpovídá znalostem o zastoupení jednotlivých hypotéz (tříd) bez ohledu na nějaké další informace. Podmíněná pravděpodobnost P(H E), též nazývaná aposteriorní, vyjadřuje, jak se změní pravděpodobnost hypotézy, pokud víme, že nastalo E. P(E) vyjadřuje pravděpodobnost evidence (pozorování). Hypotéz mezi kterými se rozhodujeme bývá obvykle více 1. Nás bude zajímat pro danou evidenci ta nejpravděpodobnější. Pro každou hypotézu H t t=1,...,t můžeme spočítat P(H t E) a z nich vybrat hypotézu H MAP, která má největší aposteriorní pravděpodobnost (maximum aposteriori probability) H MAP = H J právě když P(H J E) = max t P(E H t) P(H t ) P(E) Vzhledem k tomu, že nás zajímá pouze to, pro které H t je hodnota aposteriorní pravděpodobnosti maximální, ale už nás nezajímá konkrétní hodnota, můžeme výpočet poněkud zjednodušit zanedbáním jmenovatele. H MAP = H J právě když P(E H J ) P(H J ) = max t (P(E H t ) P(H t )) Ve zanedbávání můžeme jít ještě dále tak, že budeme předpokládat, že všechny hypotézy jsou stejně pravděpodobné (a tedy že na P(H) nezáleží). Nalezneme tak hypotézu, která má největší věrohodnost (maximum likelihood): H ML = H J právě když P(E H J ) = max t P(E H t )).. Pro ilustraci tohoto postupu vezměme opět úlohu poskytování úvěru, tentokrát ale pouze na základě výše příjmu. Přepokládejme, že banka vyhoví u 2/3 žádosti o úvěr; tedy apriorní pravděpodobnosti budou P(půjčit)=0.667 a P(nepůjčit)= Dále předpokládejme, že vysoký příjem mělo 91% klientů, kterým banka půjčila a nízký příjem mělo 88% klientů, kterým banka nepůjčila. Tedy P(vysoký_příjem půjčit) = 0.91 P(nízký_příjem půjčit) = 0.09 P(vysoký_příjem nepůjčit) = 0.12 P(nízký_příjem nepůjčit) = V tomto případě se P(E) ve jmenovateli Bayesova vztahu obvykle vyjadřuje jako t P(E H t ) P(H t ). 1
2 Předpokádejme, že posuzujeme klienta s vysokým příjmem. Bude větší pravděpodobnost, že banka půjčí nebo že nepůjčí? Podle Bayesovy věty spočítáme P(vysoký_příjem půjčit) P(půjčit) = P(vysoký_příjem nepůjčit) P(nepůjčit) = Tedy H MAP = půjčit. Víme tedy, která hypotéza je pravděpodobnější, přestože jsme přímo nespočítali aposteriorní pravděpodobnosti obou hypotéz. Tyto pravděpodobnosti získáme, pokud budeme uvedené hodnoty normovat tak, aby jejich součet byl roven 1. Výhodou bayesovských metod je právě tato schopnost klasifikovat příklady do tříd s určitou pravděpodobností. Tuto pravděpodobnost můžeme interpretovat jako spolehlivost rozhodnutí. S Bayesovým teorémem úzce souvisí tzv. princip minimální deskripční délky (minimum description length principle, MDL [Rissanen, 1978]). Tento princip interpretuje definici hypotézy s největší aposteriorní pravděpodobností ve světle teorie informace. Původní formulaci nalezení H MAP lze ekvivalentně zapsat jako H MAP = H J právě když P(E H J ) P(H J ) = max t (P(E H t ) P(H t )) resp. H MAP = H J právě když log 2 P(E H J ) + log 2 P(H J ) = max t (log 2 P(E H t ) + log 2 P(H t )) H MAP = H J právě když log 2 P(E H J ) log 2 P(H J ) = min t ( log 2 P(E H t ) log 2 P(H t )) Z teorie informace je známo, že množství informace obsažené ve zprávě, která má pravděpodobnost výskytu p je -log 2 p. S množstvím informace úzce souvisí délka kódu potřebná pro přenos. Můžeme tedy výraz -log 2 P(H t ) chápat jako vyjádření délky optimálního zakódování hypotézy H t a výraz log 2 P(E H t ) jako vyjádření délky optimálního zakódování evidence E, platí-li H t. V tomto smyslu je H MAP příkladem použití principu MDL, který preferuje model M minimalizující délku L(D) kódu potřebného pro přenos dat D. Zakódování dat je přitom rozděleno do dvou částí: zakódování modelu (kódem délky L(M)) a zakódování dat, která jsou modelem chybně klasifikována 2 (kódem délky L(err M) ): M MDL = M J právě když L(M J ) + L(err M J ) = min i (L(M i ) + L(err M i )) Bayesova věta dává návod jak stanovit vliv jedné evidence na uvažovanou hypotézu. Jak ale postupovat, pokud je evidencí více? Tedy, jak stanovit aposteriorní pravděpodobnost P(H E 1,, E K )? Následující dvě podkapitoly ukazují dva možné přístupy Naivní bayesovský klasifikátor Naivní bayesovský klasifikátor vychází z předpokladu, že jednotlivé evidence E 1,,E K jsou podmíněně nezávislé při platnosti hypotézy H [Duda, Hart, 1973]. Tento zjednodušující předpoklad umožňuje spočítat aposteriorní pravděpodobnost hypotézy při platnosti všech evidencí jako P(H E 1,,E K ) = P(E 1,,E K H) P(H) P(E 1,,E K ) 2 Data klasifikovaná správně nemusíme přenášet, pro ně nám stačí model. 2
3 P(H) P(H E 1,,E K ) = P(E 1,,E K ) K P(Ek H). k=1 V případě klasifikace pomocí naivního bayesovského klasifikátoru tedy budeme hledat hypotézu s největší aposteriorní pravděpodobností H MAP K K H MAP = H J právě když P(H J ) P(Ek H J ) = max t (P(H t ) P(Ek H t )) k=1 k=1 Abychom mohli tento způsob klasifikace použít, potřebujeme znát hodnoty P(H t ) a P(E k H t ). V kontextu dobývání znalostí z databází můžeme tyto hodnoty získat z trénovacích dat ve fázi učení 3. Evidence E k jsou pak hodnoty jednotlivých vstupních atributů (tedy E k =A j (v k ) ) a hypotézy H t jsou cílové třídy (tedy H t =C(v t ) ). Na rozdíl od jiných algoritmů učení (rozhodovací stromy, rozhodovací pravidla) se zde neprovádí prohledávání prostoru hypotéz. Stačí jen spočítat příslušné pravděpodobnosti na základě četnosti výskytů hodnot jednotlivých atributů 4. Tedy pravděpodobnosti P(H t ) a P(E k H t ) lze spočítat jako P(H t ) = P(C(v t )) = n t n P(E k H t ) = P(A j (v k ) C(v t )) = n t(a j (v k )) n t klient příjem konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano Tab. 1 Trénovací data pro bayesovský klasifikátor Pro náš příklad trénovacích dat z Tab. 1 budou apriorní pravděpodobnosti různých hodnot cílového atributu úvěr: P(úvěr(ano)) = 8/12 = P(úvěr(ne)) = 4/12 = Podobně spočítáme podmíněné pravděpodobnosti P(A j (v k ) C(v t )), např. 3 Jedná se tedy opět o učení s učitelem. 4 Vzhledem k tomu se bayesovský klasifikátor hodí pro veliké datové soubory. 3
4 P(konto(střední) úvěr(ano)) = 2/8 = 0.25 P(konto(střední) úvěr(ne)) = 2/4 = 0.5 P(nezaměstnaný(ne) úvěr(ano)) = 5/8 = P(nezaměstnaný(ne) úvěr(ne)) = 1/4= 0.25 Pro uchazeče o úvěr, který má střední konto a není nezaměstnaný spočítáme P(úvěr(ano)) P(konto(střední) úvěr(ano)) P(nezaměstnaný(ne) úvěr(ano)) = P(úvěr(ne)) P(konto(střední) úvěr(ne)) P(nezaměstnaný(ne) úvěr(ne)) = Tedy naivní bayesovský klasifikátor zařadí tohoto uchazeče do třídy úvěr(ano). Můžeme si všimnout, že jsme úspěšně klasifikovali neúplně popsaný případ, který by zůstal nezařazen dříve vytvořenými rozhodovacími stromy i pravidly. Výše uvedený způsob výpočtu pravděpodobnosti P(A j (v k ) C(v t )) má některé nevýhody: pokud se v trénovacích datech neobjeví pro danou třídu C(v t ) hodnota v k atributu A j, bude odpovídající pravděpodobnost P(A j (v k ) C(v t )) rovna 0 a tedy bude nulová i aposteriorní pravděpodobnost této třídy bez ohledu na hodnoty ostatních atributů, pokud je četnost n t (A j (v k )) vzájemného výskytu A j (v k ) a C(v t ) malá, je spočítaná hodnota podhodnocením skutečné pravděpodobnosti P(A j (v k ) C(v t )). Proto se při výpočtu P(A j (v k ) C(v t )) provádějí různé korekce 5 : Laplaceova korekce n t (A j (v k )) + 1 n t + T m-odhad n t (A j (v k )) + m f k n t + m kde T je počet tříd, f k = n(a j (v k ))/n je relativní četnost hodnoty A j (v k )) 6 a m je parametr. Přestože předpoklad podmíněné nezávislosti bývá v reálných úlohách jen málokdy splněn 7, vykazuje naivní bayesovský klasifikátor překvapivě dobré vlastnosti ve smyslu úspěšnosti klasifikace 8. To z něj činí velmi oblíbený nastroj. Druhým důvodem obliby bayesovského klasifikátoru je jeho snadné vytvoření. Jistou nevýhodou je tedy (z pohledu nezkušeného uživatele) pouze o něco menší srozumitelnost reprezentace znalostí pomocí pravděpodobností. 5 Na tyto korekce jsme již narazili v souvislosti se systémy CN4 a KEX. 6 V případě nedostatku informací lze předpokládat rovnoměrné rozdělení hodnot atributu A j. 7 Tento málokdy splněný předpoklad je důvodem, proč je klasifikátor nazýván naivní. 8 Domingos a Pazzani to vysvětlují tím, že nehledáme přesné hodnoty aposteriorních pravděpodobností ale jen hodnotu největší [Domingos, Pazzani, 1996]. Navíc pro klasifikaci používáme mnohem více atributů než je potřeba a pracujeme tedy se značnou redundancí. 4
5 5.6.3 Bayesovské sítě Pravděpodobnostně korektní způsob, jak se v plné šíři vypořádat se skutečností, že evidence nejsou navzájem nezávislé, je uvažovat pravděpodobnosti výskytu všech možných kombinací (jednočlenných, dvojčlenných, ) hodnot všech evidencí. Tento postup, ač teoreticky zcela jasný, bývá v praktických úlohách nerealizovatelný. Pro n binárních atributů bychom potřebovali znát 2 n hodnot pravděpodobností. Naštěstí existuje jiná, pravděpodobnostně korektní cesta, známá jako bayesovské sítě Reprezentace znalostí Bayesovské sítě (též nazývané pravděpodobnostní sítě) umožňují reprezentovat znalosti 9 o částečně nezávislých evidencích a tyto znalosti použít při usuzování. Základním pojmem, se kterým operují bayesovské sítě je podmíněná nezávislost. Veličiny A a B jsou podmíněně nezávislé při dané veličině C jestliže P(A,B C) = P(A C) P(B C). Tomu ekvivalentní jsou vztahy ([Jiroušek, 1995]) P(A B,C) = P(A C) P(B A,C) = P(B C). Podmíněná nezávislost A a B při daném C se obvykle značí A B C Bayesovská síť je acyklický orientovaný graf zachycující pomocí hran pravděpodobnostní závislosti mezi náhodnými veličinami. Ke každému uzlu u (náhodné veličině) je přiřazena pravděpodobnostní distribuce tvaru P(u rodiče(u)), kde rodiče(u) jsou uzly, ze kterých vycházejí hrany do uzlu u. Uspořádejme (a očíslujme) všechny uzly sítě tak, že rodiče jsou před svými dětmi (mají nižší pořadové číslo). Potom pro každý uzel u i platí, že je podmíněně nezávislý na všech uzlech s nižším pořadovým číslem s výjimkou svých rodičů podmíněno svými rodiči 10 : u i {u k } k=1,,i-1 \ rodiče(u i ) rodiče(u i ). To umožňuje spočítat sdruženou pravděpodobnostní distribuci celé sítě jako 11 n P(u 1,.,u n ) = P(ui rodiče(u i )) i=1 9 Bayesovské sítě stojí tak říkajíc na půl cesty mezi pravidly a neuronovými sítěmi. 10 Jiná formulace říká, že při daných rodičích, dětech a dětech rodičů je uzel podmíněně nezávislý na všech ostatních uzlech sítě. 11 Uvedenému vztahu se říká faktorizace sdružené distribuce (Lauritzen) nebo chain rule (Jensen). Místo 2 n hodnot nyní vystačíme s n 2 k hodnotami, kde k je max. počet vstupů do uzlu v síti. 5
6 zataženo kropení déšť mokro Obr. 1 Bayesovská síť Má-li tedy bayesovská síť podobu uvedenou na Obr. 1 12, bude mít sdružená distribuce tvar P(Z,K,D,M) = P(Z) P(K Z) P(D Z) P(M K,D) K jejímu výpočtu tedy potřebujeme znát čtyři dílčí podmíněné pravděpodobnostní distribuce. V případě diskrétních veličin vystačíme s tabulkami podmíněných pravděpodobností, tak jak je uvedeno v Tab. 2. Z P(K=0) P(K=1) P(K Z) P(Z=0) P(Z=1) P(Z) K D P(M=0) Z P(D=0) P(D=1) P(D Z) P(M K,D) Tab. 2 Podmíněné pravděpodobnosti uzlů Pomocí bayesovské sítě můžeme reprezentovat i naivní bayesovský klasifikátor. Vzhledem k předpokládané nezávislosti vstupních atributů bude odpovídající síť obsahovat jeden (cílový) uzel 12 Příklad je převzat z [Murphy,2000]. K hlubšímu studiu jsou vhodné knihy [Jensen, 1996] a [Lauritzen, 1996]. 6
7 který bude rodičem všech ostatních (vstupních) uzlů. Vstupní uzly nebudou navzájem spojeny hranami (Obr. 2). Sdružená distribuce této sítě bude tedy P(H,E 1,E 2,,E K ) = P(H) P(E 1 H) P(E 2 H). P(E k H) H E 1 E E K Obr. 2 Bayesovská síť pro naivní bayesovský klasifikátor Inference Bayesovská síť se používá pro pravděpodobnostní odvozování (inferenci). Známe-li strukturu sítě (Obr. 1) a podmíněné pravděpodobnostní distribuce přiřazené k jednotlivým uzlům (Tab. 2), můžeme spočítat aposteriorní pravděpodobnost libovolného uzlu. Řekněme, že pozorujeme, že je mokro, a zajímá nás, co je příčinou. Budeme tedy provádět diagnostickou inferenci, někdy též nazývanou zdola nahoru (od projevů nějakého jevu k jeho příčinám). Podle Bayesova vzorce a za použití faktorizace sdružené distribuce spočítáme P(K=1 M=1) = P(K=1,M=1) = z,dp(z=z,k=1,d=d,m=1) = = z,d (P(Z=z) P(K=1 Z=z) P(D=d Z=z) P(M=1 K=1,D=d)) = P(D=1 M=1) = P(D=1,M=1) = z,kp(z=z,k=k,d=1,m=1) = = z,k (P(Z=z) P(K=k Z=z) P(D=1 Z=z) P(M=1 K=k,D=1)) = kde = z,k,d (P(Z=z) P(K=k Z=z) P(D=d Z=z) P(M=1 K=k,D=d)) = Maximální aposteriorní pravděpodobnost má tedy příčina déšť; P(D=1 M=1) > P(K=1 M=1). Obr. 3 ukazuje aposteriorní pravděpodobnostní distribuce všech uzlů v síti, odvozené pro zadanou pravděpodobnost = Pro nalezení hypotézy s maximální aposteriorní pravděpodobností tuto hodnotu vlastně nepotřebujeme. 7
8 Obr. 3 Diagnostická inference (systém BKD) Z naší sítě můžeme rovněž spočítat pravděpodobnost toho, že bude mokro, pokud vidíme, že je zataženo (Obr. 4). V tomto případě se jedná o kauzální inferenci, kdy postupujeme shora dolů (od příčin k důsledkům). P(M=1 Z=1) = P(M=1,Z=1) P(Z=1) = k,dp(z=1,k=k,d=d,m=1) P(Z=1) = P(Z=1) k,d (P(K=k Z=1) P(D=d Z=1) P(M=1 K=k,D=d)) P(Z=1) = = Přisuzovat kauzální interpretaci bayesovské síti je však poněkud ošemetné. Zatímco kauzální vztahy (známe-li je) můžeme použít pro konstrukci bayesovské sítě, ne každá hrana v bayesovské síti musí mít kauzální interpretaci. Někdy se může jednat o pouhé korelace dvou jevů. Obr. 4 Kauzální inference (systém BKD) 8
9 Učení Bayesovské sítě v sobě kombinují dva typy znalostí: znalosti o struktuře vazeb mezi atributy (hrany v grafu) a znalosti o pravděpodobnostech hodnot těchto atributů (ohodnocení uzlů v grafu). Při dobývání znalostí (učení ) jsou tedy v zásadě dvě možnosti: vyjít ze známé struktury (získané např. od experta) a z dat odvozovat pouze podmíněné pravděpodobnosti, z dat odvodit strukturu sítě i pravděpodobnosti. Obě uvedené možnosti mohou být ještě komplikovány skutečností, že v datech mohou být chybějící hodnoty, resp. že některé veličiny nelze pozorovat. Při učení bayesovské sítě tedy mohou nastat následující, postupně stále složitější situace: 1. Známá struktura, veličiny plně pozorovatelné (metoda maximálně věrohodného odhadu). V nejjednodušším případě jde o to spočítat z dat odhady podmíněných pravděpodobnostních distribucí pro jednotlivé uzly sítě. Cílem je nalézt maximálně věrohodný odhad vzhledem k trénovacím datům. Podobně jako v případě naivního bayesovského klasifikátoru můžeme tyto odhady spočítat na základě četností 14 : P(M=m K=k,D=d) = n(m(m) K(k) D(d)) n(k(k) D(d)) 2. Známá struktura, veličiny částečně pozorovatelné (gradientní metoda nebo EM algoritmus) Situace, kdy některé veličiny (uzly sítě) nelze pozorovat (jsou takzvaně skryté nebo latentní), je analogická situaci, kdy se u neuronové sítě učí váhy skryté vrstvy. Lze tedy použít gradientní metodu pro určení hodnot v tabulce podmíněných pravděpodobností (hypotéza h). Místo minimalizování ztrátové funkce jako v případě neuronových sítí zde budeme maximalizovat pravděpodobnost P(D h), že pozorujeme daná trénovací data D pokud platí podmíněné pravděpodobnosti. Tento postup, navržený Russellem [Russell a kol, 1995], je založen na výpočtu gradientu funkce lnp(d h). Nechť p ijk je podmíněná pravděpodobnost toho, že veličina Y i nabývá hodnotu y i,j, pokud rodiče U i této veličiny nabývají hodnotu u i,k Tedy např. pro první hodnotu P(M K,D) uvedenou v Tab. 2 je y i,j =0 a u i,k ={0,0}. Potom ln P(D h) p ijk = d D P(Y i =y ij,u i =u ik d) p ijk. Hodnotu p ijk pak (po jedné iteraci přes celá trénovací data) upravíme podle vztahu p ijk = p ijk + η d D P(Y i =y ij,u i =u ik d) p ijk. Výsledné hodnoty p ijk ještě musíme normalizovat, aby se jednalo o pravděpodobnosti. Pro výpočet gradientu potřebujeme znát hodnoty P(Y i =y ij,u i =u ik ) pro každý příklad v trénovacích datech. Jsou-li tyto veličiny nepozorovatelné, můžeme potřebné hodnoty spočítat z hodnot pozorovatelných pomocí běžné inference v bayesovské síti. 14 Lze samozřejmě použít i Laplaceovu korekci nebo m-odhad. 9
10 Jinou možností je použít EM algoritmus [Dempster a kol, 1997]. Základní myšlenka algoritmu vychází z následující úvahy: Kdybychom znali hodnoty skrytých veličin, mohli bychom přímo spočítat parametry podmíněné pravděpodobnostní distribuce. Zkusme tedy vyjít z hodnot, které očekáváme na základě nástřelu parametrů distribuce. Tyto hodnoty pak použijeme pro výpočet parametrů. EM algoritmus tedy pracuje iterativně ve dvou opakujících se krocích (Obr. 5). V kroku expektace (krok 1) se počítají očekávané hodnoty skryté veličiny, v kroku maximalizace (krok 2) se počítají parametry distribuce maximalizující dané kritérium. EM Algoritmus Inicializace Náhodně zvol parametry distribuce Hlavní cyklus 1. Na základě parametrů distribuce spočítej hodnoty skrytých veličin 2. Z takto spočítaných hodnot urči maximálně věrohodný odhad parametrů distribuce 3. Pokud došlo ke změně parametrů, vrať se k bodu 1. Obr. 5 Expectation Maximization (EM) algoritmus 3. Neznámá struktura, veličiny plně pozorovatelné (prohledávání prostoru modelů) V tomto případě musíme z dat odhadovat i strukturu sítě. Jedná se tedy vlastně o úlohu prohledávání prostoru hypotéz, různých topologií sítě. V případě, že známe uspořádání uzlů (od rodičů k dětem), můžeme (na základě dat) ke každému uzlu v síti určovat jeho rodiče nezávisle. Množina těchto rodičů může být 0-prvková, 1-prvková, 2-prvková,. Můžeme tedy všechny množiny potenciálních rodičů uvažovaného uzlu uspořádat podle obecnosti a pak tyto množiny procházet shora-dolů, nebo zdola-nahoru. Vhodnější je postup shora-dolů, který preferuje jednodušší sítě. Úloha prohledávání je ale výpočetně velice náročná. Obr. 6 ukazuje možné rodiče uzlu u vytvářené z tříprvkové množiny v i, i=1..k; různých množin rodičů tedy může být 2 k. Obr. 6 Potenciální rodiče 4. Neznámá struktura, veličiny částečně pozorovatelné (EM + prohledávání prostoru modelů) 10
11 V nejsložitějším případě musíme odhadovat strukturu sítě z neúplných dat. Jednou možností je použít tzv. strukturální EM algoritmus popsaný v [Friedman,1998]. Pro každý model spočítáme optimální parametry pomocí algoritmu EM a pak vybereme nejlepší model. Na příkladu si ukážeme tu nejjednodušší variantu; výpočet podmíněných pravděpodobností v případě známé struktury sítě. Opět použijeme data uvedená v Tab. 1. Řekněme, že expert zadal strukturu sítě v podobě uvedené na Obr. 7. Obr. 7 Bayesovská síť pro příklad o úvěrech Sdružená pravděpodobnostní distribuce pro tuto síť je tedy P(příjem,konto,pohlaví,nezaměstnaný,uvěr) = P(pohlaví) P(nezam) P(příjem pohlaví,nezam) P(konto) P(úvěr příjem,nezam,konto). Z trénovacích dat musíme odhadnout všechny dílčí pravděpodobnosti uvedené faktorizace. Tedy např.: P(pohlaví=žena) = n(pohlaví(žena)) n = 6/12 = 1/2 nebo P(příjem=vysoký pohlaví=žena,nezam=ano) = n(příjem(vysoký) pohlaví(žena) nezam(ano)) n(pohlaví(žena) nezam(ano)) = 1/4. Bayesovskou síť pak můžeme použít pro klasifikaci nových klientů. Obr. 8 ukazuje pravděpodobnosti hodnot jednotlivých atributů tak jak byly spočítány z trénovacích dat. Obr. 9 pak ukazuje jak se tyto pravděpodobnosti změní, jestliže víme, že nový klient není nezaměstnaný a má středně vysoké konto. 11
12 Obr. 8 Pravděpodobnosti odvozené z trénovacích dat (systém BKD) Obr. 9 Pravděpodobnosti odvozené pro nového klienta (systém BKD) 12
13 5.6.4 Systémy a aplikace Klasický naivní bayesovský klasifikátor je implementován např. v systému Bayda z univerzity v Helsinkách ( nebo v systému RoC z Open University ve Velké Britanii ( Oba tyto systémy jsou volně dostupné přes Internet. Zajímavým systémem vycházejícím z naivního bayesovského klasifikátoru je systém AutoClass [Cheeseman, Stultz, 1996]. AutoClass ( umožňuje odvodit maximální aposteriorní pravděpodobnosti zařazení do tříd jak pro příklady klasifikované (učení s učitelem) tak i neklasifikované (učení bez učitele). Při učení bez učitele se používá EM algoritmus, skrytou veličinou je v tomto případě informace o zařazení do třídy. Algoritmus EM umožní nalézt pro uvažovaný počet tříd nejlepší rozdělení příkladů do těchto tříd. Třídy (shluky) s malou pravděpodobností se mohou zanedbat; průchod přes EM se pak zopakuje pro menší počet tříd. Tento postup umožňuje současně stanovit optimální počet tříd i zařazení příkladů k těmto třídám. Jiným příkladem systému používajícím bayesovský přístup ke shlukování příkladů je COBWEB. Tento systém inkrementálním způsobem vytváří hierarchie konceptů metodou shora-dolů. Nový vstupní příklad se zařadí buď k existujícímu konceptu (uzlu hierarchie), nebo se pro něj vytvoří nový uzel (koncept). V případě, že příklad bude zařazen do existujícího uzlu se zvažuje ještě možnost tento uzel rozdělit respektive sloučit s jiným uzlem. Rozhodnutí, která operace se pro daný příklad provede (vytvoření nového uzlu, prosté přidání do existujícího uzlu, přidání a rozdělení, přidání a spojení) závisí na hodnotě 1 T 2 2 ( P(A j ( v k ) C(v t )) - P(A j(v ) ) P(C(v )) ), t t j k j k k která porovnává podmíněnou pravděpodobnost, že atribut A j má hodnotu v k, pokud příklad patří ke konceptu C(v t ) s apriorní pravděpodobností, že atribut A j má hodnotu v k. Pro zařazení příkladu se zvolí ta operace, která maximalizuje uvedenou hodnotu. Původní podoba algoritmu [Fisher, 1987] pracovala pouze s kategoriálními daty. Další verze umožňovaly pracovat i s numerickými daty ([Gennari a kol., 1989]). Systém lze získat na Na poli bayesovských sítí existuje celá řada různých implementací ať už komerčních nebo volně dostupných. K prvním systémům implementujícím bayesovské sítě patří Hugin, původně vyvinutý na univerzitě v Aalborgu v Dánsku skupinou kolem F. Jensena. Z univerzitního týmu vznikla soukromá firma Hugin ( která tento systém nabízí v současnosti. Jiným známým příkladem komerčního systému je systém Netica nabízený kanadskou firmou Norsys ( Z volně šířených implementací zmiňme systémy GeNIe z univerzity v Pittsburgu ( BN Power Constructor z univerzity v Albertě ( a Bayesian Knowledge Discoverer z Open University ( Posledně jmenovaný systém byl použit pro vytvoření obrázků Obr. 3, Obr. 4, Obr. 8 a Obr. 9. Vývojem aplikací se mimo jiné zabývá firma Microsoft. V jejím výzkumném centru pracuje na bayesovských sítích skupina vedená D. Heckermanem. Jejich sítě můžeme nalézt v různých diagnostických modulech v operačním systému Windows. První z nich byl modul detekce chyb připojené tiskárny ve Windows95. 13
14 Literatura: [Cheeseman, Stultz, 1996] Cheeseman, P. Stultz,J.: Bayesian classification (AutoClass): Theory and results. In: (Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, eds.) Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996, ISBN [Dempster a kol,1997] Dempster,A.P. Laird,N.M. Rubin,D.B.: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1), 1997, [Domingos, Pazzani, 1996] Domingos,P. Pazzani,M.: Beyond independence: conditions for the optimality of the simple bayesian classifier. In: (Saitta ed.) Proc. 13 th Int. Conference on Machine Learning ICML 96, 1996, [Duda, Hart, 1973] Duda,R.O. Hart,P.E.: Pattern classification and scene analysis. Wiley, [Fisher, 1987] Fisher,D.H.: Knowledge Acquisition Via Incremental Conceptual Clustering. Machine Learning, 2, 1987, [Friedman,1998] Friedman,N.: The bayesian structural EM algorithm. In Proc. UAI 98, [Gennari a kol., 1989] Gennari, J.H. Langley,P. Fisher,D.H.: Models of incremental concept formation. Artificial Intelligence, 40, 1989, [Heckerman, 1995] Heckermann,D.: A tutorial on learning with Bayesian networks. Microsoft Research tech. Report MSR-TR [Jensen, 1996] Jensen, F.: An introduction to bayesian networks. UCL Press, [Jiroušek, 1995] Jiroušek,R.: Metody reprezentace a zpracování znalostí v umělé inteligemci. Skripta VŠE, [Kohavi a kol.,1997] Kohavi,R. Becker,B. Sommerfeld,D.: Improving simple Bayes. In: (Sommeren, Widmer, eds.) Poster Papers of the 9 th European Conf. on Machine Learning ECML [Lauritzen, 1996] Lauritzen,S.: Graphical models. Oxford, [Lauritzen Spiegelhalter, 1988] Lauritzen,S. Spiegelhalter,D.: Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B, 50, 1988, [Mitchell, 1997] Mitchell,T.: Machine learning. McGraw-Hill ISBN [Murphy, 2000] Murphy,K.: A brief introduction to graphical models and bayesian networks. [Rissanen, 1978] Rissanen,J.: Modeling by shortest data description. Automatica, Vol. 14, 1978, [Russell a kol, 1995] Russell,S. Binder,J. Koller,D. Kanazawa,K.: Local learning in probalistic networks with hidden variables. In: Proc. 14 th Int. Joint Conference on Artificial Intelligence IJCAI 95, Morgan Kaufmann,
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.
Bayesovská klasifikace
Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H
Usuzování za neurčitosti
Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích
Umělá inteligence II
Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními
Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28
Úvod do bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace Akademie věd České republiky http://www.utia.cz/vomlel 30. října 2008 J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/2008
Vytěžování znalostí z dat
Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology
Pravděpodobně skoro správné. PAC učení 1
Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného
Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:
Úvod do bayesovských sítí Jiří Vomlel Laboratoř inteligentních systémů Vysoká škola ekonomická Praha Tato prezentace je k dispozici na: http://www.utia.cas.cz/vomlel/ Obor hodnot Necht X je kartézský součin
oddělení Inteligentní Datové Analýzy (IDA)
Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {
7 Soft computing. 7.1 Bayesovské sítě
7 Soft computing Jak již bylo řečeno v předcházející kapitole, zpracování neurčitosti v umělé inteligenci je zastřešeno souhrnným označením soft computing. V této kapitole se podíváme na základní přístupy
UČENÍ BEZ UČITELE. Václav Hlaváč
UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení
Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.
Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Dnešní program Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu
Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie
Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka
Zpracování neurčitosti
Zpracování neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 7-1 Usuzování za neurčitosti Neurčitost: Při vytváření ZS obvykle nejsou všechny informace naprosto korektní mohou být víceznačné, vágní,
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
Bayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti
Pravděpodobnost, náhoda, kostky
Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké
Úloha - rozpoznávání číslic
Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání
Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group
Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme
3. Podmíněná pravděpodobnost a Bayesův vzorec
3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka
Úvod do mobilní robotiky AIL028
SLAM - souběžná lokalizace a mapování {md zw} at robotika.cz http://robotika.cz/guide/umor07/cs 10. ledna 2008 1 2 3 SLAM intro Obsah SLAM = Simultaneous Localization And Mapping problém typu slepice-vejce
Expertní systémy. Typy úloh: Klasifikační Diagnostické Plánovací Hybridní Prázdné. Feingenbaum a kol., 1988
Expertní systémy Počítačové programy, simulující rozhodovací činnost experta při řešení složitých úloh a využívající vhodně kvality rozhodování na úrovni experta. Typy úloh: Klasifikační Diagnostické Plánovací
PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
EM algoritmus. Proč zahrnovat do modelu neznámé veličiny
EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost
13. cvičení z PSI ledna 2017
cvičení z PSI - 7 ledna 07 Asymptotické pravděpodobnosti stavů Najděte asymptotické pravděpodobnosti stavů Markovova řetězce s maticí přechodu / / / 0 P / / 0 / 0 0 0 0 0 0 jestliže počáteční stav je Řešení:
Moderní systémy pro získávání znalostí z informací a dat
Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:
Zpětnovazební učení Michaela Walterová Jednoocí slepým,
Zpětnovazební učení Michaela Walterová Jednoocí slepým, 17. 4. 2019 V minulých dílech jste viděli Tři paradigmata strojového učení: 1) Učení s učitelem (supervised learning) Trénovací data: vstup a požadovaný
TECHNICKÁ UNIVERZITA V LIBERCI
TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl
Bayesovské sítě. Kamil Matoušek, Ph.D. Informační a znalostní systémy
Bayesovské sítě Kamil Matoušek, Ph.D. Informační a znalostní systémy Co jsou Bayesian Networks (BN) Pravděpodobnostní modely využívající grafovou reprezentaci Znalosti zatížené nejistotou (nepřesné, nejisté,
Základy teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 15. srpna 2012 Statistika
Rozhodovací pravidla
Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
Kapitola 1. Logistická regrese. 1.1 Model
Kapitola Logistická regrese Předpokládám, že už jsme zavedli základní pojmy jako rysy a že už máme nějaké značení Velkost trenovacich dat a pocet parametru Motivační povídání... jeden z nejpoužívanějších
1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017
Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta
Získávání dat z databází 1 DMINA 2010
Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou
Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi
Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function
Strojové učení Marta Vomlelová
Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma
Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky
Kontingenční tabulky. (Analýza kategoriálních dat)
Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
Praha, 2. listopadu 2016
Příklady aplikací bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace (ÚTIA) Akademie věd České republiky http://www.utia.cz/vomlel Praha, 2. listopadu 2016 Obsah přednášky Aplikace 1:
AVDAT Mnohorozměrné metody, metody klasifikace
AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných
Teorie informace: řešené příklady 2014 Tomáš Kroupa
Teorie informace: řešené příklady 04 Tomáš Kroupa Kolik otázek je třeba v průměru položit, abychom se dozvěděli datum narození člověka (den v roce), pokud odpovědi jsou pouze ano/ne a tázaný odpovídá pravdivě?
Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence
APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY
Dobývání a vizualizace znalostí
Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich
Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.
Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je
Vzdálenost jednoznačnosti a absolutně
Vzdálenost jednoznačnosti a absolutně bezpečné šifry Andrew Kozlík KA MFF UK Značení Pracujeme s šifrou (P, C, K, E, D), kde P je množina otevřených textů, C je množina šifrových textů, K je množina klíčů,
Metody založené na analogii
Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1
Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
Vzdálenost uzlů v neorientovaném grafu
Vzdálenosti a grafy Vzdálenost uzlů v neorientovaném grafu Je dán neorientovaný neohodnocený graf G = (V,E,I) vzdálenost uzlů u a v v neorientovaném souvislém grafu G je délka nejkratší cesty spojující
Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost
Neparametrické odhady hustoty pravděpodobnosti
Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz Statistické
Algoritmus pro hledání nejkratší cesty orientovaným grafem
1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
Pravděpodobnost a její vlastnosti
Pravděpodobnost a její vlastnosti 1 Pravděpodobnost a její vlastnosti Náhodné jevy Náhodný jev je výsledek pokusu (tj. realizace určitého systému podmínek) a jeho charakteristickým rysem je, že může, ale
Metody výpočtu limit funkcí a posloupností
Metody výpočtu limit funkcí a posloupností Martina Šimůnková, 6. listopadu 205 Učební tet k předmětu Matematická analýza pro studenty FP TUL Značení a terminologie R značí množinu reálných čísel, rozšířenou
Praha, 24. listopadu 2014
Příklady aplikací bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace (ÚTIA) Akademie věd České republiky http://www.utia.cz/vomlel Praha, 24. listopadu 2014 Obsah přednášky Příklad bayesovské
Odhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu.
Algoritmus Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Klíčové pojmy: Algoritmus, vlastnosti algoritmu, tvorba algoritmu, vývojový diagram, strukturogram Algoritmus
Vytěžování znalostí z dat
Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information
Kvantové algoritmy a bezpečnost. Václav Potoček
Kvantové algoritmy a bezpečnost Václav Potoček Osnova Úvod: Kvantové zpracování informace Shorův algoritmus Kvantová distribuce klíče Post-kvantové zabezpečení Úvod Kvantové zpracování informace Kvantový
Diskrétní matematika. DiM /01, zimní semestr 2016/2017
Diskrétní matematika Petr Kovář petr.kovar@vsb.cz Vysoká škola báňská Technická univerzita Ostrava DiM 470-2301/01, zimní semestr 2016/2017 O tomto souboru Tento soubor je zamýšlen především jako pomůcka
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Bayesovská klasifikace digitálních obrazů
Výzkumný ústav geodetický, topografický a kartografický Bayesovská klasifikace digitálních obrazů Výzkumná zpráva č. 1168/2010 Lubomír Soukup prosinec 2010 1 Úvod V průběhu nedlouhého historického vývoje
cv3.tex. Vzorec pro úplnou pravděpodobnost
3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez
Síť Síť je čtveřice N = ( G, s, t, c) kde G ( V, A) = je prostý orientovaný graf a každé orientované hraně ( u, v) je přiřazeno nezáporné číslo, které se nazývá kapacita hrany ( u, v), formálně c ( u,
Intervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jestliže opakujeme nezávisle nějaký pokus, můžeme z pozorovaných hodnot sestavit rozdělení relativních četností
ANALÝZA A KLASIFIKACE DAT
ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.
letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme
STATISTICKÉ ODHADY Odhady populačních charakteristik
STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s
3. Vícevrstvé dopředné sítě
3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze
Intuitivní pojem pravděpodobnosti
Pravděpodobnost Intuitivní pojem pravděpodobnosti Intuitivní pojem pravděpodobnosti Pravděpodobnost zkoumaného jevu vyjadřuje míru naděje, že tento jev nastane. Řekneme-li, že má nějaký jev pravděpodobnost
Cvičení ze statistiky - 5. Filip Děchtěrenko
Cvičení ze statistiky - 5 Filip Děchtěrenko Minule bylo.. Začali jsme pravděpodobnost Klasická a statistická definice pravděpodobnosti Náhodný jev Doplněk, průnik, sjednocení Podmíněná pravděpodobnost
TEORIE PRAVDĚPODOBNOSTI. 2. cvičení
TEORIE RAVDĚODONOSTI 2. cvičení Základní pojmy Klasická def. Statistická def. Geometrická def. odmíněná prav. ayesův teorém Test Základní pojmy Náhodný pokus - je každý konečný děj, jehož výsledek není
Metody analýzy dat I. Míry a metriky - pokračování
Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:
CVIČENÍ 4 Doc.Ing.Kateřina Hyniová, CSc. Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze 4.
CVIČENÍ POZNÁMKY. CVIČENÍ. Vazby mezi systémy. Bloková schémata.vazby mezi systémy a) paralelní vazba b) sériová vazba c) zpětná (antiparalelní) vazba. Vnější popis složitých systémů a) metoda postupného
Dolování z textu. Martin Vítek
Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu
Vytěžování znalostí z dat
Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální
Cvičení ze statistiky - 8. Filip Děchtěrenko
Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly
KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace
KYBERNETIKA A UMĚLÁ INTELIGENCE 2. Pravděpodobnostní rozhodování a klasifikace laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze Daniel Novák Poděkování:
Síla a významnost asociace mezi proměnnými v systému
Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie.
Informační systémy pro podporu rozhodování
Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
Informační a znalostní systémy
Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou
Katedra kybernetiky, FEL, ČVUT v Praze.
Grafické pravděpodobnostní modely učení z dat Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pstruktura přednášky Motivace pro učení znalosti obtížně získatelné, data často po
Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý
Odečítání pozadí a sledování lidí z nehybné kamery Ondřej Šerý Plán Motivace a popis úlohy Rozdělení úlohy na tři části Detekce pohybu Detekce objektů Sledování objektů Rozbor každé z částí a nástin několika
Algoritmizace prostorových úloh
INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento
Automatické vyhledávání informace a znalosti v elektronických textových datech
Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická
Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí
Cíle lokalizace Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí 2 Jiný pohled Je to problém transformace souřadnic Mapa je globální souřadnicový systém nezávislý
11. Tabu prohledávání
Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI
Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze
Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,
jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky
Pokročilé heuristiky jednoduchá heuristika asymetrické stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy pokročilá heuristika symetrické stavový prostor, který vyžaduje řízení 1 2 Paměť pouze
2 Hlavní charakteristiky v analýze přežití
2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student
pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.
3.1 Základy teorie pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. Co se dozvíte Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi.