5.6 Bayesovská klasifikace

Rozměr: px
Začít zobrazení ze stránky:

Download "5.6 Bayesovská klasifikace"

Transkript

1 5.6 Bayesovská klasifikace Metody bayesovské klasifikace vycházejí z Bayesovy věty o podmíněných pravděpodobnostech. Ačkoliv se tedy jedná o metody pravděpodobnostní, jsou intenzivně studovány v souvislosti se strojovým učením a uplatňují se rovněž v systémech pro dobývání znalostí Základní pojmy Bayesův vztah pro výpočet podmíněné pravděpodobnosti že platí hypotéza H, pokud pozorujeme evidenci E má podobu: P(H E) = P(E H) P(H) P(E) Apriorní pravděpodobnost hypotézy P(H) odpovídá znalostem o zastoupení jednotlivých hypotéz (tříd) bez ohledu na nějaké další informace. Podmíněná pravděpodobnost P(H E), též nazývaná aposteriorní, vyjadřuje, jak se změní pravděpodobnost hypotézy, pokud víme, že nastalo E. P(E) vyjadřuje pravděpodobnost evidence (pozorování). Hypotéz mezi kterými se rozhodujeme bývá obvykle více 1. Nás bude zajímat pro danou evidenci ta nejpravděpodobnější. Pro každou hypotézu H t t=1,...,t můžeme spočítat P(H t E) a z nich vybrat hypotézu H MAP, která má největší aposteriorní pravděpodobnost (maximum aposteriori probability) H MAP = H J právě když P(H J E) = max t P(E H t) P(H t ) P(E) Vzhledem k tomu, že nás zajímá pouze to, pro které H t je hodnota aposteriorní pravděpodobnosti maximální, ale už nás nezajímá konkrétní hodnota, můžeme výpočet poněkud zjednodušit zanedbáním jmenovatele. H MAP = H J právě když P(E H J ) P(H J ) = max t (P(E H t ) P(H t )) Ve zanedbávání můžeme jít ještě dále tak, že budeme předpokládat, že všechny hypotézy jsou stejně pravděpodobné (a tedy že na P(H) nezáleží). Nalezneme tak hypotézu, která má největší věrohodnost (maximum likelihood): H ML = H J právě když P(E H J ) = max t P(E H t )).. Pro ilustraci tohoto postupu vezměme opět úlohu poskytování úvěru, tentokrát ale pouze na základě výše příjmu. Přepokládejme, že banka vyhoví u 2/3 žádosti o úvěr; tedy apriorní pravděpodobnosti budou P(půjčit)=0.667 a P(nepůjčit)= Dále předpokládejme, že vysoký příjem mělo 91% klientů, kterým banka půjčila a nízký příjem mělo 88% klientů, kterým banka nepůjčila. Tedy P(vysoký_příjem půjčit) = 0.91 P(nízký_příjem půjčit) = 0.09 P(vysoký_příjem nepůjčit) = 0.12 P(nízký_příjem nepůjčit) = V tomto případě se P(E) ve jmenovateli Bayesova vztahu obvykle vyjadřuje jako t P(E H t ) P(H t ). 1

2 Předpokádejme, že posuzujeme klienta s vysokým příjmem. Bude větší pravděpodobnost, že banka půjčí nebo že nepůjčí? Podle Bayesovy věty spočítáme P(vysoký_příjem půjčit) P(půjčit) = P(vysoký_příjem nepůjčit) P(nepůjčit) = Tedy H MAP = půjčit. Víme tedy, která hypotéza je pravděpodobnější, přestože jsme přímo nespočítali aposteriorní pravděpodobnosti obou hypotéz. Tyto pravděpodobnosti získáme, pokud budeme uvedené hodnoty normovat tak, aby jejich součet byl roven 1. Výhodou bayesovských metod je právě tato schopnost klasifikovat příklady do tříd s určitou pravděpodobností. Tuto pravděpodobnost můžeme interpretovat jako spolehlivost rozhodnutí. S Bayesovým teorémem úzce souvisí tzv. princip minimální deskripční délky (minimum description length principle, MDL [Rissanen, 1978]). Tento princip interpretuje definici hypotézy s největší aposteriorní pravděpodobností ve světle teorie informace. Původní formulaci nalezení H MAP lze ekvivalentně zapsat jako H MAP = H J právě když P(E H J ) P(H J ) = max t (P(E H t ) P(H t )) resp. H MAP = H J právě když log 2 P(E H J ) + log 2 P(H J ) = max t (log 2 P(E H t ) + log 2 P(H t )) H MAP = H J právě když log 2 P(E H J ) log 2 P(H J ) = min t ( log 2 P(E H t ) log 2 P(H t )) Z teorie informace je známo, že množství informace obsažené ve zprávě, která má pravděpodobnost výskytu p je -log 2 p. S množstvím informace úzce souvisí délka kódu potřebná pro přenos. Můžeme tedy výraz -log 2 P(H t ) chápat jako vyjádření délky optimálního zakódování hypotézy H t a výraz log 2 P(E H t ) jako vyjádření délky optimálního zakódování evidence E, platí-li H t. V tomto smyslu je H MAP příkladem použití principu MDL, který preferuje model M minimalizující délku L(D) kódu potřebného pro přenos dat D. Zakódování dat je přitom rozděleno do dvou částí: zakódování modelu (kódem délky L(M)) a zakódování dat, která jsou modelem chybně klasifikována 2 (kódem délky L(err M) ): M MDL = M J právě když L(M J ) + L(err M J ) = min i (L(M i ) + L(err M i )) Bayesova věta dává návod jak stanovit vliv jedné evidence na uvažovanou hypotézu. Jak ale postupovat, pokud je evidencí více? Tedy, jak stanovit aposteriorní pravděpodobnost P(H E 1,, E K )? Následující dvě podkapitoly ukazují dva možné přístupy Naivní bayesovský klasifikátor Naivní bayesovský klasifikátor vychází z předpokladu, že jednotlivé evidence E 1,,E K jsou podmíněně nezávislé při platnosti hypotézy H [Duda, Hart, 1973]. Tento zjednodušující předpoklad umožňuje spočítat aposteriorní pravděpodobnost hypotézy při platnosti všech evidencí jako P(H E 1,,E K ) = P(E 1,,E K H) P(H) P(E 1,,E K ) 2 Data klasifikovaná správně nemusíme přenášet, pro ně nám stačí model. 2

3 P(H) P(H E 1,,E K ) = P(E 1,,E K ) K P(Ek H). k=1 V případě klasifikace pomocí naivního bayesovského klasifikátoru tedy budeme hledat hypotézu s největší aposteriorní pravděpodobností H MAP K K H MAP = H J právě když P(H J ) P(Ek H J ) = max t (P(H t ) P(Ek H t )) k=1 k=1 Abychom mohli tento způsob klasifikace použít, potřebujeme znát hodnoty P(H t ) a P(E k H t ). V kontextu dobývání znalostí z databází můžeme tyto hodnoty získat z trénovacích dat ve fázi učení 3. Evidence E k jsou pak hodnoty jednotlivých vstupních atributů (tedy E k =A j (v k ) ) a hypotézy H t jsou cílové třídy (tedy H t =C(v t ) ). Na rozdíl od jiných algoritmů učení (rozhodovací stromy, rozhodovací pravidla) se zde neprovádí prohledávání prostoru hypotéz. Stačí jen spočítat příslušné pravděpodobnosti na základě četnosti výskytů hodnot jednotlivých atributů 4. Tedy pravděpodobnosti P(H t ) a P(E k H t ) lze spočítat jako P(H t ) = P(C(v t )) = n t n P(E k H t ) = P(A j (v k ) C(v t )) = n t(a j (v k )) n t klient příjem konto pohlaví nezaměstnaný úvěr k1 vysoký vysoké žena ne ano k2 vysoký vysoké muž ne ano k3 nízký nízké muž ne ne k4 nízký vysoké žena ano ano k5 nízký vysoké muž ano ano k6 nízký nízké žena ano ne k7 vysoký nízké muž ne ano k8 vysoký nízké žena ano ano k9 nízký střední muž ano ne k10 vysoký střední žena ne ano k11 nízký střední žena ano ne k12 nízký střední muž ne ano Tab. 1 Trénovací data pro bayesovský klasifikátor Pro náš příklad trénovacích dat z Tab. 1 budou apriorní pravděpodobnosti různých hodnot cílového atributu úvěr: P(úvěr(ano)) = 8/12 = P(úvěr(ne)) = 4/12 = Podobně spočítáme podmíněné pravděpodobnosti P(A j (v k ) C(v t )), např. 3 Jedná se tedy opět o učení s učitelem. 4 Vzhledem k tomu se bayesovský klasifikátor hodí pro veliké datové soubory. 3

4 P(konto(střední) úvěr(ano)) = 2/8 = 0.25 P(konto(střední) úvěr(ne)) = 2/4 = 0.5 P(nezaměstnaný(ne) úvěr(ano)) = 5/8 = P(nezaměstnaný(ne) úvěr(ne)) = 1/4= 0.25 Pro uchazeče o úvěr, který má střední konto a není nezaměstnaný spočítáme P(úvěr(ano)) P(konto(střední) úvěr(ano)) P(nezaměstnaný(ne) úvěr(ano)) = P(úvěr(ne)) P(konto(střední) úvěr(ne)) P(nezaměstnaný(ne) úvěr(ne)) = Tedy naivní bayesovský klasifikátor zařadí tohoto uchazeče do třídy úvěr(ano). Můžeme si všimnout, že jsme úspěšně klasifikovali neúplně popsaný případ, který by zůstal nezařazen dříve vytvořenými rozhodovacími stromy i pravidly. Výše uvedený způsob výpočtu pravděpodobnosti P(A j (v k ) C(v t )) má některé nevýhody: pokud se v trénovacích datech neobjeví pro danou třídu C(v t ) hodnota v k atributu A j, bude odpovídající pravděpodobnost P(A j (v k ) C(v t )) rovna 0 a tedy bude nulová i aposteriorní pravděpodobnost této třídy bez ohledu na hodnoty ostatních atributů, pokud je četnost n t (A j (v k )) vzájemného výskytu A j (v k ) a C(v t ) malá, je spočítaná hodnota podhodnocením skutečné pravděpodobnosti P(A j (v k ) C(v t )). Proto se při výpočtu P(A j (v k ) C(v t )) provádějí různé korekce 5 : Laplaceova korekce n t (A j (v k )) + 1 n t + T m-odhad n t (A j (v k )) + m f k n t + m kde T je počet tříd, f k = n(a j (v k ))/n je relativní četnost hodnoty A j (v k )) 6 a m je parametr. Přestože předpoklad podmíněné nezávislosti bývá v reálných úlohách jen málokdy splněn 7, vykazuje naivní bayesovský klasifikátor překvapivě dobré vlastnosti ve smyslu úspěšnosti klasifikace 8. To z něj činí velmi oblíbený nastroj. Druhým důvodem obliby bayesovského klasifikátoru je jeho snadné vytvoření. Jistou nevýhodou je tedy (z pohledu nezkušeného uživatele) pouze o něco menší srozumitelnost reprezentace znalostí pomocí pravděpodobností. 5 Na tyto korekce jsme již narazili v souvislosti se systémy CN4 a KEX. 6 V případě nedostatku informací lze předpokládat rovnoměrné rozdělení hodnot atributu A j. 7 Tento málokdy splněný předpoklad je důvodem, proč je klasifikátor nazýván naivní. 8 Domingos a Pazzani to vysvětlují tím, že nehledáme přesné hodnoty aposteriorních pravděpodobností ale jen hodnotu největší [Domingos, Pazzani, 1996]. Navíc pro klasifikaci používáme mnohem více atributů než je potřeba a pracujeme tedy se značnou redundancí. 4

5 5.6.3 Bayesovské sítě Pravděpodobnostně korektní způsob, jak se v plné šíři vypořádat se skutečností, že evidence nejsou navzájem nezávislé, je uvažovat pravděpodobnosti výskytu všech možných kombinací (jednočlenných, dvojčlenných, ) hodnot všech evidencí. Tento postup, ač teoreticky zcela jasný, bývá v praktických úlohách nerealizovatelný. Pro n binárních atributů bychom potřebovali znát 2 n hodnot pravděpodobností. Naštěstí existuje jiná, pravděpodobnostně korektní cesta, známá jako bayesovské sítě Reprezentace znalostí Bayesovské sítě (též nazývané pravděpodobnostní sítě) umožňují reprezentovat znalosti 9 o částečně nezávislých evidencích a tyto znalosti použít při usuzování. Základním pojmem, se kterým operují bayesovské sítě je podmíněná nezávislost. Veličiny A a B jsou podmíněně nezávislé při dané veličině C jestliže P(A,B C) = P(A C) P(B C). Tomu ekvivalentní jsou vztahy ([Jiroušek, 1995]) P(A B,C) = P(A C) P(B A,C) = P(B C). Podmíněná nezávislost A a B při daném C se obvykle značí A B C Bayesovská síť je acyklický orientovaný graf zachycující pomocí hran pravděpodobnostní závislosti mezi náhodnými veličinami. Ke každému uzlu u (náhodné veličině) je přiřazena pravděpodobnostní distribuce tvaru P(u rodiče(u)), kde rodiče(u) jsou uzly, ze kterých vycházejí hrany do uzlu u. Uspořádejme (a očíslujme) všechny uzly sítě tak, že rodiče jsou před svými dětmi (mají nižší pořadové číslo). Potom pro každý uzel u i platí, že je podmíněně nezávislý na všech uzlech s nižším pořadovým číslem s výjimkou svých rodičů podmíněno svými rodiči 10 : u i {u k } k=1,,i-1 \ rodiče(u i ) rodiče(u i ). To umožňuje spočítat sdruženou pravděpodobnostní distribuci celé sítě jako 11 n P(u 1,.,u n ) = P(ui rodiče(u i )) i=1 9 Bayesovské sítě stojí tak říkajíc na půl cesty mezi pravidly a neuronovými sítěmi. 10 Jiná formulace říká, že při daných rodičích, dětech a dětech rodičů je uzel podmíněně nezávislý na všech ostatních uzlech sítě. 11 Uvedenému vztahu se říká faktorizace sdružené distribuce (Lauritzen) nebo chain rule (Jensen). Místo 2 n hodnot nyní vystačíme s n 2 k hodnotami, kde k je max. počet vstupů do uzlu v síti. 5

6 zataženo kropení déšť mokro Obr. 1 Bayesovská síť Má-li tedy bayesovská síť podobu uvedenou na Obr. 1 12, bude mít sdružená distribuce tvar P(Z,K,D,M) = P(Z) P(K Z) P(D Z) P(M K,D) K jejímu výpočtu tedy potřebujeme znát čtyři dílčí podmíněné pravděpodobnostní distribuce. V případě diskrétních veličin vystačíme s tabulkami podmíněných pravděpodobností, tak jak je uvedeno v Tab. 2. Z P(K=0) P(K=1) P(K Z) P(Z=0) P(Z=1) P(Z) K D P(M=0) Z P(D=0) P(D=1) P(D Z) P(M K,D) Tab. 2 Podmíněné pravděpodobnosti uzlů Pomocí bayesovské sítě můžeme reprezentovat i naivní bayesovský klasifikátor. Vzhledem k předpokládané nezávislosti vstupních atributů bude odpovídající síť obsahovat jeden (cílový) uzel 12 Příklad je převzat z [Murphy,2000]. K hlubšímu studiu jsou vhodné knihy [Jensen, 1996] a [Lauritzen, 1996]. 6

7 který bude rodičem všech ostatních (vstupních) uzlů. Vstupní uzly nebudou navzájem spojeny hranami (Obr. 2). Sdružená distribuce této sítě bude tedy P(H,E 1,E 2,,E K ) = P(H) P(E 1 H) P(E 2 H). P(E k H) H E 1 E E K Obr. 2 Bayesovská síť pro naivní bayesovský klasifikátor Inference Bayesovská síť se používá pro pravděpodobnostní odvozování (inferenci). Známe-li strukturu sítě (Obr. 1) a podmíněné pravděpodobnostní distribuce přiřazené k jednotlivým uzlům (Tab. 2), můžeme spočítat aposteriorní pravděpodobnost libovolného uzlu. Řekněme, že pozorujeme, že je mokro, a zajímá nás, co je příčinou. Budeme tedy provádět diagnostickou inferenci, někdy též nazývanou zdola nahoru (od projevů nějakého jevu k jeho příčinám). Podle Bayesova vzorce a za použití faktorizace sdružené distribuce spočítáme P(K=1 M=1) = P(K=1,M=1) = z,dp(z=z,k=1,d=d,m=1) = = z,d (P(Z=z) P(K=1 Z=z) P(D=d Z=z) P(M=1 K=1,D=d)) = P(D=1 M=1) = P(D=1,M=1) = z,kp(z=z,k=k,d=1,m=1) = = z,k (P(Z=z) P(K=k Z=z) P(D=1 Z=z) P(M=1 K=k,D=1)) = kde = z,k,d (P(Z=z) P(K=k Z=z) P(D=d Z=z) P(M=1 K=k,D=d)) = Maximální aposteriorní pravděpodobnost má tedy příčina déšť; P(D=1 M=1) > P(K=1 M=1). Obr. 3 ukazuje aposteriorní pravděpodobnostní distribuce všech uzlů v síti, odvozené pro zadanou pravděpodobnost = Pro nalezení hypotézy s maximální aposteriorní pravděpodobností tuto hodnotu vlastně nepotřebujeme. 7

8 Obr. 3 Diagnostická inference (systém BKD) Z naší sítě můžeme rovněž spočítat pravděpodobnost toho, že bude mokro, pokud vidíme, že je zataženo (Obr. 4). V tomto případě se jedná o kauzální inferenci, kdy postupujeme shora dolů (od příčin k důsledkům). P(M=1 Z=1) = P(M=1,Z=1) P(Z=1) = k,dp(z=1,k=k,d=d,m=1) P(Z=1) = P(Z=1) k,d (P(K=k Z=1) P(D=d Z=1) P(M=1 K=k,D=d)) P(Z=1) = = Přisuzovat kauzální interpretaci bayesovské síti je však poněkud ošemetné. Zatímco kauzální vztahy (známe-li je) můžeme použít pro konstrukci bayesovské sítě, ne každá hrana v bayesovské síti musí mít kauzální interpretaci. Někdy se může jednat o pouhé korelace dvou jevů. Obr. 4 Kauzální inference (systém BKD) 8

9 Učení Bayesovské sítě v sobě kombinují dva typy znalostí: znalosti o struktuře vazeb mezi atributy (hrany v grafu) a znalosti o pravděpodobnostech hodnot těchto atributů (ohodnocení uzlů v grafu). Při dobývání znalostí (učení ) jsou tedy v zásadě dvě možnosti: vyjít ze známé struktury (získané např. od experta) a z dat odvozovat pouze podmíněné pravděpodobnosti, z dat odvodit strukturu sítě i pravděpodobnosti. Obě uvedené možnosti mohou být ještě komplikovány skutečností, že v datech mohou být chybějící hodnoty, resp. že některé veličiny nelze pozorovat. Při učení bayesovské sítě tedy mohou nastat následující, postupně stále složitější situace: 1. Známá struktura, veličiny plně pozorovatelné (metoda maximálně věrohodného odhadu). V nejjednodušším případě jde o to spočítat z dat odhady podmíněných pravděpodobnostních distribucí pro jednotlivé uzly sítě. Cílem je nalézt maximálně věrohodný odhad vzhledem k trénovacím datům. Podobně jako v případě naivního bayesovského klasifikátoru můžeme tyto odhady spočítat na základě četností 14 : P(M=m K=k,D=d) = n(m(m) K(k) D(d)) n(k(k) D(d)) 2. Známá struktura, veličiny částečně pozorovatelné (gradientní metoda nebo EM algoritmus) Situace, kdy některé veličiny (uzly sítě) nelze pozorovat (jsou takzvaně skryté nebo latentní), je analogická situaci, kdy se u neuronové sítě učí váhy skryté vrstvy. Lze tedy použít gradientní metodu pro určení hodnot v tabulce podmíněných pravděpodobností (hypotéza h). Místo minimalizování ztrátové funkce jako v případě neuronových sítí zde budeme maximalizovat pravděpodobnost P(D h), že pozorujeme daná trénovací data D pokud platí podmíněné pravděpodobnosti. Tento postup, navržený Russellem [Russell a kol, 1995], je založen na výpočtu gradientu funkce lnp(d h). Nechť p ijk je podmíněná pravděpodobnost toho, že veličina Y i nabývá hodnotu y i,j, pokud rodiče U i této veličiny nabývají hodnotu u i,k Tedy např. pro první hodnotu P(M K,D) uvedenou v Tab. 2 je y i,j =0 a u i,k ={0,0}. Potom ln P(D h) p ijk = d D P(Y i =y ij,u i =u ik d) p ijk. Hodnotu p ijk pak (po jedné iteraci přes celá trénovací data) upravíme podle vztahu p ijk = p ijk + η d D P(Y i =y ij,u i =u ik d) p ijk. Výsledné hodnoty p ijk ještě musíme normalizovat, aby se jednalo o pravděpodobnosti. Pro výpočet gradientu potřebujeme znát hodnoty P(Y i =y ij,u i =u ik ) pro každý příklad v trénovacích datech. Jsou-li tyto veličiny nepozorovatelné, můžeme potřebné hodnoty spočítat z hodnot pozorovatelných pomocí běžné inference v bayesovské síti. 14 Lze samozřejmě použít i Laplaceovu korekci nebo m-odhad. 9

10 Jinou možností je použít EM algoritmus [Dempster a kol, 1997]. Základní myšlenka algoritmu vychází z následující úvahy: Kdybychom znali hodnoty skrytých veličin, mohli bychom přímo spočítat parametry podmíněné pravděpodobnostní distribuce. Zkusme tedy vyjít z hodnot, které očekáváme na základě nástřelu parametrů distribuce. Tyto hodnoty pak použijeme pro výpočet parametrů. EM algoritmus tedy pracuje iterativně ve dvou opakujících se krocích (Obr. 5). V kroku expektace (krok 1) se počítají očekávané hodnoty skryté veličiny, v kroku maximalizace (krok 2) se počítají parametry distribuce maximalizující dané kritérium. EM Algoritmus Inicializace Náhodně zvol parametry distribuce Hlavní cyklus 1. Na základě parametrů distribuce spočítej hodnoty skrytých veličin 2. Z takto spočítaných hodnot urči maximálně věrohodný odhad parametrů distribuce 3. Pokud došlo ke změně parametrů, vrať se k bodu 1. Obr. 5 Expectation Maximization (EM) algoritmus 3. Neznámá struktura, veličiny plně pozorovatelné (prohledávání prostoru modelů) V tomto případě musíme z dat odhadovat i strukturu sítě. Jedná se tedy vlastně o úlohu prohledávání prostoru hypotéz, různých topologií sítě. V případě, že známe uspořádání uzlů (od rodičů k dětem), můžeme (na základě dat) ke každému uzlu v síti určovat jeho rodiče nezávisle. Množina těchto rodičů může být 0-prvková, 1-prvková, 2-prvková,. Můžeme tedy všechny množiny potenciálních rodičů uvažovaného uzlu uspořádat podle obecnosti a pak tyto množiny procházet shora-dolů, nebo zdola-nahoru. Vhodnější je postup shora-dolů, který preferuje jednodušší sítě. Úloha prohledávání je ale výpočetně velice náročná. Obr. 6 ukazuje možné rodiče uzlu u vytvářené z tříprvkové množiny v i, i=1..k; různých množin rodičů tedy může být 2 k. Obr. 6 Potenciální rodiče 4. Neznámá struktura, veličiny částečně pozorovatelné (EM + prohledávání prostoru modelů) 10

11 V nejsložitějším případě musíme odhadovat strukturu sítě z neúplných dat. Jednou možností je použít tzv. strukturální EM algoritmus popsaný v [Friedman,1998]. Pro každý model spočítáme optimální parametry pomocí algoritmu EM a pak vybereme nejlepší model. Na příkladu si ukážeme tu nejjednodušší variantu; výpočet podmíněných pravděpodobností v případě známé struktury sítě. Opět použijeme data uvedená v Tab. 1. Řekněme, že expert zadal strukturu sítě v podobě uvedené na Obr. 7. Obr. 7 Bayesovská síť pro příklad o úvěrech Sdružená pravděpodobnostní distribuce pro tuto síť je tedy P(příjem,konto,pohlaví,nezaměstnaný,uvěr) = P(pohlaví) P(nezam) P(příjem pohlaví,nezam) P(konto) P(úvěr příjem,nezam,konto). Z trénovacích dat musíme odhadnout všechny dílčí pravděpodobnosti uvedené faktorizace. Tedy např.: P(pohlaví=žena) = n(pohlaví(žena)) n = 6/12 = 1/2 nebo P(příjem=vysoký pohlaví=žena,nezam=ano) = n(příjem(vysoký) pohlaví(žena) nezam(ano)) n(pohlaví(žena) nezam(ano)) = 1/4. Bayesovskou síť pak můžeme použít pro klasifikaci nových klientů. Obr. 8 ukazuje pravděpodobnosti hodnot jednotlivých atributů tak jak byly spočítány z trénovacích dat. Obr. 9 pak ukazuje jak se tyto pravděpodobnosti změní, jestliže víme, že nový klient není nezaměstnaný a má středně vysoké konto. 11

12 Obr. 8 Pravděpodobnosti odvozené z trénovacích dat (systém BKD) Obr. 9 Pravděpodobnosti odvozené pro nového klienta (systém BKD) 12

13 5.6.4 Systémy a aplikace Klasický naivní bayesovský klasifikátor je implementován např. v systému Bayda z univerzity v Helsinkách ( nebo v systému RoC z Open University ve Velké Britanii ( Oba tyto systémy jsou volně dostupné přes Internet. Zajímavým systémem vycházejícím z naivního bayesovského klasifikátoru je systém AutoClass [Cheeseman, Stultz, 1996]. AutoClass ( umožňuje odvodit maximální aposteriorní pravděpodobnosti zařazení do tříd jak pro příklady klasifikované (učení s učitelem) tak i neklasifikované (učení bez učitele). Při učení bez učitele se používá EM algoritmus, skrytou veličinou je v tomto případě informace o zařazení do třídy. Algoritmus EM umožní nalézt pro uvažovaný počet tříd nejlepší rozdělení příkladů do těchto tříd. Třídy (shluky) s malou pravděpodobností se mohou zanedbat; průchod přes EM se pak zopakuje pro menší počet tříd. Tento postup umožňuje současně stanovit optimální počet tříd i zařazení příkladů k těmto třídám. Jiným příkladem systému používajícím bayesovský přístup ke shlukování příkladů je COBWEB. Tento systém inkrementálním způsobem vytváří hierarchie konceptů metodou shora-dolů. Nový vstupní příklad se zařadí buď k existujícímu konceptu (uzlu hierarchie), nebo se pro něj vytvoří nový uzel (koncept). V případě, že příklad bude zařazen do existujícího uzlu se zvažuje ještě možnost tento uzel rozdělit respektive sloučit s jiným uzlem. Rozhodnutí, která operace se pro daný příklad provede (vytvoření nového uzlu, prosté přidání do existujícího uzlu, přidání a rozdělení, přidání a spojení) závisí na hodnotě 1 T 2 2 ( P(A j ( v k ) C(v t )) - P(A j(v ) ) P(C(v )) ), t t j k j k k která porovnává podmíněnou pravděpodobnost, že atribut A j má hodnotu v k, pokud příklad patří ke konceptu C(v t ) s apriorní pravděpodobností, že atribut A j má hodnotu v k. Pro zařazení příkladu se zvolí ta operace, která maximalizuje uvedenou hodnotu. Původní podoba algoritmu [Fisher, 1987] pracovala pouze s kategoriálními daty. Další verze umožňovaly pracovat i s numerickými daty ([Gennari a kol., 1989]). Systém lze získat na Na poli bayesovských sítí existuje celá řada různých implementací ať už komerčních nebo volně dostupných. K prvním systémům implementujícím bayesovské sítě patří Hugin, původně vyvinutý na univerzitě v Aalborgu v Dánsku skupinou kolem F. Jensena. Z univerzitního týmu vznikla soukromá firma Hugin ( která tento systém nabízí v současnosti. Jiným známým příkladem komerčního systému je systém Netica nabízený kanadskou firmou Norsys ( Z volně šířených implementací zmiňme systémy GeNIe z univerzity v Pittsburgu ( BN Power Constructor z univerzity v Albertě ( a Bayesian Knowledge Discoverer z Open University ( Posledně jmenovaný systém byl použit pro vytvoření obrázků Obr. 3, Obr. 4, Obr. 8 a Obr. 9. Vývojem aplikací se mimo jiné zabývá firma Microsoft. V jejím výzkumném centru pracuje na bayesovských sítích skupina vedená D. Heckermanem. Jejich sítě můžeme nalézt v různých diagnostických modulech v operačním systému Windows. První z nich byl modul detekce chyb připojené tiskárny ve Windows95. 13

14 Literatura: [Cheeseman, Stultz, 1996] Cheeseman, P. Stultz,J.: Bayesian classification (AutoClass): Theory and results. In: (Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, eds.) Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996, ISBN [Dempster a kol,1997] Dempster,A.P. Laird,N.M. Rubin,D.B.: Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society, Series B, 39(1), 1997, [Domingos, Pazzani, 1996] Domingos,P. Pazzani,M.: Beyond independence: conditions for the optimality of the simple bayesian classifier. In: (Saitta ed.) Proc. 13 th Int. Conference on Machine Learning ICML 96, 1996, [Duda, Hart, 1973] Duda,R.O. Hart,P.E.: Pattern classification and scene analysis. Wiley, [Fisher, 1987] Fisher,D.H.: Knowledge Acquisition Via Incremental Conceptual Clustering. Machine Learning, 2, 1987, [Friedman,1998] Friedman,N.: The bayesian structural EM algorithm. In Proc. UAI 98, [Gennari a kol., 1989] Gennari, J.H. Langley,P. Fisher,D.H.: Models of incremental concept formation. Artificial Intelligence, 40, 1989, [Heckerman, 1995] Heckermann,D.: A tutorial on learning with Bayesian networks. Microsoft Research tech. Report MSR-TR [Jensen, 1996] Jensen, F.: An introduction to bayesian networks. UCL Press, [Jiroušek, 1995] Jiroušek,R.: Metody reprezentace a zpracování znalostí v umělé inteligemci. Skripta VŠE, [Kohavi a kol.,1997] Kohavi,R. Becker,B. Sommerfeld,D.: Improving simple Bayes. In: (Sommeren, Widmer, eds.) Poster Papers of the 9 th European Conf. on Machine Learning ECML [Lauritzen, 1996] Lauritzen,S.: Graphical models. Oxford, [Lauritzen Spiegelhalter, 1988] Lauritzen,S. Spiegelhalter,D.: Local computations with probabilities on graphical structures and their application to expert systems. Journal of the Royal Statistical Society, Series B, 50, 1988, [Mitchell, 1997] Mitchell,T.: Machine learning. McGraw-Hill ISBN [Murphy, 2000] Murphy,K.: A brief introduction to graphical models and bayesian networks. [Rissanen, 1978] Rissanen,J.: Modeling by shortest data description. Automatica, Vol. 14, 1978, [Russell a kol, 1995] Russell,S. Binder,J. Koller,D. Kanazawa,K.: Local learning in probalistic networks with hidden variables. In: Proc. 14 th Int. Joint Conference on Artificial Intelligence IJCAI 95, Morgan Kaufmann,

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Bayesovské modely Doc. RNDr. Iveta Mrázová, CSc.

Více

Bayesovská klasifikace

Bayesovská klasifikace Bayesovská klasifikace založeno na Bayesově větě P(H E) = P(E H) P(H) P(E) použití pro klasifikaci: hypotéza s maximální aposteriorní pravděpodobností H MAP = H J právě když P(H J E) = max i P(E H i) P(H

Více

Usuzování za neurčitosti

Usuzování za neurčitosti Usuzování za neurčitosti 25.11.2014 8-1 Usuzování za neurčitosti Hypotetické usuzování a zpětná indukce Míry postačitelnosti a nezbytnosti Kombinace důkazů Šíření pravděpodobnosti v inferenčních sítích

Více

Umělá inteligence II

Umělá inteligence II Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními

Více

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

Ústav teorie informace a automatizace.   J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28 Úvod do bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace Akademie věd České republiky http://www.utia.cz/vomlel 30. října 2008 J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/2008

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Jan Motl (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 7 1/27 Vytěžování znalostí z dat Pavel Kordík, Jan Motl Department of Computer Systems Faculty of Information Technology

Více

Pravděpodobně skoro správné. PAC učení 1

Pravděpodobně skoro správné. PAC učení 1 Pravděpodobně skoro správné (PAC) učení PAC učení 1 Výpočetní teorie strojového učení Věta o ošklivém kačátku. Nechť E je klasifikovaná trénovací množina pro koncept K, který tvoří podmnožinu konečného

Více

Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:

Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na: Úvod do bayesovských sítí Jiří Vomlel Laboratoř inteligentních systémů Vysoká škola ekonomická Praha Tato prezentace je k dispozici na: http://www.utia.cas.cz/vomlel/ Obor hodnot Necht X je kartézský součin

Více

oddělení Inteligentní Datové Analýzy (IDA)

oddělení Inteligentní Datové Analýzy (IDA) Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {

Více

7 Soft computing. 7.1 Bayesovské sítě

7 Soft computing. 7.1 Bayesovské sítě 7 Soft computing Jak již bylo řečeno v předcházející kapitole, zpracování neurčitosti v umělé inteligenci je zastřešeno souhrnným označením soft computing. V této kapitole se podíváme na základní přístupy

Více

UČENÍ BEZ UČITELE. Václav Hlaváč

UČENÍ BEZ UČITELE. Václav Hlaváč UČENÍ BEZ UČITELE Václav Hlaváč Fakulta elektrotechnická ČVUT v Praze katedra kybernetiky, Centrum strojového vnímání hlavac@fel.cvut.cz, http://cmp.felk.cvut.cz/~hlavac 1/22 OBSAH PŘEDNÁŠKY ÚVOD Učení

Více

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet. Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Dnešní program Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu

Více

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie Klasifikace a rozpoznávání Bayesovská rozhodovací teorie Extrakce p íznaků Granáty Četnost Jablka Váha [dkg] Pravděpodobnosti - diskrétní p íznaky Uvažujme diskrétní p íznaky váhové kategorie Nechť tabulka

Více

Zpracování neurčitosti

Zpracování neurčitosti Zpracování neurčitosti Úvod do znalostního inženýrství, ZS 2015/16 7-1 Usuzování za neurčitosti Neurčitost: Při vytváření ZS obvykle nejsou všechny informace naprosto korektní mohou být víceznačné, vágní,

Více

Statistická teorie učení

Statistická teorie učení Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální

Více

Bayesovské metody. Mnohorozměrná analýza dat

Bayesovské metody. Mnohorozměrná analýza dat Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností připomenutí, souvislosti

Více

Pravděpodobnost, náhoda, kostky

Pravděpodobnost, náhoda, kostky Pravděpodobnost, náhoda, kostky Radek Pelánek IV122, jaro 2015 Výhled pravděpodobnost náhodná čísla lineární regrese detekce shluků Dnes lehce nesourodá směs úloh souvisejících s pravděpodobností krátké

Více

Úloha - rozpoznávání číslic

Úloha - rozpoznávání číslic Úloha - rozpoznávání číslic Vojtěch Franc, Tomáš Pajdla a Tomáš Svoboda http://cmp.felk.cvut.cz 27. listopadu 26 Abstrakt Podpůrný text pro cvičení předmětu X33KUI. Vysvětluje tři způsoby rozpoznávání

Více

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Vytěžování dat Miroslav Čepek, Filip Železný Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group Evropský sociální fond Praha & EU: Investujeme

Více

3. Podmíněná pravděpodobnost a Bayesův vzorec

3. Podmíněná pravděpodobnost a Bayesův vzorec 3. Podmíněná pravděpodobnost a Bayesův vzorec Poznámka: V některých úlohách řešíme situaci, kdy zkoumáme pravděpodobnost náhodného jevu za dalších omezujících podmínek. Nejčastěji má omezující podmínka

Více

Úvod do mobilní robotiky AIL028

Úvod do mobilní robotiky AIL028 SLAM - souběžná lokalizace a mapování {md zw} at robotika.cz http://robotika.cz/guide/umor07/cs 10. ledna 2008 1 2 3 SLAM intro Obsah SLAM = Simultaneous Localization And Mapping problém typu slepice-vejce

Více

Expertní systémy. Typy úloh: Klasifikační Diagnostické Plánovací Hybridní Prázdné. Feingenbaum a kol., 1988

Expertní systémy. Typy úloh: Klasifikační Diagnostické Plánovací Hybridní Prázdné. Feingenbaum a kol., 1988 Expertní systémy Počítačové programy, simulující rozhodovací činnost experta při řešení složitých úloh a využívající vhodně kvality rozhodování na úrovni experta. Typy úloh: Klasifikační Diagnostické Plánovací

Více

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost

Více

13. cvičení z PSI ledna 2017

13. cvičení z PSI ledna 2017 cvičení z PSI - 7 ledna 07 Asymptotické pravděpodobnosti stavů Najděte asymptotické pravděpodobnosti stavů Markovova řetězce s maticí přechodu / / / 0 P / / 0 / 0 0 0 0 0 0 jestliže počáteční stav je Řešení:

Více

Moderní systémy pro získávání znalostí z informací a dat

Moderní systémy pro získávání znalostí z informací a dat Moderní systémy pro získávání znalostí z informací a dat Jan Žižka IBA Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Bioinformatika:

Více

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

Zpětnovazební učení Michaela Walterová Jednoocí slepým, Zpětnovazební učení Michaela Walterová Jednoocí slepým, 17. 4. 2019 V minulých dílech jste viděli Tři paradigmata strojového učení: 1) Učení s učitelem (supervised learning) Trénovací data: vstup a požadovaný

Více

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI TECHNICKÁ UNIVERZITA V LIBERCI Fakulta mechatroniky, informatiky a mezioborových studií Základní pojmy diagnostiky a statistických metod vyhodnocení Učební text Ivan Jaksch Liberec 2012 Materiál vznikl

Více

Bayesovské sítě. Kamil Matoušek, Ph.D. Informační a znalostní systémy

Bayesovské sítě. Kamil Matoušek, Ph.D. Informační a znalostní systémy Bayesovské sítě Kamil Matoušek, Ph.D. Informační a znalostní systémy Co jsou Bayesian Networks (BN) Pravděpodobnostní modely využívající grafovou reprezentaci Znalosti zatížené nejistotou (nepřesné, nejisté,

Více

Základy teorie pravděpodobnosti

Základy teorie pravděpodobnosti Základy teorie pravděpodobnosti Náhodný jev Pravděpodobnost náhodného jevu Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 15. srpna 2012 Statistika

Více

Rozhodovací pravidla

Rozhodovací pravidla Rozhodovací pravidla Úloha klasifikace příkladů do tříd. pravidlo Ant C, kde Ant je konjunkce hodnot atributů a C je cílový atribut A. Algoritmus pokrývání množin metoda separate and conquer (odděl a panuj)

Více

Kybernetika a umělá inteligence, cvičení 10/11

Kybernetika a umělá inteligence, cvičení 10/11 Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu

Více

Kapitola 1. Logistická regrese. 1.1 Model

Kapitola 1. Logistická regrese. 1.1 Model Kapitola Logistická regrese Předpokládám, že už jsme zavedli základní pojmy jako rysy a že už máme nějaké značení Velkost trenovacich dat a pocet parametru Motivační povídání... jeden z nejpoužívanějších

Více

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017

1. Znalostní systémy a znalostní inženýrství - úvod. Znalostní systémy. úvodní úvahy a předpoklady. 26. září 2017 Znalostní systémy úvodní úvahy a předpoklady 26. září 2017 1-1 Znalostní systém Definice ZS (Feigenbaum): Znalostní (původně expertní) systémy jsou počítačové programy simulující rozhodovací činnost experta

Více

Získávání dat z databází 1 DMINA 2010

Získávání dat z databází 1 DMINA 2010 Získávání dat z databází 1 DMINA 2010 Získávání dat z databází Motto Kde je moudrost? Ztracena ve znalostech. Kde jsou znalosti? Ztraceny v informacích. Kde jsou informace? Ztraceny v datech. Kde jsou

Více

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi

Evoluční algoritmy. Podmínka zastavení počet iterací kvalita nejlepšího jedince v populaci změna kvality nejlepšího jedince mezi iteracemi Evoluční algoritmy Použítí evoluční principů, založených na metodách optimalizace funkcí a umělé inteligenci, pro hledání řešení nějaké úlohy. Populace množina jedinců, potenciálních řešení Fitness function

Více

Strojové učení Marta Vomlelová

Strojové učení Marta Vomlelová Strojové učení Marta Vomlelová marta@ktiml.mff.cuni.cz KTIML, S303 Literatura 1.T. Hastie, R. Tishirani, and J. Friedman. The Elements of Statistical Learning, Data Mining, Inference and Prediction. Springer

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma

Projekční algoritmus. Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění. Jan Klíma Urychlení evolučních algoritmů pomocí regresních stromů a jejich zobecnění Jan Klíma Obsah Motivace & cíle práce Evoluční algoritmy Náhradní modelování Stromové regresní metody Implementace a výsledky

Více

Kontingenční tabulky. (Analýza kategoriálních dat)

Kontingenční tabulky. (Analýza kategoriálních dat) Kontingenční tabulky (Analýza kategoriálních dat) Agenda Standardní analýzy dat v kontingenčních tabulkách úvod, KT, míry diverzity nominálních veličin, některá rozdělení chí kvadrát testy, analýza reziduí,

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Praha, 2. listopadu 2016

Praha, 2. listopadu 2016 Příklady aplikací bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace (ÚTIA) Akademie věd České republiky http://www.utia.cz/vomlel Praha, 2. listopadu 2016 Obsah přednášky Aplikace 1:

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

Teorie informace: řešené příklady 2014 Tomáš Kroupa

Teorie informace: řešené příklady 2014 Tomáš Kroupa Teorie informace: řešené příklady 04 Tomáš Kroupa Kolik otázek je třeba v průměru položit, abychom se dozvěděli datum narození člověka (den v roce), pokud odpovědi jsou pouze ano/ne a tázaný odpovídá pravdivě?

Více

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence

Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence APLIKACE UMĚLÉ INTELIGENCE Ing. Petr Hájek, Ph.D. Podpora přednášky kurzu Aplikace umělé inteligence Aplikace umělé inteligence - seminář ING. PETR HÁJEK, PH.D. ÚSTAV SYSTÉMOVÉHO INŽENÝRSTVÍ A INFORMATIKY

Více

Dobývání a vizualizace znalostí

Dobývání a vizualizace znalostí Dobývání a vizualizace znalostí Olga Štěpánková et al. 1 Osnova předmětu 1. Dobývání znalostí - popis a metodika procesu a objasnění základních pojmů 2. Nástroje pro modelování klasifikovaných dat a jejich

Více

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti. Přednáška č. 1 Úvod do statistiky a počtu pravděpodobnosti Statistika Statistika je věda a postup jak rozvíjet lidské znalosti použitím empirických dat. Je založena na matematické statistice, která je

Více

Vzdálenost jednoznačnosti a absolutně

Vzdálenost jednoznačnosti a absolutně Vzdálenost jednoznačnosti a absolutně bezpečné šifry Andrew Kozlík KA MFF UK Značení Pracujeme s šifrou (P, C, K, E, D), kde P je množina otevřených textů, C je množina šifrových textů, K je množina klíčů,

Více

Metody založené na analogii

Metody založené na analogii Metody založené na analogii V neznámé situaci lze použít to řešení, které se osvědčilo v situaci podobné případové usuzování (Case-Based Reasoning CBR) pravidlo nejbližšího souseda (nearest neighbour rule)

Více

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1

Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení. PAC učení 1 Výpočetní teorie strojového učení a pravděpodobně skoro správné (PAC) učení PAC učení 1 Cíl induktivního strojového učení Na základě omezeného vzorku příkladů E + a E -, charakterizovat (popsat) zamýšlenou

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

Vzdálenost uzlů v neorientovaném grafu

Vzdálenost uzlů v neorientovaném grafu Vzdálenosti a grafy Vzdálenost uzlů v neorientovaném grafu Je dán neorientovaný neohodnocený graf G = (V,E,I) vzdálenost uzlů u a v v neorientovaném souvislém grafu G je délka nejkratší cesty spojující

Více

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost

Více

Neparametrické odhady hustoty pravděpodobnosti

Neparametrické odhady hustoty pravděpodobnosti Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz Statistické

Více

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Algoritmus pro hledání nejkratší cesty orientovaným grafem 1.1 Úvod Algoritmus pro hledání nejkratší cesty orientovaným grafem Naprogramoval jsem v Matlabu funkci, která dokáže určit nejkratší cestu v orientovaném grafu mezi libovolnými dvěma vrcholy. Nastudoval

Více

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0. 11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15

Více

Pravděpodobnost a její vlastnosti

Pravděpodobnost a její vlastnosti Pravděpodobnost a její vlastnosti 1 Pravděpodobnost a její vlastnosti Náhodné jevy Náhodný jev je výsledek pokusu (tj. realizace určitého systému podmínek) a jeho charakteristickým rysem je, že může, ale

Více

Metody výpočtu limit funkcí a posloupností

Metody výpočtu limit funkcí a posloupností Metody výpočtu limit funkcí a posloupností Martina Šimůnková, 6. listopadu 205 Učební tet k předmětu Matematická analýza pro studenty FP TUL Značení a terminologie R značí množinu reálných čísel, rozšířenou

Více

Praha, 24. listopadu 2014

Praha, 24. listopadu 2014 Příklady aplikací bayesovských sítí Jiří Vomlel Ústav teorie informace a automatizace (ÚTIA) Akademie věd České republiky http://www.utia.cz/vomlel Praha, 24. listopadu 2014 Obsah přednášky Příklad bayesovské

Více

Odhady - Sdružené rozdělení pravděpodobnosti

Odhady - Sdružené rozdělení pravděpodobnosti Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy

Více

Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu.

Algoritmus. Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Algoritmus Cílem kapitoly je seznámit žáky se základy algoritmu, s jeho tvorbou a způsoby zápisu. Klíčové pojmy: Algoritmus, vlastnosti algoritmu, tvorba algoritmu, vývojový diagram, strukturogram Algoritmus

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec (ČVUT FIT) Vytěžování znalostí z dat BI-VZD, 2012, Přednáška 8 1/26 Vytěžování znalostí z dat Pavel Kordík, Josef Borkovec Department of Computer Systems Faculty of Information

Více

Kvantové algoritmy a bezpečnost. Václav Potoček

Kvantové algoritmy a bezpečnost. Václav Potoček Kvantové algoritmy a bezpečnost Václav Potoček Osnova Úvod: Kvantové zpracování informace Shorův algoritmus Kvantová distribuce klíče Post-kvantové zabezpečení Úvod Kvantové zpracování informace Kvantový

Více

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Diskrétní matematika. DiM /01, zimní semestr 2016/2017 Diskrétní matematika Petr Kovář petr.kovar@vsb.cz Vysoká škola báňská Technická univerzita Ostrava DiM 470-2301/01, zimní semestr 2016/2017 O tomto souboru Tento soubor je zamýšlen především jako pomůcka

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Bayesovská klasifikace digitálních obrazů

Bayesovská klasifikace digitálních obrazů Výzkumný ústav geodetický, topografický a kartografický Bayesovská klasifikace digitálních obrazů Výzkumná zpráva č. 1168/2010 Lubomír Soukup prosinec 2010 1 Úvod V průběhu nedlouhého historického vývoje

Více

cv3.tex. Vzorec pro úplnou pravděpodobnost

cv3.tex. Vzorec pro úplnou pravděpodobnost 3 cvičení - pravděpodobnost 2102018 18cv3tex n i=1 Vzorec pro úplnou pravděpodobnost Systém náhodných jevů nazýváme úplným, jestliže pro něj platí: B i = 1 a pro i k je B i B k = 0 Jestliže je (Ω, A, P

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez

= je prostý orientovaný graf., formálně c ( u, v) 0. dva speciální uzly: zdrojový uzel s a cílový uzel t. Dále budeme bez Síť Síť je čtveřice N = ( G, s, t, c) kde G ( V, A) = je prostý orientovaný graf a každé orientované hraně ( u, v) je přiřazeno nezáporné číslo, které se nazývá kapacita hrany ( u, v), formálně c ( u,

Více

Intervalová data a výpočet některých statistik

Intervalová data a výpočet některých statistik Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a

Více

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jestliže opakujeme nezávisle nějaký pokus, můžeme z pozorovaných hodnot sestavit rozdělení relativních četností

Více

ANALÝZA A KLASIFIKACE DAT

ANALÝZA A KLASIFIKACE DAT ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. INVESTICE Institut DO biostatistiky ROZVOJE VZDĚLÁVÁNÍ a analýz LITERATURA Holčík, J.: přednáškové prezentace Holčík, J.: Analýza a klasifikace signálů.

Více

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

3. Vícevrstvé dopředné sítě

3. Vícevrstvé dopředné sítě 3. Vícevrstvé dopředné sítě! Jsou tvořeny jednou nebo více vrstvami neuronů (perceptronů). Výstup jedné vrstvy je přitom připojen na vstup následující vrstvy a signál se v pracovní fázi sítě šíří pouze

Více

Intuitivní pojem pravděpodobnosti

Intuitivní pojem pravděpodobnosti Pravděpodobnost Intuitivní pojem pravděpodobnosti Intuitivní pojem pravděpodobnosti Pravděpodobnost zkoumaného jevu vyjadřuje míru naděje, že tento jev nastane. Řekneme-li, že má nějaký jev pravděpodobnost

Více

Cvičení ze statistiky - 5. Filip Děchtěrenko

Cvičení ze statistiky - 5. Filip Děchtěrenko Cvičení ze statistiky - 5 Filip Děchtěrenko Minule bylo.. Začali jsme pravděpodobnost Klasická a statistická definice pravděpodobnosti Náhodný jev Doplněk, průnik, sjednocení Podmíněná pravděpodobnost

Více

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení TEORIE RAVDĚODONOSTI 2. cvičení Základní pojmy Klasická def. Statistická def. Geometrická def. odmíněná prav. ayesův teorém Test Základní pojmy Náhodný pokus - je každý konečný děj, jehož výsledek není

Více

Metody analýzy dat I. Míry a metriky - pokračování

Metody analýzy dat I. Míry a metriky - pokračování Metody analýzy dat I Míry a metriky - pokračování Literatura Newman, M. (2010). Networks: an introduction. Oxford University Press. [168-193] Zaki, M. J., Meira Jr, W. (2014). Data Mining and Analysis:

Více

CVIČENÍ 4 Doc.Ing.Kateřina Hyniová, CSc. Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze 4.

CVIČENÍ 4 Doc.Ing.Kateřina Hyniová, CSc. Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze 4. CVIČENÍ POZNÁMKY. CVIČENÍ. Vazby mezi systémy. Bloková schémata.vazby mezi systémy a) paralelní vazba b) sériová vazba c) zpětná (antiparalelní) vazba. Vnější popis složitých systémů a) metoda postupného

Více

Dolování z textu. Martin Vítek

Dolování z textu. Martin Vítek Dolování z textu Martin Vítek Proč dolovat z textu Obrovské množství materiálu v nestrukturované textové podobě knihy časopisy vědeckéčlánky sborníky konferencí internetové diskuse Proč dolovat z textu

Více

Vytěžování znalostí z dat

Vytěžování znalostí z dat Vytěžování znalostí z dat Department of Computer Systems Faculty of Information Technology Czech Technical University in Prague Přednáška 5: Hodnocení kvality modelu BI-VZD, 09/2011 MI-POA Evropský sociální

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace

KYBERNETIKA A UMĚLÁ INTELIGENCE. 2. Pravděpodobnostní rozhodování a klasifikace KYBERNETIKA A UMĚLÁ INTELIGENCE 2. Pravděpodobnostní rozhodování a klasifikace laboratory Gerstner Gerstnerova laboratoř katedra kybernetiky fakulta elektrotechnická ČVUT v Praze Daniel Novák Poděkování:

Více

Síla a významnost asociace mezi proměnnými v systému

Síla a významnost asociace mezi proměnnými v systému Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie.

Více

Informační systémy pro podporu rozhodování

Informační systémy pro podporu rozhodování Informační systémy pro rozhodování Informační systémy pro podporu rozhodování 5 Jan Žižka, Naděžda Chalupová Ústav informatiky PEF Mendelova universita v Brně Asociační pravidla Asociační pravidla (sdružovací

Více

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D. Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen

Více

Informační a znalostní systémy

Informační a znalostní systémy Informační a znalostní systémy Teorie pravděpodobnosti není v podstatě nic jiného než vyjádření obecného povědomí počítáním. P. S. de Laplace Pravděpodobnost a relativní četnost Pokusy, výsledky nejsou

Více

Katedra kybernetiky, FEL, ČVUT v Praze.

Katedra kybernetiky, FEL, ČVUT v Praze. Grafické pravděpodobnostní modely učení z dat Jiří Kléma Katedra kybernetiky, FEL, ČVUT v Praze http://ida.felk.cvut.cz pstruktura přednášky Motivace pro učení znalosti obtížně získatelné, data často po

Více

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý

Odečítání pozadí a sledování lidí z nehybné kamery. Ondřej Šerý Odečítání pozadí a sledování lidí z nehybné kamery Ondřej Šerý Plán Motivace a popis úlohy Rozdělení úlohy na tři části Detekce pohybu Detekce objektů Sledování objektů Rozbor každé z částí a nástin několika

Více

Algoritmizace prostorových úloh

Algoritmizace prostorových úloh INOVACE BAKALÁŘSKÝCH A MAGISTERSKÝCH STUDIJNÍCH OBORŮ NA HORNICKO-GEOLOGICKÉ FAKULTĚ VYSOKÉ ŠKOLY BÁŇSKÉ - TECHNICKÉ UNIVERZITY OSTRAVA Algoritmizace prostorových úloh Grafové úlohy Daniela Szturcová Tento

Více

Automatické vyhledávání informace a znalosti v elektronických textových datech

Automatické vyhledávání informace a znalosti v elektronických textových datech Automatické vyhledávání informace a znalosti v elektronických textových datech Jan Žižka Ústav informatiky & SoNet RC PEF, Mendelova universita Brno (Text Mining) Data, informace, znalost Elektronická

Více

Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí

Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí Cíle lokalizace Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí 2 Jiný pohled Je to problém transformace souřadnic Mapa je globální souřadnicový systém nezávislý

Více

11. Tabu prohledávání

11. Tabu prohledávání Jan Schmidt 2011 Katedra číslicového návrhu Fakulta informačních technologií České vysoké učení technické v Praze Zimní semestr 2011/12 MI-PAA EVROPSKÝ SOCIÁLNÍ FOND PRAHA & EU: INVESTUJENE DO VAŠÍ BUDOUCNOSTI

Více

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze

Některé potíže s klasifikačními modely v praxi. Nikola Kaspříková KMAT FIS VŠE v Praze Některé potíže s klasifikačními modely v praxi Nikola Kaspříková KMAT FIS VŠE v Praze Literatura J. M. Chambers: Greater or Lesser Statistics: A Choice for Future Research. Statistics and Computation 3,

Více

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky

jednoduchá heuristika asymetrické okolí stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy Pokročilé heuristiky Pokročilé heuristiky jednoduchá heuristika asymetrické stavový prostor, kde nelze zabloudit připustit zhoršují cí tahy pokročilá heuristika symetrické stavový prostor, který vyžaduje řízení 1 2 Paměť pouze

Více

2 Hlavní charakteristiky v analýze přežití

2 Hlavní charakteristiky v analýze přežití 2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student

Více

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. 3.1 Základy teorie pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti. Co se dozvíte Náhodný pokus a náhodný jev. Pravděpodobnost, počítání s pravděpodobnostmi.

Více