Podobné dokumenty
Neurčitost: Bayesovské sítě

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)

Zabýváme se konstrukcí racionálních agentů.

Usuzování za neurčitosti

Vysoká škola ekonomická Praha. Tato prezentace je k dispozici na:

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

Umělá inteligence II

Teorie rozhodování (decision theory)

Umělá inteligence I. Roman Barták, KTIML.

Cvičení ze statistiky - 5. Filip Děchtěrenko

Výroková a predikátová logika - V

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Výroková a predikátová logika - II

Výroková a predikátová logika - III

Výroková a predikátová logika - II

Intuitivní pojem pravděpodobnosti

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Bayesovská klasifikace

Výroková a predikátová logika - VII

Zjednodušení generativního systému redukcí rozlišení

NÁHODNÝ VEKTOR. 4. cvičení

Pravděpodobnost a aplikovaná statistika

IB112 Základy matematiky

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Pravděpodobnost a její vlastnosti

VK CZ.1.07/2.2.00/

Základy teorie pravděpodobnosti

Umělá inteligence I. Roman Barták, KTIML.

Pravděpodobnost a statistika

oddělení Inteligentní Datové Analýzy (IDA)

Výpočet marginálních podmíněných pravděpodobností v bayesovské síti

TECHNICKÁ UNIVERZITA V LIBERCI

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Zpracování neurčitosti

PRAVDĚPODOBNOST A STATISTIKA

Algoritmus pro hledání nejkratší cesty orientovaným grafem

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

3. Podmíněná pravděpodobnost a Bayesův vzorec

Teorie užitku. Marta Vomlelová 14. prosince / 23

Modely teorie grafů, min.kostra, max.tok, CPM, MPM, PERT

Vícerozměrná rozdělení

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Výroková a predikátová logika - II

Definice spojité náhodné veličiny zjednodušená verze

cv3.tex. Vzorec pro úplnou pravděpodobnost

Informační systémy pro podporu rozhodování

pravděpodobnosti a Bayesova věta

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Výroková a predikátová logika - III

Výroková a predikátová logika - VI

Pravděpodobnost, náhoda, kostky

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Náhodné jevy. Teorie pravděpodobnosti. Náhodné jevy. Operace s náhodnými jevy

Plánováníá a rozvrhování

Výhody a nevýhody jednotlivých reprezentací jsou shrnuty na konci kapitoly.

I. D i s k r é t n í r o z d ě l e n í

Cíle lokalizace. Zjištění: 1. polohy a postavení robota (robot pose) 2. vzhledem k mapě 3. v daném prostředí

Vytěžování znalostí z dat

Pravděpodobnostní model volejbalového zápasu

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Odhady - Sdružené rozdělení pravděpodobnosti

Téma 22. Ondřej Nývlt

p(x) = P (X = x), x R,

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Markovské metody pro modelování pravděpodobnosti

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Numerická stabilita algoritmů

Lingebraické kapitolky - Analytická geometrie

Bayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).

Hranová konzistence. Arc consistency AC. Nejprve se zabýváme binárními CSP. podmínka odpovídá hraně v grafu podmínek

Výběrové charakteristiky a jejich rozdělení

Výroková a predikátová logika - IV

pseudopravděpodobnostní Prospector, Fel-Expert

Diskrétní matematika. DiM /01, zimní semestr 2018/2019

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Výroková a predikátová logika - VII

Výroková a predikátová logika - XII

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Pravděpodobně skoro správné. PAC učení 1

Automatizované řešení úloh s omezeními

Tvar dat a nástroj přeskupování

Aplikace: Znalostní báze

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Dynamické programování

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Připomeňme, že naším cílem je tvorba nástroj, pro zjištění stavu světa případně

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Zpracování digitalizovaného obrazu (ZDO) - Segmentace II

Teorie informace: řešené příklady 2014 Tomáš Kroupa

AVDAT Náhodný vektor, mnohorozměrné rozdělení

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Náhodné vektory a matice

Umělá inteligence I. Roman Barták, KTIML.

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Binární vyhledávací stromy pokročilé partie

Transkript:

Umělá inteligence II Roman Barták, KTIML roman.bartak@mff.cuni.cz http://ktiml.mff.cuni.cz/~bartak Pro zopakování Pravděpodobnost je formální mechanismus pro zachycení neurčitosti. Pravděpodobnost každé atomické události zachycuje úplná sdružená distribuce. Odpověď můžeme získat vysčítáním přes atomické události (elementární jevy) odpovídající pozorování. Pro větší problémy ale bude potřeba efektivnější přístup. Hodit se nám bude nezávislost a podmíněná nezávislost.

A zase ten Wumpus! Příklad na úvod V bludišti se nachází díry, které se poznají podle vánku v okolní buňce (Wumpuse a zlato tentokrát t neuvažujeme). Kam máme jít, když na (1,2) a (2,1) cítíme vánek? Logické odvození nepotvrdí bezpečnost žádné buňky! Na kterou buňku máme jít? Booleovské proměnné: P i,j na buňce (i,j) je díra Wumpus pravděpodobnostní model BB i,j na buňce ň (i,j) je cítit vánek (zahrneme pouze proměnné B 1,1, B 1,2 a B 2,1. Úplná sdružená distribuce P(P 12 1,2,,P 44 4,4,B 11 1,1,B 12 1,2,B 21 2,1 ) součinové pravidlo = P(B 1,1,B 1,2,B 2,1 P 1,2,,P 4,4 ) * P(P 1,2,,P 4,4 ) P(P 1,2,,P 4,4 ) = Π i,j P(P i,j ) P(P 1,2,,P 4,4 ) = 0.2 n * 0.8 16-n díry jsou rozmístěny nezávisle bereme-li pravděpodobnost díry 0.2 a n děr

Známe následující fakta: b= bb 1,1 b 1,2 b 2,1 Wumpus dotaz a odpověď enumerací known = p 1,1 p 1,2 p 2,1 Zajímá nás dotaz P(P 1,3 known, b). Odpověď snadno zjistíme enumerací úplné sdružené distribuce nechť Unknown = proměnné P i,j kromě P 1,3 a Known P(P 1,3 known, b) = Σ unknown P(P 1,3, unknown, known, b) To ale znamená prozkoumat všechna ohodnocení proměnných Unknown a těch je 2 12 = 4096. Nejde to udělat lépe (rychleji)? Pozorování: pozorování vánku je podmíněně nezávislé na ostatních skrytých yý buňkách (šedé) pokud jsou dány sousední skryté buňky y( (žluté) Wumpus podmíněná nezávislost Rozdělíme skryté buňky na sousedy a ostatní buňky Unknown = Fringe Other Z podmíněné nezávislosti dostaneme: P(b P 1,3, known, unknown) = P(b P 1,3, known, fringe) A teď tento vztah pouze vhodně použijeme.

Wumpus využití podmíněné nezávislosti P(P 1,3 known, b), = α Σ unknown P(P 1,3, known, unknown, b) součinové pravidlo P(X,Y) = P(X Y) P(Y) = α Σ unknown P(b P 13 1,3, known, unknown) * P(P 13 1,3, known, unknown) = α Σ fringe Σ other P(b P 1,3, known, fringe,other) * P(P 1,3, known, fringe,other) = α Σ fringe Σ other P(b P 1,3,known, fringe) * P(P 1,3,known,fringe,other) = α Σ fringe P(b P 1,3,known, fringe) * Σ other P(P 1,3,known,fringe,other) = α Σ fringe P(b P 1,3,known, fringe) * Σ other P(P 1,3 )P(known)P(fringe)P(other) = α P(known)P(P 1,3 ) Σ fi fringe P(b P 1,3,known, fringe) P(fringe) Σ other P(other) = α P(P 1,3 ) Σ fringe P(b P 1,3,known, fringe) P(fringe) α = α. P(known) Σ other P(other) = 1 Wumpus Kam teď máme jít? P(P 1,3 known, b) = α P(P 1,3 ) Σ fringe P(b P 1,3,known, fringe) P(fringe) Teď ď prozkoumáme možné modely pro Fringe, které jsou kompatibilní s pozorováním b. P(P 1,3 known, b) = α 0.2 (0.04 + 0.16 + 0.16), 0.8 (0.04 + 0.16) = 031 0.31, 0.69 069 P(P 2,2 known, b) = 0.86, 0.14 Určitě se tedy vyhneme buňce (2,2)!

Diagnostické systémy Podívejme se ještě jednou na diagnostiku. Zpravidla nám jde o odhalení zdrojů problému podle symptomů. zajímá nás tedy P(disease symptoms) )tj. diagnostický směr Z analýzy předchozích nemocí, poruch, máme ale k dispozici jiné údaje pravděpodobnost nemoci P(disease) pravděpodobnost symptomu P(symptom) kauzální vztah nemoci a symptomu P(symptoms disease) Jak je využít? Bayesovo pravidlo Víme, že platí P(a b) = P(a b) P(b) = P(b a) P(a) Můžeme odvodit tzv. Bayesovo pravidlo (vzorec): P(a b) = P(b a) P(a) / P(b) v obecné podobě: P(Y X) = P(X Y) P(Y) / P(X) = α P(X Y) P(Y) To na první pohled vypadá jako krok zpět,,protože potřebujeme znát P(X Y), P(Y), P(X). Často, ale právě tato čísla máme k dispozici. P(cause effect) = P(effect cause) P(cause) / P(effect) P(effect cause) popisuje kauzální vazbu P(cause effect) popisuje diagnostickou vazbu

Diagnostika v medicíně Bayesovo pravidlo příklad použití z předchozích případů známe P(symptoms disease), P(disease), P(symptoms) u nového pacienta známe symptomy a hledáme nemoc P(disease symptoms) Příklad: meningitida způsobuje ztuhlou šíji u 70% procent pacientů pravděpodobnost d meningitidy itid je 1/50 000 pravděpodobnost ztuhlé šíje je 1% Jaká je pravděpodobnost, p že pacient se ztuhlou šíjí má meningitidu? P(m s) = P(s m).p(m) / P(s) = 0.7 * 1/50000 / 0.01 = 0.0014 Proč ne přímo? diagnostická vazba je citlivější než kauzální vazba pokud například vypukne epidemie meningitidy, bude hodnota přímé diagnostické vazby jiná, v našem vzorci ale stačí aktualizovat hodnotu P(m) Bayesovo pravidlo spojování pozorování Co když máme k dispozici více pozorování? Můžeme využít podmíněnou nezávislost P(Toothache,Catch,Cavity) h C t h C ) = P(Toothache Cavity) P(Catch Cavity) P(Cavity) Pokud jsou všechny efekty podmíněně nezávislé při dané příčině, dostaneme P(Cause,Effect 1,,Effect n ) = P(Cause) Π i P(Effect i Cause) Jedná se o často používaný tzv. naivní Bayesův model (používá se, i když neplatí podmíněná nezávislost).

Reprezentace znalostí s nejistotou Víme, že úplná sdružená distribuce poskytuje kompletní informaci pro výpočet libovolné pravděpodobnosti metodou marginalizace (vysčítáním). Jedná se ale o metodu paměťově a časově náročnou (O(d n ) pro n náhodných proměnných s d hodnotami). Jak to udělat lépe? Nápověda: využijeme podmíněné nezávislosti Bayesovské sítě Další program efektivní způsob reprezentace podmíněných pravděpodobností a nezávislostí Sémantika sítě vztah k úplné složené distribuci Konstrukce sítě Odvozování v Bayesovských sítích exaktní metody enumerace, eliminace proměnných aproximační metody vzorkovací (samplovací) techniky

Bayesovská síť zachycuje závislosti mezi náhodnými proměnnými orientovaný acyklický graf (DAG) uzel odpovídá náhodné proměnné předchůdci uzlu v grafu se nazývají rodiče každý uzel má přiřazenu tabulku podmíněné pravděpodobnostní distribuce P(X Parents(X)) jiné názvy belief network, probabilistic network, causal network (spec. případ BS), knowledge map Máme v domě zabudovaný alarm, který spustí při vloupání ale někdy také při zemětřesení. ě ř Sousedi Mary a John slíbili, že vždy, když alarm uslyší, tak nám zavolají. Bayesovská síť John volá skoro vždy, když slyší alarm, ale někdy si ho splete s telefonním zvoněním Mary poslouchá hlasitou hudbu a někdy alarm přeslechne modelová situace Zajímá nás pravděpodobnost vloupání, pokud John i Mary volají. Další předpoklady: ř d sousedi přímo nevidí vloupání ani necítí zemětřesení sousedi se nedomlouvají (volají nezávisle na sobě)

Bayesovská síť příklad Náhodné Booleovské proměnné reprezentují možné události. některé události (zvonění telefonu, přelet letadla, vadu alarmu ) ignorujeme pravděpodobnostní tabulky reprezentují vztah podmíněné pravděpodobnosti stačí reprezentovat hodnoty true Sémantika sítě Bayesovská sít kompaktním způsobem reprezentuje úplnou sdruženou distribuci. P(x 1,,x n ) = Π i P(x i parents(x i )) Zpětně lze ukázat, že tabulky P(X Parents(X)) jsou podmíněné pravděpodobnosti p podle nahoře definované úplné sdružené distribuce. Protože úplnou sdruženou distribuci lze použít pro odpověď na libovolnou otázku v dané doméně, lze stejnou odpověď získat z Bayesovské sítě (marginalizací).

Konstrukce sítě Jak konstruovat Bayesovské sítě? Nápovědu nám dává vztah P(x 1,,x, n ) = Π i P(x i parents(x i )) a rozepsání P(x 1,,x n ) řetězcovým pravidlem P(x 1,,x n ) = Π i P(x i x i-1,,x 1 ). Dohromady dostaneme P(X i Parents(X i )) = P(X i X i-1,,x 1 ) za předpokladu ř d Parents(X i ) {X i-1,,x 1 }, což platí pokud je očíslování uzlů konzistentní s uspořádáním uzlů v síti. Konstrukce sítě algoritmus Uzly: rozhodněte,,jaké náhodné proměnné jsou potřeba a uspořádejte je funguje libovolné uspořádání, ale pro různá uspořádání dostaneme různě kompaktní sítě doporučené uspořádání je takové, kdy příčiny předcházejí efekty Hrany: bereme proměnné X i v daném pořadí od 1 po n v množině {X 1,,X i-1 } vybereme nejmenší množinu rodičů X i tak, že platí P(X i Parents(X i )) = P(X i X i-1,,x 1 ) zrodičů vedeme hranu do X i vypočteme podmíněné pravděpodobnostní tabulky P(X i Parents(X i )) Vlastnosti: síť je z principu konstrukce acyklická sít neobsahuje redundantní da informaci a tudíž je vždy konzistentní t (splňuje axiomy pravděpodobnosti)

Konstrukce sítě poznámky Bayesovská síť může být mnohem kompaktnější než úplná sdružená distribuce, pokud je síť řídká (je lokálně strukturovaná). náhodná proměnná často přímo závisí jen na omezeném počtu jiných proměnných nechť je takových proměnných k a všech proměnných je n, potom potřebujeme prostor n2 n.2 k poba pro Bayesovskou sko síť 2 n pro úplnou sdruženou distribuci můžeme ignorovat slabé slabé vazby, čímž budeme mít menší přesnost reprezentace, ale reprezentace bude kompaktnější např. to, zda Mary nebo John zavolají není přímo ovlivněno zemětřesením, ale pouze alarmem samozřejmě kompaktnost sítě hodně závisí na vhodném uspořádání proměnnýchě Konstrukce sítě příklad Nechť jsme zvolili pořadí MarryCalls, JohnCalls, Alarm, Burglary, Earthquake MarryCalls nemá rodiče pokud volá Marry, je zřejmě aktivní alarm, což ovlivňuje Johnovo zavolání Alarm asi zní, pokud volá Marry nebo John pokud známe stav Alarmu, tak vloupání nezávisí na tom, zda volá Marry ani John P(Burglary Alarm, JohnCalls, MarryCalls) = P(Burglary Alarm) Alarm je svým způsobem detektor pro zemětřesení, ale pokud došlo k vloupání, tak pravděpodobně nebylo zemětřesení

Máme sice jen dvě hrany navíc oproti původnímu návrhu, ale problém je vyplnění tabulek podmíněných závislostí. stejný problém jako u kauzální vs. diagnostické vazby je lepší se držet kauzální vazby (příčina před následkem) dává menší sítě a je snazší vyplnit tabulky podmíněných závislostí Při špatném uspořádání proměnných nemusíme nic uspořit vzhledem k úplné sdružené distribuci MaryCalls, JohnCalls, Earthquake, Burglary, Alarm Konstrukce sítě uspořádání proměnných Podmíněná nezávislost Zatím jsme se dívali na sémantiku Bayesovských sítí globálně (ve vztahu k úplné sdružené distribuci). hodí se pro konstrukci sítí Můžeme se na síť podívat lokálně a uvědomit si, že proměnná je podmíněně nezávislá na uzlech, které nejsou její j potomci, pokud známe rodiče proměnná je podmíněné nezávislá na ostatních uzlech sítě, pokud známe rodiče, děti a rodiče dětí (tzv. Markovský obal proměnné)