Umělá inteligence II

Podobné dokumenty
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

oddělení Inteligentní Datové Analýzy (IDA)

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Teorie rozhodování (decision theory)

Pravděpodobnost, náhoda, kostky

3 Bodové odhady a jejich vlastnosti

Klasifikace a rozpoznávání. Lineární klasifikátory

Statistická teorie učení

Bayesovská klasifikace


Odhady Parametrů Lineární Regrese

Pravděpodobnost, náhoda, kostky

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Markovské procesy. příklad: diabetický pacient, hladina inzulinu, léky, jídlo

12. cvičení z PST. 20. prosince 2017

3. Podmíněná pravděpodobnost a Bayesův vzorec

Usuzování za neurčitosti

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Znalosti budeme nejčastěji vyjadřovat v predikátové logice prvního řádu. Metody:

PRAVDĚPODOBNOST A STATISTIKA

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 )

UČENÍ BEZ UČITELE. Václav Hlaváč

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Apriorní rozdělení. Jan Kracík.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Intervalová data a výpočet některých statistik

Kombinatorická minimalizace

1. července 2010

Instance based learning

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Cvičení ze statistiky - 7. Filip Děchtěrenko

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Odhady - Sdružené rozdělení pravděpodobnosti

Jednofaktorová analýza rozptylu

Prohledávání svazu zjemnění

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

0.1 Úvod do lineární algebry

KGG/STG Statistika pro geografy

Výběrové charakteristiky a jejich rozdělení

Užitek a rozhodování

Vytěžování znalostí z dat

12. Lineární programování

TECHNICKÁ UNIVERZITA V LIBERCI

Aproximace funkcí. Numerické metody 6. května FJFI ČVUT v Praze

Zabýváme se konstrukcí racionálních agentů.

PRAVDĚPODOBNOST A STATISTIKA

Neurčitost: Bayesovské sítě

Základy teorie pravděpodobnosti

7. Derivace složené funkce. Budeme uvažovat složenou funkci F = f(g), kde některá z jejich součástí

Katedra kybernetiky, FEL, ČVUT v Praze.


Dnes budeme učit agenty, jak zlepšit svůj

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Dnešní program odvozování v Bayesovských sítích exaktní metody (enumerace, eliminace proměnných) aproximační metody y( (vzorkovací techniky)

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Vzdálenost jednoznačnosti a absolutně

7. Rozdělení pravděpodobnosti ve statistice

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Integrace. Numerické metody 7. května FJFI ČVUT v Praze

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

KGG/STG Statistika pro geografy

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

1 Odvození poptávkové křivky

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvod do teorie her

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

CVIČNÝ TEST 15. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 15 IV. Záznamový list 17

Ústav teorie informace a automatizace. J. Vomlel (ÚTIA AV ČR) Úvod do bayesovských sítí 30/10/ / 28

Kapitola 1. Logistická regrese. 1.1 Model

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu (reg. č. CZ.1.07/2.2.00/28.

Bayesovské metody. Mnohorozměrná analýza dat

Parametrické programování

Cvičení ze statistiky - 8. Filip Děchtěrenko

Základy teorie odhadu parametrů bodový odhad

AVDAT Klasický lineární model, metoda nejmenších

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Připomeňme, že naším cílem je tvorba nástroj, pro zjištění stavu světa případně

Úloha - rozpoznávání číslic

Algoritmy komprese dat

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

CVIČNÝ TEST 11. OBSAH I. Cvičný test 2. Mgr. Tomáš Kotler. II. Autorské řešení 6 III. Klíč 19 IV. Záznamový list 21

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Binární vyhledávací stromy pokročilé partie

Kontingenční tabulky. (Analýza kategoriálních dat)

Numerické řešení nelineárních rovnic

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Akvizice dat. Dekonvoluce Registrace. zobrazení INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ

Transkript:

Umělá inteligence II 11 http://ktiml.mff.cuni.cz/~bartak Roman Barták, KTIML roman.bartak@mff.cuni.cz Dnešní program! V reálném prostředí převládá neurčitost.! Neurčitost umíme zpracovávat pravděpodobnostními modely jako jsou Bayesovské sítě.! Jak ale získat vhodný model (jak vyplnit tabulky podmíněných pravděpodobností)?! Učení pravděpodobnostních modelů " Bayesovské učení! vypočtení pravděpodobnosti každé hypotézy " učení naivních Bayesovských modelů " učení modelů se skrytými proměnnými

Modelový příklad! Máme bonbóny dvou příchutí třešeň (cherry) a citrón (lime), které výrobce balí do stejného neprůhledného obalu.! Bonbóny jsou prodávány v nerozlišitelných (velkých) baleních pěti typů: " h 1 : 100% třešeň " h 2 : 75% třešeň + 25% citrón " h 3 : 50% třešeň + 50% citrón " h 4 : 25% třešeň + 75% citrón " h 5 : 100% citrón! Náhodná proměnná H (hypotéza) označuje typ balení (není přímo pozorovatelná).! K dispozici jsou vstupní data D 1,,D N otevřené a prozkoumané bonbóny z jednoho balení.! Základní úlohou je předpovědět příchuť dalšího bonbónu. Bayesovské učení! Na základě dat spočteme pravděpodobnost každé hypotézy.! Podle získané pravděpodobnosti uděláme předpověď.! Předpověď se dělá na základě všech hypotéz, ne podle jedné nejlepší hypotézy.! Formálně P(h i d) = α P(d h i ) P(h i ) kde d jsou pozorované hodnoty! Předpověď se udělá následovně: P(X d) = Σ i P(X d,h i ). P(h i d) = Σ i P(X h i ). P(h i d) " Předpověď je váženým průměrem předpovědí jednotlivých hypotéz.! Hypotéza je prostředníkem mezi daty a předpovědí.! Základní prvky Bayesovského učení " P(h i ) je apriorní pravděpodobnost hypotéz " P(d h i ) je věrohodnost dat podle hypotézy

Modelový příklad řešení! Nechť od výrobce známe pravděpodobnost výskytu jednotlivých balení 0.1; 0.2; 0.4; 0.2; 0.1! Za předpokladu nezávislosti pozorování (velká balení): P(d h i ) = Π j P(d j h i )! Pokud jsme rozbalili deset citronových bonbónů, máme například P(d h 3 ) = 0.5 10. Bayesovské učení vlastnosti! Bayesovská předpověď po určité době souhlasí s pravdivou hypotézou " posteriorní pravděpodobnosti nepravdivých hypotéz se blíží 0! Bayesovská předpověď je optimální nezávisle na velikosti dat " každá jiná předpověď bude správná méně často! Prostor hypotéz je ale často velmi velký (až nekonečný). " řešíme různými aproximacemi

MAP učení! Častou aproximací Bayesovského učení je dělání předpovědi na základě nejpravděpodobnější hypotézy (maximum a posteriori hypothesis). " P(X d) P(X h MAP )! V našem příkladě je po třech citronových bonbónech h MAP = h 5. " další citronový bonbón předpoví s pravděpodobností 1.0, což je riskantnější předpověď než Bayesovská předpověď 0.8! Hledání MAP hypotézy znamená řešení optimalizačního problému, což je snazší než dlouhé součty (integrály) u Bayesovského učení. Přeučení! Již víme, že pokud je prostor hypotéz příliš bohatý, může docházet k přeučení (overfitting).! Bayesovské a MAP učení používá místo omezení složitosti hypotéz metodu penalizace složitosti. " složitější hypotézy mají menší apriorní pravděpodobnost " použití apriorní pravděpodobnosti hypotézy tedy přirozeně vyvažuje složitost hypotézy a míru mapování na data! Pokud budeme brát deterministické hypotézy (P(d h i ) = 1, je-li hypotéza konzistentní, a 0 jindy) potom je h MAP nejjednodušší hypotézou konzistentní s daty. " jedná se o přirozené vyjádření principu Ockhamovy břitvy

MDL učení! Při hledání h MAP maximalizujeme P(d h i ) P(h i )! To je ekvivalentní minimalizaci ( log 2 P(d h i ) log 2 P(h i )) log 2 P(h i ) můžeme brát jako počet bitů nutných pro specifikaci hypotézy h i log 2 P(d h i ) jsou potom dodatečné bity pro specifikaci dat z dané hypotézy (speciálně, pokud hypotéza přesně odpovídá datům, máme log 2 1 = 0, tj. není potřeba další informace)! MAP učení tedy vybírá hypotézu, která maximalizuje kompresi dat.! Podobný přístup přímo realizuje metoda MDL (minimum description length) " přímo počítá bity potřebné pro binární kódování hypotézy i dat a hledá hypotézu s nejmenším počtem bitů ML učení! Jiné zjednodušení Bayesovského učení uvažuje stejné apriorní pravděpodobnosti všech hypotéz.! Hledáme hypotézu maximalizující P(d h i ) - maximum likelihood hypothesis " potlačuje subjektivní hodnocení rozložení hypotéz " dobrá aproximace pro hodně dat (data časem převáží nad apriorním rozdělením hypotéz) " pro malý počet příkladů problém

Učení parametrů Jak se naučit pravděpodobnostní model?! Uvažujme, že struktura modelu je dána (např. máme Bayesovskou síť)! Potřebujeme vědět, jak do tabulek doplnit podmíněné pravděpodobnosti učení parametrů.! Nejprve předpokládejme, že máme úplná data. " každý příklad určuje hodnoty všech náhodných proměnných v modelu Maximální věrohodnost! Uvažujme opět výrobu bonbónů, ale tentokrát neznáme poměr příchutí! Parametr k učení je pravděpodobnost θ výskytu třešňového bonbónu. " hypotéza je h θ " modelujeme Bayesovskou sítí s jedním uzlem! Po rozbalení N bonbónů, nechť c je třešňových a l (= N-c) citronových bonbónů P(d h θ ) = Π j P(d j h θ ) = θ c (1-θ) l! Použití ML učení je zde vhodné, protože apriorní pravděpodobnost hypotéz je stejná " maximalizujeme P(d h θ ) což je stejné jako maximalizovat L(d h θ ) = log P(d h θ ) = Σ j log P(d j h θ ) = c log θ + l log(1-θ) " použijeme derivaci rovnou nule L(d h θ ) / θ = c/θ - l/(1-θ) = 0 θ = c / (c+l) = c / N " h ML je tak vlastně dána podílem třešňových bonbónů ve vyzkoušeném vzorku!

Maximální věrohodnost obecněji! Učení metodou ML obecně funguje takto: " zapíšeme vztah pro pravděpodobnost dat jako funkci parametrů " logaritmus vztahu derivujeme " najdeme hodnoty parametrů tam, kde je derivace nulová! tento bod bývá nejkomplikovanější, někdy je potřeba řešit numericky! ML učení parametrů Bayesovské sítě se rozpadne na učení se jednotlivých parametrů. Maximální věrohodnost rozšířený příklad! Uvažujme nyní, že výrobce bonbónů napovídá příchuť barvou obalu (červený nebo zelený). " síť má teď tři parametry θ, θ 1, θ 2 θ - bonbón je třešňový θ 1 - je-li bonbón třešňový, potom má červený obal θ 1 - je-li bonbón citronový, potom má červený obal P(Flavor=cherry, Wrapper=green h θ,θ1,θ 2 ) = P(Flavor=cherry h θ,θ1,θ 2 ) P(Wrapper=green Flavor=cherry, h θ,θ 1,θ 2 ) = θ (1- θ 1 )! Po rozbalení N bonbónů (c třešňových, l citronových, r c třešňových v červeném obalu, g c třešňových v zeleném obalu, r l citronových v červeném obalu, g l citronových v zeleném obalu) P(d h θ,θ1,θ 2 ) = θ c (1-θ) l θ 1 rc (1- θ 1 ) g c θ 2 rl (1-θ 2 ) g l L = c.log θ + l.log(1-θ) + r c.log θ 1 + g c.log(1- θ 1 ) + r l.log θ 2 + g l.log(1-θ 2 ) L / θ = c / θ - l / (1- θ) θ = c / (c+l) L / θ 1 = r c / θ 1 - g c / (1- θ 1 ) θ 1 = r c / (r c + g c ) L / θ 2 = r l / θ 2 - g l / (1- θ 2 ) θ 2 = r l / (r l + g l )

Naivní Bayesovské modely! Naivní Bayesovský model je jeden z nejběžněji používaných modelů Bayesovské sítě ve strojovém učení. " proměnná třídy C, kterou předpovídáme " atributové proměnné X i v listech, které jsou podmíněně nezávislé vzhledem k C! Pro Booleovské náhodné proměnné máme parametry " θ = P(C=true) " θ i1 = P(X i =true C=true) " θ i2 = P(X i =true C=false)! Po naučení tabulek podmíněné distribuce je pravděpodobnost zařazení do tříd podle pozorování x 1,,x N P(C x 1,,x N ) = α P(C) Π i P(x i C)! Vlastnosti " dobrá škálovatelnost (pro n atributů máme 2n+1 parametrů pro učení) " není problém se šumem v datech " pravděpodobnostní předpověď X 1 C X n! V řadě reálných problémů se vyskytují tzv. skryté proměnné náhodné proměnné, které nejsou součástí pozorovaných dat. " např. lékařské záznamy obsahují symptomy, diagnózu, léčbu a výsledek léčby, ale málokdy lze přímo pozorovat nemoc samotnou! Pokud nemůžeme skryté proměnné pozorovat, proč neudělat model bez nich? " model bez skrytých proměnných má mnohem více parametrů " uvažujeme-li v příkladu tři hodnoty, máme 708 parametrů modelu bez skrytých proměnných oproti původním 78 parametrům Skryté proměnné

EM algoritmus Jak se naučit podmíněné distribuce skryté proměnné, když v příkladech nejsou její hodnoty?! můžeme předstírat, že hodnoty parametrů známe! potom jsme schopni spočítat očekávané hodnoty skrytých proměnných, čímž data doplníme na úplný model (E-step, expectation)! upravíme hodnoty parametrů, abychom zvýšili věrohodnost modelu (M-step, maximization)! celý proces iterujeme EM algoritmus modelový příklad! Uvažujme, že v příkladu s bonbóny přibyl třetí atribut díra a že bonbóny byly původně ve dvou sadách, které se ale promíchaly. " modelujeme naivní Bayesovskou sítí, kde proměnná Bag je skrytá, protože nevíme, do které sady bonbón patřil " parametry! θ bonbón je z první sady! θ F1, θ F2 bonbón je třešňový z první nebo druhé sady! θ W1, θ W2 bonbón je zabalený červeně z první nebo druhé sady! θ H1, θ H2 bonbón má díru z první nebo druhé sady " prozkoumali jsme 1000 bonbónů s následujícím výsledkem

EM algoritmus řešení modelového příkladu! Začneme s náhodným nastavením parametrů θ (0) = θ (0) F1 = θ(0) W1 = θ(0) H1 = 0.6 θ (0) F2 = θ(0) W2 = θ(0) H2 = 0.4! Protože proměnná Bag je skrytá, spočteme její očekávanou hodnotu z příkladů a parametrů (použitím inference pro Bayesovské sítě): N(Bag=1) = Σ j P(Bag=1 flavor j, wrapper j, holes j )! Upravíme hodnoty parametrů (N je počet příkladů) θ (0) = N(Bag=1) / N " obecný princip updatu parametrů! nechť θ (0) i,j,k je parametr P(X i = x ij U i = u ik ) distribuce pro X i s rodiči U i! θ ijk N(X i = x ij, U i = u ik ) / N(U i = u ik ) θ (1) = 0.6124, θ (1) F1 = 0.6684, θ (1) W1 = 0.6483, θ (1) H1 = 0.6558 θ (1) F2 = 0.3887, θ(1) W2 = 0.3817, θ(1) H2 = 0.6558 EM algoritmus shrnutí! EM algoritmus pracuje ve dvou krocích " počítá očekávané hodnoty skrytých proměnných (expectation) " přepočítá hodnoty parametrů (maximization)! V kostce " x jsou pozorované hodnoty " Z jsou skryté proměnné " θ jsou parametry pravděpodobnostního modelu θ (i+1) argmax θ (i) Σ z P(Z=z x, θ (i) ) L(x, Z=z θ (i) ) M-step (maximization) E-step (expectation)