EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Podobné dokumenty
oddělení Inteligentní Datové Analýzy (IDA)

Umělá inteligence II

Bayesian Networks. The graph represents conditional independencies of the join probability distribution Π X V P(X pa(x)).

UČENÍ BEZ UČITELE. Václav Hlaváč

Pravděpodobnost, náhoda, kostky

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 )

Odhady - Sdružené rozdělení pravděpodobnosti

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Instance based learning

Teorie rozhodování (decision theory)

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pravděpodobnost, náhoda, kostky

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Teorie užitku. Marta Vomlelová 14. prosince / 23

PRAVDĚPODOBNOST A STATISTIKA

Bayesovské metody. Mnohorozměrná analýza dat

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Bayesovská klasifikace

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Normální (Gaussovo) rozdělení

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

3 Bodové odhady a jejich vlastnosti

Asociační i jiná. Pravidla. (Ch )

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Charakterizace rozdělení

Zpětnovazební učení Michaela Walterová Jednoocí slepým,

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Normální (Gaussovo) rozdělení

I. D i s k r é t n í r o z d ě l e n í

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

AVDAT Nelineární regresní model

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

p(x) = P (X = x), x R,

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

12. cvičení z PST. 20. prosince 2017

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Náhodné chyby přímých měření

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Vytěžování znalostí z dat

Testy. Pavel Provinský. 19. listopadu 2013

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Klasifikace a rozpoznávání. Lineární klasifikátory

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Cvičení ze statistiky - 8. Filip Děchtěrenko

7. Analýza rozptylu.

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Definice spojité náhodné veličiny zjednodušená verze

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Fyzikální korespondenční seminář MFF UK

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Bodové odhady parametrů a výstupů

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Apriorní rozdělení. Jan Kracík.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Příklady - Bodový odhad

Cvičení ze statistiky - 5. Filip Děchtěrenko

Hodnocení vlastností materiálů podle ČSN EN 1990, přílohy D

SRE 03 - Statistické rozpoznávání

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Základy teorie odhadu parametrů bodový odhad

Pravděpodobnostní algoritmy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Cvičení ze statistiky - 7. Filip Děchtěrenko

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

5. B o d o v é o d h a d y p a r a m e t r ů

STATISTICKÉ ODHADY Odhady populačních charakteristik

Lineární algebra : Metrická geometrie

Predikce roční spotřeby zemního plynu po ceníkových pásmech

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

Testování statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

TEST 1 (40 bodů) (9 4)! 2. Nejméně kolikrát musíme hodit kostkou, abychom měli alespoň 80% pravděpodobnost, že padne alespoň jedna šestka?

Odhady Parametrů Lineární Regrese

Přijímací zkouška na navazující magisterské studium 2014

Stavový model a Kalmanův filtr

Aktivní detekce chyb

AVDAT Mnohorozměrné metody, metody klasifikace

Transkript:

EM algoritmus používá se pro odhad nepozorovaných veličin. Jde o iterativní algoritmus opakující dva kroky: Estimate, který odhadne hodnoty nepozorovaných dat, a Maximize, který maximalizuje věrohodnost vzhledem k datům přes uvažované modely. Protože se to hodí. Proč zahrnovat do modelu neznámé veličiny Známe model, některé veličiny nemůžeme pozorovat. Neznámá nepozorovaná veličina zaviní, že vše souvisí se vším. Často se používají směsi gausovských rozložení: na klastrování, na popis funkce při zpracování obrazu, atd.

Estimate Mám model (z předchozího kroku, na počátku volíme parametry např. náhodně či rovnoměrnou distribuci). Pro každý řádek dat: vložím do modelu evidenci na veličinách, které jsem pozorovala, podívám se na pravděpodobnost veličin, které pozorované nebyly, řádek dat rozdrobím na spoustu dílků, každý s jinými hodnotami nepozorovaných veličin, váha dílku odpovídá pravděpodobnosti situace, součet vah drobků je 1.

Maximize Pro některé modely to umíme odminule: gausovská distribuce bayesovská sít

Směs gausovských distribucí 2 distribuce mají parametry: π, µ 1,σ1 2, µ 2,σ2 2, na začátku µ náhodně, π = 0.5, σ = výběrový rozptyl Estimate krok: γ i = πφ θ2 (y i ) (1 π)φ θ1 (y i ) + πφ θ2 (y i ) Maximize krok: odhadnout střední hodnoty a rozptyly, µ 1 = N i=1 (1 γ i)y i N i=1 (1 γ i) σ 2 2 = N i=1 γ i(y i µ 2 ) 2 N i=1 γ i a iterujeme EM do konvergence. π = N i=1 γ i N

Směs gausovských distribucí Estimate: vložím evidenci, zapíši si distribuci na komponentách C, p i j = P(C = i x j ) = α P(x j C = i) P(C = i) Definujeme součty přes všechny příklady j pro jednotlivé komponenty: p i j = N j=1 p i j Maximize: pro daná data spočteme maximálně věrohodný odhad: Pro jednorozměrné: σ 2 i j p i j p i (x j µ i ) 2 µ i j Σ i j p i j p i x j p i j p i (x j µ i )(x j µ i ) T P(C = i) p i k l=1 p l

EM algoritmus Lze dokázat, že v každém kroku zvýší věrohodnost modelu. Nakonec (možná) najde model s větší věrohodností, než má model původní. Data jsou generovaná náhodně a nemusí úplně přesně vystihovat původní model. Za jistých předpokladů se dá dokázat, že EM konverguje k maximu, obecně jako každá gradientní metoda může zůstat v lokálním maximu. Narozdíl od většiny gradientních metod nemáme parametr velikost kroku. Spíš je problém, že ke konci konverguje pomalu, než že by zůstal v lokálním maximu.

EM algoritmus pro bayesovské sítě Základní princip je stejný Estimate a Maximize. Příklad: Dva pytle bonbónů někdo smíchal dohromady. Každý bonbón má nějaký obal Wrapper a příchut Flavor a bud v něm jsou dírky Holes, nebo ne. V každém pytli byl jiný poměr příchutí, jiný poměr děravých bonbónů k neděravým atd. Příklad se dá popsat jako naivní bayesovský model.

Příklad Snědli jsme 1000 bonbónů a zapsali, co jsme pozorovali: W=red W=green H=1 H=0 H=1 H=0 F=cherry 273 93 104 90 F=lime 79 100 94 167 Počáteční parametry modelu zvolíme: θ (0) = 0.6, θ (0) F1 = θ(0) W1 = θ(0) H1 = 0.6, θ(0) F2 = θ(0) W2 = θ(0) H2 = 0.4

Odhad θ: kdyby byla pozorovaná, spočteme podíl bonbónů z prvního balíčku ke všem bonbónům. Protože jí nepozorujeme, sčítáme očekávané počty θ (1) = 1 N N j=1 P( f lavor j Bag = 1)P(wrapper j Bag = 1)P(holes j Bag = 1)P(Bag = 1) 2 i=1 P( f lavor j Bag = i)p(wrapper j Bag = i)p(holes j Bag = i)p(bag = i) (normalizační konstanta dole také záleží na hodnotách parametrů). Pro bonbón red, cherry, holes dostaneme: θ (0) F1 θ(0) W1 θ(0) H1 θ(0) θ (0) F1 θ(0) W1 θ(0) H1 θ(0) + θ (0) F2 θ(0) W2 θ(0) H2 θ(0) 0.835055 takových bonbónů máme 273, tedy je jejich příspěvek 273 N 0.835055. Podobně spočteme příspěvky dalších sedmi políček a dostaneme: θ (1) = 0.6124 Odhad θ F1 by v plně pozorovaném případě byl...

My musíme počítat podíl očekávaných počtů Bag = 1&F = cherry a Bag = 1, tj. θ (1) F1 = j;flavor j =cherry P(Bag = 1 Flavor j = cherry, wrapper j, holes j ) j P(Bag = 1 cherry j, wrapper j, holes j ) Podobně dostaneme: θ (1) = 0.6124, θ (1) F1 = 0.6684,θ(1) W1 = 0.6483,θ(1) H1 = 0.6558, θ (1) F2 = 0.3887,θ(1) W2 = 0.3817,θ(1) H2 = 0.3827

Pozn: V Bayesovské síti lze učit parametry tak, že postupně vložíme jeden příklad za druhým a sčítáme pravděpodobnosti pro jednotlivé konfigurace dítěte plus jeho rodičů. Tím dostaneme očekávané četnosti (resp. po vydělení počtem příkladů), z očekávaných četností spočteme parametry podílem odpovídajících četností, tj. θ i jk četnost (X i = x i j &pa(x i ) = pa ik ) četnost (pa(x i ) = pa ik )

Obecný EM algoritmus Máme li počáteční odhady parametrů θ (0), skryté proměnné Z a pozorovaná data, pak můžeme jeden krok EM algoritmu zapsat přiřazením: θ (i+1) argmax θ (i) P(Z = z data, θ (i) ) L(data, Z = z θ (i) ) z Z