oddělení Inteligentní Datové Analýzy (IDA)

Podobné dokumenty
EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhady - Sdružené rozdělení pravděpodobnosti

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základy teorie odhadu parametrů bodový odhad

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Umělá inteligence II

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

3 Bodové odhady a jejich vlastnosti

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Klasický lineární model, metoda nejmenších

Katedra kybernetiky laboratoř Inteligentní Datové Analýzy (IDA) Katedra počítačů, Computational Intelligence Group

Implementace Bayesova kasifikátoru

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

PRAVDĚPODOBNOST A STATISTIKA

Praktická statistika. Petr Ponížil Eva Kutálková

AVDAT Nelineární regresní model

, 1. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Odhad parametrů N(µ, σ 2 )

Odhady Parametrů Lineární Regrese

Informační a znalostní systémy

Odhad parametrů N(µ, σ 2 )

Základy teorie pravděpodobnosti

Základy vytěžování dat

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Bayesovské metody. Mnohorozměrná analýza dat

Přijímací zkouška na navazující magisterské studium 2014

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Náhodné vektory a matice

Příklady - Bodový odhad

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Statistická teorie učení

Bodové odhady parametrů a výstupů

Vytěžování znalostí z dat

Klasifikace a rozpoznávání. Bayesovská rozhodovací teorie

Apriorní rozdělení. Jan Kracík.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Klasifikace a rozpoznávání. Lineární klasifikátory

Testy. Pavel Provinský. 19. listopadu 2013

Markov Chain Monte Carlo. Jan Kracík.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Normální (Gaussovo) rozdělení

Pravděpodobnost, náhoda, kostky

Instance based learning

1. Statistická analýza dat Jak vznikají informace Rozložení dat

UČENÍ BEZ UČITELE. Václav Hlaváč

TECHNICKÁ UNIVERZITA V LIBERCI

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení Seminář z aktuárských věd. Slides by LATEX.

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

12. cvičení z PST. 20. prosince 2017

KVADRATICKÁ KALIBRACE

Katedra kybernetiky skupina Inteligentní Datové Analýzy (IDA) 9. ledna 2017

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Cvičení ze statistiky - 7. Filip Děchtěrenko

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Časové řady, typy trendových funkcí a odhady trendů

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

Časové řady, typy trendových funkcí a odhady trendů

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistika II. Jiří Neubauer

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

Charakterizace rozdělení

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

7. Rozdělení pravděpodobnosti ve statistice

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

3. Podmíněná pravděpodobnost a Bayesův vzorec

STATISTICKÉ ZJIŠŤOVÁNÍ

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Cvičení ze statistiky - 8. Filip Děchtěrenko

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Základy vytěžování dat

Vybraná rozdělení náhodné veličiny

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Vlastnosti odhadů ukazatelů způsobilosti

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Funkce komplexní proměnné a integrální transformace

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Kapitola 1. Logistická regrese. 1.1 Model

Pravděpodobnost a statistika

INTEGRÁLY S PARAMETREM

Úvod do mobilní robotiky AIL028

PRAVDĚPODOBNOST A STATISTIKA

Normální (Gaussovo) rozdělení

Transkript:

Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25

Odhad rozdělení Úloha: Vstup: data D = { x 1, x 2,... x m }, x i X (1 i m), m N náhodně, navz. nezávisle vybraná z rozdělení P X na X Výstup: vzor h L reprezentující odhad P X, tj. generativní model dat Filip Železný (ČVUT) Vytěžování dat 22. září 2014 2 / 25

Odhad rozdělení: příklad úlohy 2 druhy bonbónů v baĺıčku Vybíráme náhodně (poslepu), dostaneme Jaký je poměr (pravděpodobnost) zelených bonbónů v baĺıčku? Filip Železný (ČVUT) Vytěžování dat 22. září 2014 3 / 25

Odhad rozdělení: příklad úlohy (pokr.) P X lze reprezentovat jedním číslem θ Tedy prostor vzorů je reálný interval X = {, } P ( ) = θ, P ( ) = 1 θ L = [0; 1] Pozn.: ve skutečnosti konečná podmnožina [0; 1], nebot reálná čísla se reprezentují konečným počtem číslic. Filip Železný (ČVUT) Vytěžování dat 22. září 2014 4 / 25

Odhad dle četnosti Data Odhad dle relativní četnosti: D = { } (m = 10) P ( ) = θ 9 10 Odůvodnění: četnost konverguje k pravděpodobnosti pro m. Filip Železný (ČVUT) Vytěžování dat 22. září 2014 5 / 25

Odhad dle maximální věrohodnosti Obecnější metoda odhadu. Používá podmíněnou pravděpodobnost P (D θ) tj.: má-li parametr hodnotu θ, budeme data D pozorovat s touto pravděpodobností. Nazývá se věrohodnost (likelihood). Parametr odhadneme tak, že věrohodnost maximalizujeme θ = arg max P (D θ) θ Data x i D jsou vybírána navzájem nezávisle, tedy: P (D θ) = Π m i=1p (x i θ) Filip Železný (ČVUT) Vytěžování dat 22. září 2014 6 / 25

Věrohodnost: příklad D = { } (m = 10) Pro θ = P ( ) = 0.6 P (D θ) = P ( 0.6) 9 P ( 0.6) 1 = 0.6 9 0.4 0.004 Pro θ = P ( ) = 0.8 P (D θ) = P ( 0.8) 9 P ( 0.8) 1 = 0.8 9 0.2 0.027 Tedy θ = 0.8 je věrohodnější než θ = 0.6. Obecně: jak najít θ, které věrohodnost maximalizuje? Filip Železný (ČVUT) Vytěžování dat 22. září 2014 7 / 25

Logaritmus věrohodnosti Pro snazší výpočet používáme logaritmus věrohodnosti tedy L(D θ) = log P (D θ) V příkladě s bonbóny: L(D θ) = log Π m i=1p (x i θ) = m log P (x i θ) i=1 L(D θ) = log θ z + log(1 θ) c = c log θ + z log(1 θ) kde c a z je počet červených resp. zelených bonbónů v datech Filip Železný (ČVUT) Vytěžování dat 22. září 2014 8 / 25

Hledání maxima věrohodnosti θ maximalizuje věrohodnost právě tehdy, když maximalizuje její logaritmus. Hledáme maximum L(D θ), tedy položíme V příkladě s bonbóny: Řešení: d dθ L(D θ) = 0 d dθ (c log θ + z log(1 θ)) = c θ z 1 θ = 0 θ = c c + z = c m Tedy stejný výsledek jako u odhadu dle relativní četnosti. Metoda maximální věrohodnosti je ale obecnější - uvidíme dále. Filip Železný (ČVUT) Vytěžování dat 22. září 2014 9 / 25

Omezená množina vzorů Tentokrát víme, že se vyrábí jen 5 typů baĺıčků: 1 100% zelených 2 75% zelených, 25% červených 3 50% zelených, 50% červených 4 25% zelených, 75% červených 5 100% červených Každý typ představuje jeden vzor pro generování dat (losování bonbónů), označme je po řadě L = {h 1, h 2, h 3, h 4, h 5 }. Filip Železný (ČVUT) Vytěžování dat 22. září 2014 10 / 25

Vzor s maximální věrohodnostní Odhad dle četností již není použitelný, metoda maximální věrohodnosti je. P (D h 1 ) = 1 z 0 c P (D h 1 ) = 0.75 z 0.25 c P (D h 3 ) = 0.5 z 0.5 c P (D h 4 ) = 0.25 z 0.75 c P (D h 5 ) = 0 z 1 c (z, c... počet zelených resp. červených bonbónů v datech) Dostáváme samé zelené: D = {...}, který vzor je nejvěrohodnější? Filip Železný (ČVUT) Vytěžování dat 22. září 2014 11 / 25

Apriorní pravděpodobnosti Marginální rozdělení pravděpodobnosti P L (h i ) vzorů může být známo před obdržením dat. Např: 1 100% zelených 2 75% zelených, 25% červených 3 50% zelených, 50% červených 4 25% zelených, 75% červených 5 100% červených Filip Železný (ČVUT) Vytěžování dat 22. září 2014 12 / 25

Apriorní pravděpodobnosti Marginální rozdělení pravděpodobnosti P L (h i ) vzorů může být známo před obdržením dat. Např: 1 100% zelených 10% výroby 2 75% zelených, 25% červených 20% výroby 3 50% zelených, 50% červených 40% výroby 4 25% zelených, 75% červených 20% výroby 5 100% červených 10% výroby Tedy P L (h 1 ) = 0.1, P L (h 2 ) = 0.2, P L (h 3 ) = 0.4, P L (h 4 ) = 0.2, P L (h 5 ) = 0.1 Tyto pravděpodobnosti se nazývají apriorní. Filip Železný (ČVUT) Vytěžování dat 22. září 2014 12 / 25

Aposteriorní pravděpodobnost Známe-li rozdělení P L a (po obdržení dat) P (D h i ) pro každý vzor h i můžeme podle Bayesova pravidla spočítat P (h i D) = P (D h i)p L (h i ) P (D) P (h i D) je aposteriorní pravděpodobnost vzoru h i po obdržení dat D. Jmenovatel nezávisí na h i. Z tohoto důvodu L P (D) = P (D h j )P (h j ) j=1 arg max P (h i D) = arg max P (D h i )P L (h i ) h i h i Filip Železný (ČVUT) Vytěžování dat 22. září 2014 13 / 25

Odhad dle MAP Metoda maximální aposteriorní pravděpodobnosti (MAP) vybírá vzor h h = arg max P (h i D) = arg max P (D h i )P L (h i ) h i h i Srov. s metodou maximální věrohodnosti, kde h = arg max h i P (D h i ) MAP tedy bere navíc úvahu informaci nesenou apriorním rozdělením P L (h i ). Ta je významná pro malé množství dat, ale s rostoucím množstvím dat její význam klesá: arg max P (D h i )P L (h i ) m arg max P (D h i ) h i h i Filip Železný (ČVUT) Vytěžování dat 22. září 2014 14 / 25

Aposteriorní pravděpodobnost jako funkce množství dat 1 P (h 1 d) P (h 2 D) P (h 3 D) P (h 4 D) P (h 5 D) P L (h 3 ) D = {...} (dostáváme samé zelené) P L (h 2 ) = P L (h 4 ) P L (h 1 ) = P L (h 5 ) 0 10 m Filip Železný (ČVUT) Vytěžování dat 22. září 2014 15 / 25

Odhad parametrů normálního rozdělení Data D = {x 1, x 2,... x m } vybrána navz. nezávisle z rozdělení P X (x) = 1 σ (x µ) 2 2π e 2σ 2 Z dat odhadujeme parametry µ, σ. Aplikace metody max. věrohodnosti: L(D µ, σ) = m log P (x i µ, σ) = m( log m (x i µ) 2 2π log σ) 2σ 2 i=1 i=1 d dµ L(D θ) = 1 σ 2 d dσ L(D θ) = m σ + 1 σ 3 m m i=1 (x i µ) = 0 µ = x i m i=1 m m (x i µ) 2 i=1 = 0 σ = (x i µ) 2 m i=1 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 16 / 25

Směs normálních rozdělení (pokr.) pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž 184... X = P V = {muž, žena} R + D = { x 1, x 2, x 3,...} = {(p 1, v 1 ), (p 2, v 2 ), (p 3, v 3 ),...} = {(žena, 171), (žena, 164), (muž, 182),...} Filip Železný (ČVUT) Vytěžování dat 22. září 2014 17 / 25

Směs normálních rozdělení (pokr.) Rozdělení výšek je součtem dvou normálních rozdělení (muži, ženy) Každé má svoji střední hodnotu a rozptyl Rozdělení P X na X lze vyjádřit jako P X ( x) = P X ([p, v]) = P P (muž)p V P (v muž) + P P (žena)p V P (v žena) 1 P V P (v muž) = exp ( (x µ muž) 2 ) σ muž 2π 2σmuž 2 1 P V P (v žena) = exp ( (x µ žena) 2 ) σžena 2π 2σ 2 žena Filip Železný (ČVUT) Vytěžování dat 22. září 2014 18 / 25

Směs normálních rozdělení (pokr.) Odhady dle maximální věrohodnosti, zvlášt pro každé pohlaví: µžena σžena pohlaví výška žena 171 žena 164 žena 169 m i=1 x i m = 504 3 = 168 3 2 + 4 2 + 1 2 2.94 3 pohlaví výška muž 182 muž 173 muž 188 m i=1 µ muž x i m = 543 3 = 181 1 σ muž 2 + 8 2 + 7 2 6.16 3 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 19 / 25

Skrytá proměnná Víme, že v populaci jsou muži a ženy, ale proměnná (příznak) pohlaví v datech není. pohlaví výška žena 171 žena 164 muž 182 žena 169 muž 178 muž 184 Jak nyní odhadnout P X, tedy parametry µ muž, σ muž, µžena, σžena a P (žena)? Filip Železný (ČVUT) Vytěžování dat 22. září 2014 20 / 25

Algoritmus EM 1 Nastřel počáteční hodnoty parametrů, např. µžena = 150, σžena = 10 µ muž = 200, σ muž = 10 P (žena) = 0.5, P (muž) = 0.5 2 Krok E (expectation): Se stanovenými parametry spočti pravděpodobnosti hodnot skryté proměnné pro každou instanci, např. P (žena 171) = P (171 žena)p (žena)/p (171) = 1 exp ( (171 µ žena) 2 ) 0.5/P (171) 2πσžena 2σ 2 žena = 0.01391 0.5/P (171) Filip Železný (ČVUT) Vytěžování dat 22. září 2014 21 / 25

Algoritmus EM (pokr.) 2 Krok E (pokr.) P (muž 171) = P (171 muž)p (muž)/p (171) = 1 exp ( (171 µ muž) 2 ) 0.5/P (171) 2πσmuž 2σ 2 muž = 0.00188 0.5/P (171) P (žena 171) + P (muž 171) = 1 0.01391 0.5 P (žena 171) = 0.01391 0.5 + 0.00188 0.5 = 0.88 P (muž 171) = 1 0.88 = 0.12 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 22 / 25

Algoritmus EM (pokr.) 3 Krok M (maximization): Se spočtenými pravděpodobnostmi pro hodnoty skrytých proměnných znovu odhadni parametry rozdělení σžena µžena 1 Nžena m P (žena v i )v i i=1 1 m P (žena v i )(v i µžena ) 2 Nžena i=1 P (žena) 1 m m P (žena v i ) Nžena = m i=1 P (žena v i)... normalizační konstanta, zaručuje, že součet P (žena v i ) přes všechny instance je 1. Analogicky spočteme pro muže. 4 Opakuj krokem 2 (dokud změny nejsou dostatečně malé) i=1 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 23 / 25

Poznámka ke kroku M Pozorujte: 1 m m i=1 je průměrná výška v celém vzorku dat. Odhad v kroku M 1 Nžena v i m P (žena v i )v i i=1 je vlastně vážený průměr. Vahou je pravděpodobnost P (žena v i ), že osoba s výškou v i je žena. Přitom m i=1 P (žena v i) = Nžena. Analogicky pro odhad σžena Analogicky pro muže Filip Železný (ČVUT) Vytěžování dat 22. září 2014 24 / 25

Algoritmus EM (pokr.) Konvergence algoritmu EM iterace µžena µ muž 0 150.000 200.000 1 167.007 181.972 2 167.951 181.956 (správné hodnoty) 168 181 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 25 / 25