Síla a významnost asociace mezi proměnnými v systému

Podobné dokumenty
Aplikace 2: Hledání informativních příznaků pro rozpoznávání

Síla a významnost asociace mezi proměnnými v systému

Pravděpodobnost a aplikovaná statistika

Rekonstrukce diskrétního rozdělení psti metodou maximální entropie

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

PRAVDĚPODOBNOST A STATISTIKA

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Téma 22. Ondřej Nývlt

Výběrové charakteristiky a jejich rozdělení

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Náhodný vektor, mnohorozměrné rozdělení

I. D i s k r é t n í r o z d ě l e n í

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Náhodné vektory a matice

p(x) = P (X = x), x R,

Kybernetika a umělá inteligence, cvičení 10/11

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

12. cvičení z PST. 20. prosince 2017

Definice spojité náhodné veličiny zjednodušená verze

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Odhady Parametrů Lineární Regrese

KGG/STG Statistika pro geografy

Vícerozměrná rozdělení

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Charakterizace rozdělení

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

MATEMATICKÁ STATISTIKA - XP01MST

Intervalová data a výpočet některých statistik

Fisherův exaktní test

Testování statistických hypotéz

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Základy teorie pravděpodobnosti

Neparametrické odhady hustoty pravděpodobnosti

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Cvičení ze statistiky - 5. Filip Děchtěrenko

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jana Vránová, 3. lékařská fakulta UK

Schéma identifikační procedury

Statistická teorie učení

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

NMAI059 Pravděpodobnost a statistika

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Pravděpodobnost a matematická statistika

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Vybraná rozdělení náhodné veličiny

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Diskrétní matematika. DiM /01, zimní semestr 2016/2017

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Inovace bakalářského studijního oboru Aplikovaná chemie

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

10. N á h o d n ý v e k t o r

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Statistická analýza jednorozměrných dat

Diskrétní náhodná veličina. November 12, 2008

Statistika II. Jiří Neubauer

Přednáška X. Testování hypotéz o kvantitativních proměnných

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Regresní analýza 1. Regresní analýza

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Zjednodušení generativního systému redukcí rozlišení

Odhady - Sdružené rozdělení pravděpodobnosti

Pravděpodobnost a statistika

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

Bayesovské metody. Mnohorozměrná analýza dat

IDENTIFIKACE BIMODALITY V DATECH

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Náhodný vektor a jeho charakteristiky

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

15. T e s t o v á n í h y p o t é z

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Prohledávání svazu zjemnění

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Normální (Gaussovo) rozdělení

1. Přednáška. Ing. Miroslav Šulai, MBA

3. přednáška 15. října 2007

Základy počtu pravděpodobnosti a metod matematické statistiky

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

LWS při heteroskedasticitě

Transkript:

Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie. 5. Podmíněná entropie. 6. Vlastnosti podmíněné entropie. 7. Vzájemná informace. 8. Optimální histogramování. 9. Výpočet entropie ze vzorku dat. 10. Kvalita asociace: kontingenční test. Papoulis, A. Probability, Random Variables, and Stochastic Processes. McGraw Hill 1991, kap. 15. Anděl, J. Statistické metody. Praha: Matfyzpress, 1998; str. 157-167. Duda, RO. Hart, PE. Stork, DG. Pattern Classification, 2nd ed. John Wiley & Sons, 2001; část 9.4.1. Press, WH. Teukolsky SA. et al. Numerical Recipes in C, Cambridge University Press. 1992. OTS: Entropie; R. Šára, CMP (p. 1) Poslední revize: 23. března 2009

Entropie jako míra neuspořádanosti Jev x i : kulička padla do přihrádky ( třídy ) i N i 16 14 12 10 8 6 4 2 H = 3.2554 H = 2.0424 N i 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 i 0 1 2 3 4 5 6 7 8 9 10 i N = 100 stejných objektů: {b 1, b 2,... b N } N! všech permutací N i! permutací v každé přihrádce, i = 1, 2,..., m (zde m = 10) Celkový počet přerovnání objektů v histogramu je W = m N! N i! OTS: Entropie; R. Šára, CMP (p. 2) Poslední revize: 23. března 2009 i=1 permutace s opakováním

pokračování p i def = P (kulička padla do přihrádky i) Entropie H = lim N 1 N ln W = = lim m N i=1 N i N ln N i N = m i=1 p i ln p i Počet mikrostavů (rozdělení do m přihrádek) které dávají za vznik stejnému makrostavu (histogram). D: použijeme Stirlingův vzorec lim n n! 2πn `n n = 1, takže ln n! n ln n n pro n e OTS: Entropie; R. Šára, CMP (p. 3) Poslední revize: 23. března 2009

pokračování H 0, protože ϕ(p) 0 (viz graf) Entropie je malá pro úzká rozdělení H = 0 p i = { 1 i = j 0 i j protože i p i = 1 p ln(p) 1 0.8 0.6 0.4 ϕ(p) = p ln p Entropie je velká pro široká rozdělení, D: problém vázaného extrému mx mx H(p 1,..., p m ) = p i ln p i, p i = 1 i=1 i=1 0.2 0 0 0.2 0.4 0.6 0.8 1 p nabývá maxima pro p i = 1 m OTS: Entropie; R. Šára, CMP (p. 4) Poslední revize: 23. března 2009

Entropie jako míra informace náhodný jev x nastává s pstí p(x) pokud p(x) = 1 a jev nastal, nepřekvapí nás to pokud p(x) = 0 a jev nastal, překvapí nás to nepotřebujeme informaci, abychom si byli jisti potřebujeme informaci, abychom odstranili nejistotu Hledáme funkci s(p) (surprise): 1. spojitou 2. monotonně klesající s p 3. s(1) = 0 nulová nejistota 4. s(p A p B ) = s(p A ) + s(p B ) Hledaná funkce s(p) = s( 1 e ) ln p, s(1 e ) = 1 (definujeme, pak je entropie v Natech) Střední míra informace (v Natech) na množině jevů x = {x k } K k=1 H(x) = K p(x k ) ln p(x k ) k=1 [Shannon 1948] OTS: Entropie; R. Šára, CMP (p. 5) Poslední revize: 23. března 2009

Vlastnosti rozkladu množiny elementárních jevů na třídy ekvivalence Rozklad množiny elementárních jevů: {A 1, A 2,..., A n } Definice 1. Rozklad je disjunktní pokrytí MEJ 2. Elementární rozklad E = { {e 1 }, {e 2 },..., {e n } } 3. Zjemnění rozkladu: Dány A = {A 1, A 2,..., A n }, B = {B 1, B 2,..., B m }, pak B A právě když i!j : B i A j (právě jedno j) 5 3 1 2 4 6 ½ 3 1 2 5 4 6 3 5 ¾ ¾ 1 2 4 6 ½ ½ 3 1 2 5 4 E A = {A 1, A 2 } B = {B 1, B 2 } C B, C A 6 ¾ B A protože (například) neexistuje právě jedno A i takové, aby B 1 A i ; podobně A B C B protože C 1 B 1, C 2 B 1, C 3 B 2, C 4 B 2 ; podobně C A. OTS: Entropie; R. Šára, CMP (p. 6) Poslední revize: 23. března 2009

Součin rozkladů součin rozkladů C = A B def = {A i B j, i, j} je největší společné zjemnění A a B: A B A, A B B neexistuje D takové, že A B D A a zároveň A B D B 1 Vlastnosti ½ 5 3 1 6 4 2 ¾ 5 3 ¾ 1 6 4 2 ½ ½ 3 1 5 4 A B C = A B 1. E A pro každé A 2. A B = B A (komutativita) 3. A (B C) = (A B) C (asociativita) 4. Jestliže A 1 A 2 a A 2 A 3 potom A 1 A 3 (tranzitivita) 5. Jestliže B A potom A B = B (z toho plyne idempotence A A = A) 6 2 ¾ OTS: Entropie; R. Šára, CMP (p. 7) Poslední revize: 23. března 2009

Entropie na rozkladu množiny elementárních jevů Rozklad MEJ A = {A 1, A 2,..., A n }, zavedeme P (A i ) = e A i p(e) def = p i (pouhá notace) Entropie H(A) def = n p i ln p i = n ϕ(p i ), ϕ(p i ) def = p i ln p i i=1 i=1 Pomocná věta V0: ³ Ôµ ³ Ô½ µ ³ Ô¾ µ ³ Ô¾µ ϕ(p 1 + p 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ³ Ô½µ pokud p 1 < p 1 + ε a p 2 ε < p 2 D: Plyne z monotonicity ln p a konkavity ϕ(p): Ô½ Ô½ Ô¾ Ô¾ Ô ϕ(p 1 + p 2 ) = p 1 ln(p 1 + p 2 ) p 2 ln(p 1 + p 2 ) = p 1 (ln p 1 + δ 1 ) p 2 (ln p 2 + δ 2 ) δ 1, δ 2 0 = ϕ(p 1 ) + ϕ(p 2 ) (p 1 δ 1 + p 2 δ 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) ϕ(p 1 ) + ϕ(p 2 ε) ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) + ϕ(p 2 ) ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 OTS: Entropie; R. Šára, CMP (p. 8) Poslední revize: 23. března 2009

Vlastnosti V1. Jestliže B A potom H(B) H(A) Zjemněním rozkladu se entropie zvýší. Pozn: zjemněním histogramu se entropie zvýší. ½ 5 3 1 4 2 ¾ ½ 1 3 2 5 4 D: 6 ¾ 1. Nechť A = {A 1, A 2,..., A n }, zkonstruujeme B = {B 1, B 2, A 2,..., A n } rozkladem A 1 = B 1 B 2, p(b 1 ) = p 1, p(b 2 ) = p 2. Pak B A a 6 ¾ H(A) ϕ(p 1 + p 2 ) = H(B) ϕ(p 1 ) ϕ(p 2 ) H(A) H(B) = ϕ(p 1 + p 2 ) ϕ(p 1 ) ϕ(p 2 ) 0 (z V0) 2. Pro libovolné B A platí, že existuje posloupnost zjemnění A = A 1 A 2 A m = B, takových, že A k+1 je zkonstruována z A k rozkladem jedné podmnožiny jako v předchozím kroku. Takže H(A) = H(A 1 ) H(A 2 ) H(A m ) = H(B) OTS: Entropie; R. Šára, CMP (p. 9) Poslední revize: 23. března 2009

pokračování V1 V2. Pro každý rozklad A platí H(A) H(E) Entropie každého rozkladu je menší nebo rovna entropii elementárního rozkladu. V1 V3. Pro každý rozklad A a B platí H(A) H(A B), H(B) H(A B), Pozn: A B A, A B B OTS: Entropie; R. Šára, CMP (p. 10) Poslední revize: 23. března 2009

pokračování V4. Entropie rozkladu A je maximální právě když všechny jeho prvky mají stejnou pravděpodobnost: p i = P (A i ) = p D: 1. Všechny prvky mají stejnou pst H(A) je maximální přímou implikací Nechť A = {A 1, A 2,..., A n } a p(a i ) = p = 1/n Přejmenujeme A na B = {B 1, B 2, A 3,... A n }, B 1 = A 1, B 2 = A 2 a v B změníme pravděpodobnosti tak, že p(b 1 ) = p 0 + ε a p(b 2 ) = p 0 ε. ε přidané v B 1 musí být odebráno z B 2, protože P i p(b i) = 1 Potom, zavedeme-li p 1 = p 0 ε a p 2 = p 0 + ε, H(B) ϕ(p 0 + ε) ϕ(p 0 ε) = H(A) ϕ(p 0 ) ϕ(p 0 ) H(B) ϕ(p 1 ) ϕ(p 2 ) = H(A) ϕ(p 1 + ε) ϕ(p 2 ε) 0 ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) ϕ(p 2 ) = H(A) H(B) V0 takže každým rozvážením pravděpodobností entropie klesne (což dokazuje implikaci) 2. H(A) je maximální všechny prvky mají stejnou pst sporem nechť H(B) je maximální a existují B 1, B 2 B takové, že p(b 1 ) p(b 2 ) potom stejnou konstrukcí zjistíme, že H(B) H(A), což je spor. OTS: Entropie; R. Šára, CMP (p. 11) Poslední revize: 23. března 2009

Entropie diskrétní náhodné proměnné Nechť X je diskrétní náhodná proměnná nabývající hodnot x i R(X) s pravděpodobnostmi P (X = x i ) def = p i Sjednocení událostí {X = x i } tvoří rozklad E X (tj. pokrytí oboru hodnot R(X)). Def. 1 Entropie H(X) diskrétní náhodné proměnné X je rovna H(X) def = H(E X ) = i p i ln p i Def. 2 Diferenciální entropie H(X) spojité náhodné proměnné X je H(X) def = f(x) ln f(x) dx Pozn 1: události {X = x i } spojité X netvoří rozklad, jsou nespočetné Pozn 2: pro spojitou X je H(X) (, ) Pozn 3: rovnoměrné rozdělení na intervalu 0, a : H(x) = ln a, normální rozdělení: H(x) = ln σ 2πe 2 entropie multidimenzionálního normálního rozdělení OTS: Entropie; R. Šára, CMP (p. 12) Poslední revize: 23. března 2009

Příklad: Statický systém v parlamentu podmnožina pěti vybraných poslanců s = {v 1,..., v 5 } někteří v i hlasují podle v j, j i, ale nevíme kteří někteří hlasují nezávisle, nevíme kteří máme záznam 100 hlasování v 1 v 2 v 3 v 4 v 5 p(s) 0 0 0 0 0 0.02 0 0 0 0 1 0.04 0 0 0 1 0 0.02 0 0 0 1 1 0.05 0 0 1 0 0 0.03 0 0 1 0 1 0.03 0 0 1 1 0 0.09 0 0 1 1 1 0.03 0 1 0 0 0 0.03 0 1 0 0 1 0.05 0 1 0 1 0 0.04 0 1 0 1 1 0.01 0 1 1 0 0 0.03 0 1 1 0 1 0.03 0 1 1 1 0 0.04 0 1 1 1 1 0.05 v 1 v 2 v 3 v 4 v 5 p(s) 1 0 0 0 0 0.01 1 0 0 0 1 0.03 1 0 0 1 0 0.03 1 0 0 1 1 0.03 1 0 1 0 0 0.01 1 0 1 0 1 0.03 1 0 1 1 1 0.01 1 1 0 0 0 0.03 1 1 0 0 1 0.03 1 1 0 1 0 0.03 1 1 0 1 1 0.04 1 1 1 0 0 0.01 1 1 1 0 1 0.04 1 1 1 1 0 0.03 1 1 1 1 1 0.05 OTS: Entropie; R. Šára, CMP (p. 13) Poslední revize: 23. března 2009

pokračování v 1 v 2 v 3 p(v 1, v 2, v 3 ) s 1 0 0 0 0.13 s 2 0 0 1 0.18 s 3 0 1 0 0.13 s 4 0 1 1 0.15 s 5 1 0 0 0.10 s 6 1 0 1 0.05 s 7 1 1 0 0.13 s 8 1 1 1 0.13 A B A B ½ ¾ ¼º ¼º ½ ½ ¾ ¼º ¼º ½ ¾ ¼º ½ ¼º¾ ¼º½ ¼º¾ rozklad proměnnou v 1 rozklad proměnnou v 2 H(A) = 0.6769 nat H(A B) = 1.3543 nat H(B) = 0.6899 nat H(E) = 2.0342 nat očekávali jsme: H(E) > H(A B) > H(A), což se potvrdilo OTS: Entropie; R. Šára, CMP (p. 14) Poslední revize: 23. března 2009

Příklad na úvod k podmíněné entropii Parlament, S = {v 1, v 2, v 3 }, v 1 indukuje rozklad A jako na předchozí straně v 1 v 2 v 3 p(v 1, v 2, v 3 ) p(v 2, v 3 v 1 = 0) s 1 0 0 0 0.13 0.13/0.59 = 0.2203 s 2 0 0 1 0.18 0.3051 s 3 0 1 0 0.13 0.2203 s 4 0 1 1 0.15 0.2542 p(v 2, v 3 v 1 = 1) s 5 1 0 0 0.10 0.2439 s 6 1 0 1 0.05 0.1220 s 7 1 1 0 0.13 0.3171 s 8 1 1 1 0.13 0.3171 H(v 1, v 2, v 3 ) = 2.0342 nat H(v 2, v 3 ) = 1.3827 nat H(v 2, v 3 v 1 = 0) = 1.3769 nat H(v 2, v 3 v 1 = 1) = 1.3291 nat podmíněná entropie H(v 2, v 3 v 1 ) je vážený součet Interpretace H(v 2, v 3 v 1 ) = 0.59H(v 2, v 3 v 1 = 0) + 0.41H(v 2, v 3 v 1 = 1) = 1.3573 nat Pokud nevíme nic o stavu systému, nejistota o jeho stavu S je 2.0342 nat. Pokud známe hodnotu proměnné v 1, nejistota o S klesne na 1.3573, což je méně než H(v 2, v 3 ) = 1.3827, protože v 1 obsahuje o (v 2, v 3 ) nějakou informaci. Informace, kterou obsahuje v 1 o (v 2, v 3 ) je H(v 2, v 3 ) H(v 2, v 3 v 1 ) = 1.3827 1.3573 = 0.0254 nat. OTS: Entropie; R. Šára, CMP (p. 15) Poslední revize: 23. března 2009

Podmíněná entropie Def. Nechť rozklady A a B jsou A = {A 1, A 2,..., A NA }, B = {B 1, B 2,..., B NB }. Potom podmíněná entropie rozkladu A za předpokladu, že nastal jev B j je H(A B j ) = N A i=1 P (A i B j ) ln P (A i B j ) Podmíněná entropie H(A B) je pak střední hodnota přes B H(A B) = N B j=1 = i P (B j ) H(A B j ) = N B j=1 P (B j ) P (A i, B j ) ln P (A i B j ) j N A i=1 P (A i B j ) ln P (A i B j ) = Pozn: Střední nejistota o A je-li pozorováno B je H(A B). OTS: Entropie; R. Šára, CMP (p. 16) Poslední revize: 23. března 2009

Vlastnosti I Pro každé rozklady A a B platí: V5. Jestliže B A potom H(A B) = 0. Intuice: víme, které jevy v A nastaly. D: ( Bj když B j A i 1. B je zjemnění j! i : B j A i, takže A i B j = 2. P (A i B j ) = P (A i, B j ) P (B j ) = ( 1 když B j A i 0 jinak jinak 3. všechny členy v součtu H(A B j ) = P i P (A i B j ) log P (A i B j ) jsou nulové. Př: H(A A B) = 0 ale H(A B B) = H(A B), viz V9 na str. 20 OTS: Entropie; R. Šára, CMP (p. 17) Poslední revize: 23. března 2009

Vlastnosti II Def. Rozklady A a B jsou nezávislé A i A, B j B : P (A i, B j ) = P (A i ) P (B j ). nezávislost se netýká struktury rozkladů, ale vlastností rozdělení psti ½ ¾ ¼º ¼ ½ ¾ ½ ¾ ¼º¼ ¼º¾ ¼º ¼ ¼º½¼ ¼º ¼ ¼º¼ A B A B ¼º V6. Jsou-li A a B nezávislé, potom H(A B) = H(A), H(B A) = H(B) Intuice: Jsou-li jevy nezávislé, potom pozorováním B nezískáme žádnou informaci o A. 0 1 H(A B) = X X P (A i )P (B j ) ln P (A i ) = @ X P (B j ) A X P (A i ) ln P (A i ) = H(A) i j j i V7. H(A B) H(A) + H(B) Intuice: entropie složeného jevu není větší než entropie dílčích jevů. 2 V8. Jsou-li A a B nezávislé, potom H(A B) = H(A) + H(B) 1 OTS: Entropie; R. Šára, CMP (p. 18) Poslední revize: 23. března 2009

Vlastnosti III V8a. Nechť A C a B D a nechť A a B jsou nezávislé. Potom C a D jsou nezávislé. Intuice: hrubší rozklad zachová nezávislost. Budeme potřebovat při redukci rozlišení ve vícedimenzionálních histogramech: redukce rozlišení zachová nezávislost. D: 1. dle definice nezávislosti rozkladů k, l : P (A k, B l ) = P (A k ) P (B l ) 2. ověřujeme, zda P (C i, D j ) = P (C i ) P (D j ) pro všechna i, j: P (C i, D j ) = k : A k C i = k : A k C i P (A k ) l : B l D j P (A k, B l ) = l : B l D j P (B l ) = P (C i ) P (D j ) ½ A C k1 i, A C k2 i, A C k3 i ¾ Pozn: opak věty neplatí. OTS: Entropie; R. Šára, CMP (p. 19) Poslední revize: 23. března 2009

Vlastnosti IV V9. Pro libovolné rozklady A, B platí H(A B) = H(B) + H(A B) = H(A) + H(B A) D: 1. dle definice se snažíme H(A B) přepsat na H(A B) H(B) 2. P (B j )H(A B j ) = P i P (B j)p (A i B j ) log P (A i B j ) = Pozn: V9 H(A B B) = H(A B B) H(B) = H(A B) H(B) = H(A B), Pozorujeme-li B, získáme o A B informaci H(B), takže zbytková nejistota je H(A B) H(B) = H(A B). OTS: Entropie; R. Šára, CMP (p. 20) Poslední revize: 23. března 2009

Vlastnosti V V10. H(A) H(A B) = H(B) H(B A) (plyne z V9) V11. H(B) H(A B) H(A) + H(B) (plyne z V9+V7) V12. Pro každé A, B, C platí: (podmíníme V9 rozkladem C) H(A B C) = H(B C) + H(A B C) = H(A C) + H(B A C) V13. 0 H(A B) H(A) (plyne z V9+V11) Intuice: 1. Pozorováním B se nejistota o A nemůže zvětšit. 2. Entropie podmnožiny rozkladu je menší. V14. Jestliže B C potom H(A B) H(A C). (plyne z V7 a vlastnosti 5 rozkladu MEJ.) Intuice: Jemnějším rozkladem se dozvíme více o A. 2 OTS: Entropie; R. Šára, CMP (p. 21) Poslední revize: 23. března 2009

Vzájemná informace Pozorování rozkladu B redukuje nejistotu o A z H(A) na H(A B) a získá tedy o A informaci I(A, B) = H(A) H(A B). srv. příklad na str. 15 Def. I(A, B) def = H(A) + H(B) H(A B) plyne z V9 Vlastnosti I(A, B) = I(B, A) I(A, B) 0 symetrie nonnegativita, plyne z V7 I(A, B) je 1. Informace o A obsažená v B 2. Informace o B obsažená v A Definice pro více rozkladů: I(A 1, A 2,, A k ) def = k H(A i ) H(A 1 A 2 A k ) i=1 OTS: Entropie; R. Šára, CMP (p. 22) Poslední revize: 23. března 2009

Mnemotechnická pomůcka: Vztah mezi podmíněnými druhy entropie À µ À µ Á µ À µ À µ À µ Čteme takto: platí aditivita plochy, přičemž celý levý kruh představuje H(A), celý pravý kruh H(B) a jejich sjednocení představuje H(A B). Potom H(A) + H(B A) = H(A B) H(A B) I(A B) = H(A B) + H(B A) OTS: Entropie; R. Šára, CMP (p. 23) Poslední revize: 23. března 2009

Sdružená a podmíněná entropie diskrétní náhodné proměnné Sdružená entropie H(X, Y ) = H(A X A Y ) = i p ij ln p ij j Podmíněná entropie H(X Y ) = H(A X A Y ) OTS: Entropie; R. Šára, CMP (p. 24) Poslední revize: 23. března 2009

Věta o bijekci Jestliže X, Y jsou diskrétní náhodné proměnné a Y = f(x) je zobrazení prosté a na (bijekce), potom: V15. H(Y X) = H(X Y ) = 0 D: Rozklady A X a A Y jsou ekvivalentní, A X = A Y. Takže A X A Y a platí V5. V16. I(X, Y ) = H(Y ), I(X, Y ) = H(X). Také H(X, Y ) = H(X) = H(Y ). (z V9) OTS: Entropie; R. Šára, CMP (p. 25) Poslední revize: 23. března 2009

Aplikace 1: Který poslanec má největší vliv na výsledek hlasování? Systém: S = {v 1, v 2, v 3, v 4, v 5 } Pozorování: H 1 = H(v 2, v 3, v 4, v 5 v 1 ) tím menší, čím větší je vliv v 1 = H(v 1, v 2, v 3, v 4, v 5 ) H(v 1 ) (z V9) Výsledky (jackknife): v i H i v 1 2.6103 ± 0.0411 v 2 2.5973 ± 0.0471 v 3 2.5942 ± 0.0360 v 4 2.5990 ± 0.0347 v 5 2.5991 ± 0.0496 Pozn: H(v 1, v 2, v 3, v 4, v 5 ) = 3.2865 ± 0.0351 [Nat] OTS: Entropie; R. Šára, CMP (p. 26) Poslední revize: 23. března 2009

Aplikace 2: Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je. Příznaky x i, i = 1, 2,... n. Informace o třídě v příznaku x i je podmíněná entropie H(c x i ). OTS: Entropie; R. Šára, CMP (p. 27) Poslední revize: 23. března 2009

Aplikace 3: Normovaná střední vzájemná informace i(x, Y ) = I(X, Y ) H(X, Y ), 0 i(x, Y ) 1 i(x, Y ) = 0 i(x, Y ) = 1 pokud X, Y jsou nezávislé pokud mezi X, Y existuje bijekce Pozn: uvádí se i jiné normalizace, například i (X, Y ) = I(X, Y ) H(X) + H(Y ), potom i (X, Y ) i(x, Y ) viz V11, ale stále platí 0 i (X, Y ) 1 OTS: Entropie; R. Šára, CMP (p. 28) Poslední revize: 23. března 2009

Příklad na i(x, Y ) 6 5 4 3 2 1 X = {1, 2, 3, 4, 5}, Y = {3, 5, 2, 1, 6, 4} A X = {{a}, {b}, {c}, {d}, {e, f}} sloupce A Y A X A Y = {{d}, {c}, {a}, {f}, {b}, {e}} řádky = {{a}, {b}, {c}, {d}, {e}, {f}} = A Y H(X) = H(A X ) = 1.6094 nat, H(Y ) = H(A Y ) = 1.7918 nat H(X, Y ) = H(A X A Y ) = 1.7918 nat, I(X, Y ) = 1.6094 nat 1 2 3 4 5 6 normovaná stř. vzájemná inf. i(x, Y ) = 0.8982 normalizovaný korelační koeficient ρ(x, Y ) = 0.1964 Spearmanův rankový koeficient r(x, Y ) = 0.2609 Dva aspekty relace mezi proměnnými 1. síla asociace i(x, Y ) : jak moc jsou závislé? 2. statistická významnost této asociace : postačují data k takovému závěru? OTS: Entropie; R. Šára, CMP (p. 29) Poslední revize: 23. března 2009

Je histogram kvalitním odhadem rozdělení psti? x {1,..., 50} : náhodná proměnná s rovnoměrným rozdělením 5 100 vzorku 250 10000 vzorku 4 4 200 3.5 3 cetnost n i 3 2 cetnost n i 150 100 H 2.5 2 1.5 1 50 1 0.5 0 10 20 30 40 50 hodnota x i 0 10 20 30 40 50 hodnota x i 0 10^0 10^1 10^2 10^3 10^4 10^5 vzorku Ĥ = 3.6874 nat Ĥ = 3.9095 nat teoretická entropie ln(50) = 3.9120 nat hodnota četnosti je náhodná proměnná OTS: Entropie; R. Šára, CMP (p. 30) Poslední revize: 23. března 2009

Odhad entropie z histogramu Máme histogram {n 1, n 2,..., n k } proměnné x se šířkou třídy (přihrádky) h > 0. Platí n = k i=1 n i 2 případy: 1. diskrétní náhodná proměnná: chceme entropii v přirozeném rozlišení 2. kvantizovaná spojitá náhodná proměnná: chceme entropii původní spojité proměnné Ĥ(x) = ln h k i=1 n i n ln n i n h... v přirozených jednotkách oboru hodnot Bez členu ln h by hodnota statistiky rostla se zmenšováním rozlišení histogramu h OTS: Entropie; R. Šára, CMP (p. 31) Poslední revize: 23. března 2009

Volba šířky přihrádky histogramu vektorová proměnná x = {x 1, x 2,..., x q } q n ˆσ i h i dimenze histogramu počet měření odhad rozptylu složky x i šířka přihrádky pro složku x i Předpoklad normálního rozdělení s diagonální kovarianční maticí f(x) = 1 e 1 2 (x x) S 1 (x x) det(2πs) S = diag(σ 2 1, σ 2 2,..., σ 2 q) Scottovo pravidlo h i 3.5 ˆσ 2+q i n Scott, D. W. Multivariate Density Estimation: Theory Practice, and Visualization, John Wiley & Sons, Chichester 1992. OTS: Entropie; R. Šára, CMP (p. 32) Poslední revize: 23. března 2009

Příklad x spojitá skalární náhodná proměnná s rozdělením N(0, 2) H(x) = ln σ 2πe = 2.1121 n = 100 vzorků, dimenze q = 1, takže h = 3.5 2 3 100 1.51 30 optimalni histogram h=1.54 5 h=0.10 2.5 25 20 15 10 5 0 10 5 0 5 10 Ĥ = 2.1279 nat 4 3 2 1 0 10 5 0 5 10 Ĥ = 1.3026 nat H + log(h) 2 1.5 1 0.5 teorie 0 h = 0.1 Scott 0.5 10^1 10^2 10^3 10^4 10^5 vzorku Scott: pokaždé vypočteme novou hodnotu h a přepočteme histogram entropie z optimálního histogramu je lepším odhadem H(x) OTS: Entropie; R. Šára, CMP (p. 33) Poslední revize: 23. března 2009

Estimátor entropie bez histogramování (Kozačenko-Leoněnko) Dáno: množina vektorových měření {x i, i = 1,..., n} z neznámého spojitého rozdělení pravděpodobnosti Cíl: výpočet entropie bez diskretizace a histogramování q dimenze vektoru měření, x i IR q n počet měření r i euklidovská (L 2 ) vzdálenost k nejbližšímu sousedu x i γ Euler-Mascheroniho konstanta (γ 0.5772156649) H = q n n i=1 ln r i + ln (n 1)π q 2 Γ(1 + q 2 ) + γ Poznámky změna měřítka x má podobný vliv jako změna kvantizačního kroku, nutno kompenzovat členem q n log h množina nejbližších sousedů pro všechna x i lze teoreticky nalézt za dobu O(c q n log n) pro libovolné q. degenerovanost: použít ln max(r i, 1 n ) místo ln r i. vhodné pro velká q (viz příklad) vhodné pro multimodální rozdělení psti Γ(x) = R t x 1 e t dt, x R, Γ(k) = (k 1)!, k N 0 OTS: Entropie; R. Šára, CMP (p. 34) Poslední revize: 23. března 2009

Příklad d = 1, 100 pokusu 23 d = 10, 100 pokusu 21.5 d = 10, 100 pokusu 2.4 2.3 22.5 21 2.2 22 2.1 2 1.9 1.8 21.5 21 20.5 20.5 20 1.7 1.6 teorie 1.5 K L Scott 1.4 0 200 400 600 800 1000 vzorku 20 19.5 teorie K L Scott 19 0 200 400 600 800 1000 vzorku x N(0, 2), q = 1 x N(0, 2 I), q = 10 19.5 teorie Scott 19 1 2 3 4 5 6 log 10 (n) (vzorku) malá dimenze q: histogramovací metoda má lepší rozptyl velká dimenze q: KL je méně vychýlený, rozptyly srovnatelné velká q: histogramová metoda konverguje (pro velmi velká n) OTS: Entropie; R. Šára, CMP (p. 35) Poslední revize: 23. března 2009

Odhad entropie a její chyby Dáno: množina vektorových měření D = {x i, i = 1, 2,..., n} Cíl: odhad entropie Ĥ(D) včetně chyby var[ĥ(d)] Jackknife 1. Pro i = 1, 2,..., n dělej: a. zkonstruuj D i = D \ {x i } vynecháním jednoho bodu b. odhadni Ĥ i = Ĥ(D i) z D i 2. Vypočti odhad entropie Ĥ a chyby var[ĥ]: Ĥ = 1 n n i=1 Ĥ i, var[ĥ] = n 1 n n (Ĥi Ĥ) 2 i=1 Poznámky pozor na rozdíl mezi výběrovým rozptylem s 2, E(s 2 ) = σ 2 a rozptylem výběrového průměru x, E( x) = µ, var x = σ2 n jackknife může být použit na jakoukoliv statistiku, nejen entropii, např. na medián,... Je to metoda Resampling Theory OTS: Entropie; R. Šára, CMP (p. 36) Poslední revize: 23. března 2009

Kontingenční analýza: Příklad na úvod Jaké hodnoty relativní četnosti k/n mohu očekávat v první třídě dvoupřihrádkového histogramu, když se hodnota vyskytuje s pravděpodobností p 1 = 0.25 (a druhá s p 2 = 0.75)? ( ) n P (x 1 = k) = p k 1 (1 p 1 ) n k k pst s jakou se k/n vyskytne při opakovaných výsledcích histogramování P 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Binomicke rozdeleni pro p = 0.25 n = 1000 n = 60 n = 12 0 0 0.25 0.5 0.75 1 k/n relativní četnost v přihrádce nejistotu musíme brát v úvahu, když činíme nějaký závěr z relativních četností OTS: Entropie; R. Šára, CMP (p. 37) Poslední revize: 23. března 2009

Realizace histogramu ze vzorku dat je náhodná Jaká je pravděpodobnost, že v i-té přihrádce histogramu bude n i hodnot, když celkem udělám n měření (pokusů)? sekvence náhodných pokusů (E i - nastane hodnota i) pravděpodobnost takové sekvence p n 1 1 p n 2 2 p n 3 3 pn k k sekvencí se stejným histogramem je dohromady n! n 1! n 2! n k! permutace s opakováním Pravděpodobnost, že v 1. třídě je n 1 hodnot, ve 2. třídě n 2 hodnot,... : P (x 1 = n 1, x 2 = n 2,..., x k = n k ) = n! n 1! n 2! n k! pn 1 1 pn 2 2 pn k k To je multinomické rozdělení s parametry n, p 1, p 2,..., p k. OTS: Entropie; R. Šára, CMP (p. 38) Poslední revize: 23. března 2009

Vlastnosti multinomického rozdělení Nechť H = {n 1, n 2,..., n k } má multinomické rozdělení a k 1 je počet nezávislých prvků v H. Pak: ( ni ) E = p i var n ( ni cov n, n ) j = p i p j n n ( ni ) = p i (1 p i ) n n k q def (n i n p i ) 2 = n p i Veličina q má při n asymptoticky rozdělení χ 2 k 1 s hustotou: i=1 (Pearson) m = k 1: počet nezávislých prvků v {n 1,..., n k } f m (x) = xm 2 1 e x 2 2 m 2 Γ ( ) m 2 Distribuční funkce je neúplná gamma funkce Matlab: gammainc(x/2,m/2) Q( x 2, m 2 ) = 1 Γ( m 2 ) x 2 0 e t t m 2 1 dt, m > 0 OTS: Entropie; R. Šára, CMP (p. 39) Poslední revize: 23. března 2009

Pearsonova Statistika q = k i=1 (n i n p i ) 2 n p i n i nahistogramované četnosti p i model tj., co v histogramu očekáváme Př: 1. 2-D histogram nezávislých veličin x, y, pak p ij = p i p j = p(x = x i ) p(y = y j ) a my použijeme odhad p ij modelu p ij = n i n nj n 2. odhad parametrického rozdělení p i = p(x i Θ) Pak ( q 1 Q 2, m ) 2 = P (y q) je pravděpodobnost, že změřená hodnota statistiky je ve skutečnosti větší než q, za předpokladu platnosti modelu. ½ É 1 0.8 0.6 0.4 È Ý Õµ m počet tříd minus počet dodatečných podmínek, které musí 0.2 splňovat soubor {n i } a které jsou potřeba k výpočtu hodnoty p i (např. P k i=1 n i = n a P k i=1 n 0 ij = n i pro Př. 1). 0 10 20 30 40 Õ Ý OTS: Entropie; R. Šára, CMP (p. 40) Poslední revize: 23. března 2009

Standardní kontingenční test Nulová hypotéza H 0 : tvrzení X platí H 0 je náš model Chyba: Zamítnu H 0, a (ale) H 0 ve skutečnosti platí chyba 1. druhu Cíl: P (chyba) α α: hladina významnosti = maximální penále za chybu Řešení: Procedura statistického testu 1. vyslov H 0 např. složky x jsou statisticky nezávislé 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti z D statistiku q, která měří nesoulad s H 0 např. Pearsonovu statistiku 4. zvol (malé) α typicky α = 0.01 nebo α = 0.05 5. pokud P (y q) < α, potom zamítni H 0 zamítnutím se nedopustím chyby větší než α 1 menší q větší P (y q) H 0 platí jistěji malé α dovolí tolerovat velké q Jsem velmi tolerantní a zamítnu H 0 jen, když je ve zřejmém rozporu s daty. È Ý Õµ 0.8 0.6 0.4 0.2 «¼ ¼ 0 0 10 20 30 40 Õ Ý OTS: Entropie; R. Šára, CMP (p. 41) Poslední revize: 23. března 2009

Náš problém Například: H 0 : p(a, b) = 1 p(a) 2p(b) pro test nezávislosti subsystémů H 0 : p(a, b, c) = 1 p(a, b) 2p(c b) pro test statistické významnosti rekonstrukce struktury systému Pozn: {a, b}, {a, b, c} jsou rozklady množiny (vzorkovacích) proměnných systému. Můžeme si představit, že a, b, c jsou vektorové proměnné. Procedura testu 1. vyslov H 0 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti Pearsonovu statistiku q z D 4. vypočti α = P (y q) 5. je-li dáno D, pak H 0 platí s pravděpodobností alespoň α zamítnutím H 0 udělám chybu α: P (zamítnu platí) = α malé α mohu zamítnout velké α nemohu zamítnout = musím přijmout P (H 0 platí) = P (přijmu platí) + P (zamítnu platí) α OTS: Entropie; R. Šára, CMP (p. 42) Poslední revize: 23. března 2009

Ô Postup pro p(a, b) = 1 p(a) 2p(b) 1. Z kontingenční tabulky vypočteme ÙØ Ò ØÒÓ Ø Ò µ ØÒÓ Ø ÔÖ ÓÚ Ò ÑÓ Ð Ñ Ò Ô µ Ô µ Õ Ò Ò Ò Ò Ò Ò Ò ¾ 2. stupně volnosti: DOF = (r 1)(c 1) viz dále 3. vypočteme p = 1 Q ( q 2, ) DOF 2 4. vyjde-li malé p, pak tvrdím, že a a b závislé 5. vyjde-li velké p, pak tvrdím, že a a b jsou nezávislé s pravděpodobností alespoň p 1 0.8 0.6 0.4 0.2 Õ Ô ½ É ¾ Ç ¾ 0 0 10 20 30 40 Õ OTS: Entropie; R. Šára, CMP (p. 43) Poslední revize: 23. března 2009

poznámky Počet stupňů volnosti DOF = rc ( (r + c) 1 ) = (r 1)(c 1) Máme rc prvků v tabulce, ale použili jsme dodatečné vztahy n j = i n ij, n i = j n ij, kterých je dohromady r + c. Ale tyto podmínky nejsou nezávislé, protože j n j + i n i = 2n, odečteme 1. q = 2 Q 1 (1 α, m 2 ), m = DOF q DOF : rychlost růstu prahu přijatelnosti s rostoucím rozlišením tabulky q/dof 3 2.5 2 1.5 1 α=0.9 α=0.5 α=0.1 velké rozlišení velký počet DOF q DOF α přestává mít vliv téměř vše začíná být nezávislé ale: redukce rozlišení kvantizací zachová nezávislost (V8a) nemusíme se bát redukce rozlišení 0.5 0 0 20 40 60 80 100 DOF OTS: Entropie; R. Šára, CMP (p. 44) Poslední revize: 23. března 2009

Příklad z parlamentu: která dvojice hlasuje nezávisle na ostatních? 1. Nalezení nezávislé dvojice (i, j) ( ) N 2 2. Ověření statistické významnosti arg min i,j I({s i, s j }, {s k, s l, s m }) H 0 : p(s 1, s 2, s 3, s 4, s 5 ) = p(s i, s j ) p(s k, s l, s m ) použijeme vzájemnou informaci I s i s j I ij s 1 s 2 0.0277 s 1 s 3 0.0299 s 1 s 4 0.0308 s 1 s 5 0.0303 s 2 s 3 0.0294 s 2 s 4 0.0263 s 2 s 5 0.0300 s 3 s 4 0.0273 s 3 s 5 0.0293 s 4 s 5 0.0249 s 4 0 0 1 1 s 5 0 1 0 1 s 1 s 2 s 3 0 0 0 2 4 2 5 13 0 0 1 3 3 9 3 18 0 1 0 3 5 4 1 13 0 1 1 3 3 4 5 15 1 0 0 1 3 3 3 10 1 0 1 1 3 0 1 5 1 1 0 3 3 3 4 13 1 1 1 1 4 3 5 13 17 28 28 27 100 q = 15.07 nezávislé s p 0.82 DOF = 7 3 = 21 OTS: Entropie; R. Šára, CMP (p. 45) Poslední revize: 23. března 2009

Konec

1 0.8 0.6 0.4 È Ý Õµ 0.2 «¼ ¼ 0 0 10 20 30 40 Õ Ý

3 2.5 α=0.9 α=0.5 α=0.1 2 q/dof 1.5 1 0.5 0 0 20 40 60 80 100 DOF