Síla a významnost asociace mezi proměnnými v systému

Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie. 5. Podmíněná entropie. 6. Vlastnosti podmíněné entropie. 7. Vzájemná informace. 8. Optimální histogramování. 9. Výpočet entropie ze vzorku dat. 10. Kvalita asociace: kontingenční test. Papoulis, A. Probability, Random Variables, and Stochastic Processes. McGraw Hill 1991, kap. 15. Anděl, J. Statistické metody. Praha: Matfyzpress, 1998; str. 157-167. Duda, RO. Hart, PE. Stork, DG. Pattern Classification, 2nd ed. John Wiley & Sons, 2001; část 9.4.1. Press, WH. Teukolsky SA. et al. Numerical Recipes in C, Cambridge University Press. 1992. OTS: Entropie; R. Šára, CMP (p. 1) Poslední revize: 23. března 2009

Entropie jako míra neuspořádanosti Jev x i : kulička padla do přihrádky ( třídy ) i N i 16 14 12 10 8 6 4 2 H = 3.2554 H = 2.0424 N i 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 i 0 1 2 3 4 5 6 7 8 9 10 i N = 100 stejných objektů: {b 1, b 2,... b N } N! všech permutací N i! permutací v každé přihrádce, i = 1, 2,..., m (zde m = 10) Celkový počet přerovnání objektů v histogramu je W = m N! N i! OTS: Entropie; R. Šára, CMP (p. 2) Poslední revize: 23. března 2009 i=1 permutace s opakováním

pokračování p i def = P (kulička padla do přihrádky i) Entropie H = lim N 1 N ln W = = lim m N i=1 N i N ln N i N = m i=1 p i ln p i Počet mikrostavů (rozdělení do m přihrádek) které dávají za vznik stejnému makrostavu (histogram). D: použijeme Stirlingův vzorec lim n n! 2πn `n n = 1, takže ln n! n ln n n pro n e OTS: Entropie; R. Šára, CMP (p. 3) Poslední revize: 23. března 2009

pokračování H 0, protože ϕ(p) 0 (viz graf) Entropie je malá pro úzká rozdělení H = 0 p i = { 1 i = j 0 i j protože i p i = 1 p ln(p) 1 0.8 0.6 0.4 ϕ(p) = p ln p Entropie je velká pro široká rozdělení, D: problém vázaného extrému mx mx H(p 1,..., p m ) = p i ln p i, p i = 1 i=1 i=1 0.2 0 0 0.2 0.4 0.6 0.8 1 p nabývá maxima pro p i = 1 m OTS: Entropie; R. Šára, CMP (p. 4) Poslední revize: 23. března 2009

Entropie jako míra informace náhodný jev x nastává s pstí p(x) pokud p(x) = 1 a jev nastal, nepřekvapí nás to pokud p(x) = 0 a jev nastal, překvapí nás to nepotřebujeme informaci, abychom si byli jisti potřebujeme informaci, abychom odstranili nejistotu Hledáme funkci s(p) (surprise): 1. spojitou 2. monotonně klesající s p 3. s(1) = 0 nulová nejistota 4. s(p A p B ) = s(p A ) + s(p B ) Hledaná funkce s(p) = s( 1 e ) ln p, s(1 e ) = 1 (definujeme, pak je entropie v Natech) Střední míra informace (v Natech) na množině jevů x = {x k } K k=1 H(x) = K p(x k ) ln p(x k ) k=1 [Shannon 1948] OTS: Entropie; R. Šára, CMP (p. 5) Poslední revize: 23. března 2009

Vlastnosti rozkladu množiny elementárních jevů na třídy ekvivalence Rozklad množiny elementárních jevů: {A 1, A 2,..., A n } Definice 1. Rozklad je disjunktní pokrytí MEJ 2. Elementární rozklad E = { {e 1 }, {e 2 },..., {e n } } 3. Zjemnění rozkladu: Dány A = {A 1, A 2,..., A n }, B = {B 1, B 2,..., B m }, pak B A právě když i!j : B i A j (právě jedno j) 5 3 1 2 4 6 ½ 3 1 2 5 4 6 3 5 ¾ ¾ 1 2 4 6 ½ ½ 3 1 2 5 4 E A = {A 1, A 2 } B = {B 1, B 2 } C B, C A 6 ¾ B A protože (například) neexistuje právě jedno A i takové, aby B 1 A i ; podobně A B C B protože C 1 B 1, C 2 B 1, C 3 B 2, C 4 B 2 ; podobně C A. OTS: Entropie; R. Šára, CMP (p. 6) Poslední revize: 23. března 2009

Součin rozkladů součin rozkladů C = A B def = {A i B j, i, j} je největší společné zjemnění A a B: A B A, A B B neexistuje D takové, že A B D A a zároveň A B D B 1 Vlastnosti ½ 5 3 1 6 4 2 ¾ 5 3 ¾ 1 6 4 2 ½ ½ 3 1 5 4 A B C = A B 1. E A pro každé A 2. A B = B A (komutativita) 3. A (B C) = (A B) C (asociativita) 4. Jestliže A 1 A 2 a A 2 A 3 potom A 1 A 3 (tranzitivita) 5. Jestliže B A potom A B = B (z toho plyne idempotence A A = A) 6 2 ¾ OTS: Entropie; R. Šára, CMP (p. 7) Poslední revize: 23. března 2009

Entropie na rozkladu množiny elementárních jevů Rozklad MEJ A = {A 1, A 2,..., A n }, zavedeme P (A i ) = e A i p(e) def = p i (pouhá notace) Entropie H(A) def = n p i ln p i = n ϕ(p i ), ϕ(p i ) def = p i ln p i i=1 i=1 Pomocná věta V0: ³ Ôµ ³ Ô½ µ ³ Ô¾ µ ³ Ô¾µ ϕ(p 1 + p 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ³ Ô½µ pokud p 1 < p 1 + ε a p 2 ε < p 2 D: Plyne z monotonicity ln p a konkavity ϕ(p): Ô½ Ô½ Ô¾ Ô¾ Ô ϕ(p 1 + p 2 ) = p 1 ln(p 1 + p 2 ) p 2 ln(p 1 + p 2 ) = p 1 (ln p 1 + δ 1 ) p 2 (ln p 2 + δ 2 ) δ 1, δ 2 0 = ϕ(p 1 ) + ϕ(p 2 ) (p 1 δ 1 + p 2 δ 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) ϕ(p 1 ) + ϕ(p 2 ε) ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) + ϕ(p 2 ) ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 OTS: Entropie; R. Šára, CMP (p. 8) Poslední revize: 23. března 2009

Vlastnosti V1. Jestliže B A potom H(B) H(A) Zjemněním rozkladu se entropie zvýší. Pozn: zjemněním histogramu se entropie zvýší. ½ 5 3 1 4 2 ¾ ½ 1 3 2 5 4 D: 6 ¾ 1. Nechť A = {A 1, A 2,..., A n }, zkonstruujeme B = {B 1, B 2, A 2,..., A n } rozkladem A 1 = B 1 B 2, p(b 1 ) = p 1, p(b 2 ) = p 2. Pak B A a 6 ¾ H(A) ϕ(p 1 + p 2 ) = H(B) ϕ(p 1 ) ϕ(p 2 ) H(A) H(B) = ϕ(p 1 + p 2 ) ϕ(p 1 ) ϕ(p 2 ) 0 (z V0) 2. Pro libovolné B A platí, že existuje posloupnost zjemnění A = A 1 A 2 A m = B, takových, že A k+1 je zkonstruována z A k rozkladem jedné podmnožiny jako v předchozím kroku. Takže H(A) = H(A 1 ) H(A 2 ) H(A m ) = H(B) OTS: Entropie; R. Šára, CMP (p. 9) Poslední revize: 23. března 2009

pokračování V1 V2. Pro každý rozklad A platí H(A) H(E) Entropie každého rozkladu je menší nebo rovna entropii elementárního rozkladu. V1 V3. Pro každý rozklad A a B platí H(A) H(A B), H(B) H(A B), Pozn: A B A, A B B OTS: Entropie; R. Šára, CMP (p. 10) Poslední revize: 23. března 2009

pokračování V4. Entropie rozkladu A je maximální právě když všechny jeho prvky mají stejnou pravděpodobnost: p i = P (A i ) = p D: 1. Všechny prvky mají stejnou pst H(A) je maximální přímou implikací Nechť A = {A 1, A 2,..., A n } a p(a i ) = p = 1/n Přejmenujeme A na B = {B 1, B 2, A 3,... A n }, B 1 = A 1, B 2 = A 2 a v B změníme pravděpodobnosti tak, že p(b 1 ) = p 0 + ε a p(b 2 ) = p 0 ε. ε přidané v B 1 musí být odebráno z B 2, protože P i p(b i) = 1 Potom, zavedeme-li p 1 = p 0 ε a p 2 = p 0 + ε, H(B) ϕ(p 0 + ε) ϕ(p 0 ε) = H(A) ϕ(p 0 ) ϕ(p 0 ) H(B) ϕ(p 1 ) ϕ(p 2 ) = H(A) ϕ(p 1 + ε) ϕ(p 2 ε) 0 ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) ϕ(p 2 ) = H(A) H(B) V0 takže každým rozvážením pravděpodobností entropie klesne (což dokazuje implikaci) 2. H(A) je maximální všechny prvky mají stejnou pst sporem nechť H(B) je maximální a existují B 1, B 2 B takové, že p(b 1 ) p(b 2 ) potom stejnou konstrukcí zjistíme, že H(B) H(A), což je spor. OTS: Entropie; R. Šára, CMP (p. 11) Poslední revize: 23. března 2009

Entropie diskrétní náhodné proměnné Nechť X je diskrétní náhodná proměnná nabývající hodnot x i R(X) s pravděpodobnostmi P (X = x i ) def = p i Sjednocení událostí {X = x i } tvoří rozklad E X (tj. pokrytí oboru hodnot R(X)). Def. 1 Entropie H(X) diskrétní náhodné proměnné X je rovna H(X) def = H(E X ) = i p i ln p i Def. 2 Diferenciální entropie H(X) spojité náhodné proměnné X je H(X) def = f(x) ln f(x) dx Pozn 1: události {X = x i } spojité X netvoří rozklad, jsou nespočetné Pozn 2: pro spojitou X je H(X) (, ) Pozn 3: rovnoměrné rozdělení na intervalu 0, a : H(x) = ln a, normální rozdělení: H(x) = ln σ 2πe 2 entropie multidimenzionálního normálního rozdělení OTS: Entropie; R. Šára, CMP (p. 12) Poslední revize: 23. března 2009

Příklad: Statický systém v parlamentu podmnožina pěti vybraných poslanců s = {v 1,..., v 5 } někteří v i hlasují podle v j, j i, ale nevíme kteří někteří hlasují nezávisle, nevíme kteří máme záznam 100 hlasování v 1 v 2 v 3 v 4 v 5 p(s) 0 0 0 0 0 0.02 0 0 0 0 1 0.04 0 0 0 1 0 0.02 0 0 0 1 1 0.05 0 0 1 0 0 0.03 0 0 1 0 1 0.03 0 0 1 1 0 0.09 0 0 1 1 1 0.03 0 1 0 0 0 0.03 0 1 0 0 1 0.05 0 1 0 1 0 0.04 0 1 0 1 1 0.01 0 1 1 0 0 0.03 0 1 1 0 1 0.03 0 1 1 1 0 0.04 0 1 1 1 1 0.05 v 1 v 2 v 3 v 4 v 5 p(s) 1 0 0 0 0 0.01 1 0 0 0 1 0.03 1 0 0 1 0 0.03 1 0 0 1 1 0.03 1 0 1 0 0 0.01 1 0 1 0 1 0.03 1 0 1 1 1 0.01 1 1 0 0 0 0.03 1 1 0 0 1 0.03 1 1 0 1 0 0.03 1 1 0 1 1 0.04 1 1 1 0 0 0.01 1 1 1 0 1 0.04 1 1 1 1 0 0.03 1 1 1 1 1 0.05 OTS: Entropie; R. Šára, CMP (p. 13) Poslední revize: 23. března 2009

pokračování v 1 v 2 v 3 p(v 1, v 2, v 3 ) s 1 0 0 0 0.13 s 2 0 0 1 0.18 s 3 0 1 0 0.13 s 4 0 1 1 0.15 s 5 1 0 0 0.10 s 6 1 0 1 0.05 s 7 1 1 0 0.13 s 8 1 1 1 0.13 A B A B ½ ¾ ¼º ¼º ½ ½ ¾ ¼º ¼º ½ ¾ ¼º ½ ¼º¾ ¼º½ ¼º¾ rozklad proměnnou v 1 rozklad proměnnou v 2 H(A) = 0.6769 nat H(A B) = 1.3543 nat H(B) = 0.6899 nat H(E) = 2.0342 nat očekávali jsme: H(E) > H(A B) > H(A), což se potvrdilo OTS: Entropie; R. Šára, CMP (p. 14) Poslední revize: 23. března 2009

Příklad na úvod k podmíněné entropii Parlament, S = {v 1, v 2, v 3 }, v 1 indukuje rozklad A jako na předchozí straně v 1 v 2 v 3 p(v 1, v 2, v 3 ) p(v 2, v 3 v 1 = 0) s 1 0 0 0 0.13 0.13/0.59 = 0.2203 s 2 0 0 1 0.18 0.3051 s 3 0 1 0 0.13 0.2203 s 4 0 1 1 0.15 0.2542 p(v 2, v 3 v 1 = 1) s 5 1 0 0 0.10 0.2439 s 6 1 0 1 0.05 0.1220 s 7 1 1 0 0.13 0.3171 s 8 1 1 1 0.13 0.3171 H(v 1, v 2, v 3 ) = 2.0342 nat H(v 2, v 3 ) = 1.3827 nat H(v 2, v 3 v 1 = 0) = 1.3769 nat H(v 2, v 3 v 1 = 1) = 1.3291 nat podmíněná entropie H(v 2, v 3 v 1 ) je vážený součet Interpretace H(v 2, v 3 v 1 ) = 0.59H(v 2, v 3 v 1 = 0) + 0.41H(v 2, v 3 v 1 = 1) = 1.3573 nat Pokud nevíme nic o stavu systému, nejistota o jeho stavu S je 2.0342 nat. Pokud známe hodnotu proměnné v 1, nejistota o S klesne na 1.3573, což je méně než H(v 2, v 3 ) = 1.3827, protože v 1 obsahuje o (v 2, v 3 ) nějakou informaci. Informace, kterou obsahuje v 1 o (v 2, v 3 ) je H(v 2, v 3 ) H(v 2, v 3 v 1 ) = 1.3827 1.3573 = 0.0254 nat. OTS: Entropie; R. Šára, CMP (p. 15) Poslední revize: 23. března 2009

Podmíněná entropie Def. Nechť rozklady A a B jsou A = {A 1, A 2,..., A NA }, B = {B 1, B 2,..., B NB }. Potom podmíněná entropie rozkladu A za předpokladu, že nastal jev B j je H(A B j ) = N A i=1 P (A i B j ) ln P (A i B j ) Podmíněná entropie H(A B) je pak střední hodnota přes B H(A B) = N B j=1 = i P (B j ) H(A B j ) = N B j=1 P (B j ) P (A i, B j ) ln P (A i B j ) j N A i=1 P (A i B j ) ln P (A i B j ) = Pozn: Střední nejistota o A je-li pozorováno B je H(A B). OTS: Entropie; R. Šára, CMP (p. 16) Poslední revize: 23. března 2009

Vlastnosti I Pro každé rozklady A a B platí: V5. Jestliže B A potom H(A B) = 0. Intuice: víme, které jevy v A nastaly. D: ( Bj když B j A i 1. B je zjemnění j! i : B j A i, takže A i B j = 2. P (A i B j ) = P (A i, B j ) P (B j ) = ( 1 když B j A i 0 jinak jinak 3. všechny členy v součtu H(A B j ) = P i P (A i B j ) log P (A i B j ) jsou nulové. Př: H(A A B) = 0 ale H(A B B) = H(A B), viz V9 na str. 20 OTS: Entropie; R. Šára, CMP (p. 17) Poslední revize: 23. března 2009

Vlastnosti II Def. Rozklady A a B jsou nezávislé A i A, B j B : P (A i, B j ) = P (A i ) P (B j ). nezávislost se netýká struktury rozkladů, ale vlastností rozdělení psti ½ ¾ ¼º ¼ ½ ¾ ½ ¾ ¼º¼ ¼º¾ ¼º ¼ ¼º½¼ ¼º ¼ ¼º¼ A B A B ¼º V6. Jsou-li A a B nezávislé, potom H(A B) = H(A), H(B A) = H(B) Intuice: Jsou-li jevy nezávislé, potom pozorováním B nezískáme žádnou informaci o A. 0 1 H(A B) = X X P (A i )P (B j ) ln P (A i ) = @ X P (B j ) A X P (A i ) ln P (A i ) = H(A) i j j i V7. H(A B) H(A) + H(B) Intuice: entropie složeného jevu není větší než entropie dílčích jevů. 2 V8. Jsou-li A a B nezávislé, potom H(A B) = H(A) + H(B) 1 OTS: Entropie; R. Šára, CMP (p. 18) Poslední revize: 23. března 2009

Vlastnosti III V8a. Nechť A C a B D a nechť A a B jsou nezávislé. Potom C a D jsou nezávislé. Intuice: hrubší rozklad zachová nezávislost. Budeme potřebovat při redukci rozlišení ve vícedimenzionálních histogramech: redukce rozlišení zachová nezávislost. D: 1. dle definice nezávislosti rozkladů k, l : P (A k, B l ) = P (A k ) P (B l ) 2. ověřujeme, zda P (C i, D j ) = P (C i ) P (D j ) pro všechna i, j: P (C i, D j ) = k : A k C i = k : A k C i P (A k ) l : B l D j P (A k, B l ) = l : B l D j P (B l ) = P (C i ) P (D j ) ½ A C k1 i, A C k2 i, A C k3 i ¾ Pozn: opak věty neplatí. OTS: Entropie; R. Šára, CMP (p. 19) Poslední revize: 23. března 2009

Vlastnosti IV V9. Pro libovolné rozklady A, B platí H(A B) = H(B) + H(A B) = H(A) + H(B A) D: 1. dle definice se snažíme H(A B) přepsat na H(A B) H(B) 2. P (B j )H(A B j ) = P i P (B j)p (A i B j ) log P (A i B j ) = Pozn: V9 H(A B B) = H(A B B) H(B) = H(A B) H(B) = H(A B), Pozorujeme-li B, získáme o A B informaci H(B), takže zbytková nejistota je H(A B) H(B) = H(A B). OTS: Entropie; R. Šára, CMP (p. 20) Poslední revize: 23. března 2009

Vlastnosti V V10. H(A) H(A B) = H(B) H(B A) (plyne z V9) V11. H(B) H(A B) H(A) + H(B) (plyne z V9+V7) V12. Pro každé A, B, C platí: (podmíníme V9 rozkladem C) H(A B C) = H(B C) + H(A B C) = H(A C) + H(B A C) V13. 0 H(A B) H(A) (plyne z V9+V11) Intuice: 1. Pozorováním B se nejistota o A nemůže zvětšit. 2. Entropie podmnožiny rozkladu je menší. V14. Jestliže B C potom H(A B) H(A C). (plyne z V7 a vlastnosti 5 rozkladu MEJ.) Intuice: Jemnějším rozkladem se dozvíme více o A. 2 OTS: Entropie; R. Šára, CMP (p. 21) Poslední revize: 23. března 2009

Vzájemná informace Pozorování rozkladu B redukuje nejistotu o A z H(A) na H(A B) a získá tedy o A informaci I(A, B) = H(A) H(A B). srv. příklad na str. 15 Def. I(A, B) def = H(A) + H(B) H(A B) plyne z V9 Vlastnosti I(A, B) = I(B, A) I(A, B) 0 symetrie nonnegativita, plyne z V7 I(A, B) je 1. Informace o A obsažená v B 2. Informace o B obsažená v A Definice pro více rozkladů: I(A 1, A 2,, A k ) def = k H(A i ) H(A 1 A 2 A k ) i=1 OTS: Entropie; R. Šára, CMP (p. 22) Poslední revize: 23. března 2009

Mnemotechnická pomůcka: Vztah mezi podmíněnými druhy entropie À µ À µ Á µ À µ À µ À µ Čteme takto: platí aditivita plochy, přičemž celý levý kruh představuje H(A), celý pravý kruh H(B) a jejich sjednocení představuje H(A B). Potom H(A) + H(B A) = H(A B) H(A B) I(A B) = H(A B) + H(B A) OTS: Entropie; R. Šára, CMP (p. 23) Poslední revize: 23. března 2009

Sdružená a podmíněná entropie diskrétní náhodné proměnné Sdružená entropie H(X, Y ) = H(A X A Y ) = i p ij ln p ij j Podmíněná entropie H(X Y ) = H(A X A Y ) OTS: Entropie; R. Šára, CMP (p. 24) Poslední revize: 23. března 2009

Věta o bijekci Jestliže X, Y jsou diskrétní náhodné proměnné a Y = f(x) je zobrazení prosté a na (bijekce), potom: V15. H(Y X) = H(X Y ) = 0 D: Rozklady A X a A Y jsou ekvivalentní, A X = A Y. Takže A X A Y a platí V5. V16. I(X, Y ) = H(Y ), I(X, Y ) = H(X). Také H(X, Y ) = H(X) = H(Y ). (z V9) OTS: Entropie; R. Šára, CMP (p. 25) Poslední revize: 23. března 2009

Aplikace 1: Který poslanec má největší vliv na výsledek hlasování? Systém: S = {v 1, v 2, v 3, v 4, v 5 } Pozorování: H 1 = H(v 2, v 3, v 4, v 5 v 1 ) tím menší, čím větší je vliv v 1 = H(v 1, v 2, v 3, v 4, v 5 ) H(v 1 ) (z V9) Výsledky (jackknife): v i H i v 1 2.6103 ± 0.0411 v 2 2.5973 ± 0.0471 v 3 2.5942 ± 0.0360 v 4 2.5990 ± 0.0347 v 5 2.5991 ± 0.0496 Pozn: H(v 1, v 2, v 3, v 4, v 5 ) = 3.2865 ± 0.0351 [Nat] OTS: Entropie; R. Šára, CMP (p. 26) Poslední revize: 23. března 2009

Aplikace 2: Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je. Příznaky x i, i = 1, 2,... n. Informace o třídě v příznaku x i je podmíněná entropie H(c x i ). OTS: Entropie; R. Šára, CMP (p. 27) Poslední revize: 23. března 2009

Aplikace 3: Normovaná střední vzájemná informace i(x, Y ) = I(X, Y ) H(X, Y ), 0 i(x, Y ) 1 i(x, Y ) = 0 i(x, Y ) = 1 pokud X, Y jsou nezávislé pokud mezi X, Y existuje bijekce Pozn: uvádí se i jiné normalizace, například i (X, Y ) = I(X, Y ) H(X) + H(Y ), potom i (X, Y ) i(x, Y ) viz V11, ale stále platí 0 i (X, Y ) 1 OTS: Entropie; R. Šára, CMP (p. 28) Poslední revize: 23. března 2009

Příklad na i(x, Y ) 6 5 4 3 2 1 X = {1, 2, 3, 4, 5}, Y = {3, 5, 2, 1, 6, 4} A X = {{a}, {b}, {c}, {d}, {e, f}} sloupce A Y A X A Y = {{d}, {c}, {a}, {f}, {b}, {e}} řádky = {{a}, {b}, {c}, {d}, {e}, {f}} = A Y H(X) = H(A X ) = 1.6094 nat, H(Y ) = H(A Y ) = 1.7918 nat H(X, Y ) = H(A X A Y ) = 1.7918 nat, I(X, Y ) = 1.6094 nat 1 2 3 4 5 6 normovaná stř. vzájemná inf. i(x, Y ) = 0.8982 normalizovaný korelační koeficient ρ(x, Y ) = 0.1964 Spearmanův rankový koeficient r(x, Y ) = 0.2609 Dva aspekty relace mezi proměnnými 1. síla asociace i(x, Y ) : jak moc jsou závislé? 2. statistická významnost této asociace : postačují data k takovému závěru? OTS: Entropie; R. Šára, CMP (p. 29) Poslední revize: 23. března 2009

Je histogram kvalitním odhadem rozdělení psti? x {1,..., 50} : náhodná proměnná s rovnoměrným rozdělením 5 100 vzorku 250 10000 vzorku 4 4 200 3.5 3 cetnost n i 3 2 cetnost n i 150 100 H 2.5 2 1.5 1 50 1 0.5 0 10 20 30 40 50 hodnota x i 0 10 20 30 40 50 hodnota x i 0 10^0 10^1 10^2 10^3 10^4 10^5 vzorku Ĥ = 3.6874 nat Ĥ = 3.9095 nat teoretická entropie ln(50) = 3.9120 nat hodnota četnosti je náhodná proměnná OTS: Entropie; R. Šára, CMP (p. 30) Poslední revize: 23. března 2009

Odhad entropie z histogramu Máme histogram {n 1, n 2,..., n k } proměnné x se šířkou třídy (přihrádky) h > 0. Platí n = k i=1 n i 2 případy: 1. diskrétní náhodná proměnná: chceme entropii v přirozeném rozlišení 2. kvantizovaná spojitá náhodná proměnná: chceme entropii původní spojité proměnné Ĥ(x) = ln h k i=1 n i n ln n i n h... v přirozených jednotkách oboru hodnot Bez členu ln h by hodnota statistiky rostla se zmenšováním rozlišení histogramu h OTS: Entropie; R. Šára, CMP (p. 31) Poslední revize: 23. března 2009

Volba šířky přihrádky histogramu vektorová proměnná x = {x 1, x 2,..., x q } q n ˆσ i h i dimenze histogramu počet měření odhad rozptylu složky x i šířka přihrádky pro složku x i Předpoklad normálního rozdělení s diagonální kovarianční maticí f(x) = 1 e 1 2 (x x) S 1 (x x) det(2πs) S = diag(σ 2 1, σ 2 2,..., σ 2 q) Scottovo pravidlo h i 3.5 ˆσ 2+q i n Scott, D. W. Multivariate Density Estimation: Theory Practice, and Visualization, John Wiley & Sons, Chichester 1992. OTS: Entropie; R. Šára, CMP (p. 32) Poslední revize: 23. března 2009

Příklad x spojitá skalární náhodná proměnná s rozdělením N(0, 2) H(x) = ln σ 2πe = 2.1121 n = 100 vzorků, dimenze q = 1, takže h = 3.5 2 3 100 1.51 30 optimalni histogram h=1.54 5 h=0.10 2.5 25 20 15 10 5 0 10 5 0 5 10 Ĥ = 2.1279 nat 4 3 2 1 0 10 5 0 5 10 Ĥ = 1.3026 nat H + log(h) 2 1.5 1 0.5 teorie 0 h = 0.1 Scott 0.5 10^1 10^2 10^3 10^4 10^5 vzorku Scott: pokaždé vypočteme novou hodnotu h a přepočteme histogram entropie z optimálního histogramu je lepším odhadem H(x) OTS: Entropie; R. Šára, CMP (p. 33) Poslední revize: 23. března 2009

Estimátor entropie bez histogramování (Kozačenko-Leoněnko) Dáno: množina vektorových měření {x i, i = 1,..., n} z neznámého spojitého rozdělení pravděpodobnosti Cíl: výpočet entropie bez diskretizace a histogramování q dimenze vektoru měření, x i IR q n počet měření r i euklidovská (L 2 ) vzdálenost k nejbližšímu sousedu x i γ Euler-Mascheroniho konstanta (γ 0.5772156649) H = q n n i=1 ln r i + ln (n 1)π q 2 Γ(1 + q 2 ) + γ Poznámky změna měřítka x má podobný vliv jako změna kvantizačního kroku, nutno kompenzovat členem q n log h množina nejbližších sousedů pro všechna x i lze teoreticky nalézt za dobu O(c q n log n) pro libovolné q. degenerovanost: použít ln max(r i, 1 n ) místo ln r i. vhodné pro velká q (viz příklad) vhodné pro multimodální rozdělení psti Γ(x) = R t x 1 e t dt, x R, Γ(k) = (k 1)!, k N 0 OTS: Entropie; R. Šára, CMP (p. 34) Poslední revize: 23. března 2009

Příklad d = 1, 100 pokusu 23 d = 10, 100 pokusu 21.5 d = 10, 100 pokusu 2.4 2.3 22.5 21 2.2 22 2.1 2 1.9 1.8 21.5 21 20.5 20.5 20 1.7 1.6 teorie 1.5 K L Scott 1.4 0 200 400 600 800 1000 vzorku 20 19.5 teorie K L Scott 19 0 200 400 600 800 1000 vzorku x N(0, 2), q = 1 x N(0, 2 I), q = 10 19.5 teorie Scott 19 1 2 3 4 5 6 log 10 (n) (vzorku) malá dimenze q: histogramovací metoda má lepší rozptyl velká dimenze q: KL je méně vychýlený, rozptyly srovnatelné velká q: histogramová metoda konverguje (pro velmi velká n) OTS: Entropie; R. Šára, CMP (p. 35) Poslední revize: 23. března 2009

Odhad entropie a její chyby Dáno: množina vektorových měření D = {x i, i = 1, 2,..., n} Cíl: odhad entropie Ĥ(D) včetně chyby var[ĥ(d)] Jackknife 1. Pro i = 1, 2,..., n dělej: a. zkonstruuj D i = D \ {x i } vynecháním jednoho bodu b. odhadni Ĥ i = Ĥ(D i) z D i 2. Vypočti odhad entropie Ĥ a chyby var[ĥ]: Ĥ = 1 n n i=1 Ĥ i, var[ĥ] = n 1 n n (Ĥi Ĥ) 2 i=1 Poznámky pozor na rozdíl mezi výběrovým rozptylem s 2, E(s 2 ) = σ 2 a rozptylem výběrového průměru x, E( x) = µ, var x = σ2 n jackknife může být použit na jakoukoliv statistiku, nejen entropii, např. na medián,... Je to metoda Resampling Theory OTS: Entropie; R. Šára, CMP (p. 36) Poslední revize: 23. března 2009

Kontingenční analýza: Příklad na úvod Jaké hodnoty relativní četnosti k/n mohu očekávat v první třídě dvoupřihrádkového histogramu, když se hodnota vyskytuje s pravděpodobností p 1 = 0.25 (a druhá s p 2 = 0.75)? ( ) n P (x 1 = k) = p k 1 (1 p 1 ) n k k pst s jakou se k/n vyskytne při opakovaných výsledcích histogramování P 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Binomicke rozdeleni pro p = 0.25 n = 1000 n = 60 n = 12 0 0 0.25 0.5 0.75 1 k/n relativní četnost v přihrádce nejistotu musíme brát v úvahu, když činíme nějaký závěr z relativních četností OTS: Entropie; R. Šára, CMP (p. 37) Poslední revize: 23. března 2009

Realizace histogramu ze vzorku dat je náhodná Jaká je pravděpodobnost, že v i-té přihrádce histogramu bude n i hodnot, když celkem udělám n měření (pokusů)? sekvence náhodných pokusů (E i - nastane hodnota i) pravděpodobnost takové sekvence p n 1 1 p n 2 2 p n 3 3 pn k k sekvencí se stejným histogramem je dohromady n! n 1! n 2! n k! permutace s opakováním Pravděpodobnost, že v 1. třídě je n 1 hodnot, ve 2. třídě n 2 hodnot,... : P (x 1 = n 1, x 2 = n 2,..., x k = n k ) = n! n 1! n 2! n k! pn 1 1 pn 2 2 pn k k To je multinomické rozdělení s parametry n, p 1, p 2,..., p k. OTS: Entropie; R. Šára, CMP (p. 38) Poslední revize: 23. března 2009

Vlastnosti multinomického rozdělení Nechť H = {n 1, n 2,..., n k } má multinomické rozdělení a k 1 je počet nezávislých prvků v H. Pak: ( ni ) E = p i var n ( ni cov n, n ) j = p i p j n n ( ni ) = p i (1 p i ) n n k q def (n i n p i ) 2 = n p i Veličina q má při n asymptoticky rozdělení χ 2 k 1 s hustotou: i=1 (Pearson) m = k 1: počet nezávislých prvků v {n 1,..., n k } f m (x) = xm 2 1 e x 2 2 m 2 Γ ( ) m 2 Distribuční funkce je neúplná gamma funkce Matlab: gammainc(x/2,m/2) Q( x 2, m 2 ) = 1 Γ( m 2 ) x 2 0 e t t m 2 1 dt, m > 0 OTS: Entropie; R. Šára, CMP (p. 39) Poslední revize: 23. března 2009

Pearsonova Statistika q = k i=1 (n i n p i ) 2 n p i n i nahistogramované četnosti p i model tj., co v histogramu očekáváme Př: 1. 2-D histogram nezávislých veličin x, y, pak p ij = p i p j = p(x = x i ) p(y = y j ) a my použijeme odhad p ij modelu p ij = n i n nj n 2. odhad parametrického rozdělení p i = p(x i Θ) Pak ( q 1 Q 2, m ) 2 = P (y q) je pravděpodobnost, že změřená hodnota statistiky je ve skutečnosti větší než q, za předpokladu platnosti modelu. ½ É 1 0.8 0.6 0.4 È Ý Õµ m počet tříd minus počet dodatečných podmínek, které musí 0.2 splňovat soubor {n i } a které jsou potřeba k výpočtu hodnoty p i (např. P k i=1 n i = n a P k i=1 n 0 ij = n i pro Př. 1). 0 10 20 30 40 Õ Ý OTS: Entropie; R. Šára, CMP (p. 40) Poslední revize: 23. března 2009

Standardní kontingenční test Nulová hypotéza H 0 : tvrzení X platí H 0 je náš model Chyba: Zamítnu H 0, a (ale) H 0 ve skutečnosti platí chyba 1. druhu Cíl: P (chyba) α α: hladina významnosti = maximální penále za chybu Řešení: Procedura statistického testu 1. vyslov H 0 např. složky x jsou statisticky nezávislé 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti z D statistiku q, která měří nesoulad s H 0 např. Pearsonovu statistiku 4. zvol (malé) α typicky α = 0.01 nebo α = 0.05 5. pokud P (y q) < α, potom zamítni H 0 zamítnutím se nedopustím chyby větší než α 1 menší q větší P (y q) H 0 platí jistěji malé α dovolí tolerovat velké q Jsem velmi tolerantní a zamítnu H 0 jen, když je ve zřejmém rozporu s daty. È Ý Õµ 0.8 0.6 0.4 0.2 «¼ ¼ 0 0 10 20 30 40 Õ Ý OTS: Entropie; R. Šára, CMP (p. 41) Poslední revize: 23. března 2009

Náš problém Například: H 0 : p(a, b) = 1 p(a) 2p(b) pro test nezávislosti subsystémů H 0 : p(a, b, c) = 1 p(a, b) 2p(c b) pro test statistické významnosti rekonstrukce struktury systému Pozn: {a, b}, {a, b, c} jsou rozklady množiny (vzorkovacích) proměnných systému. Můžeme si představit, že a, b, c jsou vektorové proměnné. Procedura testu 1. vyslov H 0 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti Pearsonovu statistiku q z D 4. vypočti α = P (y q) 5. je-li dáno D, pak H 0 platí s pravděpodobností alespoň α zamítnutím H 0 udělám chybu α: P (zamítnu platí) = α malé α mohu zamítnout velké α nemohu zamítnout = musím přijmout P (H 0 platí) = P (přijmu platí) + P (zamítnu platí) α OTS: Entropie; R. Šára, CMP (p. 42) Poslední revize: 23. března 2009

Ô Postup pro p(a, b) = 1 p(a) 2p(b) 1. Z kontingenční tabulky vypočteme ÙØ Ò ØÒÓ Ø Ò µ ØÒÓ Ø ÔÖ ÓÚ Ò ÑÓ Ð Ñ Ò Ô µ Ô µ Õ Ò Ò Ò Ò Ò Ò Ò ¾ 2. stupně volnosti: DOF = (r 1)(c 1) viz dále 3. vypočteme p = 1 Q ( q 2, ) DOF 2 4. vyjde-li malé p, pak tvrdím, že a a b závislé 5. vyjde-li velké p, pak tvrdím, že a a b jsou nezávislé s pravděpodobností alespoň p 1 0.8 0.6 0.4 0.2 Õ Ô ½ É ¾ Ç ¾ 0 0 10 20 30 40 Õ OTS: Entropie; R. Šára, CMP (p. 43) Poslední revize: 23. března 2009

poznámky Počet stupňů volnosti DOF = rc ( (r + c) 1 ) = (r 1)(c 1) Máme rc prvků v tabulce, ale použili jsme dodatečné vztahy n j = i n ij, n i = j n ij, kterých je dohromady r + c. Ale tyto podmínky nejsou nezávislé, protože j n j + i n i = 2n, odečteme 1. q = 2 Q 1 (1 α, m 2 ), m = DOF q DOF : rychlost růstu prahu přijatelnosti s rostoucím rozlišením tabulky q/dof 3 2.5 2 1.5 1 α=0.9 α=0.5 α=0.1 velké rozlišení velký počet DOF q DOF α přestává mít vliv téměř vše začíná být nezávislé ale: redukce rozlišení kvantizací zachová nezávislost (V8a) nemusíme se bát redukce rozlišení 0.5 0 0 20 40 60 80 100 DOF OTS: Entropie; R. Šára, CMP (p. 44) Poslední revize: 23. března 2009

Příklad z parlamentu: která dvojice hlasuje nezávisle na ostatních? 1. Nalezení nezávislé dvojice (i, j) ( ) N 2 2. Ověření statistické významnosti arg min i,j I({s i, s j }, {s k, s l, s m }) H 0 : p(s 1, s 2, s 3, s 4, s 5 ) = p(s i, s j ) p(s k, s l, s m ) použijeme vzájemnou informaci I s i s j I ij s 1 s 2 0.0277 s 1 s 3 0.0299 s 1 s 4 0.0308 s 1 s 5 0.0303 s 2 s 3 0.0294 s 2 s 4 0.0263 s 2 s 5 0.0300 s 3 s 4 0.0273 s 3 s 5 0.0293 s 4 s 5 0.0249 s 4 0 0 1 1 s 5 0 1 0 1 s 1 s 2 s 3 0 0 0 2 4 2 5 13 0 0 1 3 3 9 3 18 0 1 0 3 5 4 1 13 0 1 1 3 3 4 5 15 1 0 0 1 3 3 3 10 1 0 1 1 3 0 1 5 1 1 0 3 3 3 4 13 1 1 1 1 4 3 5 13 17 28 28 27 100 q = 15.07 nezávislé s p 0.82 DOF = 7 3 = 21 OTS: Entropie; R. Šára, CMP (p. 45) Poslední revize: 23. března 2009

1 0.8 0.6 0.4 È Ý Õµ 0.2 «¼ ¼ 0 0 10 20 30 40 Õ Ý

3 2.5 α=0.9 α=0.5 α=0.1 2 q/dof 1.5 1 0.5 0 0 20 40 60 80 100 DOF