Aplikace : Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je. Příznaky x i, i =,,... n. Informace o třídě v příznaku x i je podmíněná entropie H(c x i ). Entropie; R. Šára, CMP (p. )
Aplikace 3: Normovaná střední vzájemná informace i(x, Y ) = I(X, Y ) H(X, Y ), i(x, Y ) i(x, Y ) = pokud X, Y jsou nezávislé i(x, Y ) = pokud mezi X, Y existuje bijekce Y 6 5 4 3 a b c d e f X = {,, 3, 4, 5}, Y = {3, 5,,, 6, 4} X Y {(, 3), (, 5), (3, ), (4, ), (5, 6), (5, 4)} H(X) =.567 nat, H(Y ) =.798 nat H(X, Y ) =.798 nat, I(X, Y ) =.567 nat normovaná stř. vzájemná inf. i(x, Y ) =.87 normalizovaný korelační koeficient ρ(x, Y ) =.964 3 4 5 6 X Spearmanův rankový koeficient r(x, Y ) =.69 Dva aspekty relace mezi proměnnými. síla asociace i(x, Y ) : jak moc jsou závislé?. statistická významnost této asociace : postačují data k takovému závěru? Entropie; R. Šára, CMP (p. )
Odhad entropie z histogramu Máme histogram {n, n,..., n k } proměnné x se šířkou přihrádky h >. Platí n = k i= n i případy:. diskrétní náhodná proměnná: chceme entropii v přirozeném rozlišení. kvantizovaná spojitá náhodná proměnná: chceme entropii původní spojité proměnné Ĥ(x) = ln h k i= n i n ln n i n h... v přirozených jednotkách oboru hodnot Bez členu ln h by hodnota statistiky rostla se zmenšováním rozlišení histogramu h Entropie; R. Šára, CMP (p. 3)
Je histogram kvalitním odhadem rozdělení psti? x {,..., 5} : náhodná proměnná s rovnoměrným rozdělením 5 vzorku 5 vzorku 4 4 3.5 3 cetnost n i 3 cetnost n i 5 H.5.5 5.5 3 4 5 hodnota x i 3 4 5 hodnota x i ^ ^ ^ ^3 ^4 ^5 vzorku Ĥ = 3.6874 nat Ĥ = 3.995 nat teoretická entropie ln(5) = 3.9 nat hodnota četnosti je náhodná proměnná Entropie; R. Šára, CMP (p. 4)
Volba šířky přihrádky histogramu Systém S = {s, s,..., s q } q n ˆσ i h i dimenze histogramu počet měření odhad rozptylu proměnné s i šířka přihrádky pro proměnnou s i Předpoklad normálního rozdělení s diagonální kovarianční maticí f(x) = e (x x) S (x x) det(πs) S = diag(σ, σ,..., σ q) Scottovo pravidlo h i 3.5 ˆσ +q i n Scott, D. W. Multivariate Density Estimation: Theory Practice, and Visualization, John Wiley & Sons, Chichester 99. Entropie; R. Šára, CMP (p. 5)
Příklad x spojitá náhodná proměnná s rozdělením N(, ) H(x) = ln σ πe =. n = vzorků, dimenze q =, takže h = 3.5 3.5 3 optimalni histogram h=.54 5 h=..5 5 5 5 5 5 Ĥ =.79 nat 4 3 5 5 Ĥ =.36 nat H + log(h).5.5 teorie h =. Scott.5 ^ ^ ^3 ^4 ^5 vzorku Scott: pokaždé vypočteme novou hodnotu h a přepočteme histogram entropie z optimálního histogramu je lepším odhadem H(x) Entropie; R. Šára, CMP (p. 6)
Estimátor entropie bez histogramování (Kozačenko-Leoněnko) Dáno: množina vektorových měření {x i, i =,..., n} z neznámého spojitého rozdělení pravděpodobnosti Cíl: výpočet entropie bez diskretizace a histogramování q dimenze vektoru měření n počet měření r i euklidovská (L ) vzdálenost k nejbližšímu sousedu x i γ Euler-Mascheroniho konstanta (γ.57756649) H = q n n i= ln r i + ln (n )π q Γ( + q ) + γ Poznámky množina nejbližších sousedů pro všechna x i lze teoreticky nalézt za dobu O(c q n log n) pro libovolné q. degenerovanost: použít ln max(r i, n ) místo ln r i. vhodné pro velká q (viz příklad) vhodné pro multimodální rozdělení psti Γ(x) = R t x e t dt, x R, Γ(k) = (k )!, k N Entropie; R. Šára, CMP (p. 7)
Příklad d =, pokusu 3 d =, pokusu.5 d =, pokusu.4.3.5...9.8.5.5.5.7.6 teorie.5 K L Scott.4 4 6 8 vzorku 9.5 teorie K L Scott 9 4 6 8 vzorku x N(, ), q = x N(, ), q = 9.5 teorie Scott 9 3 4 5 6 log (n) (vzorku) malá dimenze q: histogramovací metoda má lepší rozptyl velká dimenze q: KL je méně vychýlený, rozptyly srovnatelné velká q: histogramová metoda konverguje (pro velmi velká n) Entropie; R. Šára, CMP (p. 8)
Odhad entropie a její chyby Dáno: množina D = {x i, i =,,..., n} Cíl: odhad entropie Ĥ(D) včetně chyby var[ĥ(d)] Jackknife. Pro i =,,..., n dělej: a. zkonstruuj D i = D \ {x i } vynecháním jednoho bodu b. odhadni Ĥ i = Ĥ(D i) z D i. Vypočti odhad entropie Ĥ a chyby var[ĥ]: Ĥ = n n i= Ĥ i, var[ĥ] = n n n (Ĥi Ĥ) i= Poznámky jackknife může být použit na jakoukoliv statistiku, nejen entropii, např. na medián,... Je to metoda Resampling Theory Entropie; R. Šára, CMP (p. 9)
Kontingenční analýza Jaká je pravděpodobnost, že v i-té přihrádce histogramu bude n i hodnot když celkem udělám n měření (pokusů)? Sekvence, jejíž prvky jsou četnosti náhodných pokusů: pravděpodobnost takové sekvence { Ei se vyskytne n i krát v daném pořadí } k i= p n pn pn 3 3 pn k k víme, v jakém pořadí padaly kuličky do přihrádek { Ei se vyskytne n i krát v libovolném pořadí } k i= nevíme, v jakém pořadí padaly do přihrádek Pravděpodobnost, že v. přihrádce je n hodnot, ve. přihrádce n hodnot,... : P (x = n, x = n,..., x k = n k ) = n! n! n! n k! pn pn pn k k permutace s opak. To je multinomické rozdělení s parametry n, p, p,..., p k. Entropie; R. Šára, CMP (p. 3)
Příklad Jaké hodnoty relativní četnosti k/n mohu očekávat v první přihrádce dvoupřihrádkového histogramu, když se hodnota vyskytuje s pravděpodobností p =.5 (a druhá s p =.75)? ( ) n P (x = k) = p k ( p ) n k k pst s jakou se k/n vyskytne při opakovaných výsledcích histogramování Entropie; R. Šára, CMP (p. 3) P.35.3.5..5..5 Binomicke rozdeleni pro p =.5 n = n = 6 n =.5.5.75 k/n relativní četnost v přihrádce nejistotu musíme brát v úvahu, když činíme nějaký závěr z relativních četností
Vlastnosti multinomického rozdělení Nechť H = {n, n,..., n k } má multinomické rozdělení a k je počet nezávislých prvků v H. Pak: ( ni ) E = p i var n ( ni cov n, n ) j = p i p j n n ( ni ) = p i ( p i ) n n k (n i n p i ) q = n p i Veličina q má při n asymptoticky rozdělení χ k s hustotou: i= (Pearson) m = k : počet nezávislých prvků v {n,..., n k } f m (x) = xm e x m Γ ( ) m Funkce inverzní k distribuční je Q( m, x ), tj. neúplná gama funkce Q(a, x) = Γ(a) x e t t a dt, a > Entropie; R. Šára, CMP (p. 3)
Pearsonova Statistika q = k i= (n i n p i ) n p i n i nahistogramované četnosti p i model tj., co v histogramu očekáváme Př:. -D histogram nezávislých veličin x, y, pak p ij = p i p j = p(x = x i ) p(y = y j ) a my použijeme odhad p ij modelu p ij = n i n nj n. p i = p(x i Θ) (možné, ale nepraktické) Potom ( m Q, x ) = P (q x) je pravděpodobnost, že změřená hodnota statistiky q je větší než práh x, za předpokladu platnosti modelu. Q.8.6 P(q x T ) m počet přihrádek minus počet dodatečných podmínek, které musí splňovat soubor {n i } a které jsou potřeba k výpočtu hodnoty p i (např. k i= n i = n a k i= n ij = n i pro Př. ). Entropie; R. Šára, CMP (p. 33).4. 3 4 x T x
Standardní kontingenční test Nulová hypotéza H : tvrzení X platí Chyba: Odmítnu H, a (ale) H ve skutečnosti platí Cíl: P (error) α chyba. druhu α: hladina významnosti α: penále, které musím zaplatit, když udělám chybu. Řešení: Procedura statistického testu. vyslov H např. složky x jsou statisticky nezávislé. změř n hodnot D = {x, x,..., x n } 3. vypočti nějakou statistiku q z D např. Pearsonovu statistiku 4. zvol (malé) α typicky α =. nebo α =.5 5. odmítni H když q T (α) musím znát T ( ), T = Q q roste s rostoucí odchylkou dat od H T monotonicky klesá s α Entropie; R. Šára, CMP (p. 34) dostanu velké T pro malé α Což znamená: Jsem velmi tolerantní a odmítnu H jen, když je ve zřejmém rozporu s daty.
Náš problém Například: H : p(a, b) = p(a) p(b) pro test nezávislosti subsystémů H : p(a, b, c) = p(a, b) p(c b) pro test statistické významnosti rekonstrukce struktury systému Pozn: {a, b}, {a, b, c} jsou rozklady množiny (vzorkovacích) proměnných systému. Můžeme si představit, že a, b, c jsou vektorové proměnné. Procedura testu. vyslov H. změř n hodnot D = {x, x,..., x n } 3. vypočti Pearsonovu statistiku q z D 4. vypočti α takové, že q = T (α) 5. je-li dáno D, H platí s pravděpodobností alespoň α odmítnutím H udělám chybu α: P (odmítnu platí) = α malé α mohu odmítnout velké α nemohu odmítnout = musím přijmout P (H platí) = P (přijmu platí) + P (odmítnu platí) α Entropie; R. Šára, CMP (p. 35)
α Postup pro p(a, b) = p(a) p(b). Z kontingenční tabulky vypočteme skutečná četnost n(a i, b j ) četnost predikovaná modelem n p(a i ) p(b j ) q = i j ( nij n i n j n n i n j n ). stupně volnosti: DOF = (r )(c ) 3. vypočteme α = Q ( DOF, q ) 4. vyjde-li malé α, pak tvrdím, že a a b závislé 5. vyjde-li velké α, pak tvrdím, že a a b jsou nezávislé s pravděpodobností alespoň α.8.6.4. α = Q ( DOF, q ) 3 4 q Entropie; R. Šára, CMP (p. 36)
poznámky Počet stupňů volnosti DOF = rc (r + c) + = (r )(c ) Máme rc prvků v tabulce, ale použili jsme dodatečné vztahy n j = i n ij a n i = j n ij, kterých je dohromady r + c. Ale tyto podmínky nejsou nezávislé, protože j n j + i n i = n, odečteme. rychlost růstu prahu přijatelnosti s rostoucím rozlišením 3.5 α=.9 α=.5 α=. T (α, DOF) DOF : q/dof.5 mnoho měření velký DOF T DOF.5 4 6 8 DOF Anděl, J. Statistické metody, MATFYZPRESS Praha 998. Press, WH. Teukolsky SA. et al. Numerical Recipes in C, Cambridge University Press. 99. Entropie; R. Šára, CMP (p. 37)