Síla a významnost asociace mezi proměnnými v systému
|
|
- Daniel Bartoš
- před 6 lety
- Počet zobrazení:
Transkript
1 Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie. 5. Podmíněná entropie. 6. Vlastnosti podmíněné entropie. 7. Vzájemná informace. 8. Optimální histogramování. 9. Výpočet entropie ze vzorku dat. 10. Kvalita asociace: kontingenční test. Papoulis, A. Probability, Random Variables, and Stochastic Processes. McGraw Hill 1991, kap. 15. Anděl, J. Statistické metody. Praha: Matfyzpress, 1998; str Duda, RO. Hart, PE. Stork, DG. Pattern Classification, 2nd ed. John Wiley & Sons, 2001; část Press, WH. Teukolsky SA. et al. Numerical Recipes in C, Cambridge University Press OTS: Entropie; R. Šára, CMP (p. 1) Poslední revize: 23. března 2009
2 Entropie jako míra neuspořádanosti Jev x i : kulička padla do přihrádky ( třídy ) i N i H = H = N i i i N = 100 stejných objektů: {b 1, b 2,... b N } N! všech permutací N i! permutací v každé přihrádce, i = 1, 2,..., m (zde m = 10) Celkový počet přerovnání objektů v histogramu je W = m N! N i! OTS: Entropie; R. Šára, CMP (p. 2) Poslední revize: 23. března 2009 i=1 permutace s opakováním
3 pokračování p i def = P (kulička padla do přihrádky i) Entropie H = lim N 1 N ln W = = lim m N i=1 N i N ln N i N = m i=1 p i ln p i Počet mikrostavů (rozdělení do m přihrádek) které dávají za vznik stejnému makrostavu (histogram). D: použijeme Stirlingův vzorec lim n n! 2πn `n n = 1, takže ln n! n ln n n pro n e OTS: Entropie; R. Šára, CMP (p. 3) Poslední revize: 23. března 2009
4 pokračování H 0, protože ϕ(p) 0 (viz graf) Entropie je malá pro úzká rozdělení H = 0 p i = { 1 i = j 0 i j protože i p i = 1 p ln(p) ϕ(p) = p ln p Entropie je velká pro široká rozdělení, D: problém vázaného extrému mx mx H(p 1,..., p m ) = p i ln p i, p i = 1 i=1 i= p nabývá maxima pro p i = 1 m OTS: Entropie; R. Šára, CMP (p. 4) Poslední revize: 23. března 2009
5 Entropie jako míra informace náhodný jev x nastává s pstí p(x) pokud p(x) = 1 a jev nastal, nepřekvapí nás to pokud p(x) = 0 a jev nastal, překvapí nás to nepotřebujeme informaci, abychom si byli jisti potřebujeme informaci, abychom odstranili nejistotu Hledáme funkci s(p) (surprise): 1. spojitou 2. monotonně klesající s p 3. s(1) = 0 nulová nejistota 4. s(p A p B ) = s(p A ) + s(p B ) Hledaná funkce s(p) = s( 1 e ) ln p, s(1 e ) = 1 (definujeme, pak je entropie v Natech) Střední míra informace (v Natech) na množině jevů x = {x k } K k=1 H(x) = K p(x k ) ln p(x k ) k=1 [Shannon 1948] OTS: Entropie; R. Šára, CMP (p. 5) Poslední revize: 23. března 2009
6 Vlastnosti rozkladu množiny elementárních jevů na třídy ekvivalence Rozklad množiny elementárních jevů: {A 1, A 2,..., A n } Definice 1. Rozklad je disjunktní pokrytí MEJ 2. Elementární rozklad E = { {e 1 }, {e 2 },..., {e n } } 3. Zjemnění rozkladu: Dány A = {A 1, A 2,..., A n }, B = {B 1, B 2,..., B m }, pak B A právě když i!j : B i A j (právě jedno j) ½ ¾ ¾ ½ ½ E A = {A 1, A 2 } B = {B 1, B 2 } C B, C A 6 ¾ B A protože (například) neexistuje právě jedno A i takové, aby B 1 A i ; podobně A B C B protože C 1 B 1, C 2 B 1, C 3 B 2, C 4 B 2 ; podobně C A. OTS: Entropie; R. Šára, CMP (p. 6) Poslední revize: 23. března 2009
7 Součin rozkladů součin rozkladů C = A B def = {A i B j, i, j} je největší společné zjemnění A a B: A B A, A B B neexistuje D takové, že A B D A a zároveň A B D B 1 Vlastnosti ½ ¾ 5 3 ¾ ½ ½ A B C = A B 1. E A pro každé A 2. A B = B A (komutativita) 3. A (B C) = (A B) C (asociativita) 4. Jestliže A 1 A 2 a A 2 A 3 potom A 1 A 3 (tranzitivita) 5. Jestliže B A potom A B = B (z toho plyne idempotence A A = A) 6 2 ¾ OTS: Entropie; R. Šára, CMP (p. 7) Poslední revize: 23. března 2009
8 Entropie na rozkladu množiny elementárních jevů Rozklad MEJ A = {A 1, A 2,..., A n }, zavedeme P (A i ) = e A i p(e) def = p i (pouhá notace) Entropie H(A) def = n p i ln p i = n ϕ(p i ), ϕ(p i ) def = p i ln p i i=1 i=1 Pomocná věta V0: ³ Ôµ ³ Ô½ µ ³ Ô¾ µ ³ Ô¾µ ϕ(p 1 + p 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ³ Ô½µ pokud p 1 < p 1 + ε a p 2 ε < p 2 D: Plyne z monotonicity ln p a konkavity ϕ(p): Ô½ Ô½ Ô¾ Ô¾ Ô ϕ(p 1 + p 2 ) = p 1 ln(p 1 + p 2 ) p 2 ln(p 1 + p 2 ) = p 1 (ln p 1 + δ 1 ) p 2 (ln p 2 + δ 2 ) δ 1, δ 2 0 = ϕ(p 1 ) + ϕ(p 2 ) (p 1 δ 1 + p 2 δ 2 ) ϕ(p 1 ) + ϕ(p 2 ) ϕ(p 1 + ε) ϕ(p 1 ) + ϕ(p 2 ε) ϕ(p 2 ) ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) + ϕ(p 2 ) ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 ε p 2 p ) ϕ(p 1 ) 1`ϕ(p2 OTS: Entropie; R. Šára, CMP (p. 8) Poslední revize: 23. března 2009
9 Vlastnosti V1. Jestliže B A potom H(B) H(A) Zjemněním rozkladu se entropie zvýší. Pozn: zjemněním histogramu se entropie zvýší. ½ ¾ ½ D: 6 ¾ 1. Nechť A = {A 1, A 2,..., A n }, zkonstruujeme B = {B 1, B 2, A 2,..., A n } rozkladem A 1 = B 1 B 2, p(b 1 ) = p 1, p(b 2 ) = p 2. Pak B A a 6 ¾ H(A) ϕ(p 1 + p 2 ) = H(B) ϕ(p 1 ) ϕ(p 2 ) H(A) H(B) = ϕ(p 1 + p 2 ) ϕ(p 1 ) ϕ(p 2 ) 0 (z V0) 2. Pro libovolné B A platí, že existuje posloupnost zjemnění A = A 1 A 2 A m = B, takových, že A k+1 je zkonstruována z A k rozkladem jedné podmnožiny jako v předchozím kroku. Takže H(A) = H(A 1 ) H(A 2 ) H(A m ) = H(B) OTS: Entropie; R. Šára, CMP (p. 9) Poslední revize: 23. března 2009
10 pokračování V1 V2. Pro každý rozklad A platí H(A) H(E) Entropie každého rozkladu je menší nebo rovna entropii elementárního rozkladu. V1 V3. Pro každý rozklad A a B platí H(A) H(A B), H(B) H(A B), Pozn: A B A, A B B OTS: Entropie; R. Šára, CMP (p. 10) Poslední revize: 23. března 2009
11 pokračování V4. Entropie rozkladu A je maximální právě když všechny jeho prvky mají stejnou pravděpodobnost: p i = P (A i ) = p D: 1. Všechny prvky mají stejnou pst H(A) je maximální přímou implikací Nechť A = {A 1, A 2,..., A n } a p(a i ) = p = 1/n Přejmenujeme A na B = {B 1, B 2, A 3,... A n }, B 1 = A 1, B 2 = A 2 a v B změníme pravděpodobnosti tak, že p(b 1 ) = p 0 + ε a p(b 2 ) = p 0 ε. ε přidané v B 1 musí být odebráno z B 2, protože P i p(b i) = 1 Potom, zavedeme-li p 1 = p 0 ε a p 2 = p 0 + ε, H(B) ϕ(p 0 + ε) ϕ(p 0 ε) = H(A) ϕ(p 0 ) ϕ(p 0 ) H(B) ϕ(p 1 ) ϕ(p 2 ) = H(A) ϕ(p 1 + ε) ϕ(p 2 ε) 0 ϕ(p 1 + ε) + ϕ(p 2 ε) ϕ(p 1 ) ϕ(p 2 ) = H(A) H(B) V0 takže každým rozvážením pravděpodobností entropie klesne (což dokazuje implikaci) 2. H(A) je maximální všechny prvky mají stejnou pst sporem nechť H(B) je maximální a existují B 1, B 2 B takové, že p(b 1 ) p(b 2 ) potom stejnou konstrukcí zjistíme, že H(B) H(A), což je spor. OTS: Entropie; R. Šára, CMP (p. 11) Poslední revize: 23. března 2009
12 Entropie diskrétní náhodné proměnné Nechť X je diskrétní náhodná proměnná nabývající hodnot x i R(X) s pravděpodobnostmi P (X = x i ) def = p i Sjednocení událostí {X = x i } tvoří rozklad E X (tj. pokrytí oboru hodnot R(X)). Def. 1 Entropie H(X) diskrétní náhodné proměnné X je rovna H(X) def = H(E X ) = i p i ln p i Def. 2 Diferenciální entropie H(X) spojité náhodné proměnné X je H(X) def = f(x) ln f(x) dx Pozn 1: události {X = x i } spojité X netvoří rozklad, jsou nespočetné Pozn 2: pro spojitou X je H(X) (, ) Pozn 3: rovnoměrné rozdělení na intervalu 0, a : H(x) = ln a, normální rozdělení: H(x) = ln σ 2πe 2 entropie multidimenzionálního normálního rozdělení OTS: Entropie; R. Šára, CMP (p. 12) Poslední revize: 23. března 2009
13 Příklad: Statický systém v parlamentu podmnožina pěti vybraných poslanců s = {v 1,..., v 5 } někteří v i hlasují podle v j, j i, ale nevíme kteří někteří hlasují nezávisle, nevíme kteří máme záznam 100 hlasování v 1 v 2 v 3 v 4 v 5 p(s) v 1 v 2 v 3 v 4 v 5 p(s) OTS: Entropie; R. Šára, CMP (p. 13) Poslední revize: 23. března 2009
14 pokračování v 1 v 2 v 3 p(v 1, v 2, v 3 ) s s s s s s s s A B A B ½ ¾ ¼º ¼º ½ ½ ¾ ¼º ¼º ½ ¾ ¼º ½ ¼º¾ ¼º½ ¼º¾ rozklad proměnnou v 1 rozklad proměnnou v 2 H(A) = nat H(A B) = nat H(B) = nat H(E) = nat očekávali jsme: H(E) > H(A B) > H(A), což se potvrdilo OTS: Entropie; R. Šára, CMP (p. 14) Poslední revize: 23. března 2009
15 Příklad na úvod k podmíněné entropii Parlament, S = {v 1, v 2, v 3 }, v 1 indukuje rozklad A jako na předchozí straně v 1 v 2 v 3 p(v 1, v 2, v 3 ) p(v 2, v 3 v 1 = 0) s /0.59 = s s s p(v 2, v 3 v 1 = 1) s s s s H(v 1, v 2, v 3 ) = nat H(v 2, v 3 ) = nat H(v 2, v 3 v 1 = 0) = nat H(v 2, v 3 v 1 = 1) = nat podmíněná entropie H(v 2, v 3 v 1 ) je vážený součet Interpretace H(v 2, v 3 v 1 ) = 0.59H(v 2, v 3 v 1 = 0) H(v 2, v 3 v 1 = 1) = nat Pokud nevíme nic o stavu systému, nejistota o jeho stavu S je nat. Pokud známe hodnotu proměnné v 1, nejistota o S klesne na , což je méně než H(v 2, v 3 ) = , protože v 1 obsahuje o (v 2, v 3 ) nějakou informaci. Informace, kterou obsahuje v 1 o (v 2, v 3 ) je H(v 2, v 3 ) H(v 2, v 3 v 1 ) = = nat. OTS: Entropie; R. Šára, CMP (p. 15) Poslední revize: 23. března 2009
16 Podmíněná entropie Def. Nechť rozklady A a B jsou A = {A 1, A 2,..., A NA }, B = {B 1, B 2,..., B NB }. Potom podmíněná entropie rozkladu A za předpokladu, že nastal jev B j je H(A B j ) = N A i=1 P (A i B j ) ln P (A i B j ) Podmíněná entropie H(A B) je pak střední hodnota přes B H(A B) = N B j=1 = i P (B j ) H(A B j ) = N B j=1 P (B j ) P (A i, B j ) ln P (A i B j ) j N A i=1 P (A i B j ) ln P (A i B j ) = Pozn: Střední nejistota o A je-li pozorováno B je H(A B). OTS: Entropie; R. Šára, CMP (p. 16) Poslední revize: 23. března 2009
17 Vlastnosti I Pro každé rozklady A a B platí: V5. Jestliže B A potom H(A B) = 0. Intuice: víme, které jevy v A nastaly. D: ( Bj když B j A i 1. B je zjemnění j! i : B j A i, takže A i B j = 2. P (A i B j ) = P (A i, B j ) P (B j ) = ( 1 když B j A i 0 jinak jinak 3. všechny členy v součtu H(A B j ) = P i P (A i B j ) log P (A i B j ) jsou nulové. Př: H(A A B) = 0 ale H(A B B) = H(A B), viz V9 na str. 20 OTS: Entropie; R. Šára, CMP (p. 17) Poslední revize: 23. března 2009
18 Vlastnosti II Def. Rozklady A a B jsou nezávislé A i A, B j B : P (A i, B j ) = P (A i ) P (B j ). nezávislost se netýká struktury rozkladů, ale vlastností rozdělení psti ½ ¾ ¼º ¼ ½ ¾ ½ ¾ ¼º¼ ¼º¾ ¼º ¼ ¼º½¼ ¼º ¼ ¼º¼ A B A B ¼º V6. Jsou-li A a B nezávislé, potom H(A B) = H(A), H(B A) = H(B) Intuice: Jsou-li jevy nezávislé, potom pozorováním B nezískáme žádnou informaci o A. 0 1 H(A B) = X X P (A i )P (B j ) ln P (A i ) X P (B j ) A X P (A i ) ln P (A i ) = H(A) i j j i V7. H(A B) H(A) + H(B) Intuice: entropie složeného jevu není větší než entropie dílčích jevů. 2 V8. Jsou-li A a B nezávislé, potom H(A B) = H(A) + H(B) 1 OTS: Entropie; R. Šára, CMP (p. 18) Poslední revize: 23. března 2009
19 Vlastnosti III V8a. Nechť A C a B D a nechť A a B jsou nezávislé. Potom C a D jsou nezávislé. Intuice: hrubší rozklad zachová nezávislost. Budeme potřebovat při redukci rozlišení ve vícedimenzionálních histogramech: redukce rozlišení zachová nezávislost. D: 1. dle definice nezávislosti rozkladů k, l : P (A k, B l ) = P (A k ) P (B l ) 2. ověřujeme, zda P (C i, D j ) = P (C i ) P (D j ) pro všechna i, j: P (C i, D j ) = k : A k C i = k : A k C i P (A k ) l : B l D j P (A k, B l ) = l : B l D j P (B l ) = P (C i ) P (D j ) ½ A C k1 i, A C k2 i, A C k3 i ¾ Pozn: opak věty neplatí. OTS: Entropie; R. Šára, CMP (p. 19) Poslední revize: 23. března 2009
20 Vlastnosti IV V9. Pro libovolné rozklady A, B platí H(A B) = H(B) + H(A B) = H(A) + H(B A) D: 1. dle definice se snažíme H(A B) přepsat na H(A B) H(B) 2. P (B j )H(A B j ) = P i P (B j)p (A i B j ) log P (A i B j ) = Pozn: V9 H(A B B) = H(A B B) H(B) = H(A B) H(B) = H(A B), Pozorujeme-li B, získáme o A B informaci H(B), takže zbytková nejistota je H(A B) H(B) = H(A B). OTS: Entropie; R. Šára, CMP (p. 20) Poslední revize: 23. března 2009
21 Vlastnosti V V10. H(A) H(A B) = H(B) H(B A) (plyne z V9) V11. H(B) H(A B) H(A) + H(B) (plyne z V9+V7) V12. Pro každé A, B, C platí: (podmíníme V9 rozkladem C) H(A B C) = H(B C) + H(A B C) = H(A C) + H(B A C) V13. 0 H(A B) H(A) (plyne z V9+V11) Intuice: 1. Pozorováním B se nejistota o A nemůže zvětšit. 2. Entropie podmnožiny rozkladu je menší. V14. Jestliže B C potom H(A B) H(A C). (plyne z V7 a vlastnosti 5 rozkladu MEJ.) Intuice: Jemnějším rozkladem se dozvíme více o A. 2 OTS: Entropie; R. Šára, CMP (p. 21) Poslední revize: 23. března 2009
22 Vzájemná informace Pozorování rozkladu B redukuje nejistotu o A z H(A) na H(A B) a získá tedy o A informaci I(A, B) = H(A) H(A B). srv. příklad na str. 15 Def. I(A, B) def = H(A) + H(B) H(A B) plyne z V9 Vlastnosti I(A, B) = I(B, A) I(A, B) 0 symetrie nonnegativita, plyne z V7 I(A, B) je 1. Informace o A obsažená v B 2. Informace o B obsažená v A Definice pro více rozkladů: I(A 1, A 2,, A k ) def = k H(A i ) H(A 1 A 2 A k ) i=1 OTS: Entropie; R. Šára, CMP (p. 22) Poslední revize: 23. března 2009
23 Mnemotechnická pomůcka: Vztah mezi podmíněnými druhy entropie À µ À µ Á µ À µ À µ À µ Čteme takto: platí aditivita plochy, přičemž celý levý kruh představuje H(A), celý pravý kruh H(B) a jejich sjednocení představuje H(A B). Potom H(A) + H(B A) = H(A B) H(A B) I(A B) = H(A B) + H(B A) OTS: Entropie; R. Šára, CMP (p. 23) Poslední revize: 23. března 2009
24 Sdružená a podmíněná entropie diskrétní náhodné proměnné Sdružená entropie H(X, Y ) = H(A X A Y ) = i p ij ln p ij j Podmíněná entropie H(X Y ) = H(A X A Y ) OTS: Entropie; R. Šára, CMP (p. 24) Poslední revize: 23. března 2009
25 Věta o bijekci Jestliže X, Y jsou diskrétní náhodné proměnné a Y = f(x) je zobrazení prosté a na (bijekce), potom: V15. H(Y X) = H(X Y ) = 0 D: Rozklady A X a A Y jsou ekvivalentní, A X = A Y. Takže A X A Y a platí V5. V16. I(X, Y ) = H(Y ), I(X, Y ) = H(X). Také H(X, Y ) = H(X) = H(Y ). (z V9) OTS: Entropie; R. Šára, CMP (p. 25) Poslední revize: 23. března 2009
26 Aplikace 1: Který poslanec má největší vliv na výsledek hlasování? Systém: S = {v 1, v 2, v 3, v 4, v 5 } Pozorování: H 1 = H(v 2, v 3, v 4, v 5 v 1 ) tím menší, čím větší je vliv v 1 = H(v 1, v 2, v 3, v 4, v 5 ) H(v 1 ) (z V9) Výsledky (jackknife): v i H i v ± v ± v ± v ± v ± Pozn: H(v 1, v 2, v 3, v 4, v 5 ) = ± [Nat] OTS: Entropie; R. Šára, CMP (p. 26) Poslední revize: 23. března 2009
27 Aplikace 2: Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je. Příznaky x i, i = 1, 2,... n. Informace o třídě v příznaku x i je podmíněná entropie H(c x i ). OTS: Entropie; R. Šára, CMP (p. 27) Poslední revize: 23. března 2009
28 Aplikace 3: Normovaná střední vzájemná informace i(x, Y ) = I(X, Y ) H(X, Y ), 0 i(x, Y ) 1 i(x, Y ) = 0 i(x, Y ) = 1 pokud X, Y jsou nezávislé pokud mezi X, Y existuje bijekce Pozn: uvádí se i jiné normalizace, například i (X, Y ) = I(X, Y ) H(X) + H(Y ), potom i (X, Y ) i(x, Y ) viz V11, ale stále platí 0 i (X, Y ) 1 OTS: Entropie; R. Šára, CMP (p. 28) Poslední revize: 23. března 2009
29 Příklad na i(x, Y ) X = {1, 2, 3, 4, 5}, Y = {3, 5, 2, 1, 6, 4} A X = {{a}, {b}, {c}, {d}, {e, f}} sloupce A Y A X A Y = {{d}, {c}, {a}, {f}, {b}, {e}} řádky = {{a}, {b}, {c}, {d}, {e}, {f}} = A Y H(X) = H(A X ) = nat, H(Y ) = H(A Y ) = nat H(X, Y ) = H(A X A Y ) = nat, I(X, Y ) = nat normovaná stř. vzájemná inf. i(x, Y ) = normalizovaný korelační koeficient ρ(x, Y ) = Spearmanův rankový koeficient r(x, Y ) = Dva aspekty relace mezi proměnnými 1. síla asociace i(x, Y ) : jak moc jsou závislé? 2. statistická významnost této asociace : postačují data k takovému závěru? OTS: Entropie; R. Šára, CMP (p. 29) Poslední revize: 23. března 2009
30 Je histogram kvalitním odhadem rozdělení psti? x {1,..., 50} : náhodná proměnná s rovnoměrným rozdělením vzorku vzorku cetnost n i 3 2 cetnost n i H hodnota x i hodnota x i 0 10^0 10^1 10^2 10^3 10^4 10^5 vzorku Ĥ = nat Ĥ = nat teoretická entropie ln(50) = nat hodnota četnosti je náhodná proměnná OTS: Entropie; R. Šára, CMP (p. 30) Poslední revize: 23. března 2009
31 Odhad entropie z histogramu Máme histogram {n 1, n 2,..., n k } proměnné x se šířkou třídy (přihrádky) h > 0. Platí n = k i=1 n i 2 případy: 1. diskrétní náhodná proměnná: chceme entropii v přirozeném rozlišení 2. kvantizovaná spojitá náhodná proměnná: chceme entropii původní spojité proměnné Ĥ(x) = ln h k i=1 n i n ln n i n h... v přirozených jednotkách oboru hodnot Bez členu ln h by hodnota statistiky rostla se zmenšováním rozlišení histogramu h OTS: Entropie; R. Šára, CMP (p. 31) Poslední revize: 23. března 2009
32 Volba šířky přihrádky histogramu vektorová proměnná x = {x 1, x 2,..., x q } q n ˆσ i h i dimenze histogramu počet měření odhad rozptylu složky x i šířka přihrádky pro složku x i Předpoklad normálního rozdělení s diagonální kovarianční maticí f(x) = 1 e 1 2 (x x) S 1 (x x) det(2πs) S = diag(σ 2 1, σ 2 2,..., σ 2 q) Scottovo pravidlo h i 3.5 ˆσ 2+q i n Scott, D. W. Multivariate Density Estimation: Theory Practice, and Visualization, John Wiley & Sons, Chichester OTS: Entropie; R. Šára, CMP (p. 32) Poslední revize: 23. března 2009
33 Příklad x spojitá skalární náhodná proměnná s rozdělením N(0, 2) H(x) = ln σ 2πe = n = 100 vzorků, dimenze q = 1, takže h = optimalni histogram h= h= Ĥ = nat Ĥ = nat H + log(h) teorie 0 h = 0.1 Scott ^1 10^2 10^3 10^4 10^5 vzorku Scott: pokaždé vypočteme novou hodnotu h a přepočteme histogram entropie z optimálního histogramu je lepším odhadem H(x) OTS: Entropie; R. Šára, CMP (p. 33) Poslední revize: 23. března 2009
34 Estimátor entropie bez histogramování (Kozačenko-Leoněnko) Dáno: množina vektorových měření {x i, i = 1,..., n} z neznámého spojitého rozdělení pravděpodobnosti Cíl: výpočet entropie bez diskretizace a histogramování q dimenze vektoru měření, x i IR q n počet měření r i euklidovská (L 2 ) vzdálenost k nejbližšímu sousedu x i γ Euler-Mascheroniho konstanta (γ ) H = q n n i=1 ln r i + ln (n 1)π q 2 Γ(1 + q 2 ) + γ Poznámky změna měřítka x má podobný vliv jako změna kvantizačního kroku, nutno kompenzovat členem q n log h množina nejbližších sousedů pro všechna x i lze teoreticky nalézt za dobu O(c q n log n) pro libovolné q. degenerovanost: použít ln max(r i, 1 n ) místo ln r i. vhodné pro velká q (viz příklad) vhodné pro multimodální rozdělení psti Γ(x) = R t x 1 e t dt, x R, Γ(k) = (k 1)!, k N 0 OTS: Entropie; R. Šára, CMP (p. 34) Poslední revize: 23. března 2009
35 Příklad d = 1, 100 pokusu 23 d = 10, 100 pokusu 21.5 d = 10, 100 pokusu teorie 1.5 K L Scott vzorku teorie K L Scott vzorku x N(0, 2), q = 1 x N(0, 2 I), q = teorie Scott log 10 (n) (vzorku) malá dimenze q: histogramovací metoda má lepší rozptyl velká dimenze q: KL je méně vychýlený, rozptyly srovnatelné velká q: histogramová metoda konverguje (pro velmi velká n) OTS: Entropie; R. Šára, CMP (p. 35) Poslední revize: 23. března 2009
36 Odhad entropie a její chyby Dáno: množina vektorových měření D = {x i, i = 1, 2,..., n} Cíl: odhad entropie Ĥ(D) včetně chyby var[ĥ(d)] Jackknife 1. Pro i = 1, 2,..., n dělej: a. zkonstruuj D i = D \ {x i } vynecháním jednoho bodu b. odhadni Ĥ i = Ĥ(D i) z D i 2. Vypočti odhad entropie Ĥ a chyby var[ĥ]: Ĥ = 1 n n i=1 Ĥ i, var[ĥ] = n 1 n n (Ĥi Ĥ) 2 i=1 Poznámky pozor na rozdíl mezi výběrovým rozptylem s 2, E(s 2 ) = σ 2 a rozptylem výběrového průměru x, E( x) = µ, var x = σ2 n jackknife může být použit na jakoukoliv statistiku, nejen entropii, např. na medián,... Je to metoda Resampling Theory OTS: Entropie; R. Šára, CMP (p. 36) Poslední revize: 23. března 2009
37 Kontingenční analýza: Příklad na úvod Jaké hodnoty relativní četnosti k/n mohu očekávat v první třídě dvoupřihrádkového histogramu, když se hodnota vyskytuje s pravděpodobností p 1 = 0.25 (a druhá s p 2 = 0.75)? ( ) n P (x 1 = k) = p k 1 (1 p 1 ) n k k pst s jakou se k/n vyskytne při opakovaných výsledcích histogramování P Binomicke rozdeleni pro p = 0.25 n = 1000 n = 60 n = k/n relativní četnost v přihrádce nejistotu musíme brát v úvahu, když činíme nějaký závěr z relativních četností OTS: Entropie; R. Šára, CMP (p. 37) Poslední revize: 23. března 2009
38 Realizace histogramu ze vzorku dat je náhodná Jaká je pravděpodobnost, že v i-té přihrádce histogramu bude n i hodnot, když celkem udělám n měření (pokusů)? sekvence náhodných pokusů (E i - nastane hodnota i) pravděpodobnost takové sekvence p n 1 1 p n 2 2 p n 3 3 pn k k sekvencí se stejným histogramem je dohromady n! n 1! n 2! n k! permutace s opakováním Pravděpodobnost, že v 1. třídě je n 1 hodnot, ve 2. třídě n 2 hodnot,... : P (x 1 = n 1, x 2 = n 2,..., x k = n k ) = n! n 1! n 2! n k! pn 1 1 pn 2 2 pn k k To je multinomické rozdělení s parametry n, p 1, p 2,..., p k. OTS: Entropie; R. Šára, CMP (p. 38) Poslední revize: 23. března 2009
39 Vlastnosti multinomického rozdělení Nechť H = {n 1, n 2,..., n k } má multinomické rozdělení a k 1 je počet nezávislých prvků v H. Pak: ( ni ) E = p i var n ( ni cov n, n ) j = p i p j n n ( ni ) = p i (1 p i ) n n k q def (n i n p i ) 2 = n p i Veličina q má při n asymptoticky rozdělení χ 2 k 1 s hustotou: i=1 (Pearson) m = k 1: počet nezávislých prvků v {n 1,..., n k } f m (x) = xm 2 1 e x 2 2 m 2 Γ ( ) m 2 Distribuční funkce je neúplná gamma funkce Matlab: gammainc(x/2,m/2) Q( x 2, m 2 ) = 1 Γ( m 2 ) x 2 0 e t t m 2 1 dt, m > 0 OTS: Entropie; R. Šára, CMP (p. 39) Poslední revize: 23. března 2009
40 Pearsonova Statistika q = k i=1 (n i n p i ) 2 n p i n i nahistogramované četnosti p i model tj., co v histogramu očekáváme Př: 1. 2-D histogram nezávislých veličin x, y, pak p ij = p i p j = p(x = x i ) p(y = y j ) a my použijeme odhad p ij modelu p ij = n i n nj n 2. odhad parametrického rozdělení p i = p(x i Θ) Pak ( q 1 Q 2, m ) 2 = P (y q) je pravděpodobnost, že změřená hodnota statistiky je ve skutečnosti větší než q, za předpokladu platnosti modelu. ½ É È Ý Õµ m počet tříd minus počet dodatečných podmínek, které musí 0.2 splňovat soubor {n i } a které jsou potřeba k výpočtu hodnoty p i (např. P k i=1 n i = n a P k i=1 n 0 ij = n i pro Př. 1) Õ Ý OTS: Entropie; R. Šára, CMP (p. 40) Poslední revize: 23. března 2009
41 Standardní kontingenční test Nulová hypotéza H 0 : tvrzení X platí H 0 je náš model Chyba: Zamítnu H 0, a (ale) H 0 ve skutečnosti platí chyba 1. druhu Cíl: P (chyba) α α: hladina významnosti = maximální penále za chybu Řešení: Procedura statistického testu 1. vyslov H 0 např. složky x jsou statisticky nezávislé 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti z D statistiku q, která měří nesoulad s H 0 např. Pearsonovu statistiku 4. zvol (malé) α typicky α = 0.01 nebo α = pokud P (y q) < α, potom zamítni H 0 zamítnutím se nedopustím chyby větší než α 1 menší q větší P (y q) H 0 platí jistěji malé α dovolí tolerovat velké q Jsem velmi tolerantní a zamítnu H 0 jen, když je ve zřejmém rozporu s daty. È Ý Õµ «¼ ¼ Õ Ý OTS: Entropie; R. Šára, CMP (p. 41) Poslední revize: 23. března 2009
42 Náš problém Například: H 0 : p(a, b) = 1 p(a) 2p(b) pro test nezávislosti subsystémů H 0 : p(a, b, c) = 1 p(a, b) 2p(c b) pro test statistické významnosti rekonstrukce struktury systému Pozn: {a, b}, {a, b, c} jsou rozklady množiny (vzorkovacích) proměnných systému. Můžeme si představit, že a, b, c jsou vektorové proměnné. Procedura testu 1. vyslov H 0 2. změř n hodnot D = {x 1, x 2,..., x n } 3. vypočti Pearsonovu statistiku q z D 4. vypočti α = P (y q) 5. je-li dáno D, pak H 0 platí s pravděpodobností alespoň α zamítnutím H 0 udělám chybu α: P (zamítnu platí) = α malé α mohu zamítnout velké α nemohu zamítnout = musím přijmout P (H 0 platí) = P (přijmu platí) + P (zamítnu platí) α OTS: Entropie; R. Šára, CMP (p. 42) Poslední revize: 23. března 2009
43 Ô Postup pro p(a, b) = 1 p(a) 2p(b) 1. Z kontingenční tabulky vypočteme ÙØ Ò ØÒÓ Ø Ò µ ØÒÓ Ø ÔÖ ÓÚ Ò ÑÓ Ð Ñ Ò Ô µ Ô µ Õ Ò Ò Ò Ò Ò Ò Ò ¾ 2. stupně volnosti: DOF = (r 1)(c 1) viz dále 3. vypočteme p = 1 Q ( q 2, ) DOF 2 4. vyjde-li malé p, pak tvrdím, že a a b závislé 5. vyjde-li velké p, pak tvrdím, že a a b jsou nezávislé s pravděpodobností alespoň p Õ Ô ½ É ¾ Ç ¾ Õ OTS: Entropie; R. Šára, CMP (p. 43) Poslední revize: 23. března 2009
44 poznámky Počet stupňů volnosti DOF = rc ( (r + c) 1 ) = (r 1)(c 1) Máme rc prvků v tabulce, ale použili jsme dodatečné vztahy n j = i n ij, n i = j n ij, kterých je dohromady r + c. Ale tyto podmínky nejsou nezávislé, protože j n j + i n i = 2n, odečteme 1. q = 2 Q 1 (1 α, m 2 ), m = DOF q DOF : rychlost růstu prahu přijatelnosti s rostoucím rozlišením tabulky q/dof α=0.9 α=0.5 α=0.1 velké rozlišení velký počet DOF q DOF α přestává mít vliv téměř vše začíná být nezávislé ale: redukce rozlišení kvantizací zachová nezávislost (V8a) nemusíme se bát redukce rozlišení DOF OTS: Entropie; R. Šára, CMP (p. 44) Poslední revize: 23. března 2009
45 Příklad z parlamentu: která dvojice hlasuje nezávisle na ostatních? 1. Nalezení nezávislé dvojice (i, j) ( ) N 2 2. Ověření statistické významnosti arg min i,j I({s i, s j }, {s k, s l, s m }) H 0 : p(s 1, s 2, s 3, s 4, s 5 ) = p(s i, s j ) p(s k, s l, s m ) použijeme vzájemnou informaci I s i s j I ij s 1 s s 1 s s 1 s s 1 s s 2 s s 2 s s 2 s s 3 s s 3 s s 4 s s s s 1 s 2 s q = nezávislé s p 0.82 DOF = 7 3 = 21 OTS: Entropie; R. Šára, CMP (p. 45) Poslední revize: 23. března 2009
46 Konec
47 È Ý Õµ 0.2 «¼ ¼ Õ Ý
48 3 2.5 α=0.9 α=0.5 α=0.1 2 q/dof DOF
Aplikace 2: Hledání informativních příznaků pro rozpoznávání
Aplikace : Hledání informativních příznaků pro rozpoznávání Sonogram štítné žlázy v podélném řezu zdravá lymfocitická thyroitida Zajímá nás, kolik se lze z dat dozvědět o třídě c a kde ta informace je.
Síla a významnost asociace mezi proměnnými v systému
Síla a významnost asociace mezi proměnnými v systému Program 1. Entropie jako míra neuspořádanosti. 2. Entropie jako míra informace. 3. Entropie na rozkladu množiny elementárních jevů. 4. Vlastnosti entropie.
Pravděpodobnost a aplikovaná statistika
Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie
Rekonstrukce diskrétního rozdělení psti metodou maximální entropie Příklad Lze nalézt četnosti nepozorovaných stavů tak, abychom si vymýšleli co nejméně? Nechť n i, i = 1, 2,..., N jsou známé (absolutní)
n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)
5. NÁHODNÝ VEKTOR 5.1. Rozdělení náhodného vektoru Náhodný vektor X = (X 1, X 2,..., X n ) T n-rozměrný vektor, složky X i, i = 1,..., n náhodné veličiny. Vícerozměrná (n-rozměrná) náhodná veličina n =
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Náhodný výběr Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní
..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X
Téma 22. Ondřej Nývlt
Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené
Výběrové charakteristiky a jejich rozdělení
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový
Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.
Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen
1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.
VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
AVDAT Náhodný vektor, mnohorozměrné rozdělení
AVDAT Náhodný vektor, mnohorozměrné rozdělení Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Opakování, náhodná veličina, rozdělení Náhodná veličina zobrazuje elementární
I. D i s k r é t n í r o z d ě l e n í
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
Náhodné vektory a matice
Náhodné vektory a matice Jiří Militký Katedra textilních materiálů Technická Universita Liberec, Červeně označené slide jsou jen pro doplnění informací a nezkouší se. Symbolika A B Jev jistý S (nastane
p(x) = P (X = x), x R,
6. T y p y r o z d ě l e n í Poznámka: V odst. 5.5-5.10 jsme uvedli příklady náhodných veličin a jejich distribučních funkcí. Poznali jsme, že se od sebe liší svým typem. V příkladech 5.5, 5.6 a 5.8 jsme
Kybernetika a umělá inteligence, cvičení 10/11
Kybernetika a umělá inteligence, cvičení 10/11 Program 1. seminární cvičení: základní typy klasifikátorů a jejich princip 2. počítačové cvičení: procvičení na problému rozpoznávání číslic... body za aktivitu
1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!
Výsledky příkladů na procvičení z NMSA0 Klasická pravděpodobnost. 5. ( 4( 43 ( 49 3. 8! 3! 0! = 5 Poslední změna (oprava:. května 08 4. (a! + 3! + ( n+ n! = n k= ( k+ /k! = n k=0 ( k /k!; (b n k=0 ( k
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Definice spojité náhodné veličiny zjednodušená verze
Definice spojité náhodné veličiny zjednodušená verze Náhodná veličina X se nazývá spojitá, jestliže existuje nezáporná funkce f : R R taková, že pro každé a, b R { }, a < b, platí P(a < X < b) = b a f
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.
Zkouška z předmětu KMA/PST. Anotace předmětu Náhodné jevy, pravděpodobnost, podmíněná pravděpodobnost. Nezávislé náhodné jevy. Náhodná veličina, distribuční funkce. Diskrétní a absolutně spojitá náhodná
Odhady Parametrů Lineární Regrese
Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 4. Teoretická rozdělení Mgr. David Fiedor 9. března 2015 Osnova Úvod 1 Úvod 2 3 4 5 Vybraná rozdělení náhodných proměnných normální rozdělení normované normální rozdělení
Vícerozměrná rozdělení
Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).
Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou
Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jestliže opakujeme nezávisle nějaký pokus, můžeme z pozorovaných hodnot sestavit rozdělení relativních četností
z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin
Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme
Charakterizace rozdělení
Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf
Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)
Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik
MATEMATICKÁ STATISTIKA - XP01MST
MATEMATICKÁ STATISTIKA - XP01MST 1. Úvod. Matematická statistika (statistics) se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného
Intervalová data a výpočet některých statistik
Intervalová data a výpočet některých statistik Milan Hladík 1 Michal Černý 2 1 Katedra aplikované matematiky Matematicko-fyzikální fakulta Univerzita Karlova 2 Katedra ekonometrie Fakulta informatiky a
Fisherův exaktní test
Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017 Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace
Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace Jan Slovák Masarykova univerzita Fakulta informatiky 28. 11 2. 12. 2016 Obsah přednášky 1 Literatura 2 Střední
Základy teorie pravděpodobnosti
Základy teorie pravděpodobnosti Náhodná veličina Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 12. února 2012 Statistika by Birom Základy teorie
Neparametrické odhady hustoty pravděpodobnosti
Neparametrické odhady hustoty pravděpodobnosti Václav Hlaváč Elektrotechnická fakulta ČVUT Katedra kybernetiky Centrum strojového vnímání 121 35 Praha 2, Karlovo nám. 13 hlavac@fel.cvut.cz Statistické
Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci
Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické
Cvičení ze statistiky - 5. Filip Děchtěrenko
Cvičení ze statistiky - 5 Filip Děchtěrenko Minule bylo.. Začali jsme pravděpodobnost Klasická a statistická definice pravděpodobnosti Náhodný jev Doplněk, průnik, sjednocení Podmíněná pravděpodobnost
Pravděpodobnost a statistika (BI-PST) Cvičení č. 7
Pravděpodobnost a statistika (BI-PST) Cvičení č. 7 R. Blažek, M. Jiřina, J. Hrabáková, I. Petr, F. Štampach, D. Vašata Katedra aplikované matematiky Fakulta informačních technologií České vysoké učení
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
Schéma identifikační procedury
Schéma identifikační procedury systém S generátor rekonstrukčních hypotéz G a S nejsou porovnatelné nelze srovnat kvalitu G a S S a S jsou porovnatelné kvalita dekompozice S? S : (S,S ) = G dekompozice
Statistická teorie učení
Statistická teorie učení Petr Havel Marek Myslivec přednáška z 9. týdne 1 Úvod Představme si situaci výrobce a zákazníka, který si u výrobce objednal algoritmus rozpoznávání. Zákazník dodal experimentální
Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?
Náhodné veličiny Náhodné veličiny Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Příklad Vytáhneme tři karty z balíčku zajímá nás, kolik je mezi nimi es.
Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně
7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností
Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III
Vysoká škola báňská - Technická univerzita Ostrava 4. října 2018 Podmíněná pravděpodobnost Při počítání pravděpodobnosti můžeme k náhodnému pokusu přidat i nějakou dodatečnou podmínku. Podmíněná pravděpodobnost
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2017/2018 Tutoriál č. 2:, náhodný vektor Jan Kracík jan.kracik@vsb.cz náhodná veličina rozdělení pravděpodobnosti náhodné
NMAI059 Pravděpodobnost a statistika
NMAI059 Pravděpodobnost a statistika podle přednášky Daniela Hlubinky (hlubinka@karlin.mff.cuni.cz) zapsal Pavel Obdržálek (pobdr@matfyz.cz) 205/20 poslední změna: 4. prosince 205 . přednáška. 0. 205 )
Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X
Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristik často potřebujeme všetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich
Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II
Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické
Pravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1
Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.
Vybraná rozdělení náhodné veličiny
3.3 Vybraná rozdělení náhodné veličiny 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 Rozdělení Z 3 4 5 6 7 8 9 10 11 12 13 14 15 Život je umění vytvářet uspokojivé závěry na základě nedostatečných předpokladů.
prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií
prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman Kotecký, 2011 Pravděpodobnost
MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci
MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým
Diskrétní matematika. DiM /01, zimní semestr 2016/2017
Diskrétní matematika Petr Kovář petr.kovar@vsb.cz Vysoká škola báňská Technická univerzita Ostrava DiM 470-2301/01, zimní semestr 2016/2017 O tomto souboru Tento soubor je zamýšlen především jako pomůcka
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Inovace bakalářského studijního oboru Aplikovaná chemie
http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Základy zpracování dat chemometrie, statistika Doporučenáliteratura
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice
Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice Vektorové podprostory K množina reálných nebo komplexních čísel, U vektorový prostor nad K. Lineární kombinace vektorů u 1, u 2,...,u
10. N á h o d n ý v e k t o r
10. N á h o d n ý v e k t o r 10.1. Definice: Náhodný vektor. Uspořádanou n tici (X 1, X 2,..., X n ) náhodných veličin X i, 1 i n, nazýváme náhodným vektorem. Poznámka: Pro jednoduchost budeme zavádět
PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady
PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský
Statistická analýza jednorozměrných dat
Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem
Diskrétní náhodná veličina. November 12, 2008
Diskrétní náhodná veličina November 12, 2008 (Náhodná veličina (náhodná proměnná)) Náhodná veličina (nebo též náhodná proměnná) je veličina X, jejíž hodnota je jednoznačně určena výsledkem náhodného pokusu.
Statistika II. Jiří Neubauer
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Zaměříme se především na popis dvourozměrných náhodných veličin (vektorů). Definice Nechť X a Y jsou
Přednáška X. Testování hypotéz o kvantitativních proměnných
Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Regresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud
Zjednodušení generativního systému redukcí rozlišení
Zjednodušení generativního systému redukcí rozlišení Ze studie zahrnující dotaz na vzdělání. Obor hodnot v i : e základní vzdělání h střední vzdělání c bakalář g magistr Možné redukce rozlišení cg vysoké
Odhady - Sdružené rozdělení pravděpodobnosti
Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy
Pravděpodobnost a statistika
Pravděpodobnost a statistika 1 Náhodné pokusy a náhodné jevy Činnostem, jejichž výsledek není jednoznačně určen podmínkami, za kterých probíhají, a které jsou (alespoň teoreticky) neomezeně opakovatelné,
Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
Jazyk matematiky. 2.1. Matematická logika. 2.2. Množinové operace. 2.3. Zobrazení. 2.4. Rozšířená číslená osa
2. Jazyk matematiky 2.1. Matematická logika 2.2. Množinové operace 2.3. Zobrazení 2.4. Rozšířená číslená osa 1 2.1 Matematická logika 2.1.1 Výrokový počet logická operace zapisujeme čteme česky negace
Bayesovské metody. Mnohorozměrná analýza dat
Mnohorozměrná analýza dat Podmíněná pravděpodobnost Definice: Uvažujme náhodné jevy A a B takové, že P(B) > 0. Podmíněnou pravěpodobností jevu A za podmínky, že nastal jev B, nazýváme podíl P(A B) P(A
IDENTIFIKACE BIMODALITY V DATECH
IDETIFIKACE BIMODALITY V DATECH Jiří Militky Technická universita v Liberci e- mail: jiri.miliky@vslib.cz Milan Meloun Universita Pardubice, Pardubice Motto: Je normální předpokládat normální data? Zvláštnosti
Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost
Pravděpodobnost Náhodné veličiny a jejich číselné charakteristiky Petr Liška Masarykova univerzita 19.9.2014 Představme si, že provádíme pokus, jehož výsledek dokážeme ohodnotit číslem. Před provedením
Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.
Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která
Náhodný vektor a jeho charakteristiky
Náhodný vektor a jeho číselné charakteristiky 1 Náhodný vektor a jeho charakteristiky V následující kapitole budeme věnovat pozornost pouze dvourozměřnému náhodnému vektoru, i když uvedené pojmy a jejich
Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.
Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B
TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza
5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně
jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2009/2010 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
Prohledávání svazu zjemnění
Prohledávání svazu zjemnění Rekonstrukční chyba je monotonně neklesající podél každé cesty svazu zjemnění: Je-li G i G k G j potom (G i ) (G k ) (G j ) Rekonstrukční chyba je aditivní podél každé cesty
Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"
Tématické okruhy pro státní závěrečné zkoušky bakalářské studium studijní obor "Management jakosti" školní rok 2010/2011 Management jakosti A 1. Pojem jakosti a význam managementu jakosti v současném období.
Normální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
1. Přednáška. Ing. Miroslav Šulai, MBA
N_OFI_2 1. Přednáška Počet pravděpodobnosti Statistický aparát používaný ve financích Ing. Miroslav Šulai, MBA 1 Počet pravděpodobnosti -náhodné veličiny 2 Počet pravděpodobnosti -náhodné veličiny 3 Jevy
3. přednáška 15. října 2007
3. přednáška 15. října 2007 Kompaktnost a uzavřené a omezené množiny. Kompaktní množiny jsou vždy uzavřené a omezené, a v euklidovských prostorech to platí i naopak. Obecně to ale naopak neplatí. Tvrzení
Základy počtu pravděpodobnosti a metod matematické statistiky
Errata ke skriptu Základy počtu pravděpodobnosti a metod matematické statistiky K. Hron a P. Kunderová Autoři prosí čtenáře uvedeného studijního textu, aby případné další odhalené chyby nad rámec tohoto
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN
ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN Rovnoměrné rozdělení R(a,b) rozdělení s konstantní hustotou pravděpodobnosti v intervalu (a,b) f( x) distribuční funkce 0 x a F( x) a x b b a 1 x b b 1 a x a a x b
LWS při heteroskedasticitě
Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených