Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza (histogramy, četnosti absolutní, relativní, prosté, kumulativní), základní statistické charakteristiky (průměr, výběr.rozptyl, minimum, maximum, medián, kvartily, boxplot), sešikmenná rozdělení (vzájemná poloha mediánu a střední hodnoty), chvosty, kvantily 2. týden (27.09.-01.10.) Princip statistické indukce, výběr, vlastnosti výběru, experiment. Náhodná veličina, rozdělení pravděpodobnosti a jeho souvislost s histogramem. Pravděpodobnost, pravidla pro počítání s pravděpodobností, podmíněná pravděpodobnost, závislost náhodných veličin. 3.týden (04.10.-08.10.) Využití závislosti při stanovení pravděpodobnosti - věta o úplné pravděpodobnosti a Bayesova věta 4.týden (11.10.-15.10.) Rozdělení chyb měření - normální rozdělení a počítání s ním. Odhady parametrů normálního rozdělení. Intervaly spolehlivosti pro normální data. Jednovýběrové testy o střední hodnotě 5.týden (18.10.-24.10.) Výběrový poměr jako odhad pravděpodobnosti sledovaného jevu. Alternativní rozdělení, binomické rozdělení. Intervalový odhad výběrového poměru. Výběry s vracením a bez vracení (binomické a hypergeometrické rozdělení) 6.týden (25.10.-29.10.) odpadá 7.týden (01.11.-05.11.) Poruchy v čase (Poissonův proces). Poissonovo rozdělení, exponenciální rozdělení, jeho výhody a nevýhody, modelování doby do poruchy pomocí Weibullova rozdělení, lognormálního rozdělení, případně useknuté normální rozdělení. 8.týden (08.11.-12.11.) Testy dobré shody, Q-Q graf (pouze vysvětlení), testy normality. Některé neparametrické testy 9.týden (15.11.-19.11.) Dvě náhodné veličiny - srovnání dvou výběrů (dvouvýběrové testy) 10. týden (22.11.-26.11.) Dvě náhodné veličiny. Dvourozměrné četnosti jako odhad dvourozměrného rozdělení, frekvenční tabulka. Marginální rozdělení (vše pouze diskrétně s tabulkou) 11. týden (29.11.-03.12.) Závislost náhodných veličin, míry závislosti (kovariance, korelace), test významnosti korelačního koeficientu 12. týden (06.12.-10.12.) Regrese, lineární regresní model (přímková, kvadratická, polynomická regrese), analýza reziduí, pásy spolehlivosti 13. týden (13.12.-17.12.) Více výběrů, jednoduché třídění, ANOVA. 14. týden (20.12.-22.12.) Rezerva, opakování, testy normality (náhrada za 28.10.)
Od hazardu ke hvězdám... 1733 : Abraham de Moivre pokusy s mincemi spojitá křivka Galtonova deska
Od hazardu ke hvězdám... 1 1733 : Abraham de Moivre pokusy s mincemi Galtonova deska spojitá křivka 1 1 1 2 1 1 3 3 1 1 4 6 4 1 Pascalův trojúhelník N N! n k = = k k!(n k)! 1 5 10 10 5 1 1 6 15 20 15 6 1 1 7 21 35 35 21 7 1 Moivre navrhl rovnici: y = e x2 2 y = Ke (x a) 2 2b 2
Rozdělení chyb měření přelom 18. a 19. století: rozdíly v astronomických měřeních - která hodnota je správná? Karl Friedrich Gauss a Piere Laplace: křivka chyb měření gaussova křivka počátek 19. století: Adolphe Qételet - antropometrická měření anglických vojáků Obvod hrudi skotských vojáků v palcích, naměřený Quételetem ve dvacátých letech 19. století
Normální rozdělení přelom 18. a 19. století: rozdíly v astronomických měřeních - která hodnota je správná? Karl Friedrich Gauss a Piere Laplace: křivka chyb měření gaussova křivka počátek 19. století: Adolphe Qételet - antropometrická měření anglických vojáků Obvod hrudi skotských vojáků v palcích, naměřený Quételetem ve dvacátých letech 19. století normální rozdělení
Normální rozdělení f(x) = 1 p 2 e x2 2, x 2 R f(x) = 1 p 2 e x2 2 2 f(x) = 1 p 2 e (x µ) 2 2 2-4.0-2.0 0.0 2.0 4.0 hustota pravděpodobnosti > 0 µ 2 R - parametr měřítka, - parametr polohy Normální rozdělení N(µ, 2 )
Normální rozdělení f(x) = 1 p 2 e x2 2, x 2 R Standardní normální rozdělení N(0,1) X s N(0, 1) 1.0 X 2 ( 1, +1) P (a apple X apple b) = Z b a f(x)dx {z } -4.0-2.0 0.0 2.0 4.0 ha, bi
Normální rozdělení f(x) = 1 p 2 e x2 2, X s N(0, 1) x 2 R P ( 1 apple X apple 1) = 0.6826 P ( 2 apple X apple 2) = 0.9545 P ( 3 apple X apple 3) = 0.9973 Y s N(µ, 2 ) P (µ apple Y apple µ + )=0.6826 P (µ 2 apple Y apple µ +2 )=0.9545 P (µ 3 apple Y apple µ +3 )=0.9973 {z } -4.0-3.0-2.0-1.0 0.0 1.0 2.0 3.0 4.0 hµ,µ+ i 68,26% {z } hµ 2,µ+2 i 95% {z } hµ 3,µ+3 i 99.7%
Normální rozdělení X s N(0, 1) Y s N(µ, 2 ) P ( 1 apple X apple 1) = 0.6826 P ( 2 apple X apple 2) = 0.9545 P ( 3 apple X apple 3) = 0.9973 P (µ apple Y apple µ + )=0.6826 P (µ 2 apple Y apple µ +2 )=0.9545 P (µ 3 apple Y apple µ +3 )=0.9973 P (µ k apple Y apple µ + k ) = P ( k apple Y µ apple k ) = P ( k apple Y µ apple k) = P ( k apple X apple k) Y s N(µ, 2 ) ) X = Y µ s N(0, 1)
Normální rozdělení Symetrie: X s N(0, 1) f(x) =f( x) X s N(µ, 2 ) f(µ + x) =f(µ x) -4.0-2.0 0.0 2.0 4.0
Normální rozdělení f(x) = 1 p 2 e x2 2, x 2 R F(x) X s N(0, 1) P (X apple x) = Z x 1 f(u)du (x) =P (X apple x) distribuční funkce -4.0-2.0 0.0 x 2.0 4.0 S jakou pravděpodobností bude hodnota náhodné veličiny X menší než x? S jakou pravděpodobností nebude hodnota náhodné veličiny X větší než x? S jakou pravděpodobností bude hodnota náhodné veličiny X větší než x? P (X >x)=1 P (X apple x) =1 (x)
Normální rozdělení f(x) = 1 p 2 e x2 2, x 2 R p X s N(0, 1) P (X apple x) = Z x 1 f(u)du (x) =P (X apple x) distribuční funkce -4.0-2.0 0.0 F -1 (p) 2.0 4.0 Jakou hodnotu náhodná veličina X nepřekročí s pravděpodobností p? x p = 1 (p) kvantilová funkce Jakých hodnot bude náhodná veličina X nabývat s předem danou pravděpodobností p?
Normální rozdělení f(x) = 1 p 2 e (x µ) 2 2 2, x 2 R X s N(µ, P (X apple x) = 2 ) Z x 1 f(u)du F (x) =P (X apple x) distribuční funkce -4.0-2.0 0.0 2.0 4.0 F (x) = Z x 1 f(u)du f(x) = df (x) dx, x 2 R
Normální rozdělení = S jakou pravděpodobností bude budoucí hodnota náhodné veličiny X v intervalu? P (a apple X apple b) = Z b 1 f(x)dx ha, bi Z b a Z a 1 f(x)dx f(x)dx }F(b)-F(a) P (a apple X apple b) = F (b) F (a) {z } -4.0-2.0 0.0 2.0 4.0 ha, bi
Normální rozdělení Symetrie: X s N(0, 1) f(x) =f( x) (x) =1 ( x) X s N(µ, 2 ) f(µ + x) =f(µ x) F (µ + x) =1 F (µ x) -4.0-2.0 0.0 2.0 4.0 P ( X apple x) = (x) ( x) = (x) (1 (x)) = 2 (x) 1 P ( X µ apple x) =F (µ + x) F (µ x) = F (µ + x) (1 F (µ + x)) = 2F (µ + x) 1
Normální rozdělení Jakých hodnot kolem střední hodnoty bude náhodná veličina X nabývat s předem danou pravděpodobností 1-p? P (a apple X apple b) =1 a = F 1 (p/2), b = F 1 (1 p/2) (p/2)-kvantil normálního rozdělení a (1-p/2)-kvantil normálního rozdělení Ze symetrie plyne: X s N(0, 1) : x p/2 = p p/2 1 p p/2-4.0-2.0 0.0 2.0 4.0 F -1 (p/2) F -1 (1-p/2) 1 (p/2) = x 1 p/2 = 1 (1 p/2) Y s N(µ, 2 ): y p/2 = F 1 (p/2) = 2µ y 1 p/2 = 2µ F 1 (1 p/2)
Normální rozdělení Jaký je vztah mezi xp/2 a yp/2? X s N(0, 1),Y s N(µ, ) X = Y µ ) Y = X + µ F (y) =P (Y apple y) = P ( Y µ apple y µ )= 2 ) p/2 1 p p/2 P (X apple y µ )= ( y µ ) -4.0-2.0 0.0 2.0 4.0 F -1 (p/2) F -1 (1-p/2) Tedy je: F (y) = y µ... a odtud: F 1 (p) = 1 (p)+µ Vše se prakticky vyjadřuje pouze v tzv. kritických hodnotách: u p = 1 (1 p/2)
Normální rozdělení Jaký je vztah mezi xp/2 a yp/2? p/2... označme tedy 1 (1 p/2) = u p... potom 1 p 1 (p/2) = u p F 1 (1 p/2) = µ + u p F 1 (p/2) = µ u p p/2-4.0-2.0 0.0 2.0 4.0 F -1 (p/2) F -1 (1-p/2) Tedy je: F (y) = y µ... a odtud: F 1 (p) = 1 (p)+µ Vše se prakticky vyjadřuje pouze v tzv. kritických hodnotách: u p = 1 (1 p/2)
Normální rozdělení Jaký je vztah mezi xp/2 a yp/2? p/2... označme tedy 1 (1 p/2) = u p... potom 1 p 1 (p/2) = u p F 1 (1 p/2) = µ + u p F 1 (p/2) = µ u p p/2 Tedy pro 2 (0, 1) -4.0-2.0 0.0 2.0 4.0 F -1 (p/2) F -1 (1-p/2) X s N(0, 1) ) P ( u apple X apple u )=1 Y s N(µ, 2 ) ) P (µ u apple Y apple µ + u )=1 P ( u apple Y µ apple u )=1
Parametry normálního rozdělení Střední hodnota náhodné veličiny X: Z 1 E(X) = 1 xf(x)dx Rozptyl náhodné veličiny X: var(x) =E(X E(X)) 2 = E(X 2 ) E(X) 2 X s N(µ, 2 ) ) E(X) =µ var(x) = 2 Jak tyto parametry najít, když máme k dispozici pouze několik měření veličiny X? x 1,x 2,x 3,...,x n X 1,X 2,X 3,...,X n
Bodové odhady parametrů N(µ, 2 ) x 1,x 2,x 3,...,x n Bodový odhad střední hodnoty náhodné veličiny X: \E(X) = 1 n nx i 1 X i = X =ˆµ X 1,X 2,X 3,...,X n Bodové odhady rozptylu náhodné veličiny X: var(x) =E(X E(X)) 2 = E(X 2 ) E(X) 2 var(x) \ = 1 nx (X X) 2 i = 1 n X X 2 n n i ( X) 2 =ˆ2 i 1 var(x) ^ = 1 n 1 nx (X X) 2 i = i 1 1 n 1 n X i 1 i 1 X 2 i výběrový průměr rozptyl základního souboru n n 1 ( X) 2 = s 2 výběrový rozptyl
Bodové odhady parametrů N(µ, 2 ) Kdy použít který odhad rozptylu náhodné veličiny X? var(x) \ = 1 n nx (X X) 2 i = 1 X n n i 1 i 1 X 2 i rozptyl základního souboru použijeme pro velká n (řádově stovky) ( X) 2 =ˆ2 var(x) ^ = 1 n 1 nx (X X) 2 i = i 1 1 n 1 n X i 1 X 2 i výběrový rozptyl použijeme pro malé rozsahy výběru n n n 1 ( X) 2 = s 2
Intervalový odhad střední hodnoty Výběrový průměr i výběrový rozptyl jsou opět náhodné veličiny E( X) =µ var( X) = Odtud: 2 n ) X s N µ, 2 n ) X µ P ( u apple X µ p n apple u )=1 P ( p n u apple X µ apple p n u )=1 p n s N(0, 1) P ( X pn u apple µ apple X + p n u )=1 P ( X p n u apple µ apple X + p n u )=1 P (µ 2h X p n u, X + p n u i)=1
Intervalový odhad střední hodnoty Výběrový průměr i výběrový rozptyl jsou opět náhodné veličiny E( X) =µ var( X) = 2 n ) X s N µ, 2 n ) X µ p n s N(0, 1) Odtud (1 ) -intervalový odhad střední hodnoty při známém parametru je h X p n u, X + p n u i P (µ 2h X p n u, X + p n u i)=1
Intervalový odhad střední hodnoty Výběrový průměr i výběrový rozptyl jsou opět náhodné veličiny E( X) =µ var( X) = 2 n ) X s N µ, 2 ) n X µ s N(0, 1) p n Odtud (1 ) -intervalový odhad střední hodnoty při známém parametru je h X p n u, X + p n u i (1 )-intervalový odhad střední hodnoty při neznámém parametru je h X s p t (n 1), X + p s t (n 1)i n n t (n 1) (1 /2)- kvantil kde je kritická hodnota Studentova t-rozdělení s parametrem (n -1) takzvané stupně volnosti
Interval spolehlivosti pro průměr P (L apple X apple U) =1 (1 ) -interval spolehlivosti pro průměr dat z normálního rozdělení N(µ, 2 ) 2 v případě, že známe rozptyl, nebo též hµ hµ p n u,µ+ p n u i s p t (n 1),µ+ p s t (n 1)i n n pokud rozptyl odhadujeme z dat pomocí výběrového rozptylu s 2. Všimněte si, že oba intervaly jsou ve tvaru (µ SE,µ + SE) SE je tzv. standardní chyba (Standard Error)
Hmotnosti obsahu balení, dávkovaného automatem: Lze považovat automat za správně seřízený (m0=25,0g)? 23.6 23.8 24.0 24.2 24.4 24.6 24.8 25.0 25.2 25.4 25.6 X = 24.55, s 2 (X) =0.21, s(x) =0.46, n= 50 hm 0 SE,m 0 + SEi SE = p s t (n 1) n Chceme ověřit, zda měření odpovídají rozdělení N(m 0,s 2 ) 24.52586 24.17119 24.54486 24.44240 23.93455 24.20389 24.19974 24.34851 23.94024 24.21022 24.87474 25.06155 25.48924 25.32572 23.71721 24.61622 25.06676 24.90055 24.36213 24.98580 24.80591 24.20853 24.72623 24.64437 24.70405 23.97645 25.29837 24.46910 24.99453 25.42994 24.66147 24.75773 25.03970 24.44901 25.13285 24.40205 24.78721 23.83656 24.17186 23.65390 24.48244 24.68550 24.22988 23.83956 24.09777 24.52098 24.89240 24.25332 24.14259 25.12906 =0.05 ) t 0.05 (49) = 2.01 SE =0.132 X /2h24.868, 25.132i
Hmotnosti obsahu balení, dávkovaného automatem: Lze považovat automat za správně seřízený (m0=25,0g)? X = 24.55, s 2 (X) =0.21, s(x) =0.46, n= 50 Chceme ověřit, zda měření odpovídají rozdělení N(m 0,s 2 ) 24.52586 24.17119 24.54486 24.44240 23.93455 24.20389 24.19974 24.34851 23.94024 24.21022 24.87474 25.06155 25.48924 25.32572 23.71721 24.61622 25.06676 24.90055 24.36213 24.98580 24.80591 24.20853 24.72623 24.64437 24.70405 23.97645 25.29837 24.46910 24.99453 25.42994 24.66147 24.75773 25.03970 24.44901 25.13285 24.40205 24.78721 23.83656 24.17186 23.65390 24.48244 24.68550 24.22988 23.83956 24.09777 24.52098 24.89240 24.25332 24.14259 25.12906 =0.05 ) t 0.05 (49) = 2.01 SE =0.132 X /2h24.868, 25.132i
Jednovýběrové testy o střední hodnotě X /2hm 0 X m 0 /2h s p t (n 1),m 0 + p s t (n 1)i n n s p n t (n 1), s p n t (n 1)i X m 0 s p n/2h t (n 1),t (n 1)i, X m 0 s p n t (n 1) H 0 : µ = m 0 H A : µ 6= m 0 Nulová hypotéza Alternativní hypotéza T = X m 0 p n s ) t (n 1) Testová statistika hladina významnosti, kritická hodnota T t (n 1) rozhodovací pravidlo Nulová hypotéza se nepřijímá, pouze zamítá či nezamítá! Statisticky nelze nic dokázat, pouze zamítnout!