Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza (histogramy, četnosti absolutní, relativní, prosté, kumulativní), základní statistické charakteristiky (průměr, výběr.rozptyl, minimum, maximum, medián, kvartily, boxplot), sešikmenná rozdělení (vzájemná poloha mediánu a střední hodnoty), chvosty, kvantily. týden (7.09.-01.10.) Princip statistické indukce, výběr, vlastnosti výběru, experiment. Náhodná veličina, rozdělení pravděpodobnosti a jeho souvislost s histogramem. Pravděpodobnost, pravidla pro počítání s pravděpodobností, podmíněná pravděpodobnost, závislost náhodných veličin. 3.týden (04.10.-08.10.) Využití závislosti při stanovení pravděpodobnosti - věta o úplné pravděpodobnosti a Bayesova věta 4.týden (11.10.-15.10.) Rozdělení chyb měření - normální rozdělení a počítání s ním. Odhady parametrů normálního rozdělení. Intervaly spolehlivosti pro normální data. Jednovýběrové testy o střední hodnotě 5.týden (18.10.-4.10.) Výběrový poměr jako odhad pravděpodobnosti sledovaného jevu. Alternativní rozdělení, binomické rozdělení. Intervalový odhad výběrového poměru. Výběry s vracením a bez vracení (binomické a hypergeometrické rozdělení) 6.týden (5.10.-9.10.) odpadá 7.týden (01.11.-05.11.) Poruchy v čase (Poissonův proces). Poissonovo rozdělení, exponenciální rozdělení, jeho výhody a nevýhody, modelování doby do poruchy pomocí Weibullova rozdělení, lognormálního rozdělení, případně useknuté normální rozdělení. 8.týden (08.11.-1.11.) Testy dobré shody, Q-Q graf (pouze vysvětlení), testy normality. Některé neparametrické testy 9.týden (15.11.-19.11.) Dvě náhodné veličiny - srovnání dvou výběrů (dvouvýběrové testy) 10. týden (.11.-6.11.) Dvě náhodné veličiny. Dvourozměrné četnosti jako odhad dvourozměrného rozdělení, frekvenční tabulka. Marginální rozdělení (vše pouze diskrétně s tabulkou) 11. týden (9.11.-03.1.) Závislost náhodných veličin, míry závislosti (kovariance, korelace), test významnosti korelačního koeficientu 1. týden (06.1.-10.1.) Regrese, lineární regresní model (přímková, kvadratická, polynomická regrese), analýza reziduí, pásy spolehlivosti 13. týden (13.1.-17.1.) Více výběrů, jednoduché třídění, ANOVA. 14. týden (0.1.-.1.) Rezerva, opakování, testy normality (náhrada za 8.10.)
Dvě nezávislá měření X : X 1,X,...,X n Y : Y 1,Y,...,Y m X s N(µ X, X) Y s N(µ Y, oba parametry v obou případech známe# známe střední hodnoty a neznáme rozptyly# známe rozptyly a neznáme střední hodnoty# žádný z parametrů neznáme Odhady středních hodnot: X = 1 n Odhady rozptylů: s X = 1 n 1 nx i=1 X i X (X X), s Y = 1 n 1 Y ) Ȳ = 1 m nx i=1 Y i X (Y Ȳ )
Dvě nezávislá měření X : X 1,X,...,X n Y : Y 1,Y,...,Y m X s N(µ X, X) Y s N(µ Y, Y ) test shody rozptylů# test shody středních hodnot při stejných rozptylech# test shody středních hodnot při nestejných rozptylech Dvě závislá měření X : X 1,X,...,X n Y : Y 1,Y,..., Y n párová pozorování párový test shody středních hodnot
1) Srovnání rozptylů dvou nezávislých měření Liší se statisticky významně dvě nezávislá měření z hlediska velikosti rozptylu? Lze považovat rozptyl dvou nezávislých měření za shodný při dané hladině významnosti? nulová hypotéza :# alternativní hypotéza:# H 0 : H A : X = X 6= Y Y F-test testová statistika :# hladina významnosti: F = s X s Y Fisherovo-Snedecorovo rozdělení F(n-1, m-1) H0 nezamítneme, když pro dané bude# # F / (n 1,m 1) <F <F / (n 1,m 1)
) Srovnání středních hodnot dvou nezávislých& měření Liší se statisticky významně dvě nezávislá měření z hlediska jejich střední hodnoty? Lze považovat střední hodnoty dvou nezávislých měření za shodné při dané hladině významnosti? Lze od sebe statisticky významně odlišit dvě nezávislá měření podle jejich jejich střední hodnoty? nulová hypotéza :# - Dvouvýběrový t-test H 0 : µ X = µ Y alternativní hypotéza: testová statistika :# hladina významnosti: H A : µ X 6= µ Y T = X Ȳ s X Ȳ (oboustranná)#
) Srovnání středních hodnot dvou nezávislých& měření - Dvouvýběrový t-test nulová hypotéza :# alternativní hypotéza: testová statistika :# hladina významnosti: H 0 : µ X = µ Y H A : µ X 6= µ Y T = X Ȳ s X Ȳ (oboustranná)# pokud X = Y pokud X 6= Y dvouvýběrový t-test# se stejnými rozptyly dvouvýběrový t-test # s nestejnými rozptyly
) Srovnání středních hodnot dvou nezávislých& měření - Dvouvýběrový t-test pokud X = Y = ) s X Ȳ = s X + s Ȳ = s X n + s Y m = 1 = s n + 1 m + n = s m n.m dále odhadneme s ze všech naměřených hodnot: s 1 X n mx = (X i X) + (Y i Ȳ ) = n + m i=1 i=1 1 (n 1)s X +(m 1)s Y tedy: n + m s X Ȳ = n + m nm(n + m ) (n 1)s X +(m 1)s Y
) Srovnání středních hodnot dvou nezávislých& měření - Dvouvýběrový t-test pokud T = X = Y, testová statistika bude mít tvar: X p Ȳ r nm(n + m ) (n 1)s X +(m 1)s n + m Y ta má t-rozdělení (Studentovo rozdělení) pravděpodobnosti o (n+m-) stupních volnosti. H0 nezamítneme, když pro dané bude# T t (n + m ) kde t (n + m ) je (oboustranná) -kritická hodnota t-rozdělení o (n+m-) stupních volnosti.
) Srovnání středních hodnot dvou nezávislých& měření - Dvouvýběrový t-test pokud X 6= Y, testová statistika bude mít tvar: X T = q Ȳ 1 n s X + 1 m s Y a má rozdělení, které je směsí t-rozdělení o (n-1) a (m-1) stupních volnosti. H0 nezamítneme, když pro dané bude splněna nerovnost T At (n 1) + Bt (m 1), kde A a B jsou váhy, A+B=1. A = 1 n s X 1 n s X + 1 m s Y, B = 1 m s Y 1 n s X + 1 m s Y
3) Párový test shody středních hodnot dvou & závislých měření pozorování stejné veličiny před a po nějakém zásahu# měření stejných obektů za různých podmínek# měření stejné veličiny ve dvou různých časech#... X : X 1,X,...,X n X s N(µ X, Y : Y 1,Y,..., Y n Y s N(µ Y, X) Y ) ) Z 1 = X 1 Y 1, Z = X Y,..., Z n = X n Y n, Z s N(µ X µ Y, H 0 : µ X = µ Y H A : µ X 6= µ Y H 0 : µ Z =0 H A : µ Z 6=0 Z)
3) Párový test shody středních hodnot dvou & závislých měření H 0 : µ Z = a H A : µ Z 6= a T = Z s Z ap n T má t-rozdělení (Studentovo rozdělení) pravděpodobnosti o (n-1) stupních volnosti. H0 nezamítneme, když pro dané bude# T t (n 1) kde t (n 1) je (oboustranná) -kritická hodnota t-rozdělení o (n-1) stupních volnosti.
Jednostranné testy dolní nebo horní jednostranná alternativa : H 0 : µ X = µ Y H A : µ X <µ Y H 0 : µ X = µ Y H A : µ X >µ Y H0 nezamítneme, když pro dané bude buď# T< t (n 1) nebo# T>t (n 1) kde t (n 1) je (jednostranná) -kritická hodnota t-rozdělení o (n-1) stupních volnosti. oboustranná -kritická hodnota je (1 /)-kvantil# t 1 / (n 1) jednostranná -kritická hodnota je (1 ) -kvantil t 1 (n 1)
Příklad: Byly měřeny odchylky od požadované délky 4m ocelových tyčí od dvou dodavatelů. Odchylky jsou uvedeny v cm. Lze považovat délky tyčí od různých dodavatelů za shodné na hladině významnosti 5%? > x [1] 0.41379418 0.510407 3.87973 7.31995568 4.53994434-1.074681 [7] 4.74575978.5501407 3.058685-1.17401554-1.4119500 4.1894690 [13] 0.65486399-0.18908709-0.73101186 1.7876451 1.6734875.78570344 [19].96834139 1.14570 1.80851440-0.80356569.573479 3.455806 [5] 1.66904559 -.117995 4.1769670.1519153 3.6707736 0.0690011 [31] 0.51371315 0.5498337 4.09554316 1.846589 4.05350899 5.10504379 [37] 4.558057 0.798635-1.00469 1.8799786 0.14051938 3.056839 [43] 4.7478001 4.54794140-6.5413331 1.9449658 1.95488616 4.7367571 [49] 4.8308378.9583070.99769818-1.07337799 0.58403864.73050678 [55] 0.80130 10.49771713.3687096 0.6068970 8.4679434 1.9763889 [61] 1.3189734 1.9330073 5.9597773 1.49746935 6.3071756 3.1558551 [67] 5.3884907 3.73441 3.4148356-0.40437473 3.1935014-4.0661001 [73] - 1.0576331-0.3974896 0.86637433.0108109-1.06445976 1.1037563 [79] 4.518359-0.7575877-0.87173075 -.1993463 7.70167909 1.48655986 [85] 4.90757730 5.5165338-0.34615559 0.01031344 4.5758354 1.17516968 [91] - 0.193558-1.784877.97655676 1.44863955 3.67881403 0.3086849 [97] -.505309 0.0548743 0.0778483-1.1975005 3.9958518 0.7904560 [103] 3.73159608 7.36490361 6.40646375-1.548149-0.65100869 4.04305846 [109].47766853-3.48957597 6.0840771 0.4056048 0.49118447-1.4877951 [115] - 1.3675030 5.16138353 1.15383008.7586404 4.70183189 -.9877355 Dodavatel X:
Příklad: Byly měřeny odchylky od požadované délky 4m ocelových tyčí od dvou dodavatelů. Odchylky jsou uvedeny v cm. Lze považovat délky tyčí od různých dodavatelů za shodné na hladině významnosti 5%? > y [1] 6.65956934.78876119 0.3339760-0.03763918 0.74993937 3.81490677 [7] 1.7048804-3.3191341-0.97370 4.01475 5.939834 3.30506070 [13] - 3.6177063 0.78809415 0.37976841 1.535730 1.7630055 1.0307864 [19] -.7409376.7705578-0.5596771-0.7995335-1.9956795 7.14183490 [5] 6.5619569 -.39785588 -.30807391-1.0088455 -.6040839 -.76088135 [31] 1.8187716 0.1466979 4.178331 -.1318430 3.69196005 -.69614367 [37] -.6801480 3.709577 1.7370947-0.7058081 0.07337669.1706330 [43].749594 5.04390706 1.319033 4.7349163-0.67638087.6444944 [49].7876961 -.10997705 4.60471-3.5066144 1.756480 -.0708305 [55] - 4.5977960-1.71953774.90307934 1.38358058 3.433903-1.68000430 [61] 7.55683608 6.3574310 -.60318964 3.4511198 0.9739033.611398 [67] 0.83831831 0.0788888.94060.6835687 0.07483911 3.3814384 [73] - 0.59180508 9.070979-1.7708114 4.77997853-0.8391867 6.6383807 [79] 1.50674691 3.5716693 5.70351834 5.80174051 3.61099316.19937 [85] - 1.4610337-0.97135778 1.54849399 4.3457358-1.6488646.449410 [91].68469434 1.64707956 5.4987517 1.01640668 4.4309977.3430799 [97] - 1.74337571 6.4345833.9413743-1.01569579 Dodavatel Y:
Příklad: Byly měřeny odchylky od požadované délky 4m ocelových tyčí od dvou dodavatelů. Odchylky jsou uvedeny v cm. 1) Vizualizace dat: Box&Whiskers diagram X Y
Příklad: Byly měřeny odchylky od požadované délky 4m ocelových tyčí od dvou dodavatelů. Odchylky jsou uvedeny v cm. ) Srovnání rozptylů: F-test > var.test(x,y) # F test to compare two variances # data: x and y F = 0.871, num df = 119, denom df = 99, p- value = 0.4701 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.5943383 1.684711 sample estimates: ratio of variances 0.8711758 => nulovou hypotézu nezamítáme, # rozptyly se statisticky významně neliší
Příklad: Byly měřeny odchylky od požadované délky 4m ocelových tyčí od dvou dodavatelů. Odchylky jsou uvedeny v cm. 3) Srovnání středních hodnot: dvouvýběrový t-test se shodnými rozptyly > t.test(x,y, var.equal=t) # Two Sample t- test # data: x and y t = 1.0375, df = 18, p- value = 0.3007 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: - 0.3598731 1.1598308 sample estimates: mean of x mean of y 1.884360 1.484381 => nulovou hypotézu nezamítáme, # střední hodnoty se statisticky významně neliší
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? 1) Data: > pred_cvicenim [1] 1.666378 7.3789 15.01706 13.616913 10.97071 5.464451 [7] 9.999636 15.693764 13.771444 17.065310 6.940708 15.860749 [13] 18.019348 6.36531 0.647763 3.005369 14.619170 0.787108 [19] 14.385 9.674337 14.763170 9.613791 9.7736 9.1469 [5] 1.46960 16.0018 15.466065 13.691879 9.03113 10.55839 [31] 18.58896 14.99416 14.7569 10.57984 10.758363 8.89499 [37] 13.5099 1.994734 14.775563 9.818535 18.08089 8.438143 [43] 8.8819 11.09039 15.174881 7.704479 8.91774 10.75903 [49] 11.488700 16.57150 18.8948 13.5445 9.309845 13.71358 [55] 1.904993 8.951567 9.041688 10.305 14.13607 9.89 [61] 15.08694 14.67659 15.8709 11.38905 7.71605 14.30763 [67] 14.647653 18.705963 13.66501 8.05347 13.157791 14.336731 [73] 9.548584 1.5605 11.87645 1.41549 1.944160 17.637175 [79] 9.8543 17.877400 15.89081 9.893356 7.791175 11.901961 [85] 15.60536 13.464186 1.4519 16.09066 8.90793 16.333859 [91] 13.554146 19.586575 11.76500 9.98169 5.35750 0.168371 [97] 1.485393 14.349888 14.1989 7.31501 16.78790 10.998550 [103] 10.377856 13.531181 1.58939 11.34606 1.99800 8.498104 [109] 14.19563 15.37914 11.698431 1.99311 11.3474 1.551867 [115] 10.436798 14.43060 18.83696 14.83848 14.450987 10.87968
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? 1) Data: > po_cviceni [1] 14.889379 8.6761 9.867455 13.141168 9.491 8.490774 [7] 10.1790 10.74403 14.669450 14.43944 10.86905 13.95151 [13] 14.693401 9.44956 16.45888 16.39689 13.65474 14.704994 [19] 1.718107 10.395385 8.75676 6.96151 1.688497 10.57834 [5] 14.94064 13.76303 8.4734 15.60553 11.968936 9.89784 [31] 14.78805 14.773378 11.73336 11.719464 11.84407 1.914485 [37] 13.91805 13.7867 1.586791 9.0608 15.817188 11.197137 [43] 8.974410 10.8394 1.89400 10.483861 11.119684 9.9568 [49] 9.778551 1.06084 13.44997 15.481139 9.470557 11.14340 [55] 10.79391 9.786869 8.547580 8.188947 1.53635 10.86473 [61] 10.547040 13.774638 14.861969 11.180668 9.790466 1.469556 [67] 11.837173 13.80717 11.47610 9.850563 10.440890 11.015557 [73] 1.54767 1.041457 9.639740 11.368657 11.431948 15.449064 [79] 9.11005 15.15478 13.43380 11.807514 9.6399 1.7576 [85] 10.6853 10.84474 13.389953 10.077884 9.185360 13.697777 [91] 10.116078 13.036067 14.41094 1.175099 7.83501 16.7785 [97] 10.967441 10.89966 11.66889 9.34067 15.39018 13.33701 [103] 9.98631 14.378075 10.94935 11.44830 11.836161 13.397990 [109] 13.744963 14.083459 10.668370 9.13969 14.71661 15.173684 [115] 10.493444 14.308470 15.95041 13.748886 14.074436 1.61138
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? ) Grafické zobrazení
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? 3) Rozdíl: > rozdil = pred_cvicenim - po_cviceni > rozdil [1] -.300091-1.304883 5.154504 0.47574455 1.7159009-3.06391 [7] - 0.1765415 4.96936015-0.89800534.8136665-3.88619753 1.909796 [13] 3.3594695-3.1303070 4.187531 6.6168030 1.35369637 6.081141 [19] 1.5011877-0.7104757 6.00689379.656941 -.96117094-1.4304984 [5] 6.9589576.43709534 6.99374083-1.91337370 -.9368345 0.66110855 [31] 3.4706919 0.1903888.9993383-1.139667-1.06604474-4.0018585 [37] 0.1049440-0.7813376.1887731 0.6159708.39090099 -.75899399 [43] - 0.69159043 0.6644963.88548193 -.7793840 -.019465 0.31908043 [49] 1.71014906 4.51006508 5.4445554-1.9369131-0.160716.56985696 [55].1117009-0.83530141 0.49410786.0333578 1.60343767-1.64018405 [61] 4.66165463 0.8530053 0.45180 0.0838398 -.07441380 1.83807585 [67].8104801 4.8854631.18908100-1.85158.7169016 3.3117337 [73] -.99908758 0.48114855.367117 0.8789130 1.51115.18811115 [79] 0.74417071.751909.4587873-1.9141581-1.8411463-0.8380048 [85] 4.9768389.63971186-0.93803104 6.017476-0.774844.63608163 [91] 3.43806805 6.55050838 -.64707408 -.19340734 -.50945055 3.89054571 [97] 1.5179503 3.45698.5993961 -.055470 1.3959055 -.3515191 [103] 0.449574-0.84689404 1.3340037-0.105811 1.16185938-4.89988604 [109] 0.4509949 1.8945495 1.03006049 3.78961854-3.48414755 6.3781858 [115] - 0.0566464 0.1179055 3.5415530 1.08954167 0.37655117-1.3814560
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? 3) Rozdíl:
Příklad: Byla měřena rychlost reakce operátorů před a po speciálním cvičení v sekundách. Mělo cvičení statisticky významný vliv na rychlost? 4) Párový t-test: > t.test(rozdil, mu=0) # One Sample t- test # data: rozdil t = 4.0391, df = 119, p- value = 9.54e- 05 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 0.5089508 1.4878397 sample estimates: mean of x 0.998395 => nulovou hypotézu zamítáme, # cvičení mělo vliv a rychlost reakce se statisticky významně zvýšila