Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex se měřilo množství prachových částic. Ze 60 vzorků vzduchu jsme dostali následující výsledky (v µg/m 3 ): 1,23 1,10 1,54 1,34 1,06 1,09 1,41 1,48 1,52 1,37 1,37 1,63 1,51 1,53 1,31 1,23 1,31 1,27 1,17 1,27 1,34 1,27 1,09 1,01 1,41 1,22 1,27 1,37 1,14 1,22 1,43 1,40 1,41 1,51 1,51 1,47 1,14 1,34 1,16 1,51 1,58 1,33 1,31 1,04 1,58 1,12 1,19 1,17 1,47 1,24 1,45 1,29 1,17 1,63 1,39 1,02 1,38 1,39 1,43 1,28 Provedeme základní zpracování dat, v celé práci budeme používat hodnotu α = 0,05. Množství prachových částic je spojitý statistický znak, pro sestavení tabulky rozdělení četností musíme určit počet intervalů a jejich šířku. Celkový rozsah souboru je n = 60, nejmenší hodnota x min = 1,01, největší hodnota je x max = 1,63. Variační rozpětí R = x max x min = 0,62. Určíme si optimální počet intervalů podle zmíněných pravidel: Sturgesovo pravidlo k 1 + 3,32 log n. = 7, Yuleovo pravidlo k 2,5 4 n. = 7, k n. = 8, k 5 log n. = 9. Na základě uvedených pravidel zvolíme např. počet intervalů k = 7, šířku intervalu h = 0,1 a počátek prvního intervalu a = 1. Této konstrukci intervalů odpovídá rozdělení četností uvedené v tabulce. Interval Střed int. Abs. četnost Rel. četnost Abs. kum. Rel. kum. x j n j p j četnost N j četnost F j (1,00; 1,10 1,05 7 0,177 7 0,117 (1,10; 1,20 1,15 8 0,133 15 0,250 (1,20; 1,30 1,25 11 0,183 26 0,433 (1,30; 1,40 1,35 14 0,233 40 0,667 (1,40; 1,50 1,45 9 0,150 49 0,817 (1,50; 1,60 1,55 9 0,150 58 0,967 (1,60; 1,70 1,65 2 0,033 60 1,000 Σ 60 1 1
Charakteristiky polohy Aritmetický průměr je definován jako součet všech hodnot znaku dělený jejich počtem x = 1 n x i = 1,324. Průměrné množství prachových částic je 1,324 µg/m 3. Modus je hodnota znaku s největší četností. V případě spojitého statistického znaku budeme mluvit o intervalu, který má největší četnost modální interval. ˆx = (1,3; 1,4 Nejvíce hodnot bylo naměřeno v intervalu (1,3; 1,4. Kvantil x p je hodnota znaku, pro kterou platí, že 100p % jednotek uspořádaného souboru má hodnotu menší nebo rovnu x p a 100(1 p) % jednotek má hodnotu větší nebo rovnu x p. Medián x 0,50 = 1,335, což znamená, že 50 % hodnot koncentrace nepřekročí 1,335 µg/m 3. Dolní kvartil x 0,25 = 1,213, což znamená, že 25 % hodnot koncentrace nepřekročí 1,213 µg/m 3. Horní kvaril x 0,75 = 1,435, což znamená, že 75 % hodnot koncentrace nepřekročí 1,435 µg/m 3. Dolní decil x 0,10 = 1,099, což znamená, že 10 % hodnot koncentrace nepřekročí 1,099 µg/m 3. Horní decil x 0,90 = 1,521, což znamená, že 90 % hodnot koncentrace nepřekročí 1,521 µg/m 3. Charakteristiky variability Variační rozpětí je definováno jako rozdíl největší a nejmenší hodnoty znaku R = x max x min = 0,62. Všechny naměřené hodnoty se nacházejí v intervalu šířky 0,62. Kvartilové rozpětí je definováno jako rozdíl horního a dolního kvartilu R Q = x 0,75 x 0,25 = 0,223. Znamená to, že 50 % prostředních hodnot uspořádaného souboru leží v intervalu šířky 0,223. 2
Decilové rozpětí je definováno jako rozdíl horního a dolního decilu R Q = x 0,90 x 0,10 = 0,422. Znamená to, že 80 % prostředních hodnot uspořádaného souboru leží v intervalu šířky 0,422. Kvartilová odchylka je dána vztahem Q = R Q /2 = 0,111. Vyjadřuje průměrnou vzdálenost prostředních kvartilů. Decilová odchylka je dána vztahem Q = D Q /8 = 0,053. Vyjadřuje průměrnou vzdálenost mezi prostředními decily. Průměrná odchylka znaku je definována jako aritmetický průměr absolutních odchylek jednotlivých hodnot od aritmetického průměru d x = 1 n x i x = 0,133. Rozptyl s 2 n je definován jako aritmetický průměr čtverců odchylek jednotlivých hodnot znaku od aritmetického průměru s 2 n = 1 (x i x) 2 = 0,025. n Odmocnina z rozptylu se nazývá směrodatná odchylka Výběrový rozptyl s 2 definovaný vztahem s 2 = 1 n 1 s n = s 2 n = 0,159. (x i x) 2 = 0,026. Odmocnina z výběrového rozptylu se nazývá výběrová směrodatná odchylka s = s 2 = 0,161. Nejznámější mírou relativní variability je variační koeficient Charakteristiky šikmosti a špičatosti Koeficient šikmosti je dán vztahem a 3 = 1 ns 3 n ν = s n x = 0,120. (x i x) 3 = 0,078. Rozdělení četností je mírně zešikmeno doprava. 3
Koeficient špičatosti je definován vztahem a 4 = 1 ns 4 n (x i x) 4 3 = 0,832. Na základě hodnoty koeficientu a 4 můžeme říci, že stupeň koncentrace prostředních hodnot znaku je ve srovnání s koncentrací všech hodnot větší, rozdělení četností se projeví špičatým tvarem. Číselné charakteristiky shrnutí rozsah 60 výběrová směrodatná odchylka 1,161 minimum 1,01 rozptyl 0,025 maximum 1,63 výběrový rozptyl 0,026 průměr 1,324 variační koeficient 0,120 modus (modální interval) (1,3; 1,4 variační rozpětí 0,62 medián 1,335 kvartilové rozpětí 0,223 dolní kvartil 1,213 decilové rozpětí 0,422 horní kvartil 1,435 kvartilová odchylka 0,111 dolní decil 1,099 decilová odchylka 0,053 horní decil 1,521 koeficient šikmosti 0, 078 průměrná odchylka 0,133 koeficient špičatosti 0, 832 směrodatná odchylka 1,159 Testy normality Q-Q plot Test o nulové šikmosti Formulujeme hypotézu a alternativu: H : α 3 = 0 A : α 3 0 u 3 = a 3 D(a3 ) = 0, 259, kde D(a 6(n 2) 3) = (n + 1)(n + 3) = 0,091. Kritický obor: W α : u 3 u 1 α/2, kde u 1 α/2 je kvantil rozdělení N(0, 1), W 0,05 : 0,259 1,960... neplatí. 4
Hypotézu o nulové šikmosti na hladině významnosti 0,05 nezamítáme (p-hodnota testu je 0,796). Testové kritérium modifikovaného testu má hodnotu z 3 = 0,271, nepadne tedy do kritického oboru, p-hodnota je 0,787. Hypotézu o nulové šikmosti tímto testem také na hladině významnosti 0,05 nezamítáme. Test o nulové špičatosti Formulujeme hypotézu a alternativu: H : α 4 = 0 A : α 4 0 u 4 = a 4 + 6 n+1 D(a4 ) = 1,313 kde D(a 24n(n 2)(n 3) 4) = (n + 1) 2 (n + 3)(n + 5) = 0,312. Kritický obor: W α : u 4 u 1 α/2, kde u 1 α/2 je kvantil rozdělení N(0, 1), W 0,05 : 1,313 1,960... neplatí. Tomuto testu odpovídá p-hodnota 0,189. Hodnota testového kritéria modifikovaného testu je z 3 = = 1,833, nepadne tedy do kritického oboru, p-hodnota je 0,067. Hypotézu o nulové špičatosti na hladině významnosti 0,05 ani jedním testem nezamítáme. Kombinovaný test koeficientu šikmosti a špičatosti C - test normality Formulujme hypotézu a alternativu: H : náhodná veličina X má normální rozdělení A : náhodná veličina X nemá normální rozdělení. C = u 2 3 + u 2 4 = 1,791. Kritický obor: W α : C χ 2 1 α(2), kde χ 2 1 α(2) je kvantil Pearsonova χ 2 rozdělení, W 0,05 : 1,791 5,991... neplatí. Odpovídající p-hodnota je 0,408 Hodnota testového kritéria modifikovaného testu C = 3,432 nepadne do kritického oboru, p-hodnota je 0,180. Na zvolené hladině významnosti nemůžeme normalitu ani jedním testem zamítnout. Závěr: Na základě výsledků předchozích testů je normalita přijatelná. Odhady charakteristik základního souboru Bodovým odhadem střední hodnoty je výběrový průměr ˆµ = x = 1,324. Bodovým rozptylu je výběrový rozptyl ˆσ 2 = s = 0,026. Směrodatnou odchylku odhadneme pomocí výběrové směrodatné odchylky ˆσ = s = 0,161. Předcházející testy normalitu nezamítly, budeme tedy předpokládat, že pracujeme s výběrem z normálního rozdělení. Intervalové odhady pro střední hodnotu Oboustranný interval spolehlivosti se určí podle vztahu x t 1 α/2 (n 1) s n < µ < x + t 1 α/2 (n 1) s n. Dosazením hodnot výběrových charakteristik a kvantilu t 0,975 (59) = 2,001 dostaneme 1,282 < µ < 1,365. Střední hodnota koncentrace prachových částic v kuchyni se s 95% spolehlivostí nachází v intervalu (1,282; 1,365) µg/m 3. 5
Levostranný interval spolehlivosti má tvar dosazením t 0,95 (59) = 1,671 obdržíme odhad µ > x t 1 α (n 1) s n, µ > 1,289. Střední hodnota koncentrace prachových částic je s pravděpodobností 95 % větší než 1,289 µg/m 3. Pravostranný interval spolehlivosti má hodnotu µ < x + t 1 α (n 1) s n µ < 1,358. Střední hodnota koncentrace prachových částic je s pravděpodobností 95 % menší než 1,358 µg/m 3. Intervalové odhady pro rozptyl a směrodatnou odchylku Oboustranný interval spolehlivosti má tvar (n 1)s 2 χ 2 1 α/2 (n 1) < σ2 < (n 1)s2 (n 1). Dosazením výběrových charakteristik a kvantilů χ 2 0,025(59) = 39,66 a χ 2 0,975(59) = 82,12 získáme odhad 0,019 < σ 2 < 0,038, odmocněním potom χ 2 α/2 0,136 < σ < 0,196. Rozptyl koncentrace prachových částic je s pravděpodobností 95 % v intervalu (0,019; 0,038) µg 2 /m 6, směrodatná odchylka v intervalu (0,136; 0,196) µg/m 3. Levostranný interval spolehlivosti σ 2 (n 1)s2 > (n 1) má hodnotu χ 2 1 α σ 2 > 0,020, kde χ 2 0,95(59) = 77,93. Odmocněním získáme odhad σ > 0,140. Rozptyl koncentrace prachových částic je se spolehlivostí 95 % větší než 0,020 µg 2 /m 6, směrodatná odchylka větší než 0,140 µg/m 3. Pravostranný interval spolehlivosti σ 2 (n 1)s2 < χ 2 α(n 1) má hodnotu σ 2 < 0,036, kde χ 2 0,05(59) = 42,34. Odhad pro směrodatnou odchylku je σ < 0,190. Rozptyl koncentrace prachových částic je se spolehlivostí 95 % menší než 0,036 µg 2 /m 6, směrodatná odchylka menší než 0,190 µg/m 3. 6
Jednovýběrový test Můžeme na základě získaných měření konstatovat, že střední hodnota koncentrace prachových částic se statisticky významně liší od hodnoty 1,3 µg/m 3? Formulujeme hypotézu a alternativu: H : µ = 1,3 A : µ 1,3 t = x µ 0 s 1,324 1,3 n = 60 = 1,140. 0,161 Kritický obor: W α : t t 1 α/2 (n 1), kde t 1 α/2 (n 1) je kvantil Studentova rozdělení t, W 0,05 : 1,140 2,001... neplatí. Na hladině významnosti 0,05 nemůžeme zamítnout nulovou hypotézu H (p-hodnota testu je 0,259). Nepodařilo se nám vyvrátit tvrzení, že střední hodnota koncentrace prachových částic je 1,3 µg/m 3. 7