Charakteristika datového souboru

Podobné dokumenty
Zápočtová práce STATISTIKA I

Mnohorozměrná statistická data

Číselné charakteristiky a jejich výpočet

Mnohorozměrná statistická data

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

STATISTICKÉ CHARAKTERISTIKY

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pojem a úkoly statistiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Praktická statistika. Petr Ponížil Eva Kutálková

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Statistika pro geografy

Normální (Gaussovo) rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Číselné charakteristiky

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Metodologie pro ISK II

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

MATEMATIKA III V PŘÍKLADECH

TECHNICKÁ UNIVERZITA V LIBERCI

Testování statistických hypotéz. Obecný postup

Stručný úvod do testování statistických hypotéz

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

KGG/STG Statistika pro geografy

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Testování statistických hypotéz

= = 2368

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Základní statistické charakteristiky

Testování statistických hypotéz

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Testování statistických hypotéz


POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Testy statistických hypotéz

12. cvičení z PST. 20. prosince 2017

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Normální (Gaussovo) rozdělení

Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Manuál pro zaokrouhlování

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Základy popisné statistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Popisná statistika. Statistika pro sociology

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Testy. Pavel Provinský. 19. listopadu 2013

Cvičení ze statistiky - 8. Filip Děchtěrenko

Bodové a intervalové odhady parametrů v regresním modelu

Tomáš Karel LS 2012/2013

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

15. T e s t o v á n í h y p o t é z

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Ekonomická statistika

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Základní statistické metody v rizikovém inženýrství

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Analýza dat na PC I.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Popisná statistika. Komentované řešení pomocí MS Excel

Aproximace binomického rozdělení normálním

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

2 ) 4, Φ 1 (1 0,005)

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

STATISTICKÉ HYPOTÉZY

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Transkript:

Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex se měřilo množství prachových částic. Ze 60 vzorků vzduchu jsme dostali následující výsledky (v µg/m 3 ): 1,23 1,10 1,54 1,34 1,06 1,09 1,41 1,48 1,52 1,37 1,37 1,63 1,51 1,53 1,31 1,23 1,31 1,27 1,17 1,27 1,34 1,27 1,09 1,01 1,41 1,22 1,27 1,37 1,14 1,22 1,43 1,40 1,41 1,51 1,51 1,47 1,14 1,34 1,16 1,51 1,58 1,33 1,31 1,04 1,58 1,12 1,19 1,17 1,47 1,24 1,45 1,29 1,17 1,63 1,39 1,02 1,38 1,39 1,43 1,28 Provedeme základní zpracování dat, v celé práci budeme používat hodnotu α = 0,05. Množství prachových částic je spojitý statistický znak, pro sestavení tabulky rozdělení četností musíme určit počet intervalů a jejich šířku. Celkový rozsah souboru je n = 60, nejmenší hodnota x min = 1,01, největší hodnota je x max = 1,63. Variační rozpětí R = x max x min = 0,62. Určíme si optimální počet intervalů podle zmíněných pravidel: Sturgesovo pravidlo k 1 + 3,32 log n. = 7, Yuleovo pravidlo k 2,5 4 n. = 7, k n. = 8, k 5 log n. = 9. Na základě uvedených pravidel zvolíme např. počet intervalů k = 7, šířku intervalu h = 0,1 a počátek prvního intervalu a = 1. Této konstrukci intervalů odpovídá rozdělení četností uvedené v tabulce. Interval Střed int. Abs. četnost Rel. četnost Abs. kum. Rel. kum. x j n j p j četnost N j četnost F j (1,00; 1,10 1,05 7 0,177 7 0,117 (1,10; 1,20 1,15 8 0,133 15 0,250 (1,20; 1,30 1,25 11 0,183 26 0,433 (1,30; 1,40 1,35 14 0,233 40 0,667 (1,40; 1,50 1,45 9 0,150 49 0,817 (1,50; 1,60 1,55 9 0,150 58 0,967 (1,60; 1,70 1,65 2 0,033 60 1,000 Σ 60 1 1

Charakteristiky polohy Aritmetický průměr je definován jako součet všech hodnot znaku dělený jejich počtem x = 1 n x i = 1,324. Průměrné množství prachových částic je 1,324 µg/m 3. Modus je hodnota znaku s největší četností. V případě spojitého statistického znaku budeme mluvit o intervalu, který má největší četnost modální interval. ˆx = (1,3; 1,4 Nejvíce hodnot bylo naměřeno v intervalu (1,3; 1,4. Kvantil x p je hodnota znaku, pro kterou platí, že 100p % jednotek uspořádaného souboru má hodnotu menší nebo rovnu x p a 100(1 p) % jednotek má hodnotu větší nebo rovnu x p. Medián x 0,50 = 1,335, což znamená, že 50 % hodnot koncentrace nepřekročí 1,335 µg/m 3. Dolní kvartil x 0,25 = 1,213, což znamená, že 25 % hodnot koncentrace nepřekročí 1,213 µg/m 3. Horní kvaril x 0,75 = 1,435, což znamená, že 75 % hodnot koncentrace nepřekročí 1,435 µg/m 3. Dolní decil x 0,10 = 1,099, což znamená, že 10 % hodnot koncentrace nepřekročí 1,099 µg/m 3. Horní decil x 0,90 = 1,521, což znamená, že 90 % hodnot koncentrace nepřekročí 1,521 µg/m 3. Charakteristiky variability Variační rozpětí je definováno jako rozdíl největší a nejmenší hodnoty znaku R = x max x min = 0,62. Všechny naměřené hodnoty se nacházejí v intervalu šířky 0,62. Kvartilové rozpětí je definováno jako rozdíl horního a dolního kvartilu R Q = x 0,75 x 0,25 = 0,223. Znamená to, že 50 % prostředních hodnot uspořádaného souboru leží v intervalu šířky 0,223. 2

Decilové rozpětí je definováno jako rozdíl horního a dolního decilu R Q = x 0,90 x 0,10 = 0,422. Znamená to, že 80 % prostředních hodnot uspořádaného souboru leží v intervalu šířky 0,422. Kvartilová odchylka je dána vztahem Q = R Q /2 = 0,111. Vyjadřuje průměrnou vzdálenost prostředních kvartilů. Decilová odchylka je dána vztahem Q = D Q /8 = 0,053. Vyjadřuje průměrnou vzdálenost mezi prostředními decily. Průměrná odchylka znaku je definována jako aritmetický průměr absolutních odchylek jednotlivých hodnot od aritmetického průměru d x = 1 n x i x = 0,133. Rozptyl s 2 n je definován jako aritmetický průměr čtverců odchylek jednotlivých hodnot znaku od aritmetického průměru s 2 n = 1 (x i x) 2 = 0,025. n Odmocnina z rozptylu se nazývá směrodatná odchylka Výběrový rozptyl s 2 definovaný vztahem s 2 = 1 n 1 s n = s 2 n = 0,159. (x i x) 2 = 0,026. Odmocnina z výběrového rozptylu se nazývá výběrová směrodatná odchylka s = s 2 = 0,161. Nejznámější mírou relativní variability je variační koeficient Charakteristiky šikmosti a špičatosti Koeficient šikmosti je dán vztahem a 3 = 1 ns 3 n ν = s n x = 0,120. (x i x) 3 = 0,078. Rozdělení četností je mírně zešikmeno doprava. 3

Koeficient špičatosti je definován vztahem a 4 = 1 ns 4 n (x i x) 4 3 = 0,832. Na základě hodnoty koeficientu a 4 můžeme říci, že stupeň koncentrace prostředních hodnot znaku je ve srovnání s koncentrací všech hodnot větší, rozdělení četností se projeví špičatým tvarem. Číselné charakteristiky shrnutí rozsah 60 výběrová směrodatná odchylka 1,161 minimum 1,01 rozptyl 0,025 maximum 1,63 výběrový rozptyl 0,026 průměr 1,324 variační koeficient 0,120 modus (modální interval) (1,3; 1,4 variační rozpětí 0,62 medián 1,335 kvartilové rozpětí 0,223 dolní kvartil 1,213 decilové rozpětí 0,422 horní kvartil 1,435 kvartilová odchylka 0,111 dolní decil 1,099 decilová odchylka 0,053 horní decil 1,521 koeficient šikmosti 0, 078 průměrná odchylka 0,133 koeficient špičatosti 0, 832 směrodatná odchylka 1,159 Testy normality Q-Q plot Test o nulové šikmosti Formulujeme hypotézu a alternativu: H : α 3 = 0 A : α 3 0 u 3 = a 3 D(a3 ) = 0, 259, kde D(a 6(n 2) 3) = (n + 1)(n + 3) = 0,091. Kritický obor: W α : u 3 u 1 α/2, kde u 1 α/2 je kvantil rozdělení N(0, 1), W 0,05 : 0,259 1,960... neplatí. 4

Hypotézu o nulové šikmosti na hladině významnosti 0,05 nezamítáme (p-hodnota testu je 0,796). Testové kritérium modifikovaného testu má hodnotu z 3 = 0,271, nepadne tedy do kritického oboru, p-hodnota je 0,787. Hypotézu o nulové šikmosti tímto testem také na hladině významnosti 0,05 nezamítáme. Test o nulové špičatosti Formulujeme hypotézu a alternativu: H : α 4 = 0 A : α 4 0 u 4 = a 4 + 6 n+1 D(a4 ) = 1,313 kde D(a 24n(n 2)(n 3) 4) = (n + 1) 2 (n + 3)(n + 5) = 0,312. Kritický obor: W α : u 4 u 1 α/2, kde u 1 α/2 je kvantil rozdělení N(0, 1), W 0,05 : 1,313 1,960... neplatí. Tomuto testu odpovídá p-hodnota 0,189. Hodnota testového kritéria modifikovaného testu je z 3 = = 1,833, nepadne tedy do kritického oboru, p-hodnota je 0,067. Hypotézu o nulové špičatosti na hladině významnosti 0,05 ani jedním testem nezamítáme. Kombinovaný test koeficientu šikmosti a špičatosti C - test normality Formulujme hypotézu a alternativu: H : náhodná veličina X má normální rozdělení A : náhodná veličina X nemá normální rozdělení. C = u 2 3 + u 2 4 = 1,791. Kritický obor: W α : C χ 2 1 α(2), kde χ 2 1 α(2) je kvantil Pearsonova χ 2 rozdělení, W 0,05 : 1,791 5,991... neplatí. Odpovídající p-hodnota je 0,408 Hodnota testového kritéria modifikovaného testu C = 3,432 nepadne do kritického oboru, p-hodnota je 0,180. Na zvolené hladině významnosti nemůžeme normalitu ani jedním testem zamítnout. Závěr: Na základě výsledků předchozích testů je normalita přijatelná. Odhady charakteristik základního souboru Bodovým odhadem střední hodnoty je výběrový průměr ˆµ = x = 1,324. Bodovým rozptylu je výběrový rozptyl ˆσ 2 = s = 0,026. Směrodatnou odchylku odhadneme pomocí výběrové směrodatné odchylky ˆσ = s = 0,161. Předcházející testy normalitu nezamítly, budeme tedy předpokládat, že pracujeme s výběrem z normálního rozdělení. Intervalové odhady pro střední hodnotu Oboustranný interval spolehlivosti se určí podle vztahu x t 1 α/2 (n 1) s n < µ < x + t 1 α/2 (n 1) s n. Dosazením hodnot výběrových charakteristik a kvantilu t 0,975 (59) = 2,001 dostaneme 1,282 < µ < 1,365. Střední hodnota koncentrace prachových částic v kuchyni se s 95% spolehlivostí nachází v intervalu (1,282; 1,365) µg/m 3. 5

Levostranný interval spolehlivosti má tvar dosazením t 0,95 (59) = 1,671 obdržíme odhad µ > x t 1 α (n 1) s n, µ > 1,289. Střední hodnota koncentrace prachových částic je s pravděpodobností 95 % větší než 1,289 µg/m 3. Pravostranný interval spolehlivosti má hodnotu µ < x + t 1 α (n 1) s n µ < 1,358. Střední hodnota koncentrace prachových částic je s pravděpodobností 95 % menší než 1,358 µg/m 3. Intervalové odhady pro rozptyl a směrodatnou odchylku Oboustranný interval spolehlivosti má tvar (n 1)s 2 χ 2 1 α/2 (n 1) < σ2 < (n 1)s2 (n 1). Dosazením výběrových charakteristik a kvantilů χ 2 0,025(59) = 39,66 a χ 2 0,975(59) = 82,12 získáme odhad 0,019 < σ 2 < 0,038, odmocněním potom χ 2 α/2 0,136 < σ < 0,196. Rozptyl koncentrace prachových částic je s pravděpodobností 95 % v intervalu (0,019; 0,038) µg 2 /m 6, směrodatná odchylka v intervalu (0,136; 0,196) µg/m 3. Levostranný interval spolehlivosti σ 2 (n 1)s2 > (n 1) má hodnotu χ 2 1 α σ 2 > 0,020, kde χ 2 0,95(59) = 77,93. Odmocněním získáme odhad σ > 0,140. Rozptyl koncentrace prachových částic je se spolehlivostí 95 % větší než 0,020 µg 2 /m 6, směrodatná odchylka větší než 0,140 µg/m 3. Pravostranný interval spolehlivosti σ 2 (n 1)s2 < χ 2 α(n 1) má hodnotu σ 2 < 0,036, kde χ 2 0,05(59) = 42,34. Odhad pro směrodatnou odchylku je σ < 0,190. Rozptyl koncentrace prachových částic je se spolehlivostí 95 % menší než 0,036 µg 2 /m 6, směrodatná odchylka menší než 0,190 µg/m 3. 6

Jednovýběrový test Můžeme na základě získaných měření konstatovat, že střední hodnota koncentrace prachových částic se statisticky významně liší od hodnoty 1,3 µg/m 3? Formulujeme hypotézu a alternativu: H : µ = 1,3 A : µ 1,3 t = x µ 0 s 1,324 1,3 n = 60 = 1,140. 0,161 Kritický obor: W α : t t 1 α/2 (n 1), kde t 1 α/2 (n 1) je kvantil Studentova rozdělení t, W 0,05 : 1,140 2,001... neplatí. Na hladině významnosti 0,05 nemůžeme zamítnout nulovou hypotézu H (p-hodnota testu je 0,259). Nepodařilo se nám vyvrátit tvrzení, že střední hodnota koncentrace prachových částic je 1,3 µg/m 3. 7