Statistické metody uţívané při ověřování platnosti hypotéz
Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech,
Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy výzkumné otázky v kvalitativních šetřeních) statistické hypotézy nulové hypotézy alternativní hypotézy
Pracovní, věcná hypotéza dokázaná verifikací H: Pachateli trestných činů bývají většinou mladiství z rozvrácených (nefunkčních) rodin. Zdůvodnění hypotézy: Proč se to domnívám? Co mne k tomu vedlo nějaký jiný výzkum, autor, tradice, mé zkušenosti? Kolik to je většinou (více jak 50%)? Kdo je to mladistvý respondent? Jaká rodina bude považována za rozvrácenou? Původní nebo současná...
Nulová hypotéza H : Mezi pachateli trestných činů nejsou rozdíly co se týká funkčnosti jejich rodiny.
Hypotéza alternativní Ha: Mezi pachateli trestných činů a funkčností jejich rodin je statisticky významná závislost.
Příklady formulací hypotéz Pracovní H Statistická H alternativní Mezi pohlavím a fyzickou zdatností existuje statisticky významný vztah, souvislost. Nulová H Lidé, kteří často sledují televizi, málo čtou. Ţáci na 1.stupni ZŠ mají rádi matematiku. V kouření cigaret nejsou statisticky významné rozdíly mezi pohlavím.
Souvislost vazba mezi jevy statistické testy významnosti Těsnost vztahu korelace
Hladina významnosti pravděpodobnost, že nastane Ho symbol - alfa dvě hladiny významnosti 0,01 na 99 % předpokládám vztah z Ho 0,05 na 95 % předpokládám vztah z Ho
Druhy statistických testů významnosti parametrické X neparametrické jednostranné X oboustranné
Postup při ověřování hypotéz Formulace nulové a statistické hypotézy Volba hladiny významnosti Volba vhodného testového kritéria Výpočet testového kritéria Nalezení příslušné kritické hodnoty Porovnání výsledek testu s kritickou hodnotou - závěr
Interpretace výsledku testu významnosti vypočítaná hodnota test. kritéria hodnota kritická nastává situace, kterou jsme očekávali jen s velmi malou pravděpodobností (na 5% nebo 1%), usuzujeme z toho, že výsledky nejsou náhodné a stojí za tím působení určitého vlivu, Ho na zvolené hladině významnosti odmítáme a přijímáme HA, tvrdíme, že výsledek výzkumu je statisticky významný (signifikantní) vypočítaná hodnota test. kritéria < hodnota kritická tento výsledek jsme očekávali s velkou jistotou (na 95% nebo 99%), dosažené výsledky mohou být náhodné, nemusí za tím stát působení nějakého vlivu, Ho na zvolené hladině významnosti nezamítáme, to však neznamená, že je hypotéza správná, konstatujeme, že výsledek není statisticky významný.
Volba testového kritéria závisí na tom, zda porovnáváme závislost mezi jevy při : Nominálním měření - testy dobré shody chí-kvadrát různé varianty - Fischerův kombinatorický test Ordinálním měření Znaménkový test Wilcoxonův test U test Manna a Whitneyho U test pro velmi malé výběry (četnosti ve srovnávaných skupinách jsou menší než 8) U test pro větší skupiny (četnosti ve srovnávaných skupinách jsou do 20) U test při velkých četnostech Kolmogorovův Smirnovův test Kruskalův Wallisův test (je zobecněním U testu) Metrickém (intervalovém nebo poměrovém) měření Funkční a statistická závislost mezi jevy Regresní a korelační analýza Pearsonův koeficient korelace Bodová biseriální korelace Biseriální korelace Tetrachordický koeficient korelace Studentův t test Fisherův Snedecorův F - test Párový t test Princip analýzy rozptylu Jednoduchá analýza rozptylu, Duncanův test Dvoufaktorová analýza rozptylu
Příklad č.1 Test dobré shody chí-kvadrát ² V různých denních dobách byl sledován počet zákazníků přicházejících do obchodu. Lze na základě těchto dat učinit závěr, že zákazníci přicházejí v průběhu dne rovnoměrně? Doba 9-11 11-13 13-15 15-17 17-19 Počet 36 40 27 39 46
1. Formulujeme hypotézy H : Zákazníci přicházejí v průběhu dne rovnoměrně (rozdíly jsou způsobeny náhodou). Ha: Zákazníci v průběhu dne do prodejny rovnoměrně nepřicházejí. Existuje mezi dobou a počtem zákazníků statisticky významná závislost.
2. Stanovíme hladinu významnosti máme možnost vybrat si buď 0,05 X 0,01 0,05 (tj. na 95 % předpokládáme, že nastane situace v H )
3. Volíme vhodné testové kritérium Výpočet testového kritéria ² ² = [(P O)² : O] - P.. pozorované četnosti (tzv. ni) - O.. očekávané četnosti podle Ho
4. Výpočet testového kritéria Mechanicky Přes statistické programy Excell, SPSS, NCSS, STATISTICA,...
Doba 9-11 11-13 13-15 15-17 17-19 Pozorovaná četnost P Očekávaná četnost O
Doba Pozorovaná četnost P Očekávaná četnost O 9-11 36 11-13 40 13-15 27 15-17 39 17-19 46 = 188
Doba Pozorovaná četnost P Očekávaná četnost O 9-11 36 37,6 11-13 40 37,6 13-15 27 37,6 Ø 15-17 39 37,6 17-19 46 37,6 = 188 = 188
Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6 11-13 40 37,6 13-15 27 37,6 Ø 15-17 39 37,6 17-19 46 37,6 = 188 = 188
Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6 11-13 40 37,6 Ø -1,6 2,56 0,068 13-15 27 37,6 15-17 39 37,6 17-19 46 37,6 = 188 = 188
Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6-1,6 2,56 0,068 Ø 11-13 40 37,6 2,4 5,76 0,153 13-15 27 37,6-10,6 112,36 2,988 15-17 39 37,6 1,4 1,96 0,052 17-19 46 37,6 8,4 70,56 1,877 = 188 = 188
Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6-1,6 2,56 0,068 Ø 11-13 40 37,6 2,4 5,76 0,153 13-15 27 37,6-10,6 112,36 2,988 15-17 39 37,6 1,4 1,96 0,052 17-19 46 37,6 8,4 70,56 1,877 = 188 = 188 = 0 (vždy!) = 5,138
5. Nalezení kritické hodnoty v tabulkách kritických hodnot stupně volnosti příslušný stupeň volnosti. 4 (5 řádků v tabulce, tj. 5 1 = 4) Kritická hodnota: ²0,05 (4) = 9,483 popř. ²0,01 (4) = 13,277
6. Porovnání vypočítané hodnoty s kritickou hodnotou z tabulek vypočítaná hodnota je 5,138 kritická hodnota z tabulek je pro hladinu význ. 0,05 a 4 stupně volnosti = 9,483 5,138 9,483
Závěr Ho nelze odmítnout, proto nelze ze zjištěných údajů vyvozovat, že by zákazníci v průběhu dne přicházeli nerovnoměrně. Na 0,05 hladině významnosti přijímáme Ho
Jak se to píše do DP?! Tento výpočet dát do příloh Postupujeme podle bodů, ale ve větách, jako souvislý text (v DP) stanoví se hypotézy Ho a HA + zdůvodní se zařadí se tabulka pozorovaných četností následně komentář s uvedením údajů o zvolené hladině významnosti, vypočítané hodnotě ², kritické hodnotě z tabulek, jejich porovnání závěr k příslušné hypotéze přijímám Ho nebo HA
Příklad č. 2 - Seskupení údajů Doba 9-11 11-13 13-15 15-17 17-19 Počet 36 40 27 39 46 Doba 9 11 13-15 11 13 15-19 Počet 63 125
Postup podle bodů 1. Formulace hypotéz 2. Stanovení hladiny významnosti 3. Volba testového kritéria 4. Výpočet testového kritéria
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15 17 17-19
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 63 13-15 11-13 125 15-19 = 188
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2 Ø 125 112,8 = 188 = 188
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2 Ø 125 112,8 = 188 = 188-12,2 148,84 1,9792553
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2-12,2 148,84 1,9792553 Ø 125 112,8 12,2 148,84 1,3195035 = 188 = 188
Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2-12,2 148,84 1,9792553 Ø 125 112,8 12,2 148,84 1,3195035 = 188 = 188 = 0 = 3,2987588
5. Nalezení kritické hodnoty v tabulkách příslušný stupeň volnosti. 1 (2 řádky v tabulce, tj. 2 1 = 1) ² 0,05(1) = 3,841 6. Porovnání vypočítané a kritické hodnoty vypočítaná hodnota je 3,2987588 3,2987588 3,841
Závěr Musíme opět přijmout H, že zákazníci v průběhu dne přicházejí rovnoměrně. Vhodným seskupením v tabulce lze docílit různých výsledků Takovéto sdružování je možné pouze v důsledku logického řešení problému a ne spekulací!
Příklad č. 3 - Test dobré shody ² pro kontingenční tabulku Ověřte na 5 % hladině významnosti předpoklad, že podávání určitého léku zkracuje dobu léčení nemoci na základě získaných údajů u 174 pacientů: Do 7 dnů lék bralo 67 /nebralo 18 pacientů Mezi 7-10 dny bralo lék 22 / nebralo 25 Nad 10 dnů bralo lék 14 pacientů
Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 7 10 dnů 22 25 nad 10 dnů 14
Řešení: 1. Vytvoření hypotéz Ho: Neexistuje vztah mezi dobou nemoci braním léků. HA: Rozdíly nejsou způsobeny náhodou a existuje závislost mezi dobu nemoci a braním léků. 2. Stanovení hladiny významnosti 3. Volba vhodného testového kritéria 4. Výpočet testového kritéria
Sestavení tzv. kontingenční tabulky Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 7 10 dnů 22 25 nad 10 dnů 14 174
Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 103 174
Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 103 71 174
Doba nemoci Lék brali P Lék nebrali P Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 28 42 103 71 174
Doba nemoci Lék brali P / O Lék nebrali P / 0 Do 7 dnů 67 / 50,32= (103.85):174 18 / 85 7 10 dnů 22 / 25 / 47 nad 10 dnů 14 / 28 / 42 103 71 174
Doba nemoci Lék brali P / O Lék nebrali P / 0 Do 7 dnů 67 / 50,32 18 / 34,68 85 7 10 dnů 22 / 27,82 25 / 19,18 47 nad 10 dnů 14 / 24,86 28 / 17,14 42 103 71 174
4. Výpočet testového kritéria Pro každé pole tabulky vypočteme podle vzorce hodnoty ² a sečteme je ² = (67-50,32)²:50,32 + (18-34,68)²:34,68 + + (22-27,82)²:27,82 +...= = 5,529+8,023+1,218+1,766+4,744+6,881= = 28,161
5. Nalezení kritické hodnoty z tabulek zvolená hladina významnosti 0,05 příslušný stupeň volnosti f =? f = (ř-1). (s-1)... ř = řádky s = sloupce f = (3-1). (2-1) = 2. 1 = 2 kritická hodnota z tabulek je ² 0,05 (2) = 5,991
6. Porovnání hodnot vypočítaná hodnota je 28,161 kritická hodnota z tabulek je ² 0,05 (2) = 5,991 28,161 5,991 Zamítáme H a přijímáme Ha
Příklad č. 4 Test dobré shody pro čtyřpolní tabulku Při silniční kontrole byly u náhodně vybraných 200 vozidel zjišťovány závady na osvětlení a pneumatikách. Posuďte zda existuje závislost mezi závadami na pneumatikách a osvětlení. Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 12 NE 16 140
Řešení 1. Formulujeme hypotézy: Ho: Mezi závadami pneumatik a osvětlením není žádná souvislost. HA: Mezi závadami pneumatik a osvětlením existuje souvislost. 2. Stanovíme hladinu významnosti 3. Volíme vhodné testové kritérium
4. Výpočet testového kritéria Vzorec pro výpočet: ²= n. (A.D-B.C)² : (A+B).(A+C).(B+D).(D+C)
Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) NE 16 (C) 140 (D)
Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B NE 16 (C) 140 (D) 44
Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156
Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156 n = 200
Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156 A + C B + D n = 200 48 152
Výpočet: ²= n. (A.D-B.C)² : (A+B).(A+C).(B+D).(D+C) ² = 200.(32.140 12.16)² : 48.152.44.156 = = 200. 0,3672 = 73,431
5. Nalezení kritické hodnoty z tabulek zvolená hladina významnosti 0,05 příslušný stupeň volnosti f =? f = (ř-1). (s-1)... ř = řádky s = sloupce f = (2-1). (2-1) = 1. 1 = 1 kritická hodnota z tabulek je ² 0,05 (1) = 3,841
6. Porovnání a závěr vypočítaná hodnota je 73,431 kritická hodnota z tabulek je ² 0,05 (1) = 3,841 73,431 3,841 Odmítáme H a přijímáme Ha Stejný výsledek dostaneme i na hladině významnosti 0,01