Statistické metody uţívané při ověřování platnosti hypotéz



Podobné dokumenty
You created this PDF from an application that is not licensed to print to novapdf printer (

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Jana Vránová, 3. lékařská fakulta UK

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

KGG/STG Statistika pro geografy

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Testování hypotéz a měření asociace mezi proměnnými

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

12. cvičení z PST. 20. prosince 2017

Analýza dat z dotazníkových šetření

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

INDUKTIVNÍ STATISTIKA

= = 2368

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování statistických hypotéz

Testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

ADDS cviceni. Pavlina Kuranova

Cvičení ze statistiky - 9. Filip Děchtěrenko

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Neparametrické metody

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Návod na vypracování semestrálního projektu

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Tomáš Karel LS 2012/2013

Ing. Michael Rost, Ph.D.

Náhodné veličiny, náhodné chyby

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Statistické testování hypotéz II

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testování statistických hypotéz

STATISTICKÉ TESTY VÝZNAMNOSTI

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Pravděpodobnost a aplikovaná statistika

Jednostranné intervaly spolehlivosti

Testy statistických hypotéz

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Tomáš Karel LS 2012/2013

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

KGG/STG Statistika pro geografy

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Kontingenční tabulky, korelační koeficienty

Cvičení ze statistiky - 8. Filip Děchtěrenko

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Testy. Pavel Provinský. 19. listopadu 2013

ADDS cvičení 7. Pavlína Kuráňová

Přednáška X. Testování hypotéz o kvantitativních proměnných

TECHNICKÁ UNIVERZITA V LIBERCI

Testování statistických hypotéz. Obecný postup

Úvod do analýzy rozptylu

Technická univerzita v Liberci

15. T e s t o v á n í h y p o t é z

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Příklad: Test nezávislosti kategoriálních znaků

Kontingenční tabulky, korelační koeficienty

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testování hypotéz o parametrech regresního modelu

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

15. T e s t o v á n í h y p o t é z

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Testování hypotéz o parametrech regresního modelu

TECHNICKÁ UNIVERZITA V LIBERCI

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

2 ) 4, Φ 1 (1 0,005)

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Cvičení 9: Neparametrické úlohy o mediánech

Transkript:

Statistické metody uţívané při ověřování platnosti hypotéz

Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech,

Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy výzkumné otázky v kvalitativních šetřeních) statistické hypotézy nulové hypotézy alternativní hypotézy

Pracovní, věcná hypotéza dokázaná verifikací H: Pachateli trestných činů bývají většinou mladiství z rozvrácených (nefunkčních) rodin. Zdůvodnění hypotézy: Proč se to domnívám? Co mne k tomu vedlo nějaký jiný výzkum, autor, tradice, mé zkušenosti? Kolik to je většinou (více jak 50%)? Kdo je to mladistvý respondent? Jaká rodina bude považována za rozvrácenou? Původní nebo současná...

Nulová hypotéza H : Mezi pachateli trestných činů nejsou rozdíly co se týká funkčnosti jejich rodiny.

Hypotéza alternativní Ha: Mezi pachateli trestných činů a funkčností jejich rodin je statisticky významná závislost.

Příklady formulací hypotéz Pracovní H Statistická H alternativní Mezi pohlavím a fyzickou zdatností existuje statisticky významný vztah, souvislost. Nulová H Lidé, kteří často sledují televizi, málo čtou. Ţáci na 1.stupni ZŠ mají rádi matematiku. V kouření cigaret nejsou statisticky významné rozdíly mezi pohlavím.

Souvislost vazba mezi jevy statistické testy významnosti Těsnost vztahu korelace

Hladina významnosti pravděpodobnost, že nastane Ho symbol - alfa dvě hladiny významnosti 0,01 na 99 % předpokládám vztah z Ho 0,05 na 95 % předpokládám vztah z Ho

Druhy statistických testů významnosti parametrické X neparametrické jednostranné X oboustranné

Postup při ověřování hypotéz Formulace nulové a statistické hypotézy Volba hladiny významnosti Volba vhodného testového kritéria Výpočet testového kritéria Nalezení příslušné kritické hodnoty Porovnání výsledek testu s kritickou hodnotou - závěr

Interpretace výsledku testu významnosti vypočítaná hodnota test. kritéria hodnota kritická nastává situace, kterou jsme očekávali jen s velmi malou pravděpodobností (na 5% nebo 1%), usuzujeme z toho, že výsledky nejsou náhodné a stojí za tím působení určitého vlivu, Ho na zvolené hladině významnosti odmítáme a přijímáme HA, tvrdíme, že výsledek výzkumu je statisticky významný (signifikantní) vypočítaná hodnota test. kritéria < hodnota kritická tento výsledek jsme očekávali s velkou jistotou (na 95% nebo 99%), dosažené výsledky mohou být náhodné, nemusí za tím stát působení nějakého vlivu, Ho na zvolené hladině významnosti nezamítáme, to však neznamená, že je hypotéza správná, konstatujeme, že výsledek není statisticky významný.

Volba testového kritéria závisí na tom, zda porovnáváme závislost mezi jevy při : Nominálním měření - testy dobré shody chí-kvadrát různé varianty - Fischerův kombinatorický test Ordinálním měření Znaménkový test Wilcoxonův test U test Manna a Whitneyho U test pro velmi malé výběry (četnosti ve srovnávaných skupinách jsou menší než 8) U test pro větší skupiny (četnosti ve srovnávaných skupinách jsou do 20) U test při velkých četnostech Kolmogorovův Smirnovův test Kruskalův Wallisův test (je zobecněním U testu) Metrickém (intervalovém nebo poměrovém) měření Funkční a statistická závislost mezi jevy Regresní a korelační analýza Pearsonův koeficient korelace Bodová biseriální korelace Biseriální korelace Tetrachordický koeficient korelace Studentův t test Fisherův Snedecorův F - test Párový t test Princip analýzy rozptylu Jednoduchá analýza rozptylu, Duncanův test Dvoufaktorová analýza rozptylu

Příklad č.1 Test dobré shody chí-kvadrát ² V různých denních dobách byl sledován počet zákazníků přicházejících do obchodu. Lze na základě těchto dat učinit závěr, že zákazníci přicházejí v průběhu dne rovnoměrně? Doba 9-11 11-13 13-15 15-17 17-19 Počet 36 40 27 39 46

1. Formulujeme hypotézy H : Zákazníci přicházejí v průběhu dne rovnoměrně (rozdíly jsou způsobeny náhodou). Ha: Zákazníci v průběhu dne do prodejny rovnoměrně nepřicházejí. Existuje mezi dobou a počtem zákazníků statisticky významná závislost.

2. Stanovíme hladinu významnosti máme možnost vybrat si buď 0,05 X 0,01 0,05 (tj. na 95 % předpokládáme, že nastane situace v H )

3. Volíme vhodné testové kritérium Výpočet testového kritéria ² ² = [(P O)² : O] - P.. pozorované četnosti (tzv. ni) - O.. očekávané četnosti podle Ho

4. Výpočet testového kritéria Mechanicky Přes statistické programy Excell, SPSS, NCSS, STATISTICA,...

Doba 9-11 11-13 13-15 15-17 17-19 Pozorovaná četnost P Očekávaná četnost O

Doba Pozorovaná četnost P Očekávaná četnost O 9-11 36 11-13 40 13-15 27 15-17 39 17-19 46 = 188

Doba Pozorovaná četnost P Očekávaná četnost O 9-11 36 37,6 11-13 40 37,6 13-15 27 37,6 Ø 15-17 39 37,6 17-19 46 37,6 = 188 = 188

Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6 11-13 40 37,6 13-15 27 37,6 Ø 15-17 39 37,6 17-19 46 37,6 = 188 = 188

Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6 11-13 40 37,6 Ø -1,6 2,56 0,068 13-15 27 37,6 15-17 39 37,6 17-19 46 37,6 = 188 = 188

Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6-1,6 2,56 0,068 Ø 11-13 40 37,6 2,4 5,76 0,153 13-15 27 37,6-10,6 112,36 2,988 15-17 39 37,6 1,4 1,96 0,052 17-19 46 37,6 8,4 70,56 1,877 = 188 = 188

Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 36 37,6-1,6 2,56 0,068 Ø 11-13 40 37,6 2,4 5,76 0,153 13-15 27 37,6-10,6 112,36 2,988 15-17 39 37,6 1,4 1,96 0,052 17-19 46 37,6 8,4 70,56 1,877 = 188 = 188 = 0 (vždy!) = 5,138

5. Nalezení kritické hodnoty v tabulkách kritických hodnot stupně volnosti příslušný stupeň volnosti. 4 (5 řádků v tabulce, tj. 5 1 = 4) Kritická hodnota: ²0,05 (4) = 9,483 popř. ²0,01 (4) = 13,277

6. Porovnání vypočítané hodnoty s kritickou hodnotou z tabulek vypočítaná hodnota je 5,138 kritická hodnota z tabulek je pro hladinu význ. 0,05 a 4 stupně volnosti = 9,483 5,138 9,483

Závěr Ho nelze odmítnout, proto nelze ze zjištěných údajů vyvozovat, že by zákazníci v průběhu dne přicházeli nerovnoměrně. Na 0,05 hladině významnosti přijímáme Ho

Jak se to píše do DP?! Tento výpočet dát do příloh Postupujeme podle bodů, ale ve větách, jako souvislý text (v DP) stanoví se hypotézy Ho a HA + zdůvodní se zařadí se tabulka pozorovaných četností následně komentář s uvedením údajů o zvolené hladině významnosti, vypočítané hodnotě ², kritické hodnotě z tabulek, jejich porovnání závěr k příslušné hypotéze přijímám Ho nebo HA

Příklad č. 2 - Seskupení údajů Doba 9-11 11-13 13-15 15-17 17-19 Počet 36 40 27 39 46 Doba 9 11 13-15 11 13 15-19 Počet 63 125

Postup podle bodů 1. Formulace hypotéz 2. Stanovení hladiny významnosti 3. Volba testového kritéria 4. Výpočet testového kritéria

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15 17 17-19

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 63 13-15 11-13 125 15-19 = 188

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2 Ø 125 112,8 = 188 = 188

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2 Ø 125 112,8 = 188 = 188-12,2 148,84 1,9792553

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2-12,2 148,84 1,9792553 Ø 125 112,8 12,2 148,84 1,3195035 = 188 = 188

Rozdělení do časových pásem Doba Pozorovaná četnost P Očekávaná četnost O P - 0 (P O)² (P O)²:O 9-11 13-15 11-13 15-19 63 75,2-12,2 148,84 1,9792553 Ø 125 112,8 12,2 148,84 1,3195035 = 188 = 188 = 0 = 3,2987588

5. Nalezení kritické hodnoty v tabulkách příslušný stupeň volnosti. 1 (2 řádky v tabulce, tj. 2 1 = 1) ² 0,05(1) = 3,841 6. Porovnání vypočítané a kritické hodnoty vypočítaná hodnota je 3,2987588 3,2987588 3,841

Závěr Musíme opět přijmout H, že zákazníci v průběhu dne přicházejí rovnoměrně. Vhodným seskupením v tabulce lze docílit různých výsledků Takovéto sdružování je možné pouze v důsledku logického řešení problému a ne spekulací!

Příklad č. 3 - Test dobré shody ² pro kontingenční tabulku Ověřte na 5 % hladině významnosti předpoklad, že podávání určitého léku zkracuje dobu léčení nemoci na základě získaných údajů u 174 pacientů: Do 7 dnů lék bralo 67 /nebralo 18 pacientů Mezi 7-10 dny bralo lék 22 / nebralo 25 Nad 10 dnů bralo lék 14 pacientů

Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 7 10 dnů 22 25 nad 10 dnů 14

Řešení: 1. Vytvoření hypotéz Ho: Neexistuje vztah mezi dobou nemoci braním léků. HA: Rozdíly nejsou způsobeny náhodou a existuje závislost mezi dobu nemoci a braním léků. 2. Stanovení hladiny významnosti 3. Volba vhodného testového kritéria 4. Výpočet testového kritéria

Sestavení tzv. kontingenční tabulky Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 7 10 dnů 22 25 nad 10 dnů 14 174

Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 103 174

Doba nemoci Lék brali Lék nebrali Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 103 71 174

Doba nemoci Lék brali P Lék nebrali P Do 7 dnů 67 18 85 7 10 dnů 22 25 47 nad 10 dnů 14 28 42 103 71 174

Doba nemoci Lék brali P / O Lék nebrali P / 0 Do 7 dnů 67 / 50,32= (103.85):174 18 / 85 7 10 dnů 22 / 25 / 47 nad 10 dnů 14 / 28 / 42 103 71 174

Doba nemoci Lék brali P / O Lék nebrali P / 0 Do 7 dnů 67 / 50,32 18 / 34,68 85 7 10 dnů 22 / 27,82 25 / 19,18 47 nad 10 dnů 14 / 24,86 28 / 17,14 42 103 71 174

4. Výpočet testového kritéria Pro každé pole tabulky vypočteme podle vzorce hodnoty ² a sečteme je ² = (67-50,32)²:50,32 + (18-34,68)²:34,68 + + (22-27,82)²:27,82 +...= = 5,529+8,023+1,218+1,766+4,744+6,881= = 28,161

5. Nalezení kritické hodnoty z tabulek zvolená hladina významnosti 0,05 příslušný stupeň volnosti f =? f = (ř-1). (s-1)... ř = řádky s = sloupce f = (3-1). (2-1) = 2. 1 = 2 kritická hodnota z tabulek je ² 0,05 (2) = 5,991

6. Porovnání hodnot vypočítaná hodnota je 28,161 kritická hodnota z tabulek je ² 0,05 (2) = 5,991 28,161 5,991 Zamítáme H a přijímáme Ha

Příklad č. 4 Test dobré shody pro čtyřpolní tabulku Při silniční kontrole byly u náhodně vybraných 200 vozidel zjišťovány závady na osvětlení a pneumatikách. Posuďte zda existuje závislost mezi závadami na pneumatikách a osvětlení. Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 12 NE 16 140

Řešení 1. Formulujeme hypotézy: Ho: Mezi závadami pneumatik a osvětlením není žádná souvislost. HA: Mezi závadami pneumatik a osvětlením existuje souvislost. 2. Stanovíme hladinu významnosti 3. Volíme vhodné testové kritérium

4. Výpočet testového kritéria Vzorec pro výpočet: ²= n. (A.D-B.C)² : (A+B).(A+C).(B+D).(D+C)

Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) NE 16 (C) 140 (D)

Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B NE 16 (C) 140 (D) 44

Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156

Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156 n = 200

Závady na pneumatikách Závady na osvětlení ANO NE ANO 32 (A) 12 (B) A + B 44 NE 16 (C) 140 (D) C + D 156 A + C B + D n = 200 48 152

Výpočet: ²= n. (A.D-B.C)² : (A+B).(A+C).(B+D).(D+C) ² = 200.(32.140 12.16)² : 48.152.44.156 = = 200. 0,3672 = 73,431

5. Nalezení kritické hodnoty z tabulek zvolená hladina významnosti 0,05 příslušný stupeň volnosti f =? f = (ř-1). (s-1)... ř = řádky s = sloupce f = (2-1). (2-1) = 1. 1 = 1 kritická hodnota z tabulek je ² 0,05 (1) = 3,841

6. Porovnání a závěr vypočítaná hodnota je 73,431 kritická hodnota z tabulek je ² 0,05 (1) = 3,841 73,431 3,841 Odmítáme H a přijímáme Ha Stejný výsledek dostaneme i na hladině významnosti 0,01