Testy statistických hypotéz

Podobné dokumenty
Testování statistických hypotéz

Stručný úvod do testování statistických hypotéz

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Neparametrické testy

Neparametrické metody

PRAVDĚPODOBNOST A STATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování statistických hypotéz

Testování statistických hypotéz. Obecný postup

Statistika, Biostatistika pro kombinované studium. Jan Kracík

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz. 4. přednáška

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Testování statistických hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Ing. Michael Rost, Ph.D.

= = 2368

Charakteristika datového souboru

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

STATISTICKÉ HYPOTÉZY

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a aplikovaná statistika

Zápočtová práce STATISTIKA I

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Aproximace binomického rozdělení normálním

Cvičení ze statistiky - 8. Filip Děchtěrenko

4EK211 Základy ekonometrie

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Regresní a korelační analýza

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

STATISTICKÉ TESTY VÝZNAMNOSTI

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Náhodné veličiny, náhodné chyby

5. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z

Testy. Pavel Provinský. 19. listopadu 2013

Jednofaktorová analýza rozptylu

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

You created this PDF from an application that is not licensed to print to novapdf printer (

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Základní statistické metody v rizikovém inženýrství

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz Biolog Statistik: Matematik: Informatik:

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

15. T e s t o v á n í h y p o t é z

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

12. prosince n pro n = n = 30 = S X

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Přednáška IX. Analýza rozptylu (ANOVA)

Jana Vránová, 3. lékařská fakulta UK

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Cvičení ze statistiky - 9. Filip Děchtěrenko

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Porovnání dvou výběrů

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Statistická analýza jednorozměrných dat

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Přednáška VII. Úvod do testování hypotéz

Úvod do analýzy rozptylu

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Pearsonův korelační koeficient

Příklady na testy hypotéz o parametrech normálního rozdělení

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

STATISTICKÉ TESTY VÝZNAMNOSTI

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Průzkumová analýza dat

Jednofaktorová analýza rozptylu

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Ranní úvahy o statistice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Úvod do testování hypotéz

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

KGG/STG Statistika pro geografy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

KGG/STG Statistika pro geografy

Transkript:

Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit, zda základní soubor je či není ve shodě s testovanou hypotézou. (Meloun & Militký, 2013) Statistický test každému náhodnému výběru přiřadí jedno ze dvou rozhodnutí zamítnutí hypotézy nebo nezamítnutí hypotézy Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Chyba prvního a druhého druhu Vždy existuje riziko, že naše tvrzení nebude v souladu se skutečností, tedy že buď zamítneme hypotézu, která ve skutečnosti platí takovou chybu označme α (tzv. chyba 1. druhu nebo nezamítneme hypotézu, která ve skutečnosti neplatí takovou chybu označme β (tzv. chyba 2. druhu). Zmenšení α vede za jinak nezměněných podmínek ke zvětšení β a naopak. (Meloun & Militký, 2013) Hodnotu α volíme nejčastěji 0,05; 0,01; 0,005; 0,001. Když hypotézu zamítneme, znamená to, že téměř jistě (s pravděpodobností 1 α) neplatí. Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Testy statistických hypotéz postup Rozlišujeme nulovou hypotézu H 0 a alternativní hypotézu H 1. - o nulové hypotéze máme rozhodnout, zda ji zamítneme nebo nezamítneme (alternativní hypotézu přijmeme v případě, když zamítneme nulovou hypotézu) - nulová hypotéza vždy předpokládá, že pozorovaný jev je pouze dílem náhody (tzv. testování na nulu ) K ověření hypotézy slouží výběrová charakteristika (též statistika), která má při platnosti H 0 známé rozdělení pravděpodobnosti najdeme oblast hodnot, které se za předpokladu testované hypotézy vyskytnou jen s malou pravděpodobností tzv. kritický obor. Jestliže hodnota testovaného parametru padne do kritického oboru, nulovou hypotézu zamítneme a předpokládáme, že platí alternativní hypotéza. (Meloun & Militký, 2013) Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Testy jednostranné a oboustranné Mohou nastat tři případy formulace nulové a alternativní hypotézy: 1. H0: t t0, H1: t > t0, 2. H0: t t0, H1: t < t0, 3. H0: t = t0, H1: t t0. Pro jednoduchost budeme používat jen oboustranné testy (3.). Shrnutí postupu při testování: 1. Formulace nulové, resp. alternativní hypotézy (H 0, resp. H 1 ). 2. Volba hladiny významnosti α. 3. Nalezení vhodné výběrové charakteristiky, určení kritického oboru. 4. Výpočet testové charakteristikyna základě náhodného výběru. 5. Rozhodnutí. (Meloun & Militký, 2013) Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Test střední hodnoty normálního rozdělení H 0 : Střední hodnota souboru s normálním rozdělením, ze kterého byl proveden výběr, je m 0. H 1 : Střední hodnota souboru s normálním rozdělením, ze kterého byl proveden výběr, není m 0. Testovací kritérium: ^μ a^σ^μ t = 0...výběrová střední hodnota a její výběr. směrodatná odchylka Kritický obor: t > t 1-α (N-1) t 1-α (N-1)... kvantily Studentova rozdělení s N-1 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =T.INV.2T(α,N-1) (Lepš & Šmilauer, 2016) Lepš, J., Šmilauer, P. (2016). Biostatstka. České Budějovice: EPISTEME.

Test rovnosti dvou středních hodnot normálního rozdělení H 0 : Střední hodnoty dvou souborů s normálním rozdělením, ze kterých byl proveden výběr, se rovnají 1 = 2. H 1 : Střední hodnoty dvou souborů s normálním rozdělením, ze kterých byl proveden výběr, se nerovnají 1 2. Testovací kritérium: t = ^μ 1 ^μ 2 ^μ 1 a^σ 1 resp. ^μ 2 a^σ 2 Kritický obor: t > t 1-α (N 1 +N 2-2) 1 +^σ 2 ^σ N 1 N 2... výběr. střední hodnota a výběr. směrodatná odchylka jednoho měření 1. resp. 2. souboru t 1-α (N 1 +N 2-2) kvantily Studentova rozdělení s N 1 +N 2-2 stupni volnosti pro zvolenou hladinu významnosti a, =T.INV.2T(α,N 1 +N 2-2) 2 2 (Lepš & Šmilauer, 2016) Lepš, J., Šmilauer, P. (2016). Biostatstka. České Budějovice: EPISTEME.

Bonferonniho korekce Test rovnosti středních hodnot se používá pro srovnání dvou středních hodnot. Ale co v případě, že je hodnot třeba 5? Srovnáme-li každé dvě, tj. 10 testů rovnosti dvou středních hodnot. Je-li hladina významnosti p = 0,05, máme výraznou šanci, že některé rozdíly vyjdou falešně významné. Problém řeší Bonferonniho korekce - za významné nepovažujeme rozdíly, pro které t > t 1-α (N 1 +N 2-2), ale rozdíly, pro které t > t 1-α/n (N 1 +N 2-2), kde n je počet srovnávaných středních hodnot. (Lepš & Šmilauer, 2016) Jedná se spíš o nouzové řešení, lepší je použít ANOVA. Lepš, J., Šmilauer, P. (2016). Biostatstka. České Budějovice: EPISTEME.

Grubbsův test odlehlých hodnot pro normální rozdělení Jako míra odlehlosti hodnoty slouží její vzdálenost testované hodnoty od aritmetického průměru výběru dat, vztažená ke směrodatné odchylce (NE výběrové, ale směrodatné odchylce celého uvažovaného souboru). Testovací kritérium: T = x N i ^μ (x S i ^μ) 2,kde S = 1 N i=1 Je-li testovací kritérium T větší než kritická hodnota T N,a, vyloučíme testovanou hodnotu ze souboru. (Budíková et al.,2010) Kritické hodnoty Grubbsova T-rozdělení (pro a = 0,05 a 0,01) N 3 4 5 7 10 15 20 30 50 70 100 200 T N,0,05 1,15 1,48 1,72 2,02 2,29 2,55 2,71 2,91 3,13 3,26 3,38 3,61 T N,0,01 1,15 1,49 1,76 2,14 2,48 2,81 3,00 3,24 3,48 3,62 3,75 3,98 Budíková, M., Králová, M., Maroš, B. (2010). Průvodce základními statstckými metodami. Praha: GRADA

Test korelačního koeficientu H 0 : korelační koeficient je nulový (lineární závislost mezi x a y neexistuje) H 1 : korelační koeficient je nenulový (závislost mezi x a y existuje). Testovací kritérium: Kritický obor: t > t 1-α (N-2) t= r 1 r 2 N 2 t 1-α (N-2) jsou kvantily Studentova rozdělení s N-2 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =T.INV.2T(α,N-2) (Meloun & Militký, 2013) Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Test rovnosti dvou středních hodnot pro párové hodnoty Předpokládejme, že testujeme účinky preparátu na zlepšení paměti. Pokusné osoby nejdříve absolvovaly test paměti, pak dostaly preparát a absolvovaly test paměti ještě jednou. Pro testování bychom mohli použít test rovnosti dvou středních hodnot z minulé kapitoly. Lze však očekávat, že výsledky testu budou mít velkou variabilitu, která může překrýt případné malé zlepšení. Nabízí se proto možnost 1. spočítat pro každou osobu rozdíl obou testů paměti, 2. testovat, zda je střední hodnota rozdílů mezi testy nulová nebo různá od nuly (test střední hodnoty pro m 0 = 0). (Lepš & Šmilauer, 2016) Lepš, J., Šmilauer, P. (2016). Biostatstka. České Budějovice: EPISTEME.

Testy normality - orientační Pro rychlou orientaci, jestli má výběrový soubor normální rozdělení, lze porovnat průměr m a medián x 0,50. U souboru hodnot s normálním rozdělením by se obě veličiny neměly lišit o víc než desetinu, tj. 0,9< μ x 0,50 <1,1 Tímto testem vlastně ověřujeme, jestli rozdělení není příliš šikmé. (Lepš & Šmilauer, 2016) Diskuse o normalitě výběrového souboru má smysl pouze pokud je soubor dostatečně velký - máme-li méně než 10 hodnot, nelze z nich o rozdělení říct téměř nic. Rozumný počet hodnot je větší než 100, lépe větší než 200. Lepš, J., Šmilauer, P. (2016). Biostatstka. České Budějovice: EPISTEME.

Test normality - test šikmosti a špičatosti Normální rozdělení má nulovou šikmost i špičatost. H 0 : šikmost a špičatost jsou nulové. Označme: a 3 šikmost, a 3 * šikmost podle Excelu =SKEW Testovací kritérium pro šikmost a 3 u 3 = 6 N 2 N 1 N 3 Testovací kritérium pro špičatost a 4 špičatost, a 4 * špičatost podle Excelu =KURT = N 1 N 2 N 3 N N 1 a 3 * (Meloun & Militký, 2013) (Meloun & Militký, 2013) a 4 6 N 1 u 4 = 24 N N 2 N 3 N 1 2 N 3 N 5 = N 2 N 3 N 3 N 5 24 N N 2 1 a 4 * Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Test normality - test šikmosti a špičatosti Nulovou hypotézu, že šikmost je nulová (a 3 = 0) resp. špičatost je nulová (a 4 = 0), zamítáme v případě, že u 3 > u 1-α,0.05 resp. u 4 > u 1-α,0.05 u 1-α,0.05...kvantily normálního rozdělení N(0, 1) pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =NORMINV(1-α/2; 0; 1)

N Šikmost a špičatost kritické hodnoty a = 0,05 a = 0,01 a 3 a 3 * a 4 a 4 * a 3 a 3 * a 4 a 4 * 20 0.927 1.004 1.206 1.984 1.218 1.319 1.675 2.595 30 0.794 0.837 1.179 1.648 1.044 1.100 1.610 2.162 40 0.705 0.733 1.116 1.444 0.926 0.963 1.513 1.896 50 0.640 0.660 1.054 1.303 0.841 0.867 1.422 1.710 70 0.550 0.562 0.948 1.113 0.723 0.739 1.272 1.461 100 0.466 0.473 0.832 0.939 0.612 0.622 1.122 1.233 150 0.384 0.388 0.706 0.772 0.505 0.510 0.941 1.014 200 0.334 0.337 0.624 0.671 0.440 0.443 0.830 0.882 250 0.300 0.302 0.565 0.602 0.394 0.397 0.751 0.791 300 0.274 0.276 0.521 0.550 0.361 0.362 0.691 0.723 400 0.238 0.239 0.456 0.477 0.313 0.314 0.604 0.627 500 0.213 0.214 0.411 0.427 0.280 0.281 0.544 0.562 700 0.181 0.181 0.350 0.362 0.237 0.238 0.463 0.475 1000 0.151 0.152 0.295 0.303 0.199 0.199 0.390 0.398 2000 0.107 0.107 0.211 0.214 0.141 0.141 0.278 0.282 3000 0.088 0.088 0.173 0.175 0.115 0.115 0.230 0.230 4000 0.076 0.076 0.150 0.152 0.100 0.100 0.198 0.199