Stručný úvod do testování statistických hypotéz

Podobné dokumenty
Testování statistických hypotéz

Testy statistických hypotéz

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Neparametrické metody

Neparametrické testy

PRAVDĚPODOBNOST A STATISTIKA

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování statistických hypotéz

Ing. Michael Rost, Ph.D.

Charakteristika datového souboru

Zápočtová práce STATISTIKA I

= = 2368

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování statistických hypotéz

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování statistických hypotéz. Obecný postup

Testování hypotéz. 4. přednáška

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Regresní a korelační analýza

Náhodné veličiny, náhodné chyby

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

4EK211 Základy ekonometrie

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

12. cvičení z PST. 20. prosince 2017

5. T e s t o v á n í h y p o t é z

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

15. T e s t o v á n í h y p o t é z

STATISTICKÉ HYPOTÉZY

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testy. Pavel Provinský. 19. listopadu 2013

Aproximace binomického rozdělení normálním

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

15. T e s t o v á n í h y p o t é z

Regresní a korelační analýza

STATISTICKÉ TESTY VÝZNAMNOSTI

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Pravděpodobnost a aplikovaná statistika

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

12. prosince n pro n = n = 30 = S X

Úvod do analýzy rozptylu

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

STATISTICKÉ ODHADY Odhady populačních charakteristik

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednofaktorová analýza rozptylu

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Příklady na testy hypotéz o parametrech normálního rozdělení

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

2 ) 4, Φ 1 (1 0,005)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Základní statistické metody v rizikovém inženýrství

Průzkumová analýza dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

7. Analýza rozptylu.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Přednáška X. Testování hypotéz o kvantitativních proměnných

Porovnání dvou výběrů

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Jednofaktorová analýza rozptylu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Ranní úvahy o statistice

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Transkript:

Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit. Jedná se o riziko, že zamítneme hypotézu, která je ve skutečnosti správná. 3. Spočítáme příslušné testovací kritérium a porovnáme ho s příslušnou kritickou hodnotou. 4. Nulovou hypotézu buď nezamítneme (testovací kritérium je menší než kritická hodnota) nebo zamítneme (testovací kritérium je větší než kritická hodnota).

Chyba 1. a 2. druhu Vždy existuje riziko, že naše tvrzení nebude v souladu se skutečností, tedy že buď zamítneme hypotézu, která ve skutečnosti platí takovou chybu označme α (tzv. chyba 1. druhu), nebo že nezamítneme hypotézu, která ve skutečnosti neplatí takovou chybu označme β (tzv. chyba 2. druhu). Zmenšení α vede za jinak nezměněných podmínek ke zvětšení β a naopak. Hodnotu α volíme nejčastěji 0,05; 0,01; 0,005; 0,001 (pro jiné riziko nemáme většinou k dispozici kritické hodnoty). Když hypotézu zamítneme, znamená to, že téměř jistě (s pravděpodobností 1 α) neplatí.

Stručný úvod do testování statistických hypotéz

Stručný úvod do testování statistických hypotéz Chceme testovat podle výšky, zda neznámá osoba je muž. Muži mají m=180 cm, s=5 cm; ženy m=170 cm, s=5 cm. Nulová hypotéza: Osoba je žena. Jakou výšku musíme požadovat na hladině významnosti 0.05 (5 % riziko, že řekneme, že je to muž a bude to žena)? Jakou výšku musíme požadovat na hladině významnosti 0.01? Jaká je pravděpodobnost chyby 2. druhu? Jaká je síla testu?

Stručný úvod do testování statistických hypotéz Muži jsou modře, ženy červeně; distribuční funkce je plnou čarou, hustota pravděpodobnosti čárkovaně.

Grubbsův test odlehlých hodnot Jako míra odlehlosti hodnoty slouží její vzdálenost od aritmetického průměru výběru dat s normálním rozdělením, vztažená k výběrové směrodatné odchylce. Testovací statistika má tvar (Meloun & Militký, 2013) T = x ext ^μ σ Je-li T větší než kritická hodnota T N,a, vyloučíme testovanou hodnotu ze souboru. Poznámky: 1. Testujeme jednu hodnotu, která je nejvzdálenější od průměru X ext. 2. V literatuře existují i varianty testující současně minimální i maximální hodnotu, případně používající nevýběrovou směrodatnou odchylku. Tyto varianty používají jiné kritické hodnoty. Kritické hodnoty Grubbsova T-rozdělení (a = 0,05 a 0,01) N 3 4 5 7 10 15 20 30 50 70 100 200 T N,0,05 0,94 1,28 1,53 1,87 2,17 2,46 2,64 2,86 3,10 3,23 3,37 3,60 T N,0,01 0,94 1,30 1,58 1,98 2,35 2,71 2,92 3,18 3,45 3,60 3,74 3,97 Meloun, M., Militký, J. (2013). Kompendium statstckého zpracování dat. Praha: Karolinum.

Test střední hodnoty normálního rozdělení Na začátku předpokládáme, že střední hodnota souboru s normálním rozdělením, ze kterého byl proveden výběr, je m 0. Testovací kritérium: t = 0 kde a jsou výběrová střední hodnota a její výběrová směrodatná odchylka. Kritickou hodnotou t 1-α (N-1) jsou kvantily Studentova rozdělení s N-1 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =TINV(α,N-1).

Test střední hodnoty normálního rozdělení Hodnoty: 5.34; 4.03; 5.94; 3.24; 5.21; 5.07; 4.31; 7.47; 6.81; 4.59. m = 5,20 s = 1,28 s m = 0,40 m 0 = 6,00 t = 0 t = 2,00 t krit (a=0,05) = 2,26.

Test rovnosti dvou středních hodnot normálního rozdělení Na začátku předpokládáme, že střední hodnoty dvou souborů s normálním rozdělením, ze kterých byl proveden výběr, se rovnají.. Testovací kritérium: t = 1 2 2 1 2 2 N 1 N 2 kde 1 a 1 resp. 2 a 2 jsou výběrová střední hodnota a výběrová směrodatná odchylka 1. souboru resp. 2. souboru. Kritickou hodnotou t 1-α (N 1 +N 2-2) jsou kvantily Studentova rozdělení s N 1 +N 2-2 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =TINV(α, N 1 +N 2-2).

Test rozdílu dvou středních hodnot normálního rozdělení Hodnoty: 1. sada: 7.42; 5.43; 5.88; 6.53; 7.71; 5.72; 5.77; 4.89; 5.65; 5.92. 2. sada: 4.79; 4.87; 5.60; 4.58; 6.59; 4.55; 3.71; 3.85; 3.46; 5.36. m 1 = 6,09 s 1 = 0,88 s m1 = 0,28 t = 3,31 t krit (a=0,01) = 2,88. m 2 = 4,74 s 2 = 0,95 s m2 = 0,30 t = 1 2 2 1 2 N 1 2 N 2

Test rozdílu dvou středních hodnot pro párové hodnoty Předpokládejme, že testujeme účinky preparátu na zlepšení paměti. Pokusné osoby nejdříve absolvovaly test paměti, pak dostaly preparát a absolvovaly test paměti ještě jednou. Pro testování bychom mohli použít test rozdílu dvou středních hodnot z minulé kapitoly. Lze však očekávat, že výsledky testu budou mít velkou variabilitu, která může překrýt případné malé zlepšení. Nabízí se proto možnost spočítat pro každou osobu rozdíl obou testů paměti a testovat, zda je střední rozdíl mezi testy nulový nebo různý od nuly.

Orientační test normality Pro rychlou orientaci, jestli má výběrový soubor normální rozdělení, lze porovnat průměr a medián. U souboru hodnot s normálním rozdělením by se obě veličiny neměly lišit o víc než desetinu: 0,9 1,1 x 0,50 kde m je průměr a x 0,50 medián výběrového souboru. Tímto testem vlastně ověřujeme, jestli rozdělení není příliš šikmé. Diskuse o normalitě výběrového souboru má smysl pouze pokud je soubor dostatečně velký - máme-li méně než 10 hodnot, nelze z nich o rozdělení říct téměř nic. Rozumný počet hodnot je větší než 100, lépe větší než 200.

Test normality Normální rozdělení má nulovou šikmost i špičatost. Při testování normality tedy budeme testovat nulové hypotézy že šikmost a špičatost jsou nulové. a 3 je šikmost, a 3 * je šikmost podle Excelu a 4 je špičatost, a 4 * je špičatost podle Excelu Testovací kritérium pro šikmost a 3 u 3 = 6 N 2 N 1 N 3 Testovací kritérium pro špičatost a 4 6 N 1 u 4 = = 24 N N 2 N 3 N 1 2 N 3 N 5 = N 1 N 2 N 3 N N 1 a 3 * N 2 N 3 N 3 N 5 24 N N 2 1 a 4 *

Test normality Nulovou hypotézu, že šikmost je nulová (a 3 = 0) resp. špičatost je nulová (a 4 = 0) zamítáme v případě, že u 3 > u 1-α,0.05 resp. u 4 > u 1-α,0.05, kde u 1-α,0.05 jsou kvantily normálního rozdělení N(0, 1) pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =NORMINV(1-α/2; 0; 1).

Kritické hodnoty šikmosti a špičatosti N a = 0,05 a = 0,01 a 3 a 3 * a 4 a 4 * a 3 a 3 * a 4 a 4 * 20 0.927 1.004 1.206 1.984 1.218 1.319 1.675 2.595 30 0.794 0.837 1.179 1.648 1.044 1.100 1.610 2.162 40 0.705 0.733 1.116 1.444 0.926 0.963 1.513 1.896 50 0.640 0.660 1.054 1.303 0.841 0.867 1.422 1.710 70 0.550 0.562 0.948 1.113 0.723 0.739 1.272 1.461 100 0.466 0.473 0.832 0.939 0.612 0.622 1.122 1.233 150 0.384 0.388 0.706 0.772 0.505 0.510 0.941 1.014 200 0.334 0.337 0.624 0.671 0.440 0.443 0.830 0.882 250 0.300 0.302 0.565 0.602 0.394 0.397 0.751 0.791 300 0.274 0.276 0.521 0.550 0.361 0.362 0.691 0.723 400 0.238 0.239 0.456 0.477 0.313 0.314 0.604 0.627 500 0.213 0.214 0.411 0.427 0.280 0.281 0.544 0.562 700 0.181 0.181 0.350 0.362 0.237 0.238 0.463 0.475 1000 0.151 0.152 0.295 0.303 0.199 0.199 0.390 0.398 2000 0.107 0.107 0.211 0.214 0.141 0.141 0.278 0.282 3000 0.088 0.088 0.173 0.175 0.115 0.115 0.230 0.230 4000 0.076 0.076 0.150 0.152 0.100 0.100 0.198 0.199