Statistika, Biostatistika pro kombinované studium. Jan Kracík

Podobné dokumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Jednofaktorová analýza rozptylu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Testování statistických hypotéz

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška IX. Analýza rozptylu (ANOVA)

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testy statistických hypotéz

KGG/STG Statistika pro geografy

7. Analýza rozptylu.

Ing. Michael Rost, Ph.D.

12. cvičení z PST. 20. prosince 2017

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Úvod do analýzy rozptylu

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

ADDS cviceni. Pavlina Kuranova

Jednofaktorová analýza rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testy. Pavel Provinský. 19. listopadu 2013

= = 2368

Statistická analýza jednorozměrných dat

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Návod na vypracování semestrálního projektu

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

15. T e s t o v á n í h y p o t é z

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Stručný úvod do testování statistických hypotéz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

15. T e s t o v á n í h y p o t é z

Charakteristika datového souboru

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a aplikovaná statistika

Jednostranné intervaly spolehlivosti

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

5. T e s t o v á n í h y p o t é z

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Vzorová prezentace do předmětu Statistika

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

4ST201 STATISTIKA CVIČENÍ Č. 7

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování statistických hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Testování statistických hypotéz. Obecný postup

STATISTICA Téma 7. Testy na základě více než 2 výběrů

4EK211 Základy ekonometrie

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Náhodné veličiny, náhodné chyby

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Aproximace binomického rozdělení normálním

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

STATISTICKÉ HYPOTÉZY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Design Experimentu a Statistika - AGA46E

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Normální (Gaussovo) rozdělení

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

PRAVDĚPODOBNOST A STATISTIKA

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Vybrané partie z biostatistiky

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Normální (Gaussovo) rozdělení

Zápočtová práce STATISTIKA I

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

You created this PDF from an application that is not licensed to print to novapdf printer (

STATISTICKÉ TESTY VÝZNAMNOSTI

KGG/STG Statistika pro geografy

12. prosince n pro n = n = 30 = S X

Příklady na testy hypotéz o parametrech normálního rozdělení

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

5 Parametrické testy hypotéz

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz

Obsah: Testování hypotéz opakování ANOVA

Testování hypotéz (opakování)

Testování hypotéz základní princip, klasický test Předpoklad: rozdělení náhodné veličiny X závisí na neznámém parametru θ.

Testování hypotéz základní princip, klasický test Předpoklad: rozdělení náhodné veličiny X závisí na neznámém parametru θ. Hypotéza (tvrzení o rozdělení n.v. X, tj. tvrzení o parametru θ): H 0 (nulová hypotéza): θ = θ 0 H 1 (alternativní hypotéza): θ = θ 1

Testování hypotéz základní princip, klasický test Předpoklad: rozdělení náhodné veličiny X závisí na neznámém parametru θ. Hypotéza (tvrzení o rozdělení n.v. X, tj. tvrzení o parametru θ): H 0 (nulová hypotéza): θ = θ 0 H 1 (alternativní hypotéza): θ = θ 1 Hledáme množinu W (kritický obor). Pokud X W (hodnota n.v. X padne do množiny W ), pak zamítáme H 0. Kritický obor W hledáme tak, aby P θ0 (X W ) = α, pro zvolené α R (typicky α = 0.05). Tj. pravděpodobnost chyby 1. druhu (H 0 zamítáme, i když platí) je rovna α. Zároveň chceme, aby P θ1 (X / W ) (pravděpodobnost chyby 2. druhu) byla minimální.

V praxi bývá situace složitější. Např: X (X 1, X 2,..., X n ), kde X i jsou nezávsilé stejně rozdělené veličiny, tj. X představuje posloupnost dat (měření, pozorování,...). Místo náhodné veličiny (vektoru) X pracujeme pouze s určitou (reálnou) funkcí T (X), tzv. testovou statistikou. T (X) může ale nemusí nést stejnou informaci o parametru θ jako vektor X. Kritický obor W pak hledáme pro hodnoty statistiky T (X). Místo jednoduché hypotézy θ = θ 0 můžeme pracovat s tzv. složenou hypotézou např. H 0 : θ Θ 0. Alternativou pak je H 1 : θ / Θ 0. Vícevýběrové testy: Hypotéza se současně týká rozdělení několika veličin. Základní princip testování ale zůstává stejný.

Čistý test významnosti (pomocí p-hodnoty) 1 Formulace nulové a alternativní hypotézy. 2 Volba testové statistiky T (X). 3 Ověření předpokladů testu. 4 Výpočet pozorované hodnoty testové statistiky x OBS. 5 Výpočet p-hodnoty, tj. pravděpodobnosti alespoň tak extrémního výsledku jako x OBS za předpokladu nulové hypotézy.

tvar H 1 p-hodnota θ θ 0 p-hodnota = F 0 (x OBS ) θ θ 0 p-hodnota = 1 F 0 (x OBS ) θ θ 0 p-hodnota = 2min(F(x OBS ), 1 F 0 (x OBS )) Rozhodnutí o výsledku testu: p-hodnota Rozhodnutí p-hodnota < α Zamítáme H 0 ve prospěch H 1 p-hodnota > α Nezamítáme H 0 Výhodou čistého testu významnosti je, že rovnou vidíme, na jaké hladině významnosti lze ještě rozhodnout o zamítnutí H 0. Tento typ testu se v praxi používá častěji. Bývá výstupem statistického software.

Příklad 11 selat bylo náhodně rozděleno do 2 skupin. Selata v první skupině byla krmena dietou A, selata v 2. sk. dietou B. Průměrné denní přírůstky váhy jsou uvedeny v tabulce. Jsou obě diety stejně efektivní? Dieta A 62 54 55 60 53 58 Dieta B 52 56 49 50 51

Příklad 11 selat bylo náhodně rozděleno do 2 skupin. Selata v první skupině byla krmena dietou A, selata v 2. sk. dietou B. Průměrné denní přírůstky váhy jsou uvedeny v tabulce. Jsou obě diety stejně efektivní? Dieta A 62 54 55 60 53 58 Dieta B 52 56 49 50 51 Pracovní předpoklad: veličiny mají normální rozdělení se stejnými rozptyly. Dále můžeme předpokládat nezávislost. Denní přírůstky tedy mají rozdělení X A N(µ A, σ 2 ), X B N(x B, σ 2 ). µ A, µ B, σ 2 jsou neznámé parametry.

H 0 : µ A = µ B H 1 : µ A µ B Za daných předpokladů (normalita, nezávislost, stejné rozptyly) má statistika T = X A X B (µ A µ B ) mn(m + n 2), (m 1)SA 2 + (n 1)S2 m + n B kde m = 6, n = 5 (počty pozorování), X A = 1 m m i=1 X Ai = 57 (výběrový průměr), S 2 A = 1 m 1 m i=1 (X Ai X A ) 2 = 12.8, podobně X B = 51.6, S 2 B = 7.3, Studentovo rozdělení s m + n 2 = 9 stupni volnosti, tj. T t 9.

Za předpokladu platnosti H 0 (tj. µ A µ B = 0) dostaneme po dosazení výběrových charakteristik hodnotu statistiky T = 2.7712. Při oboustranné alternativě (H 1 : µ A µ B ) a nulovém rozdělení t 9 dostaneme p-value=0.022. Protože 0.022<0.05, zamítáme hypotézu H 0 na hladině významnosti 0.05. Můžeme učinit závěr, že volba diety má vliv na váhový přírůstek selat.

ANOVA - jednofaktorová analýza rozptylu

ANOVA - umožňuje srovnávat několik středních hodnot nezávislých náhodných výběrů současně

Příklad: 100 selat rozdělíme do 10 skupin, selata v každé skupině krmíme jinou dietou. Má volba diety vliv na váhový přírůstek? H 0 : µ 1 = µ 2 =... = µ 10 H 1 : H 0 neplatí Můžeme provést test pro každou dvojici skupin. Dvojic je ( 10 2 ) = 45. Uvažujme klasické dvouvýběrové Studentovy testy na hladině α = 0.05. Platí-li H 0, pak u každého testu zamítáme H 0 : µ i = µ j s pravděpodobností 0.05. S pravděpodobností 1 0.95 45 =0.9 zamítneme alespoň jednu dílčí hypotézu H 0 a tedy i celou H 0. Závěr: Rovnost středních hodnot (homogenitu) nelze testovat po částech. Je potřeba ji otestovat najednou jediným testem.

ANOVA - předpokládáme několik nezávislých náhodných výběrů z normálních rozdělení se stejnými rozptyly (homoskedasticita) X 11, X 12,..., X 1n1 N(µ 1, σ 2 ) X 21, X 22,..., X 2n2 N(µ 2, σ 2 ). X k1, X k2,..., X knk N(µ k, σ 2 ) Formulace problému: H 0 : µ 1 = µ 2 =... = µ k H 1 : H 0 neplatí

Rozdíly v datech mohou mít 2 příčiny: Rozdíly mezi třídami (vliv sledovaného faktoru) Rozdíly uvnitř tříd (zbytkové vlivy)

Rozdíly v datech mohou mít 2 příčiny: Rozdíly mezi třídami (vliv sledovaného faktoru) Rozdíly uvnitř tříd (zbytkové vlivy) ANOVA je založena na použití statistiky, která umožní srovnání těchto dvou zdrojů variability dat.

Značení: n = k i=1 n i (celkový počet dat) X i = 1 ni n i j=1 X ij (průměr v i-té třídě) X = 1 k ni n i=1 j=1 X ij (celkový průměr) SS B = k i=1 n i( X i X) 2 (mezitřídní variabilita) SS W = k i=1 ni SS TOTAL = k i=1 j=1 (X ij X i ) 2 (vnitřní variabilita) ni j=1 (X ij X) 2 (celková variabilita) Platí: SS TOTAL = SS B + SS W

Označme ještě výběrové rozptyly: S 2 W = SS W n k (vnitřní výběrový rozptyl) SB 2 = SS B k 1 (mezitřídní výběrový rozptyl) Statistiku F = S2 B S 2 W nazveme F-poměr.

Označme ještě výběrové rozptyly: S 2 W = SS W n k (vnitřní výběrový rozptyl) SB 2 = SS B k 1 (mezitřídní výběrový rozptyl) Statistiku F = S2 B S 2 W Vlastnosti F-poměru: nazveme F-poměr. Platí-li H 0, je F-poměr blízký 1. Neplatí-li H 0, je F-poměr výrazně větší než 1. F-poměr má Fisherovo-Snedecorovo rozdělení s k 1 stupni volnosi v čitateli a n k st. volnosti ve jmenovateli. F F k 1,n k. Toho využíváme při testování hypotéz.

Tabulka ANOVA - mezivýsledky při analýze rozptylu se zaznamenávají v taulce ANOVA Zdroj Součet čtverců St. Rozptyl Testová P-value variability volnosti stat. Mezitřídní SS B = k i=1 n i ( X i X) 2 k 1 S 2 B = SS B k 1 Vnitřní Celkový SS W = k n i i=1 j=1 (X ij X i ) 2 n k SW 2 = SS W n k SS TOTAL = k n i i=1 j=1 (X ij X) 2 n 1 F = S2 B S 2 W 1 F k 1,n k (F )

Post Hoc analýza Pokud H 0 nezamítáme, znamená to, že data neukazují na rozdílnost středních hodnot. Zamítneme-li H 0, je potřeba určit, které výběry se od sebe liší. Tento proces nazýváme post hoc analýza. Spočívá v porovnání výběrových průměrů, tj. testování hypotéz H 0 : µ i = µ j proti alternativám H 1 : µ i µ j.

Post Hoc analýza Pokud H 0 nezamítáme, znamená to, že data neukazují na rozdílnost středních hodnot. Zamítneme-li H 0, je potřeba určit, které výběry se od sebe liší. Tento proces nazýváme post hoc analýza. Spočívá v porovnání výběrových průměrů, tj. testování hypotéz H 0 : µ i = µ j proti alternativám H 1 : µ i µ j. Fisherova LSD metoda (Least Significant Difference) - modifikovaný dvouvýběrový t-test: H 0 zamítneme na hladině α, pokud X i X j t n k (1 α 2 ) S 2 W ( 1 n i + 1 n j )

Fisherova metoda vede s rosoucím počtem skupin k vyšší pravděpodobnosti chyby 1. druhu. Tomu lze zabránit použitím Bonferroniho metody, kdy místo α volíme α = α ( k 2).

Fisherova metoda vede s rosoucím počtem skupin k vyšší pravděpodobnosti chyby 1. druhu. Tomu lze zabránit použitím Bonferroniho metody, kdy místo α volíme α = α ( k 2). Existují další metody: Sheffého, Tukeyova (pro vyvážené třídění), Tukeyova HSD (pro nevyvážené třídění),...

Kruskal-Wallisův test neparametrická obdoba jednofaktorové analýzy rozptylu pro výběry nesplňující předpoklady pro použití jednofaktorové analýzy rozptylu, zejména předpoklad normality jde o vícevýběrový test shody mediánů založen na pořadí původních datových hodnot v setříděném datovém souboru testová statistika: Q = 12 n(n + 1) k i=1 T 2 i n i 3(N + 1) χ 2 k 1, kde T i jsou součty pořadí dat v jednotlivých výběrech v setříděném souboru

Posthoc anlýza pro Kruskal-Wallisův test Neményiova metoda (pro vyvážené třídění) Dunnové metoda

Shrnutí - postup při analýze rozptylu Exporační analýza - vizualizace dat, identifikace odlehlých pozorování Ověření předpokladů Nezávislost výběrů Normalita rozdělení - při porušení normality Kruskal-Wallisův test Homoskedasticita (identické rozptyly) - Bartletův, Leveneův; pro vyvážená třídění Hartleyův, Cochranův Post hoc analýza - Tukeyova HSD metoda, Fisherovo LSD, Bonferroniho metoda; při použití Kruskal-Wallisova testu Dunnové, Neméneyiova metoda