1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Podobné dokumenty
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Jednofaktorová analýza rozptylu

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Statistická analýza jednorozměrných dat

Úvod do analýzy rozptylu

KGG/STG Statistika pro geografy

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Jednofaktorová analýza rozptylu

Testování statistických hypotéz

7. Analýza rozptylu.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

ANALÝZA ROZPTYLU (ANOVA)

Testy statistických hypotéz

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

S E M E S T R Á L N Í

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Přednáška IX. Analýza rozptylu (ANOVA)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PRAVDĚPODOBNOST A STATISTIKA

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Testy. Pavel Provinský. 19. listopadu 2013

Ing. Michael Rost, Ph.D.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jana Vránová, 3. lékařská fakulta UK

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a aplikovaná statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

12. cvičení z PST. 20. prosince 2017

Stručný úvod do testování statistických hypotéz

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Jednostranné intervaly spolehlivosti

STATISTICKÉ TESTY VÝZNAMNOSTI

4ST201 STATISTIKA CVIČENÍ Č. 7

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Charakteristika datového souboru

Vzorová prezentace do předmětu Statistika

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

= = 2368

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

PRAVDĚPODOBNOST A STATISTIKA

Průzkumová analýza dat

Vysoká škola ekonomická v Praze

Návod na vypracování semestrálního projektu

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Regresní analýza. Eva Jarošová

, Brno Hanuš Vavrčík Základy statistiky ve vědě

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Základní statistické metody v rizikovém inženýrství

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Analýza rozptylu ANOVA

You created this PDF from an application that is not licensed to print to novapdf printer (

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Zápočtová práce STATISTIKA I

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Příklady na testy hypotéz o parametrech normálního rozdělení

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

ADDS cviceni. Pavlina Kuranova

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PYTHAGORAS Statistické zpracování experimentálních dat

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

15. T e s t o v á n í h y p o t é z

Vybrané partie z biostatistiky

Přednáška X. Testování hypotéz o kvantitativních proměnných

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Transkript:

Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě jako na zobecnění dvouvýběrového t testu pro k souborů. Klasický t-test v takovém případě nelze použít, nebot bychom se mohli dopustit s mnohem větší pravděpodobností chyby I. druhu a to tak, jak bychom zvětšovali počet porovnávaných skupin. Situaci lze zachytit v následující tabulce: Tabulka 1: Schéma výchozí situace číslo počet zjištěné hodnoty průměr rozptyl výběru prvků sledovaného znaku 1 n 1 y 11, y 12,, y 1j,, y 1n1 ȳ 1. s 2 1 2 n 2 y 21, y 22,, y 2j,, y 2n2 ȳ 2. s 2 2 i n i y i1, y i2,, y ij,, y ini ȳ i. s 2 i k n k y k1, y k2,, y kj,, y knk ȳ k. s 2 k V průběhu následujících výpočtů využijeme některé vzorce, definujme je tedy: Průměrná úroveň i-tého výběru: ȳ i. = 1 n i n i j=1 y ij. (1) Celkový počet pozorování: Celkový průměr: k n = n i. (2) ȳ.. = 1 k n i y ij. (3) n j=1 Předpoklady použití analýzy rozptylu Při aplikaci analýzy rozptylu je nutno zhodnotit, zda jsou splněny předpoklady pro její použití. Je nutné zajistit, např. vhodným uspořádáním pokusu, aby byly jednotlivé výběry navzájem nezávislé a pocházely z populací s normálním rozdělením. Dalším důležitým předpokladem pro využití analýzy rozptylu je shodnost rozptylů u jednotlivých výběrů. Předpoklad homoskedasticity se dá pochopitelně testovat. K tomuto účelu se využíval např. Bartlettův test. 1

Bartlettův test Bartlettův test je univerzálním testem v tom smyslu, že jej lze využít k hodnocení homoskedasticity u vyvážených i nevyvážených souborů. Bartlettův test využíváme tedy k testování hypotéz: H 0 : σ 2 1 = σ 2 2 = = σ 2 k, H A : non H 0. Testovým kritériem Bartlettova testu je veličina B, která je definována jako B = [(n k)ln s 2 k (n i 1)ln s 2 i ]/C, (4) mající za předpokladu platnosti H 0 a je-li n i 6, přibližně χ 2 (k 1). Testovanou hypotézu zamítáme pokud platí B χ 2 1 α(k 1). (5) Jednotlivé symboly využité při výpočtu testové statistiky lze definovat takto: celkový rozptyl jako s 2 i = 1 n i 1 n i j=1 s = 1 n 1 (y ij ȳ i. ) 2 i = 1,, k, (6) k n i (y ij ȳ i. ) 2, (7) j=1 a konstantu C C = 1 + ( k ) 1 n i 1 1 /3(k 1). (8) n k Bartlettův test je však poměrně slabý a dosti citlivý na porušení normality souborů. To může být velký problém především u souborů s malým počtem pozorování. Z tohoto důvodu se dnes spíše používá tzv. Levenův test. Hartleyův test pro testování homogenity k rozptylů Jak plyne z názvu testujeme hypotézu H 0 : σ 2 1 = σ 2 2 = = σ 2 k H A : non H 0. Pokud bychom testovali všechny dvojice rozptylů, bylo by jich k(k 1)/2. To si lze ověřit, nebot se lze logicky domnívat, že pokud zjistíme maximální a minimální hodnotu rozptylů (tedy identifikujeme max s 2 i a min s2 i ) pak nebude-li 2

se tato dvojice statisticky významně lišit, nebudou se lišit ani ostatní kombinace dvojic. Testovací statistika má v případě Hartleyova testu tvar Fmax = max s2 i min s 2 i. (9) Ke stanovení kritického oboru je nutno využít speciálně sestrojených tabulek, nebot testovaná dvojice rozptylů není náhodně zvolena. Nulovou hypotézu o shodě rozptylů zamítáme na hladině významnosti α, pokud testovací statistika Fmax překročí jistou kritickou hodnotu. Cochranův test pro testování homogenity k rozptylů Dalším testem pro ověření homoskedasticity je tzv. Cochranův test. V případě jeho použití zamítáme H 0, hypotézu pokud hodnota testového kritéria s 2 max C = s 2 1 + s2 2 +. + s2 k (10) překročí kritickou hodnotu Cochranovy statistiky. Jinými slovy, pokud hodnota C bude náležet do kritického oboru, který je definován jako zamítáme hypotézu o shodě rozptylů. K = {C C 1 α (k, n 1)}. Levenův test homogenity rozptylů Levenův test v podstatě provádí analýzu rozptylu na reziduích. Využívá přitom proměnnou z ij = y ij ȳ i. pro i = 1, 2,, k a j = 1, 2,, n i. F -statistika je následně porovnávána s kritickou hodnotou F -rozdělení s (k 1) a (n k) stupni volnosti. Pro jisté případy jsou navrženy i modifikace Levenova testu. V případě šikmosti souboru lze využít místo ȳ i. mediánu. V případě výrazné špičatosti souboru je pak místo ȳ i. doporučován 10 % ořezaný průměr. ANOVA Jednofaktorová analýza variance s pevnými efekty Pro další postup předpokládejme, že se jednotlivé výběry pocházejí z normálního rozdělení, jsou nezávislé a mají shodné rozptyly. Jinými slovy, nepodařilo se nám prokázat platnost alternativní hypotézy, tj. heteroskedasticity, některým z výše uvedených testů. Nulovou hypotézu lze zapsat, v případě jednofaktorové analýzy rozptylu s pevnými efekty, následovně: H 0 : µ 1 = µ 2 = = µ k, (11) H A : non H 0. Nebo ekvivalentně pomocí rovnice y i = µ + α i + ɛ i, (12) 3

testovanou hypotézou je pak shodnost efektů α i pro všech k úrovní. Pokud bychom chtěli interpretovat symboly v uvedené rovnici, pak symbol µ představuje průměrnou úroveň všech faktorů, symbol α i efekt i-tého faktoru. H 0 : α 1 = α 2 = = α k (13) Je nutné si uvědomit, že úrovně faktoru jsou nenáhodné, nebot jsou dány experimentátory. Příkladem může být ošetření pozemku určitou dávkou hnojiva, či různá reklamní kampaň. Rozklad celkové variability Celkovou variabilitu SS T lze rozdělit na dva sčítance, ty představují variabilitu meziskupinovou SS A a variabilitu vnitroskupinovou SS r 1. k n i (y ij ȳ.. ) 2 = j=1 } {{ } SS T SS T = SS A + SS r k n i (ȳ i. ȳ.. ) 2 + } {{ } SS A k n i (y ij ȳ i. ) 2 j=1 } {{ } SS r. (14) Proti testované hypotéze svědčí případy, ve kterých se statistiky výrazně liší od ȳ. Proto se při posuzování platnosti nulové hypotézy zajímáme o variabilitu mezi výběry. Zatímco variabilita uvnitř výběrů, tedy reziduální součet čtverců, nám umožňuje odhadnout rozptyl σ 2 a zároveň slouží jako míra velikosti rozdílu variability mezi výběry. Nulovou hypotézu pak zamítáme na zvolené hladině významnosti α, pokud testovací statistika F F = SS A/(k 1) (15) SS r /(n k) překročí příslušný kvantil Fischerova - Snedecorova rozdělení. Formálně zapsáno: F F 1 α (k 1, n k). (16) V podstatě je tato testovací statistika založena na poměru průměrných meziskupinových a vnitroskupinových součtů čtverců. Výsledky analýzy rozptylu se zapisují do tzv. tabulky analýzy rozptylu. Ta měla v minulosti svůj význam z hlediska výpočtů. V nejjednodušším případě má následující podobu, viz tabulka 2. Pro úplnost lze dodat, že pokud bychom měli pouze dva výběry, tj. k = 2 a 1 Složka SS T obsahuje při n pozorování n sčítanců. Ty nejsou zcela libovolné, nebot výrazy uvnitř závorek dají v součtu nulu. Z tohoto důvodu má součet celkové variability SS T právě n 1 stupňů volnosti. Těchto n 1 stupňů volnosti lze rozložit na dvě složky. První složkou jsou stupně volnosti f A příslušející meziskupinové variabilitě. Těch je k 1, nebot se zde sice vyskytuje k sčítanců, ale musí být dodržena podmínka k i = n i(ȳ i. ȳ.. ) = 0. Druhou složkou jsou tzv. reziduální stupně volnosti. Na ty logicky zůstává (n 1) (k 1) = n k stupňů volnosti. 4

Tabulka 2: Tabulka analýzy rozptylu Zdroj Součet Počet stupňů Průměrný F Dosažená čtverců volnosti čtverec hladina p Výběr SS A k 1 MSS A = SS A k 1 Reziduální SS r n k MSS r = SSr n k Celkový SS T n 1 F = MSS A MSS r p uplatnili bychom analýzu rozptylu, získali bychom identický výsledek, jako v případě použití klasického dvoustranného t-testu. Tímto postupem však nelze testovat jednostranné hypotézy, které t-testem studovat lze. Testy mnohonásobného srovnávání V případě nezamítnutí nulové hypotézy testování končí. Pokud však zamítáme H 0 ve prospěch H A, obvykle si klademe další otázky. Asi nás bude zajímat mezi kterými dvěma soubory existují statisticky významné rozdíly a jaká je tedy struktura nehomogenity středních hodnot. K těmto účelům slouží testy mnohonásobného srovnávání. Bonferroniho metoda mnohonásobného porovnání Bonferroniho metoda nám odpovídá na otázku proč byla zamítnuta nulová hypotéza při analýze rozptylu. Tato metoda považuje za různé ty skupiny, u nichž populační průměry, např. µ i a µ h, splňují následující nerovnici ȳ i. ȳ h. t α (n k) m ( SS r 1 + 1 ). (17) n k n i n h Symbol m zde představuje počet všech možných porovnávaných dvojic, tedy m = k(k 1)/2. Scheffého metoda mnohonásobného srovnávání Předpokladem pro využití Schéffeho metody je normalita všech k souborů. Testujeme hypotézu H 0 : µ I = µ J, H A : µ I µ J. 5

Symboly µ I, µ J zde mohou představovat střední hodnoty skupin I, J, přičemž jedna skupina může obsahovat pouze jeden výběr. Naopak druhá z nich může obsahovat maximálně k 1 výběrů. Tato metoda považuje za různé ty skupiny, u nichž populační průměry, např. µ i a µ h, splňují následující nerovnici ȳ i. ȳ h. Tukeyova metoda (k 1) SS r F 1 α (k 1, n k) ( 1 + 1 ). (18) n i n h Ta označí na hladině významnosti α za rozdílné takové populační průměry µ i a µ h, které splňují nerovnici ( ) SS r ni + n h ȳ i. ȳ h. q α (k, n k), (19) 2(n k) n i n h kde q α (k, n k) je kritická hodnota studentizovaného rozpětí. Tento test lze použít pouze v případě vyvážených souborů. Modifikovaná LSD metoda Posup při této metodě je jednoduchý. Jednotlivé statistiky ȳ 1., ȳ 2.,., ȳ k. seřadíme sestupně dle velikosti. Vypočteme rozdíl mezi dvěma sousedními statistikami ȳ i. a ȳ h. a ten porovnáváme s tzv. nejmenší signifikantní diferencí. Tu zjistíme ze vztahu n i + n h LSD ih = t 1 α 2 (n k) SS r (20) n i n h Je-li sledovaná diference ih > LSD ih, zamítáme hypotézu o shodě středních hodnot µ i a µ h. 6