Problematika analýzy rozptylu Ing. Michael Rost, Ph.D.
Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít tyto parametrické testy? V praxi se můžeme setkat se situací, ve které potřebujeme simultánně otestovat shodu k středních hodnot, kde k je větší než 2. Jak to provést, to bude náplní této přednášky ; ) Uvažujme následující příklad:
Příklad Klinickou studíı byla sledována závislost mezi dietou a dobou, za kterou dojde ke koagulaci krve. Byly naměřeny tyto hodnoty: Typ diety A B C D 62 63 68 56 60 67 66 62 63 71 71 60 59 64 67 68 64 65 68 63 65 66 68 64 62 58 63 63 62 59 63 59 y ij Mají různé diety vliv na dobu, za kterou dojde ke koagulaci krve?
Příklad
Výchozí situace Situaci které čeĺıme, lze obecně popsat následujícím způsobem (předpokládáme, že máme k souborů): číslo počet zjištěné hodnoty průměr rozptyl výběru prvků sledovaného znaku 1 n 1 y 11, y 12,, y 1j,, y 1n1 ȳ 1 s 2 1 2 n 2 y 21, y 22,, y 2j,, y 2n2 ȳ 2 s 2 2..... i. n i. y i1, y i2,, y ij,, y ini. ȳ i. s 2 i. k n k y k1, y k2,, y kj,, y knk ȳ k s 2 k
Obecný postup 1. Zformulovat hypotézy: H 0 vs. H A. 2. Ověření předpokladů Poznámka : Uvědomte si, že pokud provádíte formální analýzu či statistické testování, při kterém využíváte p-value, vycházíte zároveň z jistých předpokladů. Ty však nemusí být splněny. Stupeň validity získaného p-value záleží na tom jakou shodu vykazují naše data s teoretickými rozděleními. Proto každopádně ověřujte předpoklady vašich modelů!
Ověření předpokladů Před vlastní analýzou rozptylu je nutno odpovědět na několik otázek: Pochází jednotlivé výběry z normálního rozdělení? Jsou jednotlivé výběry nezávislé? Lze se domnívat, že výběry mají shodné rozptyly? První a třetí požadavek lze ověřit prostřednictvím různých testů.
Obecný postup pokračování 2. Stanovit hodnotu α, nejčastěji voĺıme α = 0, 05 nebo α = 0, 01. 3. Zvolit adekvátní testové kritérium a stanovit hodnotu testového kritéria 4. Zjistit zda F K nebo zda p-value α 5. Závěr
Specifikace nulové a alternativní hypotézy V případě že potřebujeme simultánně otestovat shodu k středních hodnot, je nulová a alternativní hypotéza specifikována jako: H 0 : µ 1 = µ 2 =... = µ k 1 = µ k H A : non H 0. Zároveň však testujeme ještě homoskedasiticitu: H 0 : σ 2 1 = σ2 2 =... = σ2 k 1 = σ2 k H A : non H 0, a tu testujeme zpravidla jako první!!!
Testování homoskedasticity
Testy homoskedasticity Předpoklad homoskedasticity (shody rozptylů) je možno otestovat například prostřednictvím tzv. Bartlettova testu. Bartlettův test je univerzálním testem v tom smyslu, že jej lze využít k hodnocení homoskedasticity u vyvážených i nevyvážených souborů. Testujeme hypotézu: H 0 : σ 2 1 = σ2 2 = = σ2 k, H A : non H 0. Testovým kritériem Bartlettova testu je veličina B, která je definována jako B = [(n k)ln s 2 k (n i 1)ln s 2 i ]/C. i=1
Testy homoskedasticity Platí-li H 0 a je-li n i 6, pak přibližně platí B χ 2 (k 1). Testovanou hypotézu zamítáme pokud platí B χ 2 1 α (k 1). Jednotlivé symboly využité při výpočtu testové statistiky lze definovat takto: s 2 i = 1 n i 1 celkový rozptyl s jako a konstantu C C = 1 + n i j=1 s = 1 n 1 k i=1 (y ij ȳ i ) 2 i = 1,, k, k n i i=1 j=1 (y ij ȳ i ) 2, 1 n i 1 1 /3(k 1). n k
Hartleyův test Dalším testem je tzv. Hartleyův test homoskedasticity. Testovací statistika má v případě Hartleyova testu tvar: Fmax = max s2 i min s 2. i Ke stanovení kritického oboru je nutno využít speciálně sestrojených tabulek, nebot testovaná dvojice rozptylů není náhodně zvolena. Nulovou hypotézu o shodě rozptylů zamítáme na hladině významnosti α, pokud testovací statistika Fmax překročí jistou kritickou hodnotu.
Cochranův test Dalším testem pro ověření homoskedasticity je tzv. Cochranův test. V případě jeho použití zamítáme H 0, hypotézu pokud hodnota testového kritéria s 2 max C = s 2 1 + s2 2 +... + s2 k překročí kritickou hodnotu Cochranovy statistiky. Jinými slovy, pokud hodnota C bude náležet do kritického oboru, který je definován jako K = {C C 1 α (k, n 1)}, pak zamítáme hypotézu o shodě rozptylů.
Levenův test homogenity rozptylů Levenův test v podstatě provádí analýzu rozptylu na reziduích. Využívá přitom proměnnou z ij = y ij ȳ i pro i = 1, 2,, k a j = 1, 2,, n i. Výsledná hodnota testové statistiky F je porovnávána s kritickou hodnotou F -rozdělení s k 1 a n k stupni volnosti. Pro jisté případy jsou navrženy i modifikace Levenova testu. V případě šikmosti souboru lze využít místo ȳ i. mediánu. V případě výrazné špičatosti souboru je pak místo ȳ i. doporučován 10 % ořezaný průměr.
Analýza rozptylu - ANOVA Necht Y ij je náhodnou veličinou označující j-té pozorování v rámci i-té skupiny. Symbol y ij pak bude představovat pozorovanou hodnotu veličiny Y ij získanou provedením experimentu. Symbolem n i označíme počet pozorování v i-té skupině. Průměry v jednotlivých skupinách tj. ȳ 1, ȳ 2,, ȳ k získáme jako ȳ i = 1 n i n i j=1 y ij.
Analýza rozptylu - ANOVA Rozptyly uvnitř jednotlivých skupin označíme jako s 2 i, kde i = 1, 2,, k. Je zřejmé, že: s 2 i = 1 n i 1 n i j=1 (y ij ȳ i ) 2 Vnitroskupinová tzv. průměrná reziduální suma čtverců: MSS r = 1 n k k n i i=1 j=1 (y ij ȳ i ) 2
Analýza rozptylu - ANOVA Celkový průměr označíme jako ȳ kde ȳ = 1 n k n i i=1 j=1 y ij n = k i=1 n i. Průměrná suma čtverců vlivem různých úrovní faktorů (skripta: Rozptyl mezi třídami): MSS A = 1 k 1 k i=1 n i (ȳ i ȳ) 2
Testové kritérium Testové kritérium F = MSS A MSS r. Kde pro testové kritérium F za platnosti nulové hypotézy platí: F F (v 1 = k 1; v 2 = n k) Pokud symbolem F označíme hodnotu testového kritéria F určenou na základě provedeného experimentu, pak lze p-value definovat takto: P (F(k 1; n k) > F )
Tabulka analýzy rozptylu V podstatě je tato testovací statistika založena na poměru průměrných meziskupinových a vnitroskupinových součtů čtverců. Výsledky analýzy rozptylu se zapisují do tzv. tabulky analýzy rozptylu. Ta měla v minulosti svůj význam z hlediska výpočtů. V nejjednodušším případě má následující podobu: Zdroj Součet Počet stupňů Průměrný F Dosažená variability čtverců volnosti čtverec hladina p Faktor SS A k 1 MSS A = SS A k 1 Reziduální SS r n k MSS r = SS r n k Celkový SS T n 1 F = MSS A MSS r p
Příklad - pokračování