ANOVA Analýza rozptylu př jednoduchém třídění Jana Vránová, 3.léařsá faulta UK, Praha
Teore Máme nezávslých výběrů, > Mají rozsahy n, teré obecně nemusí být stejné V aždém z nch známe průměr a rozptyl Tyto výběry vznnou ta, že záladní soubor rozdělíme podle určtého znau Z do supn Z může být fator, jehož hladnu před pousem určujeme fator ontrolovaný Vě Systolcý nebo dastolcý tla Hladna cholesterolu, x s
Efet Jestlže Z má úrovní, jeho efet na zna X lze vyjádřt vztahem: μ = μ+ α =,,..., μ průměrná hodnota znau X v té supně μ celový populační průměr znau X za platnost H α efet tého ošetření 0
Nulová a alternatvní hypotéza Nulová hypotéza H 0 všechny výběry pocházejí ze stejné normálně rozložené záladní populace, tedy H : μ = μ =... = μ =... = μ = μ 0 nebo H : α = α =... = α =... = α = 0 0 Což znamená, že hodnota znau Z neovlvňuje hodnoty znau X Alternatvní hypotéza H A výběry nepocházejí ze stejné populace, tj. průměry se od sebe navzájem statstcý významně lší
Výchozí tabula jednoduché analýzy rozptylu Číslo výběru Počet prvů Zjštěné hodnoty sledovaného znau Průměr Rozptyl...... n n... n... n x x x j x n x x x j x n x x x j x n x x x j x n x x x x s s s s Celem n x s
Legenda tabulce x Prve x j první ndex číslo výběru (supny podle znau Z ) druhý ndex j pořadové číslo uvntř výběru Jná symbola jao př jných metodách. Index, přes terý jsme soubor sečetl, značíme tečou místo ndexu n j = Taže průměr -tého výběru značíme Celový průměr ze všech výběrů, terým odhadujeme μ, značíme n n = xj x.. = x = nx n n x. j = j= = n x.. = n =
Podmíny pro analýzu rozptylu Celovou varabltu rozdělíme na varabltu uvntř jednotlvých výběrů a mez výběry Musí platt. Zna, jehož průměry chceme porovnávat, musí mít normální rozložení. Rozptyly jednotlvých výběrů se nesmí mez sebou lšt statstcy významně, musí být homogenní
Hartleyův test pro testování homogenty rozptylů Testujeme hypotézu: za předpoladu, že dybychom testoval shodu rozptylů po dvojcích, potřeboval bychom př výběrech (-)/ hodnocení pomocí F-testů. Poud vša najdeme nejvyšší z pozorovaných rozptylů a nejnžší a zjstíme, že tato dvojce se lší statstcy nevýznamně, pa se an žádná další dvojce rozptylů z uvažovaných výběrů nemůže lšt statstcy významně Testovací charatersta má tvar: F max s max mn s H : σ = σ =... = σ n = n = = n = n 0... = s počtem stupňů volnost a n-, de je počet výběrů a n je počet prvů v aždém výběru
Hartleyův test pro testování homogenty rozptylů Vzhledem tomu, že F max netestuje náhodně zvolenou dvojc rozptylů, ale tu, terá má maxmální dferenc, nelze hodnoty F max hledat v běžně užívaných tabulách rtcých hodnot F-rozložení, ale ve specálních tabulách Stejně jao u F-testu zde platí: jestlže Fmax > Fmax α zamítáme hypotézu o homogentě rozptylů, přjímáme hypotézu, že rozptyly se na hladně α statstcy významně lší a poračování PRO HODNOCENÍ ROZDÍLŮ ROZPTYLŮ NESMÍME POUŽÍT ANLÝZU ROZPTYLU
Postup analýzy rozptylů Za platnost nulové hypotézy H0 : μ. = μ. =... = μ. = μ.. lze spojt všech výběrů ve výběr jedný, terý má průměr x.. a pro rozptyl platí s = ( x ) j x.. j n pro čtatel, terý představuje součet čtverců odchyle od celového průměru, můžeme psát n n ( ) ( ) j j ( ) S = x x = x x + x x........ = j= = j= =
Postup analýzy rozptylu poračování n n ( ) ( ) j j ( ) S = x x = x x + x x........ = j= = j= = Tuto rovnc můžeme číst: celový součet čtverců odchyle je roven součtu čtverců uvntř výběru, terý nazýváme rezduální a značíme S R, a součtu čtverců mez výběry, terý značíme S V. Můžeme tedy napsat S = S + S.. R V Počet stupňů volnost pro S.. : f = n, pro S R : f = n, pro S V : f= -
Postup analýzy rozptylu poračování Mírou náhodného olísání je rezduální součet čtverců S R, neboť je oproštěn od vlvu výběrů č supn, je způsoben pouze náhodným olísáním. Proto jao měříta pro míru olísání používáme rezduální rozptyl s s R S = n R R a jím měříme rozptyl mez výběry pomocí F testu s S S F = = s n V V R : R s V počet stupňů volnost: f =, f = n
Postup analýzy rozptylu poračování Zvolíme α, v tabulách rtcých hodnot F rozložení najdeme hodnotu F α, de počet stupňů volnost pro čtatel, tedy, hledáme v hlavčce tabuly, počet stupňů volnost pro jmenovatel, tedy n, v legendě. Je-l splněno F > F α, zamítáme H 0 a přjímáme hypotézu alternatvní. TABULKA ANALÝZY ROZPTYLU Varablta Součet čtverců Stupně volnost Rozptyl Mez výběry S = n x x Rezduální (uvntř výběrů) ( ) V... = S x x x n n R = j. j = j= j= n n Celová S.. = xj x.. xj n = j= = j= n s s V SV = S = n R R s S = n..
Smultánní testování Současné testování hypotéz u dvojc Např. př postupném použtí t-testů narůstá chyba I. druhu Zvolíme-l hladnu významnost α = 5%, bude př hodnocení první dvojce spolehlvost sutečně 95%, u druhé jž jenom 87,8%, u třetí 79,9% atd. LSD (least sgnfcant dfference) nejmenší významná dference. Rozsahy výběrů jsou stejné. Rozsahy výběru jsou různé
LSD rozsahy výběrů jsou stejné Máme nezávslých výběrů, de platí n = n =... = n, taže celový počet prvů je n = n Spočteme jednotlvé průměry a uspořádáme je podle velost x x... x, de ndexy znamenají nyní pořadová čísla uspořádaných průměrů Nejmenší významnou dferenc vypočteme pomocí rtcých hodnot t rozložení z výrazu LSD = tn ; α s n R
LSD rozsahy výběrů jsou stejné poračování Nebo pomocí rtcých hodnot F rozložení LSD = srf; n ; α n Spočítáme dference průměrů, sousedících v uspořádání velost: d x x d x x + =, = Všechny dference d, pro něž platí d > LSD, jsou statstcy významné př zvoleném α
LSD rozsahy výběrů jsou různé Máme nezávslých výběrů, de platí n n... n, taže celový počet prvů je n = n = Spočteme jednotlvé průměry a uspořádáme je podle velost x x... x, de ndexy znamenají nyní pořadová čísla uspořádaných průměrů Pro aždou dvojc je třeba spočítat LSD zvlášť, neboť jeho hodnota záleží na n a n +, a je za použtí t rozložení LSD = t s n ; α R n + nn n j j
LSD rozsahy výběrů jsou různé poračování Nebo př použtí F testu s R F j LSD = sr F; n ; α nn j je rezduální součet, n rtcá hodnota F př zvoleném α a stupních volnost a n jestlže lší se průměry a významně + ; n ; α d > LSD, + x x + n V uspořádané řadě průměrů podtrhneme společnou čarou ty, teré se nelší, aby bylo zřejmé do ola homogenních supn se soubor rozpadá.
Metoda Scheffeho Máme výběrů, > V aždé -té supně je n pozorování, teré může být obecně různé Analýzou rozptylu jsme zjstl, že průměry nejsou homogenní Smultánní testování dferencí x x j př celové hladně významnost α metodou Scheffeho hodnotíme pomocí rtcé hodnoty de je počet supn, n, n j četnost v porovnávaných supnách, S R rezduální rozptyl u analýzy rozptylu, F α rtcá hodnota F rozložení pro hladnu významnost α apř stupních volnost f = a f = n Kj = Fα sr + n n j ( ) Výhodou Scheffeho testu prot testu LSD je, že dovoluje sestrojt onfdenční ntervaly pro hodnoty rozdílu průměrů se společnou onfdencí α. Všechny rozdíly budou ležet v ntervalu ( K j, + K j )
Testování shody průměrů př různých rozptylech χ test ANOVA testujeme hypotézu: H0 : μ = μ =... = μ = μ za předpoladu σ = σ =... = σ Tento předpolad vša není splněn Poud pro všechna n platí n 30, H 0 testujeme pomocí velčny χ vztahem: n ( x x ) χ = s terá má stupňů volnost a de 0 x nx 0 = n / s / s
Testování shody průměrů př různých rozptylech Zvolíme α, najdeme rtcou hodnotu jestlže χ > χ α zamítáme H 0 a přjímáme H : alespoň pro jednu dvojc,j platí že μ μ Která dvojce to je zjstíme smultánním testováním Pro dvojce pro něž x χ test poračování α ; platí: Jejch průměry se statstcy významně lší j χ s s j xj > χα ; + n n j x x j
Testování shody průměrů př různých rozptylech F test Opět testujeme hypotézu Poud pro všechna n není splněn požadave n 30, H 0 musíme testovat pomocí omplovanějšího vztahu pro F rozložení: n ( x x ) de x nx F = 0 = n / s / s + H0 : μ = μ =... = μ = μ s ( ) a pro B platí B 0 n / s B = n n s /
Testování shody průměrů př různých rozptylech F test Tento výraz má F- rozložení o st. volnost: poračování f =, f = 3B Vyjde-l F > F α, zamítáme H 0 a přjímáme H, že exstuje aspoň jedna dvojce pro nž μ μ j Které dvojce to jsou zjstíme smultánním testováním podle Tamhana: s j x xj > Aj n n j Kde A j je rtcá hodnota dvoustranného t-testu na hladně g a př f j stupních volnost s
Testování shody průměrů př různých rozptylech F test poračování glze spočítat pomocí zvoleného α z výrazu: ( ) ( ) g = α Stupně volnost f j spočteme ze vztahu: f j = ( s ) n + sj nj 4 4 s j + j j ( ) ( ) s n n n n
ANOVA Neparametrcé testy
Test Krusal - Wallsův Máme nezávslých výběrů, >, u terých není splněna podmína normalty Chceme se přesvědčt, že naměřené náhodné velčny X se lší polohou Vyslovíme hypotézu H 0, že se výběry polohou nelší, tedy že to je vlastně nezávslých náhodných výběrů z téže záladní populace Za platnost H 0, můžeme dát všechny výběry do jedného souboru a uspořádat naměřené hodnoty x podle velost
Test Krusal - Wallsův poračování Každé naměřené velčně pa přřadíme pořadovou hodnotu od u nejnžší, až hodnotě N = n pro nejvyšší naměřenou = hodnotu Za platnost H 0 by se průměrné pořadí ve supnách nemělo lšt Testovací charatersta má tvar: χ KW T = 3 N + N N n ( ) = T součet pořadových hodnot prvů tého výběru, n počet prvů v tém výběru χ rtcá hodnota χ KW rozložení př stupních volnost ( )
Test Krusal - Wallsův poračování χ KW má rozložení χ s stupních volnost, rtcá hodnota tedy závsí pouze na počtu porovnávaných výběrů, nolv na počtu prvů χ KW χ α Vypočtené porovnáme s tabelovanou hodnotou př zvoleném α jestlže χkw > χ ; α zamítáme H 0 a můžeme přjmout hypotézu alternatvní, že se výběry polohou mez sebou statstcy významně lší
děuj za pozornost