Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012
Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test
Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Wilcoxonův jednovýběrový test: Situace: X 1,...X n výběr ze spojitého symetrického rozdělení H 0 : m X = m 0, proti H 1 : m X m 0 normální rozdělení jednovýběrový t-test porušení normality jednovýběrový
Opakování Wilcoxonův jednovýběrový test Postup test sleduje vzdálenosti (resp. jejich pořadí) pozorování X 1,...,X n od bodu m 0 vyloučíme případy X i = m 0 (a dle toho upravíme n) Y i = X i m 0 uspořádáme Y i dle velikosti sledujeme R + i pořadí Y i za H 0 by součty R + i pro kladná a záporná Y i měly být srovnatelné vezmeme W součet pořadí R + i pro Y i > 0 přesný test asymptotický test založený na statistice Z asymptotický test s korekcí pro spojitost
Situace: Párová pozorování (X 1,Y 1 ),...,(X n,y n ), zajímá nás, zda jsou veličiny X a Y co do polohy stejné na každém subjektu měříme dvě veličiny jejich porovnání příklady: věk rodičů, síla stisku levé a pravé ruky, hmotnost před a po dietě,...
Situace: Párová pozorování (X 1,Y 1 ),...,(X n,y n ), zajímá nás, zda jsou veličiny X a Y co do polohy stejné na každém subjektu měříme dvě veličiny jejich porovnání příklady: věk rodičů, síla stisku levé a pravé ruky, hmotnost před a po dietě,... Postup zavedeme Z i = X i Y i budeme chtít testovat, zda Z i koĺısají kolem nuly, tj. zda m Z = 0 problém převeden na jednovýběrový případ
Postup: mají-li Z 1,...,Z n normální rozdělení t-test porušení normality jednovýběrový předpoklad: Z 1,...,Z n spojité symetrické rozdělení vyloučíme případy Z i = 0 určíme pořadí R + i absolutních hodnot Z i W součet pořadí R + i, kde Z i > 0 testová Z = W n(n+1) 4 n(n+1)(2n+1) 24 za H 0 má Z přibližně N(0,1) rozdělení
Příklad porovnání dvou metod učení nazpamět Příklad Porovnání dvou metod učení (poslouchání vs. čtení). studie zahrnující 9 osob pozorování (X i,y i ) chceme vědět, zda je mezi oběma způsoby rozdíl i 1 2 3 4 5 6 7 8 9 X i 90 86 72 65 44 52 46 38 43 Y i 85 87 70 62 44 53 42 35 46 H 0 : rozdělení X a Y je stejné
Příklad pokrač. zavedeme rozdíly Z i = X i Y i předpoklad symetrie H 0 : m Z = 0 i 1 2 3 4 5 6 7 8 9 Z i 5-1 2 3 0-1 4 3-3 Z i 5 1 2 3 1 4 3 3 R + i 8 1.5 3 5 1.5 7 5 5 W = 8+3+5+7+5 = 28 Z = W n(n+1) 4 n(n+1)(2n+1) 24 = 28 8 9 4 8 9 17 24 = 1.4 test: Z < z 0.975 = 1.96 nelze zamítnout H 0 program R: oprava na spojitost, bere ohled na shody p-hodnota 0.18
Situace: dva nezávislé náhodné výběry X 1,...,X n a Y 1,...,Y m, oba ze spojitého rozdělení, chceme testovat (tj. i mediány se rovnají) H 0 : rozdělení X a Y jsou stejná
Situace: dva nezávislé náhodné výběry X 1,...,X n a Y 1,...,Y m, oba ze spojitého rozdělení, chceme testovat (tj. i mediány se rovnají) H 0 : rozdělení X a Y jsou stejná Postup uděláme společný (tzv. sdružený) výběr X 1,...,X n,y 1,...,Y m a uspořádáme jej podle velikosti za H 0 jsou výběry X a Y dobře promíchané určíme pořadí v rámci spojeného výběru za H 0 by se průměrná pořadí X a Y neměla velmi lišit
vezmeme W součet pořadí X 1,...,X n proti H 0 svědčí velmi velké a velmi malé hodnoty W testová : Z = W n(n+m+1) 2 nm(n+m+1) 12 má za H 0 přibližně N(0,1) rozdělení Test: hypotézu H 0 o shodě rozdělení zamítneme, pokud Z > z 1 α/2 lze uvažovat i jednostranné alternativy
Poznámky test se někdy nazývá Mannův-Whitneyův test obecně formulovaná hypotéza: test citlivý zejména vůči posunutí, méně citlivý na nestejný rozptyl při větším počtu shod X i a Y i korekce ve jmenovateli Z existují i přesné postupy (bez použití aproximací)
Příklad výnos pšenice Příklad Vliv nového způsobu hnojení na výnos pšenice: 13 poĺı stejné kvality 8 nový způsob, 5 ošetřeno standardně měřeny výnosy v tunách na hektar X i nový způsob: 5.7, 5.5, 4.3, 5.9, 5.2, 5.6, 5.8, 5.1 Y i standardní hnojivo: 5.0, 4.5, 4.2, 5.4, 4.4 Chceme testovat: H 0 : způsob hnojení nemá vliv na výnos pšenice
Příklad grafické znázornění dat Vynos psenice [t/ha] 4.5 5.0 5.5 novy tradicni Zpusob
Příklad řešení Použijeme popsaný postup: 4.20 4.30 4.40 4.50 5.00 5.10 5.20 5.40 5.50 5.60 5.70 5.80 5.90 1 2 3 4 5 6 7 8 9 10 11 12 13 W = 2+6+7+9+10+11+12+13 = 70 testová Z = 70 8(5+8+1) 2 5 8 (5+8+1) 12 = 2.050 Z > z 0.975 = 1.960 zamítáme H 0
Řešení v programu R R počítá W pořadí Y, zde W = 21 uvádí Mannovu-Whitneyovu statistiku U = mn+ 1 n(n+1) W 2 pak U udává počet případů, kdy X i > Y j > wilcox.test(x,y,correct=f,exact=f) Wilcoxon rank sum test data: x and y W = 34, p-value = 0.04042 alternative hypothesis: true location shift is not equal to 0
Shrnutí jeden výběr párová pozorování dva nezávislé výběry normální rozdělení spojité rozdělení jednovýběrový jednovýběrový Wilcoxon t-test párový t-test párový Wilcoxon dvouvýběrový t-test dvouvýběrový Wilcoxon Dále: Testy v binomickém rozdělení jednovýběrová situace dvouvýběrová situace Nyní: srovnání středních hodnot v k výběrech
Motivační příklad znečištění řeky Cu pět různých míst na řece vyloveno vždy 7 ryb zjišt ována koncentrace mědi v játrech liší se znečištění řeky na zkoumaných místech? 1.0 1.5 2.0 2.5 Log(Cu) 0.5 0.0 0.5 A B C D E Misto A B C D E Misto
Motivační příklad znečištění řeky Místo Cu A B C D E průměr 1.84 1.68 1.71 0.97 1.40 směr.odch. 0.53 0.46 0.51 0.26 0.20 Místo log Cu A B C D E průměr 0.57 0.48 0.50-0.06 0.33 směr.odch. 0.31 0.28 0.32 0.29 0.14 porovnání středních hodnot 5 náhodných výběrů zobecnění dvouvýběrového t-testu analýza (ANOVA)
jednoduchého třídění Situace: k nezávislých náhodných výběrů z normálních rozdělení se shodnými rozptyly Y 11,...,Y 1n1 výběr z N(µ 1,σ 2 ) Y 21,...,Y 2n2 výběr z N(µ 2,σ 2 ). Y k1,...,y knk výběr z N(µ k,σ 2 ) Chceme testovat na hladině α proti H 1 : neplatí H 0. H 0 : µ 1 = µ 2 = = µ k
Značení Označíme Y 1 výběrový průměr v 1. výběru Y 2 výběrový průměr v 2. výběru... Y k výběrový průměr v k. výběru Y celkový (společný) výběrový průměr n = n 1 + +n k model nazveme vyvážený, pokud n 1 = n 2 = = n k
Celkový součet čtverců Celková variabilita v datech: k n i S T = (Y ij Y ) 2 (celkový součet čtverců) i=1 j=1 log(cu) 0.5 0.0 0.5 1.0 A B C D E Mista
Rozklad součtu čtverců Idea: rozklad celkového součtu čtverců k n i (Y ij Y ) 2 = i=1 j=1 } {{ } S T k n i (Y i Y ) 2 + i=1 } {{ } S A k n i (Y ij Y i ) 2 i=1 j=1 } {{ } S e S T = S A +S e (celková variabilita) = (variabilita mezi) +(variabilita uvnitř)
Rozklad součtu čtverců Idea: rozklad celkového součtu čtverců k n i (Y ij Y ) 2 = i=1 j=1 } {{ } S T k n i (Y i Y ) 2 + i=1 } {{ } S A k n i (Y ij Y i ) 2 i=1 j=1 } {{ } S e S T = S A +S e (celková variabilita) = (variabilita mezi) +(variabilita uvnitř) za H 0 pochází všechny výběry z jednoho stejného rozdělení variabilita mezi by měla být menší než variabilita uvnitř do úvahy je třeba brát tzv. stupně volnosti f T = f A +f e (n 1) = (k 1)+(n k)
Rozklad součtu čtverců pokrač. (celková variabilita) = (variabilita mezi) +(variabilita uvnitř) k n i k k n i (Y ij Y ) 2 = n i (Y i Y ) 2 + (Y ij Y i ) 2 i=1 j=1 i=1 i=1 j=1 log(cu) 0.5 0.0 0.5 1.0 A B C D E Mista
Testová Máme rovnost Testová S T = S A +S e F A = S A fa S e f e proti H 0 svědčí velké hodnoty F A za H 0 má F A tzv. F-rozdělení s f A = k 1 a f e = n k stupni volnosti H 0 zamítneme, pokud F A F k 1,n k (1 α), kde F k 1,n k (1 α) je 1 α kvantil F k 1,n k rozdělení
F-rozdělení f Fisherovo-Snedecorovo rozdělení dva parametry m, n: F m,n rozdělení rozdělení na kladných číslech 0.0 0.2 0.4 0.6 0.8 1.0 1.2 F(30,30) F(10,5) F(10,20) F(5,10) F(3,10) 0 1 2 3 4 x
Tabulka analýzy variabilita f S S/f F p-hodnota výběry f A = k 1 S A S A /f A F A p reziduální f e = n k S e S e /f e celková f T = n 1 S T S součty čtverců f počet stupňů volnosti S/f průměrné čtverce p-hodnota odpovídající testu H 0 : µ 1 = = µ k
Příklad znečištění variabilita f S S/f F p-hodnota místo 4 1.80 0.45 5.90 0.0013 reziduální 30 2.28 0.08 celková 34 4.08 vyšlo F A = 5.9 > F 4,30 = 2.69 na hladině významnosti 5 % zamítáme H 0, tj. prokázali jsme významný rozdíl ve znečištění
Předpoklady metody 1 nezávislost výběrů mělo by být zajištěno provedením (plánem) pokusu předpoklad nelze nahradit 2 normalita dat nutné ověřit, zda Y ij Y i mají normální rozdělení N(0,σ 2 ) pro všechna i,j standardní postupy pro ověření normality vyvážený model není velmi citlivý na porušení při výrazném porušení existují neparametrické postupy 3 shoda rozptylů neformální posouzení směrodatných odchylek : Levenův, Bartlettův vyvážený model není velmi citlivý na porušení
Příklad znečištění normalita: Shapirův-Wilkův test: p-hodnota 0.068 Sample Quantiles 0.4 0.0 0.2 0.4 Normal Q Q Plot 2 1 0 1 2 Theoretical Quantiles shoda rozptylů: Levenův test p-hodnota 0.648, Bartlettův test p-hodnota 0.453
Mnohonásobná porovnání Příklad znečištění: prokázali jsme, že je statisticky významný rozdíl ve znečištění jednotlivých míst zatím ale nevíme, která místa se od sebe navzájem významně liší metody mnohonásobného porovnání
Mnohonásobná porovnání Příklad znečištění: prokázali jsme, že je statisticky významný rozdíl ve znečištění jednotlivých míst zatím ale nevíme, která místa se od sebe navzájem významně liší metody mnohonásobného porovnání Tukeyho metoda které dvojice µ i, µ j se od sebe liší? posouzení rozdílu Y i a Y j : Y i Y j q k,n k (α) S e 2f e ( 1 n i + 1 n j ), kde q k,n k (α) je tabelovaná kritická hodnota.
Příklad znečištění Místo A B C D E počet (n i ) 7 7 7 7 7 průměr (Y i ) 0.568 0.484 0.495 0.063 0.329 q 5,30 (α) = 4.102, S e /f e = 0.076 kritická mez: ( S e 1 q k,n k (α) + 1 ) 0.076 = 4.102 2f e n i n j 2 2 7 = 0.428 nejnižší průměr místo D -0.063+0.428=0.365 na hladině 5 % se od místa D liší všechna další místa s průměrem alespoň 0.365 místo D se tedy významně liší od A, B a C
Příklad obrázek Grafické znázornění Tukeyho porovnání: B A C A D A E A C B D B E B D C E C E D 95% family wise confidence level 1.0 0.5 0.0 0.5 Differences in mean levels of Misto
Poznámky lze složitější modely analýzy vliv více faktorů analýza dvojného třídění, trojnéhop třídění,... existují i další metody mnohonásobného porovnání existují neparametrické postupy, které lze použít při porušení předpokladů ANOVA