Testy pro porovnání vlastností dvou skupin Petr Pošík Části dokumentu jsou převzaty (i doslovně) z Mirko Navara: Pravděpodobnost a matematická statistika, https://cw.felk.cvut.cz/lib/exe/fetch.php/courses/a6m33ssl/pms_print.pdf s laskavým svolením autora. Porovnání dvou normálních rozdělení 3 E X vs E Y, zn.................................................................................................... 4 E X vs E Y, nezn.................................................................................................. 5 Př: E X vs E Y....................................................................................................... 6 Párový pokus...................................................................................................... 7 Párový t-test....................................................................................................... 8 Př: párový t-test.................................................................................................... 9 D X vs D Y........................................................................................................ 0 F-rozdělení........................................................................................................ Př: D X vs D Y..................................................................................................... 3 q X vs q Y.......................................................................................................... 4 Př: q X vs q Y....................................................................................................... 5 Simpsonův paradox................................................................................................ 6 Alternativy 7 MW U-test........................................................................................................ 8 ANOVA.......................................................................................................... 9 Rozklad variability................................................................................................. 20 Tabulka ANOVA................................................................................................... 2 Příklad........................................................................................................... 22 Předpoklady...................................................................................................... 23
Porovnání dvou skupin Víte, jaký je rozdíl mezi socialismem a kapitalismem? V socialismu jeden člověk využívá druhého. V kapitalismu je to přesně naopak. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 2 / 23 :-) Porovnání dvou normálních rozdělení 3 / 23 Test stř. hodnot dvou normálních rozdělení se známým rozptylem Předpoklad: Máme 2 nezávislé výběry (X,..., X m ) z rozdělení N(E X, ) a Postup: Platí, ˇze (Y,..., Y n ) z rozdělení N(E Y, ). ), X m má rozdělení N (E X, σ2 m ) Y n má rozdělení N (E Y, σ2, takˇze n ( ( X m Y n má rozdělení N E X E Y, m + n Za předpokladu E X E Y )). T : X m Y n má rozdělení N(0, ). σ m + n Testujeme realizaci t na rozdělení N(0, ), jako jsme to dělali v testu střední hodnoty N(µ, ) při známém. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 4 / 23 2
Test stř. hodnot dvou normálních rozdělení s neznámým rozptylem Předpoklad: D X D Y. Máme-li důvod věřit, ˇze předpoklad není splněn, měli bychom pouˇzít neparametrický test. (Důvod věřit? Znalost procesu, který data generuje; zřejmá odchylka od normality v grafech; statistický test normality rozdělení;... ) Postup: Máme 2 odhady (S 2 X a S2 Y ) téhoˇz parametru σ2. Vytvoříme z nich sdruˇzený odhad S 2 parametru : pouˇzijeme jejich průměr váˇzený rozsahy výběrů ( kvůli výpočtu výběrového průměru): S 2 (m )S2 X +(n )S2 Y m+n 2 Při výpočtu testové statistiky pak místo skutečné směrodatné odchylky σ pouˇzijeme její odhad S. To ale vnáší do výpočtu další zdroj neurčitosti, je proto třeba pouˇzít místo normálního rozdělení Studentovo. Za předpokladu E X E Y T : X m Y n má rozdělení t(m+n 2). S m + n Testujeme realizaci t na rozdělení t(m+n 2), jako jsme to dělali v testu střední hodnoty N(µ, ) při neznámém. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 5 / 23 Test stř. hodnot s neznámým rozptylem: Odvození Ukaˇzme nejprve, ˇze sdruˇzený odhad rozptylu S 2 je nestranným odhadem. Víme, ˇze (m )S 2 X má rozdělení χ 2 (m ), (n )S2 Y má rozdělení χ 2 (n ), takˇze jejich součet (m )S 2 X +(n )S2 Y (m )S 2 X +(n )S2 Y (m+n 2) má rozdělení χ 2 (m+n 2) se střední hodnotou m+n 2. Proto S2 má střední hodnotu, takˇze σ2 S 2 (m )S2 X +(n )S2 Y (m+n 2) je nestranný odhad rozptylu. Nyní ukaˇzme, ˇze testová statistika T má rozdělení t(m + n 2). Víme, ˇze X m Y n má rozdělení N(0, ) a ˇze σ m + n (m+n 2)S 2 T : X m Y n S m + n (m )S2 X +(n )S2 Y X m Y n σ m + n S 2 má rozdělení t(m+n 2). má rozdělení χ 2 (m+n 2), takˇze P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství note of slide 5 3
Příklad: test středních hodnot při neznámém rozptylu Zadání: Vliv alkoholismu matky na inteligenci dítěte. Ověřte hypotézu, ˇze alkoholismus matek nijak nesniˇzuje IQ dětí. Skupina : matky chronické alkoholičky, m 6, x 78, m i (x i x) 2 805. Skupina 2: kontrolní, normální matky, n 46, y 99, n j (y j y) 2 520. Řešení: Jednostranný test středních hodnot 2 norm. rozdělení s neznámým rozptylem. Testujeme H 0 : E X E Y proti H A : E X < E Y. Sdruˇzený odhad rozptylu: s 2 (m )s2 x +(n )s 2 y m+n 2 805+520 6+46 2 Realizace testové statistiky: t x y s m + n m i (x i x) 2 + n j (y j y) 2 m+n 2 266.5 s 6.3248 78 99 6.3248 6 + 46 2.9636 Dosaˇzená hladina významnosti: p F t(m+n 2) (t) F t(50) ( 2.9636) 0.0023. Závěr: Pro α > 0.23 % můˇzeme zamítnout hypotézu, ˇze alkoholismus matky nesniˇzuje IQ dětí. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 6 / 23 Párový pokus Příklad: Porovnání průměrných teplot na dvou místech. Teploty měříme vˇzdy současně na obou místech. Rozptyl v obou skupinách má společnou příčinu, která se projevuje v obou výběrech stejně: výběry nejsou navzájem nezávislé. Rozdíl teplot (pokud nějaký existuje) můˇze být malý v porovnání s proměnlivostí teplot (v noci 0 st. Celsia, ve dne 20 st. Celsia), proto standardní test středních hodnot můˇze být slabý kvůli velkému rozptylu. Předpoklad: Prvky náhodných výběrů X n a Y n, tj. náhodné veličiny X j, Y j, j,..., n, mají normální rozdělení N(µ j, ) s konstantním rozptylem a proměnnými středními hodnotami µ j E X j E Y j. Náhodné veličiny U j : X j µ j a V j : Y j µ j, j,..., n, jsou nezávislé a mají rozdělení N(0, ). Náhodné veličiny j : U j V j X j Y j, j,..., n, jsou nezávislé a mají rozdělení N(0, σ 2), kde σ2 2σ2. ) ( ) Výběrový průměr má rozdělení N (0, σ2 n N 0, 2σ2 n. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 7 / 23 4
Testy středních hodnot: párový pokus. Pro známý rozptyl : Neznámé parametry sdruˇzeného rozdělení jsou µ,..., µ n, ale nepotřebujeme je. Testujeme T : X Y n n σ na rozdělení N(0, ). 2. Pro neznámý rozptyl: Neznámé parametry sdruˇzeného rozdělení jsou, µ,..., µ n, ale potřebujeme z nich pouze D X. Můˇzeme pracovat přímo s výběrem (,..., n ) z normálního rozdělení. Testujeme T : S n na rozdělení t(n ). P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 8 / 23 Příklad: Test středních hodnot, párový pokus Zadání: Vliv hydrochlorothiazidu na krevní tlak. Skupině hypertoniků byl nejprve změřen (systolický) tlak po podání placeba a o měsíc později po podání hydrochlorothiazidu (viz tabulka). Ověřte, ˇze hydrochlorothiazid sniˇzuje krevní tlak. Placebo (X) 2 20 20 203 96 90 9 77 73 70 63 Hydrochlorothiazid (Y) 8 72 96 9 67 6 78 60 49 9 56 Rozdíl ( ) 30 38 4 2 29 29 3 7 24 5 7 Řešení: Zavedli jsme náhodnou veličinu X Y, z níˇz máme k dispozici náhodný výběr n rozsahu n, i X i Y i, i,..., n. Zkusíme vyvrátit hypotézu H 0 : E X E Y, tj. E 0. n, δ 24, s δ 3.092 Realizace testové statistiky: t δ 24 n 6.08 s δ 3.092 Dosaˇzená hladina významnosti: p F t(n ) (t) F t(0) (6.08) 5.94 0 5. Závěr: Zamítáme H 0 a přijímáme H A, tj. hydrochlorothiazid sniˇzuje krevní tlak. Poznámka: Byl tento experiment dobře navrˇzen? P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 9 / 23 5
Recept: Test rozptylů dvou normálních rozdělení Předpoklad: Máme 2 nezávislé výběry (X,..., X m ) z rozdělení N(E X, D X) a (Y,..., Y n ) z rozdělení N(E Y, D Y). Je-li D X D Y, pak také S 2. X SY 2. Realizaci testové statistiky t s2 X s 2 Y porovnáme s kvantily Fisherova rozdělení F(m, n ): H 0 H A H 0 zamítáme, kdyˇz dosaˇzená významnost P D X D Y D X > D Y t > q F(m,n ) ( α) F F(m,n ) (t) D X D Y D X < D Y t < q F(m,n ) (α) F F(m,n ) (t) D X D Y D X D Y t > q F(m,n ) ( α 2 ) nebo 2 min(f F(m,n )(t), t < q F(m,n ) ( α 2 ) F F(m,n )(t)) P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 0 / 23 F-rozdělení Fisherovo-Snedecorovo rozdělení F(ξ, η) s ξ a η stupni volnosti je rozdělení náhodné veličiny F U ξ V η, kde U a V jsou nezávislé náhodné veličiny s rozdělením χ 2 (ξ), resp. χ 2 (η). V našem případě, je-li D X D Y, pak U : (m )S2 X V : (n )S2 Y ξ : m, η : n, má rozdělení χ 2 (m ), má rozdělení χ 2 (n ), F U ξ V η (m )S 2 X (m ) (n )SY 2 (n ) S 2 X SY 2 T, kde T je testová statistika testu z předchozího slidu. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství / 23 6
Test rozptylů: praktické poznámky Pro kaˇzdou hladinu významnosti potřebujeme 2D tabulku kvantilů indexovanou ξ a η. Obvykle je tabelována jen polovina, druhou je třeba dopočítat podle vzorce q F(ξ,η) (α) q F(η,ξ) ( α). POZOR na opačné pořadí indexů! V praxi se často pouˇzívá alternativní postup:. Pro s 2 x s 2 y testujeme t s2 x s 2 na rozdělení F(m, n ): y H 0 H A H 0 zamítáme, kdyˇz dosaˇzená významnost P D X D Y D X > D Y t > q F(m,n ) ( α) F F(m,n ) (t) D X D Y D X < D Y nezamítáme ˇzádná D X D Y D X D Y t > q F(m,n ) ( α 2 ) 2( F F(m,n )(t)) 2. Pro s 2 x s 2 y testujeme t s2 y s 2 na rozdělení F(n, m ): x H 0 H A H 0 zamítáme, kdyˇz dosaˇzená významnost P D X D Y D X > D Y nezamítáme ˇzádná D X D Y D X < D Y t > q F(n,m ) ( α) F F(n,m ) (t) D X D Y D X D Y t > q F(n,m ) ( α 2 ) 2( F F(n,m )(t)) P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 2 / 23 Příklad: test rovnosti rozptylů Zadání: Vliv alkoholismu matky na inteligenci dítěte. Otestujte hypotézu, ˇze rozptyl v obou skupinách je shodný. Skupina : matky chronické alkoholičky, m 6, x 78, m i (x i x) 2 805. Skupina 2: kontrolní, normální matky, n 46, y 99, n j (y j y) 2 520. Řešení: Otestujme H 0 : D X D Y. Realizace testové statistiky: t s2 x s 2 y m m i (x i x) 2 n n j (y j y) 2 Dosaˇzená hladina významnosti: 805 5 520 45.4. p 2 min(f F(m,n ) (t), F F(m,n ) (t)) 2 min(f F(5,45) (.4), F F(5,45) (.4)) 2 min(0.76, 0.24) 0.48. Rozdíl rozptylů mezi skupinami není statisticky významný, nezamítáme H 0 o rovnosti rozptylů. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 3 / 23 7
Recept: Testy parametrů dvou alternativních rozdělení Předpoklad: Máme 2 nezávislé výběry X m (X,..., X m ) z rozdělení Ber(q ) a Y n (Y,..., Y n ) z rozdělení Ber(q 2 ). Platí-li q q 2 q, můˇzeme pro parametr q pouˇzít maximálně věrohodný odhad pomocí obou výběrů: R mx + ny m+n. Pro dostatečně velké rozsahy výběrů (m > 00, n > 00) lze rozdělení výběrových relativních četností X a Y aproximovat normálními rozděleními: ( ) R( R) X má přibliˇzně rozdělení N R,, m ( Y má přibliˇzně rozdělení N R, R( R) n ( R( R) X Y má přibliˇzně rozdělení N 0, + m Testovou statistiku T : X Y R( R) m + R( R) n testujeme na rozdělení N(0, ). X Y R( R)( m + n ), takˇze ) ) R( R). n P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 4 / 23 Příklad: Test rovnosti populačních pravděpodobností Zadání: Přijímací řízení na Berkeley v roce 973. Z 8300 přihlášených muˇzů bylo přijato 3700, z 4300 přihlášených ˇzen bylo přijato 500. Ověřte hypotézu, ˇze pravděpodobnost přijetí muˇzů a ˇzen je stejná. Řešení: Oboustranný test hypotézy o rovnosti pravděpodobnosti přijetí pro muˇze q m a ˇzeny q z : Počet přihlášených muˇzů je m 8300 a ˇzen n 4300. Realizace relativních výběrových četností (úspěšnost) je pro muˇze x 3700 500 8300 0.4458 a pro ˇzeny y 4300 0.3488. Platí-li q m q z q, můˇzeme q odhadnout pomocí r mx+ny m+n 8300+4300 3700+500 0.427. Realizace testové statistiky je t x y ) r( r)( 0.4458 0.3488 ) m + n 0.427( 0.427)( 0.4802 8300 + 4300 Dosaˇzená hladina významnosti p 2( Φ(t)). 0. Závěr: Zamítáme H 0, na základě těchto dat existuje jen mizivá šance, ˇze by pravděpodobnosti přijetí muˇze a ˇzeny mohly být shodné. Je to důkaz pohlavní diskriminace? P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 5 / 23 8
Příklad: Test rovnosti populačních pravděpodobností (pokr.) Zadání: Přijímací řízení na Berkeley v roce 973. Tentokrát zohledněme i to, na jaký směr (umění nebo věda) se zájemci hlásili. Řešení: Kromě celkových výsledků z předchozího slidu, níˇze uvedená tabulka obsahuje stejné výsledky také pro kaˇzdý směr zvlášt. Závěry: Muˇzi Ženy Celkem Test Přihl. Přij. Poměr Přihl. Přij. Poměr Poměr Stat. Dos. význ. Směr m x n y r t p Umění 2300 700 0.3043 3200 900 0.283 0.2909.8604 0.0628 Věda 6000 3000 0.5000 00 600 0.5455 0.5070-2.7720 0.0056 Celkem 8300 3700 0.4458 4300 500 0.3488 0.427 0.4802 0.0000 V uměleckých směrech nelze zamítnout hypotézu o stejné pravděpodobnosti přijetí muˇzů a ˇzen. Ve vědeckých směrech tuto hypotézu zamítnout lze, dosaˇzená hladina významnosti je cca 0.5 %. Zajímavé ovšem je, ˇze na uměleckých směrech, kam se hlásí více ˇzen, mají vyšší pravděpodobnost přijetí muˇzi, zatímco na vědeckých směrech, kam se hlásí více muˇzů, mají vyšší pravděpodobnost přijetí ˇzeny. Dochází tedy spíše k pozitivní diskriminaci. Simpsonův paradox: Co platí pro části, nemusí platit pro celek. Muˇzi a ˇzeny jsou přijímáni přibliˇzně shodně. Ženy ovšem mají tendenci hlásit se na umělecké směry, kde je výběr přísnější, coˇz vysvětluje jejich celkově niˇzší úspěšnost v přijímačkách. Z celkových čísel nelze správně pochopit efekt pohlaví na přijetí kvůli matoucímu faktoru (směr), který nebyl řízen. Kdyˇz se zařadil do studie, dostali jsme mnohem přesnější obrázek. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 6 / 23 Alternativy 7 / 23 Porovnání polohy 2 rozdělení: neparametrický test Co dělat, pokud předpoklady 2výběrového t-testu nejsou splněny? Pouˇzijte neparametrický test, např.: Mann-Whitneyův U-test: Jsou-li pozorování ordinální, testuje hypotézu H 0, ˇze rozdělení v obou skupinách jsou shodná, proti alternativní hypotéze H A, ˇze jedno z rozdělení má sklon generovat větší hodnoty neˇz druhé. Při přísnějších předpokladech (pozorování spojitá, rozdělení se mohou lišit jen v poloze), jej lze interpretovat jako test rovnosti mediánů. Testová statistika U: Přímá metoda: porovnej kaˇzdý prvek skupiny s kaˇzdým prvkem skupiny 2; kaˇzdou výhru počítej jako, remízu jako 0.5 U. Nepřímá metoda: Seřad prvky obou skupin dohromady, kaˇzdému prvku přiřad pořadí r i. R je součet pořadí prvků ve skupině. U n n 2 + n (n + )/2 R. Testujeme U min(u, n n 2 U ). Pro malé výběry spec. tabulky. Pro n > 20 a n 2 > 20 lze pouˇzít normální aproximaci a testovat na N(0, ). T U M U, kde M U n n 2 U + U 2 S U 2 2 n n S U 2 (n + n 2 + ), 2 P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 8 / 23 9
Test rovnosti středních hodnot ve více neˇz 2 skupinách Analýza rozptylu (Analysis of Variance, ANOVA): Máme někollik (a) skupin dat, mají rozdělení N(µ i, ) Testujeme H 0 : µ µ 2... µ a prostřednictvím testu rovnosti 2 rozptylů. Pokud H 0 platí, máme 2 moˇznosti, jak odhadnout rozptyl :. Z rozdělení výběrových průměrů: pro skupiny o stejné velikosti n S 2 A ns2 X n a a (X j X) 2, coˇz lze pro skupiny různých velikostí přepsat jako j a a n j (X j X) 2 j 2. Z rozptylů v jednotlivých skupinách (sdruˇzený odhad jako u dvouvýběrového t-testu): S 2 E n i (X,i X ) 2 + n 2 i (X 2,i X 2 ) 2 +...+ na i (X a,i X a ) 2 (n )+(n 2 )+...+(n a ) Pokud H 0 platí, odhadují obě náhodné veličiny totéˇz, a proto poměr F S2 A S 2 by měl být roven přibliˇzně. E Pokud H 0 neplatí, S 2 A roste, S2 E zůstává přibliˇzně stejné. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 9 / 23 Rozklad variability SS... sum of squares, součet čtverců Celková variabilita: SS T Vnitroskup. (reziduální) variabilita: SS E Meziskupinová variabilita: SS A a n j SS T (X j,i X) 2 j i x 2 x 22 x 33 x x 32 x 23 SS T SS A + SS E x 3 x 24 x 3 x 34 x 2 x 25 a n j SS E (X j,i X j ) 2 j i x 2 x 33 a SS A j x 2 n j (X j X) 2 x 33 x 22 x 22 x x 32 x x 32 x 23 x 23 x 3 x 24 x 3 x 34 x 3 x 24 x 3 x 34 x 2 x 25 x 2 x 25 P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 20 / 23 0
Tabulka ANOVA Typický výstup statistického softwaru: MS (Mean square): odhad rozptylu Zdroj Součet čtverců Stupně volnosti Průměrný čtverec Poměr variability SS d.f. MS d. SS f. F Faktor A SS A a j n j(x j X) 2 a MS A SS A a Zbytek SS E a j n j i (X j,i X j ) 2 a j (n j ) MS E SS E (n j ) Celkem SS T a j n j i (X j,i X) 2 a j n j F MS A MS E MS A S 2 A a MS E S 2 E jsou odhady populačního rozptylu. Pokud se průměry µ i ve skupinách liší, MS A roste, ale MS E stále odhaduje společný rozptyl. Testová statistika F má také význam F MS A MS E S2 A S 2 E vysvětlený rozptyl meziskupinový rozptyl nevysvětlený rozptyl vnitroskupinový rozptyl a má Fisherovo rozdělení s a s.v. pro čitatel a s (n j ) s.v. pro jmenovatel. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 2 / 23 Příklad Zjistěte, zda se liší BMI pacientů pro různé druhy fyz. zátěˇze v zaměstnání (: sedí, 2: stojí, 3: chodí, 4: nosí těˇzké předměty). 45 40 35 Values 30 25 20 Source SS df MS F Prob>F Groups 90.4050 3 30.350 3.0906 0.0262 Error.3329e+004 367 9.7507 Total.3420e+004 370 Dosaˇzená hladina významnosti (poslední sloupeček) p 2.62 %. 2 3 4 P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 22 / 23
Předpoklady Nezávislost jednotlivých pozorování Nezávislost jednotlivých skupin Normální rozdělení sledované veličiny ve všech skupinách (Kolmogorov-Smirnovův test, Shapiro-Wilkův test, χ 2 test dobré shody) Shoda rozptylů ve skupinách (Bartlettův test, Levenův test, Hartleyův test) Při porušení posledních dvou předpokladů je moˇzné pouˇzít neparametrickou, tzv. Kruskal-Wallisovu ANOVu. P. Pošík c 205 A6M33SSL: Statistika a spolehlivost v lékařství 23 / 23 2