Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 180(4) Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu porovnáváme stejný kvantitativní znak ve dvou populacích máme dva nezávislé výběry z těchto populací co když nelze předpokládat normální rozdělení? nechťx 1,...,X n1 ay 1,...,Y n jsounezávislévýběryze spojitého rozdělení(například věk matek, střední délka života mužůpřinarozenívedvouskupináchzemí,potratovost...) H 0 tvrdí,žeoběrozděleníjsoustejná(mezipopulaceminení rozdíl, zpravidla nás zajímá, že není rozdíl v mírách polohy) specielně to znamená, že populační mediány jsou shodné postupzaložennapořadíbezohledunavýběr idea: kdyby nebyl mezi populacemi rozdíl, byla by takto zjištěná průměrná pořadí v obou výběrech podobná Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 181(4) příklad: potraty na 1000 obyv.(čechy vers. Morava) vroce003 kraj Pha Stč Jč Pl KV Ús Lb potratovost 4,03 4,0 4,11 4,70 5,5 5,80 4,98 pořadí 7 8 10 13 11 kraj HK Par Vys JM Ol Zl MS potratovost 4,33 3,38 3,57 3,70 3,5 3,4 3,87 pořadí 9 1 4 3 5 H 0 :shodapopulací(zejm.mediánů),h 1 :neshoda nejasné, kam patří kraj Vysočina; vynecháme jej průměrné pořadí českých krajů: 77/9=8,5 W 1 =7++8+10++13+11+9+1=77 průměrné pořadí moravských krajů: 14/4=3,5 W =4+3++5=14 Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 18(4) přibližnérozhodování(n 1,n desítky) W 1,W součtypořadí,w 1 standardizujeme W 1 n 1 (n 1 +n +1)/ n1 n (n 1 +n +1)/ za hypotézy(není rozdíl mezi populacemi) je použitím centrálnílimitnívětyz N(0,1) hypotézuzamítáme,je-li Z z(α/) náš příklad: [wilcox.test(potr Cechy)] 77 9 14/ =,1 >1,9=z(0,05/) p=3,1% 9 4 14/ na 5% hladině jsme prokázali rozdíl
Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 183(4) přesný výpočet p-hodnoty Wilcoxonova testu zajímánás,nakolikjenášvýsledek(w 1 =77,W =14) výjimečný mámecelkemn 1 +n =13pozorování,čtyřiznich(tolikjich jevmenšískupině,zmoravy)lzevybratcelkem ( 13) 4 =715 způsoby kolikztěchtozpůsobůvedektakextrémněnestejným průměrným pořadím? budeme hledat, kolik čtveřic označených za moravské by dalo v součtu nejvýš 14, jak nám doopravdy vyšlo vždyplatíw 1 +W =(n 1 +n )(n 1 +n +1)/=91 (součetčísel1++...+n 1 +n ) stačízabývatsejedinouzestatistikw 1,W,zpravidlatoupro menší výběr Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 184(4) přehled možných čtveřic v nichž je součet pořadí nejvýš 14 (čtveřicevybírámezčísel1,,...,13) 1 1 1 1 1 1 1 1 1 1 1 1 1 3 3 3 3 3 3 4 3 4 4 3 4 5 4 4 3 4 4 5 5 7 5 8 7 5 9 8 10 11 13 13 13 14 14 14 14 14 15 15 nejvýš 14 mohl být součet pořadí za platnosti hypotézy spravděpodobnostíp 1 =/715=0,0178 protože máme oboustrannou alternativu, musíme vzít v úvahu také situaci, kdy by byla na Moravě velká pořadí, p-hodnotu nutnozdvojnásobit:p=4/715=3,4% Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 185(4) příklad: klesá potratovost?(párový t-test zde nevhodný) potratů na 100 těhotenství Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 18(4) příklad: klesá potratovost? Y i Z i X i R + i 4,7 3,1 1, 4 5,7 3,,1 31, 7,9 3,7 4,3,,1 7,8 3,4 3,4 11 30, 7,9,7 10 1,1 1,5-0,4 1 3,5,0 -,5 8,9 4,3, 9,5 3,9-1,4 3 3,1 1, 1,9 5 4,9 5,7-0,8 použijemeúdajezokresůvletech 000(Y i )a001(z i ) hypotézah 0 :vobouletechpotratovost stejná, rozdíly dány náhodným kolísáním; H 1 :potratovostklesá(jednostrannáalt.) zah 0 byrozdílymělykolísatsymetricky kolem nuly zah 1 bymělypřevládatkladnérozdíly, spíše velké průměrnépořadíz8kladnýchrozdílů:8 (součetw=4),průměrnépořadíze4 záporných rozdílů 3,5(součet 14) 10 8 4 4 8 30 3 vývoj 10 8 4 0 1 3 velikost poklesu
Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 187(4) párový Wilcoxonův(Wilcoxon signed rank) test Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 188(4) rozhodování nechť(y 1,Z 1 )...,(Y n,z n )nezávislédvojice, rozdílyx i =Y i Z i majíspojitérozdělení H 0 :Y i,z i majístejnérozdělení(populacejsoustejné) mají-liy i,z i stejnérozdělení,pakrozdílyx i =Y i Z i jsou symetricky rozděleny kolem nuly postup vyloučitnulovéhodnotyxi (tedyshodnéhodnotyy i,z i ), podle toho případně zmenšit n určitpořadír + i absolutníchhodnot X i = Y i Z i určitw,tj.součetpořadípůvodněkladnýchhodnotxi podlew rozhodnout na základě centrální limitní věty lze použít W EW S.E.(W) = W n(n+1)/4 n(n+1)(n+1)/4 hypotézuoshodězamítneme,bude-li Z z(α/) při jednostranné alternativě porovnat Z a z(α) pro malý počet dvojic(do deseti) raději použít tabulky příklad(w=4,n=,jinakpřesnějep=,%) 4 13/4 13 5/4 =1,91 >1,45=z(0,05),p=,5% Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 189(4) poznámky k výpočtu Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 190(4) párový znaménkový(sign) test nezapomenout vyloučit nulové rozdíly shodným absolutním hodnotám rozdílům přiřadíme jejich průměrné pořadí Excel nám v takovém případě moc nepomůže, protože řeší problém shod nestandardně, např.: X i 4-5 - -4 7 X i 4 5 4 7 R + i 4,5 7 4,5 8 Excel 4 1 1 7 4 1 8 v tabulce patrné nestandardní chování Excelu [wilcox.test(pokles,alternative= greater )] hodnotí pouze počet kladných a záporných rozdílů, nezáleží na tom, jak jsou rozdíly veliké(slabší test než Wilcoxonův) H 0 :Y i,z i majístejnérozdělení;zahypotézyočekáváme,že počtykladnýchazápornýchx i jsoupodobné označmey početkladnýchx i zcelkemnnenulových,za hypotézyy bi(n,1/) přibližné rozhodování(centrální limitní věta) Y n/ Y n =, zamítatpro Z z(α/) n/4 n při jednostranné alternativě porovnáme Z a z(α)
Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 191(4) poznámky Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 19(4) souvisí spolu výšky rodičů? proznaménkovýtestnenítřebaznáthodnotyy i,z i,stačí vědět,kterázmožnostíy i >Z i,y i <Z i,y i =Z i nastala nášpříkladomožnémpoklesupotratovosti(n=,y=8) 8 =1,155, p=p(z >1,155)=0,4 při malých hodnotách n(do 30) se doporučuje Yatesova korekce Y n 1 Z Yates = sign(y n) n náš příklad(yatesova korekce, jiným způsobem přesně p=0,194) výška otce 15 170 175 180 185 190 195 8 1 1=0,8, p=1 Φ(0,8)=0,193 155 10 15 170 175 180 185 výška matky Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 193(4) prokazování závislosti spojitých veličin Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 194(4) příklad: výšky rodičů víme,žepronezávisléx,y je ρ X,Y =0 r xy jeodhadem ρ X,Y ;jakdalekoodnulymusíbýtr xy, abychomnahladině αprokázalizaávislostx,y? zapředpokladu,žex,y majínormálnírozdělení(nebopočet pozorovanýchdvojicx i,y i jevelký),hypotézunezávislosti zamítámepokudje T t n (α),kde T= r 1 r n pron=99dvojicbylspočítánkorelačníkoeficientr=0,05; T= 0,05 1 0,05 97=,07 >t97 (0,05)=1,98 na 5% hladině jsme závislost prokázali t 97 (0,01)=,3,tudížna1%hladinějsmezávislost neprokázali výška zpravidla splňuje předpoklad o normálním rozdělení [cor.test( vyska.m+vyska.o,data=kojeni)] [CORREL(x;y)](pouze výpočet korelačního koeficientu) není-li normální rozdělení a nemnoho pozorování, raději použít Spearmanův korelační koeficient
Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 195(4) příklad: výšky rodičů Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 19(4) Spearmanův korelační koeficient výška otce 15 170 175 180 185 190 195 y=b[0]+b[1]x x=c[0]+c[1]y 155 10 15 170 175 180 185 místopůvodníchhodnotx i,y i používájejichpořadír i,q i je to vlastně Pearsonův korelační koeficient použitý na pořadí výpočet lze upravit, zjednodušit na r S =1 n(n 1) n (R i Q i ) vhodný pro nelineární monotonní závislost, nevadí odlehlé hodnoty i=1 při testování nemusí být normální rozdělení výška matky Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 197(4) příklad: alkohol a úmrtnost na cirhózu Mann-Whitney párový Wilcoxon párový znaménkový (Pearsonův) korel. koef. Spearmanův korel. koef. 198(4) cirhóza jater a spotřeba alkoholu země spotřeba úmrtnost R i Q i R i Q i Finsko 3,9 3, 1 3 - Norsko 4, 4,3 5-3 Irsko 5, 3,4 3 1 Holandsko 5,7 3,7 4 4 0 Švédsko,0 7, 5 7 - Anglie 7, 3,0 1 5 Belgie 10,8,3 7 8-1 Rakousko 10,9 7,0 8 SRN,3 3,7 9 10-1 Itálie 15,7 3, 10 9 1 Francie 4,7 4,1 11 11 0 úmrtnost 10 0 30 40 ( r S =1 +3 +... ) =0,773 11 0 r = 0,95 zdánlivě mnohem těsnější závislost! 5 10 15 0 5 alkohol