motivační příklad Párový Párový Příklad (Platová diskriminace) firma provedla šetření s cílem zjistit, zda dochází k platové diskriminaci žen Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 1 do studie zahrnuto 100 náhodně vybraných zaměstnanců, z toho 35 žen a 65 mužů měsíční plat žen X35 = 20685.5 Kč měsíční plat mužů Y65 = 21364.4 Kč lze z těchto výsledků usuzovat, že muži mají (v dané firmě) obecně vyšší platy než ženy? 1 Založeno na materiálech doc. Michala Kulicha motovační příklad Párový Otázka: Mají muži vyšší příjem než ženy? přesnější formulace zajímá nás zřejmě porovnání středních hodnot platů mužů a žen, EX a EY porovnání X a Y náhodné veličiny jiný náhodný výběr by zahrnul jiných 100 zaměstnanců dostali bychom odlišné výběrové průměry X a Y Je rozdíl Y X = 678.9 > 0 Kč dostatečně průkazný na to, abychom mohli tvrdit, že muži mají (v dané firmě) obecně vyšší platy než ženy? Nebo je to jen vliv náhody? Párový = vyhodnocování pravdivostní hodnoty výroků na základě náhodného výběru (tj. ověřování platnosti nějakého výroku) provádíme pomocí statistických testů Hypotéza = výrok, o jehož pravdivosti chceme rozhodnout nulová a H0 tvrzení o populaci, o jehož platnosti rozhodujeme (není rozdíl, nezávisí, neliší se,...) alternativní a H1: alternativa (doplňující možnost) k H0 často tvrzení, které chceme prokázat
Statistický test Chyba I. a II. druhu Párový Statistický test = rozhodovací pravidlo, na jehož základě zamítáme nebo nezamítáme H0 testová Tn = Tn(X1,...,Xn) = náhodná veličina, která je funkcí pozorování X1,...,Xn kritický obor C = možné výsledky pokusu, kdy H0 zamítáme Párový rozhodujeme na základě náhodného výběru nemůžeme testovanou otázku zodpovědět s absolutní jistotou můžeme se dopustit chyby tyto chyby se budeme snažit omezit (resp. kontrolovat jejich pravděpodobnosti) Označíme: H0 zamítáme H0 nezamítáme H0 platí chyba 1. druhu OK H0 neplatí OK chyba 2. druhu α = P(chyba 1. druhu) = P(zamítáme H0 H0 platí) β = P(chyba 2. druhu) = P(nezamítáme H0 H0 neplatí) Přirozený požadavek: α,β min bohužel nelze současně Chyba I. a II. druhu Dosažená hladina testu Párový zvoĺıme hladinu testu α (zpravidla α = 0.05) maximální dovolená pst chyby 1. druhu maximální pst falešného prokázání vědecké y voĺıme před pokusem, nezávisle na jeho výsledku pro dané α chceme minimální β maximální 1 β síla testu 1 β pst zamítnutí neplatné H0 pst, s jakou prokážeme platnou vědeckou u H1 nemáme pod kontrolou (závisí na tom, co opravdu platí) můžeme ovlivnit volbou statistického testu, počtem pozorování,... Párový Dosažená hladina testu p-hodnota (angl. p-value) pravděpodobnost, že dostaneme výsledek, který stejně nebo ještě méně podporuje H0, jestliže H0 platí nejmenší hladina α, na které lze ještě H0 zamítnout stupeň důvěry v platnost H0 výsledek provedení statistického testu pomocí softwaru Pravidlo: je-li p α zamítáme H0 α máme plně pod kontrolou, o β toho moc nevíme (chyba 1. druhu je závažnější) je-li p > α nezamítáme H0 (Zapamatovat!)
Nesymetrie H 0 a H 1 Párový H0 a H1 nejsou posuzovány symetricky: H0 považujeme a priori za platnou a zamítáme ji jen tehdy, pokud k tomu máme dostatečně silné důvody pokud jsme zamítli H0 můžeme tvrdit, že data svědčí o tom, že H0 neplatí (a prokazujeme platnost H1) pokud jsme H0 nezamítli pak bud H0 opravdu platí anebo H0 neplatí, ale data neposkytují dostatečné důkazy k jejímu zamítnutí (malá síla testu) nutné volit opatrné formulace závěrů (u H0 nelze na základě našich dat zamítnout apod.) Párový Minule: filozofie testování testy střední hodnoty v normálním rozdělení (při známém a neznámém σ 2 ) spec. jednovýběrový Studentovo t-rozdělení intervalové odhady Závěr Hypotézu H0 nemůžeme prokázat, ale pouze vyvrátit : : Příklad Párový Situace: X1,...,Xn náhodný výběr z normálního rozdělení N(µ,σ 2 ), kde σ 2 neznáme. Chceme testovat proti H0 : µ = µ0 H1 : µ µ0 Párový Příklad Provádíme průzkum, jaký skutečný objem piva točí v nejmenované hospodě. Zakoupeno bylo 10 piv a jejich objem byl (v litrech): 0.510, 0.462, 0.491, 0.466, 0.461, 0.503, 0.495, 0.488, 0.512, 0.505. Testová Tn = n X µ0 má tn 1 rozdělení. Test: je-li Tn > tn 1(1 α 2 ), pak zamítáme H0. Jiné možné altervativy: H1 : µ < µ0 nebo H1 : µ > µ0 modifikace testu Sn Z pohledu zákazníka bychom chtěli otestovat, zda hostinský netočí pod míru. Model: Předpokládejme, že datům odpovídají nezávislé náhodné veličiny s normálním rozdělením N(µ,σ 2 ) Hypotézy: H0 : µ = 0.5 proti H1 : µ < 0.5
Příklad pokrač. Příklad výpočet v programu R spočteme odtud X = 0.4893, S = 0.0197. >t.test(pivo,mu=0.5,alternative= less ) One Sample data: pivo Párový Tn = n X 0.5 S = 10 0.4893 0.5 = 1.7148 0.0197 H0 zamítáme, pokud Tn < t9(0.95) = 1.833 nerovnost neplatí H0 nelze na hladině významnosti 5 % zamítnout nelze prokázat, že by hostinský točil pivo pod míru (bud skutečně pod míru netočí nebo tak málo, že tuto odchylku nemůžeme na základě našich dat prokázat) Párový t = -1.7148, df = 9, p-value = 0.06026 alternative hypothesis: true mean is less than 0.5 95 percent confidence interval: Inf 0.5007382 sample estimates: mean of x 0.4893 p-hodnota < 0.05 nezamítáme H0 na hladině 5 % Problém Matematický zápis Párový Příklad na každém subjektu měřímě dvě veličiny otázka: Mají tyto dvě veličiny stejnou střední hodnotu? Neboli, jsou co do polohy stejné? Věk rodičů: Jsou otcové starší než matky? Účinnost redukční diety: Je hmotnost po dietě nižší než před ní? Úspěšnost reklamní kampaně: Je prodejnost výrobku vyšší po kampani než před ní? Jsou dvojčata stejně inteligentní?... Párový párová pozorování (X1,Y1),...,(Xn,Yn) nezávislé dvojice náhodných veličin náhodný výběr z dvourozměrného rozdělení Xi a Yi měřeny na stejném subjektu i příklady: věk matky a věk otce, hmotnost před a po redukční dietě,... µx = EXi, µy = EYi chceme otestovat u H0 : µx = µy proti H1 : µx µy. (příp. proti jednostranným H1)
Párový Párový Párový Idea: zavedeme Zi = Xi Yi rozdíly (např. rozdíl věku rodičů) předpoklad Z1,...,Zn stejné rozdělení normální zjevně µz = µx µy, a proto H0 : µx = µy platí platí µz = 0 střední hodnota Xi a Yi je stejná Xi koĺısají kolem nuly úloha převedena na jednovýběrový test Párový definujeme Zi = Xi Yi, i = 1,...,n předpokládáme, že Z1,...,ZN náhodný výběr z N(µZ,σ 2 ) test H0 : µz = 0 proti H1 : µz 0 jednovýběrový : spočteme Z odhad µz, S 2 odhad σ 2 testová Tn = n Z S = n X Y S H0 zamítáme ve prospěch H1 : µ 0, pokud Tn > tn 1(1 α/2) ve prospěch H1 : µ > 0, pokud Tn > tn 1(1 α) ve prospěch H1 : µ < 0, pokud Tn < tn 1(1 α) Párový : Poznámky Příklad věk otce vs. věk matky Párový Obecnější y: lze testovat obecněji H0 : µx µy = δ testová : Tn = Zn δ n S Porušení předpokladů: test dodržuje požadovanou hladinu α, pokud Zi mají normální rozdělení, nebo počet pozorovaných dvojic n je dost velký (n > 50) jestliže normalitu nelze předpokládat je-li n dost velké lze párový je-li n malé párový test může dávat nesprávné výsledky nutné použít jiný postup (Wilcoxonův párový test) Párový Otázka: Jsou otcové studentů vyšší než matky studentů? n = 256 studentů z let 2006 2011 věk otce a věk matky X - věk otce, Y - věk matky, Z = X Y rozdíl věků test H0 : µz = 0 proti H1 : µz > 0 na hladině α = 0.05 vypočteme X = 48.88, Y = 46.60, Z = 2.28, S = 4.12 testová Tn = 256 2.28 4.12 = 8.85 kritická hodnota t255(0.95) = 1.65
Příklad věk otce vs. věk matky Příklad Věk otce vs. věk matky Párový Tn = 8,85 > t255(0.95) = 1.65 zamítáme u H0 : µx = µy ve prospěch H1 : µx > µy p-hodnota < 10 16 Závěr: Prokázali jsme, že střední věk otců je statisticky významně vyšší než střední věk matek Párový Otázka: Je střední hodnota věku otce přesně o dva roky vyšší než střední hodnota věku matky? nyní test H0 : µz = 2 proti H0 : µz 0 testová : Tn = 256 2.28 2 = 1.078 4.12 Ověření předpokladu normality: graficky histogram, QQ graf Shapirův-Wilkův test: p-hodnota 6 10 14 normalitu dat nelze předpokládat; nicméně n dostatečně vysoké párový lze použít kritická hodnota t255(0.975) = 1.970 neplatí Tn > 1.97 nelze zamítnout H0 (p-hodnota 0.282) Závěr: Střední věk otců je bud přesně o dva roky vyšší než střední věk matek anebo je rozdíl středního věku tak bĺızko 2 rokům, že odchylku od 2 let na základě nasbíraných dat nedokážeme rozpoznat. Příklad Věk otce vs. věk matky Párový 95 % intervalový odhad rozdílu věku rodičů: obecný vzorec ( Z S tn 1(1 α/2),z + S ) tn 1(1 α/2) n n dosadíme: (1.771, 2.784) interval, který s pravděpodobností 95 % pokryje skutečný rozdíl středních hodnot věku rodičů hodnota 2 leží v tomto intervalu Párový Řešení v programu R: > t.test(vek.otce,vek.matky,mu=2,paired=t) Paired data: vek.otce and vek.matky t = 1.0782, df = 255, p-value = 0.282 alternative hypothesis: true difference in means is not equal to 2 95 percent confidence interval: 1.770783 2.783904 sample estimates: mean of the differences 2.277344
problém Matematický zápis Párový jedna veličina měřená ve dvou nezávislých skupinách m nezávislých pozorování Xi a n nezávislých pozorování Yj navzájem nezávislé zajímá nás porovnání jejich středních hodnot Párový Model: dva nezávislé náhodné výběry X1,...,Xm z normálního rozdělení N(µX,σ 2 X ) Y1,...,Yn z normálního rozdělení N(µY,σ 2 Y ) Příklad předpoklad: shodné rozptyly σ 2 X = σ2 Y výška mužů a žen jsou muži vyšší než ženy? (je v jejich průměrné výšce systematický rozdíl?) plat mužů a žen je plat mužů stejný jako plat žen? (je v platech mužů a žen rozdíl, který se projevuje ve střední hodnotě?) liší se výše cholesterolu u kuřáků a nekuřáků? Chceme otestovat H0 : µx = µy proti H1 : µx µy (resp. proti jednostranným alternativám) dvouvýběrový : odvození : odvození Párový Idea: porovnáme průměry X a Y velký rozdíl zamítnutí y H0 je třeba brát v úvahu také rozsahy výběrů a rozptyl Testová : X Y mn T = S.E.(X Y) = Xm Yn, m+n S Párový Společný odhad rozptylu: umíme odhadnout σ 2 z každého výběru zvlášt pomocí výběrových rozptylů SX 2 = 1 m (Xi Xm) 2 m 1 i=1 SY 2 = 1 n (Yi Yn) 2 n 1 i=1 kde S je společný odhad rozptylu σ 2 spočítaný z obou výběrů vezmeme vážený průměr S 2 1 [ = (m 1)S 2 m+n 2 X +(n 1)SY] 2 Sm,n 2 1 [ = (m 1)S 2 m+n 2 X +(n 1)SY] 2
Rozdělení testové statistiky : Párový Model: dva nezávislé náhodné výběry X1,...,Xm z normálního rozdělení N(µX,σ 2 X ) Y1,...,Yn z normálního rozdělení N(µY,σ 2 Y ) shodné rozptyly σ 2 X = σ2 Y Pak za H0 : µx = µy má testová mn Xm Yn T =, m+n S tm+n 2 rozdělení, tj. t-rozdělení s m + n 2 stupni volnosti. Párový H0 : µx = µy zamítáme ve prospěch alternativy ) H1 : µx µy když T > tm+n 2( 1 α ( ) 2 H1 : µx > µy když T > tm+n 2 1 α ( ) H1 : µx < µy když T < tm+n 2 1 α zamítáme-li H0, říkáme, že rozdíl ve výběrových průměrech je statisticky významný Poznámka lze obecnější a H0 : µx µy = δ testová mn Xm Yn δ T = m+n S Ověření předpokladů Příklad plat Párový Normalita ověření normality pro každý výběr zvlášt pro velká n, m porušení normality velmi nevadí Shoda rozptylů S 2 X a S2 Y podobné F-test shody rozptylů H0 : σ 2 X = σ2 Y proti H1 : σ2 X σ2 Y pochyby o shodě Welschův test (modifikace u) Welschův test: model: nezávislé výběry X1,...,Xm z normálního rozdělení N(µX,σ 2 X ) a Y1,...,Yn z normálního rozdělení N(µY,σ2 Y ) stejná testová T T již nemá rozdělení tm+n 2 Párový Problém: Je plat mužů vyšší než plat žen? 100 náhodně vybraných zaměstnanců měsíční plat v Kč 35 žen a 65 mužů X plat žen, Y plat mužů Předpoklady: rozsah průměr směr. odchylka ženy 35 20 686 5 180 muži 65 21 364 4 334 normalita muži p-hodnota 0.134 normalita ženy p-hodnota 0.310 test shody rozptylů p-hodnota 0.218
25 20 15 10 5 0 10000 15000 20000 25000 30000 10000 15000 20000 25000 30000 Příklad grafické znázornění Příklad předpoklady zena muz Párový Plat 10000 15000 20000 25000 30000 zena Pohlavi muz Párový Sample Quantiles Percent of Total 10000 15000 20000 25000 30000 Plat Q Q graf 2 1 0 1 2 Sample Quantiles 15000 20000 25000 30000 Q Q graf 2 1 0 1 2 Theoretical Quantiles Theoretical Quantiles Příklad řešení Příklad řešení Párový H0 : µx = µy proti H1 : µx < µy společný odhad rozptylu S 2 = 35 1 35+65 1 43342 + 65 1 35+65 1 51802 = 23797116 testová 35 65 T = 100 20686 21364 = 0.700 23797116 kritická hodnota t98(0.95) = 1.661 na základě našich dat nelze zamítnout H0 Párový Řešení v programu R: > t.test(zeny,muzi,var.equal=t,alternative= less ) Two Sample data: zeny and muzi t = -0.6971, df = 98, p-value = 0.2437 alternative hypothesis: true difference in means is less than 0 95 percent confidence interval: -Inf 938.2113 sample estimates: mean of x mean of y 20685.51 21364.37
Shrnutí Porušení normality Párový Testy o střední hodnotě 1 jeden výběr jednovýběrový normalita (není nezbytné při dostatečně velkém rozsahu výběru) 2 párová pozorování párový normalita rozdílu (není nezbytné při dostatečně velkém rozsahu výběru) 3 dva nezávislé výběry dvouvýběrový nezávislost normalita (není nezbytné při dostatečně velkém rozsahu výběru) shoda rozptylů (neplatí-li použít Welshův test) Párový Jestliže nelze normalitu předpokládat a rozsah výběru je malý nutné použít jiné testy, které předpoklad normality nepotřebují neparametrické testy založeny na pořadí pořadové testy Uvedeme si jednovýběrový Wilcoxonův test dvouvýběrový Wilcoxonův test