Katedra pravděpodobosti a matematické statistiky Oborový semiář χ 2 test ezávislosti Petr Míchal 27 listopadu 2017
Situace 2 X {1,, I}, Y {1,, J} Jsou X a Y ezávislé? K dispozici máme áhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y )
Začeí Model: X {1,, I}, Y {1,, J}, Náhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y ) N i,j = k=1 1 [X k = i, Y k = j] pozorovaé četosti N i,+ = J j=1 N i,j, N +,j = I i=1 N i,j pozorovaé margiálí četosti p i,j = P (X 1 = i, Y 1 = j) pravděpodobosti jedotlivých skupi p i,+ = J j=1 p i,j, p +,j = I i=1 p i,j margiálí pravděpodobosti p (i),j = P (Y 1 = j X 1 = i), p i,(j) = P (X 1 = i Y 1 = j) podmíěé pravděpodobosti 3
Kotigečí tabulky 4 Y X 1 J Σ 1 p 1,1 p 1,J p 1,+ Y X 1 J Σ 1 N 1,1 N 1,J N 1,+ I p I,1 p I,J p I,+ Σ p +,1 p +,J 1 I N I,1 N I,J N I,+ Σ N +,1 N +,J (N 1,1,, N 1,I,, N J,1,, N I,J ) Mult I J (, (p 1,1,, p I,J ))
Testováí ezávislosti 5 X {1,, I}, Y {1,, J} Testujeme H 0 : X Y proti H 1 : H 0, Ekvivaletí zápisy ulové hypotézy: p i,j = p i,+ p +,j i, j p i,(j) = p i,+ i, j shodost rozděleí ve sloupcích p (i),j = p +,j i, j shodost rozděleí v řádcích
Testováí ezávislosti 5 X {1,, I}, Y {1,, J} Testujeme H 0 : X Y proti H 1 : H 0, Ekvivaletí zápisy ulové hypotézy: p i,j = p i,+ p +,j i, j p i,(j) = p i,+ i, j shodost rozděleí ve sloupcích p (i),j = p +,j i, j shodost rozděleí v řádcích Máme áhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y ) (N 1,1,, N 1,I,, N J,1,, N I,J ) Mult I J (, (p 1,1,, p I,J )) Idea: porovat pozorovaé četosti N i,j a očekávaé četosti za H 0 tj p i,j = p i,+ p +,j
Testováí ezávislosti 6 Máme MVO p i,j za H 0 ve tvaru N i,j / Testová statistika χ 2 = I i=1 j=1 J (N i,j N i,+n +,j N i,+ N +,j ) 2
Testováí ezávislosti 6 Máme MVO p i,j za H 0 ve tvaru N i,j / Testová statistika χ 2 = I i=1 j=1 J (N i,j N i,+n +,j N i,+ N +,j ) 2 Asymptotické rozděleí: Za platosti hypotézy χ 2 d χ 2 (I 1)(J 1), Kritický obor: Zamítáme pro velké hodoty χ 2, tj a (asymptotické) hladiě α zamíteme H 0, je-li χ 2 χ 2 (I 1)(J 1)(1 α) P-hodota: P-hodotu spočteme jako 1 F (I 1)(J 1) (t), kde t je spočteá hodota χ 2 a F (I 1)(J 1) je distribučí fukce rozděleí χ 2 (I 1)(J 1)
Ilustračí příklad 7 Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů
Ilustračí příklad Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Σ Hědá 68 119 26 7 220 Modrá 20 84 17 94 215 Oříšková 15 54 14 10 93 Zeleá 5 29 14 16 64 Σ 108 286 71 127 592 χ 2 = 13829, p-hodota < 22 10 16 = zamítáme hypotézu ezávislosti, barva vlasů a očí spolu souvisí 7
Ilustračí příklad Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Σ Hědá 68 119 26 7 220 Modrá 20 84 17 94 215 Oříšková 15 54 14 10 93 Zeleá 5 29 14 16 64 Σ 108 286 71 127 592 7 χ 2 = 13829, p-hodota < 22 10 16 = zamítáme hypotézu ezávislosti, barva vlasů a očí spolu souvisí Nevíme ale ic o charakteru závislosti, ai které skupiy svědčí ejvíce o porušeí ezávislosti
Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti
Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti Pearsoovo reziduum pro buňku (i, j) E i,j = N i,j N i,+n +,j N i,+ N +,j Platí χ 2 = I J i=1 j=1 E i,j 2, vlastě rozklad χ2 přes jedotlivé buňky
Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti Pearsoovo reziduum pro buňku (i, j) E i,j = N i,j N i,+n +,j N i,+ N +,j Platí χ 2 = I J i=1 j=1 E i,j 2, vlastě rozklad χ2 přes jedotlivé buňky Za platosti H 0 mají E i,j asymptoticky ormálí rozděleí s ulovou středí hodotou Asymptotické rozptyly jsou obecě meší ež jeda
Stadardizovaá rezidua 9 Chtěli bychom zámé rozděleí reziduí E i,j Zormujeme rezidua, dostaeme stadardizovaá rezidua E i,j, E i,j = ( 1 N i,+ E i,j ) ( 1 N +,j ) = N i,j, Ni,+N+,j ( ) ( N i,+ N +,j 1 N i,+ 1 N +,j )
Stadardizovaá rezidua 9 Chtěli bychom zámé rozděleí reziduí E i,j Zormujeme rezidua, dostaeme stadardizovaá rezidua E i,j, E i,j = ( 1 N i,+ E i,j ) ( 1 N +,j ) = N i,j, Ni,+N+,j ( ) ( N i,+ N +,j 1 N i,+ 1 N +,j ) Za platosti H 0 mají stadardizovaá rezidua E i,j asymptoticky rozděleí N(0, 1) při Příliš velké hodoty Ei,j svědčí o porušeí ezávislosti v daé buňce (uvádí se Ei,j > 2)
Pokračováí příkladu Tabulka: Tabulka reziduí a (stadardizovaých reziduí) Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Hědá 439 123-007 -585 (613) (216) (-010) (-832) Modrá -306-194 -173 704 (-425) (-339) (-231) (996) Oříšková -047 135 085-222 (-057) (205) (098) (-273) Zeleá -195-034 228 061 (-228) (-050) (257) (073) 10
Pokračováí příkladu Tabulka: Tabulka reziduí a (stadardizovaých reziduí) Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Hědá 439 123-007 -585 (613) (216) (-010) (-832) Modrá -306-194 -173 704 (-425) (-339) (-231) (996) Oříšková -047 135 085-222 (-057) (205) (098) (-273) Zeleá -195-034 228 061 (-228) (-050) (257) (073) Pozorujeme apř více blod atých s modrýma očima, aproti tomu méě blod atých s hědýma očima ež bychom očekávali za ezávislosti 10
Rozklad χ 2 11 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti
Rozklad χ 2 11 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti Výhodější pracovat se statistikou G 2, test poměrem věrohodostí Test ezávislosti poměrem věrohodostí, testová statistika G 2, I J ( ) G 2 Ni,j = 2 N i,j log N i,+ N +,j Za platosti H 0 platí G 2 i=1 j=1 d χ 2 (I 1)(J 1) pro
Rozklad χ 2 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti Výhodější pracovat se statistikou G 2, test poměrem věrohodostí Test ezávislosti poměrem věrohodostí, testová statistika G 2, I J ( ) G 2 Ni,j = 2 N i,j log N i,+ N +,j Za platosti H 0 platí G 2 i=1 j=1 d χ 2 (I 1)(J 1) pro Obecě: U χ 2, V χ 2 m ezávislé, pak U + V χ 2 +m 11 Naopak, W χ 2 k jde vyjádřit jako součet ezávislých áhodých veliči s χ 2 rozděleím s ižšími stupi volosti, které se sečtou do k
Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky
Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky Tabulky 2 J můžeme dělit ásledově: Uvažme 1 a 2 sloupec, vzike tabulka 2 2, příslušá G 2 1 statistika má (asymptoticky) jede stupeň volosti Dále uvažme kombiaci (sečteí) prvích dvou sloupců a třetí, atd až kombiaci (sečteí) prvích J 1 sloupců a posledího sloupce, Dostaeme vyjádřeí G 2 = G1 2 + + G2 J 1, kde za platosti H 0 Gi 2 d χ 2 1, pro a jedotlivé G2 i jsou (asymptoticky) ezávislé
Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky Tabulky 2 J můžeme dělit ásledově: Uvažme 1 a 2 sloupec, vzike tabulka 2 2, příslušá G 2 1 statistika má (asymptoticky) jede stupeň volosti Dále uvažme kombiaci (sečteí) prvích dvou sloupců a třetí, atd až kombiaci (sečteí) prvích J 1 sloupců a posledího sloupce, Dostaeme vyjádřeí G 2 = G1 2 + + G2 J 1, kde za platosti H 0 Gi 2 d χ 2 1, pro a jedotlivé G2 i jsou (asymptoticky) ezávislé Pro podtabulky můžeme spočíst i χ 2 i, je se esečtou přesě do celkového χ 2
Obecá pravidla pro děleí 13 Růzé možosti děleí Pro ezávislost podtabulek existují pravidla děleí,
Obecá pravidla pro děleí 13 Růzé možosti děleí Pro ezávislost podtabulek existují pravidla děleí, Hlaví pravidla: 1 Stupě volosti u podtabulek se musí sečíst do stupě volosti pro celou tabulku 2 Každá buňka celé tabulky musí být použita (sama o sobě) právě jedou 3 Každá margiálí četost celé tabulky musí být margiálí četost právě jedé podtabulky
Příklad děleí pro tabulky I J 14 Rozdělíme tabulku I J a (I 1) (J 1) tabulek 2 2,
Příklad děleí pro tabulky I J 14 Rozdělíme tabulku I J a (I 1) (J 1) tabulek 2 2, Pro i = 2,, I a j = 2,, J sestavíme podtabulku ásledově a<i b<j N a,b b<j N i,b a<i N a,j N i,j Toto děleí pochází z čláku Lacaster (1949)
N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J
N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J
N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J
N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J
Pokračováí příkladu Čer Hě Hě G 2 = 972 Mod χ 2 = 929 Čer+Hě Hě G 2 = 023 Mod χ 2 = 023 Zrz Čer+Hě+Zrz Hě G 2 = 11476 Mod χ 2 = 10024 Bl Čer Hě Hě+Mod G 2 = 205 Oří χ 2 = 197 Čer+Hě Hě+Mod G 2 = 085 Oří χ 2 = 034 Zrz 19
Pokračováí příkladu Čer+Hě+Zrz Hě+Mo G 2 = 811 Oří χ 2 = 717 Blo Čer Hě Hě+Mod+Oří G 2 = 338 Zel χ 2 = 301 Čer+Hě Hě+Mod+Oří G 2 = 678 Zel χ 2 = 799 Zrz Čer+Hě+Zrz Hě+Mod+Oří G 2 = 051 Zel χ 2 = 053 Blo 20
Pokračováí příkladu Čer+Hě+Zrz Hě+Mo G 2 = 811 Oří χ 2 = 717 Blo Čer Hě Hě+Mod+Oří G 2 = 338 Zel χ 2 = 301 Čer+Hě Hě+Mod+Oří G 2 = 678 Zel χ 2 = 799 Zrz Čer+Hě+Zrz Hě+Mod+Oří G 2 = 051 Zel χ 2 = 053 Blo Po sečteí G 2 = 14644,χ 2 = 13135 U původí tabulky G 2 = 14644,χ 2 = 13828 20
Implemetace v 21 Fukce chisqtest(), [1] "statistic" "parameter" "pvalue" "method" "dataame" "observed" [7] "expected" "residuals" "stdres" Pearsoova rezidua: chisqtest()$residuals Stadardizovaá rezidua: chisqtest()$stdres
Literatura AGRESTI, A (2002) Categorical Data Aalysis Druhé vydáí Wiley Series i Probability ad Statistics, Gaiesville, Florida ISBN 0-471-36093-7 ANDĚL, J (2007) Základy matematické statistiky Druhé opraveé vydáí Matfyzpress, Praha ISBN 80-7378-001-1 GOODMAN, L A (1985) Discussio: Testig for idepedece i a two-way table: New iterpretatios of the chi-square statistic The Aals of Statistics, 13(3), 887 893 KULICH, M NMSA 331, pozámky k předášce http: //msekcekarlimffcuicz/~omelka/soubory/msa331/ms1pdf LANCASTER, H O (1949) The derivatio ad partitio of χ 2 i certai discrete distributios Biometrika, 36(244), 117 129 22