Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Podobné dokumenty
Pravděpodobnost a aplikovaná statistika

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Náhodný výběr 1. Náhodný výběr

12. N á h o d n ý v ý b ě r

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika

8. cvičení 4ST201-řešení

Testování statistických hypotéz

Odhady parametrů 1. Odhady parametrů

8. Analýza rozptylu.

Závislost slovních znaků

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

8. cvičení 4ST201. Obsah: Neparametrické testy. Chí-kvadrát test dobréshody Kontingenční tabulky Analýza rozptylu (ANOVA) Neparametrické testy

Intervalové odhady parametrů některých rozdělení.

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Pravděpodobnostní model doby setrvání ministra školství ve funkci

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

PRAVDĚPODOBNOST A STATISTIKA

V. Normální rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

NEPARAMETRICKÉ METODY

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Číselné charakteristiky náhodných veličin

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

8. Odhady parametrů rozdělení pravděpodobnosti

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

14. B o d o v é o d h a d y p a r a m e t r ů

1.3. POLYNOMY. V této kapitole se dozvíte:

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Intervalové odhady parametrů

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

Popisná statistika. Zdeněk Janák 9. prosince 2007

1. JEV JISTÝ a. je jev, který nikdy nenastane b. je jev, jehož pravděpodobnost = ½ c. je jev, jehož pravděpodobnost = 0 d.

Kombinatorika- 3. Základy diskrétní matematiky, BI-ZDM

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Michaela Kurková. Katedra pravděpodobnosti a matematické statistiky

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Úloha III.S... limitní

pravděpodobnostn podobnostní jazykový model

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor nezávislost, funkce náhodného vektoru

Kvantily. Problems on statistics.nb 1

4. B o d o v é o d h a d y p a r a m e t r ů

Pravděpodobnost a statistika - absolutní minumum

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA. Náhodný vektor nezávislost, funkce náhodného vektoru

Deskriptivní statistika 1

MATICOVÉ HRY MATICOVÝCH HER

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Kapitola 6. : Neparametrické testy o mediánech

Teorie chyb a vyrovnávací počet. Obsah:

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

a další charakteristikou je četnost výběrového souboru n.

Pravděpodobnostní modely

17. Statistické hypotézy parametrické testy

S polynomy jste se seznámili již v Matematice 1. Připomeňme definici polynomické

Generování dvojrozměrných rozdělení pomocí copulí

4.2 Elementární statistické zpracování Rozdělení četností

1. Základy počtu pravděpodobnosti:

DVOUVÝBĚROVÉ PODMÍNĚNÉ POŘADOVÉ TESTY VANALÝZEPŘEŽITÍ

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

McNemarův test, Stuartův test, Test symetrie

FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE

b c a P(A B) = c = 4% = 0,04 d

P2: Statistické zpracování dat

ANALÝZA SÍLY VYBRANÝCH KLASICKÝCH A ROBUSTNÍCH TESTŮ NORMALITY PROTI BIMODÁLNÍMU ROZDĚLENÍ

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Testy homoskedasticity v lineárním modelu

Úloha II.S... odhadnutelná

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

Neparametrické metody

Fisherův exaktní test

PoznÁmky k přednášce

3. Charakteristiky a parametry náhodných veličin

Pravděpodobnost a statistika Výpisky z cvičení Ondřeje Chocholy

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

1 PSE Definice základních pojmů. (ω je elementární jev: A ω (A ω) nebo (A );

Sekvenční logické obvody(lso)

Dynamická pevnost a životnost Statistika

Přijímací řízení akademický rok 2013/2014 NavMg. studium Kompletní znění testových otázek matematika a statistika

Přednáška X. Testování hypotéz o kvantitativních proměnných

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Transkript:

Katedra pravděpodobosti a matematické statistiky Oborový semiář χ 2 test ezávislosti Petr Míchal 27 listopadu 2017

Situace 2 X {1,, I}, Y {1,, J} Jsou X a Y ezávislé? K dispozici máme áhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y )

Začeí Model: X {1,, I}, Y {1,, J}, Náhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y ) N i,j = k=1 1 [X k = i, Y k = j] pozorovaé četosti N i,+ = J j=1 N i,j, N +,j = I i=1 N i,j pozorovaé margiálí četosti p i,j = P (X 1 = i, Y 1 = j) pravděpodobosti jedotlivých skupi p i,+ = J j=1 p i,j, p +,j = I i=1 p i,j margiálí pravděpodobosti p (i),j = P (Y 1 = j X 1 = i), p i,(j) = P (X 1 = i Y 1 = j) podmíěé pravděpodobosti 3

Kotigečí tabulky 4 Y X 1 J Σ 1 p 1,1 p 1,J p 1,+ Y X 1 J Σ 1 N 1,1 N 1,J N 1,+ I p I,1 p I,J p I,+ Σ p +,1 p +,J 1 I N I,1 N I,J N I,+ Σ N +,1 N +,J (N 1,1,, N 1,I,, N J,1,, N I,J ) Mult I J (, (p 1,1,, p I,J ))

Testováí ezávislosti 5 X {1,, I}, Y {1,, J} Testujeme H 0 : X Y proti H 1 : H 0, Ekvivaletí zápisy ulové hypotézy: p i,j = p i,+ p +,j i, j p i,(j) = p i,+ i, j shodost rozděleí ve sloupcích p (i),j = p +,j i, j shodost rozděleí v řádcích

Testováí ezávislosti 5 X {1,, I}, Y {1,, J} Testujeme H 0 : X Y proti H 1 : H 0, Ekvivaletí zápisy ulové hypotézy: p i,j = p i,+ p +,j i, j p i,(j) = p i,+ i, j shodost rozděleí ve sloupcích p (i),j = p +,j i, j shodost rozděleí v řádcích Máme áhodý vyběr (X 1, Y 1 ),, (X, Y ) (X, Y ) (N 1,1,, N 1,I,, N J,1,, N I,J ) Mult I J (, (p 1,1,, p I,J )) Idea: porovat pozorovaé četosti N i,j a očekávaé četosti za H 0 tj p i,j = p i,+ p +,j

Testováí ezávislosti 6 Máme MVO p i,j za H 0 ve tvaru N i,j / Testová statistika χ 2 = I i=1 j=1 J (N i,j N i,+n +,j N i,+ N +,j ) 2

Testováí ezávislosti 6 Máme MVO p i,j za H 0 ve tvaru N i,j / Testová statistika χ 2 = I i=1 j=1 J (N i,j N i,+n +,j N i,+ N +,j ) 2 Asymptotické rozděleí: Za platosti hypotézy χ 2 d χ 2 (I 1)(J 1), Kritický obor: Zamítáme pro velké hodoty χ 2, tj a (asymptotické) hladiě α zamíteme H 0, je-li χ 2 χ 2 (I 1)(J 1)(1 α) P-hodota: P-hodotu spočteme jako 1 F (I 1)(J 1) (t), kde t je spočteá hodota χ 2 a F (I 1)(J 1) je distribučí fukce rozděleí χ 2 (I 1)(J 1)

Ilustračí příklad 7 Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů

Ilustračí příklad Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Σ Hědá 68 119 26 7 220 Modrá 20 84 17 94 215 Oříšková 15 54 14 10 93 Zeleá 5 29 14 16 64 Σ 108 286 71 127 592 χ 2 = 13829, p-hodota < 22 10 16 = zamítáme hypotézu ezávislosti, barva vlasů a očí spolu souvisí 7

Ilustračí příklad Souvisí barva vlasů s barvou očí? Příklad z čláku Goodma (1985), u 592 lidí zazameáa barva očí a vlasů Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Σ Hědá 68 119 26 7 220 Modrá 20 84 17 94 215 Oříšková 15 54 14 10 93 Zeleá 5 29 14 16 64 Σ 108 286 71 127 592 7 χ 2 = 13829, p-hodota < 22 10 16 = zamítáme hypotézu ezávislosti, barva vlasů a očí spolu souvisí Nevíme ale ic o charakteru závislosti, ai které skupiy svědčí ejvíce o porušeí ezávislosti

Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti

Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti Pearsoovo reziduum pro buňku (i, j) E i,j = N i,j N i,+n +,j N i,+ N +,j Platí χ 2 = I J i=1 j=1 E i,j 2, vlastě rozklad χ2 přes jedotlivé buňky

Pearsoova rezidua 8 Idea: u každé buňky se podívat a vhodě zormovaý rozdíl pozorovaé a očekáveé četosti Pearsoovo reziduum pro buňku (i, j) E i,j = N i,j N i,+n +,j N i,+ N +,j Platí χ 2 = I J i=1 j=1 E i,j 2, vlastě rozklad χ2 přes jedotlivé buňky Za platosti H 0 mají E i,j asymptoticky ormálí rozděleí s ulovou středí hodotou Asymptotické rozptyly jsou obecě meší ež jeda

Stadardizovaá rezidua 9 Chtěli bychom zámé rozděleí reziduí E i,j Zormujeme rezidua, dostaeme stadardizovaá rezidua E i,j, E i,j = ( 1 N i,+ E i,j ) ( 1 N +,j ) = N i,j, Ni,+N+,j ( ) ( N i,+ N +,j 1 N i,+ 1 N +,j )

Stadardizovaá rezidua 9 Chtěli bychom zámé rozděleí reziduí E i,j Zormujeme rezidua, dostaeme stadardizovaá rezidua E i,j, E i,j = ( 1 N i,+ E i,j ) ( 1 N +,j ) = N i,j, Ni,+N+,j ( ) ( N i,+ N +,j 1 N i,+ 1 N +,j ) Za platosti H 0 mají stadardizovaá rezidua E i,j asymptoticky rozděleí N(0, 1) při Příliš velké hodoty Ei,j svědčí o porušeí ezávislosti v daé buňce (uvádí se Ei,j > 2)

Pokračováí příkladu Tabulka: Tabulka reziduí a (stadardizovaých reziduí) Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Hědá 439 123-007 -585 (613) (216) (-010) (-832) Modrá -306-194 -173 704 (-425) (-339) (-231) (996) Oříšková -047 135 085-222 (-057) (205) (098) (-273) Zeleá -195-034 228 061 (-228) (-050) (257) (073) 10

Pokračováí příkladu Tabulka: Tabulka reziduí a (stadardizovaých reziduí) Barva vlasů Barva očí Čerá Hědá Zrzavá Blod Hědá 439 123-007 -585 (613) (216) (-010) (-832) Modrá -306-194 -173 704 (-425) (-339) (-231) (996) Oříšková -047 135 085-222 (-057) (205) (098) (-273) Zeleá -195-034 228 061 (-228) (-050) (257) (073) Pozorujeme apř více blod atých s modrýma očima, aproti tomu méě blod atých s hědýma očima ež bychom očekávali za ezávislosti 10

Rozklad χ 2 11 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti

Rozklad χ 2 11 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti Výhodější pracovat se statistikou G 2, test poměrem věrohodostí Test ezávislosti poměrem věrohodostí, testová statistika G 2, I J ( ) G 2 Ni,j = 2 N i,j log N i,+ N +,j Za platosti H 0 platí G 2 i=1 j=1 d χ 2 (I 1)(J 1) pro

Rozklad χ 2 Idea: rozložit statistiku χ 2, můžeme lépe odhalit vliv daé kategorie a porušeí H 0 a vztahy mezi kategoriemi Chtěli bychom vyjádřit χ 2 jako součet ezávislých χ 2 i H 0 platí χ 2 i d χ 2 1, pro, kde za platosti Výhodější pracovat se statistikou G 2, test poměrem věrohodostí Test ezávislosti poměrem věrohodostí, testová statistika G 2, I J ( ) G 2 Ni,j = 2 N i,j log N i,+ N +,j Za platosti H 0 platí G 2 i=1 j=1 d χ 2 (I 1)(J 1) pro Obecě: U χ 2, V χ 2 m ezávislé, pak U + V χ 2 +m 11 Naopak, W χ 2 k jde vyjádřit jako součet ezávislých áhodých veliči s χ 2 rozděleím s ižšími stupi volosti, které se sečtou do k

Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky

Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky Tabulky 2 J můžeme dělit ásledově: Uvažme 1 a 2 sloupec, vzike tabulka 2 2, příslušá G 2 1 statistika má (asymptoticky) jede stupeň volosti Dále uvažme kombiaci (sečteí) prvích dvou sloupců a třetí, atd až kombiaci (sečteí) prvích J 1 sloupců a posledího sloupce, Dostaeme vyjádřeí G 2 = G1 2 + + G2 J 1, kde za platosti H 0 Gi 2 d χ 2 1, pro a jedotlivé G2 i jsou (asymptoticky) ezávislé

Rozklad G 2 12 Rozdělíme G 2 a (asymptoticky) ezávislé kompoety se stupěm volosti 1, ty odpovídají podtabulkám příslušé kotigečí tabulky Tabulky 2 J můžeme dělit ásledově: Uvažme 1 a 2 sloupec, vzike tabulka 2 2, příslušá G 2 1 statistika má (asymptoticky) jede stupeň volosti Dále uvažme kombiaci (sečteí) prvích dvou sloupců a třetí, atd až kombiaci (sečteí) prvích J 1 sloupců a posledího sloupce, Dostaeme vyjádřeí G 2 = G1 2 + + G2 J 1, kde za platosti H 0 Gi 2 d χ 2 1, pro a jedotlivé G2 i jsou (asymptoticky) ezávislé Pro podtabulky můžeme spočíst i χ 2 i, je se esečtou přesě do celkového χ 2

Obecá pravidla pro děleí 13 Růzé možosti děleí Pro ezávislost podtabulek existují pravidla děleí,

Obecá pravidla pro děleí 13 Růzé možosti děleí Pro ezávislost podtabulek existují pravidla děleí, Hlaví pravidla: 1 Stupě volosti u podtabulek se musí sečíst do stupě volosti pro celou tabulku 2 Každá buňka celé tabulky musí být použita (sama o sobě) právě jedou 3 Každá margiálí četost celé tabulky musí být margiálí četost právě jedé podtabulky

Příklad děleí pro tabulky I J 14 Rozdělíme tabulku I J a (I 1) (J 1) tabulek 2 2,

Příklad děleí pro tabulky I J 14 Rozdělíme tabulku I J a (I 1) (J 1) tabulek 2 2, Pro i = 2,, I a j = 2,, J sestavíme podtabulku ásledově a<i b<j N a,b b<j N i,b a<i N a,j N i,j Toto děleí pochází z čláku Lacaster (1949)

N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J

N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J

N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J

N 1,1 N 1,2 N 1,3 N 1,J N 2,1 N 2,2 N 2,3 N 2,J N i,j N I,1 N I,2 N I,3 N I,J

Pokračováí příkladu Čer Hě Hě G 2 = 972 Mod χ 2 = 929 Čer+Hě Hě G 2 = 023 Mod χ 2 = 023 Zrz Čer+Hě+Zrz Hě G 2 = 11476 Mod χ 2 = 10024 Bl Čer Hě Hě+Mod G 2 = 205 Oří χ 2 = 197 Čer+Hě Hě+Mod G 2 = 085 Oří χ 2 = 034 Zrz 19

Pokračováí příkladu Čer+Hě+Zrz Hě+Mo G 2 = 811 Oří χ 2 = 717 Blo Čer Hě Hě+Mod+Oří G 2 = 338 Zel χ 2 = 301 Čer+Hě Hě+Mod+Oří G 2 = 678 Zel χ 2 = 799 Zrz Čer+Hě+Zrz Hě+Mod+Oří G 2 = 051 Zel χ 2 = 053 Blo 20

Pokračováí příkladu Čer+Hě+Zrz Hě+Mo G 2 = 811 Oří χ 2 = 717 Blo Čer Hě Hě+Mod+Oří G 2 = 338 Zel χ 2 = 301 Čer+Hě Hě+Mod+Oří G 2 = 678 Zel χ 2 = 799 Zrz Čer+Hě+Zrz Hě+Mod+Oří G 2 = 051 Zel χ 2 = 053 Blo Po sečteí G 2 = 14644,χ 2 = 13135 U původí tabulky G 2 = 14644,χ 2 = 13828 20

Implemetace v 21 Fukce chisqtest(), [1] "statistic" "parameter" "pvalue" "method" "dataame" "observed" [7] "expected" "residuals" "stdres" Pearsoova rezidua: chisqtest()$residuals Stadardizovaá rezidua: chisqtest()$stdres

Literatura AGRESTI, A (2002) Categorical Data Aalysis Druhé vydáí Wiley Series i Probability ad Statistics, Gaiesville, Florida ISBN 0-471-36093-7 ANDĚL, J (2007) Základy matematické statistiky Druhé opraveé vydáí Matfyzpress, Praha ISBN 80-7378-001-1 GOODMAN, L A (1985) Discussio: Testig for idepedece i a two-way table: New iterpretatios of the chi-square statistic The Aals of Statistics, 13(3), 887 893 KULICH, M NMSA 331, pozámky k předášce http: //msekcekarlimffcuicz/~omelka/soubory/msa331/ms1pdf LANCASTER, H O (1949) The derivatio ad partitio of χ 2 i certai discrete distributios Biometrika, 36(244), 117 129 22