Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij. r s 2 ( nij eij ) 2 Testovým kritériem je statistika χ =, e i= 1 j= 1 která má asymptoticky tj. pro dostatečně velké četnosti, rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. Dostatečně velké četnosti jsou takové, kdy všechny očekávané četnosti jsou > 1 a naprostá většina očekávaných četností (alespoň 80%) je > 5. Test můžeme použít pro nominální data (barva očí x barva vlasů) nebo pro data spojitá, která roztřídíme do vhodných intervalů (výška x váha) nebo pro jejich kombinaci. ij
Příklad 1: Skupina 90 žáků odpovídala na otázku, který z předmětů matematika, fyzika a chemie je jeho nejoblíbenější. Rozhodněte, zda je v oblibě těchto předmětů statisticky významný rozdíl. Vyučovací Pozorovaná Očekávaná P - O (P-O) 2 (P-O) 2 předmět četnost P četnost O / O fyzika 35 30 5 25 0,833 chemie 28 30-2 4 0,133 matematika 27 30-3 9 0,300 Suma 90 90 1,267 Vypočtenou statistiku 1,267 porovnáme s kritickou hodnotou chíkvadrát pro počet stupňů volnosti = 2 Na hladině spolehlivosti 95% (hladině významnosti 5%) je to 5,99. H 0 nemůžeme zamítnout, protože vypočtená statistika < Chí-kvadrát kritická (1,267 < 5,99) Ověříme ještě funkcí v programu Excel: CHITEST = 0,53
Příklad 2: Skupině 190 učitelů byla položena otázka, zda by souhlasili s jistým organizačním opatřením. Odpovědi učitelů byly rozděleny podle odpovědi a věku do následující tabulky a máme rozhodnout, zda výsledná odpověď závisí na věku učitele. pozorované četnosti do 25 25-40 nad 40 Celkem plně souhlasím 29 16 8 53 souhlasím 23 14 11 48 nesouhlasím 12 13 23 48 naprosto nesouhlasím 10 13 18 41 Celkem 74 56 60 190
Vypočteme očekávané četnosti jako součin marginálních četností dělených počtem všech odpovědí. Marginální četnosti jsou stejné u pozorovaných i očekávaných četností. Způsob 1: (Pozorované - očekávané četnosti)2 / do 25 25-40 nad 40 Celkem očekávané plně souhlasím 3,4 0,0 4,6 8,0 souhlasím 1,0 0,0 1,1 2,1 nesouhlasím 2,4 0,1 4,1 6,5 naprosto nesouhlasím 2,2 0,1 2,0 4,3 Suma 9,0 0,2 11,7 20,9 2 V této tabulce jsme vypočetli testovací statistiku χ pomocí čtverců rozdílů pozorovaných a očekávaných četností dělených očekávanými četnostmi.
Uvnitř tabulky jsou příspěvky jednotlivých políček, v dolním pravém políčku (zeleně) je námi vypočtená testová statistika. Počet stupňů volnosti je součin (r-1)*(s-1), kde r je počet řádků a s počet sloupců tabulky. V tabulce rozdělení chí-kvadrát nebo funkcí v programu Excel najdeme kritickou hodnotu pro 6 stupňů volnosti a hladinu významnosti 5% (resp. hladinu spolehlivosti 95%): 12,59 Vypočtená statistika je větší než kritická hodnota -> nulovou hypotézu na hladině významnosti 95% zamítáme. Tímto způsobem jsme vypočítali testovací statistiku sami a porovnávali s tabelovanými hodnotami ve statistických tabulkách funkce χ 2.
Způsob 2: Jednodušší je vypočítat pouze očekávané četnosti a dosadit skutečné a očekávané četnosti do funkce CHITEST v Excelu. Pomocí této funkce vypočteme pravděpodobnost (p-hodnotu), s jakou uděláme chybu I. druhu, když zamítneme nulovou hypotézu. V našem případě vyšlo p = 0,0019 tj. pravděpodobnost je velmi malá, test je statisticky významný, H 0 zamítáme.
Příklad 3: Bylo sledováno 8 940 těhotných žen a průběh porodu byl hodnocen stupněm: fyziologický, ohrožený a patologický (nominální veličina). V souvislosti s pořadím těhotenství byla testována hypotéza, zda průběh porodu závisí na pořadí těhotenství. Výsledky jsou v souboru: 6h_chi-kvadrat_prubeh_porodu.xls.
Příklad 4: V porodnici sledovali během 1 roku váhu narozených dětí a lékaře zajímalo, zda váha novorozence závisí na pohlaví dítěte. Z dat vytvořili tuto tabulku a půlka lékařů tvrdila, že váha nezávisí na pohlaví, čtvrtina, že porodní váha chlapců je významně vyšší než u holčiček a čtvrtina, že porodní váha holčiček je významně vyšší než u chlapců. Rozhodněte, která skupina lékařů obhajovala tzv. nulovou hypotézu a která skupina lékařů měla pravdu. V následujících tabulkách jsou výsledky statistického sledování rozdělené do různých kategorií. Výsledky viz: 6i_chi-kvadrat_deti.xls
Váha do 2 kg 2-2,5 kg 2,5-3 kg 3-3,5 kg 3,5-4 kg nad 4 kg Celkem Chlapečci 21 68 185 190 111 17 592 Holčičky 16 80 125 230 115 22 588 Celkem 37 148 310 420 226 39 1180 Váha do 2 kg 2-3 kg 3-4 kg nad 4 kg Celkem Chlapečci 21 253 301 17 592 Holčičky 16 205 345 22 588 Celkem 37 458 646 39 1180 Váha do 3 kg nad 3 kg Celkem Chlapečci 274 318 592 Holčičky 221 367 588 Celkem 495 685 1180