Test dobré shody v KONTINGENČNÍCH TABULKÁCH



Podobné dokumenty
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

You created this PDF from an application that is not licensed to print to novapdf printer (

Jana Vránová, 3. lékařská fakulta UK

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

4ST201 STATISTIKA CVIČENÍ Č. 7

= = 2368

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Analýza dat z dotazníkových šetření

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Přednáška X. Testování hypotéz o kvantitativních proměnných

Tomáš Karel LS 2012/2013

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Úvod do analýzy rozptylu

2 ) 4, Φ 1 (1 0,005)

Regresní a korelační analýza

Testování statistických hypotéz

Poznámky k předmětu Aplikovaná statistika, 11. téma

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Kontingenční tabulky, korelační koeficienty

Statistické metody uţívané při ověřování platnosti hypotéz

Plánování experimentu

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Testování hypotéz Biolog Statistik: Matematik: Informatik:

Testy. Pavel Provinský. 19. listopadu 2013

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Kontingenční tabulky, korelační koeficienty

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

12. cvičení z PST. 20. prosince 2017

Regresní a korelační analýza

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Stručný úvod do testování statistických hypotéz

Testování statistických hypotéz

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Jednofaktorová analýza rozptylu

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testy statistických hypotéz

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Aktivita A Zmapování a analýza disparit mezi regiony NUTS 3 ve fyzické dostupnosti bydlení

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

McNemarův test, Stuartův test, Test symetrie

Jednostranné intervaly spolehlivosti

ČVUT FAKULTA DOPRAVNÍ

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Náhodné veličiny, náhodné chyby

STATISTICKÉ TESTY VÝZNAMNOSTI

Ilustrační příklad odhadu LRM v SW Gretl

STATISTICKÉ HYPOTÉZY

STATISTICKÉ TESTY VÝZNAMNOSTI

Protokol č. 1. Tloušťková struktura. Zadání:

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

ADDS cvičení 7. Pavlína Kuráňová

Tomáš Karel LS 2012/2013

Cvičení ze statistiky - 9. Filip Děchtěrenko

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Příklady na testy hypotéz o parametrech normálního rozdělení

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

KGG/STG Statistika pro geografy

Příklad: Test nezávislosti kategoriálních znaků

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Vzorová prezentace do předmětu Statistika

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

INDUKTIVNÍ STATISTIKA

MATEMATIKA III V PŘÍKLADECH

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Ing. Michael Rost, Ph.D.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testování hypotéz o kvalitativních proměnných

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Transkript:

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když se pozorované četnosti n ij budou významně lišit od očekávaných četností e ij. r s 2 ( nij eij ) 2 Testovým kritériem je statistika χ =, e i= 1 j= 1 která má asymptoticky tj. pro dostatečně velké četnosti, rozdělení χ 2 s (r - 1)(s - 1) stupni volnosti. Dostatečně velké četnosti jsou takové, kdy všechny očekávané četnosti jsou > 1 a naprostá většina očekávaných četností (alespoň 80%) je > 5. Test můžeme použít pro nominální data (barva očí x barva vlasů) nebo pro data spojitá, která roztřídíme do vhodných intervalů (výška x váha) nebo pro jejich kombinaci. ij

Příklad 1: Skupina 90 žáků odpovídala na otázku, který z předmětů matematika, fyzika a chemie je jeho nejoblíbenější. Rozhodněte, zda je v oblibě těchto předmětů statisticky významný rozdíl. Vyučovací Pozorovaná Očekávaná P - O (P-O) 2 (P-O) 2 předmět četnost P četnost O / O fyzika 35 30 5 25 0,833 chemie 28 30-2 4 0,133 matematika 27 30-3 9 0,300 Suma 90 90 1,267 Vypočtenou statistiku 1,267 porovnáme s kritickou hodnotou chíkvadrát pro počet stupňů volnosti = 2 Na hladině spolehlivosti 95% (hladině významnosti 5%) je to 5,99. H 0 nemůžeme zamítnout, protože vypočtená statistika < Chí-kvadrát kritická (1,267 < 5,99) Ověříme ještě funkcí v programu Excel: CHITEST = 0,53

Příklad 2: Skupině 190 učitelů byla položena otázka, zda by souhlasili s jistým organizačním opatřením. Odpovědi učitelů byly rozděleny podle odpovědi a věku do následující tabulky a máme rozhodnout, zda výsledná odpověď závisí na věku učitele. pozorované četnosti do 25 25-40 nad 40 Celkem plně souhlasím 29 16 8 53 souhlasím 23 14 11 48 nesouhlasím 12 13 23 48 naprosto nesouhlasím 10 13 18 41 Celkem 74 56 60 190

Vypočteme očekávané četnosti jako součin marginálních četností dělených počtem všech odpovědí. Marginální četnosti jsou stejné u pozorovaných i očekávaných četností. Způsob 1: (Pozorované - očekávané četnosti)2 / do 25 25-40 nad 40 Celkem očekávané plně souhlasím 3,4 0,0 4,6 8,0 souhlasím 1,0 0,0 1,1 2,1 nesouhlasím 2,4 0,1 4,1 6,5 naprosto nesouhlasím 2,2 0,1 2,0 4,3 Suma 9,0 0,2 11,7 20,9 2 V této tabulce jsme vypočetli testovací statistiku χ pomocí čtverců rozdílů pozorovaných a očekávaných četností dělených očekávanými četnostmi.

Uvnitř tabulky jsou příspěvky jednotlivých políček, v dolním pravém políčku (zeleně) je námi vypočtená testová statistika. Počet stupňů volnosti je součin (r-1)*(s-1), kde r je počet řádků a s počet sloupců tabulky. V tabulce rozdělení chí-kvadrát nebo funkcí v programu Excel najdeme kritickou hodnotu pro 6 stupňů volnosti a hladinu významnosti 5% (resp. hladinu spolehlivosti 95%): 12,59 Vypočtená statistika je větší než kritická hodnota -> nulovou hypotézu na hladině významnosti 95% zamítáme. Tímto způsobem jsme vypočítali testovací statistiku sami a porovnávali s tabelovanými hodnotami ve statistických tabulkách funkce χ 2.

Způsob 2: Jednodušší je vypočítat pouze očekávané četnosti a dosadit skutečné a očekávané četnosti do funkce CHITEST v Excelu. Pomocí této funkce vypočteme pravděpodobnost (p-hodnotu), s jakou uděláme chybu I. druhu, když zamítneme nulovou hypotézu. V našem případě vyšlo p = 0,0019 tj. pravděpodobnost je velmi malá, test je statisticky významný, H 0 zamítáme.

Příklad 3: Bylo sledováno 8 940 těhotných žen a průběh porodu byl hodnocen stupněm: fyziologický, ohrožený a patologický (nominální veličina). V souvislosti s pořadím těhotenství byla testována hypotéza, zda průběh porodu závisí na pořadí těhotenství. Výsledky jsou v souboru: 6h_chi-kvadrat_prubeh_porodu.xls.

Příklad 4: V porodnici sledovali během 1 roku váhu narozených dětí a lékaře zajímalo, zda váha novorozence závisí na pohlaví dítěte. Z dat vytvořili tuto tabulku a půlka lékařů tvrdila, že váha nezávisí na pohlaví, čtvrtina, že porodní váha chlapců je významně vyšší než u holčiček a čtvrtina, že porodní váha holčiček je významně vyšší než u chlapců. Rozhodněte, která skupina lékařů obhajovala tzv. nulovou hypotézu a která skupina lékařů měla pravdu. V následujících tabulkách jsou výsledky statistického sledování rozdělené do různých kategorií. Výsledky viz: 6i_chi-kvadrat_deti.xls

Váha do 2 kg 2-2,5 kg 2,5-3 kg 3-3,5 kg 3,5-4 kg nad 4 kg Celkem Chlapečci 21 68 185 190 111 17 592 Holčičky 16 80 125 230 115 22 588 Celkem 37 148 310 420 226 39 1180 Váha do 2 kg 2-3 kg 3-4 kg nad 4 kg Celkem Chlapečci 21 253 301 17 592 Holčičky 16 205 345 22 588 Celkem 37 458 646 39 1180 Váha do 3 kg nad 3 kg Celkem Chlapečci 274 318 592 Holčičky 221 367 588 Celkem 495 685 1180