Kontingenční tabulky a testy shody

Podobné dokumenty
Matematická statistika Zimní semestr

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Matematická statistika Zimní semestr Testy o proporci

Testy o proporci a testy v multinomickém rozdělení

Matematická statistika Zimní semestr

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jana Vránová, 3. lékařská fakulta UK

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Poznámky k předmětu Aplikovaná statistika, 11. téma

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Cvičení ze statistiky - 8. Filip Děchtěrenko

KGG/STG Statistika pro geografy

Y n = I[X i > m 0 ],

4EK211 Základy ekonometrie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Výběrové charakteristiky a jejich rozdělení

4EK211 Základy ekonometrie

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4EK211 Základy ekonometrie

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Kontingenční tabulky, korelační koeficienty

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

12. cvičení z PST. 20. prosince 2017

Matematická statistika Zimní semestr

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Jednostranné intervaly spolehlivosti

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

y = 0, ,19716x.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

PRAVDĚPODOBNOST A STATISTIKA

Kontingenční tabulky, korelační koeficienty

Pravděpodobnost a aplikovaná statistika

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Tomáš Karel LS 2012/2013

= = 2368

4ST201 STATISTIKA CVIČENÍ Č. 7

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

KGG/STG Statistika pro geografy

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Matematická statistika Zimní semestr

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

StatSoft Jak poznat vliv faktorů vizuálně

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Přednáška X. Testování hypotéz o kvantitativních proměnných

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Cvičení 11. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Protokol č. 1. Tloušťková struktura. Zadání:

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Stavový model a Kalmanův filtr

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

McNemarův test, Stuartův test, Test symetrie

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Tomáš Karel LS 2012/2013

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

4EK211 Základy ekonometrie

STATISTICKÉ ZJIŠŤOVÁNÍ

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Cvičení 12: Binární logistická regrese

Testy. Pavel Provinský. 19. listopadu 2013

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

10. Předpovídání - aplikace regresní úlohy

Cvičení ze statistiky - 9. Filip Děchtěrenko

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Odhad parametrů N(µ, σ 2 )

You created this PDF from an application that is not licensed to print to novapdf printer (

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Tomáš Karel LS 2012/2013

Charakteristika datového souboru

Pojem a úkoly statistiky

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Biostatistika Cvičení 7

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Transkript:

Kontingenční tabulky a testy shody 4.1.2018 Kontingenční tabulky 1. Tabulka 1 shrnuje osudy pasažérů lodě Titanic, která tragicky ztroskotala v roce 1912. Zajímá nás, zda existuje nějaká souvislost mezi třídou, ve které cestující cestoval, a přežitím, nebo zda jsou tyto dva faktory nezávislé. Přežil Třída Ne Ano 1 122 203 2 167 118 3 528 178 Posádka 673 212 Tabulka 1: Data o Titanicu. Jaký model ted budeme uvažovat a pro co? Co všechno je v modelu náhodné a co naopak není? 2. Nejprve si do R zadáme tabulku 1. titanic=matrix(c(122, 167, 528, 673, 203, 118, 178, 212),ncol=2) dimnames(titanic)=list(trida=c("1","2","3","posadka"),prezil=c("ne","ano")) titanic Zkontrolujte, že máme tabulku správně zadanou. Kdybychom si chtěli dopočítat marginální četnosti, provedeme to následovně: apply(titanic,1,sum) apply(titanic,2,sum) 3. Opakování: Vhodným obrázkem graficky ilustrujte marginální rozdělení zkoumaných dvou veličin. 4. Vrátíme se zpět ke kontingenční tabulce. Podíváme se na tabulky relativních četností prop.table(titanic) prop.table(titanic,marg=1) prop.table(titanic,marg=2) Co nám jednotlivé relativní četnosti odhadují? Jak by měly tabulky přibližně vypadat v případě nezávislosti? Podíváme se na tutéž věc i graficky: 1

barplot(titanic,beside=t,legend=t) barplot(prop.table(titanic,mar=2),beside=t,legend=t) barplot(t(titanic),beside=t,legend=t) barplot(prop.table(t(titanic),mar=2),beside=t,legend=t) Prozkoumejte jednotlivé obrázky a jak se mezi sebou liší. Co si na základě čísel a grafů myslíte o vztahu zkoumaných dvou veličin? Jsou nezávislé? 5. Provedeme χ 2 test nezávislosti. chisq.test(titanic,correct=false) Jaký je náš závěr? (a) Připomeneme, jak se spočítá testová statistika χ 2 testu: a1=apply(titanic,1,sum) a2=apply(titanic,2,sum) n=sum(titanic) E=a1%o%a2/n sum((titanic-e)^2/e ) Kolik má stupňů volnosti příslušné asymptotické χ 2 rozdělení? Jak se toto číslo spočítá? (b) Ještě si prohlédneme jednotlivé položky, které máme k dispozici po použití funkce chisq.test: CH=chisq.test(titanic,correct=FALSE) names(ch) CH$residuals Co přesně jsou tato rezidua? Které kategorie tabulky nejvíce přispívají k výsledné hodnotě χ 2 statistiky a tím porušují nezávislost? Jak bychom shrnuli naše poznatky týkající se přežití pasažérů z jednotlivých tříd? 6. A není to s tím Titanicem celé trochu jinak? Podíváme se na úplně kompletní data, která jsou k dispozici v R : data(titanic) Titanic #nase tabulka 1 apply(titanic,c(1,4),sum) #dalsi tabulky: (t1=apply(titanic,c(2,4),sum)) prop.table(t1,mar=1) (t2=apply(titanic,c(1,2),sum)) prop.table(t2,mar=1) 7. Uvažujme 2 2 tabulku uloženou v t1, která shrnuje vztah pohlaví a přežití pasažérů. 2

(a) Otestujte nezávislost těchto dvou veličin pomocí χ 2 testu. (b) Podívejte se na problém jinak a otestujte shodu pravděpodobností přežití pro muže a pro ženy, pomocí funkce prop.test. (c) Jak se liší uvažované dva modely v (a) a (b)? V jakém vztahu jsou testové statistiky v (a) a (b)? (d) Uvažujme model jako v (a). Jaké je rozdělení marginálních řádkových četností n +1 a n +2? Jaké je rozdělení četností v tabulce, podmíníme-li marginálními četnostmi n +1 a n +2? 8. Odhadněte poměr šancí na přežití žen a mužů z tabulky t1. # pomoci odhadnutych pravdepodobnosti: (phat=prop.table(t1,mar=1)[,2]) (odds = phat/(1-phat)) (odds.ratio=odds[2]/odds[1]) # nebo rychleji primo z tabulky: t1[1,1]*t1[2,2]/(t1[1,2]*t1[2,1]) Jak budeme interpretovat toto číslo? Jaká hodnota by odpovídala nezávislosti? Pro poměr šancí můžeme zkonstruovat i interval spolehlivosti. Vychází z asymptotického normálního rozdělení pro logaritmus poměru šancí, viz skripta str. 109, věta 7.4. sd=sum(1/t1) log(odds.ratio)+c(-1,1)*qnorm(0.975)*sqrt(sd) exp(log(odds.ratio)+c(-1,1)*qnorm(0.975)*sqrt(sd)) 9. Rozhodněte, zda měly ženy více než pětkrát větší šanci na přežití než muži. Test shody s rozdělením 10. V roce 2008 se v České republice narodilo 119 570 dětí, z toho 58 244 dívek a 61 326 chlapců. (a) Pomocí χ 2 testu otestujte, zda se dívky a chlapci rodí v poměru 1:1. (b) Stejnou otázku řešte pomocí jednovýběrového testu o proporci. (c) Porovnejte testové statistiky z (a) a (b) a jejich rozdělení. Jak se liší uvažované modely? 11. Tabulka 2 udává statistiku počtu vstřelených gólů v německé Bundeslize v roce 2000 (kompletní data jsou obsažena v knihovně vcd, lze je zavolat pomocí příkazu data( Bundesliga ).). Zajímá nás, zda je možné modelovat počet vstřelených gólů v jednom zápase pomocí Poissonova rozdělení s parametrem 4. Počet gólů 0 1 2 3 4 5 6 7 a více Počet zápasů 25 44 62 65 55 30 14 11 Tabulka 2: Počet vstřelených gólů v Bundeslize v roce 2000. (a) Jak vypadají původní data, která mají za nulové hypotézy Poissonovo rozdělení? Kolik jich celkem máme? A čemu odpovídají hodnoty v tabulce 2 a jaké mají rozdělení? 3

(b) Zadáme si hodnoty do R a dopočítáme si teoretické pravděpodobnosti za nulové hypotézy. ngoals=c(25, 44, 62, 65, 55, 30, 14, 11) (tf=dpois(0:7,lambda=4)) tf[8]=1-sum(tf[1:7]) (c) Pozorované a očekávané četnosti si můžeme porovnat graficky: n=sum(ngoals) barplot(rbind(ngoals,n*tf),beside=t,legend.text=c("pozorovane","ocekavane")) (d) Nakonec provedeme test dobré shody: chisq.test(ngoals,p=tf,correct=f) Jaký je náš závěr? 12. Nyní se podíváme na reálnější situaci: Chtěli bychom zjistit, zda je možné počet vstřelených gólů během zápasu modelovat Poissonovým rozdělením (bez specifikace parametru). (a) Nejprve tedy musíme neznámý parametr λ odhadnout z rovnice 7 k=0 X k p k (λ) p k (λ) λ kde X k jsou četnosti v tabulce 2 a p k (λ) jsou příslušné teoretické pravděpodobnosti jednotlivých kategorií. Získaný odhad λ pak dosadíme do p k (λ) a následně do χ 2 statistiky. (b) Po rozepsání výše uvedené rovnice dostaneme: rovnice=function(x){ kk=0:6 y=x-(sum(kk*ngoals[1:7])/n + ngoals[8]/n*x*(1-ppois(6,lambda=x))/(1-ppois(7,lambda=x))) return(y) } # odhad lambda: (lam.hat=uniroot(rovnice,c(1,10))$root) = 0, #odhad pravdepodobnosti (tf2=dpois(0:7,lambda=lam.hat)) tf2[8]=1-sum(tf2[1:7]) tf2 (c) Vše tedy dosadíme do χ 2 testu: chisq.test(ngoals,p=tf2,correct=f) Co je tady špatně? Jak to opravíme, aby byl výsledek správný? Jaký je nyní náš závěr ohledně rozdělení počtu vstřelených gólů? Jaká je hodnota odhadnutého parametru? 4

Samostatná práce 1. Proved te test nezávislosti na data z tabulky 1, kde vyřadíme poslední řádek (posádku). Změní se nějak závěr ohledně nezávislosti cestovní třídy a přežití? 2. Uvažujte dobře známá data Hosi.txt. Bude nás zajímat, zda jsou věk matky a věk otce nezávislé. Nebudeme ale zkoumat naměřená data, ale pouze jejich kategorizované verze, kde budeme brát kategorie do 25 let (včetně), 26 30, 31-35, 36 a výše. Tyto kategoriální veličiny získáme následovně: Fvek.matky=cut(Hosi$vek.matky,breaks=c(0,25,30,35,100)) Fvek.otce=cut(Hosi$vek.otce,breaks=c(0,25,30,35,100)) Proved te test nezávislosti těchto dvou veličin. V případě, že hypotézu nezávislosti zamítnete, zjistěte, jakým způsobem jsou veličiny asociované. 3. Na webu lidovky.cz byla v listopadu zveřejněná anketa s názvem Koho byste rádi za nového prezidenta (lze ji nalézt pod článkem ze dne 7.11.2017, který představuje nové prezidentské kandidáty). Její výsledky (ke dni 2.1.2018) jsou uvedeny v Tabulce 3. MZ JD MT MH ostatní kandidáti Počet hlasů 2194 5308 1341 626 1171 Tabulka 3: Výsledky průzkumu na webu lidovky.cz. Naproti tomu agentura Phoenix Research v prosinci uvedla (viz blesk.cz, článek ze dne 30.12.2017), že MZ získá 34 % hlasů, JD 17% hlasů, MT 14 % a MH 10 % hlasů, ostatní kandidáti 12 % hlasů a 13 % voličů ještě není rozhodnuto. Zjistěte na základě výše uvedených dat, zda mají čtenáři webu lidovky.cz stejné volební preference jako celková populace ČR (bereme-li v úvahu pouze rozhodnuté voliče). Pro zajímavost, voliče z webu lidovky.cz můžete také graficky porovnat s voliči z webu blesk.cz, příslušnou anketu lze nalézt na stránce http://www.blesk.cz/volba-prezidenta-2018-preference. Které odlišnosti Vám přijdou nejzajímavější? 4. Počet německých bomb, které zasáhly jižní Londýn během druhé světové války, uvádí tabulka 4. Data byla získána následujícím způsobem: Celá sledovaná oblast byla rozdělena na 576 regionů stejné velikosti a byly sledovány počty zásahů jednotlivých oblastí. Počet zásahů 0 1 2 3 4 5+ Počet regionů 229 211 93 35 7 1 Tabulka 4: Počet německých bomb v Londýně během druhé světové války. Zjistěte, zda se počty zásahů řídí Poissonovým rozdělením (případně s jakým parametrem). 5