Matematická statistika Zimní semestr

Podobné dokumenty
Kontingenční tabulky a testy shody

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Matematická statistika Zimní semestr

Testy o proporci a testy v multinomickém rozdělení

Matematická statistika Zimní semestr Testy o proporci

Poznámky k předmětu Aplikovaná statistika, 11. téma

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Y n = I[X i > m 0 ],

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jana Vránová, 3. lékařská fakulta UK

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

12. cvičení z PST. 20. prosince 2017

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Jednostranné intervaly spolehlivosti

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

Kontingenční tabulky, korelační koeficienty

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

4EK211 Základy ekonometrie

Matematická statistika Zimní semestr

Cvičení 12: Binární logistická regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Jednofaktorová analýza rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

KGG/STG Statistika pro geografy

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

4EK211 Základy ekonometrie

4ST201 STATISTIKA CVIČENÍ Č. 7

y = 0, ,19716x.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Matematická statistika Zimní semestr

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

Kontingenční tabulky, korelační koeficienty

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Tomáš Karel LS 2012/2013

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Návod na vypracování semestrálního projektu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Cvičení 11. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Pravděpodobnost a aplikovaná statistika

= = 2368

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Tomáš Karel LS 2012/2013

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika, Biostatistika pro kombinované studium. Jan Kracík

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Lineární regrese. Komentované řešení pomocí MS Excel

10. Předpovídání - aplikace regresní úlohy

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

HODNOCENÍ VÝKONNOSTI ATRIBUTIVNÍCH ZNAKŮ JAKOSTI. Josef Křepela, Jiří Michálek. OSSM při ČSJ

Bodové odhady parametrů a výstupů

Testy. Pavel Provinský. 19. listopadu 2013

Stavový model a Kalmanův filtr

ZÁKLADY STATISTICKÉHO ZPRACOVÁNÍ ÚDAJŮ 5. hodina , zapsala Veronika Vinklátová Revize zápisu Martin Holub,

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Úvodem Dříve les než stromy 3 Operace s maticemi

StatSoft Jak poznat vliv faktorů vizuálně

Přednáška X. Testování hypotéz o kvantitativních proměnných

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Nejdřív spočítáme jeden příklad na variaci konstant pro lineární diferenciální rovnici 2. řádu s kostantními koeficienty. y + y = 4 sin t.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

KGG/STG Statistika pro geografy

Pracovní text a úkoly ke cvičením MF002

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika

Tomáš Karel LS 2012/2013

Pojem a úkoly statistiky

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Odhad parametrů N(µ, σ 2 )

Informační a znalostní systémy

Protokol č. 1. Tloušťková struktura. Zadání:

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

4EK211 Základy ekonometrie

Transkript:

Kontingenční tabulky, testy shody, jednoduché třídění 8.1.2018 Kontingenční tabulky 1. Tabulka 1 shrnuje osudy pasažérů lodě Titanic, která tragicky ztroskotala v roce 1912. Zajímá nás, zda existuje nějaká souvislost mezi třídou, ve které cestující cestoval, a přežitím, nebo zda jsou tyto dva faktory nezávislé. Přežil Třída Ne Ano 1 122 203 2 167 118 3 528 178 Posádka 673 212 Tabulka 1: Data o Titanicu. Jaký model ted budeme uvažovat a pro co? Co všechno je v modelu náhodné a co naopak není? 2. Nejprve si do R zadáme tabulku 1. titanic=matrix(c(122, 167, 528, 673, 203, 118, 178, 212),ncol=2) dimnames(titanic)=list(trida=c("1","2","3","posadka"),prezil=c("ne","ano")) titanic Marginální četnosti dostaneme následovně: apply(titanic,1,sum) apply(titanic,2,sum) 3. Opakování: Vhodným obrázkem graficky ilustrujte marginální rozdělení zkoumaných dvou veličin. 4. Podíváme se na tabulky relativních četností prop.table(titanic) prop.table(titanic,marg=1) prop.table(titanic,marg=2) Co tyto relativní četnosti odhadují? Jak by měly tabulky přibližně vypadat v případě nezávislosti? Podíváme se na tutéž věc i graficky: barplot(titanic,beside=t,legend=t) barplot(prop.table(titanic,mar=2),beside=t,legend=t) barplot(t(titanic),beside=t,legend=t) barplot(prop.table(t(titanic),mar=2),beside=t,legend=t) 1

Prozkoumejte jednotlivé obrázky a jak se mezi sebou liší. Co si na základě čísel a grafů myslíte o vztahu zkoumaných dvou veličin? Jsou nezávislé? 5. Provedeme χ 2 test nezávislosti. chisq.test(titanic,correct=false) Jaký je náš závěr? (a) Připomeneme, jak se spočítá testová statistika χ 2 testu: a1=apply(titanic,1,sum) a2=apply(titanic,2,sum) n=sum(titanic) E=a1%o%a2/n sum((titanic-e)^2/e ) Kolik má stupňů volnosti příslušné asymptotické χ 2 rozdělení? Jak se toto číslo spočítá? (b) Ještě si prohlédneme jednotlivé položky, které máme k dispozici po použití funkce chisq.test: CH=chisq.test(titanic,correct=FALSE) names(ch) CH$residuals Co přesně jsou tato rezidua? Které kategorie tabulky nejvíce přispívají k výsledné hodnotě χ 2 statistiky a tím porušují nezávislost? Jak bychom shrnuli naše poznatky týkající se přežití pasažérů z jednotlivých tříd? 6. A není to s tím Titanicem celé trochu jinak? Podíváme se na kompletní data, která jsou k dispozici v R : data(titanic) Titanic # nase tabulka 1 apply(titanic,c(1,4),sum) # dalsi tabulky: (t1=apply(titanic,c(2,4),sum)) prop.table(t1,mar=1) (t2=apply(titanic,c(1,2),sum)) prop.table(t2,mar=1) 7. Uvažujme 2 2 tabulku uloženou v t1, která shrnuje vztah pohlaví a přežití pasažérů. (a) Otestujte nezávislost těchto dvou veličin pomocí χ 2 testu. (b) Podívejte se na problém jinak a otestujte shodu pravděpodobností přežití pro muže a pro ženy, pomocí funkce prop.test. 2

(c) Jak se liší uvažované dva modely v (a) a (b)? V jakém vztahu jsou testové statistiky v (a) a (b)? (d) Uvažujme model jako v (a). Jaké je rozdělení marginálních řádkových četností n +1 a n +2? Jaké je rozdělení četností v tabulce, podmíníme-li marginálními četnostmi n +1 a n +2? 8. Odhadněte poměr šancí na přežití žen a mužů z tabulky t1. # pomoci odhadnutych pravdepodobnosti: (phat=prop.table(t1,mar=1)[,2]) (odds = phat/(1-phat)) (odds.ratio=odds[2]/odds[1]) # nebo rychleji primo z tabulky: t1[1,1]*t1[2,2]/(t1[1,2]*t1[2,1]) Jak budeme interpretovat toto číslo? Jaká hodnota by odpovídala nezávislosti? Pro poměr šancí můžeme zkonstruovat i interval spolehlivosti. Vychází z asymptotického normálního rozdělení pro logaritmus poměru šancí, viz skripta str. 109, věta 7.4. sd=sum(1/t1) log(odds.ratio)+c(-1,1)*qnorm(0.975)*sqrt(sd) exp(log(odds.ratio)+c(-1,1)*qnorm(0.975)*sqrt(sd)) 9. Rozhodněte, zda měly ženy více než pětkrát větší šanci na přežití než muži. Test shody s rozdělením 10. V roce 2008 se v České republice narodilo 119 570 dětí, z toho 58 244 dívek a 61 326 chlapců. (a) Pomocí χ 2 testu otestujte, zda se dívky a chlapci rodí v poměru 1:1. (b) Stejnou otázku řešte pomocí jednovýběrového testu o proporci. (c) Porovnejte testové statistiky z (a) a (b) a jejich rozdělení. Jak se liší uvažované modely? 11. Tabulka 2 udává statistiku počtu vstřelených gólů v německé Bundeslize v roce 2000 (kompletní data jsou obsažena v knihovně vcd, lze je zavolat pomocí příkazu data( Bundesliga )). Zajímá nás, zda je možné modelovat počet vstřelených gólů v jednom zápase pomocí Poissonova rozdělení s parametrem 4. Počet gólů 0 1 2 3 4 5 6 7 a více Počet zápasů 25 44 62 65 55 30 14 11 Tabulka 2: Počet vstřelených gólů v Bundeslize v roce 2000. (a) Jak vypadají původní data, která mají za nulové hypotézy Poissonovo rozdělení? Kolik jich celkem máme? Čemu odpovídají hodnoty v tabulce 2 a jaké mají rozdělení? (b) Zadáme si hodnoty do R a dopočítáme si teoretické pravděpodobnosti za nulové hypotézy. 3

ngoals=c(25, 44, 62, 65, 55, 30, 14, 11) (tf=dpois(0:7,lambda=4)) tf[8]=1-sum(tf[1:7]) (c) Pozorované a očekávané četnosti si můžeme porovnat graficky: n=sum(ngoals) barplot(rbind(ngoals,n*tf),beside=t,legend.text=c("pozorovane","ocekavane")) (d) Nakonec provedeme test dobré shody: chisq.test(ngoals,p=tf,correct=f) Jaký je náš závěr? 12. Nyní se podíváme na reálnější situaci: Chtěli bychom zjistit, zda je možné počet vstřelených gólů během zápasu modelovat Poissonovým rozdělením (bez specifikace parametru). (a) Nejprve tedy musíme neznámý parametr λ odhadnout z rovnice 7 k=0 X k p k (λ) p k (λ) λ kde X k jsou četnosti v tabulce 2 a p k (λ) jsou příslušné teoretické pravděpodobnosti jednotlivých kategorií. Získaný odhad λ pak dosadíme do p k (λ) a následně do χ 2 statistiky. (b) Po rozepsání výše uvedené rovnice dostaneme: rovnice=function(x){ kk=0:6 y=x-(sum(kk*ngoals[1:7])/n + ngoals[8]/n*x*(1-ppois(5,lambda=x))/(1-ppois(6,lambda=x))) return(y) } # odhad lambda: (lam.hat=uniroot(rovnice,c(1,10))$root) = 0, # odhad pravdepodobnosti (tf2=dpois(0:7,lambda=lam.hat)) tf2[8]=1-sum(tf2[1:7]) tf2 (c) Vše tedy dosadíme do χ 2 testu: chisq.test(ngoals,p=tf2,correct=f) Co je tady špatně? Jak to opravíme, aby byl výsledek správný? Jaký je nyní náš závěr ohledně rozdělení počtu vstřelených gólů? Jaká je hodnota odhadnutého parametru? Jednoduché třídění a mnohonásobné porovnávání 13. Datový soubor znamky.csv obsahuje průměrnou známku na vysvědčení 5203 maturantů v ČR, kteří podali přihlášku na vysokou školu, a obor studia, na který se hlásí. Spočtěte základní sumární statistiky, a graficky znázorněte souvislost průměrné známky s oborem studia. Zdá se, že známky jsou odlišné pro různé obory studia? 4

znamky = read.csv("znamky.csv") levels(znamky$fspec) boxplot(avg.mark~fspec, data=znamky) (prumery = with(znamky,tapply(avg.mark,fspec,mean))) 14. Připomeňte si předpoklady jednoduchého třídění (skripta, sekce 9.1, strana 122). Jsou tyto předpoklady pro naše data splněny? 15. Testujte hypotézu, že pro všechny obory mají studenti stejné rozdělení průměrných známek. Jaký je závěr? summary(model <-aov(avg.mark~fspec, data=znamky)) 16. Spočtěte všechny údaje z ANOVA tabulky v předchozím bodě ručně. 17. Odhadněte rozdíly mezi středními hodnotami průměrných známek pro jednotlivé obory. outer(prumery,prumery,"-") 18. Testujte rovnost středních hodnot průměrných známek pro obory polnohospodářství (Agric) a umění (Art). Jaký test používáte? Co usuzujete? i = 1;j = 2; print(levels(znamky$fspec)[c(i,j)]) with(znamky,t.test( avg.mark[fspec==levels(fspec)[i]], avg.mark[fspec==levels(fspec)[j]])) 19. Pro které dvojice oborů jsou střední hodnoty průměrných známek významně odlišné? Pro korekci mnohonásobného testování použijte Bonferroniho metodu (skripta, sekce 9.2.1, strana 129). Najděte simultánní (společnou) oblast spolehlivosti pro vektor všech rozdílů středních hodnot průmerných známek v oborech. with(znamky,t.test( avg.mark[fspec==levels(fspec)[i]], avg.mark[fspec==levels(fspec)[j]], conf.level=1-0.05/choose(p,2)))) 20. Proved te analýzu v předchozím bodě pomocí Tukeyovy metody (skripta, sekce 9.2.2, strana 130). Která metoda je vhodnější? Jak se liší jejich výsledky? TukeyHSD(model) 5

Samostatná práce 1. Pokud můžete, navštivte cvičení z Matematické statistiky I ve čtvrtek 11.1.2018 od 9:00 v K4. Na cvičení se budete podrobněji zabývat metodou jednoduchého třídění a mnohonásobného porovnávání. 2. Proved te test nezávislosti na data z tabulky 1, kde vyřadíme poslední řádek (posádku). Změní se nějak závěr ohledně nezávislosti cestovní třídy a přežití? 3. Uvažujte dobře známá data Hosi.txt. Bude nás zajímat, zda jsou věk matky a věk otce nezávislé. Nebudeme ale zkoumat naměřená data, ale pouze jejich kategorizované verze, kde budeme brát kategorie do 25 let (včetně), 26 30, 31-35, 36 a výše. Tyto kategoriální veličiny získáme následovně: Fvek.matky=cut(Hosi$vek.matky,breaks=c(0,25,30,35,100)) Fvek.otce=cut(Hosi$vek.otce,breaks=c(0,25,30,35,100)) Proved te test nezávislosti těchto dvou veličin. V případě, že hypotézu nezávislosti zamítnete, zjistěte, jakým způsobem jsou veličiny asociované. 4. Na webu lidovky.cz byla v listopadu zveřejněná anketa s názvem Koho byste rádi za nového prezidenta (lze ji nalézt pod článkem ze dne 7.11.2017, který představuje nové prezidentské kandidáty). Její výsledky (ke dni 2.1.2018) jsou uvedeny v Tabulce 3. MZ JD MT MH ostatní kandidáti Počet hlasů 2194 5308 1341 626 1171 Tabulka 3: Výsledky průzkumu na webu lidovky.cz. Naproti tomu agentura Phoenix Research v prosinci uvedla (viz blesk.cz, článek ze dne 30.12.2017), že MZ získá 34 % hlasů, JD 17% hlasů, MT 14 % a MH 10 % hlasů, ostatní kandidáti 12 % hlasů a 13 % voličů ještě není rozhodnuto. Zjistěte na základě výše uvedených dat, zda mají čtenáři webu lidovky.cz stejné volební preference jako celková populace ČR (bereme-li v úvahu pouze rozhodnuté voliče). Pro zajímavost, voliče z webu lidovky.cz můžete také graficky porovnat s voliči z webu blesk.cz, příslušnou anketu lze nalézt na stránce http://www.blesk.cz/volba-prezidenta-2018-preference. Které odlišnosti Vám přijdou nejzajímavější? 5. Počet německých bomb, které zasáhly jižní Londýn během druhé světové války, uvádí tabulka 4. Data byla získána následujícím způsobem: Celá sledovaná oblast byla rozdělena na 576 regionů stejné velikosti a byly sledovány počty zásahů jednotlivých oblastí. Počet zásahů 0 1 2 3 4 5+ Počet regionů 229 211 93 35 7 1 Tabulka 4: Počet německých bomb v Londýně během druhé světové války. Zjistěte, zda se počty zásahů řídí Poissonovým rozdělením (případně s jakým parametrem). 6