Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Podobné dokumenty
Matematická statistika Zimní semestr

Kontingenční tabulky a testy shody

Matematická statistika Zimní semestr

Testy o proporci a testy v multinomickém rozdělení

Matematická statistika Zimní semestr Testy o proporci

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Matematická statistika Zimní semestr

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Y n = I[X i > m 0 ],

Protokol č. 1. Tloušťková struktura. Zadání:

Matematická statistika Zimní semestr

Tomáš Karel LS 2012/2013

Jednofaktorová analýza rozptylu

Vzorová prezentace do předmětu Statistika

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Kontingenční tabulky, korelační koeficienty

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Úvod do analýzy rozptylu

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

12. cvičení z PST. 20. prosince 2017

Jednofaktorová analýza rozptylu

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Cvičení 9: Neparametrické úlohy o mediánech

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ADDS cviceni. Pavlina Kuranova

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4ST201 STATISTIKA CVIČENÍ Č. 7

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

= = 2368

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testy. Pavel Provinský. 19. listopadu 2013

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Cvičení 12: Binární logistická regrese

Statistická analýza jednorozměrných dat

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kontingenční tabulky, korelační koeficienty

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Lineární regrese. Komentované řešení pomocí MS Excel

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Plánování experimentu

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jana Vránová, 3. lékařská fakulta UK

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Příklady na testy hypotéz o parametrech normálního rozdělení

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

TECHNICKÁ UNIVERZITA V LIBERCI

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

KORELACE. Komentované řešení pomocí programu Statistica

Korelace. Komentované řešení pomocí MS Excel

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

Příloha č. 1 Jedno a vícefaktorová analýza dat ANOVA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičení ze statistiky - 9. Filip Děchtěrenko

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Jednostranné intervaly spolehlivosti

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TECHNICKÁ UNIVERZITA V LIBERCI

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

KGG/STG Statistika pro geografy

Příklad: Test nezávislosti kategoriálních znaků

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Pojem a úkoly statistiky

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Technická univerzita v Liberci

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

4EK211 Základy ekonometrie

Cvičení ze statistiky - 3. Filip Děchtěrenko

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Mnohorozměrná statistická data

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Transkript:

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA) 8.1.2018 Testy dobré shody se známými parametry. Mezi 891 studenty pražských vysokých škol byl na podzim 2017 proveden průzkum týkající se jejich konzumace alkoholu. Studenti byli tázáni, jak často pijí alkohol. Výsledky průzkumu jsou uvedeny v následující tabulce 1. počet 35 143 293 305 87 28 Tabulka 1: Frekvence konzumace alkoholu mezi studenty pražských vysokých škol. SZÚ ve své zprávě z roku 2014 uvádí konzumaci alkoholu v ČR v tabulce 2. Zajímá nás, zda je konzumace alkoholu mezi studenty stejná jako v celé ČR. % 5 7 23 33 29 3 Tabulka 2: Konzumace alkoholu v ČR v % podle průzkumu SZÚ z roku 2014, zdroj SZÚ. 1. Zadejte si data do R. alkohol=c(35, 143, 293, 305, 87, 28) p0=c(5,7,23,33,29,3)/100 Znázorněte si data také graficky. 2. Nyní již budeme chtít testovat výše uvedenou domněnku. (a) Jaký model budeme uvažovat pro naše data? Jak budeme formulovat hypotézu? (b) Odhadněte parametry našeho modelu a porovnejte je graficky: (p.hat=alkohol/sum(alkohol)) barplot(rbind(p.hat,p0),beside=t,legend=c("studenti","cr")) (c) Provedeme test dobré shody chisq.test(alkohol,p=p0,correct=f) Jaký je náš závěr? (d) Připomeňte si, zda se jedná o přesný nebo asymptotický test a z jakého rozdělení je spočtena p-hodnota, co by mělo být splněno, aby bylo použití asymptotického testu rozumné, jak byste spočítali hodnotu testové statistiky ručně. (e) Kdybychom chtěli vědet, v kterých kategoriích se studenti od ČR nejvíce liší, můžeme se podívat na tzv. rezidua 1

chisq.test(alkohol,p=p0,correct=f)$residuals 3. Připomeňte si, jak byste testovali, zda je procentuální zastoupení studentů, kteří pijí často (více než čtyřikrát týdně) stejné jako těch, kteří nepijí alkohol vůbec. Kontingenční tabulky. Zajímá nás, zda se konzumace alkoholu mezi studenty liší u žen a mužů, neboli zda jsou pohlaví a konzumace alkoholu (výše definovaná) závislé kategoriální znaky. K dispozici máme data uvedená v tabulce 3 ženy 15 65 155 191 55 20 muži 20 78 138 114 32 8 Tabulka 3: Konzumace alkoholu mezi studenty pražských vysokých škol podle pohlaví. 4. Zadáme si Tabulku 3 do R: tab=matrix(c(15,20,65,78,155,138,191,114,55,32,20,8),nrow=2) dimnames(tab)=list(pohlavi=c("zena","muz"), Alkohol=c(">4 T","2-3 T","1-2 T","1-3 M","<1 M","nikdy")) Zkontrolujte, že máme tabulku dobře zadanou. Kdybychom si chtěli dopočítat marginální četnosti, provedeme to následovně: rowsums(tab) colsums(tab) # nebo ekvivalentne pomoci funkce apply: apply(tab,1,sum) apply(tab,2,sum) 5. Jaký model ted budeme uvažovat pro naše data? Co všechno je v modelu náhodné a co naopak není? 6. Podíváme se na tabulky relativních četností prop.table(tab) prop.table(tab,marg=1) prop.table(tab,marg=2) Co nám jednotlivé relativní četnosti odhadují? Jak by měly tabulky přibližně vypadat v případě nezávislosti? Podíváme se na tutéž věc i graficky: barplot(tab,beside=t,legend=t) barplot(prop.table(tab,mar=2),beside=t,legend=t) barplot(t(tab),beside=t,legend=t,col=rainbow(6)) barplot(prop.table(t(tab),mar=2),beside=t,legend=t,col=rainbow(6)) 2

Prozkoumejte jednotlivé obrázky a jak se mezi sebou liší. Co si na základě čísel a grafů myslíte o vztahu zkoumaných dvou veličin? Jsou nezávislé? 7. Provedeme χ 2 test nezávislosti. chisq.test(tab,correct=false) (a) Jaký je náš závěr? (b) Připomeneme, jak se spočítá testová statistika výše uvedeného testu a jaké je její asymptotické rozdělení. Jak spočítáme stupně volnosti? (c) Které kategorie tabulky nejvíce přispívají k výsledné hodnotě χ 2 statistiky a tím porušují nezávislost? Analýza rozptylu (ANOVA). Na pěti různých místech A, B, C, D a E bylo z řeky vyloveno vždy 7 ryb a byla zjišt ována koncentrace mědi v jejich játrech. Naměřená data jsou obsažena v datech Med.txt. Otázkou je, zda je znečištění řeky stejné na všech zkoumaných místech nebo zda se nějak významně liší. 8. Stáhněte, načtěte a prohlédněte si data Med.txt. V analýze budeme pracovat s logaritmem koncentrace, tj. s proměnnou lncu. Porovnáme průměry a směrodatné odchylky na jednotlivých místech. Vše si znázorníme i graficky. attach(med) tapply(lncu,misto,mean) tapply(lncu,misto,sd) boxplot(lncu~misto,col="orange") 9. Na náš problém budeme chtít použít analýzu rozptylu. Připomeňte si, jaké všechny předpoklady tato metoda má. Formulujte H 0 a H 1. 10. Dále si připomeňte, na jakých principech je analýza rozptylu založena: co je to celkový součet čtverců, součet čtverců skupin a reziduální součet čtverců. Jednotlivé body a průměry si můžeme znázornit i graficky: (prumery=tapply(lncu,misto,mean)) plot(lncu~as.numeric(misto),,col="gray40", cex=1,pch=19, xlab="misto",xaxt="n",xlim=c(0.5,5.5)) mtext(levels(misto),1,line=1.2,at=1:5) points(prumery~c(1:5),col="blue",pch=17,cex=1.2) (celk.prumer=mean(lncu)) abline(h=celk.prumer,col="red",lwd=2) 11. Otestujte, zda je znečištění řeky na zkoumaných pěti místech stejné. Test provedeme následovně: model<-aov(lncu~misto) anova(model) #totez jako summary(model) 3

Jaký je závěr? 12. Manuální výpočet jednotlivých položek z tabulky analýzy rozptylu: (ni=table(misto)) (N=sum(ni)) (SSc=sum((lnCu-celk.prumer)^2) ) (SSa=sum(ni*(prumery-celk.prumer)^2)) (SSe=sum((lnCu-fitted(model))^2)) # nebo zde taky takto: (SSe=sum((lnCu-rep(prumery,7))^2)) p=length(levels(misto)) SSa/(p-1) SSe/(N-p) # testova statistika (Fa=SSa/(p-1)/(SSe/(N-p))) # p-hodnota 1-pf(Fa,df1=p-1,df2=N-p) 13. Proč jsme nemohli provést test tak, že bychom porovnali (na hladině 5 % pomocí t-testu nebo Welchova testu) všechny dvojice míst a zamítli bychom H 0, pokud alespoň jeden z testů odhalí rozdíl? Jak lze modifikovat výše uvedený postup, abychom mohli provést mnohonásobné porovnání jednotlivých míst na celkové hladině 5 %? lev.mista=levels(misto) alpha=0.05 m=5*4/2 #vsechny testy na hladine: alpha/m for(i in 1:4) for(j in (i+1):5){ print(paste(lev.mista[i],"-",lev.mista[j])) print(t.test(lncu[misto==lev.mista[i]],lncu[misto==lev.mista[j]],var.equal=t)$p.val) } Které místa se významně liší? Můžeme si vytvořit i přehlednější výstup: tabulka=matrix(0,ncol=6,nrow=m) rownames(tabulka)=1:10 colnames(tabulka)=c("diff", "lwr","upr", "p"," p adj","reject") k=1 for(i in 1:4) for(j in (i+1):5){ 4

rownames(tabulka)[k]=paste(lev.mista[i],"-",lev.mista[j]) test=t.test(lncu[misto==lev.mista[i]],lncu[misto==lev.mista[j]], conf.level = 1-alpha/m,var.equal=T) int=test$conf.int tabulka[k,1]=test$estimate[1]-test$estimate[2] tabulka[k,2]=int[1] tabulka[k,3]=int[2] tabulka[k,4]=test$p.val tabulka[k,5]=min(test$p.val*m,1) tabulka[k,6]=ifelse(tabulka[k,4]<alpha/m,1,0) k=k+1 } tabulka 14. Podíváme se, jaký je vztah dvouvýběrového t-testu a analýzy rozptylu pro případ p = 2. Z našich dat si tedy vybereme pouze místa A a B a ta porovnáme jak t-testem, tak pomocí F -testu. detach(med) AB=Med[Med$Misto=="A" Med$Misto=="B",] AB$Misto=factor(AB$Misto) (t=t.test(lncu~misto,data=ab,var.equal=t)) (a=anova(modelab<-aov(lncu~misto,data=ab))) #porovnani testovych statistik a p-hodnot t$stat^2 a$f t$p.val a$pr Pomocí jakých rozdělení jsou spočtené výše uvedené p-hodnoty? 5