Testy o proporci a testy v multinomickém rozdělení

Podobné dokumenty
Matematická statistika Zimní semestr Testy o proporci

Y n = I[X i > m 0 ],

Matematická statistika Zimní semestr

Matematická statistika Zimní semestr

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Kontingenční tabulky a testy shody

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Matematická statistika Zimní semestr

Matematická statistika Zimní semestr

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

4ST201 STATISTIKA CVIČENÍ Č. 7

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Jednostranné intervaly spolehlivosti

= = 2368

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

Základní popisné statistiky a grafy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Základní popisné statistiky a grafy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a aplikovaná statistika

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

MATEMATICKÁ STATISTIKA 1 ( )

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Vzorová prezentace do předmětu Statistika

You created this PDF from an application that is not licensed to print to novapdf printer (

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Cvičení 12: Binární logistická regrese

Cvičení ze statistiky - 8. Filip Děchtěrenko

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Testování statistických hypotéz

NEPARAMETRICKÉ TESTY

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Protokol č. 1. Tloušťková struktura. Zadání:

12. cvičení z PST. 20. prosince 2017

Aproximace binomického rozdělení normálním

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

2 ) 4, Φ 1 (1 0,005)

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

4EK211 Základy ekonometrie

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

KGG/STG Statistika pro geografy

Biostatistika Cvičení 7

4EK211 Základy ekonometrie

Náhodné veličiny, náhodné chyby

PRAVDĚPODOBNOST A STATISTIKA

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

15. T e s t o v á n í h y p o t é z

Fisherův exaktní test

Příklady na testy hypotéz o parametrech normálního rozdělení

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Základy počtu pravděpodobnosti a metod matematické statistiky

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Cvičení 9: Neparametrické úlohy o mediánech

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

STATISTICKÉ HYPOTÉZY

Transkript:

Testy o proporci a testy v multinomickém rozdělení 18.12.2017 Úvodní nastavení. Z internetové stránky www.karlin.mff.cuni.cz/~hudecova/education/ si můžete stáhnout zdrojový kód cviceni12.r. Otevřete si program R Studio a proved te úvodní nastavení jako vždy: setwd("h:/nmsa331") rm(list=ls()) alpha=0.05 Jednovýběrový problém pro binární data 1. Načtěte si data Hosi.txt. Z nich nás opět bude zajímat porodní hmotnost, a to konkrétně náhodný podvýběr o rozsahu 200: Hosi = read.table("hosi.txt",header=t) set.seed(18122017) hmot=sample(hosi$por.hmot,200) 2. Novorozenec s váhou nižší než 2500 g bývá označován za novorozence s nízkou porodní hmotností. Na stránce wikiskripta.eu se uvádí, že v roce 2009 mělo nízkou porodní hmotnost 7.8 % dětí. Naším úkolem je zjistit, zda jsou naše data v souladu s touto informací. Zavedeme si novou proměnnou NPH, která může nabývat dvou hodnot: nph pro chlapce s nízkou porodní hmotností a ok pro ostatní. NPH=factor(ifelse(hmot<2500,"nph","ok")) sum(nph=="nph") (tabulka=table(nph)) (Ptabulka=prop.table(table(NPH))) # relativni cetnosti round(ptabulka*100,2) Takto jsme si nechali vypsat tabulku četností a tabulku relativních četností. Rovnou jsme si je i uložili, protože se nám budou pro další práci hodit. Ještě si vše znázorníme graficky: pie(tabulka) pie(tabulka, labels=c("nizka hmotnost","normalni hmotnost")) barplot(tabulka, ylab = "Cetnost") barplot(tabulka,ylab="cetnost",names=c("nizka hmotnost","normalni hmotnost")) barplot(ptabulka,ylab="relativni cetnost",names=c("nizka hmotnost", "Normalni hmotnost")) 1

3. Co odhadují relativní četnosti a v jakém modelu? Uložíme si tento odhad do proměnné phat: (phat =Ptabulka[1]) # totez jako: Ptabulka["nph"] 4. Přistoupíme k testu výše uvedené domněnky o výskytu dětí s nízkou porodní hmotností. Jaký předpokládáme model a jak budeme formulovat hypotézy? Nejprve budeme uvažovat asymptotický Wilsonův test, který je založený na testové statistice W = p n p 0 n p0 (1 p 0 ), která má asymptoticky normální rozdělení. Test provedeme: p0 <- 0.078 (Xn <- tabulka["nph"]) n <- length(nph) prop.test(x = Xn, n = n, p = p0, correct = FALSE) # nebo primo prop.test(tabulka,p=p0,correct=false) Jaký je náš závěr? Jsou naše data v souladu s uváděným procentuálním výskytem novorozenců s nízkou hmotností? Jakou testovou statistiku nám zde uvádí prop.test? A jaké má asymptotické rozdělení? Ověříme vše manuálním výpočtem: W <- (phat - p0)/sqrt(p0*(1-p0)/n) W^2 # p-hodnota 2*pnorm(-abs(W)) 1 - pchisq(w^2, df=1) Jak se spočítá uvedený interval spolehlivosti? Spočtěte tento interval ručně, a porovnejte s intervalem z funkce prop.test. 5. Nyní provedeme test téže hypotézy pomocí přesného testu: binom.test(x = Xn, n = n, p = p0) Jaký je nyní náš závěr? Připomeňte si, že přesný test je založen na binomickém rozdělení a že nulovou hypotézu zamítáme pro velmi malé a velmi velké hodnoty. Tedy, zamítáme, pokud X n < C 1 nebo X n > C 2, kde (C1 <- qbinom(alpha/2, size=n, prob=p0)) (C2 <- qbinom(1-alpha/2, size=n, prob=p0) - 1) 2

Odpovídá to výsledku funkce binom.test? 6. Jelikož alternativní rozdělení splňuje předpoklady centrální limitní věty, můžeme použít i asymptotický t-test. K jeho provedení musíme nejprve převést naši proměnnou NPH na 0-1 veličinu: NPH2=abs(as.numeric(NPH)-2) t.test(nph2,mean=p0) 7. Podle zprávy Hospodářských novin ze dne 16.12.2017 (zpráva Na českých vysokých školách přibývá studentů z bývalého Sovětského svazu a pomalu vytlačují Slováky) na českých vysokých školách studuje 14 % cizinců. Na základě dat z jednoho cvičení otestujte domněnku, že na Matfyzu je to statisticky významně více. Na toto cvičení chodí 20 studentů, z nichž 6 je ze Slovenska (tj. jsou cizinci). Jaký model předpokládáme? Jak vypadají hypotézy? Je vhodnější použít přesnou variantu testu nebo asymptotickou verzi? Dvouvýběrový problém pro binární data 8. Bude nás zajímat, zda je pravděpodobnost narození dítěte s nízkou porodní hmotností stejná proženypod35letaženy,kterémajíalespoň35let.prozkoumánítohotoproblémupoužijeme všechna dostupná data. Nejprve provedeme přípravu dat, tj. zavedeme novou veličinu, která nám bude kategorizovat matky na mlade a stare podle toho, zda je jejich věk menší než 35 let nebo nikoliv. Fmatka=factor(ifelse(Hosi$vek.matky>=35,"stara","mlada")) NPH=factor(ifelse(Hosi$por.hmot<2500,"nph","ok")) Podíváme se na počty případů v jednotlivých kategoriích a další vhodné charakteristiky: tapply(nph, Fmatka,summary) table(nph, Fmatka) table(fmatka,nph) prop.table(table(fmatka,nph),mar=1) ## margin = 2 --> podminuj sloupecky ## margin = 1 --> podminuj radky Vše si můžeme i graficky znázornit: plot(nph~fmatka) barplot(table(nph,fmatka),beside=t,legend=t) barplot(prop.table(table(nph,fmatka)),beside=t,legend=t) par(mfrow=c(1,2)) pie(table(nph,fmatka)[,1],main="mlade matky",col=2:3) pie(table(nph,fmatka)[,2],main="stare matky",col=2:3) par(mfrow=c(1,1)) 3

Co si myslíte o zkoumaném problému na základě těchto údajů a grafů? Závisí pravděpodobnost nízké porodní váhy na věku matky? 9. Provedeme dvouvýběrový test o proporci založený na rozdílu pravděpodobností. Jaký předpokládáme model? Jak zní testované hypotézy? Provedení testu pomocí R funkce: (tabulka=table(nph,fmatka)) (pocty.nph=tabulka["nph",]) (pocty.n=table(fmatka)) # nebo: pocty.n=margin.table(tabulka,2) prop.test(x = pocty.nph, n = pocty.n, correct = FALSE) # nebo jine zadani: prop.test(t(tabulka),correct=f) Jaký učiníme závěr na základě tohoto testu? 10. Manuální výpočet testové statistiky: prumer.m=pocty.nph[1]/pocty.n[1] prumer.s=pocty.nph[2]/pocty.n[2] prumer.all=sum(pocty.nph)/sum(pocty.n) var1=prumer.all*(1-prumer.all)*(1/pocty.n[1]+1/pocty.n[2]) (T1=(prumer.S-prumer.M)/sqrt(var1)) T1^2 #porovname s prop.test(t(tabulka),correct=f)$stat 2*pnorm(-abs(T1)) prop.test(t(tabulka),correct=f)$p.val Alternativně bychom mohli odhadnout rozptyl v každém výběru zvlášt : var2=prumer.m*(1-prumer.m)/pocty.n[1]+prumer.s*(1-prumer.s)/pocty.n[2] (T2=(prumer.S-prumer.M)/sqrt(var2)) 2*pnorm(-abs(T2)) 11. Pro danou situaci bychom mohli použít i dvouvýběrový asymptotický t-test NPH2=abs(as.numeric(NPH)-2) t.test(nph2~fmatka) Porovnejte p-hodnotu a interval spolehlivosti s předchozím výsledkem funkce prop.test. 12. Poznámka pro uživatele L A TEXu: Tabulku z R snadno převedeme do L A TEXu pomocí funkce xtable z knihovny xtable. Vyzkoušejte 4

library(xtable) xtable(tabulka) Testy dobré shody pro multinomické rozdělení se známými parametry 13. V rámci přednášky pro studenty chemie PřF MFF UK v letech 2006-2013 bylo zjišt ováno mimo jiné, v jakém měsíci slaví narozeniny. Naměřena byla následující data: Měsíc 1 2 3 4 5 6 7 8 9 10 11 12 Počet studentů 29 20 23 28 35 25 31 33 31 26 23 24 Na základě těchto dat ověřte, zda se lidé rodí rovnoměrně během roku, nebo dochází k nějakému systematickému porušení této rovnoměrnosti. (a) Jaký model budeme předpokládat a jak budeme formulovat nulovou hypotézu? (b) Nejprve si musíme spočítat teoretické pravděpodobnosti narození v jednotlivých měsících, které jsou za nulové hypotézy rovny relativnímu počtu dní v daném měsíci vzhledem k celkovému počtu dní v roce. Pro jednoduchost zanedbáme přestupné roky a budeme brát 365 dní v roce a pro únor 28 dní. Dále si do vektoru x uložíme příslušné počty z tabulky výše: tf=c(31,28,31,30,31,30,31,31,30,31,30,31)/365 x=c(29, 20, 23, 28, 35, 25, 31, 33, 31, 26, 23, 24) chisq.test(x,p=tf,correct=false) Jaký je náš závěr ohledně rozložení data narození v průběhu roku? 14. Studenti dále uváděli počet svých sourozenců. Z 328 studentů 50 uvedlo, že nemá žádného sourozence, 183 má jednoho a zbytek má dva a více sourozenců. Otestujte domněnku, že (a) jedináčci se vyskytují v poměru k osobám s jedním sourozencem a osobám s více než dvěma sourozenci v poměru 1:3:1. (b) jedináčci se vyskytují v poměru k osobám s jedním sourozencem v poměru 1:3. Samostatná práce 1. Mezi 325 studenty chemie bylo jen 21 cizinců. Otestujte, zda jsou tato data v souladu s dříve uvedeným tvrzením, že na českých vysokých školách studuje 14 % cizinců. 2. Ve skriptech máte kromě Wilsonova intervalu spolehlivosti a přesného intervalu spolehlivosti pro proporci uvedený také interval spolehlivosti založený na logitu a klasické asymptotické metodě (dále Waldův interval). Stáhněte si z internetu a načtěte si soubor pokryti.r, který obsahuje předem připravenou funkci, která počítá pro všechny čtyři metody skutečné pokrytí pro různé hodnoty parametru p a pro zadaný rozsah výběru n. Výsledkem je tedy graf skutečného pokrytí v závislosti na p a tabulka délky jednotlivých intervalů pro několik různých p. Vyzkoušejte tuto funkci pro několik různých voleb n: 5

source("pokryti.r") pokryti(n=20) pokryti(n=50) pokryti(n=200) Jak je to se skutečným pokrytím přesného intervalu spolehlivosti? Který z intervalů spolehlivosti Vám připadá nejlepší? 3. Odhadněte relativní riziko (tj. poměr rizik) pro narození chlapce s nízkou porodní hmotností pro matky pod 35 let a nad 35 let včetně. Pro sestrojení intervalového odhadu využijte vzorec ze skript na str. 109. 4. Na datech z příkladu 7. ověřte, že R ve funkci binom.test nepočítá p-hodnotu podle vzorce na str. 109. Podle této definice bychom p-hodnotu spočetli následovně: Xn=6;n=20;p0=0.14 2*min(pbinom(Xn, size = n, p = p0), 1-pbinom(Xn-1, size = n, p = p0)) binom.test(xn,n,p=p0) To ale neodpovídá p-hodnotě ve funkci binom.test. R považuje za hodnoty, které stejně nebo ještě více svědčí proti H 0, ty hodnoty, jejichž pravděpodobnost napozorování za nulové hypotézy je stejná nebo menší, než co jsme napozorovali ve skutečnosti: qq <- as.logical(dbinom(0:n, size = n, p = p0) <= dbinom(xn, size=n, p=p0)); # p-hodnota sum(dbinom(0:n, size = n, p = p0)[qq]) 5. Porovnání hladiny testu a síly statistik T d a T d pro dvouvýběrový problém: opak=1000 n1=50 n2=80 p.t1=numeric(n) p.t2=numeric(n) for(i in 1:1000){ x=rbinom(1,size=n1,prob=1/4) y=rbinom(1,size=n2,prob=1/4) p.t1[i]=prop.test(c(x,y),c(n1,n2),correct=f)$p.val } var2=(x/n1)*(1-x/n1)/n1+(y/n2)*(1-y/n2)/n2 T2=(y/n2- x/n1)/sqrt(var2) p.t2[i]=2*pnorm(-abs(t2)) 6

mean(p.t1<=0.05) mean(p.t2<=0.05) Takto sledujeme hladiny testu. Když změníme 1/4 v předpisu pro generování jednoho z výběrů, tak dostaneme odhad síly testu. 7