Matematická statistika Zimní semestr

Podobné dokumenty
Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Testy o proporci a testy v multinomickém rozdělení

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Matematická statistika Zimní semestr

Matematická statistika Zimní semestr

Matematická statistika Zimní semestr Testy o proporci

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Kontingenční tabulky a testy shody

Y n = I[X i > m 0 ],

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4ST201 STATISTIKA CVIČENÍ Č. 7

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jednostranné intervaly spolehlivosti

Jednofaktorová analýza rozptylu

= = 2368

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Matematická statistika Zimní semestr

STATISTICA Téma 7. Testy na základě více než 2 výběrů

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Normální (Gaussovo) rozdělení

Cvičení ze statistiky - 9. Filip Děchtěrenko

Vzorová prezentace do předmětu Statistika

Statistika (KMI/PSTAT)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Jednofaktorová analýza rozptylu

Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Tomáš Karel LS 2012/2013

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Úvod do analýzy rozptylu

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Porovnání dvou výběrů

PRAVDĚPODOBNOST A STATISTIKA

STATISTICKÉ TESTY VÝZNAMNOSTI

Cvičení 9: Neparametrické úlohy o mediánech

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Tomáš Karel LS 2012/2013

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Protokol č. 1. Tloušťková struktura. Zadání:

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Stručný úvod do testování statistických hypotéz

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Odhad parametrů N(µ, σ 2 )

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Přednáška IX. Analýza rozptylu (ANOVA)

Cvičení ze statistiky - 8. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

PRAVDĚPODOBNOST A STATISTIKA

Základní popisné statistiky a grafy

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

4EK211 Základy ekonometrie

A B C D

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistická analýza jednorozměrných dat

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Výběrové charakteristiky a jejich rozdělení

12. cvičení z PST. 20. prosince 2017

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Náhodné veličiny, náhodné chyby

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

Technická univerzita v Liberci

Testování hypotéz. 4. přednáška

KORELACE. Komentované řešení pomocí programu Statistica

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Transkript:

Analýza rozptylu (jednoduché třídění) 11.1.2018 Úvodní nastavení. Z internetové stránky www.karlin.mff.cuni.cz/~hudecova/education/ si stáhněte data Med.txt. Otevřete si program R Studio a načtěte si výše uvedená data setwd("h:/nmsa331") rm(list=ls()) Med=read.table("Med.txt",header=T) Popis dat. Na pěti různých místech A, B, C, D a E bylo z řeky vyloveno vždy 7 ryb a byla zjišt ována koncentrace mědi v jejich játrech. Naměřená data jsou obsažena v datech Med.txt. Otázkou je, zda je znečištění řeky stejné na všech zkoumaných místech nebo zda se nějak významně liší. 1. Prohlédněte si data Med.txt. V analýze budeme pracovat s logaritmem koncentrace, tj. s proměnnou lncu. Podívejte se, kolik máme pozorování pro jednotlivá místa A, B, C, D a E. Porovnáme průměry a směrodatné odchylky na jednotlivých místech. Vše si znázorníme i graficky. attach(med) tapply(lncu,misto,mean) tapply(lncu,misto,sd) boxplot(lncu~misto,col="orange") 2. Na náš problém budeme chtít použít analýzu rozptylu. Připomeňte si, jaké všechny předpoklady tato metoda má a posud te graficky, zda se zdají být tyto předpoklady v našich datech splněny nebo nikoliv. 3. Dále si připomeňte, na jakých principech je analýza rozptylu založena: co je to celkový součet čtverců, součet čtverců skupin a reziduální součet čtverců. Jednotlivé body a průměry si můžeme znázornit i graficky: (prumery=tapply(lncu,misto,mean)) plot(lncu~as.numeric(misto),,col="gray40", cex=1,pch=19, xlab="misto",xaxt="n",xlim=c(0.5,5.5)) mtext(levels(misto),1,line=1.2,at=1:5) points(prumery~c(1:5),col="blue",pch=17,cex=1.2) (celk.prumer=mean(lncu)) abline(h=celk.prumer,col="red",lwd=2) 4. Otestujte, zda je znečištění řeky na zkoumaných pěti místech stejné. Formulujte H 0 a H 1. Test provedeme následovně: 1

model<-aov(lncu~misto) anova(model) #totez jako summary(model) 5. Nyní si spočítáme jednotlivé položky z tabulky manuálně. (ni=table(misto)) (N=sum(ni)) (SSc=sum((lnCu-celk.prumer)^2) ) (SSa=sum(ni*(prumery-celk.prumer)^2)) (SSe=sum((lnCu-fitted(model))^2)) # nebo zde taky takto: (SSe=sum((lnCu-rep(prumery,7))^2)) p=length(levels(misto)) SSa/(p-1) SSe/(N-p) # testova statistika (Fa=SSa/(p-1)/(SSe/(N-p))) # p-hodnota 1-pf(Fa,df1=p-1,df2=N-p) 6. F -test analýzy rozptylu zamítl nulovou hypotézu shody středních hodnot a prokázal, že existují (alespoň dvě) místa v řece, kde se znečištění statisticky významně liší. Přirozeně nás tedy zajímá, která místa řeky se od sebe významně liší co se týče znečištění. Jinými slovy nás zajímá porovnání znečištění v místě i a místě j pro všechna i j. (a) Jak bychom postupovali, kdybychom chtěli provést pouze jedno porovnání míst A a B? (b) Kolik porovnání musíme provést, když chceme porovnat všechny dvojice? (c) Uvažujte hypotetickou situaci, kdy uvažujeme sto různých nulových hypotéz a jim odpovídajících sto různých testů. Necht jsou tyto testy nezávislé a všechny provádíme na hladině 5%. Předpokládejme, že všechny nulové hypotézy platí. Kolik budeme očekávat falešných zamítnutí? Jaká je pravděpodobnost, že alespoň jeden test falešně zamítne platnou nulovou hypotézu? Jak se předchozí čísla změní, budeme-li uvažovat 20 hypotéz a jim příslušných nezávislých testů? Z výše uvedených důvodů provedeme mnohonásobné porovnání pomocí Bonferroniho metody. Porovnáme tedy všechny dvojice (i, j) na hladině významnosti α/m, kde m je počet porovnání z (b). lev.mista=levels(misto) 2

alpha=0.05 m=5*4/2 #vsechny testy na hladine: alpha/m for(i in 1:4) for(j in (i+1):5){ print(paste(lev.mista[i],"-",lev.mista[j])) print(t.test(lncu[misto==lev.mista[i]],lncu[misto==lev.mista[j]])$p.val,var.equal=t) } Které místa se významně liší? Můžeme si vytvořit i přehlednější výstup: tabulka=matrix(0,ncol=4,nrow=m) rownames(tabulka)=1:10 k=1 for(i in 1:4) for(j in (i+1):5){ rownames(tabulka)[k]=paste(lev.mista[i],"-",lev.mista[j]) test=t.test(lncu[misto==lev.mista[i]],lncu[misto==lev.mista[j]], conf.level = 1-alpha/m,var.equal=T) int=test$conf.int tabulka[k,1]=test$estimate[1]-test$estimate[2] tabulka[k,2]=int[1] tabulka[k,3]=int[2] tabulka[k,4]=ifelse(test$p.val<alpha/m,1,0) k=k+1 } tabulka 7. Při vyšším počtu porovnání (tj. vyšším počtu kategorií) bývá Bonferroniho metoda příliš přísná. Existují tedy i specializované metody pro mnohonásobné porovnání, např. tzv. Tukeyho metoda. TukeyHSD(model) plot(tukeyhsd(model)) Na kterých místech v řece se znečištění statisticky významně liší? 8. V případě, že nelze předpokládat shodu rozptylů, můžeme namísto F -testu analýzy rozptylu použít Welchovu variantu testu, která je jakýmsi zobecněním Welchova dvouvýběrového t- testu pro více výběrů, viz skripta str. 129. Tento test využívá asymptotické chování příslušné testové statistiky pro n i, n i /N λ > 0. V našem případě máme n i = 7, takže užití asymptotického testu není vhodné, ale ukážeme si, jak bychom jej v R zavolali: oneway.test(lncu~misto) V případě zamítnutí nulové hypotézy tímto testem, pak opět provedeme mnohonásobné porovnání, a to pomocí Bonferroniho metody a Welchova testu (Tukeyho metoda předpokládá shodu rozptylů, takže ji v tomto případě nelze použít). Manuální výpočet (viz vzorec ze skript): 3

(Si2=tapply(lnCu,Misto,var)) (wi=ni/si2) (Lambda=sum(1/(ni-1)*(1-wi/sum(wi))^2)/(p^2-1)) (Ywbar=weighted.mean(prumery,w=wi)) (FW=sum(wi*(prumery-Ywbar)^2)/(p-1)*1/(1+2*Lambda*(p-2))) oneway.test(lncu~misto)$stat #df oneway.test(lncu~misto)$param 1/(3*Lambda) #p-hodnota 1-pf(FW,p-1,1/(3*Lambda)) oneway.test(lncu~misto)$p.val 9. Podíváme se, jaký je vztah dvouvýběrového t-testu a analýzy rozptylu pro případ p = 2. Z našich dat si tedy vybereme pouze místa A a B a ta porovnáme jak t-testem, tak pomocí F -testu. detach(med) AB=Med[Med$Misto=="A" Med$Misto=="B",] AB$Misto=factor(AB$Misto) (t=t.test(lncu~misto,data=ab,var.equal=t)) (a=anova(modelab<-aov(lncu~misto,data=ab))) #porovnani testovych statistik a p-hodnot t$stat^2 a$f t$p.val a$pr Pomocí jakých rozdělení jsou spočtené výše uvedené p-hodnoty? Podobné srovnání pak dostaneme pro Welchův test a Welchovu statistiku jednoduchého třídění t.test(lncu~misto,data=ab) oneway.test(lncu~misto,data=ab) Samostatná práce 1. Data dieta.txt porovnávají efekt tří diet na hubnutí. Pro 76 osob máme k dispozici jejich pohlaví, věk, výšku, typ diety (kódováno 1, 2 a 3) a hmotnost před a po 6 týdnech diety. Zajímá nás, zda mají zkoumané tři diety stejný vliv na úbytek hmotnosti, nebo zda je mezi nimi významná odlišnost. (a) Načtení dat 4

dieta=read.table("dieta.txt",header=t) summary(dieta) dim(dieta) head(dieta) dieta$ubytek=dieta$pre.weight-dieta$weight6weeks dieta$diet=factor(dieta$diet) attach(dieta) table(diet) (b) Zkoumaný problém si vizualizujte pomocí boxplotů. Dále si spočtěte průměry a směrodatné odchylky jednotlivých kategorií (použijte příkaz tapply). Podívejte se také na QQ grafy úbytků hmotnosti pro jednotlivé diety a posud te splnění předpokladů analýzy rozptylu. (c) Pomocí analýzy rozptylu otestuje shodu středních hodnot úbytků hmotnosti pro zkoumané tři diety. (d) Pomocí mnohonásobného porovnání (Bonferroniho nebo Tukeyho metodou) zjistěte, které diety se od sebe významně liší. 2. Podívejte se na hustoty F m,n rozdělení pro různé n a m. curve(df(x,4,30),lwd=2,0,4,ylab="f",xlab="x",ylim=c(0,1)) curve(df(x,4,100),lwd=2,add=t,col="red") curve(df(x,4,1000),lwd=2,add=t,col="brown") curve(df(x,8,30),lwd=2,add=t,col="darkgreen") curve(df(x,8,100),lwd=2,add=t,col="purple") curve(df(x,8,1000),lwd=2,add=t,col="blue") legend("topright",c("f(4,30)","f(4,100)","f(4,1000)","f(8,30)","f(8,100)","f(8,1000"), col=c("black","red","brown","darkgreen","purple","blue"),lty=rep(1,6),lwd=rep(2,6)) (a) Ověřte (přibližně graficky), zda je pravda, že hustota F n,m rozdělení dosahuje maximum v bodě n 2 m. n m+2 (b) Jak se chová F m,n rozdělení pro m pevné a n? Porovnejte grafy hustot F m,n pro nějaké pevně zvolené m (malé) a n (velké) s tímto limitním rozdělením. (c) Podobně si vykreslete graf distribuční funkce (namísto df použijte pf) a sledujte, jak se chová F n,m rozdělení pro n, m. Zdůvodněte vše i teoreticky. 3. Závěrečné opakování: Rozhodněte, jaký test (postup) byste použili pro zkoumání následujících problému vztahujících se k datům dieta.txt: Měla dieta 1 efekt na hubnutí? Tj. mají osoby po jejím absolvování nižší hmotnost než před tím? Je pravdivé tvrzení, že díky dietě 3 lidé zhubnou v průměru více než 5 kg? Závisí úbytek hmotnosti na pohlaví? Je pravděpodobnost zhubnutí stejná pro muže a pro ženy? Jsou věkové skupiny < 30 let, 30 50 let, > 50 zastoupeny v populaci hubnoucích lidí v poměru 1 : 2 : 1? Je pravděpodobnost zhubnutí stejná pro výše uvedené tři věkové skupiny? 5