M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

Podobné dokumenty
M cvičení : GLM04b (Vztah mezi Poissonovým a

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

M cvičení : GLM03a (The Working Activities of Bees)

M cvičení : GLM01a (Toxic Chemical Production Data)

velkou variabilitou: underdispersion, overdispersion)

Frekvenční analýza, čtyřpolní tabulky

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Tabulární data, pozorované vs očekávané četnosti

M cvičení : GLM01b (Porodní hmotnost novorozenců)

Poslední aktualizace: 13. prosince 2011

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

RNDr. Marie Forbelská, Ph.D. 1


Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Přednáška IX. Analýza rozptylu (ANOVA)

Fisherův exaktní test

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

f konverguje a g je omezená v (a, b), pak také konverguje integrál b a fg. Dirichletovo kritérium. Necht < a < b +, necht f : [a, b) R je funkce

Jak pracovat s daty TALIS v R

Lineární a logistická regrese

AVDAT Mnohorozměrné metody, metody klasifikace

4ST201 STATISTIKA CVIČENÍ Č. 10

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

M praktikum : M0130pr03



kovů v sedimentech řeky Moravy



RNDr. Marie Forbelská, Ph.D. 1



Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Kontingenční tabulky, korelační koeficienty


Statistický model pro predikci parkovací kapacity z nepřímých dat. Workshop Matematické modely a aplikace Podlesí

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Seminář 6 statistické testy

Seminář 6 statistické testy

Výběrové charakteristiky a jejich rozdělení

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů


Kontingenční tabulky, korelační koeficienty

Aplikovaná statistika v R - cvičení 2

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Bezkontextové jazyky 2/3. Bezkontextové jazyky 2 p.1/27

příkladů do cvičení. V textu se objeví i pár detailů, které jsem nestihl (na které jsem zapomněl) a(b u) = (ab) u, u + ( u) = 0 = ( u) + u.

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

M cvičení : M6120cv02 (Práce s daty v R)

Použití statistických metod pro analýzu řezných podmínek

Analýza reziduí gyroskopu umístěného na kyvadle p.1

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Klíčová slova: Phytagorova věta, obsahy a obvody rovinných útvarů, úhlopříčky a jejich vlastnosti, úhly v rovinných útvarech, převody jednotek

VLASTNOSTI NORMÁLNÍHO ROZDĚLENÍ A ODVOZENÁ ROZDĚLENÍ. N(0, 1) má tzv. standardizované normální rozdělení.

Klíčová slova: Phytagorova věta, obsahy a obvody rovinných útvarů, úhlopříčky a jejich vlastnosti, úhly v rovinných útvarech, převody jednotek

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Klíčová slova: Phytagorova věta, obsahy a obvody rovinných útvarů, úhlopříčky a jejich vlastnosti, úhly v rovinných útvarech, převody jednotek


Design Experimentu a Statistika - AGA46E

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Odhady Parametrů Lineární Regrese

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Miroslav Khýr. bankovních datech

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Odhad parametrů N(µ, σ 2 )

Konvergence kuncova/

ANOVA PSY252 Statistická analýza dat II


Aplikovaná statistika v R - cvičení 3

Klasická lineární regrese

AVDAT Klasický lineární model, metoda nejmenších



Statistická a věcná významnost. Statistická významnost. Historie hypotézy a testů. Hypotézy a statistické testy.

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

Výpočtová i experimentální analýza vlivu vrubů na omezenou životnost součástí

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6


Kontingenční tabulky. (Analýza kategoriálních dat)

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Testy nezávislosti kardinálních veličin

ANOVA analýza rozptylu

MOŽNOSTI APROXIMACE ROZDĚLENÍ KOLEKTIVNÍHO RIZIKA

Statistika II. Jiří Neubauer

4EK211 Základy ekonometrie

Kontingenční tabulky a testy shody


Transkript:

RNDr. Marie Forbelská, Ph.D. 1 M7222 5. cvičení : GLM05b (Trojrozměrné kontingenční tabulky) Příklad: Průzkum na školách V roce 1992 byl uskutečněn průzkum na školách Wright State University School of Medicine a United Health Service in Dayton Ohio. V průzkumu odpovídalo celkem 2276 studentů posledních ročníků na dotaz, zda zkusili alkohol, cigarety a marihuanu. Výsledky jsou dány následující tabulkou. Vytvoříme datový rámec. Alcohol Cigarette Marijuana Use Use Use Yes No Yes Yes 911 538 No 44 456 No Yes 3 43 No 2 279 > Data <- data.frame(expand.grid(marijuana = factor(c("yes", "No"), levels = c("no", "Yes")), cigarette = factor(c("yes", "No"), levels = c("no", "Yes")), alcohol = factor(c("yes", "No"), levels = c("no", "Yes"))), count = c(911, 538, 44, 456, 3, 43, 2, 279)) > str(data) 'data.frame': 8 obs. of 4 variables: $ marijuana: Factor w/ 2 levels "No","Yes": 2 1 2 1 2 1 2 1 $ cigarette: Factor w/ 2 levels "No","Yes": 2 2 1 1 2 2 1 1 $ alcohol : Factor w/ 2 levels "No","Yes": 2 2 2 2 1 1 1 1 $ count : num 911 538 44 456 3 43 2 279 > Data marijuana cigarette alcohol count 1 Yes Yes Yes 911 2 No Yes Yes 538 3 Yes No Yes 44 4 No No Yes 456 5 Yes Yes No 3 6 No Yes No 43 7 Yes No No 2 8 No No No 279 Nejprve vytvoříme maximální (také označovaný jako saturovaný) a minimální model (grand mean model, equaprobability model): GLM max : H 0 : EY jkl = Nπ jkl η jkl =log EY jkl =µ+α j +β k +γ l +(αβ) jk +(αγ) jl +(βγ) kl +(αβγ) jkl GLM min : H 0 : EY jkl = Nπ jkl η jkl =log EY jkl = µ

2 M7222 Zobecněné lineární modely (GLM05b) > m.max <- glm(count ~ alcohol * cigarette * marijuana, data = Data, family = "poisson", y = TRUE) > summary(m.max) glm(formula = count ~ alcohol * cigarette * marijuana, family = "poisson", [1] 0 0 0 0 0 0 0 0 (Intercept) 5.63121 0.05987 94.060 < 2e-16 *** alcoholyes 0.49128 0.07601 6.464 1.02e-10 *** cigaretteyes -1.87001 0.16383-11.414 < 2e-16 *** marijuanayes -4.93806 0.70964-6.959 3.44e-12 *** alcoholyes:cigaretteyes 2.03538 0.17576 11.580 < 2e-16 *** alcoholyes:marijuanayes 2.59976 0.72698 3.576 0.000349 *** cigaretteyes:marijuanayes 2.27548 0.92746 2.453 0.014149 * alcoholyes:cigaretteyes:marijuanayes 0.58951 0.94236 0.626 0.531600 Null deviance: 2.8515e+03 on 7 degrees of freedom Residual deviance: -2.9199e-13 on 0 degrees of freedom AIC: 65.043 Number of Fisher Scoring iterations: 3 > m.min <- glm(count ~ 1, data = Data, > summary(m.min) glm(formula = count ~ 1, family = "poisson", Min 1Q Median 3Q Max -23.349-19.213-9.062 10.346 29.453 (Intercept) 5.65073 0.02096 269.6 <2e-16 *** Null deviance: 2851.5 on 7 degrees of freedom Residual deviance: 2851.5 on 7 degrees of freedom AIC: 2902.5 Number of Fisher Scoring iterations: 5

RNDr. Marie Forbelská, Ph.D. 3 Pokud z maximálního modelu odebereme interakci (αβγ), dostáváme tzv. model párové závislosti: GLM : H 0 : EY jkl = Nπ jkl η jkl =log EY jkl =µ+α j +β k +γ l +(αβ) jk +(αγ) jl +(βγ) kl > m.ac.am.cm <- update(m.max,. ~. - alcohol:cigarette:marijuana) > summary(m.ac.am.cm) glm(formula = count ~ alcohol + cigarette + marijuana + alcohol:cigarette + alcohol:marijuana + cigarette:marijuana, family = "poisson", 0.02044-0.02658-0.09256 0.02890-0.33428 0.09452 0.49134-0.03690 (Intercept) 5.63342 0.05970 94.361 < 2e-16 *** alcoholyes 0.48772 0.07577 6.437 1.22e-10 *** cigaretteyes -1.88667 0.16270-11.596 < 2e-16 *** marijuanayes -5.30904 0.47520-11.172 < 2e-16 *** alcoholyes:cigaretteyes 2.05453 0.17406 11.803 < 2e-16 *** alcoholyes:marijuanayes 2.98601 0.46468 6.426 1.31e-10 *** cigaretteyes:marijuanayes 2.84789 0.16384 17.382 < 2e-16 *** Null deviance: 2851.46098 on 7 degrees of freedom Residual deviance: 0.37399 on 1 degrees of freedom AIC: 63.417 Number of Fisher Scoring iterations: 4 Pokud mezi dvojitými interakcemi jednu odstraníme, máme modely tzv. podmíněné nezávislosti (conditional independence) > m.ac.am <- glm(count ~ (cigarette + marijuana) * alcohol, data = Data, > summary(m.ac.am) glm(formula = count ~ (cigarette + marijuana) * alcohol, family = "poisson", 7.2238-7.7739-15.8396 11.3171 2.0272-0.3442-1.2388 0.1379

4 M7222 Zobecněné lineární modely (GLM05b) (Intercept) 5.62295 0.06005 93.635 <2e-16 *** cigaretteyes -1.80971 0.15905-11.378 <2e-16 *** marijuanayes -4.16511 0.45067-9.242 <2e-16 *** alcoholyes -0.08167 0.07810-1.046 0.296 cigaretteyes:alcoholyes 2.87373 0.16730 17.178 <2e-16 *** marijuanayes:alcoholyes 4.12509 0.45294 9.107 <2e-16 *** Residual deviance: 497.37 on 2 degrees of freedom AIC: 558.41 Number of Fisher Scoring iterations: 5 > m.ac.cm <- glm(count ~ (alcohol + marijuana) * cigarette, data = Data, > summary(m.ac.cm) glm(formula = count ~ (alcohol + marijuana) * cigarette, family = "poisson", 0.8401-1.0667 2.4964-0.6743-6.0678 5.0235-4.5440 0.8867 (Intercept) 5.57765 0.06032 92.463 < 2e-16 *** alcoholyes 0.57625 0.07456 7.729 1.08e-14 *** marijuanayes -2.77123 0.15199-18.233 < 2e-16 *** cigaretteyes -2.69414 0.16257-16.572 < 2e-16 *** alcoholyes:cigaretteyes 2.87373 0.16730 17.178 < 2e-16 *** marijuanayes:cigaretteyes 3.22431 0.16098 20.029 < 2e-16 *** Null deviance: 2851.461 on 7 degrees of freedom Residual deviance: 92.018 on 2 degrees of freedom AIC: 153.06 Number of Fisher Scoring iterations: 6 > m.am.cm <- glm(count ~ (alcohol + cigarette) * marijuana, data = Data, > summary(m.am.cm)

RNDr. Marie Forbelská, Ph.D. 5 glm(formula = count ~ (alcohol + cigarette) * marijuana, family = "poisson", 0.05836 4.57017-0.26193-4.34413-0.86631-9.77162 2.22872 6.83535 (Intercept) 5.19207 0.06088 85.285 < 2e-16 *** alcoholyes 1.12719 0.06412 17.579 < 2e-16 *** cigaretteyes -0.23512 0.05551-4.235 2.28e-05 *** marijuanayes -6.62092 0.47370-13.977 < 2e-16 *** alcoholyes:marijuanayes 4.12509 0.45294 9.107 < 2e-16 *** cigaretteyes:marijuanayes 3.22431 0.16098 20.029 < 2e-16 *** Residual deviance: 187.75 on 2 degrees of freedom AIC: 248.8 Number of Fisher Scoring iterations: 5 Ponecháme li pouze jedinou dvojitou interakci, dostaneme modely tzv. sdružené nezávislosti: > m.ac.m <- glm(count ~ alcohol * cigarette + marijuana, data = Data, > summary(m.ac.m) glm(formula = count ~ alcohol * cigarette + marijuana, family = "poisson", 11.297-11.092-13.996 9.045-4.648 2.917-14.721 8.286 (Intercept) 5.09053 0.06228 81.732 < 2e-16 *** alcoholyes 0.57625 0.07456 7.729 1.08e-14 *** cigaretteyes -1.80971 0.15905-11.378 < 2e-16 *** marijuanayes -0.31542 0.04244-7.431 1.08e-13 *** alcoholyes:cigaretteyes 2.87373 0.16730 17.178 < 2e-16 *** Residual deviance: 843.83 on 3 degrees of freedom

6 M7222 Zobecněné lineární modely (GLM05b) AIC: 902.87 Number of Fisher Scoring iterations: 6 > m.am.c <- glm(count ~ alcohol * marijuana + cigarette, data = Data, > summary(m.am.c) glm(formula = count ~ alcohol * marijuana + cigarette, family = "poisson", 10.6031-4.6398-19.7664 5.9142-0.1592-14.1425 0.2114 13.4104 (Intercept) 4.70495 0.06282 74.894 <2e-16 *** alcoholyes 1.12719 0.06412 17.579 <2e-16 *** marijuanayes -4.16511 0.45067-9.242 <2e-16 *** cigaretteyes 0.64931 0.04415 14.707 <2e-16 *** alcoholyes:marijuanayes 4.12509 0.45294 9.107 <2e-16 *** Residual deviance: 939.56 on 3 degrees of freedom AIC: 998.6 Number of Fisher Scoring iterations: 5 > m.cm.a <- glm(count ~ alcohol + cigarette * marijuana, data = Data, > summary(m.cm.a) glm(formula = count ~ alcohol + cigarette * marijuana, family = "poisson", 4.4691 1.7907 0.7207-7.2723-15.2958-4.8889-2.1064 13.9760 (Intercept) 4.65966 0.06308 73.867 < 2e-16 *** alcoholyes 1.78511 0.05976 29.872 < 2e-16 *** cigaretteyes -0.23512 0.05551-4.235 2.28e-05 *** marijuanayes -2.77123 0.15199-18.233 < 2e-16 *** cigaretteyes:marijuanayes 3.22431 0.16098 20.029 < 2e-16 ***

RNDr. Marie Forbelská, Ph.D. 7 Residual deviance: 534.21 on 3 degrees of freedom AIC: 593.26 Number of Fisher Scoring iterations: 6 Odstraníme li všechny dvojité interakce, tj. máme pouze hlavní faktory, pak získáme tzv. model úplné nezávislosti mutually independent model: GLM : H 0 : EY jkl = Nπ jkl η jkl =log EY jkl = µ+α j +β k +γ l > m.a.c.m <- glm(count ~ alcohol + cigarette + marijuana, data = Data, > summary(m.a.c.m) glm(formula = count ~ alcohol + cigarette + marijuana, family = "poisson", 14.522-7.817-17.683 3.426-12.440-8.436-8.832 19.639 (Intercept) 4.17254 0.06496 64.234 < 2e-16 *** alcoholyes 1.78511 0.05976 29.872 < 2e-16 *** cigaretteyes 0.64931 0.04415 14.707 < 2e-16 *** marijuanayes -0.31542 0.04244-7.431 1.08e-13 *** Null deviance: 2851.5 on 7 degrees of freedom Residual deviance: 1286.0 on 4 degrees of freedom AIC: 1343.1 Number of Fisher Scoring iterations: 6 Abychom mohli jednotlivé modely srovnat, nejprve vytvoříme pomocnou funkci > lrt.test <- function(model) { G2 <- model$deviance df <- model$df.residual pval <- 1 - pchisq(g2, df)

8 M7222 Zobecněné lineární modely (GLM05b) } vysl <- c(dev = round(g2, 2), df, pval) names(vysl) <- c("dev", "df", "p-value") return(vysl) Vytvoříme seznam modelů a provedeme srovnání > seznam.modelu <- c("m.max", "m.ac.am.cm", "m.ac.am", "m.ac.cm", "m.am.cm", "m.ac.m", "m.am.c", "m.cm.a", "m.a.c.m", "m.min") > n <- length(seznam.modelu) > vysl <- matrix(na, nrow = n, ncol = 3) > for (i in 1:n) vysl[i, ] <- lrt.test(get(seznam.modelu[i])) > rownames(vysl) <- seznam.modelu > colnames(vysl) <- c("dev", "df", "p-value") > vysl dev df p-value m.max 0.00 0 1.0000000 m.ac.am.cm 0.37 1 0.5408396 m.ac.am 497.37 2 0.0000000 m.ac.cm 92.02 2 0.0000000 m.am.cm 187.75 2 0.0000000 m.ac.m 843.83 3 0.0000000 m.am.c 939.56 3 0.0000000 m.cm.a 534.21 3 0.0000000 m.a.c.m 1286.02 4 0.0000000 m.min 2851.46 7 0.0000000 Z výsledků je zřejmé, že jediným modelem, který se významně nezhoršil oproti maximálnímu, je model párové závislosti.