M cvičení : GLM04b (Vztah mezi Poissonovým a

Podobné dokumenty
M cvičení : GLM03a (The Working Activities of Bees)

velkou variabilitou: underdispersion, overdispersion)

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

M cvičení : GLM01a (Toxic Chemical Production Data)

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

M cvičení : GLM01b (Porodní hmotnost novorozenců)

Frekvenční analýza, čtyřpolní tabulky

M praktikum : M0130pr03

Tabulární data, pozorované vs očekávané četnosti

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza. Eva Jarošová

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

RNDr. Marie Forbelská, Ph.D. 1

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

MATEMATICKÁ STATISTIKA

Statistické modelování v S-Plus

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Inovace bakalářského studijního oboru Aplikovaná chemie

Seminář 6 statistické testy

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

RNDr. Marie Forbelská, Ph.D. 1

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Karta předmětu prezenční studium

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pracovní text a úkoly ke cvičením MF002

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Pravděpodobnost a aplikovaná statistika

Kalibrace a limity její přesnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Návrhy dalších možností statistického zpracování aktualizovaných dat

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

Problém 1: Ceny nemovitostí Poznámkykřešení 1

6. Lineární regresní modely

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 10

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

4EK211 Základy ekonometrie

UNIVERZITA PARDUBICE

Prostorová variabilita

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Aplikovaná statistika v R - cvičení 2

Semestrální práce. 2. semestr

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

4EK211 Základy ekonometrie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Národníinformačnístředisko pro podporu jakosti

STATISTICKÉ METODY; ZÍSKÁVÁNÍ INFORMACÍ Z DRUHOVÝCH A ENVIRONMENTÁLNÍCH DAT

Statistická analýza dat

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

4EK211 Základy ekonometrie

Testy nezávislosti kardinálních veličin

Lineární a logistická regrese

Aplikovaná statistika v R

Vztah mezi počtem květů a celkovou biomasou rostliny

Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.

STANOVOVÁNÍ IBNR REZERVY S VYUŽITÍM ZOBECNĚNÉHO LINEÁRNÍHO MODELU 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kalibrace a limity její přesnosti

kovů v sedimentech řeky Moravy

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Technická univerzita v Liberci

Regresní a korelační analýza

Aplikovaná statistika v R - cvičení 3

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Design Experimentu a Statistika - AGA46E

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Klasický lineární model, metoda nejmenších

Seminář 6 statistické testy

odpovídá jedna a jen jedna hodnota jiných

KGG/STG Statistika pro geografy

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA PSY252 Statistická analýza dat II

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Transkript:

RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04b (Vztah mezi Poissonovým a binomických rozdělením) Připomeňme, že pomocí Poissonova rozdělení P o(λ) lze dobře aproximovat binomické rozdělení Bi(n, π) za podmínek, že n π 0 nπ= λ <, obvykle se doporučuje n >30 a π <0.1. Chceme-li tedy aproximovat binomické rozdělení Bi(n i,π i ) (kde n i jsou dostatečně velká a π i dostatečně malá) pomocí rozdělení Poissonova Y i Po(λ i = n i π i ) a přitom použijeme logaritmickou linkovací funkci, platí λ i = n i π i =exp(x T i β) log(λ i )= log(n i ) +log(π }{{} i )=x T i β. tzv. offset Příklad: Máme k dispozici data, která popisují počty napadení žraloky na Floridě v letech 1945 až 2000. Vedle toho známe i velikost populace. Počty napadení jsou velmi malé vzhledem k velikosti populace, takže místo binomického rozdělení budeme uvažovat Poissonovo rozdělení. Data načteme, prohlednéme a vykreslíme. Aby grafická informace měla smysl, místo počtu napadení vykreslíme za jednotlivé roky podíly vzhledem k velikosti populace. > df <- read.csv(paste(data.library, "floridashark.csv", sep = "")) > str(df),data.frame,: 54 obs. of 4 variables: $ : int 1946 1947 1948 1949 19 1951 1952 1953 1954 1955... $ Population: int 2473000 2539000 2578000 2668000 2771305 2980000 3157000 3310000 300 3747000... $ Attacks : int 0 1 0 0 1 0 3 1 0 0... $ Fatalities: int 0 1 0 0 0 0 1 0 0 0... > rate <- with(df, 1e+06 * Attacks/Population) > print(xyplot(rate ~, data = df, type = list("g", "p", "smooth"), xlab = "", ylab = "", main = ""))

2 M7222 Zobecněné lineární modely (GLM04b) 2.0 1.5 1.0 0.5 0.0 19 1960 1970 1980 1990 2000 Obrázek 1: Bodový graf dat spolu s odhadem trendu. Jak již bylo řečeno, místo binomického rozdělení budeme pracovat s Poissonovým rozdělení. Protože jde o podílová data, nesmíme zapomenout na offset. Nejprve začneme s nejjednodušším modelem η i =log(µ i )=log(population)+β 0 + β 1 x i kde x i, je proměnná. > llfit <- glm(attacks ~ offset(log(population)) +, data = df, family = poisson) > summary(llfit) Call: glm(formula = Attacks ~ offset(log(population)) +, family = poisson, data = df) Deviance Residuals: Min 1Q Median 3Q Max -3.1470-1.2001-0.3177 0.7281 3.4856 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -75.792269 8.658221-8.754 < 2e-16 *** 0.031174 0.0041 7.148 8.8e-13 *** (Dispersion parameter for poisson family taken to be 1) Null deviance: 176.93 on 53 degrees of freedom Residual deviance: 119.11 on 52 degrees of freedom AIC: 288.76 Number of Fisher Scoring iterations: 5

RNDr. Marie Forbelská, Ph.D. 3 Vidíme, že jednotlivé kovariáty jsou statisticky významné. Nesmíme zapomenout také na anlýzu reziduí. > par(mfrow = c(2, 2)) > plot(llfit, cex = 0.75) Residuals vs Fitted Normal Q Q Residuals 2 0 2 4 2835 Std. deviance resid. 2 0 2 4 28 35 0.5 0.5 1.5 2.5 2 1 0 1 2 Predicted values Theoretical Quantiles Std. deviance resid. 0.0 0.5 1.0 1.5 Scale Location 28 35 Std. Pearson resid. 2 0 2 4 Residuals vs Leverage 23 Cook s distance 0.5 1 0.5 0.5 0.5 1.5 2.5 0.00 0.04 0.08 0.12 Predicted values Leverage Obrázek 2: Analýza reziduí pro poissonovskou regresi s lineárních trendem v lineárním prediktoru pro data. Graficky znázorníme průběh trendu. > Pred <- predict(llfit, type = "response") > Pred.log <- predict(llfit, type = "link", se = T) > par(mfrow = c(1, 1), mar = c(4, 4, 2, 0) + 0.05) > with(df, plot(, rate, xlab = "", ylab = "", main = "")) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > with(df, lines(, CI.L.log, lty = 2, col = "dodgerblue", lwd = 1)) > with(df, lines(, CI.H.log, lty = 2, col = "dodgerblue", lwd = 1))

4 M7222 Zobecněné lineární modely (GLM04b) 19 1960 1970 1980 1990 200 Obrázek 3: Poissonovská regrese s lineárních trendem v lineárním prediktoru pro data Shark Attacks spolu s odhadem trendu a intervalu spolehlivosti. Vzhledem k neparametrickému odhadu trendu v lineárním predikoru nevystačíme s lineárním vztahem, proto vyzkoušíme polynom třetího řádu. η i =log(µ i )=log(population)+β 0 + β 1 x i + β 2 x 2 i+ β 3 x 3 i, kde x i, je proměnná. > llfit3 <- glm(attacks ~ offset(log(population)) + + I(^2) + I(^3), data = df, family = poisson) > summary(llfit3) Call: glm(formula = Attacks ~ offset(log(population)) + + I(^2) + I(^3), family = poisson, data = df) Deviance Residuals: Min 1Q Median 3Q Max -3.2177-1.0113-0.4306 0.6417 4.0344 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -4.894e+05 1.775e+05-2.757 0.00583 ** 7.439e+02 2.694e+02 2.762 0.00575 ** I(^2) -3.769e-01 1.2e-01-2.766 0.00567 ** I(^3) 6.5e-05 2.297e-05 2.771 0.00558 ** (Dispersion parameter for poisson family taken to be 1) Null deviance: 176.93 on 53 degrees of freedom Residual deviance: 107.18 on degrees of freedom AIC: 280.83 Number of Fisher Scoring iterations: 5

RNDr. Marie Forbelská, Ph.D. 5 Vidíme, že jednotlivé kovariáty jsou statisticky významné. Nesmíme zapomenout také na anlýzu reziduí. > par(mfrow = c(2, 2)) > plot(llfit3, cex = 0.75) Residuals vs Fitted Normal Q Q Residuals 4 2 0 2 4 28 Std. deviance resid. 2 0 2 4 28 1 0 1 2 3 2 1 0 1 2 Predicted values Theoretical Quantiles Std. deviance resid. Scale Location 28 Std. Pearson resid. 2 0 2 4 6 Residuals vs Leverage 54 1 0.5 Cook s distance 1 0.5 1 0 1 2 3 0.0 0.1 0.2 0.3 0.4 Predicted values Leverage Obrázek 4: Analýza reziduí pro poissonovskou regresi s polynomem 3. řádu v lineárním prediktoru pro data. Oba dva modely ihned porovnáme. > anova(llfit3, llfit, test = "Chi") Analysis of Deviance Table Model 1: Attacks ~ offset(log(population)) + + I(^2) + I(^3) Model 2: Attacks ~ offset(log(population)) + Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 107.18 2 52 119.11-2 -11.932 0.002564 ** Vidíme, že došlo k významnému zlepšení modelu. Graficky znázorníme průběh trendu pro model, který má v lineárním prediktoru polynom 3. řádu.

6 M7222 Zobecněné lineární modely (GLM04b) > Pred <- predict(llfit3, type = "response") > Pred.log <- predict(llfit3, type = "link", se = T) > par(mfrow = c(1, 1), mar = c(4, 4, 2, 0) + 0.05) > with(df, plot(, rate, xlab = "", ylab = "", main = "")) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > with(df, lines(, CI.L.log, lty = 2, col = "dodgerblue", lwd = 1)) > with(df, lines(, CI.H.log, lty = 2, col = "dodgerblue", lwd = 1)) 19 1960 1970 1980 1990 200 Obrázek 5: Poissonovská regrese s polynomem 3. řádu v lineárním prediktoru pro data Shark Attacks spolu s odhadem trendu a intervalu spolehlivosti. Když se zpětně podíváme na vztah mezi stupněmi volnosti a reziduální deviací u obou modelů > (Scale1 <- llfit$deviance/llfit$df.residual) [1] 2.290564 > (Scale3 <- llfit3$deviance/llfit3$df.residual) [1] 2.143544 vidíme, že obě hodnoty jsou zhruba dvakrát vyšší. Zvolíme tedy znovu pro oba modelu variantu s volbou family=quasipoisson.

RNDr. Marie Forbelská, Ph.D. 7 > llfitq <- glm(attacks ~ offset(log(population)) +, data = df, family = quasipoisson) > summary(llfitq) Call: glm(formula = Attacks ~ offset(log(population)) +, family = quasipoisson, data = df) Deviance Residuals: Min 1Q Median 3Q Max -3.1470-1.2001-0.3177 0.7281 3.4856 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -75.792269 13.021371-5.821 3.69e-07 *** 0.031174 0.006559 4.753 1.62e-05 *** (Dispersion parameter for quasipoisson family taken to be 2.26181) Null deviance: 176.93 on 53 degrees of freedom Residual deviance: 119.11 on 52 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5 > llfit3q <- glm(attacks ~ offset(log(population)) + + I(^2) + I(^3), data = df, family = quasipoisson) > summary(llfit3q) Call: glm(formula = Attacks ~ offset(log(population)) + + I(^2) + I(^3), family = quasipoisson, data = df) Deviance Residuals: Min 1Q Median 3Q Max -3.2177-1.0113-0.4306 0.6417 4.0344 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -4.894e+05 2.585e+05-1.893 0.0641. 7.439e+02 3.923e+02 1.896 0.0637. I(^2) -3.769e-01 1.984e-01-1.900 0.0633. I(^3) 6.5e-05 3.345e-05 1.903 0.0628. (Dispersion parameter for quasipoisson family taken to be 2.121029) Null deviance: 176.93 on 53 degrees of freedom Residual deviance: 107.18 on degrees of freedom AIC: NA Number of Fisher Scoring iterations: 5

8 M7222 Zobecněné lineární modely (GLM04b) Změnu ve variabilitě odhadů pro oba dva modely graficky porovnáme. > x <- with(df, c(, rev())) > par(mfrow = c(1, 2), mar = c(4, 4, 2, 0) + 0.05) > Pred <- predict(llfit, type = "response") > Pred.log <- predict(llfit, type = "link", se = T) > y <- c(ci.l.log, rev(ci.h.log)) > with(df, plot(, rate, type = "n", xlab = "", ylab = "", main = "")) > with(df, polygon(x, y, col = "gray75", border = "gray75")) > with(df, points(, rate)) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > mtext("poisson regression", line = -1, cex = 0.95) > phi <- round(summary(llfit)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -2, cex = 0.85) > Pred <- predict(llfitq, type = "response") > Pred.log <- predict(llfitq, type = "link", se = T) > y <- c(ci.l.log, rev(ci.h.log)) > with(df, plot(, rate, type = "n", xlab = "", ylab = "", main = "")) > with(df, polygon(x, y, col = "gray75", border = "gray75")) > with(df, points(, rate)) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > mtext("quasi Poisson regression", line = -1, cex = 0.95) > phi <- round(summary(llfitq)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -2, cex = 0.85) Poisson regression φ = 1 Quasi Poisson regression φ = 2.262 19 1960 1970 1980 1990 2000 19 1960 1970 1980 1990 200 Obrázek 6: Poissonovská regrese s lineárních trendem v lineárním prediktoru pro data Shark Attacks spolu s odhadem trendu a intervalu spolehlivosti bez a s řešením problému overdispersion.

RNDr. Marie Forbelská, Ph.D. 9 > x <- with(df, c(, rev())) > par(mfrow = c(1, 2), mar = c(4, 4, 2, 0) + 0.05) > Pred <- predict(llfit3, type = "response") > Pred.log <- predict(llfit3, type = "link", se = T) > y <- c(ci.l.log, rev(ci.h.log)) > with(df, plot(, rate, type = "n", xlab = "", ylab = "", main = "")) > with(df, polygon(x, y, col = "gray75", border = "gray75")) > with(df, points(, rate)) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > mtext("poisson regression", line = -1, cex = 0.95) > phi <- round(summary(llfit3)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -2, cex = 0.85) > Pred <- predict(llfit3q, type = "response") > Pred.log <- predict(llfit3q, type = "link", se = T) > y <- c(ci.l.log, rev(ci.h.log)) > with(df, plot(, rate, type = "n", xlab = "", ylab = "", main = "")) > with(df, polygon(x, y, col = "gray75", border = "gray75")) > with(df, points(, rate)) > with(df, lines(, predrate, lty = 1, col = "red", lwd = 2)) > mtext("quasi Poisson regression", line = -1, cex = 0.95) > phi <- round(summary(llfit3q)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -2, cex = 0.85) Poisson regression φ = 1 Quasi Poisson regression φ = 2.121 19 1960 1970 1980 1990 2000 19 1960 1970 1980 1990 200 Obrázek 7: Poissonovská regrese s polynomem 3. řádu v lineárním prediktoru pro data Shark Attacks spolu s odhadem trendu a intervalu spolehlivosti bez a s řešením problému overdispersion.