M cvičení : GLM03a (The Working Activities of Bees)

Podobné dokumenty
velkou variabilitou: underdispersion, overdispersion)

M cvičení : GLM04b (Vztah mezi Poissonovým a

M cvičení : GLM01a (Toxic Chemical Production Data)

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

M cvičení : GLM01b (Porodní hmotnost novorozenců)

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

RNDr. Marie Forbelská, Ph.D. 1

M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

M praktikum : M0130pr03

Frekvenční analýza, čtyřpolní tabulky

Tabulární data, pozorované vs očekávané četnosti

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

M cvičení : M6120cv02 (Práce s daty v R)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Regresní analýza. Eva Jarošová

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testy nezávislosti kardinálních veličin

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Aplikovaná statistika v R - cvičení 2

Karta předmětu prezenční studium

4ST201 STATISTIKA CVIČENÍ Č. 10

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

RNDr. Marie Forbelská, Ph.D. 1

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistická analýza dat

Pracovní text a úkoly ke cvičením MF002

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

AVDAT Klasický lineární model, metoda nejmenších

Kalibrace a limity její přesnosti

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

MULTIFAKTOROVÁ ANALÝZA DOPRAVNÍ NEHODOVOSTI

Aplikovaná statistika v R - cvičení 3

KORELACE. Komentované řešení pomocí programu Statistica

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

6. Lineární regresní modely

kovů v sedimentech řeky Moravy

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.

Statistické modelování v S-Plus

4EK211 Základy ekonometrie

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

UNIVERZITA PARDUBICE

4EK211 Základy ekonometrie

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Korelace. Komentované řešení pomocí MS Excel

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Matematika pro geometrickou morfometrii (5)

Základní popisné statistiky a grafy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

STANOVOVÁNÍ IBNR REZERVY S VYUŽITÍM ZOBECNĚNÉHO LINEÁRNÍHO MODELU 1

Semestrální práce. 2. semestr

Návrhy dalších možností statistického zpracování aktualizovaných dat

http: //meloun.upce.cz,

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

INTRODUCTION TO MACHINE LEARNING (NPFL054) A template for Homework #2

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu. Ing. Michael Rost, Ph.D.

FJFJ Cvičení 1. Lukáš Frýd

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základní popisné statistiky a grafy

Prostorová variabilita

4EK211 Základy ekonometrie

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

O čem bych tu rád povídal...

Popisná statistika. Komentované řešení pomocí MS Excel

4EK211 Základy ekonometrie

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvodem Dříve les než stromy 3 Operace s maticemi

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

10. Předpovídání - aplikace regresní úlohy

Lineární regrese. Komentované řešení pomocí MS Excel

TECHNICKÁ UNIVERZITA V LIBERCI

Design Experimentu a Statistika - AGA46E

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Transkript:

RNDr. Marie Forbelská, Ph.D. 1 M7222 3. cvičení : GLM03a (The Working Activities of Bees) Popis dat je v souboru bees.txt, samotná data jsou uložena v souboru bees.dat. Nejprve načteme popisný soubor pomocí příkazu readlines() (kterému musí předcházet příkaz file() a po něm následuje příkaz close()). Protože je příkaz v závorkách, ihned se zobrazí obsah souboru. > filetxt <- paste(data.library, "bees.txt", sep = "") > con <- file(filetxt) > (popis <- readlines(con)) [1] "The working activities of bees" [2] "==============================" [3] "http://www.math.tau.ac.il/~felix/genlin/bees.dat " [4] "" [5] "The file contains the data about \"working activities\" " [6] "of bees in the bee-hive (Hebrew: \"kaveret\") as a function " [7] "of time of the day. One of the important characteristics " [8] "of \"working activities\" is the number of bees leaving " [9] "the bee-hive for outside activities. " [10] "The data collected during several successive non-rainy days " [11] "contain the number of bees that left the bee-hive and the time " [] "of the day (in hours). " > close(con) Nyní načteme datový soubor pomocí příkazu read.table() a pojmenujeme proměnné. Příkazem str() vypíšeme strukturu datového rámce. > filedat <- paste(data.library, "bees.dat", sep = "") > data <- read.table(filedat, header = FALSE) > names(data) <- c("number", "time") > str(data),data.frame,: 504 obs. of 2 variables: $ number: int 34 13 11 32 39 36 34 20 16 35... $ time : int 9 10 13 14 15 9 10 13... Abychom získali grafickou představu o datech vykreslíme je. > with(data, plot(number ~ time, cex = 0.75)) > mtext(popis[1], cex = 1.25)

2 M7222 Zobecněné lineární modely (GLM03a) The working activities of bees number 0 20 40 60 80 8 10 14 16 time Obrázek 1: Bodový graf vstupních dat. Z grafu je zřetelně vidět, že variabilita proměnné number je funkcí proměnné time. Abychom to lépe demonstrovali vykreslíme následující graf. > with(data, plot(number ~ as.factor(time), cex = 0.75)) > mtext(popis[1], cex = 1.25)

RNDr. Marie Forbelská, Ph.D. 3 The working activities of bees number 0 20 40 60 80 7 8 9 10 11 13 14 15 16 17 as.factor(time) Obrázek 2: Boxploty pro různé hodnoty proměnné time. Nyní budeme zkoumat vztah mezi proměnnými number a time pomocí GLM modelu. Protože závisle proměnná number značí počty včel, budeme předpokládat, že její rozdělení je Poissonovo. Jako linkovací funkci zvolíme kanonickou, tj. logaritmus. > m1 <- glm(number ~ time + I(time^2), data = data, family = poisson) > summary(m1) Call: glm(formula = number ~ time + I(time^2), family = poisson, data = data) Deviance Residuals: Min 1Q Median 3Q Max -6.009-2.691-1.232 1.317 11.789 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -.235733 0.285242-42.90 <2e-16 *** time 2.698642 0.049285 54.76 <2e-16 *** I(time^2) -0.114931 0.002096-54.84 <2e-16 ***

4 M7222 Zobecněné lineární modely (GLM03a) --- Signif. codes: 0,***, 0.001,**, 0.01,*, 0.05,., 0.1,, 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 9305.5 on 503 degrees of freedom Residual deviance: 4879.3 on 501 degrees of freedom AIC: 6830.6 Number of Fisher Scoring iterations: 6 Vidíme, že jednotlivé kovariáty jsou statisticky významné. Vhodnost modelu ověříme pomocí Waldova testu. > library(lmtest) > waldtest(m1, test = "Chisq") Wald test Model 1: number ~ time + I(time^2) Model 2: number ~ 1 Res.Df Df Chisq Pr(>Chisq) 1 501 2 503-2 30.3 < 2.2e-16 *** --- Signif. codes: 0,***, 0.001,**, 0.01,*, 0.05,., 0.1,, 1 Z výsledku je zřejmé, že oproti nulovému modelu se přidáním kovariát time a I(time^2) model výrazně zlepšil. Nesmíme zapomenout také na anlýzu reziduí. > par(mfrow = c(2, 2)) > plot(m1, cex = 0.75)

RNDr. Marie Forbelská, Ph.D. 5 Residuals vs Fitted Normal Q Q Residuals 5 0 5 10 273 216 Std. deviance resid. 5 0 5 10 273 216 0.5 1.5 2.5 3.5 3 2 1 0 1 2 3 Predicted values Theoretical Quantiles Std. deviance resid. 0.0 1.0 2.0 3.0 Scale Location 273 216 Std. Pearson resid. 5 0 5 10 20 Residuals vs Leverage Cook s distance 337 18 1 0.5 0.5 1.5 2.5 3.5 0.000 0.002 0.004 0.006 Predicted values Leverage Obrázek 3: Analýza reziduí pro poissonovskou regresi s kvadratickým trendem v lineárním prediktoru pro data The Working Activities of Bees. Z grafů je vidět, že analýza reziduí nedopadla nejlépe. Další kovariáty však nemáme k dispozici. Na závěr tohoto příkladu ještě graficky znázorníme výsledek. Do grafu také zakreslíme asymptotické intervaly spolehlivosti kolem střední hodnoty. > ab <- range(data$time) > xx <- seq(ab[1], ab[2], length.out = 200) > yy <- predict(m1, list(time = xx), type = "response") > predicted.log <- predict(m1, list(time = xx), type = "link", se = T) > CI.L.log <- exp(predicted.log$fit - 1.96 * predicted.log$se.fit) > CI.H.log <- exp(predicted.log$fit + 1.96 * predicted.log$se.fit) > x <- c(xx, rev(xx))

6 M7222 Zobecněné lineární modely (GLM03a) > y <- c(ci.l.log, rev(ci.h.log)) > plot(data$time, data$number, type = "n", ylab = "number of bees that left the bee-hive", xlab = "time of the day (in hours)") > polygon(x, y, col = "gray75", border = "gray75") > points(data$time, data$number, cex = 0.75) > lines(xx, yy, col = "red", lwd = 2) > mtext(paste(popis[1], "-", "poisson regression"), cex = 1.5) The working activities of bees poisson regression number of bees that left the bee hive 0 20 40 60 80 8 10 14 16 time of the day (in hours) Obrázek 4: Poissonovská regrese spolu s asymptotickými intervaly spolehlivosti.