velkou variabilitou: underdispersion, overdispersion)

Podobné dokumenty
M cvičení : GLM03a (The Working Activities of Bees)

M cvičení : GLM04b (Vztah mezi Poissonovým a

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

M cvičení : GLM01a (Toxic Chemical Production Data)

M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

M cvičení : GLM01b (Porodní hmotnost novorozenců)

PRAVDĚPODOBNOST A STATISTIKA

Frekvenční analýza, čtyřpolní tabulky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

M praktikum : M0130pr03

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Apriorní rozdělení. Jan Kracík.

RNDr. Marie Forbelská, Ph.D. 1

Téma 22. Ondřej Nývlt

Definice spojité náhodné veličiny zjednodušená verze

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

MATEMATICKÁ STATISTIKA

Regresní analýza. Eva Jarošová

Výběrové charakteristiky a jejich rozdělení

Charakterizace rozdělení

KGG/STG Statistika pro geografy

Tabulární data, pozorované vs očekávané četnosti

Regresní analýza 1. Regresní analýza

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Pravděpodobnost a statistika

Odhady Parametrů Lineární Regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Testování hypotéz o parametrech regresního modelu

5. B o d o v é o d h a d y p a r a m e t r ů

odpovídá jedna a jen jedna hodnota jiných

Vybraná rozdělení náhodné veličiny

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Klasický lineární model, metoda nejmenších

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení Seminář z aktuárských věd. Slides by LATEX.

pravděpodobnosti, popisné statistiky

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Inovace bakalářského studijního oboru Aplikovaná chemie

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Základy teorie odhadu parametrů bodový odhad

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Pravděpodobnost a matematická statistika

PRAVDĚPODOBNOST A STATISTIKA

Přednáška X. Testování hypotéz o kvantitativních proměnných

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

Testování statistických hypotéz

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Přednáška IX. Analýza rozptylu (ANOVA)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Příklady na testy hypotéz o parametrech normálního rozdělení

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Vlastnosti odhadů ukazatelů způsobilosti

Odhady - Sdružené rozdělení pravděpodobnosti

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Inovace bakalářského studijního oboru Aplikovaná chemie

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

4EK211 Základy ekonometrie

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

MATEMATICKÁ STATISTIKA - XP01MST

Poznámky k předmětu Aplikovaná statistika, 5.téma

Pravděpodobnost a statistika

Cvičení ze statistiky - 8. Filip Děchtěrenko

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Deskriptivní statistické metody II. Míry polohy Míry variability

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Náhodná veličina. Michal Fusek. 10. přednáška z ESMAT. Ústav matematiky FEKT VUT, Michal Fusek

Aproximace binomického rozdělení normálním

Vícerozměrná rozdělení

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

y = 0, ,19716x.

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Pravděpodobnost a aplikovaná statistika

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

4ST201 STATISTIKA CVIČENÍ Č. 10

Transkript:

RNDr. Marie Forbelská, Ph.D. 1 M7222 4. cvičení : GLM04a (Problémy s příliš malou či příliš velkou variabilitou: underdispersion, overdispersion) Mějme náhodný výběry n =(Y 1,...,Y n ) T z rozdělení exponenciálního typu, který se řídí GLM modelem, tj. se sdruženou hustotou pravděpodobnosti či sdruženou pravděpodobnostní funkcí tvaru { n n [ } yi θ i γ(θ i ) f(y,θ)= f(y i,θ i )=exp + d(y i,φ) ψ i (φ) tj. jde o regulární hustotu exponenciálního typu v kanonické škálové formě. Předpokládejme, že pro hustotu exponenciálního typu platí: ψ i (φ)= φ ω i, kde ω i >0jsou známé apriorní váhy a φ >0je neznámý rušivý parametr, který se též nazývá škálovým či rozptylovým parametrem. Pak při testování vhodnosti modelu hraje velmi důležitou roli tzv. (škálová) deviace, kterou můžeme vyjádřit takto [ D =2 l ( β max ;Y) l ( β;y) n ω i [Y iˆθi,max γ(ˆθ i,max ) ω i [Y iˆθi γ(ˆθ i ) =2 + d(y i,φ) d(y i,φ) φ φ = 1 φ 2 n = 1 φ D ω i [Y i (ˆθ i,max ˆθ i ) γ(ˆθ i,max )+γ(ˆθ i ) a D nazveme neškálovanou deviací (unscaled deviance). Protože platí D= 1 φ D A χ 2 (n m) ED= 1 φ ED n m, nebot střední hodnota u χ 2 je rovna počtu stupňů volnosti, pak ˆφ D = D n m. Další často používanou mírou vhodnosti modelu je tzv. zobecněná Pearsonova statistika n X 2 (Y i ) 2 A = χ 2 (n m) V( ) a proto dalším momentovým odhadem založeným na této statistice je ˆφ X 2= X2 n m.

2 M7222 Zobecněné lineární modely (GLM04a) Přehled rozptylových parametrů a neškálovaných deviací pro rozdělení exponenciálního typu je dán v následující tabulce. Rozdělení φ D Normální rozdělení Poissonovo rozdělení Binomické rozdělení Gamma rozdělení 1 α n σ 2 (Y i ) 2 1 2 n [ Y i ln Yi (Y i ) 1 2 n [ Y i ln yi +(n i Y i )ln ni Yi [ Yi ln Yi 2 n n i Problém s příliš velkou či malou variabilitou se týká těch rozdělení, u kterých má být scale parametr roven jedné, tj. binomického a Poissonova rozdělení. Proto si nejprve tato dvě rozdělení připomeňme. Náhodná veličina s binomickým rozdělením Z= ny Bi(n,π), kde n N,π (0,1), má ( ) { ( ) ( )} n π n f Z (z)= π z (1 π) n z =exp zln + nln(1 π)+ln pro z=0,...,n, z 1 π z přičemž EZ= µ=nπ a DZ= nπ(1 π). ( ) Tedy přirozený parametr θ = ln µ 1 µ rozptylová funkce V(µ)=µ(1 µ) scale factor φ=1 váhy ω= n. Vidíme, že platí DZ < EZ nebot DZ= }{{} nπ(1 π) a (1 π) (0,1). EZ Naproti tomu náhodná veličina s Poissonovým rozdělením Y Po(λ), kde λ >0 má přičemž f(y)= λy e λ y! Tedy přirozený parametr θ = ln λ rozptylová funkce V(µ) = µ scale factor φ=1 váhy =exp {yln λ λ ln y!} EY = µ=λ a DY= λ. ω=1. Pro Poissonovo rozdělení tedy platí, že DY= EY. pro y=0,1,2,...

RNDr. Marie Forbelská, Ph.D. 3 Pokud pro reálná data dojde k tomu, že například pro binomické či Poissonovo rozdělení je rozptyl větší než střední hodnota, pak jde o overdispersion. Pokud je například u dat, pro která jsme předpokládali Poissonovo rozdělení, rozptyl naopak menší než střední hodnota, pak jde o underdispersion. V těchto případech není hodnota disperzního (scale) parametru φ (jakožto poměru DY EY ) rovna 1. Ve výpisu výsledků modelu nás na tuto situaci upozorní výrazně větší (menší) hodnota reziduální (tedy nevysvětlené) deviace ve srovnání s reziduálním počtem stupňů volnosti, což je střední hodnota χ 2 rozdělení. Existuje řada možných vysvětlení, proč k tomu došlo. Tak například v biologických studiích může být overdispersion důsledkem agregovaného výskytu organismů. Nebo je tento jev důsledkem závislosti v datech, které standardní model nepředpokládá. Může se také stát že přirozený parametr není stálý, ale mění se náhodně mezi jedinci. Příliš malý či velký rozptyl může vzniknout také nezařazením některé důležité vysvětlující proměnné. V prostředí R je k řešení tohoto problému k dispozici modifikovaná volba pro třídu exponenciálního rozdělení. V případě binomického rozdělení máme možnost volby family=quasibinomial a pro Poissonovo rozdělení family=quasipoisson. Nejde o nový typ exponenciálního rozdělení, ale o změnu ve výpočtu druhého momentu, pro jehož odhad se použije jednoduchý momentový odhad disperzního parametru φ. Výsledná korekce rozptylu je pak důležitá při testování hypotéz, nebot zohledňuje vyšší/nižší variabilitu v datech a zabraňuje tak nadbytku/nedostatku falešně pozitivních výsledků testů hypotéz o parametrech modelu. Hodnota parametru φ se stanoví z poměru Pearsonových reziduí a reziduálního počtu stupňů volnosti, tj. pomocíˆφ X 2. Vrátíme se k příkladu The Working Activities of Bees. Nejprve načteme popis dat, následně samotná data, nakonec data vykreslíme. > filetxt <- paste(data.library, "bees.txt", sep = "") > con <- file(filetxt) > (popis <- readlines(con)) [1 "The working activities of bees" [2 "==============================" [3 "http://www.math.tau.ac.il/~felix/genlin/bees.dat " [4 "" [5 "The file contains the data about \"working activities\" " [6 "of bees in the bee-hive (Hebrew: \"kaveret\") as a function " [7 "of time of the day. One of the important characteristics " [8 "of \"working activities\" is the number of bees leaving " [9 "the bee-hive for outside activities. " [10 "The data collected during several successive non-rainy days " [11 "contain the number of bees that left the bee-hive and the time " [12 "of the day (in hours). "

4 M7222 Zobecněné lineární modely (GLM04a) > close(con) > filedat <- paste(data.library, "bees.dat", sep = "") > data <- read.table(filedat, header = FALSE) > names(data) <- c("number", "time") > str(data),data.frame,: 504 obs. of 2 variables: $ number: int 34 13 11 32 39 36 34 20 16 35... $ time : int 9 10 12 13 14 15 9 10 12 13... > with(data, plot(number ~ time, cex = 0.75)) > mtext(popis[1, cex = 1.25) The working activities of bees number 0 20 40 60 80 8 10 12 14 16 time Obrázek 1: Bodový graf dat The Working Activities of Bees. Protože závisle proměnná number značí počty včel, budeme předpokládat, že její rozdělení je Poissonovo. Jako linkovací funkci zvolíme kanonickou, tj. logaritmus. Pomocí GLM modelu budeme zkoumat vztah mezi proměnnými number a time. > m1 <- glm(number ~ time + I(time^2), data = data, family = poisson) > summary(m1) Call: glm(formula = number ~ time + I(time^2), family = poisson, data = data) Deviance Residuals: Min 1Q Median 3Q Max -6.009-2.691-1.232 1.317 11.789

RNDr. Marie Forbelská, Ph.D. 5 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -12.235733 0.285242-42.90 <2e-16 *** time 2.698642 0.049285 54.76 <2e-16 *** I(time^2) -0.114931 0.002096-54.84 <2e-16 *** --- Signif. codes: 0,***, 0.001,**, 0.01,*, 0.05,., 0.1,, 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 9305.5 on 503 degrees of freedom Residual deviance: 4879.3 on 501 degrees of freedom AIC: 6830.6 Number of Fisher Scoring iterations: 6 Všimněme si, že hodnota reziduální deviace je nepoměrně vyšší než počet stupňů volnosti, což je střední hodnota χ 2 rozdělení. > (Scale <- m1$deviance/m1$df.residual) [1 9.739058 Vidíme,že tato hodnota je téměř desetkrát vyšší. Zvolíme tedy variantu s volbou family=quasipoisson. > m1q <- glm(number ~ time + I(time^2), data = data, family = quasipoisson) > summary(m1q) Call: glm(formula = number ~ time + I(time^2), family = quasipoisson, data = data) Deviance Residuals: Min 1Q Median 3Q Max -6.009-2.691-1.232 1.317 11.789 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -12.235733 0.938884-13.03 <2e-16 *** time 2.698642 0.162223 16.64 <2e-16 *** I(time^2) -0.114931 0.006898-16.66 <2e-16 *** --- Signif. codes: 0,***, 0.001,**, 0.01,*, 0.05,., 0.1,, 1 (Dispersion parameter for quasipoisson family taken to be 10.83416) Null deviance: 9305.5 on 503 degrees of freedom Residual deviance: 4879.3 on 501 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 6

6 M7222 Zobecněné lineární modely (GLM04a) Vidíme, že použití volby family=quasipoisson neovlivňuje odhady koeficientů, ale mění jejich odhady variability. Na závěr tohoto příkladu ještě graficky srovnáme oba výsledky. > par(mfrow = c(1, 2), mar = c(4, 4, 2, 0) + 0.05) > ab <- range(data$time) > xx <- seq(ab[1, ab[2, length.out = 200) > x <- c(xx, rev(xx)) > yy <- predict(m1, list(time = xx), type = "response") > predicted.log <- predict(m1, list(time = xx), type = "link", se = T) > CI.L.log <- exp(predicted.log$fit - 1.96 * predicted.log$se.fit) > CI.H.log <- exp(predicted.log$fit + 1.96 * predicted.log$se.fit) > y <- c(ci.l.log, rev(ci.h.log)) > plot(data$time, data$number, type = "n", ylab = "number of bees that left the bee-hive", xlab = "time of the day (in hours)") > polygon(x, y, col = "gray75", border = "gray75") > points(data$time, data$number, cex = 0.75) > lines(xx, yy, col = "red", lwd = 2) > mtext(paste(popis[1, "-", "Poisson regression"), cex = 1.025) > phi <- round(summary(m1)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -1, cex = 1) > yy <- predict(m1q, list(time = xx), type = "response") > predicted.log <- predict(m1q, list(time = xx), type = "link", se = T) > CI.L.log <- exp(predicted.log$fit - 1.96 * predicted.log$se.fit) > CI.H.log <- exp(predicted.log$fit + 1.96 * predicted.log$se.fit) > y <- c(ci.l.log, rev(ci.h.log)) > plot(data$time, data$number, type = "n", ylab = "number of bees that left the bee-hive", xlab = "time of the day (in hours)") > polygon(x, y, col = "gray75", border = "gray75") > points(data$time, data$number, cex = 0.75) > lines(xx, yy, col = "red", lwd = 2) > mtext(paste(popis[1, "-", "Quasi Poisson regression"), cex = 1.025) > phi <- round(summary(m1q)$dispersion, 3) > mtext(text = bquote(phi ==.(phi)), side = 3, line = -1, cex = 1) The working activities of bees Poisson regression φ = 1 The working activities of bees Quasi Poisson regression φ = 10.834 number of bees that left the bee hive 0 20 40 60 80 number of bees that left the bee hive 0 20 40 60 80 8 10 12 14 16 8 10 12 14 16 time of the day (in hours) time of the day (in hours) Obrázek 2: Srovnání výsledků bez a s vyrovnáním se s problematikou přílis velkého rozptylu.