05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Rozměr: px
Začít zobrazení ze stránky:

Download "05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")"

Transkript

1 Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat <- read.csv("cvic5.csv") Jména veličin a rozměry datové tabulky names(cv5.dat) [1] "n" "polit" "vzdel" "stat" dim(cv5.dat) [1] 30 4 Vypišme soubor cv5.dat n polit vzdel stat 1 94 Ano Zakladni SSSR 2 84 Ne Zakladni SSSR Ano Zakladni USA Ne Zakladni USA Ano Zakladni Britanie Ne Zakladni Britanie Ano Zakladni Italie Ne Zakladni Italie Ano Zakladni Mexiko Ne Zakladni Mexiko Ano Stredni SSSR Ne Stredni SSSR Ano Stredni USA Ne Stredni USA Ano Stredni Britanie Ne Stredni Britanie Ano Stredni Italie Ne Stredni Italie Ano Stredni Mexiko Ne Stredni Mexiko Ano Vysok. SSSR Ne Vysok. SSSR Ano Vysok. USA 24 8 Ne Vysok. USA Ano Vysok. Britanie 26 2 Ne Vysok. Britanie Ano Vysok. Italie 28 7 Ne Vysok. Italie Ano Vysok. Mexiko 30 2 Ne Vysok. Mexiko Jaký typ má polit class(cv5.dat$polit) [1] "character" Mám vypnutou automatickou konverzi znaků na faktory Využiju toho k tomu, abych si pořadí úrovní faktorů zadával podle potřeby cv5.dat$pol.f <- factor(cv5.dat$polit,levels=c("ne","ano")) cv5.dat$vzd.f <- factor(cv5.dat$vzdel, levels=c("zakladni","stredni","vysok.")) cv5.dat$stat.f <- factor(cv5.dat$stat, levels=c("usa","britanie","italie","mexiko","sssr")) Model nezávislosti: (P,V,S) Page 1

2 fit1 <- glm(n~pol.f+vzd.f+stat.f,family=poisson,data=cv5.dat) summary(fit1) Call: glm(formula = n ~ pol.f + vzd.f + stat.f, family = poisson, data = cv5.dat) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pol.fano < 2e-16 *** vzd.fstredni < 2e-16 *** vzd.fvysok < 2e-16 *** stat.fbritanie ** stat.fitalie stat.fmexiko stat.fsssr e-05 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 29 degrees of freedom Residual deviance: on 22 degrees of freedom AIC: Interpretace parametru pol.fano = : Odhad šance na zájem o politiku mezi všemi účastníky studie je exp( ) = 1.80 Odhad pravděpodobnosti zájmu o politiku je 1.80/(1+1.80) = 0.64 Test kvality modelu: Pokud model platí, (residuální) deviance má chí-kvadrát rozdělení s 22 stupni volnosti (lze, neboť všechny regresory jsou diskrétní) Testová statistika: , model jasně zamítáme. Veličiny P, V, S nejsou vzájemně nezávislé. Model (PV,PS,VS) fit2 <- glm(n~(pol.f+vzd.f+stat.f)^2,family=poisson,data=cv5.dat) summary(fit2) Call: glm(formula = n ~ (pol.f + vzd.f + stat.f)^2, family = poisson, data = cv5.dat) Deviance Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) < 2e-16 *** pol.fano e-15 *** vzd.fstredni e-07 *** vzd.fvysok < 2e-16 *** stat.fbritanie e-05 *** stat.fitalie < 2e-16 *** stat.fmexiko < 2e-16 *** stat.fsssr pol.fano:vzd.fstredni < 2e-16 *** pol.fano:vzd.fvysok < 2e-16 *** Page 2

3 pol.fano:stat.fbritanie pol.fano:stat.fitalie < 2e-16 *** pol.fano:stat.fmexiko e-09 *** pol.fano:stat.fsssr e-11 *** vzd.fstredni:stat.fbritanie e-11 *** vzd.fvysok.:stat.fbritanie < 2e-16 *** vzd.fstredni:stat.fitalie < 2e-16 *** vzd.fvysok.:stat.fitalie e-13 *** vzd.fstredni:stat.fmexiko < 2e-16 *** vzd.fvysok.:stat.fmexiko < 2e-16 *** vzd.fstredni:stat.fsssr e-11 *** vzd.fvysok.:stat.fsssr < 2e-16 *** --- Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: on 29 degrees of freedom Residual deviance: on 8 degrees of freedom AIC: Number of Fisher Scoring iterations: 4 V tomto modelu jsou všechny veličiny vzájemně závislé. Podmíněné poměry šancí dvou veličin však nezávisí na hodnotách třetí veličiny. Interpretace parametru pol.fano:vzd.fvysok. = Odhad poměru šancí na zájem o politiku mezi vysokoškoláky a lidmi se základním vzděláním je exp( ) = 7.91 Mezi vysokoškoláky je téměř 8-krát větší šance na zájem o politiku než mezi lidmi se základním vzděláním. anova(fit1,fit2,test="chisq") Analysis of Deviance Table Model 1: n ~ pol.f + vzd.f + stat.f Model 2: n ~ (pol.f + vzd.f + stat.f)^2 Resid. Df Resid. Dev Df Deviance P(> Chi ) Model s interakcemi je výrazně lepší. drop1(fit2,test="chisq") Single term deletions Model: n ~ (pol.f + vzd.f + stat.f)^2 Df Deviance AIC LRT Pr(Chi) <none> pol.f:vzd.f < 2.2e-16 *** pol.f:stat.f < 2.2e-16 *** vzd.f:stat.f < 2.2e-16 *** Žádnou z interakcí nelze z modelu vypustit. Test kvality modelu: Pokud model platí, (residuální) deviance má chí-kvadrát rozdělení s 8 stupni volnosti Testová statistika: 35.09, model jasně zamítáme. Musíme přejít k saturovanému modelu. Page 3

4 fit.s <- glm(n~(pol.f+vzd.f+stat.f)^3,family=poisson,data=cv5.dat) summary(fit.s) Call: glm(formula = n ~ (pol.f + vzd.f + stat.f)^3, family = poisson, data = cv5.dat) Deviance Residuals: [1] [26] Coefficients: Estimate Std. Err. z value Pr(> z ) (Intercept) < 2e-16 pol.fano e-10 vzd.fstredni vzd.fvysok e-13 stat.fbritanie stat.fitalie < 2e-16 stat.fmexiko < 2e-16 stat.fsssr pol.fano:vzd.fstredni e-08 pol.fano:vzd.fvysok e-10 pol.fano:stat.fbritanie pol.fano:stat.fitalie < 2e-16 pol.fano:stat.fmexiko e-07 pol.fano:stat.fsssr vzd.fstredni:stat.fbritanie vzd.fvysok.:stat.fbritanie vzd.fstredni:stat.fitalie e-10 vzd.fvysok.:stat.fitalie vzd.fstredni:stat.fmexiko < 2e-16 vzd.fvysok.:stat.fmexiko vzd.fstredni:stat.fsssr e-05 vzd.fvysok.:stat.fsssr e-10 pol.fano:vzd.fstredni:stat.fbritanie pol.fano:vzd.fvysok.:stat.fbritanie pol.fano:vzd.fstredni:stat.fitalie pol.fano:vzd.fvysok.:stat.fitalie pol.fano:vzd.fstredni:stat.fmexiko pol.fano:vzd.fvysok.:stat.fmexiko pol.fano:vzd.fstredni:stat.fsssr pol.fano:vzd.fvysok.:stat.fsssr Signif. codes: 0 '***' '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: e+03 on 29 degrees of freedom Residual deviance: e-13 on 0 degrees of freedom AIC: Saturovaný model je lepší než kterýkoli jiný model. Znamená to, že vztah kterýchkoli dvou studovaných veličin závisí na hodnotě třetí veličiny. Odpovědi na otázky bodu 5: (a) Je ve všech zemích stejná souvislost vzdělání se zájmem o politiku? Ne. Kdyby byla, data by byla v souladu s předchozím modelem. (b) Ve které zemi mají lidé se základním vzděláním nejmenší zájem o politiku? Základní vzdělání je referenční úroveň, takže se stačí podívat na interakce státu se zájmem o politiku. Jejich parametry porovnávají zájem o politiku mezi lidmi se základním vzděláním v jednotlivých zemích se Page 4

5 Spojenými státy. Nejvyšší hodnotu má Británie, nejnižší Itálie. (c) Na které úrovni vzdělání jsou nejmarkantnější rozdíly mezi zeměmi v zájmu o politiku? Je to mezi lidmi se základním, středním, nebo vysokoškolským vzděláním? Pro základní vzdělání už víme, že největší rozdíl je mezi Itálií a Británií. Poměr šancí na zájem o politiku mezi těmito dvěma zeměmi je exp( ( )) = 7.8. Pro střední vzdělání musíme vzít v úvahu i trojné interakce a správně je přičíst ke dvojným. pol.fano:stat.fbritanie pol.fano:vzd.fstredni:stat.fbritanie pol.fano:stat.fitalie pol.fano:vzd.fstredni:stat.fitalie pol.fano:stat.fmexiko pol.fano:vzd.fstredni:stat.fmexiko pol.fano:stat.fsssr pol.fano:vzd.fstredni:stat.fsssr Znaménka všech součtů jsou záporná, takže nejvyšší zájem o politiku mezi středoškoláky je v USA. Nejmenší součet má stále Itálie, Poměr šancí na zájem o politiku mezi těmito dvěma zeměmi je exp(-(-1.332)) = 3.8. Podobně u vysokoškoláků: pol.fano:stat.fbritanie pol.fano:vzd.fvysok.:stat.fbritanie pol.fano:stat.fitalie pol.fano:vzd.fvysok.:stat.fitalie pol.fano:stat.fmexiko pol.fano:vzd.fvysok.:stat.fmexiko pol.fano:stat.fsssr pol.fano:vzd.fvysok.:stat.fsssr Tentokrát je to USA vs. SSSR (i když Itálie je těsně za ním), poměr šancí exp(-( )) = 3.4. Největší rozdíly mezi zeměmi v zájmu o politiku jsou u lidí se základním vzděláním. (d) Ve které zemi je největší rozdíl v zájmu o politiku mezi lidmi se základním a vysokoškolským vzděláním? Nyní budeme brát parametry pro interakce politiky se vzděláním podle zemí. pol.fano:vzd.fvysok pol.fano:vzd.fvysok.:stat.fbritanie pol.fano:vzd.fvysok.:stat.fitalie pol.fano:vzd.fvysok.:stat.fmexiko pol.fano:vzd.fvysok.:stat.fsssr Najdeme odhad poměru šancí mezi vysokoškoláky a lidmi se základním vzděláním pro každou zemi zvlášť: USA: OR = exp( ) = 11.1 Británie: OR = exp( ) = 4.45 Itálie: OR = exp( ) = 21.3 Mexiko: OR = exp( ) = 10.6 SSSR: OR = exp( ) = 5.9 Největší rozdíl je v Itálii, nejmenší v Británii. Page 5