05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")



Podobné dokumenty
M cvičení : GLM04b (Vztah mezi Poissonovým a

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Frekvenční analýza, čtyřpolní tabulky

M cvičení : GLM03a (The Working Activities of Bees)

Tabulární data, pozorované vs očekávané četnosti

M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

velkou variabilitou: underdispersion, overdispersion)

M cvičení : GLM01a (Toxic Chemical Production Data)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

M cvičení : GLM01b (Porodní hmotnost novorozenců)

Fisherův exaktní test

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

4ST201 STATISTIKA CVIČENÍ Č. 10

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

ADDS cviceni. Pavlina Kuranova

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Seminář 6 statistické testy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Regresní analýza. Eva Jarošová

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

4EK211 Základy ekonometrie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Lineární a logistická regrese

Seminář 6 statistické testy

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Cvičení 12: Binární logistická regrese

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

Design Experimentu a Statistika - AGA46E

Analýza reziduí gyroskopu umístěného na kyvadle p.1

Příklad: Test nezávislosti kategoriálních znaků

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

odpovídá jedna a jen jedna hodnota jiných

Statistická analýza dat

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

AVDAT Výběr regresorů v mnohorozměrné regresi

Testy. Pavel Provinský. 19. listopadu 2013

Matematika pro geometrickou morfometrii (5)

4EK211 Základy ekonometrie

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

ČVUT FAKULTA DOPRAVNÍ

Národní informační středisko pro podporu jakosti

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

AVDAT Klasický lineární model, metoda nejmenších

Tomáš Karel LS 2012/2013

Přednáška IX. Analýza rozptylu (ANOVA)

8 Coxův model proporcionálních rizik I

INDUKTIVNÍ STATISTIKA

12. cvičení z PST. 20. prosince 2017

Technická univerzita v Liberci

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

AVDAT Nelineární regresní model

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

RNDr. Marie Forbelská, Ph.D. 1

You created this PDF from an application that is not licensed to print to novapdf printer (

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz o parametrech regresního modelu

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Aplikovaná statistika v R - cvičení 2

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Návod na statistický software PSPP část 2. Kontingenční tabulky

ROZDĚLENÍ NÁHODNÝCH VELIČIN

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jak pracovat s daty TALIS v R

Jana Vránová, 3. lékařská fakulta, UK Praha

Transkript:

Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat <- read.csv("cvic5.csv") Jména veličin a rozměry datové tabulky names(cv5.dat) [1] "n" "polit" "vzdel" "stat" dim(cv5.dat) [1] 30 4 Vypišme soubor cv5.dat n polit vzdel stat 1 94 Ano Zakladni SSSR 2 84 Ne Zakladni SSSR 3 227 Ano Zakladni USA 4 112 Ne Zakladni USA 5 356 Ano Zakladni Britanie 6 144 Ne Zakladni Britanie 7 166 Ano Zakladni Italie 8 526 Ne Zakladni Italie 9 447 Ano Zakladni Mexiko 10 430 Ne Zakladni Mexiko 11 318 Ano Stredni SSSR 12 120 Ne Stredni SSSR 13 371 Ano Stredni USA 14 71 Ne Stredni USA 15 256 Ano Stredni Britanie 16 76 Ne Stredni Britanie 17 142 Ano Stredni Italie 18 103 Ne Stredni Italie 19 78 Ano Stredni Mexiko 20 25 Ne Stredni Mexiko 21 473 Ano Vysok. SSSR 22 72 Ne Vysok. SSSR 23 180 Ano Vysok. USA 24 8 Ne Vysok. USA 25 22 Ano Vysok. Britanie 26 2 Ne Vysok. Britanie 27 47 Ano Vysok. Italie 28 7 Ne Vysok. Italie 29 22 Ano Vysok. Mexiko 30 2 Ne Vysok. Mexiko Jaký typ má polit class(cv5.dat$polit) [1] "character" Mám vypnutou automatickou konverzi znaků na faktory Využiju toho k tomu, abych si pořadí úrovní faktorů zadával podle potřeby cv5.dat$pol.f <- factor(cv5.dat$polit,levels=c("ne","ano")) cv5.dat$vzd.f <- factor(cv5.dat$vzdel, levels=c("zakladni","stredni","vysok.")) cv5.dat$stat.f <- factor(cv5.dat$stat, levels=c("usa","britanie","italie","mexiko","sssr")) Model nezávislosti: (P,V,S) Page 1

fit1 <- glm(n~pol.f+vzd.f+stat.f,family=poisson,data=cv5.dat) summary(fit1) Call: glm(formula = n ~ pol.f + vzd.f + stat.f, family = poisson, data = cv5.dat) Deviance Residuals: Min 1Q Median 3Q Max -17.892-9.141-4.067 4.933 23.726 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 5.19285 0.03973 130.709 < 2e-16 *** pol.fano 0.58510 0.02956 19.794 < 2e-16 *** vzd.fstredni -0.50543 0.03206-15.766 < 2e-16 *** vzd.fvysok. -1.13044 0.03980-28.401 < 2e-16 *** stat.fbritanie -0.12399 0.04691-2.643 0.0082 ** stat.fitalie 0.02245 0.04518 0.497 0.6192 stat.fmexiko 0.03548 0.04503 0.788 0.4307 stat.fsssr 0.18077 0.04351 4.155 3.26e-05 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 4284.6 on 29 degrees of freedom Residual deviance: 2879.1 on 22 degrees of freedom AIC: 3082.9 Interpretace parametru pol.fano = 0.58510: Odhad šance na zájem o politiku mezi všemi účastníky studie je exp(0.58510) = 1.80 Odhad pravděpodobnosti zájmu o politiku je 1.80/(1+1.80) = 0.64 Test kvality modelu: Pokud model platí, (residuální) deviance má chí-kvadrát rozdělení s 22 stupni volnosti (lze, neboť všechny regresory jsou diskrétní) Testová statistika: 2879.1, model jasně zamítáme. Veličiny P, V, S nejsou vzájemně nezávislé. Model (PV,PS,VS) fit2 <- glm(n~(pol.f+vzd.f+stat.f)^2,family=poisson,data=cv5.dat) summary(fit2) Call: glm(formula = n ~ (pol.f + vzd.f + stat.f)^2, family = poisson, data = cv5.dat) Deviance Residuals: Min 1Q Median 3Q Max -1.92874-0.44634 0.01420 0.40072 2.91900 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 4.70956 0.08197 57.453 < 2e-16 *** pol.fano 0.71977 0.09129 7.885 3.16e-15 *** vzd.fstredni -0.47412 0.09577-4.951 7.39e-07 *** vzd.fvysok. -2.32035 0.15336-15.130 < 2e-16 *** stat.fbritanie 0.40996 0.10500 3.904 9.45e-05 *** stat.fitalie 1.50594 0.09069 16.605 < 2e-16 *** stat.fmexiko 1.34744 0.09371 14.378 < 2e-16 *** stat.fsssr -0.20748 0.11476-1.808 0.0706. pol.fano:vzd.fstredni 0.96612 0.07983 12.102 < 2e-16 *** pol.fano:vzd.fvysok. 2.06770 0.13436 15.389 < 2e-16 *** Page 2

pol.fano:stat.fbritanie -0.03192 0.11644-0.274 0.7840 pol.fano:stat.fitalie -1.68009 0.10891-15.427 < 2e-16 *** pol.fano:stat.fmexiko -0.66773 0.10955-6.095 1.09e-09 *** pol.fano:stat.fsssr -0.74685 0.11534-6.475 9.49e-11 *** vzd.fstredni:stat.fbritanie -0.66928 0.10308-6.493 8.43e-11 *** vzd.fvysok.:stat.fbritanie -2.43831 0.23008-10.598 < 2e-16 *** vzd.fstredni:stat.fitalie -0.93617 0.10913-8.579 < 2e-16 *** vzd.fvysok.:stat.fitalie -1.29905 0.17475-7.434 1.05e-13 *** vzd.fstredni:stat.fmexiko -2.27472 0.12841-17.715 < 2e-16 *** vzd.fvysok.:stat.fmexiko -2.79173 0.22852-12.217 < 2e-16 *** vzd.fstredni:stat.fsssr 0.78519 0.11776 6.668 2.60e-11 *** vzd.fvysok.:stat.fsssr 1.95625 0.13259 14.754 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 4284.62 on 29 degrees of freedom Residual deviance: 35.09 on 8 degrees of freedom AIC: 266.84 Number of Fisher Scoring iterations: 4 V tomto modelu jsou všechny veličiny vzájemně závislé. Podmíněné poměry šancí dvou veličin však nezávisí na hodnotách třetí veličiny. Interpretace parametru pol.fano:vzd.fvysok. = 2.06770 Odhad poměru šancí na zájem o politiku mezi vysokoškoláky a lidmi se základním vzděláním je exp(2.06770) = 7.91 Mezi vysokoškoláky je téměř 8-krát větší šance na zájem o politiku než mezi lidmi se základním vzděláním. anova(fit1,fit2,test="chisq") Analysis of Deviance Table Model 1: n ~ pol.f + vzd.f + stat.f Model 2: n ~ (pol.f + vzd.f + stat.f)^2 Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 22 2879.11 2 8 35.09 14 2844.02 0.00 Model s interakcemi je výrazně lepší. drop1(fit2,test="chisq") Single term deletions Model: n ~ (pol.f + vzd.f + stat.f)^2 Df Deviance AIC LRT Pr(Chi) <none> 35.09 266.84 pol.f:vzd.f 2 367.88 595.63 332.79 < 2.2e-16 *** pol.f:stat.f 4 401.18 624.92 366.09 < 2.2e-16 *** vzd.f:stat.f 8 1703.91 1919.65 1668.82 < 2.2e-16 *** Žádnou z interakcí nelze z modelu vypustit. Test kvality modelu: Pokud model platí, (residuální) deviance má chí-kvadrát rozdělení s 8 stupni volnosti Testová statistika: 35.09, model jasně zamítáme. Musíme přejít k saturovanému modelu. Page 3

fit.s <- glm(n~(pol.f+vzd.f+stat.f)^3,family=poisson,data=cv5.dat) summary(fit.s) Call: glm(formula = n ~ (pol.f + vzd.f + stat.f)^3, family = poisson, data = cv5.dat) Deviance Residuals: [1] 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 [26] 0 0 0 0 0 Coefficients: Estimate Std. Err. z value Pr(> z ) (Intercept) 4.71850 0.09449 49.936 < 2e-16 pol.fano 0.70645 0.11547 6.118 9.48e-10 vzd.fstredni -0.45582 0.15170-3.005 0.002658 vzd.fvysok. -2.63906 0.36596-7.211 5.54e-13 stat.fbritanie 0.25131 0.12599 1.995 0.046071 stat.fitalie 1.54680 0.10407 14.864 < 2e-16 stat.fmexiko 1.34529 0.10609 12.681 < 2e-16 stat.fsssr -0.28768 0.14434-1.993 0.046248 pol.fano:vzd.fstredni 0.94707 0.17353 5.458 4.83e-08 pol.fano:vzd.fvysok. 2.40706 0.37933 6.346 2.22e-10 pol.fano:stat.fbritanie 0.19867 0.15195 1.307 0.191047 pol.fano:stat.fitalie -1.85976 0.14580-12.755 < 2e-16 pol.fano:stat.fmexiko -0.66768 0.13378-4.991 6.01e-07 pol.fano:stat.fsssr -0.59397 0.18941-3.136 0.001713 vzd.fstredni:stat.fbritanie -0.18326 0.20764-0.883 0.377464 vzd.fvysok.:stat.fbritanie -1.63761 0.80055-2.046 0.040794 vzd.fstredni:stat.fitalie -1.17475 0.18607-6.313 2.73e-10 vzd.fvysok.:stat.fitalie -1.68033 0.52791-3.183 0.001458 vzd.fstredni:stat.fmexiko -2.38909 0.25561-9.346 < 2e-16 vzd.fvysok.:stat.fmexiko -2.73158 0.79766-3.425 0.000616 vzd.fstredni:stat.fsssr 0.81249 0.20797 3.907 9.35e-05 vzd.fvysok.:stat.fsssr 2.48491 0.39965 6.218 5.05e-10 pol.fano:vzd.fstredni:stat.fbritanie -0.63774 0.23860-2.673 0.007522 pol.fano:vzd.fvysok.:stat.fbritanie -0.91429 0.83612-1.093 0.274180 pol.fano:vzd.fstredni:stat.fitalie 0.52734 0.23407 2.253 0.024266 pol.fano:vzd.fvysok.:stat.fitalie 0.65049 0.56209 1.157 0.247167 pol.fano:vzd.fstredni:stat.fmexiko 0.15199 0.29580 0.514 0.607375 pol.fano:vzd.fvysok.:stat.fmexiko -0.04794 0.83301-0.058 0.954105 pol.fano:vzd.fstredni:stat.fsssr -0.08499 0.25325-0.336 0.737175 pol.fano:vzd.fvysok.:stat.fsssr -0.63711 0.42712-1.492 0.135796 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 4.2846e+03 on 29 degrees of freedom Residual deviance: 1.0592e-13 on 0 degrees of freedom AIC: 247.75 Saturovaný model je lepší než kterýkoli jiný model. Znamená to, že vztah kterýchkoli dvou studovaných veličin závisí na hodnotě třetí veličiny. Odpovědi na otázky bodu 5: (a) Je ve všech zemích stejná souvislost vzdělání se zájmem o politiku? Ne. Kdyby byla, data by byla v souladu s předchozím modelem. (b) Ve které zemi mají lidé se základním vzděláním nejmenší zájem o politiku? Základní vzdělání je referenční úroveň, takže se stačí podívat na interakce státu se zájmem o politiku. Jejich parametry porovnávají zájem o politiku mezi lidmi se základním vzděláním v jednotlivých zemích se Page 4

Spojenými státy. Nejvyšší hodnotu má Británie, nejnižší Itálie. (c) Na které úrovni vzdělání jsou nejmarkantnější rozdíly mezi zeměmi v zájmu o politiku? Je to mezi lidmi se základním, středním, nebo vysokoškolským vzděláním? Pro základní vzdělání už víme, že největší rozdíl je mezi Itálií a Británií. Poměr šancí na zájem o politiku mezi těmito dvěma zeměmi je exp(0.19867-(-1.85976)) = 7.8. Pro střední vzdělání musíme vzít v úvahu i trojné interakce a správně je přičíst ke dvojným. pol.fano:stat.fbritanie 0.19867 pol.fano:vzd.fstredni:stat.fbritanie -0.63774 pol.fano:stat.fitalie -1.85976 pol.fano:vzd.fstredni:stat.fitalie 0.52734 pol.fano:stat.fmexiko -0.66768 pol.fano:vzd.fstredni:stat.fmexiko 0.15199 pol.fano:stat.fsssr -0.59397 pol.fano:vzd.fstredni:stat.fsssr -0.08499 Znaménka všech součtů jsou záporná, takže nejvyšší zájem o politiku mezi středoškoláky je v USA. Nejmenší součet má stále Itálie, -1.332. Poměr šancí na zájem o politiku mezi těmito dvěma zeměmi je exp(-(-1.332)) = 3.8. Podobně u vysokoškoláků: pol.fano:stat.fbritanie 0.19867 pol.fano:vzd.fvysok.:stat.fbritanie -0.91429 pol.fano:stat.fitalie -1.85976 pol.fano:vzd.fvysok.:stat.fitalie 0.65049 pol.fano:stat.fmexiko -0.66768 pol.fano:vzd.fvysok.:stat.fmexiko -0.04794 pol.fano:stat.fsssr -0.59397 pol.fano:vzd.fvysok.:stat.fsssr -0.63711 Tentokrát je to USA vs. SSSR (i když Itálie je těsně za ním), poměr šancí exp(-(-0.59397-0.63711)) = 3.4. Největší rozdíly mezi zeměmi v zájmu o politiku jsou u lidí se základním vzděláním. (d) Ve které zemi je největší rozdíl v zájmu o politiku mezi lidmi se základním a vysokoškolským vzděláním? Nyní budeme brát parametry pro interakce politiky se vzděláním podle zemí. pol.fano:vzd.fvysok. 2.40706 pol.fano:vzd.fvysok.:stat.fbritanie -0.91429 pol.fano:vzd.fvysok.:stat.fitalie 0.65049 pol.fano:vzd.fvysok.:stat.fmexiko -0.04794 pol.fano:vzd.fvysok.:stat.fsssr -0.63711 Najdeme odhad poměru šancí mezi vysokoškoláky a lidmi se základním vzděláním pro každou zemi zvlášť: USA: OR = exp(2.40706) = 11.1 Británie: OR = exp(2.40706-0.91429) = 4.45 Itálie: OR = exp(2.40706+0.65049) = 21.3 Mexiko: OR = exp(2.40706-0.04794) = 10.6 SSSR: OR = exp(2.40706-0.63711) = 5.9 Největší rozdíl je v Itálii, nejmenší v Británii. Page 5