Problém 1: Ceny nemovitostí Poznámkykřešení 1



Podobné dokumenty
Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Frekvenční analýza, čtyřpolní tabulky

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

4ST201 STATISTIKA CVIČENÍ Č. 10

M cvičení : GLM03a (The Working Activities of Bees)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

4EK211 Základy ekonometrie

Regresní analýza. Eva Jarošová

M cvičení : GLM04b (Vztah mezi Poissonovým a

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Tabulární data, pozorované vs očekávané četnosti

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

M cvičení : GLM01a (Toxic Chemical Production Data)

KORELACE. Komentované řešení pomocí programu Statistica

Analýza dat na PC I.

5EN306 Aplikované kvantitativní metody I

Aplikovaná statistika v R - cvičení 3

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

AVDAT Klasický lineární model, metoda nejmenších

Regresní a korelační analýza

Obecné momenty prosté tvary

Lineární regrese. Komentované řešení pomocí MS Excel

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

odpovídá jedna a jen jedna hodnota jiných

Matematika pro geometrickou morfometrii (5)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

RNDr. Marie Forbelská, Ph.D. 1

Jana Vránová, 3. lékařská fakulta, UK Praha

Výběr hodnot z modisovského rastru v místech, kde se nacházela jedna ze zeber

4EK211 Základy ekonometrie

Pozn. přeskakuji zde popisnou statistiku, jinak by měla být součástí každé analýzy.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Popisná statistika. Komentované řešení pomocí MS Excel

4EK211 Základy ekonometrie

STATISTIKA MIGRANTŮ PRO REGIONY V MORAVSKOSLEZSKÉM KRAJI A PRO KRAJ V OBDOBÍ

7 Regresní modely v analýze přežití

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4EK211 Základy ekonometrie

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

INDUKTIVNÍ STATISTIKA

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Cvičení ze statistiky - 9. Filip Děchtěrenko

Bodové a intervalové odhady parametrů v regresním modelu

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Cvičení ze statistiky - 3. Filip Děchtěrenko

KGG/STG Statistika pro geografy

Aplikovaná statistika v R - cvičení 2

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Statistické metody vyhodnocení vlivu škodlivin na denní úmrtnost, hospitalizaci a příznaky kardiovaskulárních a respiračních onemocnění

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Seminář 6 statistické testy

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Zkušenosti s použitím metod Counterfactual Impact Evaluation při evaluaci ESF v České republice. Jan Brůha IREAS

Vytěžování znalostí z dat

Design Experimentu a Statistika - AGA46E

6. Lineární regresní modely

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

vzorek vzorek

Regrese. Karel Zvára. Poznámky k přednášce STP094, akademický rok 2001/2002

Chyby měření 210DPSM

Hloubka dat. kontury, klasifikace a konzistence. Daniel Hlubinka

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jana Vránová, 3. lékařská fakulta UK

Testy nezávislosti kardinálních veličin

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Transkript:

Problém 1: Ceny nemovitostí Poznámkykřešení 1 Zadání 1.Majínemovitostiurčenékbydlenívyššícenutam,kdeječistšíovzduší?Pokudano,okolik? 2. Lze vztah mezi znečištěním a cenou, pokud existuje, vysvětlit tím, že ve znečištěných oblastech bydlí chudší lidé, menšiny, jsou tam horší veřejné služby, atd.? 3. Myslíte, že cílený program na zlepšení čistoty ovzduší by vedl ke zvýšení cen rodinných domků v dané lokalitě? Postup Načtu data: data1 <- read.csv("cvic1.csv") Ověřím si velikost dat a jména veličin: names(data1); dim(data1) Vypíšu si základní popisné charakteristiky veličin: summary(data1) Vidím, že(i) v datech nejsou chybějící hodnoty;(ii) všechny veličiny jsou spojité kromě chas, která je nula-jedničková. Zajistím si přímý přístup k veličinám: attach(data1). Podívám se na nejdůležitější veličiny podrobněji. Např. histogramy(hist(medv), hist(nox)), tabulky četností: > table(cut(nox,c(-inf,seq(0.4,0.8,by=0.1),inf))) (-Inf,0.4] (0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,Inf] 11 181 149 104 45 16 > table(cut(medv,c(-inf,seq(5,30,by=5),inf))) (-Inf,5] (5,10] (10,15] (15,20] (20,25] (25,30](30,Inf] 2 22 73 118 167 40 84 Prozkoumám popisně vztah mezi nox a medv. Např. obrázek(scatterplot) vyhlazený neparametrickou křivkou lowess:(plot(nox,medv); lines(lowess(nox,medv))) nebo tabulku průměrů medv podle intervalů nox: > tapply(medv,cut(nox,c(-inf,seq(0.4,0.8,by=0.1),inf)),mean) (-Inf,0.4] (0.4,0.5] (0.5,0.6] (0.6,0.7] (0.7,0.8] (0.8,Inf] 25.48182 26.68729 21.70268 19.92885 16.04000 16.42500 Uvědomímsi,ženoxnabýváhodnotzhrubamezi0.4a0.9.Abychlépeviděl,coznamenajíparametryv mých modelech, udělám transformaci tnox <- (nox-0.4)/0.1. Absolutní člen v mých modelech bude nyníudávatprůměrnoucenunemovitostípřikoncentracino x =0.4 10 7 (nikoliv0)aparametrunox budeudávatzměnucenypřinárůstuno x o0.1 10 7 (nikolio1). První model, který vyzkouším, bude fit1 <- lm(medv~tnox). Dostanu 1 MichalKulich,KPMSMFFUK

Call: lm(formula = medv ~ tnox) Residuals: Min 1Q Median 3Q Max -13.691-5.121-2.161 2.959 31.310 (Intercept) 27.7795 0.6176 44.98 <2e-16*** tnox -3.3916 0.3196-10.61 <2e-16*** Residual standard error: 8.323 on 504 degrees of freedom Multiple R-Squared: 0.1826, Adjusted R-squared: 0.181 F-statistic: 112.6 on 1 and 504 DF, p-value: < 2.2e-16 Vidím,žeprůměrnácenadomupřikoncentraciNO x =0.4jest$27780acenaklesáo$3392snárůstem koncentrace o 0.1. Nicméně z výběrových kvantilů pro residua ve výšeuvedeném výpisu si hned všimnu, že residua jsou silně asymetrická. Totéž potvrdí obrázek qqnorm(resid(fit1)). Zkusímztransformovatcenulogaritmem.Dostanumodellog(Y)=β 0 + β 1 X+ ε,čili Y =e β0 e β1x e ε. MámtedyE(Y X= x)=e β0 e β1x Ee ε.poděleníme(y X= x+1)ae(y X= x)dostanupřesně e β1,takže100(e β1 1)můžuinterpretovatjakopercentuálnípřírůstek/úbytekE Y přizměně Xojednu jednotku(tj.nárůstukoncentraceno x o0.1).obecněnemohutvrdit,žee β0 jestřednícenanemovitosti přikoncentracino x =0.4,alezapředpokladusymetrierozděleníchyb εlzeříci,žee β0 jemediánem cenynemovitostipřikoncentracino x =0.4. Tak tedy fit2 <- lm(log(medv)~tnox): Call: lm(formula = log(medv) ~ tnox) Residuals: Min 1Q Median 3Q Max -1.17597-0.19503-0.03334 0.18223 1.08159 (Intercept) 3.31314 0.02610 126.92 <2e-16*** tnox -0.18011 0.01351-13.33 <2e-16*** Residual standard error: 0.3518 on 504 degrees of freedom Multiple R-Squared: 0.2607, Adjusted R-squared: 0.2592 F-statistic: 177.7 on 1 and 504 DF, p-value: < 2.2e-16 Se symetrií residuí jsme si dost pomohli, což potvrdí i qqnorm(fit2). Ještě ztransformuji parametry: > exp(coef(fit2)) (Intercept) tnox 27.4712390 0.8351754 2

Obrázek 1: Porovnání lineárního a kubického modelu pro logaritmus ceny. medv 10 20 30 40 50 0 1 2 3 4 tnox Odhadnutýmediáncenydomupřikoncentraci0.4jetedy$27471.Cenadomuvprůměruklesáo16.5% při nárůstu koncentrace o 0.1. JeštěsezabývejmenelineárnítransformacíNO x.zkusímetřebapolynomtřetíhořádu: > fit3 <- lm(log(medv)~poly(tnox,3)) > anova(fit2,fit3) Analysis of Variance Table Model 1: log(medv) ~ tnox Model 2: log(medv) ~ poly(tnox, 3) Res.Df RSS Df Sum of Sq F Pr(>F) 1 504 62.378 2 502 59.297 2 3.081 13.044 3.002e-06*** 3

Jelikož původní model je vnořený do tohoto modelu, můžeme otestovat rozdíl mezi nimi F-testem. Ten je vysoce významný. Teď je nejlepší udělat si obrázek, abychom viděli, v čem se oba modely liší. Nakreslíme si predikce odezvy z obou modelů do jednoho obrázku(všimněte si použití funkce predict()): noxpts <- seq(min(tnox),max(tnox),length=300) newdata <- data.frame(tnox=noxpts) fitted2 <- exp(predict(fit2,newdata)) fitted3 <- exp(predict(fit3,newdata)) plot(tnox,medv) lines(noxpts,fitted2,lty=1) lines(noxpts,fitted3,lty=2) Výsledekjenaobrázku1.Vidíme,že(i)vrozmezítnoxod0.5do3.5jevztahvpodstatělineárníaoba modely se liší jen málo;(ii) největší rozdíly mezi oběma jsou pro nejmenší a největší hodnoty znečištění; (iii) polynomiální model naznačuje, že pro znečištění menší než cca. 0.5 anebo větší než cca. 0.75(na původníškále)jevlivkoncentraceno x nacenuminimální. Cosepřesněnaoboukoncíchděje,tojetěžkosoudit.Zobrázku1jevidět,žedataoznečištěníjsou podezřele seskupená například hodnoty znečištění větší než 3 jsou prakticky diskrétní. To může být způsobeno metodikou měření(zaokrouhlování), nebo tím, že některé lokality jsou natolik blízko sebe, že jejich znečištění je prakticky stejné, nebo tím, že jeden měřicí přístroj udává hodnotu znečištění pro několik sousedních lokalit. V posledních dvou případech bychom měli problém s předpokladem nezávislosti data ve skutečnosti přicházejí ve shlucích, ale o struktuře těchto shluků nemáme žádnou informaci. Závislost mezi pozorováními pak může způsobit zakřivení regresního vztahu při vysokých hodnotách znečištění. Budeme dál pokračovat v aplikaci lineárního modelu, ale měli bychom si uvědomovat, že předpoklady modelu nejspíš neplatí a být opatrní při interpretaci výsledků, které dostaneme. Nyní máme dvě možnosti: buď můžeme zvolit lineární závislost(a nelpět příliš na výsledcích pro oba extrémyno x ),nebopřejítkekubickézávislosti(amítpotížesvysvětlovánímjehoparametrů).jemožné vymyslet i něco jiného(třeba spojitou po částech lineární křivku), ale vyberme si pro jednoduchost první variantu, lineární vztah. Vzhledem k tomu, že v modelu fit2 má znečištění vysoce významný vztah k ceně nemovitosti, můžeme si i při evidentním porušení předpokladu nezávislosti dovolit vyslovit dost jednoznačný závěr. Odpovězme na otázku 1 takto: Cena nemovitosti statisticky významně souvisí se znečištěním ovzduší. Střednícenanemovitostivrůznýchlokalitách,kteréselišívkoncentraciNO x,klesázhrubao16.5%na každých0.1nárůstukoncentraceno x.vlivkoncentraceno x navelmilevnéanebovelmidrahénemovitosti může však být nižší než oněch průměrných 16.5%. Otázkač.2:Podívejmesenejprve,jaksouvisíkoncentraceNO x sostatnímiveličinami:totojsoujejich korelace: crim zn indus chas nox rm age dis rad [1,] 0.421-0.517 0.764 0.091 1-0.302 0.731-0.769 0.611 tax ptratio black lstat medv [1,] 0.668 0.189 0.348 0.591-0.427 Vidíme, že vyšší znečištění může souviset s vyšší kriminalitou, nižším podílem velkých pozemků, vyšší industrialisací, vyšším stářím domů, větší blízkostí do centra, vyšší daňovou sazbou a vyšší mírou chudoby. Možná, že ve skutečnosti cenu pozemku ovlivňují jen tyto faktory, zatímco znečištění nehraje roli. Abychom zjistili, zdali tomu tak je, pokusíme se od vlivu znečištění odečíst vlivy těchto vedlejších matoucích(confounding) faktorů. V principu stačí sestavit model, který obsahuje kromě nox i ostatní potenciální vysvětlující veličiny, a podívat se, zdali i potom nox významně souvisí s cenou. 4

Zkusíme model fitm1 <- lm(log(medv)~tnox+crim+zn+indus+chas+rm+age+dis+ rad+tax+ptratio+black+lstat) summary(fitm1)... (Intercept) 3.9442422 0.1699369 23.210 < 2e-16 *** tnox -0.0784671 0.0152409-5.1483.80e-07***... Člověkihnedvidí,žetentomodelvysvětlujecenupozemkumnohemlépeažeřadaznověpřidaných veličinmávelmiúzkývztahkceněpozemků.těchpár,kterénemají,můžemealenemusímezmodelu odstranit. Nás totiž nejvíc zajímá, co se stalo s koeficientem veličiny tnox. Ten je stále signifikantně různý od nuly, ale jeho hodnota se změnila. Hleďme: getci <- function(fit,var) { # get estimateand se for variablevar a <- summary(fit)$coef[var,1:2] # get 95% confidence interv. ci <- rep(a[1],2)+c(-1,1)*a[2]*qt(0.975,fit$df.residual) names(ci) <- c("lower","upper") exp(c(a[1],ci)) } > getci(fit2,"tnox") Estimate Lower Upper 0.8351754 0.8132990 0.8576402 > getci(fitm1,"tnox") Estimate Lower Upper 0.9245324 0.8972575 0.9526365 Zavedli jsme novou funkci getci(fit,var), která vysaje z odhadnutého modelu fit výsledky pro veličinu var(zadatjakoznakovýřetězecvuvozovkách)aspočteeˆβa95%intervalspolehlivostiproe β. Tutofunkci 2 použijemenafit2afitm1aporovnámevýsledkyprotnox.jevidět,žepůvodní16.5%-ní sníženíprůměrnécenypřivzrůstukoncentraceno x o0.1(95%-níintervalspolehlivosti14% 19%;viz modelfit2)sezměnilona8.5%-nísníženívmodelufitm1(interval5% 10%).Jetedyvidět,žeostatní veličiny,kteréjsmevzalivúvahu,vysvětlujízhrubapolovinupůvodněodhadnutéhuvlivuno x,alenikoli vliv celý. Odpověďnaotázkuč.2:OstatníuvažovanéfaktoryvysvětlujízhrubapolovinuvlivukoncentraceNO x nacenunemovitosti. Ikdyžjevezmemevúvahu,koncentraceNO x mástálenegativnívztahkceně nemovitosti a nárůst koncentrace o 0.1 vede ke snížení průměrné ceny o zhruba 8.5%. Odpověďnaotázkuč.3:Nelzevyloučitaniprokázat,žezlepšeníčistotyovzdušíbyvedlokezvýšenícen nemovitostí. I kdyby se tak stalo, jednalo by se pravděpodobně o zvýšení relativně malé. Závěrečná poznámka: Kdybychom chtěli dělat věci pořádně, museli bychom řádně prozkoumat funkcionální vztah všech veličin v modelu fitm1 k odezvě log(medv)(tj., potenciální transformace regresorů) a museli bychom uvažovat možné interakce mezi nimi. 2 Jistěbyšlapoužítifunkceconfint vkombinacisexp.getcijevšaksnadnoupravitelnáipromodely,naněžconfint nefunguje. 5