1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Podobné dokumenty
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Testování hypotéz o parametrech regresního modelu

Bodové a intervalové odhady parametrů v regresním modelu

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

AVDAT Nelineární regresní model

odpovídá jedna a jen jedna hodnota jiných

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Regresní analýza 1. Regresní analýza

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Statistika (KMI/PSTAT)

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Inovace bakalářského studijního oboru Aplikovaná chemie

Statistická analýza dat

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

4ST201 STATISTIKA CVIČENÍ Č. 10

3 Lineární kombinace vektorů. Lineární závislost a nezávislost

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

4EK211 Základy ekonometrie

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Regresní a korelační analýza

Regresní a korelační analýza

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

AVDAT Výběr regresorů v mnohorozměrné regresi

Regresní a korelační analýza

Těleso racionálních funkcí

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Matematika I, část I. Rovnici (1) nazýváme vektorovou rovnicí roviny ABC. Rovina ABC prochází bodem A a říkáme, že má zaměření u, v. X=A+r.u+s.

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

f(x) = arccotg x 2 x lim f(x). Určete všechny asymptoty grafu x 2 2 =

AVDAT Geometrie metody nejmenších čtverců

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

Odhad parametrů N(µ, σ 2 )

PRAVDĚPODOBNOST A STATISTIKA

Matematika I, část I Vzájemná poloha lineárních útvarů v E 3

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

0.1 Úvod do lineární algebry

Aplikovaná statistika v R - cvičení 3

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Časové řady, typy trendových funkcí a odhady trendů

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Cvičné texty ke státní maturitě z matematiky

Vektory II. Předpoklady: Umíme už vektory sčítat, teď zkusíme opačnou operací rozklad vektoru na složky.

Analýza reziduí gyroskopu umístěného na kyvadle p.1

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

4EK211 Základy ekonometrie

Analytická geometrie lineárních útvarů

Lineární algebra : Změna báze

EUKLIDOVSKÉ PROSTORY

Bodové a intervalové odhady parametrů v regresním modelu

+ 2y. a y = 1 x 2. du x = nxn 1 f(u) 2x n 3 yf (u)

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Vlastní čísla a vlastní vektory

IB112 Základy matematiky

Časové řady, typy trendových funkcí a odhady trendů

Interpolace, aproximace

Cvičení 9 dekompozice časových řad a ARMA procesy

l, l 2, l 3, l 4, ω 21 = konst. Proved te kinematické řešení zadaného čtyřkloubového mechanismu, tj. analyticky

M cvičení : GLM04b (Vztah mezi Poissonovým a

Měření závislosti statistických dat

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Aplikovaná matematika I

UNIVERZITA PARDUBICE

Tomáš Karel LS 2012/2013

Regresní analýza. Eva Jarošová

Úlohy nejmenších čtverců

Funkce dvou a více proměnných

0.1 Úvod do lineární algebry

6. Lineární regresní modely

4EK211 Základy ekonometrie

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

INDUKTIVNÍ STATISTIKA

Transkript:

Vícenásobná regresní a korelační analýza 1 1 Tto materiál bl vtvořen za pomoci grantu FRVŠ číslo 1145/2004.

O vícenásobné závislosti mluvíme tehd, jestliže je závisle proměnná závislá na více nezávislých proměnných 1, 2,..., p. Řada pojmů a metod je analogická jako při prosté regresní analýze. Rozdíl je pouze v určitém zevšeobecnění na více proměnných. Rozeznáváme pojm jako mnohonásobná závislost, mnohonásobná nezávislost, korelační závislost, korelační nezávislost. Vsvětleme tto pojm. Mnohonásobnou závislostí rozumíme, závislost, kd dochází se změnou nezávisle proměnných ke změně podmíněného rozdělení závisle proměnné. Mnohonásobnou nezávislostí je pak takový stav mezi proměnnými, kd se změnou hodnot nezávisle proměnných nedochází ke změně podmíněného rozdělení četností závisle proměnné. Za korelační závislost označíme takový stav, kd se změnou hodnot nezávisle proměnných dochází ke změně podmíněných průměrů závisle proměnné. Korelační nezávislostí naopak rozumíme takový stav, kd se změnou nezávisle proměnných nedochází ke změně podmíněných průměrů závisle proměnné. Nejjednodušším případem vícenásobné závislosti je trojnásobná lineární regrese. Ta je vjádřená rovnicí rovin v trojrozměrném euklidovském prostoru, ted ŷ = b 0 + b 1 + b 2. Odhad jednotlivých regresních koeficientů, zde se přesněji nazývají parciální regresní koeficient. Lze je získat opět prostřednictvím metod nejmenších čtverců. Při výkladu vužijeme maticovou smboliku. Usnadní nám to náš postup a umožní nám to odvodit obecný postup, kterým můžeme odhadovat i regresní koeficient u nelineárních funkcí v proměnných 1 : S = n ( i ŷ i ) 2 min (1) i=1 Dále předpokládejme, že ŷ i = b 0 +b 1 f 1 +b 2 f 2 + +b p f p, kde smbol (regersor - nezávisle proměnné) f i, i = 1, 2,..., p představují libovolné známé funkce vsvětlujících proměnných. Speciálním případem jsou model tpu: ŷ = b 0 + b 1 1 + b 2 2 + + b p p, (2) kde jsou regresor přímo vsvětlující proměnné (f i = i ), tj. model lineární z hlediska parametrů i z hlediska vsvětlujících proměnných. Model můžeme zapsat pro všech n pozorování pomocí maticové smbolik následovně: ŷ = F b (3) 1 ne však odhadovat regresní koeficient u funkcí nelineárních v parametrech. Řešením těchto úloh se zabývat nebudeme. 1

kde: Vektor b T ted: 1 f 11 f 1p 1 f 21 f 2p F =. 1...., (4) 1 f n1 f np pak představuje vektor hledaných regresních regresních koeficientů, b = b 0 b 1 b 2.. (5) Pokud hodláme minimalizovat funkci S, pak musíme tuto funkci derivovat a takto upravenou funkci položit rovno nule. Tím je splněn nutný předpoklad. Odhad jednotlivých složek vektoru b tj. odhad skutečných regresních koeficientů β i, i = 1, 2,, p získáme takto: S = n i=1 ( i ŷ i ) 2 = ( ŷ) 2 = ɛ T ɛ = ( Fb) T ( Fb) = T T Fb (Fb) T + (Fb) T Fb = T 2(Fb) T + b T F T Fb Vzhledem k tomu, že se snažíme o minimalizaci celkového součtu čtverců reziduí, budeme derivovat funkci S dle vektoru regresních koeficientů a řešit následující rovnici: S b = 2FT + 2F T Fb = 0 Lze ted psát 2F T Fb = 2F T (F T F) I b = (F T F) I F T, kde smbol b je vektorem odhadnutých regresních parametrů. b p Galileův pokus aneb jednoduchý příklad regresní analýz na závěr? Galileo se zabýval studiem pohbu tělesa. K tomuto studiu si sestrojil jednoduché zařízení. Na stůl umístnil nakloněnou rovinu s drážkou. Pokus spočíval v opakovaném vpouštění bronzové koule v jisté výšce, označme tuto výšku jako a měřil vzdálenost dopadu stříbrné koule od hran stolu. Výška stolu Galileova stolu činila 500 punti. Galileo naměřil tato data [punti 2 ]: [1,] 100 253 [2,] 200 [3,] 300 [4,] 450 2 Jedno punti je rovno 169/180 mm 2

[5,] 600 [6,] 800 [7,] 1000 Pokusíme se proložit Galileova data prostým regresním modelem, ted přímkou. Uvažujme nejprve přímku procházející počátkem soustav souřadnic. Uvažujme ted model i = β 1 i + ε i (6) Pomocí metod nejmenších čtverců odhadneme regresní koeficient β 1. Pomocí softwarového prostředí R získáme tto výsledk: Call: lm(formula = ~ - 1) Residuals: Min 1Q Median 3Q Ma -157.566 3.104 122.245 177.887 190.887 Coefficients: Estimate Std. Error t value Pr(> t ) 0.7306 0.1017 7.186 0.000367 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 155.6 on 6 degrees of freedom Multiple R-Squared: 0.8959, Adjusted R-squared: 0.8786 F-statistic: 51.64 on 1 and 6 DF, p-value: 0.0003671 Pokud regresní rovnici znázorníme získáme tento výstup Obrázek 1: Prostá lineární regrese bez absolutního členu 250 300 350 400 450 500 550 253 3

Vidíme, že regresní rovnice nevstihuje dobře empirická data. Inde determinace činí pouze 87,87 % a reziduální součet čtverců činí 145268,16. Přistoupíme proto k jinému regresnímu modelu který zahrnuje i absolutní člen tj. vužijeme modelu i = β 0 + β 1 i + ε i (7) Výsledk regresní analýz pro druhý model Call: lm(formula = ~ ) Residuals: 1 2 3 4 5 6 7-50.0462 0.6201 25.2864 31.2859 25.2853-2.3821-30.0 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 269.71246 24.31239 11.094 0.000104 *** 0.33334 0.04203 7.931 0.000513 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 33.68 on 5 degrees of freedom Multiple R-Squared: 0.9264, Adjusted R-squared: 0.9116 F-statistic: 62.91 on 1 and 5 DF, p-value: 0.0005132 Obrázek 2: Prostá lineární regrese s absolutním členem 250 300 350 400 450 500 550 253 4

Vidíme, že ani tato regresní funkce nepopisuje data příliš dobře, třebaže inde determinace činí 92,64 % a došlo k dosti podstatnému snížení hodnot reziduálního součtu čtverců. Jeho hodnota činí 5671,712. Přistoupíme k dalšímu regresnímu modelu. Vzhledem k hodnotám b mohl být adekvátním modelem kvadratický regresní model ŷ i = β 0 + β 1 i + β 2 2 i + ε i (8) Výsledk regresní analýz pro kvadratický regresní model Call: lm(formula = ~ + I(^2)) Residuals: 1 2 3 4 5 6 7-14.308 9.170 13.523 1.940-6.177-12.607 8.458 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.999e+02 1.676e+01 11.928 0.000283 *** 7.083e-01 7.482e-02 9.467 0.000695 *** I(^2) -3.437e-04 6.678e-05-5.147 0.006760 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 13.64 on 4 degrees of freedom Multiple R-Squared: 0.9903, Adjusted R-squared: 0.9855 F-statistic: 205 on 2 and 4 DF, p-value: 9.333e-05 Z grafu kvadratické regresní funkce vidíme, že kvadratická funkce s regresními parametr výborně vstihuje Galileova data. Inde determinace dosáhl dokonce hodnot 98,55 %, což znamená, že náš model vsvětluje 98,55 % rozptýlenosti naměřených vodorovných vzdáleností. Reziduální součet čtverců činí 744,1984. Tento výsledek lze považovat za velmi dobrý. Všiměte si, že jsou signifikantní všechn regresní koeficient a to dokonce na hladině α = 0.01 Pokusme se přidat ještě kubický člen. Bude popisovat odhadnutá regresní funkce data lépe? Model obecně zapíšeme takto: i = β 0 + β 1 i + β 2 2 i + β 3 3 i + ε i. (9) Výsledk regresní analýz pro případ polnomu třetího stupně jsou uveden níže. Všiměte si, že i kubický člen je statistick významný: Call: lm(formula = ~ + I(^2) + I(^3)) Residuals: 1 2 3 4 5 6 7-2.40359 3.58091 1.89175-4.46885-0.08044 2.32159-0.84138 5

Obrázek 3: Kvadratická regrese funkce s absolutním členem 300 350 400 450 500 550 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.558e+02 8.326e+00 18.710 0.000333 *** 1.115e+00 6.567e-02 16.983 0.000445 *** I(^2) -1.245e-03 1.384e-04-8.994 0.002902 ** I(^3) 5.477e-07 8.327e-08 6.577 0.007150 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 4.011 on 3 degrees of freedom Multiple R-Squared: 0.9994, Adjusted R-squared: 0.9987 F-statistic: 1595 on 3 and 3 DF, p-value: 2.662e-05 Z výsledků je patrné, že je tento model ještě lepším než předchozí kvadratický. Inde determinace činí 99,94 %, reziduální součet čtverců činí 4.011 2.3 = 48.264363. Prostě paráda co více si přát. Pro úplnost znázorníme ještě průběh funkce spolu s empirickými dat. Jistě bchom bli spokojeni. Reziduální suma čtverců je relativně malá, inde determinace činí 99,94 %. Spokojeni však být nemůžeme, neboť je to celé úplně špatně!! Proč? Jistě jste si všimli(viz obrázek 4), že graf průběhu polnomické regrese vkazuje ve své horní části inflei, která z hlediska přírodních zákonů, fzik 6

Obrázek 4: Funkce polnomické regrese 3 stupně s absolutním členem 300 350 400 450 500 550 nemá opodstatnění. Model je ted zcela chbný. Z fzikálního hlediska b bla jediným správným modelem funkce popisující zákon pohbu po nakloněné rovině a šikmého vrhu mající tvar: i = 2 i sin2 α + 4d i cos 2 α i sin2α (10) Smbol α představuje úhel nakloněné rovin po které bla vpouštěna koule, smbol d pak výšku stolu. Pokusme se ted dospět k výsledku jinou cestou. Víme, že Galileův stůl měl výšku 500 punti, po dosazení se správná regresní rovnice (10) zjednoduší: i = 2 i sin2 α + 2000 i cos 2 α i sin2α. (11) Pomocí software R a při vužití Gauss-Newtonova algoritmu se pokusíme získat odhad neznámého parametru α. Ten představuje, jak jistě víte úhel, který svírala nakloněná rovina s deskou stolu. Řešení je ted následující: nls(~sqrt(^2*(sin(2*a))^2+4*500**(cos(a))^2)-*sin(2*a), start=c(a=0.5203),trace=true) 31357.71 : 0.5203 2576.557 : 0.6101944 2485.28 : 0.6157443 2485.263 : 0.6158206 7

2485.263 : 0.6158214 Nonlinear regression model model: ~ sqrt(^2 * (sin(2 * a))^2 + 4 * 500 * * (cos(a))^2) - * sin(2 * a) data: parent.frame() a 0.6158214 residual sum-of-squares: 2485.263. Řešením jsme získali odhad ˆα = 0, 6158214, tj. = 35, 3. Dále můžeme odečíst reziduální sumu čtverců, dosahuje hodnot 2485,263. I kdž je to dobře, můžete si všimnout toho, že jsme v případě správného regresního modelu obdrželi větší reziduální součet čtverců, než v předchozích evidentně chbných modelech! Graf této funkce spolu s ostatními regresními model je uveden zde: Obrázek 5: Graf správné regresní funkce 300 350 400 450 500 550 8