Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích
Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní analýze.
Motivační příklad: V souboru Engel.xls máte k dispozici údaje o ročním disponibilním příjmu a ročních výdajích za jídlo, které byly zaznamenány u 235 rodin. Údaje jsou uvedeny v belgických francích. Vytvořte korelační pole. Prostřednictvím funkce ŷ = ˆβ 0 + ˆβ 1 x popište vztah mezi příjmem a výdaji na jídlo. Jak lze interpretovat odhadnutý regresní koeficient u vysvětlující proměnné? Jak jej nazývají ekonomové? Je to vhodný model? S
Příprava v R belgie<-read.table("p:/kurz/engel.csv",header=true,dec=",",sep=";") belgie[1:5,] prijem vydajezajidlo 1 420.1577 255.8394 2 541.4117 310.9587 3 901.1575 485.6800 4 639.0802 402.9974 5 750.8756 495.5608 par(mfrow=c(1,2)) plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") obal<-chull(prijem,vydajezajidlo) belgie1<-belgie[-obal,] plot(belgie1,col="blue",pch=20,xlab="prijem",ylab="vydaje za jidlo")
Vydaje za jidlo 500 1000 1500 2000 Vydaje za jidlo 200 400 600 800 1000 1200 1400 1600 1000 3000 5000 Prijem 500 1000 1500 2000 2500 Prijem
Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza.
Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza. Jaký je stupeň (těsnosti, intenzity, síly) závislosti mezi sledovanými znaky? Odpověd dává korelační analýza.
Předpoklady regresního modelu Střední hodnota reziduí je nulová. Nebo-li E(ɛ i ) = 0 Rozptyl reziduí je konstantní pro všechny pozorování, tedy V ar(ɛ i ) = σ 2 Rezidua sledují normální rozdělení ɛ i N(0, σ 2 ) Jednotlivé pozorování závislé proměnné y i nezávislé. V důsledku toho pak i jednotlivé ɛ i jsou navzájem Jednotlivé úrovně - hodnoty regresorů jsou pevné, pokud jsou náhodné, pak jsou navzájem nezávislé.
Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování:
Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování: y 1 = β 0 + β 1 x 11 + ɛ 1, y 2 = β 0 + β 1 x 21 + ɛ 2,. y n = β 0 + β 1 x n1 + ɛ n,
Abychom nemuseli vypisovat všech n rovnic, využijme maticové symboliky: y = y 1 y 2. X = 1 x 11 1 x 21.. β = [ β0 β 1 ] ɛ = ɛ 1 ɛ 2. y n 1 x n1 ɛ n Situaci pak můžeme elegantně zachytit takto y = Xβ + ɛ. Otázkou je, jak zvolit hodnoty β, tak aby regresní funkce co nejlépe vystihovala analyzovaná data?
Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí.
Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí. Zřejmě lze rezidua definovat jako ɛ = y Xβ
Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n.
Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n.
Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2.
Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2. Minimalizace součtu čtverců reziduí: n i=1 (y i ŷ i ) 2 min
Podstata metody Elegantně pomocí maticového zápisu S = n i=1 ɛ i ɛ i = ɛ t ɛ min Pokud hodláme minimalizovat funkci S, pak je nutno funkci derivovat a takto derivovanou funkci položit rovno nule.
Geometrická interpretace MNČ Geometricka interpretace metody nejmensich ctvercu 4.0 3.5 3.0 y 2.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 x
Tím je splněn nutný předpoklad. Odhad jednotlivých složek vektoru β tj. regresních koeficientů získáme takto: S = ɛ t ɛ = (y Xβ) t (y Xβ) = = y t y y t Xβ (Xβ) t y + (Xβ) t Xβ = = y t y 2(Xβ) t y + β t X t Xβ Derivaci funkce S položíme rovnou nule a vyřešíme (to je nutná podmínka): S β = 2Xt y + 2X t Xβ = 0
Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů
Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů ˆβ = (X t X) I X t y.
... pokračování příkladu attach(belgie) model<-lm(vydajezajidlo~prijem,belgie) summary(model) Residuals: Min 1Q Median 3Q Max -725.699-60.239-4.317 53.411 515.772 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 147.47539 15.95708 9.242 <2e-16 *** prijem 0.48518 0.01437 33.772 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 114.1 on 233 degrees of freedom Multiple R-Squared: 0.8304, Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16 plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") abline(model,lwd=2,col="red")
Test všech prediktorů - vysvětlujících proměnných Jsou vysvětlující proměnné užitečné pro predikci závisle proměnné? Formálně testujeme hypotézu: Testovou statistikou je H 0 : β 1 = β 2 =... = β p 1 = 0 F = (T SS RSS)/(p 1) RSS/(n p) F F p 1,n p Kde RSS a T SS: RSS = (y Xˆβ) t (y Xˆβ) T SS = (y ȳ) t (y ȳ) Vysoké hodnoty F vedou k zamítnutí testované hypotézy.
... pokračování příkladu summary(model) Residuals: Min 1Q Median 3Q Max -725.699-60.239-4.317 53.411 515.772 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 147.47539 15.95708 9.242 <2e-16 *** prijem 0.48518 0.01437 33.772 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 114.1 on 233 degrees of freedom Multiple R-Squared: 0.8304, Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16
Waldův test pro vysvětlující proměnnou Lze jím odpovědět na otázku, zda je možné vyřadit příslušnou vysvětlující proměnou z regresního modelu. Formálně tedy umožňuje testovat hypotézu H 0 : β i = 0. t i = ˆβ i s.e.( ˆβ i ) t i t n p Malou modifikací Waldova testu můžeme otestovat hypotézu kterou lze vyjádřit jako H 0 : β i = konst. Testové kritérium má pak následující tvar: t i = ˆβ i konst. s.e.( ˆβ i ) t i t n p
Konfidenční intervaly pro β Je dobré si uvědomit, že CI (angl. confidence interval) umožňují alternativně vyjádřit nejistotu našich odhadů! Obecná forma konfidenčních intervalů pro odhady regresních koeficientů: Odhad ± kritická hodnota SE odhadu V případě klasického lineárního modelu získáme intervalový odhad pro regresní koeficient β i jako ˆβ i ± t 1 α/2,n pˆσ (X t X) I ii
Lze sestrojit i simultánní konfidenční oblast pro více regresních koefeicentů. Tento přístup, pokud je umožněn statistickým softwarem, je pochopitelně preferován. Viz grafické znázornění konfidenční elipsy. Oblast, resp. 100(1 α)% konfidenční region lze vyjádřit takto: (ˆβ β) t X t X(ˆβ β) pˆσ 2 F 1 α,p,n p
Konfidenční intervaly pro regresní koeficienty β i β 1 0.40 0.45 0.50 0.55 0.60 100 120 140 160 180 200 β 0
... pokračování práce v R confint(model) 2.5 % 97.5 % (Intercept) 116.0367905 178.913984 prijem 0.4568738 0.513483
Konfidenční intervaly pro predikci V podstatě je nutné rozlišit dva významově odlišné případy: Odhad průměrné hodnoty Y, přesněji odhad podmíněné střední očekávané hodnoty veličiny Y vzhedem ke zvolené kombinaci hodnot vysvětlující (vysvětlujících) proměnné (proměnných): ŷ 0 ± t 1 α/2,n pˆσ x t 0 (Xt X) I x 0 Odhad konkrétní hodnoty Y při určité kombinaci vysvětlující proměnné, či určité kombinaci vysvětlujících proměnných: ŷ 0 ± t 1 α/2,n pˆσ 1 + x t 0 (Xt X) I x 0
Konfidenční intervaly pro predikci v R attach(belgie) range(prijem) x0<-seq(500,5200,10) prij<-data.frame(prijem=x0) pred.konfid<-predict(model,prij,se=t,interval="confidence") pred.pred<-predict(model,prij,se=t,interval="prediction") pred.konfid$fit[1:5,] fit lwr upr 1 390.0646 370.0255 410.1037 2 394.9164 375.0691 414.7636 3 399.7682 380.1105 419.4258 4 404.6200 385.1496 424.0903 5 409.4717 390.1864 428.7570
Grafy predikčních intervalů Vydaje za jidlo 500 1000 1500 2000 2500 Vydaje za jidlo 500 1000 1500 2000 2500 3000 1000 2000 3000 4000 5000 Prijem 1000 2000 3000 4000 5000 Prijem
Regresní diagnostika Mezi základní diagnostické prostředky patří především analýza reziduálních hodnot prostřednictvím kvantilových grafů spolu s diagnostickými statistikami DF BET AS, DF F IT S, COV RAT IO, Cookovou vzdáleností a diagonálními prvky projekční matice H (angl. leverage), kde H = X(X t X)X t
Motivační příklad Dalším datovým souborem využitým pro ilustraci je soubor obsahující morfometrické údaje několika liníı kapra obecného (tatajský kapr, amurský sazan, syntetický šupinatý kapr, jihočeský šupinatý kapr, litomyšlský šupinatý kapr). U jednotlivých ryb byla sledována celková délka těla X 1, délka těla X 2, délka trupu za řitní ploutví včetně délky hlavy X 3, dále délka trupu před řitní ploutví včetně délky hlavy X 4, délka hlavy X 5 a výška těla X 6. Pro lepší názornost jsou tyto charakteristiky zachyceny na obrázku. Všechny délky byly měřeny v mm v ose těla od předního okraje rypce. Pouze výška těla byla stanovena prostřednictvím kolmice spuštěné od prvního paprsku hřbetní ploutve k břišnímu okraji těla.
Motivační příklad
Literatura Problematika je diskutována například v následují literatuře: Norman R. Draper, Harry Smith: Applied Regression Analysis,Wiley Series in Probability and Statistics, ISBN 1-58488-425-8 Julian J. Faraway: Linear Models with R, Chapman & Hall/CRC, Boca Raton, 2005, ISBN 1-58488-425-8 John Fox: An R and S-plus Companion to Applied Regression, Sage Publication, Thousand Oaks, 2002, ISBN 0-7619-2280-6
Děkuji za pozornost.