Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Transkript

1 Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích

2 Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta je předmětem vědeckého bádání. V podstatě lze rozlišovat závislosti z několika pohledů: závislost pevnou a volnou, závislost jednostrannou a oboustrannou, jednodušší formy kauzální závislosti a složitější formy kauzální závislosti.

3 Statistická neboli volná závislost V případě složitějších forem závislosti si musíme uvědomit, že závislá veličina je ovlivňována větším počtem nezávislých veličin (příčin) jejichž chování nemůžeme plně postihnout. Na změnu závislé veličiny v důsledku změn nezávislých veličin lze v takovém případě usuzovat pouze v průměru!

4 Statistická a korelační závislost Sledujeme-li statistické znaky y, x 1, x 2,, x p a mění-li se určitým způsobem podmíněné rozdělení znaku y při změnách x 1, x 2,, x p, pak mluvíme o statistické závislosti znaku y na x 1, x 2,, x p. Speciálním typem této statistické závislosti je tzv. korelační závislost, při té se mění podmíněné střední hodnoty znaku y. Zkoumání korelační závislosti patří mezi nejčastěji používané způsoby hodnocení závislostí. Lze se však zajímat i o jiné druhy závislostí (např. asociační závislost nebo kontingenční závislost).

5 Geometrická interpretace: statistická vs. korelační závislost x y x y

6 Motivační příklad: V souboru Engel.xls máte k dispozici údaje o ročním disponibilním příjmu a ročních výdajích za jídlo, které byly zaznamenány u 235 rodin. Údaje jsou uvedeny v belgických francích. Vytvořte korelační pole. Prostřednictvím funkce ŷ = ˆβ 0 + ˆβ 1 x popište vztah mezi příjmem a výdaji na jídlo. Jak lze interpretovat odhadnutý regresní koeficient u vysvětlující proměnné? Jak jej nazývají ekonomové? Je to vhodný model? S

7 Příprava v R belgie<-read.table("p:/kurz/engel.csv",header=true,dec=",",sep=";") belgie[1:5,] prijem vydajezajidlo par(mfrow=c(1,2)) plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") obal<-chull(prijem,vydajezajidlo) belgie1<-belgie[-obal,] plot(belgie1,col="blue",pch=20,xlab="prijem",ylab="vydaje za jidlo")

8 Vydaje za jidlo Vydaje za jidlo Prijem Prijem

9 Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza.

10 Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza. Jaký je stupeň (těsnosti, intenzity, síly) závislosti mezi sledovanými znaky? Odpověd dává korelační analýza.

11 Předpoklady regresního modelu Střední hodnota reziduí je nulová. Nebo-li E(ɛ i ) = 0 Rozptyl reziduí je konstantní pro všechny pozorování, tedy V ar(ɛ i ) = σ 2 Rezidua sledují normální rozdělení ɛ i N(0, σ 2 ) Jednotlivé pozorování závislé proměnné y i nezávislé. V důsledku toho pak i jednotlivé ɛ i jsou navzájem Jednotlivé úrovně - hodnoty regresorů jsou pevné, pokud jsou náhodné, pak jsou navzájem nezávislé.

12 Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování:

13 Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování: y 1 = β 0 + β 1 x 11 + ɛ 1, y 2 = β 0 + β 1 x 21 + ɛ 2,. y n = β 0 + β 1 x n1 + ɛ n,

14 Abychom nemuseli vypisovat všech n rovnic, využijme maticové symboliky: y = y 1 y 2. X = 1 x 11 1 x 21.. β = [ β0 β 1 ] ɛ = ɛ 1 ɛ 2. y n 1 x n1 ɛ n Situaci pak můžeme elegantně zachytit takto y = Xβ + ɛ. Otázkou je, jak zvolit hodnoty β, tak aby regresní funkce co nejlépe vystihovala analyzovaná data?

15 Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí.

16 Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí. Zřejmě lze rezidua definovat jako ɛ = y Xβ

17 Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n.

18 Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n.

19 Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2.

20 Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2. Minimalizace součtu čtverců reziduí: n i=1 (y i ŷ i ) 2 min

21 Podstata metody Elegantně pomocí maticového zápisu S = n i=1 ɛ i ɛ i = ɛ t ɛ min Pokud hodláme minimalizovat funkci S, pak je nutno funkci derivovat a takto derivovanou funkci položit rovno nule.

22 Geometrická interpretace MNČ Geometricka interpretace metody nejmensich ctvercu y x

23 Tím je splněn nutný předpoklad. Odhad jednotlivých složek vektoru β tj. regresních koeficientů získáme takto: S = ɛ t ɛ = (y Xβ) t (y Xβ) = = y t y y t Xβ (Xβ) t y + (Xβ) t Xβ = = y t y 2(Xβ) t y + β t X t Xβ Derivaci funkce S položíme rovnou nule a vyřešíme (to je nutná podmínka): S β = 2Xt y + 2X t Xβ = 0

24 Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů

25 Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů ˆβ = (X t X) I X t y.

26 ... pokračování příkladu attach(belgie) model<-lm(vydajezajidlo~prijem,belgie) summary(model) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** prijem <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 233 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16 plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") abline(model,lwd=2,col="red")

27 Prijem Vydaje za jidlo

28 Volba regresní funkce Při volbě regresní funkce je nutné znát její základní vlastnosti, tj. znát jednotlivé funkce, jejich analytické vyjádření, jejich průběh, definiční obor a obor hodnot. V prvé řadě má regresní model co nejlépe zobrazit reálné vztahy mezi jevy a odrážet je v jejich podstatných rysech. Z tohoto důvodu, je třeba vycházet z posouzení věcné podstaty zkoumaných jevů a jejich souvislostí. V mnoha případech však není možno volit regresní funkci apriorně. Pak voĺıme regresní funkci na základě posouzení závislosti v pozorovaných datech. Tento přístup však nemusí vést k nalezení regresní funkce (problém malého počtu pozorování), vhodné pro popis závislosti v základním souboru.

29 Volba regresní funkce Pro empirické posouzení závislosti je možno použít bodový diagram nebo čáru podmíněných průměrů. Obvykle se však postupuje takto: Vymezíme množinu regresních funkcí - pokud možno jednoduchých Určíme odhady jednotlivých regresních parametrů pro jednotlivé typy regresních funkcí Na základě různých kritéríı zkoumáme, která z regresních funkcí nejlépe vyhovuje empirickým datům.

30 Korelační koeficient Pro posuzování vhodnosti regresní funkce a těsnosti závislosti vysvětlované proměnné y na uvažovaných vysvětlujících proměnných se používá také druhá odmocnina indexu determinace. Ta se nazývá index korelace (koeficient korelace). V případě prosté lineární regrese jej lze definovat například takto: r yx = cov(x, y) σ x σ y Tato statistika vyjadřuje stupeň lineární statistické závislosti. Symbol cov(x, y) v čitateli představuje kovarianci proměnných x a y. Ve jmenovateli pak vystupuje součin směrodatných odchylek nezávisle a závisle proměnné.

31 Korelační pole x y x y x y x y e 04 x y x y c Rost 2006

32 Posouzení vhodnosti modelu Jedním ze základních kritéríı pro posouzení kvality regresní funkce je tzv. součet čtverců residuí, definovaný jako S = n i=1 ɛ i ɛ i = ɛ ɛ Na základě tohoto kritéria dáváme přednost tomu regresnímu modelu pro nějž nabývá tato statistika nižší hodnoty. V případě, že porovnáváme regresní modely s různým počtem regresních parametrů, musíme si uvědomit, že u regresní funkce s větším počtem parametrů bude residuální součet čtverců nižší než u regresní funkce s menším počtem regresních parametrů.

33 Otázka vhodnosti modelu Z tohoto důvodu využíváme pro srovnání tzv. residuální rozptyl definovaný jako s 2 e = S n p

34 Test všech prediktorů - vysvětlujících proměnných Jsou vysvětlující proměnné užitečné pro predikci závisle proměnné? Formálně testujeme hypotézu: Testovou statistikou je H 0 : β 1 = β 2 =... = β p 1 = 0 F = (T SS RSS)/(p 1) RSS/(n p) F F p 1,n p Kde RSS a T SS: RSS = (y Xˆβ) t (y Xˆβ) T SS = (y ȳ) t (y ȳ) Vysoké hodnoty F vedou k zamítnutí testované hypotézy.

35 ... pokračování příkladu summary(model) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) <2e-16 *** prijem <2e-16 *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 233 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16

36 Waldův test pro vysvětlující proměnnou Lze jím odpovědět na otázku, zda je možné vyřadit příslušnou vysvětlující proměnou z regresního modelu. Formálně tedy umožňuje testovat hypotézu H 0 : β i = 0. t i = ˆβ i s.e.( ˆβ i ) t i t n p Malou modifikací Waldova testu můžeme otestovat hypotézu kterou lze vyjádřit jako H 0 : β i = konst. Testové kritérium má pak následující tvar: t i = ˆβ i konst. s.e.( ˆβ i ) t i t n p

37 Konfidenční intervaly pro β Je dobré si uvědomit, že CI (angl. confidence interval) umožňují alternativně vyjádřit nejistotu našich odhadů! Obecná forma konfidenčních intervalů pro odhady regresních koeficientů: Odhad ± kritická hodnota SE odhadu V případě klasického lineárního modelu získáme intervalový odhad pro regresní koeficient β i jako ˆβ i ± t 1 α/2,n pˆσ (X t X) I ii

38 Lze sestrojit i simultánní konfidenční oblast pro více regresních koefeicentů. Tento přístup, pokud je umožněn statistickým softwarem, je pochopitelně preferován. Viz grafické znázornění konfidenční elipsy. Oblast, resp. 100(1 α)% konfidenční region lze vyjádřit takto: (ˆβ β) t X t X(ˆβ β) pˆσ 2 F 1 α,p,n p

39 Konfidenční intervaly pro regresní koeficienty β i β β 0

40 ... pokračování práce v R confint(model) 2.5 % 97.5 % (Intercept) prijem

41 Konfidenční intervaly pro predikci V podstatě je nutné rozlišit dva významově odlišné případy: Odhad průměrné hodnoty Y, přesněji odhad podmíněné střední očekávané hodnoty veličiny Y vzhedem ke zvolené kombinaci hodnot vysvětlující (vysvětlujících) proměnné (proměnných): ŷ 0 ± t 1 α/2,n pˆσ x t 0 (Xt X) I x 0 Odhad konkrétní hodnoty Y při určité kombinaci vysvětlující proměnné, či určité kombinaci vysvětlujících proměnných: ŷ 0 ± t 1 α/2,n pˆσ 1 + x t 0 (Xt X) I x 0

42 Konfidenční intervaly pro predikci v R attach(belgie) range(prijem) x0<-seq(500,5200,10) prij<-data.frame(prijem=x0) pred.konfid<-predict(model,prij,se=t,interval="confidence") pred.pred<-predict(model,prij,se=t,interval="prediction") pred.konfid$fit[1:5,] fit lwr upr

43 Grafy predikčních intervalů Vydaje za jidlo Vydaje za jidlo Prijem Prijem

44 Regresní diagnostika Mezi základní diagnostické prostředky patří především analýza reziduálních hodnot prostřednictvím kvantilových grafů spolu s diagnostickými statistikami DF BET AS, DF F IT S, COV RAT IO, Cookovou vzdáleností a diagonálními prvky projekční matice H (angl. leverage), kde H = X(X t X)X t

45 Residuals vs Fitted Normal Q Q Residuals Standardized residuals Fitted values Theoretical Quantiles Standardized residuals Scale Location Standardized residuals Residuals vs Leverage Cook's distance Fitted values Leverage

46 Galileův pokus Galileo se zabýval studiem pohybu tělesa. K tomuto studiu si sestrojil jednoduché zařízení. Na stůl umístnil nakloněnou rovinu s drážkou. Pokus spočíval v opakovaném vypouštění bronzové koule v jisté výšce, označme tuto výšku jako x a měřil vzdálenost dopadu stříbrné koule od hrany stolu. Výška stolu Galileova stolu činila 500 punti. Galileo naměřil tato data [punti ]: x y [1,] [2,] [3,] [4,] [5,] [6,] [7,] Jedno punti je rovno 169/180 mm c Rost 2006

47 Proložení prostou lineární regresí y = (X X) I = X = [ X X = [ ] 0, , , , ˆβ = (X X) I X y = [ 269, , ] ] Regresní model lze tedy zapsat jako ŷ i = 269, , x i pro i = 1, 2,, n. c Rost 2006

48 Pomocí statistického software Výsledky regresní analýzy prostá lineární regrese: Call: lm(formula = y ~ x) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** x *** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 5 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 1 and 5 DF, p-value: Pokusme se ještě lépe vystihnout data prostřednictvím dalších regresních modelů a zlepšit tak proložení dat modelem. c Rost 2006

49 Polynom 2 stupně... Vzhledem k hodnotám by mohl být adekvátním modelem kvadratický regresní model ŷ i = β 0 + β 1 x i + β 2 x 2 i + ε i Výsledky regresní analýzy pro kvadratický regresní model: Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.999e e *** x 7.083e e *** I(x^2) e e ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 4 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 205 on 2 and 4 DF, p-value: 9.333e-05 c Rost 2006

50 Ještě stále nic??? Pokusíme se přidat ještě kubický člen. Bude popisovat odhadnutá regresní funkce data lépe? Model zapíšeme takto: y i = β 0 + β 1 x i + β 2 x 2 i + β 3x 3 i + ε i. Výsledky regresní analýzy pro případ polynomu třetího stupně jsou uvedeny níže. Všiměte si, že i kubický člen je statisticky významný: Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 1.558e e *** x 1.115e e *** I(x^2) e e ** I(x^3) 5.477e e ** --- Signif. codes: 0 *** ** 0.01 * Residual standard error: on 3 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: 1595 on 3 and 3 DF, p-value: 2.662e-05 c Rost 2006

51 Nepřipadá Vám to poněkud hloupé? Kde je tedy chyba? c Rost 2006

52 Regresní modely y y x x y y ? x x c Rost 2006

53 Správné řešení - respektujte skutečnou povahu závislostí Z fyzikálního hlediska by byla jediným správným modelem funkce popisující zákony pohybu po nakloněné rovině a šikmého vrhu mající tvar: y i = xi 2 sin2 α + 4d x i cos 2 α x i sin2α Symbol α představuje úhel nakloněné roviny po které byla vypouštěna koule, symbol d pak výšku stolu. Pokusme se tedy dospět k výsledku jinou cestou. Víme, že Galileův stůl měl výšku 500 punti, po dosazení se správná regresní rovnice zjednoduší: y i = x 2 i sin2 α x i cos 2 α x i sin2α. Pomocí Gauss-Newtonova algoritmu se pokusíme získat odhad neznámého parametru α. Ten představuje úhel, který svírala nakloněná rovina s deskou stolu. c Rost 2006

54 Správné řešení nls(y~sqrt(x^2*(sin(2*a))^2+4*500*x*(cos(a))^2)-x*sin(2*a), start=c(a=0.5203),trace=true) : : : : : Nonlinear regression model model: y ~ sqrt(x^2 * (sin(2 * a))^2 + 4 * 500 * x * (cos(a))^2) - x * sin(2 * a) data: parent.frame() a residual sum-of-squares: = 35, 3. Dále Řešením jsme získali odhad ˆα = 0, , tj. můžeme odečíst reziduální sumu čtverců, dosahuje hodnoty 2485,263. c Rost 2006

55 Respektujte povahu věcí... Spravný model y x c Rost 2006

56 Literatura Problematika je diskutována například v následují literatuře: Norman R. Draper, Harry Smith: Applied Regression Analysis,Wiley Series in Probability and Statistics, ISBN Julian J. Faraway: Linear Models with R, Chapman & Hall/CRC, Boca Raton, 2005, ISBN John Fox: An R and S-plus Companion to Applied Regression, Sage Publication, Thousand Oaks, 2002, ISBN

57 Děkuji za pozornost.