Statistické metody v marketingu. Ing. Michael Rost, Ph.D.



Podobné dokumenty
Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Klasický lineární model, metoda nejmenších

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Geometrie metody nejmenších čtverců

odpovídá jedna a jen jedna hodnota jiných

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Aplikovaná statistika v R - cvičení 3

4ST201 STATISTIKA CVIČENÍ Č. 10

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

Inovace bakalářského studijního oboru Aplikovaná chemie

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Bodové a intervalové odhady parametrů v regresním modelu

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Regresní analýza 1. Regresní analýza

Statistická analýza dat

Regresní a korelační analýza

Lineární a logistická regrese

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Regresní analýza. Eva Jarošová

8 Coxův model proporcionálních rizik I

Technická univerzita v Liberci

Ilustrační příklad odhadu LRM v SW Gretl

Regresní a korelační analýza

Regresní a korelační analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

Úvodem Dříve les než stromy 3 Operace s maticemi

4EK211 Základy ekonometrie

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

Bodové a intervalové odhady parametrů v regresním modelu

M cvičení : GLM03a (The Working Activities of Bees)

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Optimalizace provozních podmínek. Eva Jarošová

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Statistická analýza jednorozměrných dat

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Tomáš Karel LS 2012/2013

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

AVDAT Nelineární regresní model

Regresní a korelační analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Statistická analýza jednorozměrných dat

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

LINEÁRNÍ REGRESE. Lineární regresní model

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

5EN306 Aplikované kvantitativní metody I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Korelační a regresní analýza

Klasická a robustní ortogonální regrese mezi složkami kompozice

Regresní a korelační analýza

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kalibrace a limity její přesnosti

, Brno Hanuš Vavrčík Základy statistiky ve vědě

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

UNIVERZITA PARDUBICE

10. Předpovídání - aplikace regresní úlohy

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 2

6. Lineární regresní modely

6. Lineární regresní modely

6. Lineární regresní modely

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

6. Lineární regresní modely

4EK211 Základy ekonometrie

KGG/STG Statistika pro geografy

Semestrální práce. 2. semestr

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Aplikovaná numerická matematika

Analýza reziduí gyroskopu umístěného na kyvadle p.1

4EK211 Základy ekonometrie

M cvičení : GLM04b (Vztah mezi Poissonovým a

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Základy lineární regrese

Úloha 1: Lineární kalibrace

Testy nezávislosti kardinálních veličin

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

UNIVERZITA PARDUBICE

Transkript:

Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích

Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní analýze.

Motivační příklad: V souboru Engel.xls máte k dispozici údaje o ročním disponibilním příjmu a ročních výdajích za jídlo, které byly zaznamenány u 235 rodin. Údaje jsou uvedeny v belgických francích. Vytvořte korelační pole. Prostřednictvím funkce ŷ = ˆβ 0 + ˆβ 1 x popište vztah mezi příjmem a výdaji na jídlo. Jak lze interpretovat odhadnutý regresní koeficient u vysvětlující proměnné? Jak jej nazývají ekonomové? Je to vhodný model? S

Příprava v R belgie<-read.table("p:/kurz/engel.csv",header=true,dec=",",sep=";") belgie[1:5,] prijem vydajezajidlo 1 420.1577 255.8394 2 541.4117 310.9587 3 901.1575 485.6800 4 639.0802 402.9974 5 750.8756 495.5608 par(mfrow=c(1,2)) plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") obal<-chull(prijem,vydajezajidlo) belgie1<-belgie[-obal,] plot(belgie1,col="blue",pch=20,xlab="prijem",ylab="vydaje za jidlo")

Vydaje za jidlo 500 1000 1500 2000 Vydaje za jidlo 200 400 600 800 1000 1200 1400 1600 1000 3000 5000 Prijem 500 1000 1500 2000 2500 Prijem

Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza.

Dva úkoly: V průběhu zkoumání korelační závislosti hledáme odpověd na dvě otázky: Jak nejlépe vystihnout průběh závislosti mezi sledovanými znaky prostřednictvím odpovídající matematické funkce? To řeší regresní analýza. Jaký je stupeň (těsnosti, intenzity, síly) závislosti mezi sledovanými znaky? Odpověd dává korelační analýza.

Předpoklady regresního modelu Střední hodnota reziduí je nulová. Nebo-li E(ɛ i ) = 0 Rozptyl reziduí je konstantní pro všechny pozorování, tedy V ar(ɛ i ) = σ 2 Rezidua sledují normální rozdělení ɛ i N(0, σ 2 ) Jednotlivé pozorování závislé proměnné y i nezávislé. V důsledku toho pak i jednotlivé ɛ i jsou navzájem Jednotlivé úrovně - hodnoty regresorů jsou pevné, pokud jsou náhodné, pak jsou navzájem nezávislé.

Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování:

Model V případě jednoduché lineární regrese vycházíme z předpokladu, že lze i-té pozorování, i = 1, 2,, n, n 3 závisle proměnné Y, vyjádřit prostřednictvím nezávisle proměnné X. Konkrétně jako: y i = β 0 + β 1 x i1 + ɛ i, a tedy n rovnic pro n pozorování: y 1 = β 0 + β 1 x 11 + ɛ 1, y 2 = β 0 + β 1 x 21 + ɛ 2,. y n = β 0 + β 1 x n1 + ɛ n,

Abychom nemuseli vypisovat všech n rovnic, využijme maticové symboliky: y = y 1 y 2. X = 1 x 11 1 x 21.. β = [ β0 β 1 ] ɛ = ɛ 1 ɛ 2. y n 1 x n1 ɛ n Situaci pak můžeme elegantně zachytit takto y = Xβ + ɛ. Otázkou je, jak zvolit hodnoty β, tak aby regresní funkce co nejlépe vystihovala analyzovaná data?

Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí.

Metoda nejmenších čtverců Odhady regresních parametrů β provádíme pomocí metody nejmenších čtverců - MNČ. Její podstatou je minimalizace součtu čtverců reziduí. Zřejmě lze rezidua definovat jako ɛ = y Xβ

Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n.

Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n.

Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2.

Podstata metody Rezidua: (y i ŷ i ) i = 1, 2,..., n. Čtverce reziduí: (y i ŷ i ) 2 i = 1, 2,..., n. Součet čtverců reziduí: n i=1 (y i ŷ i ) 2. Minimalizace součtu čtverců reziduí: n i=1 (y i ŷ i ) 2 min

Podstata metody Elegantně pomocí maticového zápisu S = n i=1 ɛ i ɛ i = ɛ t ɛ min Pokud hodláme minimalizovat funkci S, pak je nutno funkci derivovat a takto derivovanou funkci položit rovno nule.

Geometrická interpretace MNČ Geometricka interpretace metody nejmensich ctvercu 4.0 3.5 3.0 y 2.5 2.0 1.5 1.0 0.5 0.0 0.5 1.0 1.5 x

Tím je splněn nutný předpoklad. Odhad jednotlivých složek vektoru β tj. regresních koeficientů získáme takto: S = ɛ t ɛ = (y Xβ) t (y Xβ) = = y t y y t Xβ (Xβ) t y + (Xβ) t Xβ = = y t y 2(Xβ) t y + β t X t Xβ Derivaci funkce S položíme rovnou nule a vyřešíme (to je nutná podmínka): S β = 2Xt y + 2X t Xβ = 0

Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů

Odhad ˆβ Lze tedy psát 2X t Xβ = 2X t y (X t X) I Získáme tak odhad vektoru regresních koeficientů ˆβ = (X t X) I X t y.

... pokračování příkladu attach(belgie) model<-lm(vydajezajidlo~prijem,belgie) summary(model) Residuals: Min 1Q Median 3Q Max -725.699-60.239-4.317 53.411 515.772 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 147.47539 15.95708 9.242 <2e-16 *** prijem 0.48518 0.01437 33.772 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 114.1 on 233 degrees of freedom Multiple R-Squared: 0.8304, Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16 plot(prijem,vydajezajidlo,col="blue",pch=20,xlab="prijem", ylab="vydaje za jidlo") abline(model,lwd=2,col="red")

Test všech prediktorů - vysvětlujících proměnných Jsou vysvětlující proměnné užitečné pro predikci závisle proměnné? Formálně testujeme hypotézu: Testovou statistikou je H 0 : β 1 = β 2 =... = β p 1 = 0 F = (T SS RSS)/(p 1) RSS/(n p) F F p 1,n p Kde RSS a T SS: RSS = (y Xˆβ) t (y Xˆβ) T SS = (y ȳ) t (y ȳ) Vysoké hodnoty F vedou k zamítnutí testované hypotézy.

... pokračování příkladu summary(model) Residuals: Min 1Q Median 3Q Max -725.699-60.239-4.317 53.411 515.772 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 147.47539 15.95708 9.242 <2e-16 *** prijem 0.48518 0.01437 33.772 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 114.1 on 233 degrees of freedom Multiple R-Squared: 0.8304, Adjusted R-squared: 0.8296 F-statistic: 1141 on 1 and 233 DF, p-value: < 2.2e-16

Waldův test pro vysvětlující proměnnou Lze jím odpovědět na otázku, zda je možné vyřadit příslušnou vysvětlující proměnou z regresního modelu. Formálně tedy umožňuje testovat hypotézu H 0 : β i = 0. t i = ˆβ i s.e.( ˆβ i ) t i t n p Malou modifikací Waldova testu můžeme otestovat hypotézu kterou lze vyjádřit jako H 0 : β i = konst. Testové kritérium má pak následující tvar: t i = ˆβ i konst. s.e.( ˆβ i ) t i t n p

Konfidenční intervaly pro β Je dobré si uvědomit, že CI (angl. confidence interval) umožňují alternativně vyjádřit nejistotu našich odhadů! Obecná forma konfidenčních intervalů pro odhady regresních koeficientů: Odhad ± kritická hodnota SE odhadu V případě klasického lineárního modelu získáme intervalový odhad pro regresní koeficient β i jako ˆβ i ± t 1 α/2,n pˆσ (X t X) I ii

Lze sestrojit i simultánní konfidenční oblast pro více regresních koefeicentů. Tento přístup, pokud je umožněn statistickým softwarem, je pochopitelně preferován. Viz grafické znázornění konfidenční elipsy. Oblast, resp. 100(1 α)% konfidenční region lze vyjádřit takto: (ˆβ β) t X t X(ˆβ β) pˆσ 2 F 1 α,p,n p

Konfidenční intervaly pro regresní koeficienty β i β 1 0.40 0.45 0.50 0.55 0.60 100 120 140 160 180 200 β 0

... pokračování práce v R confint(model) 2.5 % 97.5 % (Intercept) 116.0367905 178.913984 prijem 0.4568738 0.513483

Konfidenční intervaly pro predikci V podstatě je nutné rozlišit dva významově odlišné případy: Odhad průměrné hodnoty Y, přesněji odhad podmíněné střední očekávané hodnoty veličiny Y vzhedem ke zvolené kombinaci hodnot vysvětlující (vysvětlujících) proměnné (proměnných): ŷ 0 ± t 1 α/2,n pˆσ x t 0 (Xt X) I x 0 Odhad konkrétní hodnoty Y při určité kombinaci vysvětlující proměnné, či určité kombinaci vysvětlujících proměnných: ŷ 0 ± t 1 α/2,n pˆσ 1 + x t 0 (Xt X) I x 0

Konfidenční intervaly pro predikci v R attach(belgie) range(prijem) x0<-seq(500,5200,10) prij<-data.frame(prijem=x0) pred.konfid<-predict(model,prij,se=t,interval="confidence") pred.pred<-predict(model,prij,se=t,interval="prediction") pred.konfid$fit[1:5,] fit lwr upr 1 390.0646 370.0255 410.1037 2 394.9164 375.0691 414.7636 3 399.7682 380.1105 419.4258 4 404.6200 385.1496 424.0903 5 409.4717 390.1864 428.7570

Grafy predikčních intervalů Vydaje za jidlo 500 1000 1500 2000 2500 Vydaje za jidlo 500 1000 1500 2000 2500 3000 1000 2000 3000 4000 5000 Prijem 1000 2000 3000 4000 5000 Prijem

Regresní diagnostika Mezi základní diagnostické prostředky patří především analýza reziduálních hodnot prostřednictvím kvantilových grafů spolu s diagnostickými statistikami DF BET AS, DF F IT S, COV RAT IO, Cookovou vzdáleností a diagonálními prvky projekční matice H (angl. leverage), kde H = X(X t X)X t

Motivační příklad Dalším datovým souborem využitým pro ilustraci je soubor obsahující morfometrické údaje několika liníı kapra obecného (tatajský kapr, amurský sazan, syntetický šupinatý kapr, jihočeský šupinatý kapr, litomyšlský šupinatý kapr). U jednotlivých ryb byla sledována celková délka těla X 1, délka těla X 2, délka trupu za řitní ploutví včetně délky hlavy X 3, dále délka trupu před řitní ploutví včetně délky hlavy X 4, délka hlavy X 5 a výška těla X 6. Pro lepší názornost jsou tyto charakteristiky zachyceny na obrázku. Všechny délky byly měřeny v mm v ose těla od předního okraje rypce. Pouze výška těla byla stanovena prostřednictvím kolmice spuštěné od prvního paprsku hřbetní ploutve k břišnímu okraji těla.

Motivační příklad

Literatura Problematika je diskutována například v následují literatuře: Norman R. Draper, Harry Smith: Applied Regression Analysis,Wiley Series in Probability and Statistics, ISBN 1-58488-425-8 Julian J. Faraway: Linear Models with R, Chapman & Hall/CRC, Boca Raton, 2005, ISBN 1-58488-425-8 John Fox: An R and S-plus Companion to Applied Regression, Sage Publication, Thousand Oaks, 2002, ISBN 0-7619-2280-6

Děkuji za pozornost.