Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Podobné dokumenty
Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Bodové a intervalové odhady parametrů v regresním modelu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

PRAVDĚPODOBNOST A STATISTIKA

odpovídá jedna a jen jedna hodnota jiných

7. Analýza rozptylu.

Časové řady, typy trendových funkcí a odhady trendů

AVDAT Nelineární regresní model

Soustavy lineárních rovnic

Časové řady, typy trendových funkcí a odhady trendů

Regresní a korelační analýza

Statistika II. Jiří Neubauer

Regresní analýza 1. Regresní analýza

Základy teorie odhadu parametrů bodový odhad

Ekonometrie. Jiří Neubauer

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

AVDAT Klasický lineární model, metoda nejmenších

Aplikovaná matematika I

Kontingenční tabulky, korelační koeficienty

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Odhady Parametrů Lineární Regrese

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Statistika II. Jiří Neubauer

4. Aplikace matematiky v ekonomii

Kontingenční tabulky, korelační koeficienty

Odhad parametrů N(µ, σ 2 )

AVDAT Geometrie metody nejmenších čtverců

1 Řešení soustav lineárních rovnic

Měření závislosti statistických dat

Interpolace, aproximace

10. Předpovídání - aplikace regresní úlohy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Interpolace pomocí splajnu

Aplikovaná numerická matematika

0.1 Úvod do lineární algebry

Statistika (KMI/PSTAT)

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Odhad parametrů N(µ, σ 2 )

Výběrové charakteristiky a jejich rozdělení

You created this PDF from an application that is not licensed to print to novapdf printer (

4EK211 Základy ekonometrie

Regresní a korelační analýza

Kapitola 4: Extrémy funkcí dvou proměnných 1/5

Vlastní (charakteristická) čísla a vlastní (charakteristické) Pro zadanou čtvercovou matici A budeme řešit maticovou

4EK211 Základy ekonometrie

Regresní a korelační analýza

Úvod do analýzy časových řad

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

1 Determinanty a inverzní matice

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

LINEÁRNÍ REGRESE. Lineární regresní model

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

9 Kolmost vektorových podprostorů

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Korelační a regresní analýza

0.1 Úvod do lineární algebry

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

(Cramerovo pravidlo, determinanty, inverzní matice)

Determinanty. Determinanty. Přednáška MATEMATIKA č. 3. Jiří Neubauer

1 Soustavy lineárních rovnic

Statistická analýza jednorozměrných dat

Soustavy lineárních rovnic

Inovace bakalářského studijního oboru Aplikovaná chemie

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

LINEÁRNÍ MODELY. Zdeňka Veselá

Soustavy. Terminologie. Dva pohledy na soustavu lin. rovnic. Definice: Necht A = (a i,j ) R m,n je matice, b R m,1 je jednosloupcová.

Pojem endogenity a exogenity

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Matematika pro chemické inženýry

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Tomáš Karel LS 2012/2013

EUKLIDOVSKÉ PROSTORY

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Mnohorozměrná statistická data

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Regresní a korelační analýza

Úlohy nejmenších čtverců

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Řešíme tedy soustavu dvou rovnic o dvou neznámých. 2a + b = 3, 6a + b = 27,

Soustavy linea rnı ch rovnic

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VI. Maticový počet. VI.1. Základní operace s maticemi. Definice. Tabulku

Regresní analýza. Eva Jarošová

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Základy lineární regrese

Statistická analýza jednorozměrných dat

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Transkript:

Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23

Regresní analýza Cíl regresní analýzy: stanovení formy (trendu, tvaru, průběhu) této závislosti pomocí vhodné funkce vystihnout pomocí regresní funkce průběh (trend) závislosti mezi X a Y na základě znalosti dvojic empirických hodnot [x i, y i], kde i = 1, 2,..., n. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 2 / 23

Regresní přímka Regresní přímka Princip regresní analýzy nejdříve vysvětlíme na jednoduchém modelu dvou náhodných veličin X a Y, kde Y bude vysvětlovaná proměnná a X bude vysvětlující proměnná (regresor). Budeme předpokládat, že mezi vysvětlovanou proměnnou Y a vysvětlující proměnnou X platí přibližně lineární vztah. Měření nebo pozorování veličiny Y může být zatíženo náhodnou chybou e. Y = β 1 + β 2X + e, kde β 1, β 2 jsou neznámé parametry (neznámé reálné konstanty), Y a e jsou náhodné veličiny a X je daná reálná proměnná. Dále předpokládáme, že při hodnotách x 1, x 2,..., x n proměnné X pozorujeme hodnoty y 1,..., y n proměnné Y zatížené chybami e 1,..., e n. Pozorování vyhovují modelu y i = β 1 + β 2x i + e i, i = 1,..., n. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 3 / 23

Regresní přímka Regresní přímka O chybách e 1,..., e n předpokládáme, že jsou to nezávislé náhodné veličiny, že jsou nesystematické, tj. střední hodnota E(e i) = 0, a homogenní, tj. že mají stejný rozptyl D(e i) = σ 2, i = 1,..., n. Cílem je najít odhad parametrů β 1, β 2 a σ 2. Použijeme k tomu metodu nejmenších čtverců. Označíme S 2 (β 1, β 2) = ei 2 = (y i (β 1 + β 2x i)) 2 součet čtverců náhodných chyb e i a odhady β 1, β 2 parametrů β 1, β 2 stanovíme tak, aby součet čtverců chyb S 2 (β 1, β 2) nabyl minimální možné hodnoty. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 4 / 23

Regresní přímka Regresní přímka Z matematiky je známo, že nutnou podmínkou pro existenci extrému funkce dvou a více proměnných je nulovost prvních parciálních derivací, tj. v našem případě S 2 (β 1, β 2) β 1 = S 2 (β 1, β 2) β 2 = 0, podmínku postačující pro minimum nemusíme vyšetřovat, neboť funkce S(β 1, β 2) je ryze konvexní. Dostáváme tedy S 2 (β 1, β 2) β 1 = 2 S 2 (β 1, β 2) β 2 = 2 (y i β 1 β 2x i)( 1) = 0, (y i β 1 β 2x i)( x i) = 0. odkud získáme tzv. soustavu normálních rovnic β 1n + β 2 x i = β 1 x i + β 2 x 2 i = y i, x iy i. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 5 / 23

Regresní přímka Regresní přímka Obrázek: Lineární regresní model přímka Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 6 / 23

Regresní přímka Regresní přímka Vyřešíme-li tuto soustavu (např. Cramerovým pravidlem), obdržíme odhady parametrů n n β 1 = yi x i 2 n n xi xiyi n n x i 2 ( n ) 2, β2 = n n xiyi n n xi yi xi n n x i 2 ( n ) 2. xi Tyto odhady lze také vyjádřit ve tvaru β 1 = y β 2x = y sxy s 2 x x, β2 = sxy, sx 2 kde x = 1 n n xi a y = 1 n n yi jsou výběrové průměry, s2 x = 1 n n 1 (xi x)2 je výběrový rozptyl a s xy = 1 n n 1 (xi x)(yi y) je výběrová kovariance. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 7 / 23

Regresní přímka Regresní přímka Přímku o rovnici y = β 1 + β 2x nazýváme regresní přímkou, β 1, β 2 jsou tzv. regresní parametry (koeficienty) a přímku o rovnici ŷ = β 1 + β 2x nazýváme regresní přímkou s odhadnutými parametry β 1 a β 2. Hodnota ŷ i = β 1 + β 2x i je predikovaná hodnota y v bodě x i a veličiny ê i = y i ŷ i = y i β 1 β 2x i nazýváme rezidua. Dále platí, že minimální hodnota součtu čtverců S 2 (β 1, β 2) je rovna S e = S 2 ( β1, β 2 ) = êi 2 = (y i ŷ i) 2 = y 2 i β 1 y i β 2 x iy i. S e nazýváme reziduální součet čtverců. Je možné ukázat, že veličina se 2 = 1 Se je n 2 nevychýleným odhadem rozptylu σ 2, a tedy platí E(se 2 ) = σ 2. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 8 / 23

Regresní přímka Regresní přímka příklad Následující tabulka udává informaci o teplotě (ve stupních Celsia) v jednom městě a množství zmrzliny (v kilogramech) prodaných v osmi náhodně vybraných cukrárnách. teplota 34 30 25 32 37 39 31 26 zmrzlina 94 79 56 90 105 126 72 53 Vysvětlovanou proměnnou je v tomto případě množství zmrzliny, vysvětlující proměnnou potom teplota ve městě. Metodou nejmenších čtverců odhadneme parametry regresní přímky ŷ = 71,769 + 4,918x. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 9 / 23

Regresní přímka Regresní přímka příklad Obrázek: Regresní přímka závislost množství prodané zmrzliny na teplotě Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 10 / 23

Lineární regresní model Zobecníme předchozí výsledky a budeme předpokládat, že je potřeba modelovat nějakou sledovanou (hůře dostupnou či nesnadno měřitelnou) náhodnou veličinu Y (tzv. vysvětlovaná veličina nebo odezva) pomocí jiných snáze dostupných veličin X 1, X 2,..., X k (nazývaných vysvětlující proměnné nebo regresory). Vyjdeme ze situace, kdy příslušná statistická data obsahují n nezávislých pozorování vysvětlované proměnné Y a odpovídajících n pozorování každého z regresorů X 1, X 2,..., X k. Budeme předpokládat, že i-té pozorování vysvětlované proměnné Y lze modelovat rovnicí: y i = β 1x i1 + β 2x i2 + + β k x ik + e i, (1) kde 1. y i je i-té pozorování Y, i = 1,..., n, 2. x ij je i-té pozorování regresoru X j, i = 1,..., n, j = 1,..., k, 3. β j, j = 1,..., k, jsou neznámé parametry, 4. e i, i = 1,..., n, jsou neznámé náhodné chyby, které vznikají při pozorování vysvětlované proměnné Y a které nemůžeme přímo pozorovat ani měřit. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 11 / 23

Lineární regresní model Přitom dále předpokládáme, že x ij jsou pevně dané známé reálné hodnoty a veličiny Y i a e i jsou náhodného charakteru (náhodné veličiny). Na jejich pravděpodobnostní rozdělení klademe následující předpoklady: (P1) Střední hodnota E(e i) = 0, i = 1,..., n, tj. náhodné chyby jsou nesystematické. (P2) Rozptyl D(e i) = σ 2, i = 1,..., n, tj. náhodné chyby jsou homogenní se stejným neznámým rozptylem σ 2. (P3) Náhodné chyby e i jsou nezávislé. Model daný rovnicí (1) spolu s předpoklady (P1), (P2), (P3) se nazývá lineární regresní model (LRM). Často se v lineárním regresním modelu předpokládá, že první regresor je konstanta, potom pozorované hodnoty x i1 = 1, i = 1,..., n a model má tvar y i = β 1 + β 2x i2 + + β k x ik + e i. Funkci, která popisuje závislost vysvětlované proměnné Y na regresorech X 1, X 2,..., X k pak nazýváme regresní funkcí. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 12 / 23

Lineární regresní model Odhad parametrů v lineárním regresním modelu (1) provedeme opět metodou nejmenších čtverců. Model nejdříve zapíšeme v maticovém tvaru. Označme: y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2, β =.. x y n e n1 x nk n β k Pak model (1) lze vyjádřit jednoduchým zápisem Y = Xβ + e. Odhad neznámých parametrů pak stanovíme řešením soustavy lineárních rovnic X Xβ = X Y tzv. normální rovnice. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 13 / 23

Lineární regresní model Jejich řešení snadno nalezneme za předpokladu, že matice X X je regulární a tedy existuje inverzní matice (X X) 1. Za tohoto předpokladu říkáme, že model je plné hodnosti. V modelu plné hodnosti lze řešení normálních rovnic zapsat ve tvaru β = ( X X ) 1 X Y. Pro reziduální součet čtverců zapsaný v maticovém tvaru pak dostaneme vyjádření S e = (Y X β) (Y X β) = Y Y β X Y. Dále budeme pracovat jenom s modely plné hodnosti. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 14 / 23

Lineární regresní model regresní parabola Uvedeme nyní dva příklady lineárních regresních modelů: regresní paraboly a modelu se dvěma lineárními regresory. Nejprve budeme uvažovat model, kdy vysvětlovaná proměnná Y je kvadratickou funkcí vysvětlující proměnné X, tvaru: y i = β 1 + β 2x i + β 3x 2 i + e i, i = 1,..., n. Zřejmě jde o speciální případ LRM (lineárního vzhledem k neznámým parametrům β 1, β 2, β 3). V maticovém zápisu tohoto modelu je: 1 x 1 x 2 1 1 x 2 x2 2 n n n X =..., xi x i 2 X X = n n xi x 2 n i x i 3 n 1 x n xn 2 x i 2 n x i 3, n x i 4 n X yi Y = n xiy i. n x i 2 y i Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 15 / 23

Regresní parabola Lineární regresní model regresní parabola Za předpokladu, že model je plné hodnosti, lze odhad β vektoru β získat řešením rovnic X Xβ = X Y ve tvaru β = (X X) 1 X Y. Potom lze reziduální součet čtverců S e vyjádřit ve tvaru S e = y i β 1 y i β 2 a odhad rozptylu σ 2 je s 2 e = S e/(n 3). x iy i β 3 x 2 i y i Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 16 / 23

Regresní parabola Lineární regresní model regresní parabola Příklad. U automobilu Trabant se měřila spotřeba paliva v litrech na 100 km (Y ) v závislosti na jeho rychlosti (X ). Rychlost 40 50 60 70 80 90 100 Spotřeba 6,1 5,8 6,0 6,5 6,8 8,1 10,0 Odhadnutá parabolická regresní funkce má tvar ŷ = 11,39386 0,20726x + 0,001917x 2. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 17 / 23

Regresní parabola Lineární regresní model regresní parabola Obrázek: Regresní parabola závislost spotřeby paliva na rychlosti Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 18 / 23

Regresní parabola Lineární regresní model dva lineární regresory Předpokládejme, že vysvětlovaná proměnná Y může záviset na dvou regresorech X a Z (používáme označení X místo X 1 a Z místo X 2, které je v aplikacích tohoto typu časté). K dispozici je n nezávislých pozorování veličiny Y při daných n hodnotách veličin X a Z. Vyjdeme z modelu y i = β 1 + β 2x i + β 3z i + e i, i = 1,..., n, který je speciálním případem obecného lineárního regresního modelu Y = Xβ + e. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 19 / 23

Dva lineární regresory Lineární regresní model dva lineární regresory Matice v modelu mají tvar 1 x 1 z 1 1 x 2 z 2 n n n X =..., xi zi X X = n n xi x 2 n i xizi n n, n 1 x n z zi xizi z i 2 n n X yi Y = n xiy i. n ziyi Pak užitím metody nejmenších čtverců dostaneme odhad β = (X X) 1 X Y. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 20 / 23

Dva lineární regresory Lineární regresní model dva lineární regresory Příklad. Výrobce nealkoholických nápojů má zájem analyzovat potřebný čas k servisu (doplnění lahví případně malý servis zařízení) automatů na výdej lahví s těmito nápoji. Celkovou dobu doplnění lahví je třeba predikovat pomocí dvou dostupných proměnných: počet lahví, které je třeba doplnit do automatu, a vzdálenost, kterou musí údržbář ujít. Vysvětlovanou proměnnou je v tomto případě celkový čas, vysvětlující proměnné jsou počet doplněných lahví a vzdálenost. čas 16,68 11,5 12,03 14,88 13,75 18,11 8 17,83 79,24 21,5 počet lahví 7 3 3 4 6 7 2 7 30 5 vzdálenost 560 220 340 80 150 330 110 210 1460 605 čas 40,33 21 13,5 19,75 24 29 15,35 19 9,5 35,1 počet lahví 16 10 4 6 9 10 6 7 3 17 vzdálenost 688 215 255 462 448 776 200 132 36 770 čas 17,9 52,32 18,75 19,83 10,75 počet lahví 10 26 9 8 4 vzdálenost 140 810 450 635 150 Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 21 / 23

Dva lineární regresory Lineární regresní model dva lineární regresory Metodou nejmenších čtverců získáme odhad regresní funkce ŷ = 2, 341 + 1,616x + 0,014z. Obrázek: Regrese se dvěma lineárními regresory závislost času potřebného na servis na počtu případů doplňování automatu a vzdálenosti, kterou musí údržbář ujít Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 22 / 23

Dva lineární regresory Volba regresní funkce Některé typy lineárních regresních funkcí: přímková regrese Y = β 1 + β 2X, hyperbolická regrese Y = β 1 + β 2 X, logaritmická regrese Y = β 1 + β 2 ln X, parabolická regrese Y = β 1 + β 2X + β 3X 2 polynomická regrese Y = β 1 + β 2X + + β px p Některé typy nelineárních regresních funkcí: exponenciální regrese Y = β 1β X 2, mocninná regrese Y = β 1X β 2. Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 23 / 23