4EK211 Základy ekonometrie ZS 2014/15 Cvičení 5: Vícenásobná regrese, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE
1. Jednoduchá regrese opakování Zdroj: ECON2300, University of Queensland, Australia, 2012. Data: domy.wf1 Zadání: Zkoumáme závislost ceny domu (v dolarech, proměnná cena) na jeho obytném prostoru (v m 2, proměnná rozloha). CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 2
1. Jednoduchá regrese opakování Vykreslete bodový graf závislosti ceny domů na obytném prostoru. 600,000 500,000 400,000 PRICE 300,000 200,000 100,000 0 0 100 200 300 400 500 M2 CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 3
1. Jednoduchá regrese opakování 1. Odhadněte regresi: cena = β 0 + β 1 rozloha + u 2. Interpretujte odhadnutý parametr β 1. 3. Jaký je koeficient determinace? 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? 5. Na 5% hladině významnosti otestujte nulovou hypotézu o nevýznamnosti β 1. CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 4
1. Jednoduchá regrese opakování 1. Odhadněte regresi: cena = 18385,65 + 876 rozloha 2. Interpretujte odhadnutý parametry β 1. S každým metrem čtverečním vzroste cena domu o 876 dolarů. 3. Jaký je koeficient determinace? 0,67 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? 156 814 dolarů 5. Na 5% hladině významnosti otestujte nulovou hypotézu o nevýznamnosti β 1. t = 876 20,65 = 42,4. Kritická hodnota: 1,96. Zamítáme nulovou hypotézu. CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 5
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(cena) = β 0 + β 1 rozloha + u 2. Interpretujte odhadnutý parametr β 1. 3. Jaký je koeficient determinace? 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 6
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(cena) =10,59+ 0,0064 rozloha Quick Estimate equation log(cena) c rozloha 2. Interpretujte odhadnutý parametr β 1. S každým metrem čtverečním vzroste cena domu o 0,64 %. 3. Jaký je koeficient determinace? 0,71 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? exp(11,87) = 142 914 dolarů CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 7
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln(cena) = β 0 + β 1 ln rozloha + u 2. Interpretujte odhadnutý parametr β 1. 3. Jaký je koeficient determinace? 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 8
1. Jednoduchá regrese opakování 1. Odhadněte regresi: ln( cena) = 6,56+ 1 ln(rozloha) Quick Estimate equation log(cena) c log(rozloha) 2. Interpretujte odhadnutý parametr β 1. S každým růstem rozlohy o 1 % vzroste cena domu o 1 %. 3. Jaký je koeficient determinace? 0,69 4. Jakou byste předpověděli cenu domu o rozloze 200 m 2? exp(11,86) = 141 492 dolarů CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 9
1. Jednoduchá regrese opakování Vysvětlovaná proměnná Vysvětlující proměnná Interpretace β 1 y x y = β 1 x y ln(x) y = (β 1 /100)% x ln(y) x % y = (100β 1 ) x ln(y) ln(x) % y = β 1 % x CVIČENÍ 3 LINEÁRNÍ REGRESNÍ MODEL 10
2. Vícenásobná regrese příklad 1 Data: sleep.wf1 Zdroj: Zouhar, http://nb.vse.cz/~zouharj/zek.html Původní zdroj: model vychází z článku Biddleho a Hamermeshe (1990) Co budeme zkoumat: Kompenzují lidé delší pracovní dobu zkrácením délky spánku? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 11
2. Vícenásobná regrese příklad 1 Proměnné: - totwrk: celková doba spánku za týden (v minutách) - sleep: celková doba práce za týden (v minutách) - educ: počet let vzdělání (v letech) - age: věk (v letech) Regresní přímka: sleep = β 0 + β 1 totwrk + β 2 educ + β 3 age + u CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 12
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = β 0 + β 1 totwrk + β 2 educ + β 3 age + u 1. Jaká znaménka byste očekávali u koeficientů β 1, β 2, β 3? 2. Může u b 1 vyjít jiné znaménko, než jste očekávali, i v případě, že je model správně specifikován a jsou splněny G-M předpoklady? 3. Odhadněte regresní přímku. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 13
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwrk 11,1 educ + 2,2 age Interpretujte odhadnuté koeficienty. Jak se změní doba spánku, začneme-li pracovat o 10 hodin týdně více? Kolik hodin spánku denně byste dle modelu předpověděli sobě? Jaký je koeficient vícenásobné determinace? Připomeňte, co vyjadřuje. Jaký je korigovaný koeficient vícenásobné determinace? Co to je? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 14
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwrk 11,1 educ + 2,2 age 1. Otestujte nulovou hypotézu, že β 2 = 0. Spočítejte 95 % interval spolehlivosti pro β 2 a učiňte na základě něj nějaký závěr ohledně testované hypotézy. 2. Otestujte nulovou hypotézu, že β 2 < 0. 3. Otestujte významnost modelu jako celku. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 15
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwrk 11,1 educ + 2,2 age 1. Otestujte nulovou hypotézu, že β 2 = 0. H 0 : β 2 = 0 H 1 : β 2 0 Testová statistika: 1,89 Kritická hodnota: 1,96 1,89 < 1,96 Nezamítáme nulovou hypotézu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 16
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwork 11,1 edu + 2,2 age 1. 95 % interval spolehlivosti pro β 2 < 11,1 5,88 1,96; 11,1 + 5,88 1,96 > < 22,6; 0,4 > Obsahuje nulu nezamítáme nulovou hypotézu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 17
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwork 11,1 edu + 2,2 age 2. Otestujte nulovou hypotézu, že β 2 < 0. H 0 : β 2 = 0 H 1 : β 2 < 0 Testová statistika: 1,89 Kritická hodnota: 1,64 1,89 > 1,64 Zamítáme nulovou hypotézu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 18
2. Vícenásobná regrese příklad 1-1,89-1,89 http://new.euromise.org/czech/tajne/ucebnice/html/html/node9.html CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 19
2. Vícenásobná regrese příklad 1 Regresní přímka: sleep = 3638 0,15 totwork 11,1 edu + 2,2 age 3. Otestujte významnost modelu jako celku. H 0 : β 1 = β 2 = β 3 = 0 H 1 : non H 0 F = R2 n k 1 0,1134 706 3 1 = = 29,9 1 R 2 k 1 0,1134 3 Porovnáváme s kritickou hodnotou z Fisherova rozdělení: F*(k, n - k - 1) EViews uvádí p-hodnotu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 20
2. Vícenásobná regrese příklad 1 CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 21
3. Vícenásobná regrese příklad 2 Data: pizza.wf1 Zdroj: ECON2300, University of Queensland, 2012, upraveno Co budeme zkoumat: kolik utrácí lidi za pizzu v závislosti na různých faktorech CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 22
3. Vícenásobná regrese příklad 2 Proměnné: - pizza: roční útrata za pizzu v dolarech - zena: = 1 pro ženy, jinak 0 (umělá proměnná, dummy variable) - muz: = 1 pro muže, jinak 0 (umělá proměnná, dummy variable) - prijem roční příjem v dolarech - vek věk (v letech) - hranolky roční útrata za hranolky v dolarech - hamburgery roční útrata za hamburgery v dolarech - salaty roční útrata za saláty v dolarech CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 23
3. Vícenásobná regrese příklad 2 Upravte proměnnou prijem tak, že ji vydělíte 1000. Odhadněte tři modely: (a) pizza = β 0 + β 1 prijem + u (b) pizza = β 0 + β 1 prijem+ β 2 vek + u (c) pizza = β 0 + β 1 prijem+ β 2 vek + β 3 vek prijem + u CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 24
3. Vícenásobná regrese příklad 2 Odhadněte tři modely a vždy řekněte, které proměnné jsou v modelu významné. Interpretujte parametry. (a) (b) (c) pizza = 129 + 1,46 prijem pizza = 343 + 2,38 prijem 7,58 vek pizza = 162 + 9,07 prijem 2,98 vek 0,16 vek prijem Jak se ve třetím případě změní útrata za pizzu s 1 rokem věku navíc? Jak se změní s růstem ročního příjmu o 1 tisíc dolarů? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 25
3. Vícenásobná regrese příklad 2 (c) pizza = 162 + 9,07 prijem 2,98 vek 0,16 vek prijem pizza prijem = β 1 + β 3 vek pizza vek = β 2 + β 3 prijem S rostoucím věkem útrata za pizzu klesá, a to tím více, čím vyšší má daná osoba příjem. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 26
4. Multikolinearita Budeme zkoumat vliv pohlaví na útratu za pizzu. Odhadněte model: pizza = β 0 + β 1 prijem+ β 2 vek + β 3 zena + β 4 muz + u V čem je problém? Který G-M předpoklad je porušen? Jakou úpravu modelu byste navrhli? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 27
4. Multikolinearita Odhadněte následující modely a posuďte, zda jsou proměnné v modelu významné. pizza = β 0 + β 1 hranolky + u pizza = β 0 + β 1 hranolky + β 2 hamburgery + u pizza = β 0 + β 1 hranolky + β 2 hamburgery + β 3 salaty + u Může zde hrát roli multikolinearita? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 28
4. Multikolinearita jde o lineární závislost vysvětlujících proměnných je pak obtížné poznat, jak každá z vysvětlujících proměnných ovlivňuje vysvětlující proměnnou (poznáme, jak ji ovlivňují dohromady) příčiny: Tendence časových řad vyvíjet se stejným směrem Průřezová data Zpožděné hodnoty proměnných Nesprávný počet dummy proměnných - kdy jsme se s tím dnes setkali? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 29
4. Multikolinearita netestujeme ji, nýbrž ji měříme v jednom konkrétním souboru důsledky: Odhady jsou nestranné i vydatné, ale Odhady nejsou stabilní, jsou citlivé i na malé změny v matici X Směrodatné chyby koeficientů jsou velké - proměnná se může jevit jako nevýznamná, i když to nemusí být pravda CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 30
4. Multikolinearita Měření - 2 proměnné: multikolinearita je v modelu únosná, pokud platí současně: r x1,x 2 0,9 r2 x1,x 2 R 2 Kde r x1,x 2 je párový korelační koeficient mezi dvěma vysvětlujícími proměnnými R 2 je koeficient determinace z modelu CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 31
2. Multikolinearita Měření - více než 2 proměnné: Tabulka párových korelačních koeficientů (Quick Group Statistics Correlations) Odhalí lineární závislost mezi dvojicemi proměnných. Nedokáže ale zachytit například závislost hamburgery = 2 hranolky - 0,5 hamburgery, pokud by tam taková třeba byla. V případě více proměnných používáme pomocné regrese. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 32
4. Multikolinearita Měření - více než 2 proměnné: Původní regrese: y = f(x 1,x 2,x 3 ) R 2 Pomocné regrese: x 1 = f(x 2,x 3 ) R 1 2 x 2 = f(x 1,x 3 ) R 2 2 x 3 = f(x 1,x 2 ) R 3 2 Jsou-li všechny dílčí koeficienty determinace z pomocných regresí menší než koeficient determinace z původní regrese, je multikolinearita v modelu únosná. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 33
4. Multikolinearita pizza = β 0 + β 1 hranolky + β 2 hamburgery + β 3 salaty + u R 2 = 0,16 hranolky = β 0 + β 1 hamburgery + β 2 salaty + u R 2 = 0,72 hamburgery = β 0 + β 1 hranolky + β 2 salaty + u R 2 = 0,73 salaty = β 0 + β 1 hranolky + β 2 hamburgery + u R 2 = 0,60 Multikolinearita není v modelu únosná. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 34
4. Multikolinearita řešení: Získat další pozorování Použít jiný model (jiná formulace, vypuštění proměnné), pozor na specifikační chybu Transformace pozorování (první diference, podíly) CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 35
Na doma: Co byste měli umět 1. Jak se interpretují odhadnuté koeficienty, jsou-li proměnné zlogaritmované? 2. Co je to koeficient determinace a korigovaný koeficient determinace? 3. Jak otestujeme významnost modelu jako celku? 4. Co je to multikolinearita, co je její příčinou? 5. Jak se měří multikolinearita v daném výběru? 6. Co je důsledkem multikolinearity? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 36