4EK211 Základy ekonometrie ZS 2014/15 Cvičení 6: Dummy proměnné, multikolinearita LENKA FIŘTOVÁ KATEDRA EKONOMETRIE, FAKULTA INFORMATIKY A STATISTIKY VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE
1. Pokračování z minula: umělé proměnné Otevřete si data z minula. Data: pizza.wf1 Zdroj: ECON2300, University of Queensland, 2012, upraveno Co budeme zkoumat: kolik utrácí lidi za pizzu v závislosti na různých faktorech CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 2
1. Pokračování z minula: umělé proměnné Proměnné: - pizza: roční útrata za pizzu v dolarech - zena: = 1 pro ženy, jinak 0 (umělá proměnná, dummy variable) - muz: = 1 pro muže, jinak 0 (umělá proměnná, dummy variable) - prijem roční příjem v dolarech - vek věk (v letech) - hranolky roční útrata za hranolky v dolarech - hamburgery roční útrata za hamburgery v dolarech - salaty roční útrata za saláty v dolarech CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 3
1. Pokračování z minula: umělé proměnné Minule jsme začali mluvit o umělých proměnných. Zkuste nyní odhadnout následující dva modely: 1 pizza = β 0 + β 1 prijem+ β 2 zena + u 2 pizza = β 0 + β 1 prijem+ β 2 (prijem zena) + u Interpretujte koeficienty a nakreslete v obou případech regresní přímku pro muže a pro ženy. Upravte si zase předem proměnnou příjem tak, že ji vydělíte 1000. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 4
1. Pokračování z minula: umělé proměnné 1 pizza = β 0 + β 1 prijem+ β 2 zena + u pizza = 226 + 1,41 prijem 182 zena Střední hodnota vysvětlované proměnné: Muž: E(pizza) = 226 + 1,41 prijem Žena: E pizza = 44 + 1,41 prijem CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 5
1. Pokračování z minula: umělé proměnné 2 pizza = β 0 + β 1 prijem+ β 2 (prijem zena) + u pizza = 106 + 3,57 prijem 3 prijem zena Střední hodnota vysvětlované proměnné: Muž: E(pizza) = 106 + 3,57 prijem Žena: E pizza = 106 + 0,57 prijem CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 6
1. Pokračování z minula: umělé proměnné 1. Kdybyste chtěli zkoumat útratu za pizzu v závislosti na tom, zda má člověk základní, střední či vyšší vzdělání, jaká data byste museli nasbírat a jak byste takový model specifikovali? 2. Napadá vás, jak by se mohly použít umělé proměnné při analýze časových řad? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 7
2. Multikolinearita Odhadněte následující modely a posuďte, zda jsou proměnné v modelu významné. pizza = β 0 + β 1 hranolky + u pizza = β 0 + β 1 hranolky + β 2 hamburgery + u pizza = β 0 + β 1 hranolky + β 2 hamburgery + β 3 salaty + u Může zde hrát roli multikolinearita? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 8
2. Multikolinearita jde o lineární závislost vysvětlujících proměnných je pak obtížné poznat, jak každá z vysvětlujících proměnných ovlivňuje vysvětlující proměnnou (poznáme, jak ji ovlivňují dohromady) příčiny: Tendence časových řad vyvíjet se stejným směrem Průřezová data Zpožděné hodnoty proměnných Nesprávný počet dummy proměnných - kdy jsme minule setkali? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 9
2. Multikolinearita netestujeme ji, nýbrž ji měříme v jednom konkrétním souboru důsledky: Odhady jsou nestranné i vydatné, ale Odhady nejsou stabilní, jsou citlivé i na malé změny v matici X Směrodatné chyby koeficientů jsou velké - proměnná se může jevit jako nevýznamná, i když to nemusí být pravda CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 10
2. Multikolinearita Měření - 2 proměnné: multikolinearita je v modelu únosná, pokud platí současně: r x1,x 2 0,9 r2 x1,x 2 R 2 Kde r x1,x 2 je párový korelační koeficient mezi dvěma vysvětlujícími proměnnými R 2 je koeficient determinace z modelu CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 11
2. Multikolinearita Měření - více než 2 proměnné: Tabulka párových korelačních koeficientů (Quick Group Statistics Correlations) Odhalí lineární závislost mezi dvojicemi proměnných. Nedokáže ale zachytit například závislost hamburgery = 2 hranolky - 0,5 hamburgery, pokud by tam taková třeba byla. V případě více proměnných používáme pomocné regrese. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 12
2. Multikolinearita Měření - více než 2 proměnné: Původní regrese: y = f(x 1,x 2,x 3 ) R 2 Pomocné regrese: x 1 = f(x 2,x 3 ) R 1 2 x 2 = f(x 1,x 3 ) R 2 2 x 3 = f(x 1,x 2 ) R 3 2 Jsou-li všechny dílčí koeficienty determinace z pomocných regresí menší než koeficient determinace z původní regrese, je multikolinearita v modelu únosná. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 13
2. Multikolinearita pizza = β 0 + β 1 hranolky + β 2 hamburgery + β 3 salaty + u R 2 = 0,16 hranolky = β 0 + β 1 hamburgery + β 2 salaty + u R 2 = 0,72 hamburgery = β 0 + β 1 hranolky + β 2 salaty + u R 2 = 0,73 salaty = β 0 + β 1 hranolky + β 2 hamburgery + u R 2 = 0,60 Multikolinearita není v modelu únosná. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 14
2. Multikolinearita řešení: Získat další pozorování Použít jiný model (jiná formulace, vypuštění proměnné), pozor na specifikační chybu Transformace pozorování (první diference, podíly) CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 15
2. Multikolinearita - příklad k procvičení Otevřete si soubor rice.wf1 Zdroj: ECON2300, University of Queensland, 2012. Proměnné: Prod: množství sklizené rýže (tuny) Area: osevná plocha (hektary) Labour: počet odpracovaných dní na poli Fert: množství hnojiva (kg) CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 16
2. Multikolinearita - příklad k procvičení Odhadněte sami model: ln prod = β 0 + β 1 ln area + β 2 ln labour + β 3 ln(fert) 1. Interpretujte parametry (nezapomeňte, že proměnné jsou zlogaritmované) 2. Ověřte přítomnost multikolinearity pomocí párových korelačních koeficientů a pomocných regresí. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESEPOMOC 17
3. Kvadratická regrese Otevřete si soubor test.wf1 Proměnné: Body: počet bodů ze závěrečné písemky (0 až 100 bodů) Čas: počet hodin věnovaný přípravě Přítomnost: počet přednášek, na kterých byl student přítomen (0 až 13) CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 18
3. Kvadratická regrese 1. Odhadněte regresi: body = β 0 + β 1 pritomnost + β 2 cas + u 2. Pomocí párového korelačního koeficientu zhodnoťte, zda jsou zde potíže s multikolinearitou. 3. Nakreslete graf závislosti počtu bodů na čase. Myslíte, že je funkční vztah mezi nimi lineární? Zakomponujte případnou nelinearitu do modelu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 19
3. Kvadratická regrese Graph cas body Scatter 110 Graf naznačuje, že od určitého okamžiku jsou dodatečné hodiny studia spíš na škodu a student nejspíš v důsledku únavy získá spíše méně bodů v testu, než kdyby se šel místo učení vypsat. (jde o čistě hypotetický příklad) Odhadneme tedy regresi: body = β 0 + β 1 pritomnost + β 2 cas + β 3 cas 2 + u Jaké znaménko byste čekali u β 3? BODY 100 90 80 70 60 50 40 30 0 4 8 12 16 20 24 28 32 CAS CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 20
3. Kvadratická regrese body = β 0 + β 1 pritomnost + β 2 cas + β 3 cas 2 + u body = 33,6 + 1,06 pritomnost + 3 cas 0,07 cas 2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu. CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 21
3. Kvadratická regrese body = β 0 + β 1 pritomnost + β 2 cas + β 3 cas 2 + u body = 33,6 + 1,06 pritomnost + 3 cas 0,07 cas 2 Otestuje nulovou hypotézu, že čas přípravy nemá vliv na počet bodů v testu. Sdružená nulová hypotéza: β 2 = β 3 = 0 děláme F-test F = (RSS 0 RSS N )/q RSS N /(n k 1) = (7940 4584)/2 4584/(50 3 1) = 16,8 porovnáme s F*(2,46) V EViews stačí: View Coefficient Tests Wald Coefficient Restrictions C(3) = C(4) = 0 CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 22
3. Kvadratická regrese CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 23
3. Kvadratická regrese body = β 0 + β 1 pritomnost + β 2 cas + β 3 cas 2 + u body = 33,6 + 1,06 pritomnost + 3 cas 0,07 cas 2 Jaký je podle modelu ideální počet hodin, které by student měl strávit přípravou? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 24
Na doma: Co byste měli umět 1. Co je to multikolinearita, co je její příčinou? 2. Jak se měří multikolinearita v daném výběru? 3. Co je důsledkem multikolinearity? 4. Jak zakomponovat nelineární vztahy do modelu? 5. Jak otestovat sdruženou hypotézu, že se více parametrů rovná nule? CVIČENÍ 5 VÍCENÁSOBNÁ REGRESE 25