4EK216 Ekonometrie Příklady ke cvičením Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, zouharj@vse.cz 30. října 2015 Cvičení 1: Opakování základní práce s lineárním regresním modelem Příklad 1.1. (Ojeté škodovky.) Pro tento příklad použijte data ze souboru skoda.csv. Data pocházejí z ledna 2004 a týkají se 328 ojetých vozů značky Škoda; konkrétně jde o modely Octavia, Felicia a Superb. a ) Odhadněte lineární regresní model, který vysvětluje cenu vozidla pomocí všech dostupných regresorů. Proč byly z modelu vyřazeny některé proměnné? Vysvětlete. b ) Odhadněte model znovu, tentokrát vynechejte vysvětlující proměnné rok, felicia a benzin. Interpretujte koeficienty a porovnejte je s předchozími výsledky. c ) Otestujte přítomnost heteroskedasticity pomocí Whiteova a Breuschova-Paganova testu. Potvrdí-li se výskyt heteroskedasticity, odhadněte model znovu za použití robustních směrodatných chyb. d ) Na základě odhadnutého modelu určete, zdali má typ paliva statisticky významný vliv na cenu vozidla. e ) Určete, jakou prodejní cenu byste očekávali (v lednu 2004) pro škodu Felicii, která má najeto 100 000 km, motor 1.9D a je vyrobena v roce 1998. Příklad 1.2. (Práce s logaritmy.) V tomto příkladě pracujte se shodnými daty, jako v příkladu 1.1. a ) Odhadněte lineární regresní model, který vysvětluje logaritmus ceny vozidla pomocí všech dostupných regresorů. b ) Na základě odhadnutého modelu určete co nejpřesněji, kolik procent ceny ztratí vozidlo, které bude tři roky stát na místě (tj. zestárne o tři roky při nezměněných hodnotách ostatních regresorů). c ) Na základě odhadnutého modelu určete, zdali má typ paliva statisticky významný vliv na cenu vozidla. d ) Určete, jakou prodejní cenu byste očekávali (v lednu 2004) pro škodu Felicii, která má najeto 100 000 km, motor 1.9D a je vyrobena v roce 1998. Pozor na predikci ceny vozu na základě modelu, který vysvětluje logaritmus ceny.
4EK216 Ekonometrie: Příklady ke cvičením 2 Příklad 1.3. (Lineární restrikce koeficientů.) Uvažujte model, který vysvětluje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper) a době strávené u aktuálního zaměstnavatele (v letech, tenure), ve tvaru log.wage/ D ˇ0 C ˇ1educ C ˇ2exper C ˇ3tenure C u: a ) Formulujte nulovou hypotézu, že dodatečný rok všeobecných pracovních zkušeností má stejný dopad na mzdu jako další rok strávený u stávajícího zaměstnavatele. b ) Odhadněte zadaný model pomocí dat ze souboru wage.csv. Testujte hypotézu z předchozího bodu proti oboustranné alternativě na hladině významnosti 5 %. Příklad 1.4. (Práce se čtverci.) Použijte data ze souboru wage2.csv k odhadu modelu, který popisuje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper) a rodinném stavu (married je nula-jednotkový indikátor ženatých/vdaných respondentů): log.wage/ D ˇ0 C ˇ1age C ˇ2age 2 C ˇ3educ C ˇ4exper C ˇ5married C u: Smysl kvadratického členu spočívá samozřejmě v tom, aby umožnil běžný průběh životního cyklu z hlediska mezd: v mládí mzdy zpravidla nejprve rostou, k stáru ovšem postupně začnou klesat závislost mezd na věku má tedy podobu obrácené u-křivky. a ) Po odhadu modelu otestujte přítomnost heteroskedasticity, pokud se potvrdí, pracujte dále s robustními směrodatnými chybami. b ) Na základě odhadnutého modelu testujte, zdali má věk respondenta vliv na jeho mzdu; formálně popište nulovou hypotézu, testujte na 5% hladině významnosti. c ) Poukazují odhadnuté koeficienty na výše zmíněnou obrácenou u-křivku? d ) Určete bodový odhad bodu zlomu, tj. počtu let, při kterém se začíná s věkem snižovat mzda. e ) Jaký je očekávaný přírůstek mzdy mezi 30. a 31. rokem života (při jinak stejných charakteristikách respondenta)? f ) Testujte, zdali je v odhadnutém modelu nezbytná kvadratická závislost mezi logaritmem mezd a věkem, či zda by stejně dobře posloužila závislost lineární. g ) Z rovnice vynechejte druhou mocninu proměnné age a znovu odhadněte; poté ověřte vhodnost výsledného funkčního tvaru pomocí Ramseyova RESET testu. Příklad 1.5. (Práce s interakcemi.) V tomto příkladu pracujte se stejným datovým souborem jako v příkladu 1.3, tj. se souborem wage.csv. a ) Ověřte pomocí dostupných hypotézu, že osoby žijící ve svazku manželském vydělávají více než jejich svobodné protějšky s jinak srovnatelnými charakteristikami. Navrhněte vhodný funkční tvar modelu, za kontrolní proměnné volte vzdělání, pracovní zkušenosti, indikátor bydliště v urbánních oblastech a pohlaví. Zapište formálně nulovou a alternativní statistickou hypotézu, testujte na hladině významnosti 5 %.
4EK216 Ekonometrie: Příklady ke cvičením 3 b ) Lze předpokládat, že vliv manželství na mzdu se pro muže a pro ženy liší. V dnes již spíše historickém rodinném modelu, který se ovšem může v našich datech z USA z roku 1976 stále projevit, ležela hlavní zodpovědnost za obstarání finančních prostředků na manželovi přírůstek mzdy v důsledku manželství lze tedy očekávat vyšší pro muže než pro ženy. Je-li to třeba, upravte funkční tvar závislosti z bodu a tak, aby model umožnil rozlišit vliv manželství na muže a na ženy. Jaký je odhadovaný dopad manželství na mzdu mužů podle tohoto modelu? A na mzdu žen? Je mezi těmito dvěma efekty statisticky významný rozdíl? Proved te formální statistický test na 5% hladině významnosti, volte jednostrannou alternativu, která souhlasí s popsaným rodinným modelem. c ) Je podle posledního modelu efekt manželství na mzdu ženy statisticky významný? Příklad 1.6. (Lineární pravděpodobnostní model.) K tomuto příkladu, převzatému z (Wooldridge, 2009:298), použijte data ze souboru 401ksubs.csv. Termínem 401(k) se v USA označuje forma důchodového spoření, na které přispívá zaměstnanci zaměstnavatel. Proměnná e401k je nula-jednotkovým indikátorem toho, zda je respondent způsobilý vstoupit do programu 401(k). a ) Pomocí OLS odhadněte lineární pravděpodobnostní model pro proměnnou e401k, za vysvětlující proměnné volte inc, inc 2, age, age 2, a male. Vypočtěte jak běžné směrodatné chyby, tak i verzi robustní vůči heteroskedasticitě. Vyskytly se mezi oběma verzemi nějaké zásadní rozdíly? b ) Máte v úmyslu použít speciální podobu Whiteova testu na heteroskedasticitu, kde se v pomocné regresi vysvětlují čtverce reziduí, Ou 2, pomocí první a druhé mocniny vyrovnaných hodnot závisle proměnné, Oy a Oy 2. Ukažte, že s rostoucím počtem pozorování by koeficient u Oy konvergoval podle pravděpodobnosti k 1, koeficientu u Oy 2 k 1 a intercept k 0. Návod: Pomněte, že v lineárním pravděpodobnostním modelu je var.y j x/ D p.x/œ1 p.x/, kde p.x/ D x. c ) Odhadněte zmiňovanou podobu Whiteova testu a porovnejte získané koeficienty s teoretickými závěry z bodu b. d ) Ověřte, že všechny vyrovnané hodnoty v modelu odhadnutém v a jsou mezi nulou a jednotkou. Následně odhadněte lineární pravděpodobnostní model znovu, tentokrát metodou vážených nejmenších čtverců (WLS). Porovnejte nové odhady s původními odhady získanými OLS. Cvičení 2: Teoretické rozcvičky opakování základní ekonometrické teorie Příklad 2.1. (Různé pojetí odchylek.) Je dána regresní přímka y D xc1 a jedno pozorování hodnot x a y, které představuje bod.x 0 ; y 0 / D.1; 1/. Vypočtěte, jaká je : : : a ) : : : absolutní odchylka bodu.x 0 ; y 0 / od regresní přímky.
4EK216 Ekonometrie: Příklady ke cvičením 4 b ) : : : čtvercová odchylka bodu.x 0 ; y 0 / od regresní přímky. c ) : : : ortogonální odchylka bodu.x 0 ; y 0 / od regresní přímky. Příklad 2.2. (Odhadová funkce metody nejmenších čtverců maticový zápis.) Máme k dispozici 8 pozorování proměnných y; x 1 a x 2, které obecně označíme následujícím způsobem: hodnoty y W y 1 ; y 2 ; : : : ; y 8 ; hodnoty x 1 W x 11 ; x 21 ; : : : ; x 81 ; hodnoty x 2 W x 12 ; x 12 ; : : : ; x 82 ; tj. pro i-té pozorování máme hodnoty y i ; x i1 ; x i2. Takto vyjádřenými pozorováními budeme prokládat regresní rovinu v obecném vyjádření y D yˇ0 C yˇ1x 1 C yˇ2x 2 : a ) Najděte předpis pro funkci SS. yˇ0; yˇ1; yˇ2/, která vyjadřuje celkový součet čtverců při daných hodnotách parametrů yˇ0; yˇ1 a yˇ2 (název funkce pochází z anglického sum of squares). Pokuste se o co nejúspornější vyjádření. b ) Vyjádřete opět funkci popisující celkový součet čtverců, tentokrát ovšem za použití maticového zápisu. Využijte následujících vektorů a matic: 2 3 2 3 y 1 1 x 11 x 12 2 3 6y 2 7 61 x 21 x 22 yˇ0 7 6 7 y D 6 4 : y 8 7 5 ; X D 6 7 4: : : 5 ; y D 4 yˇ1 5 : yˇ2 1 x 81 x 82 c ) Najděte obecné vyjádření pro takové hodnoty parametrů yˇ0; yˇ1 a yˇ2, které minimalizují celkový součet čtverců. Návod: Najděte minimum funkce SS z bodu a) vynulováním parciálních derivací @SS ; @SS a @SS, poté získané vztahy přepište maticově @ yˇ0 @ yˇ1 @ yˇ2 pomocí y; X a y. d ) Obecnému maticovému vyjádření vektoru y z bodu c) se říká odhadová funkce metody nejmenších čtverců. Použijte tuto funkci při výpočtu regresní roviny pro následující hodnoty sledovaných proměnných: i 1 2 3 4 5 6 7 8 y i 7 3 14 18 13 35 31 46 x i1 1 3 5 7 9 11 13 15 x i2 5 8 3 6 10 4 7 5 e ) Porovnejte výsledky z předchozího bodu s odhady parametrů pořízenými funkcí lm v R.
4EK216 Ekonometrie: Příklady ke cvičením 5 Příklad 2.3. (Statistické vlastnosti odhadové funkce OLS.) Uvažujte obecný lineární regresní model neboli y i D ˇ0 C ˇ1x i1 C ˇ2x i2 C : : : C ˇk x ik C u i ; i D 1; 2; : : : ; n; y D X C u; pro který platí E.u j X/ D 0 a var.u j X/ D 2 I. Označme symbolem y odhad vektoru parametrů pořízený OLS, tedy y D.XX/ 1 Xy. a ) Uvědomte si, že zatímco y je náhodný vektor, E.y / je konstantní. Vyjádřete hodnotu E.y /. b ) Vyjádřete var.y j X/. Příklad 2.4. (Střední hodnota a varianční matice odhadů pořízených OLS.) Je dán lineární regresní model y D ˇ0 C ˇ1x C u; přičemž víme, že ˇ0 D 4; ˇ1 D 8, náhodná složka u je v populaci nezávislá na x a má nulovou střední hodnotou a rozptyl 20. Z náhodného výběru o rozsahu n D 5 máme k dispozici následující hodnoty: x D Œx 1 x 2 x 3 x 4 x 5 D Œ1 0 3 2 1 : Označme odhady parametrů ˇ0 a ˇ1 pořízené OLS jako yˇ0 a yˇ1. a ) Určete E. yˇ0/, E. yˇ1/. b ) Vypočtěte var. yˇ0 j x D x 0 /, var. yˇ1 j x D x 0 /, kde x je vektor pozorování proměnné x v náhodném výběru o rozsahu n D 5, tj. x D Œx 1 x 2 x 3 x 4 x 5 ; a x 0 je vektor konkrétních pozorovaných hodnot x 0 D Œ1 0 3 2 1 : Příklad 2.5. (Varianční matice odhadů, t-test.) Odhadem parametru D Œˇ0 ˇ1 lineárního regresního modelu y D X Cu pomocí OLS jsme získali vektor y D Œ5 10. Výsledný vektor reziduí je yu D Œ1 3 0 1 3 a známe dále matici X > X D 5 3 a ) Odhadněte varianční matici var.y /. 3 4 : 4 12
4EK216 Ekonometrie: Příklady ke cvičením 6 b ) Na hladině významnosti 5% testujte statistickou významnost obou koeficientů zkoumaného modelu, tj. např. pro ˇ1 proved te test s hypotézami H 0 W ˇ1 D 0; H 1 W ˇ1 0: Příklad 2.6. (Střední hodnota exponenciály od náhodné složky.) Při predikci v lineárním regresním modelu, v němž se vysvětluje logaritmus závisle proměnné (log y), se při predikcích hodí následující tvrzení: má-li náhodná složka u rozdělení N.0; 2 /, potom E.e u / D e 2 =2. a ) Dokažte uvedené tvrzení. Návod: Stačí vyjít ze standardního výpočtu střední hodnoty pro libovolnou (měřitelnou) reálnou funkci g./ máme EŒg.u/ D R R g.u/f.u/ du, kde f./ je hustota pravděpodobnosti veličiny u. b ) Pokud rozdělení u není normální, uvedené tvrzení samozřejmě obecně neplatí; lze ale ukázat, že má-li u rozdělení s nulovou střední hodnotou a nenulovým rozptylem, platí E.e u / > 1. Zdůvodněte. Návod: Nemusíte zdůvodňovat elementárním způsobem jako u předchozího bodu, můžete se opřít o nějaké známé nerovnosti z teorie pravděpodobnosti či konvexní analýzy. Cvičení 3: Monte Carlo simulace s lineárním regresním modelem I Příklad 3.1. (Rozdělení odhadových statistik OLS.) Cílem příkladu zkoumat, jaké vlastnosti mají odhady parametrů LRM pořízené metodou nejmenších čtverců; správněji řečeno, půjde nám o statistické vlastnosti odhadové funkce (estimátoru) metody nejmenších čtverců. Půjdeme na to následovně: (i) nejprve si vytvoříme fiktivní populaci jedinců, ve které vztah mezi veličinami y; x a u přesně odpovídá LRM se známými parametry, poté (ii) budeme náhodně vybírat vzorky populace o dané velikosti a z hodnot x a y zkusíme zpětně odhadnout regresní parametry, abychom mohli posoudit, nakolik se liší od skutečných, tj. původních hodnot. a ) Vygenerujte 10 000 pozorování hodnot proměnných y; x a u, které odpovídají následujícím vztahům: y D 5 C 10x C u; x R.0; 50/; u R. 30; 30/: Tento soubor pozorování budeme nadále označovat jako populaci. b ) Z populace vyberte náhodný výběr o rozsahu n D 15 a na základě výběrových hodnot proměnných y a x odhadněte metodou nejmenších čtverců model y D ˇ0 C ˇ1x C u: (1) Následně vytvořte bodový diagram (scatterplot) výběrových hodnot obou proměnných a zakreslete do něj navíc přímky 10 C 5x a yˇ0 C yˇ1x, kde yˇ0; yˇ1 značí odhady
4EK216 Ekonometrie: Příklady ke cvičením 7 parametrů ˇ0; ˇ1. Vysvětlete, kde jsou v grafu zachyceny odhady yˇ0 a yˇ1 a co představují tzv. rezidua, značená zpravidla jako Ou. c ) Předchozí bod několikrát opakujte a sledujte, nakolik se odhady parametrů liší od jejich skutečných hodnot 5 a 10. Kterou odhadovou statistiku byste označili za přesnější, yˇ0 nebo yˇ1? d ) Vygenerujte 10 4 náhodných výběrů, pro každý z nich odhadněte model (1), výsledné odhady zapište do 10 4 složkových vektorů beta.0 a beta.1. Najděte průměr a směrodatnou odchylku hodnot z obou vektorů a zobrazte histogramy získaných odhadů. Komentujte získané hodnoty a grafy. Příklad 3.2. (Limitní vlastnosti odhadových statistik OLS.) Příklad 3.1 opakujte s tím, že budete postupně zvětšovat rozsah výběru n na 30, 100 a 500. Porovnejte tvar histogramů pro všechny varianty velikosti výběrového souboru, komentujte. Příklad 3.3. (Směrodatné chyby, intervaly spolehlivosti, testování hypotéz.) Po odhadu lineárního regresního modelu se zpravidla věnujeme mj. statistické inferenci zobecnění závěrů učiněných na základě výběrového souboru na celou populaci. K tomu nezbytně patří výpočet intervalů spolehlivosti pro regresní parametry a případně testování hypotéz o skutečných (populačních) hodnotách parametrů. Postup simulace z příkladu 3.1 proto nyní rozšíříme tak, abychom mohli posoudit korektnost výpočtů doporučovaných pro tyto účely v přednášce; v následujících úkolech se počítá s tím, že máte před sebou kód, který řeší příklad 3.1. a ) V každém náhodném výběru ještě (i) dopočítejte směrodatnou chybu pro yˇ1, (ii) určete 95% interval spolehlivosti (CI) pro parametr ˇ1 a (iii) na 5% hladině významnosti testujte pomocí tradičního t-testu nulovou hypotézu, že ˇ1 D 10, proti oboustranné alternativě. Výsledky zapište (podobně jako vlastní odhady parametrů) do vektorů std.error (směrodatná chyba), CI.low (dolní mez 95% CI), CI.up (horní mez 95% CI) a reject (= 1, pokud zamítáme nulovou hypotézu, = 0 jinak). b ) Najděte střední hodnotu std.error a sestrojte histogram jeho hodnot. Směrodatná chyba odhadu parametru by měla odrážet směrodatnou odchylku výběrového rozdělení daného parametru, kterou můžeme získat přibližně jako směrodatnou odchylku vektoru beta.1. c ) Zjistěte, v jakém procentu případů se skutečná hodnota parametru ˇ1, totiž číslo 10, octlo uvnitř 95% CI pro ˇ1. Porovnejte s hladinou spolehlivosti 95%, komentujte případné rozdíly. d ) Zjistěte, v jakém procentu případů jste zamítli (pravdivou) nulovou hypotézu, že ˇ1 D 10. Porovnejte výsledek s hladinou významnosti D 0:05, komentujte případné rozdíly. e ) Opakujte celý pokus pro rozsah výběru n na 30, 100 a 500.
4EK216 Ekonometrie: Příklady ke cvičením 8 Cvičení 4: Monte Carlo simulace s lineárním regresním modelem II Příklad 4.1. (Porušení Gaussových-Markovových předpokladů nenulová střední hodnota u.) Jeden z Gaussových-Markovových (G-M) předpokladů pro model lineární regrese nad průřezovými daty vyžaduje, aby E.u j x/ D 0. Tento vztah má dvojí interpretaci. Jednak se vyžaduje, aby se (podmíněná) střední hodnota náhodné složky neměnila s hodnotami x, platí tedy E.u j x/ D E.u/; tato situace bývá označována termínem mean independence proměnných u a x a má za důsledek mj. nekorelovanost obou proměnných, tj. cov.x; u/ D 0. Zmíněný G-M předpoklad kromě toho dále vyžaduje, aby nepodmíněná střední hodnota náhodné složky byla nulová: E.u/ D 0. V tomto příkladě experimentální cestou ověříme, jaký dopad by měla změna této nepodmíněné střední hodnoty při zachování mean independence. a ) Podobně jako v příkladě 3.1 generujte populaci o 10 000 pozorováních, ve které y D 5 C 10x C u; x R.0; 50/; u R. 10; 50/: Podotkněme, že hodnoty x a u mají být generovány nezávisle na sobě, platí tedy E.u j x/ D E.u/ a zřejmě E.u/ D 20. b ) Z vytvořené populace losujte 10 4 náhodných výběrů o rozsahu n D 30, pro každý z nich odhadněte metodou nejmenších čtverců model (1) a veškeré získané odhady parametrů ˇ0 a ˇ1 shrňte pomocí dvou histogramů. Je některý z odhadů vychýlený? O kolik přibližně? Lze vaše závěry nějak jednoduše zobecnit? Zdůvodněte. Příklad 4.2. (Porušení G-M předpokladů korelace u a x.) Závažnějším problémem, nežli byl ten zkoumaný v předchozím příkladě, je výskyt korelace mezi vysvětlující proměnnou a náhodnou složkou, tj. případ cov.x; u/ 0: a ) Vygenerujete populaci, ve které platí y D 5 C 10x C u; x N.30; 15 2 /; u N.0; 20 2 /; corr.x; u/ D 0:8: Návod: Novinkou v tomto příkladu je generování hodnot korelovaných náhodných veličin x a u; můžete k tomu využít následující algoritmus: (i) Generuj dvojici nezávislých veličin v; w z rozdělení N.0; 1/. (ii) Vypočti hodnoty x; u podle vztahů x D 30 C 15v; u D 0 C 20.0:8/v C 20 p 1 0:8 2 w: Není těžké ověřit (analyticky či experimentálně), že takto vzniklé veličiny x a u mají požadované vlastnosti. a ) Opakujte postup použitý při simulacích v předchozích příkladech a určete výběrová rozdělení odhadů parametrů modelu (1). Jsou odhady pro n D 15 nestranné? Jsou odhady konzistentní (jinými slovy: co se děje s výběrovým rozdělením odhadů při n! 1)?
4EK216 Ekonometrie: Příklady ke cvičením 9 b ) Opakujte předchozí analýzu s tím, že corr.x; u/ změníte v zadání postupně na 0.5 a 0.95 (algoritmus pro generování korelovaných veličin snadno přizpůsobíte pro nové zadání). Komentujte výsledky. Příklad 4.3. (Porušení G-M předpokladů heteroskedasticita.) Podobně jako v předchozích příkladech zkoumejte odhady regresních parametrů modelu (1) v populaci, kde y D 5 C 0x C u; x N.0; 1/; u j x N 0; Œ1 C e x 2 : Opět vytvořte výchozí populaci o 10 000 pozorováních a z ní losujte 10 4 náhodných výběrů o rozsahu n D 150, v každém odhadněte model (1) pomocí OLS. a ) Použijte klasické směrodatné chyby pro výpočet testové statistiky v t-testu s nulovou hypotézou, že ˇ1 D 0; zjistěte, v jakém procentu případů jste na 5% hladině významnosti zamítli (pravdivou) nulovou hypotézu. b ) Opakujte předchozí bod s tím, že použijete směrodatné chyby robustní vůči heteroskedasticitě (Huber-White sandwich variance estimator). c ) Opakujte předchozí body pro n D 15 a n D 1000. Diskutujte získané výsledky. d ) Opakujte simulaci pro n D 150 ještě jednou, ale tentokrát získejte směrodatné chyby pomocí neparametrického bootstrapu. Příklad 4.4. (Chyby měření vysvětlující proměnné.) V praxi je běžné, že nejsme schopni hodnoty některých proměnných měřit zcela přesně; tato zkutečnost bude mít samozřejmě vliv na naše odhady. Smyslem tohoto příkladu je zkoumat tento vliv experimentální cestou, v přednášce se budeme bavit o analytických výsledcích. Využijeme zde vygenerovaná data z příkladu 3.1 o populaci 10 000 jedinců, pro jejichž charakteristiky x a y přesně platí vztah y D 5 C 10x C u; x R.0; 50/; u R. 30; 30/: Oproti příkladu 3.1 jsme zde lehce poupravili značení u proměnné x se objevila hvězdička. Tímto způsobem se často v ekonometrických textech označují proměnné, jejichž hodnoty nejsme schopni přímo pozorovat třeba z důvodu nepřesného měření, jako tomu bude v tomto příkladě. Budeme předpokládat, že sledovaná hodnota vysvětlující proměnné, x, se získá tak, že se skutečná hodnota x zaneřádí náhodnou chybou měření šumem, značeným e, tj. x D x C e. V nejjednodušší modelové situaci můžeme předpokládat, že šum není odvislý od hodnoty vysvětlující proměnné, čili cov.x ; e/ D 0. To bude výchozí bod pro naši další práci. a ) Pro celou populaci (všech 10 000 jedinců, charakterizovaných hodnotami proměnných y a x ) generujte sledované (naměřené) hodnoty vysvětlující proměnné podle vztahu x D x C e; e R. 20; 20/: b ) Z populace losujte postupně 10 4 náhodných výběrů o rozsahu n D 15, metodou nejmenších čtverců odhadněte regresní parametry modelu y D ˇ0 C ˇ1x C u;
4EK216 Ekonometrie: Příklady ke cvičením 10 ovšem na základě hodnot proměnných y a x (nikoli y a x ). Odhady ze všech výběrů uložte do vektorů beta.0 a beta.1. Najděte střední hodnotu a průměrnou čtvercovou chybu získaných odhadů a zobrazte jejich histogramy. Zdají se být odhady parametrů nestranné? c ) Opakujte předchozí body s tím, že zvýšíte rozptyl chyby měření tentokrát generujte e z rozdělení R. 40; 40/. Jak se změnilo vychýlení odhadu parametru ˇ1? d ) Znovu opakujte celou analýzu s tím, že pro vytvoření základního souboru (populace) tentokrát použijete vztah y D 5 10x C u; x R.0; 50/; u R. 30; 30/; tj. obrátíte směr závislosti mezi y a x. Jaký je směr vychýlení odhadu parametru ˇ1? Cvičení 5: Modely binární volby Příklad 5.1. (Podnikatelská sebedůvěra logit I.) V datovém souboru GEM.csv se nachází vzorek dat získaných v České republice v letech 2006 a 2011. Celkem je k dispozici 2000 pozorování, každé z nich představuje jednoho náhodně vybraného respondenta ve věku 18 64 let. Jednotlivé proměnné a jejich kódování jsou stručně popsány přímo v datovém souboru po otevření v Gretlu. Jedna z proměnných nese název sebeduvera a zachycuje respondentovu odpověd na otázku Máte znalosti, dovednosti a zkušenosti potřebné pro zahájení nějakého nového podnikání? V následujících úkolech budete odpovídat na otázky týkající se toho, co ovlivňuje výskyt této podnikatelské sebedůvěry. a ) Pomocí standardního ekonometrického značení zapište model logistické regrese (logit), který vysvětluje přítomnost podnikatelské sebedůvěry pomocí pohlaví, věku, vzdělání a regionu; kategoriální proměnné kódujte podle potřeby do dummy proměnných, kvantitativní proměnné zařazujte bez další funkční transformace. b ) Model z bodu a odhadněte a odpovězte na následující otázky: (i) Proč Gretl nepoužil při odhadu všech 2000 pozorování? (ii) Jaká je interpretace hodnoty koeficientu u proměnné vek? (iii) Jaký je odhadovaný rozdíl v poměru šancí pro výskyt sebedůvěry při náhodném výběru dvou jinak srovnatelných osob z Prahy a Střední Moravy? (iv) Jaký statistický test byste použili, abyste ověřili, zda se sklony k podnikatelské sebedůvěře liší napříč regiony (tj. zdali má region vliv)? (Zapište formálně testované hypotézy, použijte značení vašeho modelu v a.) (v) Jaký je závěr testu z předchozího bodu? (Zapište kromě slovního vyhodnocení i hodnotu testové statistiky a p-hodnotu.) Příklad 5.2. (Podnikatelská sebedůvěra logit II.)
4EK216 Ekonometrie: Příklady ke cvičením 11 a ) Do modelu z příkladu 5.1 přidejte druhou mocninu proměnné vek a nový model odhadněte. Zjistěte, jaký tvar má odhadovaná závislost sebedůvěry na věku (zdali u nebo obrácené u ) a určete bod zlomu vlivu věku; uved te, jak jste bod zlomu spočetli. b ) Je známo, že podnikatelskou sebedůvěrou oplývají spíše muži než ženy; otázka je, zda se tyto pomyslné nůžky mezi pohlavími od roku 2006 do roku 2011 (tj. mezi dvěma sledovanými obdobími) spíše rozevřely, přivřely, či zůstaly na stejné úrovni. Vhodným způsobem rozšiřte model z bodu a tak, aby bylo možné na tuto otázku odpovědět. Následně formulujte a testujte hypotézu, že se rozdíl v sebedůvěře mezi pohlavími od roku 2006 do roku 2011 nezměnil. Příklad 5.3. (Podnikatelská sebedůvěra probit.) a ) Odhadněte analogický model jako v příkladu 5.1, tentokrát však volte probitový model místo logitu. Určete (a interpretujte) mezní efekt dodatečného roku (věku) pro fiktivní pozorování s hodnotami vysvětlujících proměnných na úrovni jejich výběrových průměrů, tj. najděte tzv. marginal (též partial) effect at mean (MEM). Pro účely výpočtu nakládejte s věkem jako se spojitou veličinou. b ) Pomocí Delta metody určete směrodatnou chybu pro MEM. c ) Ve stejném modelu najděte průměrný mezní efekt, tj. average marginal (též partial) effect (AME) pro proměnnou vek. d ) Pomocí Delta metody určete směrodatnou chybu pro AME. Příklad 5.4. (Kreditní karty dokonalá predikce, porovnání AME.) Pro tento příklad použijte soubor cred.csv. a ) Pokuste se odhadnout Acc v závislosti na Income, MDR, AvgExp a Age. K jakému problému při odhadu došlo? Vysvětlete. b ) Odhadněte postupně lineární pravděpodobnostní model, logit a probit pro závislost pravděpodobnosti přidělení kreditní karty Acc na proměnných Income, MDR, AvgExp, Age a OwnRent. Pro nelineární modely spočtěte AME pro všechny vysvětlující proměnné pečlivě rozlišujte výpočet pro spojité a indikátorové proměnné. Diskutujte rozdíly v jednotlivých modelech.