4EK216 Ekonometrie. Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, 30. října 2015

Podobné dokumenty
4EK211 Základy ekonometrie

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Úvod do ekonometrie Minitesty

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4EK211 Základy ekonometrie

Lineární regrese. Komentované řešení pomocí MS Excel

Ilustrační příklad odhadu LRM v SW Gretl

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

AVDAT Klasický lineární model, metoda nejmenších

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Korelační a regresní analýza

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Bodové a intervalové odhady parametrů v regresním modelu

Pravděpodobnost a matematická statistika

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Regresní a korelační analýza

Statistika (KMI/PSTAT)

Testování hypotéz o parametrech regresního modelu

Odhad parametrů N(µ, σ 2 )

Cvičení 12: Binární logistická regrese

Regresní analýza 1. Regresní analýza

Regresní analýza. Eva Jarošová

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Jednostranné intervaly spolehlivosti

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistická analýza dat

Matematická statistika Zimní semestr Testy o proporci

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvodem Dříve les než stromy 3 Operace s maticemi

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistická analýza jednorozměrných dat

Zápočtová práce STATISTIKA I

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Matematická statistika Zimní semestr

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

4ST201 STATISTIKA CVIČENÍ Č. 7

AVDAT Nelineární regresní model

Měření závislosti statistických dat

Aplikovaná statistika v R - cvičení 3

Praktikum z ekonometrie Panelová data

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

You created this PDF from an application that is not licensed to print to novapdf printer (

ALGEBRA. Téma 5: Vektorové prostory

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Normální (Gaussovo) rozdělení

10. Předpovídání - aplikace regresní úlohy

Odhad parametrů N(µ, σ 2 )

6. Lineární regresní modely

Chyby měření 210DPSM

4EK211 Základy ekonometrie

INDUKTIVNÍ STATISTIKA

Cvičení ze statistiky - 8. Filip Děchtěrenko

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Základy ekonometrie Příklady ze cvičení (ZS 2012)

= = 2368

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Analýza dat na PC I.

Plánování experimentu

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

8 Střední hodnota a rozptyl

Odhady Parametrů Lineární Regrese

Kontingenční tabulky, korelační koeficienty

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

8 Coxův model proporcionálních rizik I

Aproximace binomického rozdělení normálním

Transkript:

4EK216 Ekonometrie Příklady ke cvičením Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, zouharj@vse.cz 30. října 2015 Cvičení 1: Opakování základní práce s lineárním regresním modelem Příklad 1.1. (Ojeté škodovky.) Pro tento příklad použijte data ze souboru skoda.csv. Data pocházejí z ledna 2004 a týkají se 328 ojetých vozů značky Škoda; konkrétně jde o modely Octavia, Felicia a Superb. a ) Odhadněte lineární regresní model, který vysvětluje cenu vozidla pomocí všech dostupných regresorů. Proč byly z modelu vyřazeny některé proměnné? Vysvětlete. b ) Odhadněte model znovu, tentokrát vynechejte vysvětlující proměnné rok, felicia a benzin. Interpretujte koeficienty a porovnejte je s předchozími výsledky. c ) Otestujte přítomnost heteroskedasticity pomocí Whiteova a Breuschova-Paganova testu. Potvrdí-li se výskyt heteroskedasticity, odhadněte model znovu za použití robustních směrodatných chyb. d ) Na základě odhadnutého modelu určete, zdali má typ paliva statisticky významný vliv na cenu vozidla. e ) Určete, jakou prodejní cenu byste očekávali (v lednu 2004) pro škodu Felicii, která má najeto 100 000 km, motor 1.9D a je vyrobena v roce 1998. Příklad 1.2. (Práce s logaritmy.) V tomto příkladě pracujte se shodnými daty, jako v příkladu 1.1. a ) Odhadněte lineární regresní model, který vysvětluje logaritmus ceny vozidla pomocí všech dostupných regresorů. b ) Na základě odhadnutého modelu určete co nejpřesněji, kolik procent ceny ztratí vozidlo, které bude tři roky stát na místě (tj. zestárne o tři roky při nezměněných hodnotách ostatních regresorů). c ) Na základě odhadnutého modelu určete, zdali má typ paliva statisticky významný vliv na cenu vozidla. d ) Určete, jakou prodejní cenu byste očekávali (v lednu 2004) pro škodu Felicii, která má najeto 100 000 km, motor 1.9D a je vyrobena v roce 1998. Pozor na predikci ceny vozu na základě modelu, který vysvětluje logaritmus ceny.

4EK216 Ekonometrie: Příklady ke cvičením 2 Příklad 1.3. (Lineární restrikce koeficientů.) Uvažujte model, který vysvětluje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper) a době strávené u aktuálního zaměstnavatele (v letech, tenure), ve tvaru log.wage/ D ˇ0 C ˇ1educ C ˇ2exper C ˇ3tenure C u: a ) Formulujte nulovou hypotézu, že dodatečný rok všeobecných pracovních zkušeností má stejný dopad na mzdu jako další rok strávený u stávajícího zaměstnavatele. b ) Odhadněte zadaný model pomocí dat ze souboru wage.csv. Testujte hypotézu z předchozího bodu proti oboustranné alternativě na hladině významnosti 5 %. Příklad 1.4. (Práce se čtverci.) Použijte data ze souboru wage2.csv k odhadu modelu, který popisuje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper) a rodinném stavu (married je nula-jednotkový indikátor ženatých/vdaných respondentů): log.wage/ D ˇ0 C ˇ1age C ˇ2age 2 C ˇ3educ C ˇ4exper C ˇ5married C u: Smysl kvadratického členu spočívá samozřejmě v tom, aby umožnil běžný průběh životního cyklu z hlediska mezd: v mládí mzdy zpravidla nejprve rostou, k stáru ovšem postupně začnou klesat závislost mezd na věku má tedy podobu obrácené u-křivky. a ) Po odhadu modelu otestujte přítomnost heteroskedasticity, pokud se potvrdí, pracujte dále s robustními směrodatnými chybami. b ) Na základě odhadnutého modelu testujte, zdali má věk respondenta vliv na jeho mzdu; formálně popište nulovou hypotézu, testujte na 5% hladině významnosti. c ) Poukazují odhadnuté koeficienty na výše zmíněnou obrácenou u-křivku? d ) Určete bodový odhad bodu zlomu, tj. počtu let, při kterém se začíná s věkem snižovat mzda. e ) Jaký je očekávaný přírůstek mzdy mezi 30. a 31. rokem života (při jinak stejných charakteristikách respondenta)? f ) Testujte, zdali je v odhadnutém modelu nezbytná kvadratická závislost mezi logaritmem mezd a věkem, či zda by stejně dobře posloužila závislost lineární. g ) Z rovnice vynechejte druhou mocninu proměnné age a znovu odhadněte; poté ověřte vhodnost výsledného funkčního tvaru pomocí Ramseyova RESET testu. Příklad 1.5. (Práce s interakcemi.) V tomto příkladu pracujte se stejným datovým souborem jako v příkladu 1.3, tj. se souborem wage.csv. a ) Ověřte pomocí dostupných hypotézu, že osoby žijící ve svazku manželském vydělávají více než jejich svobodné protějšky s jinak srovnatelnými charakteristikami. Navrhněte vhodný funkční tvar modelu, za kontrolní proměnné volte vzdělání, pracovní zkušenosti, indikátor bydliště v urbánních oblastech a pohlaví. Zapište formálně nulovou a alternativní statistickou hypotézu, testujte na hladině významnosti 5 %.

4EK216 Ekonometrie: Příklady ke cvičením 3 b ) Lze předpokládat, že vliv manželství na mzdu se pro muže a pro ženy liší. V dnes již spíše historickém rodinném modelu, který se ovšem může v našich datech z USA z roku 1976 stále projevit, ležela hlavní zodpovědnost za obstarání finančních prostředků na manželovi přírůstek mzdy v důsledku manželství lze tedy očekávat vyšší pro muže než pro ženy. Je-li to třeba, upravte funkční tvar závislosti z bodu a tak, aby model umožnil rozlišit vliv manželství na muže a na ženy. Jaký je odhadovaný dopad manželství na mzdu mužů podle tohoto modelu? A na mzdu žen? Je mezi těmito dvěma efekty statisticky významný rozdíl? Proved te formální statistický test na 5% hladině významnosti, volte jednostrannou alternativu, která souhlasí s popsaným rodinným modelem. c ) Je podle posledního modelu efekt manželství na mzdu ženy statisticky významný? Příklad 1.6. (Lineární pravděpodobnostní model.) K tomuto příkladu, převzatému z (Wooldridge, 2009:298), použijte data ze souboru 401ksubs.csv. Termínem 401(k) se v USA označuje forma důchodového spoření, na které přispívá zaměstnanci zaměstnavatel. Proměnná e401k je nula-jednotkovým indikátorem toho, zda je respondent způsobilý vstoupit do programu 401(k). a ) Pomocí OLS odhadněte lineární pravděpodobnostní model pro proměnnou e401k, za vysvětlující proměnné volte inc, inc 2, age, age 2, a male. Vypočtěte jak běžné směrodatné chyby, tak i verzi robustní vůči heteroskedasticitě. Vyskytly se mezi oběma verzemi nějaké zásadní rozdíly? b ) Máte v úmyslu použít speciální podobu Whiteova testu na heteroskedasticitu, kde se v pomocné regresi vysvětlují čtverce reziduí, Ou 2, pomocí první a druhé mocniny vyrovnaných hodnot závisle proměnné, Oy a Oy 2. Ukažte, že s rostoucím počtem pozorování by koeficient u Oy konvergoval podle pravděpodobnosti k 1, koeficientu u Oy 2 k 1 a intercept k 0. Návod: Pomněte, že v lineárním pravděpodobnostním modelu je var.y j x/ D p.x/œ1 p.x/, kde p.x/ D x. c ) Odhadněte zmiňovanou podobu Whiteova testu a porovnejte získané koeficienty s teoretickými závěry z bodu b. d ) Ověřte, že všechny vyrovnané hodnoty v modelu odhadnutém v a jsou mezi nulou a jednotkou. Následně odhadněte lineární pravděpodobnostní model znovu, tentokrát metodou vážených nejmenších čtverců (WLS). Porovnejte nové odhady s původními odhady získanými OLS. Cvičení 2: Teoretické rozcvičky opakování základní ekonometrické teorie Příklad 2.1. (Různé pojetí odchylek.) Je dána regresní přímka y D xc1 a jedno pozorování hodnot x a y, které představuje bod.x 0 ; y 0 / D.1; 1/. Vypočtěte, jaká je : : : a ) : : : absolutní odchylka bodu.x 0 ; y 0 / od regresní přímky.

4EK216 Ekonometrie: Příklady ke cvičením 4 b ) : : : čtvercová odchylka bodu.x 0 ; y 0 / od regresní přímky. c ) : : : ortogonální odchylka bodu.x 0 ; y 0 / od regresní přímky. Příklad 2.2. (Odhadová funkce metody nejmenších čtverců maticový zápis.) Máme k dispozici 8 pozorování proměnných y; x 1 a x 2, které obecně označíme následujícím způsobem: hodnoty y W y 1 ; y 2 ; : : : ; y 8 ; hodnoty x 1 W x 11 ; x 21 ; : : : ; x 81 ; hodnoty x 2 W x 12 ; x 12 ; : : : ; x 82 ; tj. pro i-té pozorování máme hodnoty y i ; x i1 ; x i2. Takto vyjádřenými pozorováními budeme prokládat regresní rovinu v obecném vyjádření y D yˇ0 C yˇ1x 1 C yˇ2x 2 : a ) Najděte předpis pro funkci SS. yˇ0; yˇ1; yˇ2/, která vyjadřuje celkový součet čtverců při daných hodnotách parametrů yˇ0; yˇ1 a yˇ2 (název funkce pochází z anglického sum of squares). Pokuste se o co nejúspornější vyjádření. b ) Vyjádřete opět funkci popisující celkový součet čtverců, tentokrát ovšem za použití maticového zápisu. Využijte následujících vektorů a matic: 2 3 2 3 y 1 1 x 11 x 12 2 3 6y 2 7 61 x 21 x 22 yˇ0 7 6 7 y D 6 4 : y 8 7 5 ; X D 6 7 4: : : 5 ; y D 4 yˇ1 5 : yˇ2 1 x 81 x 82 c ) Najděte obecné vyjádření pro takové hodnoty parametrů yˇ0; yˇ1 a yˇ2, které minimalizují celkový součet čtverců. Návod: Najděte minimum funkce SS z bodu a) vynulováním parciálních derivací @SS ; @SS a @SS, poté získané vztahy přepište maticově @ yˇ0 @ yˇ1 @ yˇ2 pomocí y; X a y. d ) Obecnému maticovému vyjádření vektoru y z bodu c) se říká odhadová funkce metody nejmenších čtverců. Použijte tuto funkci při výpočtu regresní roviny pro následující hodnoty sledovaných proměnných: i 1 2 3 4 5 6 7 8 y i 7 3 14 18 13 35 31 46 x i1 1 3 5 7 9 11 13 15 x i2 5 8 3 6 10 4 7 5 e ) Porovnejte výsledky z předchozího bodu s odhady parametrů pořízenými funkcí lm v R.

4EK216 Ekonometrie: Příklady ke cvičením 5 Příklad 2.3. (Statistické vlastnosti odhadové funkce OLS.) Uvažujte obecný lineární regresní model neboli y i D ˇ0 C ˇ1x i1 C ˇ2x i2 C : : : C ˇk x ik C u i ; i D 1; 2; : : : ; n; y D X C u; pro který platí E.u j X/ D 0 a var.u j X/ D 2 I. Označme symbolem y odhad vektoru parametrů pořízený OLS, tedy y D.XX/ 1 Xy. a ) Uvědomte si, že zatímco y je náhodný vektor, E.y / je konstantní. Vyjádřete hodnotu E.y /. b ) Vyjádřete var.y j X/. Příklad 2.4. (Střední hodnota a varianční matice odhadů pořízených OLS.) Je dán lineární regresní model y D ˇ0 C ˇ1x C u; přičemž víme, že ˇ0 D 4; ˇ1 D 8, náhodná složka u je v populaci nezávislá na x a má nulovou střední hodnotou a rozptyl 20. Z náhodného výběru o rozsahu n D 5 máme k dispozici následující hodnoty: x D Œx 1 x 2 x 3 x 4 x 5 D Œ1 0 3 2 1 : Označme odhady parametrů ˇ0 a ˇ1 pořízené OLS jako yˇ0 a yˇ1. a ) Určete E. yˇ0/, E. yˇ1/. b ) Vypočtěte var. yˇ0 j x D x 0 /, var. yˇ1 j x D x 0 /, kde x je vektor pozorování proměnné x v náhodném výběru o rozsahu n D 5, tj. x D Œx 1 x 2 x 3 x 4 x 5 ; a x 0 je vektor konkrétních pozorovaných hodnot x 0 D Œ1 0 3 2 1 : Příklad 2.5. (Varianční matice odhadů, t-test.) Odhadem parametru D Œˇ0 ˇ1 lineárního regresního modelu y D X Cu pomocí OLS jsme získali vektor y D Œ5 10. Výsledný vektor reziduí je yu D Œ1 3 0 1 3 a známe dále matici X > X D 5 3 a ) Odhadněte varianční matici var.y /. 3 4 : 4 12

4EK216 Ekonometrie: Příklady ke cvičením 6 b ) Na hladině významnosti 5% testujte statistickou významnost obou koeficientů zkoumaného modelu, tj. např. pro ˇ1 proved te test s hypotézami H 0 W ˇ1 D 0; H 1 W ˇ1 0: Příklad 2.6. (Střední hodnota exponenciály od náhodné složky.) Při predikci v lineárním regresním modelu, v němž se vysvětluje logaritmus závisle proměnné (log y), se při predikcích hodí následující tvrzení: má-li náhodná složka u rozdělení N.0; 2 /, potom E.e u / D e 2 =2. a ) Dokažte uvedené tvrzení. Návod: Stačí vyjít ze standardního výpočtu střední hodnoty pro libovolnou (měřitelnou) reálnou funkci g./ máme EŒg.u/ D R R g.u/f.u/ du, kde f./ je hustota pravděpodobnosti veličiny u. b ) Pokud rozdělení u není normální, uvedené tvrzení samozřejmě obecně neplatí; lze ale ukázat, že má-li u rozdělení s nulovou střední hodnotou a nenulovým rozptylem, platí E.e u / > 1. Zdůvodněte. Návod: Nemusíte zdůvodňovat elementárním způsobem jako u předchozího bodu, můžete se opřít o nějaké známé nerovnosti z teorie pravděpodobnosti či konvexní analýzy. Cvičení 3: Monte Carlo simulace s lineárním regresním modelem I Příklad 3.1. (Rozdělení odhadových statistik OLS.) Cílem příkladu zkoumat, jaké vlastnosti mají odhady parametrů LRM pořízené metodou nejmenších čtverců; správněji řečeno, půjde nám o statistické vlastnosti odhadové funkce (estimátoru) metody nejmenších čtverců. Půjdeme na to následovně: (i) nejprve si vytvoříme fiktivní populaci jedinců, ve které vztah mezi veličinami y; x a u přesně odpovídá LRM se známými parametry, poté (ii) budeme náhodně vybírat vzorky populace o dané velikosti a z hodnot x a y zkusíme zpětně odhadnout regresní parametry, abychom mohli posoudit, nakolik se liší od skutečných, tj. původních hodnot. a ) Vygenerujte 10 000 pozorování hodnot proměnných y; x a u, které odpovídají následujícím vztahům: y D 5 C 10x C u; x R.0; 50/; u R. 30; 30/: Tento soubor pozorování budeme nadále označovat jako populaci. b ) Z populace vyberte náhodný výběr o rozsahu n D 15 a na základě výběrových hodnot proměnných y a x odhadněte metodou nejmenších čtverců model y D ˇ0 C ˇ1x C u: (1) Následně vytvořte bodový diagram (scatterplot) výběrových hodnot obou proměnných a zakreslete do něj navíc přímky 10 C 5x a yˇ0 C yˇ1x, kde yˇ0; yˇ1 značí odhady

4EK216 Ekonometrie: Příklady ke cvičením 7 parametrů ˇ0; ˇ1. Vysvětlete, kde jsou v grafu zachyceny odhady yˇ0 a yˇ1 a co představují tzv. rezidua, značená zpravidla jako Ou. c ) Předchozí bod několikrát opakujte a sledujte, nakolik se odhady parametrů liší od jejich skutečných hodnot 5 a 10. Kterou odhadovou statistiku byste označili za přesnější, yˇ0 nebo yˇ1? d ) Vygenerujte 10 4 náhodných výběrů, pro každý z nich odhadněte model (1), výsledné odhady zapište do 10 4 složkových vektorů beta.0 a beta.1. Najděte průměr a směrodatnou odchylku hodnot z obou vektorů a zobrazte histogramy získaných odhadů. Komentujte získané hodnoty a grafy. Příklad 3.2. (Limitní vlastnosti odhadových statistik OLS.) Příklad 3.1 opakujte s tím, že budete postupně zvětšovat rozsah výběru n na 30, 100 a 500. Porovnejte tvar histogramů pro všechny varianty velikosti výběrového souboru, komentujte. Příklad 3.3. (Směrodatné chyby, intervaly spolehlivosti, testování hypotéz.) Po odhadu lineárního regresního modelu se zpravidla věnujeme mj. statistické inferenci zobecnění závěrů učiněných na základě výběrového souboru na celou populaci. K tomu nezbytně patří výpočet intervalů spolehlivosti pro regresní parametry a případně testování hypotéz o skutečných (populačních) hodnotách parametrů. Postup simulace z příkladu 3.1 proto nyní rozšíříme tak, abychom mohli posoudit korektnost výpočtů doporučovaných pro tyto účely v přednášce; v následujících úkolech se počítá s tím, že máte před sebou kód, který řeší příklad 3.1. a ) V každém náhodném výběru ještě (i) dopočítejte směrodatnou chybu pro yˇ1, (ii) určete 95% interval spolehlivosti (CI) pro parametr ˇ1 a (iii) na 5% hladině významnosti testujte pomocí tradičního t-testu nulovou hypotézu, že ˇ1 D 10, proti oboustranné alternativě. Výsledky zapište (podobně jako vlastní odhady parametrů) do vektorů std.error (směrodatná chyba), CI.low (dolní mez 95% CI), CI.up (horní mez 95% CI) a reject (= 1, pokud zamítáme nulovou hypotézu, = 0 jinak). b ) Najděte střední hodnotu std.error a sestrojte histogram jeho hodnot. Směrodatná chyba odhadu parametru by měla odrážet směrodatnou odchylku výběrového rozdělení daného parametru, kterou můžeme získat přibližně jako směrodatnou odchylku vektoru beta.1. c ) Zjistěte, v jakém procentu případů se skutečná hodnota parametru ˇ1, totiž číslo 10, octlo uvnitř 95% CI pro ˇ1. Porovnejte s hladinou spolehlivosti 95%, komentujte případné rozdíly. d ) Zjistěte, v jakém procentu případů jste zamítli (pravdivou) nulovou hypotézu, že ˇ1 D 10. Porovnejte výsledek s hladinou významnosti D 0:05, komentujte případné rozdíly. e ) Opakujte celý pokus pro rozsah výběru n na 30, 100 a 500.

4EK216 Ekonometrie: Příklady ke cvičením 8 Cvičení 4: Monte Carlo simulace s lineárním regresním modelem II Příklad 4.1. (Porušení Gaussových-Markovových předpokladů nenulová střední hodnota u.) Jeden z Gaussových-Markovových (G-M) předpokladů pro model lineární regrese nad průřezovými daty vyžaduje, aby E.u j x/ D 0. Tento vztah má dvojí interpretaci. Jednak se vyžaduje, aby se (podmíněná) střední hodnota náhodné složky neměnila s hodnotami x, platí tedy E.u j x/ D E.u/; tato situace bývá označována termínem mean independence proměnných u a x a má za důsledek mj. nekorelovanost obou proměnných, tj. cov.x; u/ D 0. Zmíněný G-M předpoklad kromě toho dále vyžaduje, aby nepodmíněná střední hodnota náhodné složky byla nulová: E.u/ D 0. V tomto příkladě experimentální cestou ověříme, jaký dopad by měla změna této nepodmíněné střední hodnoty při zachování mean independence. a ) Podobně jako v příkladě 3.1 generujte populaci o 10 000 pozorováních, ve které y D 5 C 10x C u; x R.0; 50/; u R. 10; 50/: Podotkněme, že hodnoty x a u mají být generovány nezávisle na sobě, platí tedy E.u j x/ D E.u/ a zřejmě E.u/ D 20. b ) Z vytvořené populace losujte 10 4 náhodných výběrů o rozsahu n D 30, pro každý z nich odhadněte metodou nejmenších čtverců model (1) a veškeré získané odhady parametrů ˇ0 a ˇ1 shrňte pomocí dvou histogramů. Je některý z odhadů vychýlený? O kolik přibližně? Lze vaše závěry nějak jednoduše zobecnit? Zdůvodněte. Příklad 4.2. (Porušení G-M předpokladů korelace u a x.) Závažnějším problémem, nežli byl ten zkoumaný v předchozím příkladě, je výskyt korelace mezi vysvětlující proměnnou a náhodnou složkou, tj. případ cov.x; u/ 0: a ) Vygenerujete populaci, ve které platí y D 5 C 10x C u; x N.30; 15 2 /; u N.0; 20 2 /; corr.x; u/ D 0:8: Návod: Novinkou v tomto příkladu je generování hodnot korelovaných náhodných veličin x a u; můžete k tomu využít následující algoritmus: (i) Generuj dvojici nezávislých veličin v; w z rozdělení N.0; 1/. (ii) Vypočti hodnoty x; u podle vztahů x D 30 C 15v; u D 0 C 20.0:8/v C 20 p 1 0:8 2 w: Není těžké ověřit (analyticky či experimentálně), že takto vzniklé veličiny x a u mají požadované vlastnosti. a ) Opakujte postup použitý při simulacích v předchozích příkladech a určete výběrová rozdělení odhadů parametrů modelu (1). Jsou odhady pro n D 15 nestranné? Jsou odhady konzistentní (jinými slovy: co se děje s výběrovým rozdělením odhadů při n! 1)?

4EK216 Ekonometrie: Příklady ke cvičením 9 b ) Opakujte předchozí analýzu s tím, že corr.x; u/ změníte v zadání postupně na 0.5 a 0.95 (algoritmus pro generování korelovaných veličin snadno přizpůsobíte pro nové zadání). Komentujte výsledky. Příklad 4.3. (Porušení G-M předpokladů heteroskedasticita.) Podobně jako v předchozích příkladech zkoumejte odhady regresních parametrů modelu (1) v populaci, kde y D 5 C 0x C u; x N.0; 1/; u j x N 0; Œ1 C e x 2 : Opět vytvořte výchozí populaci o 10 000 pozorováních a z ní losujte 10 4 náhodných výběrů o rozsahu n D 150, v každém odhadněte model (1) pomocí OLS. a ) Použijte klasické směrodatné chyby pro výpočet testové statistiky v t-testu s nulovou hypotézou, že ˇ1 D 0; zjistěte, v jakém procentu případů jste na 5% hladině významnosti zamítli (pravdivou) nulovou hypotézu. b ) Opakujte předchozí bod s tím, že použijete směrodatné chyby robustní vůči heteroskedasticitě (Huber-White sandwich variance estimator). c ) Opakujte předchozí body pro n D 15 a n D 1000. Diskutujte získané výsledky. d ) Opakujte simulaci pro n D 150 ještě jednou, ale tentokrát získejte směrodatné chyby pomocí neparametrického bootstrapu. Příklad 4.4. (Chyby měření vysvětlující proměnné.) V praxi je běžné, že nejsme schopni hodnoty některých proměnných měřit zcela přesně; tato zkutečnost bude mít samozřejmě vliv na naše odhady. Smyslem tohoto příkladu je zkoumat tento vliv experimentální cestou, v přednášce se budeme bavit o analytických výsledcích. Využijeme zde vygenerovaná data z příkladu 3.1 o populaci 10 000 jedinců, pro jejichž charakteristiky x a y přesně platí vztah y D 5 C 10x C u; x R.0; 50/; u R. 30; 30/: Oproti příkladu 3.1 jsme zde lehce poupravili značení u proměnné x se objevila hvězdička. Tímto způsobem se často v ekonometrických textech označují proměnné, jejichž hodnoty nejsme schopni přímo pozorovat třeba z důvodu nepřesného měření, jako tomu bude v tomto příkladě. Budeme předpokládat, že sledovaná hodnota vysvětlující proměnné, x, se získá tak, že se skutečná hodnota x zaneřádí náhodnou chybou měření šumem, značeným e, tj. x D x C e. V nejjednodušší modelové situaci můžeme předpokládat, že šum není odvislý od hodnoty vysvětlující proměnné, čili cov.x ; e/ D 0. To bude výchozí bod pro naši další práci. a ) Pro celou populaci (všech 10 000 jedinců, charakterizovaných hodnotami proměnných y a x ) generujte sledované (naměřené) hodnoty vysvětlující proměnné podle vztahu x D x C e; e R. 20; 20/: b ) Z populace losujte postupně 10 4 náhodných výběrů o rozsahu n D 15, metodou nejmenších čtverců odhadněte regresní parametry modelu y D ˇ0 C ˇ1x C u;

4EK216 Ekonometrie: Příklady ke cvičením 10 ovšem na základě hodnot proměnných y a x (nikoli y a x ). Odhady ze všech výběrů uložte do vektorů beta.0 a beta.1. Najděte střední hodnotu a průměrnou čtvercovou chybu získaných odhadů a zobrazte jejich histogramy. Zdají se být odhady parametrů nestranné? c ) Opakujte předchozí body s tím, že zvýšíte rozptyl chyby měření tentokrát generujte e z rozdělení R. 40; 40/. Jak se změnilo vychýlení odhadu parametru ˇ1? d ) Znovu opakujte celou analýzu s tím, že pro vytvoření základního souboru (populace) tentokrát použijete vztah y D 5 10x C u; x R.0; 50/; u R. 30; 30/; tj. obrátíte směr závislosti mezi y a x. Jaký je směr vychýlení odhadu parametru ˇ1? Cvičení 5: Modely binární volby Příklad 5.1. (Podnikatelská sebedůvěra logit I.) V datovém souboru GEM.csv se nachází vzorek dat získaných v České republice v letech 2006 a 2011. Celkem je k dispozici 2000 pozorování, každé z nich představuje jednoho náhodně vybraného respondenta ve věku 18 64 let. Jednotlivé proměnné a jejich kódování jsou stručně popsány přímo v datovém souboru po otevření v Gretlu. Jedna z proměnných nese název sebeduvera a zachycuje respondentovu odpověd na otázku Máte znalosti, dovednosti a zkušenosti potřebné pro zahájení nějakého nového podnikání? V následujících úkolech budete odpovídat na otázky týkající se toho, co ovlivňuje výskyt této podnikatelské sebedůvěry. a ) Pomocí standardního ekonometrického značení zapište model logistické regrese (logit), který vysvětluje přítomnost podnikatelské sebedůvěry pomocí pohlaví, věku, vzdělání a regionu; kategoriální proměnné kódujte podle potřeby do dummy proměnných, kvantitativní proměnné zařazujte bez další funkční transformace. b ) Model z bodu a odhadněte a odpovězte na následující otázky: (i) Proč Gretl nepoužil při odhadu všech 2000 pozorování? (ii) Jaká je interpretace hodnoty koeficientu u proměnné vek? (iii) Jaký je odhadovaný rozdíl v poměru šancí pro výskyt sebedůvěry při náhodném výběru dvou jinak srovnatelných osob z Prahy a Střední Moravy? (iv) Jaký statistický test byste použili, abyste ověřili, zda se sklony k podnikatelské sebedůvěře liší napříč regiony (tj. zdali má region vliv)? (Zapište formálně testované hypotézy, použijte značení vašeho modelu v a.) (v) Jaký je závěr testu z předchozího bodu? (Zapište kromě slovního vyhodnocení i hodnotu testové statistiky a p-hodnotu.) Příklad 5.2. (Podnikatelská sebedůvěra logit II.)

4EK216 Ekonometrie: Příklady ke cvičením 11 a ) Do modelu z příkladu 5.1 přidejte druhou mocninu proměnné vek a nový model odhadněte. Zjistěte, jaký tvar má odhadovaná závislost sebedůvěry na věku (zdali u nebo obrácené u ) a určete bod zlomu vlivu věku; uved te, jak jste bod zlomu spočetli. b ) Je známo, že podnikatelskou sebedůvěrou oplývají spíše muži než ženy; otázka je, zda se tyto pomyslné nůžky mezi pohlavími od roku 2006 do roku 2011 (tj. mezi dvěma sledovanými obdobími) spíše rozevřely, přivřely, či zůstaly na stejné úrovni. Vhodným způsobem rozšiřte model z bodu a tak, aby bylo možné na tuto otázku odpovědět. Následně formulujte a testujte hypotézu, že se rozdíl v sebedůvěře mezi pohlavími od roku 2006 do roku 2011 nezměnil. Příklad 5.3. (Podnikatelská sebedůvěra probit.) a ) Odhadněte analogický model jako v příkladu 5.1, tentokrát však volte probitový model místo logitu. Určete (a interpretujte) mezní efekt dodatečného roku (věku) pro fiktivní pozorování s hodnotami vysvětlujících proměnných na úrovni jejich výběrových průměrů, tj. najděte tzv. marginal (též partial) effect at mean (MEM). Pro účely výpočtu nakládejte s věkem jako se spojitou veličinou. b ) Pomocí Delta metody určete směrodatnou chybu pro MEM. c ) Ve stejném modelu najděte průměrný mezní efekt, tj. average marginal (též partial) effect (AME) pro proměnnou vek. d ) Pomocí Delta metody určete směrodatnou chybu pro AME. Příklad 5.4. (Kreditní karty dokonalá predikce, porovnání AME.) Pro tento příklad použijte soubor cred.csv. a ) Pokuste se odhadnout Acc v závislosti na Income, MDR, AvgExp a Age. K jakému problému při odhadu došlo? Vysvětlete. b ) Odhadněte postupně lineární pravděpodobnostní model, logit a probit pro závislost pravděpodobnosti přidělení kreditní karty Acc na proměnných Income, MDR, AvgExp, Age a OwnRent. Pro nelineární modely spočtěte AME pro všechny vysvětlující proměnné pečlivě rozlišujte výpočet pro spojité a indikátorové proměnné. Diskutujte rozdíly v jednotlivých modelech.