Úvod do ekonometrie Minitesty

Podobné dokumenty
4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

4EK211 Základy ekonometrie

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Cvičení 9 dekompozice časových řad a ARMA procesy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Ilustrační příklad odhadu LRM v SW Gretl

Tomáš Karel LS 2012/2013

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4EK211 Základy ekonometrie

Korelační a regresní analýza

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Časové řady, typy trendových funkcí a odhady trendů

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tomáš Karel LS 2012/2013

Časové řady, typy trendových funkcí a odhady trendů

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

4EK216 Ekonometrie. Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, 30. října 2015

Lineární regrese. Komentované řešení pomocí MS Excel

Regresní analýza. Eva Jarošová

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Testování hypotéz o parametrech regresního modelu

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

AVDAT Klasický lineární model, metoda nejmenších

4EK211 Základy ekonometrie

Přednáška 4. Lukáš Frýd

odpovídá jedna a jen jedna hodnota jiných

Měření závislosti statistických dat

4EK211 Základy ekonometrie

Statistika (KMI/PSTAT)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

5EN306 Aplikované kvantitativní metody I

Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza 1. Regresní analýza

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA

Základy lineární regrese

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

4EK211 Základy ekonometrie

Příloha č.1 Vypočtené hodnoty jednotlivých proměnných indexu OCA pro MUBS za období

Inovace bakalářského studijního oboru Aplikovaná chemie

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

Pravděpodobnost a matematická statistika

Statistická analýza dat

4EK211 Základy ekonometrie

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

INDUKTIVNÍ STATISTIKA

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Ekonometrie. Jiří Neubauer

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Doporučené příklady k procvičení k 2. Průběžnému testu

Statistika II. Jiří Neubauer

AVDAT Geometrie metody nejmenších čtverců

Úvodem Dříve les než stromy 3 Operace s maticemi

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

5EN306 Aplikované kvantitativní metody I

TECHNICKÁ UNIVERZITA V LIBERCI

6. Lineární regresní modely

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

KGG/STG Statistika pro geografy

Regresní a korelační analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

4EK211 Základy ekonometrie

1. Přednáška. Ing. Miroslav Šulai, MBA

6. Lineární regresní modely

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

Korelace. Komentované řešení pomocí MS Excel

4EK201 Matematické modelování. 11. Ekonometrie

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

UNIVERZITA KARLOVA V PRAZE. Flexicurita na českém trhu práce: aplikace v evropském kontextu

Analýza dat na PC I.

AVDAT Nelineární regresní model

5EN306 Aplikované kvantitativní metody I

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Transkript:

Úvod do ekonometrie Minitesty Poznámka k zadání Použité značení odpovídá přednáškám, v případě nejasností nahlédněte do zveřejněných prezentací. V zadání jsou všude použity desetinné tečky (kvůli souladu s výstupy ze softwaru). Otázky 1. Počátky ekonometrie coby vědního oboru jsou spjaty se založením Ekonometrické společnosti (Econometric Society) a časopisu Econometrica. Kdy k těmto událostem došlo? (Odpověď stačí uvést s přesností na desetiletí např. 80. léta 19. stol. ). 2. Jmenujte alespoň dva ekonometry, kteří jsou držiteli Nobelovy ceny za ekonomii. (Stačí uvést příjmení, ale víte-li i křestní jméno, pochlubte se.) 3. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem obsahujícím mj. proměnné mzda (průměrná hrubá hodinová mzda respondenta v USD) a vzdelani (dokončené roky školní docházky): Model 1: OLS, using observations 1-526 Dependent variable: mzda --------------------------------------------------------- const 0.904852 0.684968 1.321 0.1871 vzdelani 0.541359 0.0532480 10.17 2.78e-022 *** Mean dependent var 5.896103 S.D. dependent var 3.693086 Sum squared resid 5980.682 S.E. of regression 3.378390 R-squared 0.164758 Adjusted R-squared 0.163164 F(1, 524) 103.3627 P-value(F) 2.78e-22 Log-likelihood 1385.712 Akaike criterion 2775.423 Schwarz criterion 2783.954 Hannan-Quinn 2778.764 Zapište odhadnutou regresní rovnici a interpretujte odhadnuté regresní koeficienty; pro koeficient u proměnné vzdelani uveďte jak kauzální, tak deskriptivní interpretaci. 4. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem obsahujícím mj. proměnné mzda (průměrná hrubá hodinová mzda respondenta v USD) a vzdelani (dokončené roky školní docházky). Proměnná l_mzda představuje přirozený logaritmus proměnné mzda. Zapište odhadnutou regresní rovnici a interpretujte koeficient u proměnné vzdelani. Model 1: OLS, using observations 1-526 Dependent variable: l_mzda --------------------------------------------------------- const 0.583773 0.0973358 5.998 3.74e-09 *** vzdelani 0.0827444 0.00756669 10.94 3.27e-025 *** Mean dependent var 1.623268 S.D. dependent var 0.531538 Sum squared resid 120.7691 S.E. of regression 0.480079 R-squared 0.185806 Adjusted R-squared 0.184253 F(1, 524) 119.5816 P-value(F) 3.27e-25

Log-likelihood 359.3781 Akaike criterion 722.7561 Schwarz criterion 731.2867 Hannan-Quinn 726.0962 5. Naším cílem je kvantifikovat (kauzální) vliv x na y. Vysvětlete, proč je tento cíl daleko snáz splnitelný v případě, že můžeme použít randomizovaný experiment, oproti (ve společenských vědách běžnému) použití neexperimentálních dat. 6. Máme k dispozici průřezový datový soubor o 60 městech v ČR. Spočetli jsme korelaci mezi počtem policejních hlídek na obyvatele a počtem krádeží automobilů za poslední měsíc; vyšlo nám číslo 0.26, což je výsledek významně se lišící od nuly (na běžné 5% hladině významnosti). Popište možné kauzální vztahy, které by tuto korelaci mohly vysvětlit (zkuste vymyslet spojitost s každým ze tří kauzálních schémat z přednášky). 7. Následující výstup byl pořízen v Gretlu pro datový soubor s ojetými škodovkami (z první přednášky). Připomeňme, že cena vozu je uvedena v korunách, proměnná rok udává rok výroby, km je počet najetých kilometrů a kategoriální proměnná palivo má tři možné hodnoty: benzín, diesel a LPG. Interpretujte hodnoty koeficientů u indikátorových (dummy) proměnných pro kategorie paliva. Model 1: OLS, using observations 1-328 Dependent variable: cena ---------------------------------------------------------------- const 1.03545e+08 7.20760e+06 14.37 1.66e-036 *** km 0.682940 0.164144 4.161 4.08e-05 *** rok 51956.6 3602.20 14.42 1.00e-036 *** kombi 7980.64 14594.6 0.5468 0.5849 diesel 70673.3 15066.2 4.691 4.03e-06 *** LPG 19309.9 38521.7 0.5013 0.6165 Mean dependent var 246395.1 S.D. dependent var 193028.5 Sum squared resid 3.65e+12 S.E. of regression 106441.8 R-squared 0.700574 Adjusted R-squared 0.695924 F(5, 322) 150.6780 P-value(F) 4.41e-82 Log-likelihood 4259.100 Akaike criterion 8530.200 Schwarz criterion 8552.958 Hannan-Quinn 8539.280 8. Uveďte příklady deskriptivní, kauzální a predikční otázky v empirické analýze. 9. Zapište model jednoduché regrese v deskriptivní verzi (tj. pomocí populační regresní funkce) a ve strukturní verzi (pomocí data generujícího procesu). 10. Tabulka níže uvádí průměrnou měsíční mzdu ve zkoumané populaci podle dosaženého stupně vzdělání. Jaká je průměrná mzda v celé populaci? Formálně řečeno, v tabulce najdete možné hodnoty funkce E(mzda vzdělání) a pravděpodobnostní funkci veličiny vzdělání. Váš výpočetní postup by měl v takto formálním pojetí odpovídat aplikaci tzv. zákona iterovaných středních hodnot; zapište formálně, jak se podle tohoto tvrzení získá střední hodnota mzdy z údajů v tabulce. vzdělání ZŠ SŠ VŠ průměrná mzda 25 000 29 000 41 000 % populace 20 60 20 11. Metodou nejmenších čtverců odhadujeme koeficient β 1 v modelu y = β 0 + β 1x + u. Popište vztah mezi odhadnutým koeficientem a výběrovou kovariancí proměnných x a y.

12. Metodou nejmenších čtverců odhadujeme koeficient β 1 v modelu y = β 0 + β 1x + u. Která z následujících situací může teoreticky po odhadu nastat? Záporné odpovědi pečlivě zdůvodněte. a) β ˆ 1 4.25, výběrová korelace mezi x a y je 2.11. b) β ˆ 1 2.27, výběrová kovariance mezi x a y je 0.11. c) β ˆ 1 0.02, výběrová korelace mezi x a y je rovna 0. 13. Jaké čtverce minimalizuje metoda nejmenších čtverců při odhadu modelu y = β 0 + β 1x + u? 14. Pro vzorek n = 147 respondentů odhadujeme metodou nejmenších čtverců lineární regresní model y = β 0 + β 1x + u. Zapište výraz, který bude vyjadřovat součet čtverců reziduí. 15. Pro vzorek n = 147 respondentů odhadujeme metodou nejmenších čtverců lineární regresní model y = β 0 + β 1x + u. Jakých hodnot může ve výsledcích nabývat součet reziduí? Zdůvodněte. 16. Parametry β 0, β 1 modelu y = β 0 + β 1x + u máme v plánu odhadovat pomocí momentové metody. Jaký předpoklad o náhodné složce zpravidla pro účely odhadu přijímáme? Plyne z něj nějaký závěr ohledně korelace x a u? 17. Vysvětlete pojem výběrové rozdělení odhadové statistiky. Můžete třeba konkrétně použít příklad statistiky pro odhad parametru β 1 v jednoduché regresi. 18. Uveďte příklad proměnných x a y takový, aby byla náhodná složka v modelu y = β 0 + β 1x + u heteroskedastická. Zdůvodněte. 19. Uvažujte lineární regresní model splňující předpoklady SLR.1 SLR.5. Jaký používáme estimátor pro rozptyl náhodné složky? Je tento estimátor nestranný? 20. Vysvětlete pojem směrodatná chyba ˆβ 1. 21. Co je to normovaná (či standardizovaná) odhadová statistika β ˆ 1? Jaké má výběrové rozdělení v klasickém lineárním regresním modelu? 22. Ukažte, že výběrový průměr hodnot závisle proměnné y je roven průměru vyrovnaných hodnot ( y ˆ) po odhadu MNČ. 23. Zapište předpoklad MLR.4. 24. Zapište předpoklad MLR.5. 25. Zapište předpoklad MLR.6. 26. Máme silně heteroskedastickou náhodnou složku v modelu, který nicméně splňuje předpoklady MLR.1 MLR.4. Může být v tomto případě estimátor MNČ nestranný? 27. Po odhadu modelu y = β 0 + β 1x 1 + β 2x 2 + β 3x 3 + β 4x 4 + u na vzorku n = 21 respondentů vyšlo R 2 = 0.12. Vypočtěte upravený koeficient determinace. 28. Která z následujících situací může teoreticky po odhadu lineárního regresního modelu nastat? Uveďte odpověď může nastat / nemůže nastat pro každou položku a až c, záporné odpovědi pečlivě zdůvodněte. a) R 2 = 0.50, výběrová korelace mezi y a ŷ je 0.68. b) R 2 2 = 1.25, R 1.20. c) R 2 2 = 0.01, R 0.02. 29. Proměnné x 1 a x 2 jsou silně korelované, výběrový korelační koeficient činí 0.95. Způsobí tato skutečnost vychýlení v MNČ-odhadech koeficientů lineárního regresního modelu y = β 0 + β 1x 1 + β 2x 2 + u? Vysvětlete.

30. Pomocí MNČ jsme odhadli regresní funkci mzda ˆ 32215 50 výška, kde mzda je hrubá měsíční mzda v Kč a výška je měřena v cm. Zapište, jak by vypadala regresní funkce v případě, že bychom proměnnou výška vyjádřili v palcích (1 palec = 2.54 cm) a proměnnou mzda bychom místo Kč vyjádřili v tisících Kč. 31. Výběrový průměr proměnných x a y je 4.5 a 6. Určete hodnotu vynechaného parametru v zápisu odhadnuté regresní funkce: yˆ 3 x. Zdůvodněte. 32. Pomocí MNČ jsme odhadli regresní funkci yˆ 3.4 5.2 x. Nyní se stejným datovým souborem odhadujeme model vícenásobné regrese: k vysvětlující proměnné x přidáme ještě proměnnou z, přičemž výběrová kovariance x a z je nulová. Doplňte chybějící údaj v nové regresní funkci: yˆ 1.5 x 3.6 z. Zdůvodněte. 33. Vysvětlete podstatu anglického termínu bias-variance tradeoff (ve vztahu k odhadu mezního efektu x na y). 34. Metodou nejmenších čtverců jsme odhadli regresní funkci na výběrovém vzorku čítajícím 100 000 pozorování. Směrodatná chyba koeficientu u proměnné x 2 vyšla 4.2. Jak přibližně se tato směrodatná chyba změní, pokud stejný model odhadneme znovu s tím, že z našich dat náhodně vybereme pouze 1000 pozorování? 35. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem obsahujícím mj. proměnné mzda (průměrná hrubá hodinová mzda respondenta v USD) a vzdelani (dokončené roky školní docházky). Jaká je přibližná šířka 95% intervalu spolehlivosti pro úrovňovou konstantu (intercept)? Uveďte a zdůvodněte výpočetní postup. Model 1: OLS, using observations 1-526 Dependent variable: mzda --------------------------------------------------------- const 0.904 0.684 1.321 0.1871 vzdelani 0.541 0.053 10.17 2.78e-022 *** 36. Vysvětlete, co je to hladina významnosti statistického testu. 37. Ukažte korektnost našeho vzorce pro výpočet mezí 95% intervalu spolehlivosti, tj. dokažte, že z předpokladů klasického lineárního regresního modelu plyne, že je-li c rovno 97.5% kvantilu studentova t rozdělení s n k 1 stupni volnosti, platí Pr βˆ c se( βˆ ) β βˆ c se( βˆ ) 0.95. j j j j j Při důkazu můžete bez důkazu využít tvrzení o rozdělení normovaného estimátoru koeficientu β j. 38. Vysvětlete, co je to p-hodnota t-testu o hodnotě regresního parametru β j. 39. Nad průřezovým datovým souborem obsahujícím proměnné mzda (průměrná hodinová mzda respondenta v Kč), praxe (léta pracovních zkušeností), vzdelani (roky dokončeného vzdělání) jsme odhadli níže uvedenou regresní funkci. ^mzda = 65.081 + 1.074*praxe + 3.136*vzdelani (5.120) (0.0067) (1.600) n = 8165, R-squared = 0.108 (standard errors in parentheses) Určete p-hodnotu testu s nulovou hypotézou H 0: β vzdelani = 0 a oboustrannou alternativou. Postup zdůvodněte.

40. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem obsahujícím mj. proměnné mzda (průměrná hrubá hodinová mzda respondenta v USD) a vzdelani (dokončené roky školní docházky): Model 1: OLS, using observations 1-526 Dependent variable: mzda --------------------------------------------------------- const 0.904 0.684 1.321 0.1871 vzdelani 0.541 0.053 10.17 2.78e-022 *** (a) Určete 95% interval spolehlivosti pro β vzdelani; můžete použít přibližný výpočet. (b) Předpokládejme, že náhodná složka je nezávislá na vzdělání a má normální rozdělení. Popište, jak byste získali přesnou hodnotu mezí 95% intervalu spolehlivosti. 41. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem o mladých zaměstnaných mužích, obsahujícím mj. proměnné mzda (měsíční mzda respondenta v USD), vysoka (dokončené roky vzdělání na vysoké škole), odborna (dokončené roky vzdělání na vyšší odborné škole), vek (věk v letech) a zenaty (= 1 pro ženaté respondenty): ^l_mzda = 5.08 + 0.0740*vysoka + 0.0135*odborna + 0.0110*vek + 0.203*zenaty (0.159)(0.00674) (0.00390) (0.00489) (0.0413) n = 935, R-squared = 0.159 (standard errors in parentheses) Vaším cílem je testovat, zdali se liší odměna (nárůst mzdy) za roky strávené na vysoké škole, oproti rokům stráveným na vyšší odborné škole (tj. zdali se z finančního hlediska vyplatí studovat jinak těžší vysokou školu). Zapište formálně, jakou nulovou hypotézu byste testovali, a stručně komentujte, jaký test byste pro tento účel použili. 42. V níže uvedeném výstupu je modelována logaritmická cena domu (l_price) pomocí několika sledovaných charakteristik. Testujte nulovou hypotézu H 0: β colonial = 0 oproti alternativní hypotéze, že domy v koloniálním stylu (colonial = 1) jsou dražší než ostatní (colonial = 0). Model 1: OLS, using observations 1-88 Dependent variable: l_price ---------------------------------------------------------- const 4.74538 0.0926914 51.20 1.45e-064 *** bdrms 0.00832141 0.0297933 0.2793 0.7807 lotsize 5.65005e-06 2.01221e-06 2.808 0.0062 *** sqrft 0.000372785 4.17634e-05 8.926 9.18e-014 *** colonial 0.0814651 0.0458308 1.778 0.0791 * Mean dependent var 5.633180 S.D. dependent var 0.303573 Sum squared resid 2.917374 S.E. of regression 0.187481 R-squared 0.636129 Adjusted R-squared 0.618593 43. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem o mladých zaměstnaných mužích, obsahujícím mj. proměnné mzda (měsíční mzda respondenta v USD), vysoka (dokončené roky vzdělání na vysoké škole), odborna (dokončené roky vzdělání na vyšší odborné škole), vek (věk v letech) a zenaty (= 1 pro ženaté respondenty): ^l_mzda = 5.08 + 0.0740*vysoka + 0.0135*odborna + 0.0110*vek + 0.203*zenaty

(0.159)(0.00674) (0.00390) (0.00489) (0.0413) n = 935, R-squared = 0.159 (standard errors in parentheses) Uveďte, jaký je podle odhadnuté rovnice přesný efekt rodinného stavu na výslednou mzdu. 44. Následující výstup byl pořízen v Gretlu nad průřezovým datovým souborem o mladých zaměstnaných mužích, obsahujícím mj. proměnné mzda (měsíční mzda respondenta v USD), vysoka (dokončené roky vzdělání na vysoké škole), odborna (dokončené roky vzdělání na vyšší odborné škole), vek (věk v letech) a zenaty (= 1 pro ženaté respondenty). Je mezní efekt proměnné vek statisticky významný na běžné 5% hladině významnosti? Uveďte formální podobu testované hypotézy i vyhodnocení testu včetně výpočetního postupu. ^l_mzda = 5.08 + 0.0740*vysoka + 0.0135*odborna + 0.0110*vek + 0.203*zenaty (0.159)(0.00674) (0.00390) (0.00489) (0.0413) n = 935, R-squared = 0.159 (standard errors in parentheses) 45. V Gretlu byl pořízen následující výstup nad průřezovými daty, zahrnujícími mj. proměnné l_wage (přirozený logaritmus respondentovy mzdy), age (věk v letech) a sq_age = age 2. Spočtěte bod zlomu pro odhadnutý vztah mezi mzdou a věkem. Je tento vztah popsán křivkou ve tvaru u nebo obráceného u? Model 1: OLS, using observations 1-935 Dependent variable: l_wage ---------------------------------------------------------- const 4.74683 1.70368 2.786 0.0054 *** educ 0.0618020 0.00583647 10.59 8.12e-025 *** age 0.0411124 0.103378 0.3977 0.6910 sq_age 0.000313632 0.00155276 0.2020 0.8400 married 0.208306 0.0415330 5.015 6.34e-07 *** 46. V Gretlu byl pořízen následující výstup nad průřezovými daty, zahrnujícími mj. proměnné l_wage (přirozený logaritmus respondentovy mzdy), age (věk v letech) a sq_age = age 2. Určete, o kolik procent se podle odhadnuté rovnice zvýší mzda mezi 35. a 36. rokem. (Můžete použít aproximativní interpretace regresního koeficientu). Model 1: OLS, using observations 1-935 Dependent variable: l_wage ---------------------------------------------------------- const 4.74683 1.70368 2.786 0.0054 *** educ 0.0618020 0.00583647 10.59 8.12e-025 *** age 0.0411124 0.103378 0.3977 0.6910 sq_age 0.000313632 0.00155276 0.2020 0.8400 married 0.208306 0.0415330 5.015 6.34e-07 *** 47. Následující výstup byl pořízen v Gretlu pro datový soubor s ojetými škodovkami, ve kterém byla ponechána pouze vozidla na benzín a diesel. Připomeňme, že cena vozu je uvedena v korunách (l_cena je její přirozený logaritmus), proměnná stari udává stáří v letech, km je počet najetých kilometrů, diesel = 1 pro dieselová vozidla a starixdiesel = stari diesel. Vaším cílem je zkoumat

výzkumnou hypotézu, že dieselová auta ztrácí s věkem na hodnotě pomaleji než auta benzínová. Jaký je závěr? Model 1: OLS, using observations 1-320 Dependent variable: l_cena ---------------------------------------------------------------- const 13.3615 0.0548511 243.6 0.0000 *** km 1.08453e-06 4.55554e-07 2.381 0.0179 ** stari 0.207967 0.0102957 20.20 8.78e-059 *** diesel 0.298895 0.0862927 3.464 0.0006 *** starixdiesel 0.0122980 0.0174593 0.7044 0.4817 Mean dependent var 12.18764 S.D. dependent var 0.656101 Sum squared resid 26.36943 S.E. of regression 0.289331 R-squared 0.807970 Adjusted R-squared 0.805532 F(4, 315) 331.3432 P-value(F) 1.7e-111 Log-likelihood 54.68180 Akaike criterion 119.3636 Schwarz criterion 138.2052 Hannan-Quinn 126.8874 48. Následující výstup byl pořízen v Gretlu pro datový soubor s ojetými škodovkami, ve kterém byla ponechána pouze vozidla na benzín a diesel. Připomeňme, že cena vozu je uvedena v korunách (l_cena je její přirozený logaritmus), proměnná stari udává stáří v letech, km je počet najetých kilometrů, diesel = 1 pro dieselová vozidla a starixdiesel = stari diesel. Jaký je predikovaný rozdíl v ceně jinak srovnatelného benzínového a dieselového vozu, který je starý 5 let? Model 1: OLS, using observations 1-320 Dependent variable: l_cena ---------------------------------------------------------------- const 13.3615 0.0548511 243.6 0.0000 *** km 1.08453e-06 4.55554e-07 2.381 0.0179 ** stari 0.207967 0.0102957 20.20 8.78e-059 *** diesel 0.298895 0.0862927 3.464 0.0006 *** starixdiesel 0.0122980 0.0174593 0.7044 0.4817 Mean dependent var 12.18764 S.D. dependent var 0.656101 Sum squared resid 26.36943 S.E. of regression 0.289331 R-squared 0.807970 Adjusted R-squared 0.805532 F(4, 315) 331.3432 P-value(F) 1.7e-111 Log-likelihood 54.68180 Akaike criterion 119.3636 49. Popište podstatu Ramseyova RESET testu. 50. Popište, na základě čeho byste se rozhodovali, zda zařadit vysvětlující proměnnou do regresního modelu v původní netransformované podobě, či zda raději použít logaritmované hodnoty. 51. Po odhadu mzdové rovnice jsme vypočetli VIF faktory, výstup je uveden níže. Použité proměnné jsou následující: exper jsou respondentova léta pracovních zkušeností; educ jeho vzdělání v letech; female, nonwhite a smsa jsou indikátory pohlaví, barvy pleti a urbánní lokality; ostatní proměnné byly vypočteny jako sq_educ = educ 2, femalexeduc = female educ. Máme důvod podezřívat naše výběrová data ze silné multikolinearity? Vysvětlete. Variance Inflation Factors Minimum possible value = 1.0

Values > 10.0 may indicate a collinearity problem exper 13.216 sq_exper 13.493 educ 1.867 female 22.899 femalexeduc 22.869 nonwhite 1.013 smsa 1.059 52. Následující výstup byl pořízen v Gretlu pro datový soubor s ojetými škodovkami (z první přednášky). Připomeňme, že cena vozu je uvedena v korunách, l_cena je přirozený logaritmus proměnné cena, proměnná stari udává stáří vozu v letech, km je počet najetých kilometrů a kategoriální proměnná model má tři možné hodnoty: felicia, octavia a superb. Predikujte cenu ojetého vozu Felicia Combi, který má najeto 100 000 km a je 10 let starý. Model 1: OLS, using observations 1-328 Dependent variable: l_cena ----------------------------------------------------------- const 12.6247 0.0444711 283.9 0.0000 *** km 1.22462e-06 2.78073e-07 4.404 1.45e-05 *** stari 0.121677 0.00720144 16.90 2.67e-046 *** combi 0.115870 0.0246988 4.691 4.02e-06 *** octavia 0.584548 0.0264572 22.09 1.75e-066 *** superb 1.11115 0.0541394 20.52 1.92e-060 *** Mean dependent var 12.18048 S.D. dependent var 0.650827 Sum squared resid 10.42042 S.E. of regression 0.179893 R-squared 0.924767 Adjusted R-squared 0.923599 F(5, 322) 791.6110 P-value(F) 1.7e-178 Log-likelihood 100.2646 Akaike criterion 188.5291 Schwarz criterion 165.7710 Hannan-Quinn 179.4493 53. Následující výstup byl pořízen v Gretlu pro datový soubor s ojetými škodovkami (z první přednášky). Připomeňme, že cena vozu je uvedena v korunách, proměnná stari udává stáří vozu v letech, km je počet najetých kilometrů a kategoriální proměnná model má tři možné hodnoty: felicia, octavia a superb. Najděte predikční interval pro cenu ojetého vozu Felicia Combi, který má najeto 100 000 km a je 10 let starý. Model 1: OLS, using observations 1-328 Dependent variable: cena ------------------------------------------------------------- const 367857 17968.2 20.47 3.04e-060 *** km 0.523315 0.112353 4.658 4.68e-06 *** stari 28879.2 2909.68 9.925 1.97e-020 *** combi 48960.1 9979.35 4.906 1.48e-06 *** octavia 114676 10689.8 10.73 3.70e-023 *** superb 445835 21874.6 20.38 6.85e-060 *** Mean dependent var 246395.1 S.D. dependent var 193028.5 Sum squared resid 1.70e+12 S.E. of regression 72684.35 R-squared 0.860380 Adjusted R-squared 0.858212 F(5, 322) 396.8524 P-value(F) 2.7e-135 Log-likelihood 4133.977 Akaike criterion 8279.954

Schwarz criterion 8302.712 Hannan-Quinn 8289.034 54. Vysvětlete, proč v lineárním pravděpodobnostním modelu automaticky očekáváme přítomnost heteroskedasticity. 55. Proměnné v průřezovém datovém souboru použitém pro získání následujícího výstupu mají následující význam: podnikani = 1, pokud respondent podniká formou OSVČ či jako (spolu)vlastník společnosti (dummy proměnná), zena = 1 pro ženy a 0 pro muže, vek je věk respondenta v letech. Interpretujte získané regresní koeficienty. Model 1: OLS, using observations 1-1898 (n = 1885) Missing or incomplete observations dropped: 13 Dependent variable: podnikani ---------------------------------------------------------- const 0.0974181 0.0622374 1.565 0.1177 zena 0.0871034 0.0165055 5.277 1.46e-07 *** vek 0.00458425 0.00283991 1.614 0.1066 sq_vek 7.09647e-05 3.02523e-05 2.346 0.0191 ** Mean dependent var 0.090186 S.D. dependent var 0.352929 Sum squared resid 228.3771 S.E. of regression 0.348443 R-squared 0.026810 Adjusted R-squared 0.025257 F(3, 1881) 17.27271 P-value(F) 4.59e-11 Log-likelihood 685.3785 Akaike criterion 1378.757 Schwarz criterion 1400.924 Hannan-Quinn 1386.921 56. Vysvětlete, jakým způsobem se určují váhy v lineárním pravděpodobnostním modelu za účelem výpočtu metodou vážených nejmenších čtverců. Jaké problémy s určením vah mohou nastat? 57. Jaké jsou dopady přítomnosti heteroskedasticity v lineárním regresním modelu na estimátor MNČ? 58. Co je to metoda vážených nejmenších čtverců? Za jakých podmínek zvažujeme její použití namísto MNČ? Jaký je vztah mezi velikostí váhy i-tého pozorování a rozptylem i-té náhodné složky? 59. Popište Breuschův-Paganův test heteroskedasticity. Jaký je tvar pomocné regrese v tomto testu? Jaká je nulová a alternativní hypotéza? 60. Popište Whiteův test heteroskedasticity. Jaký je tvar pomocné regrese v tomto testu? Jaká je nulová a alternativní hypotéza? 61. Co popisují při odhadu lineárního regresního modelu zkratky HC0, HC1, HC2 a HC3? (Není třeba uvádět vzorce, stačí vysvětlit podstatu k jakému výpočtu se zkratky vztahují, jakému problému se snažíme s jejich pomocí čelit a v jakém smyslu je daný problém úspěšně vyřešen.) 62. Při použití časových řad často potřebujeme očistit závisle proměnnou od dlouhodobého lineárního trendu. Popište, jakým způsobem byste mohli získat trendově očištěnou verzi časové řady {y t : t = 1,, n}. 63. V následujícím výstupu se vyskytují proměnné x a y představující roční časové řady a jejich trendově očištěné verze x_detrended a y_detrended, které byly pořízeny pomocí jednoduché regrese s proměnnou rok (podobně jako proměnné salmon a gdp v přednášce). a) Doplňte chybějící údaje (vyznačené podtržítky) v následujícím výstupu. b) Uveďte, které z obou uvedených R 2 byste použili pro vyjádření síly závislosti mezi x a y. Svoji volbu zdůvodněte.

Model 1: ^y_detrended = 1.73*x_detrended (0.218) T = 55, R-squared = 0.538 Model 2 ^y = 1.46 + *x + 0.000550*time (1.30) ( ) (0.00101) T = 55, R-squared = 0.756 64. Při studiu sezónnosti a trendu čtvrtletní časové řady {y t : t = 1,, n} jsme odhadli v Gretlu model, jehož výstup je uveden níže. Proměnná time představuje aritmetickou řadu čísel 1 až n a proměnná dqj je indikátorovou (dummy) proměnnou pro čtvrtletí j. Jaký statistický test byste použili, chceteli ověřit, že vykazuje signifikantní sezónní chování? Uveďte nulovou hypotézu a rozdělení testové statistiky při platnosti H 0 (stačí jméno rozdělení a stupně volnosti, nemusíte uvádět žádné vzorce). ^y = 1.48e+03 + 247*dq2 + 347*dq3-67.3*dq4-21.5*time (76.2) (60.6) (60.7) (61.0) (4.57) T = 36, R-squared = 0.721 65. Zapište model, kterým byste zachytili exponenciální trend časové řady {y t : t = 1,, n}. Popište interpretaci koeficientů v uvedeném modelu. 66. V Gretlu jsme odhadli model, jehož výstup je uveden níže. Proměnná qdgp představuje čtvrtletní časovou řadu pro HDP v USA (mld. USD), do modelu vstoupila ve zlogaritmované podobě, jak je z výstupu patrné. Proměnná time představuje aritmetickou řadu čísel 1 až n a proměnná dqj je indikátorovou (dummy) proměnnou pro čtvrtletí j. Jaký je podle odhadnuté rovnice průměrný meziroční procentuální růst HDP za sledované období? Uveďte co nejpřesnější odpověď. ^l_qgdp = 5.41-0.00173*dq2 + 0.00232*dq3-0.000136*dq4 + 0.0176*time (0.0217)(0.0231) (0.0232) (0.0232) (0.000110) T = 258, R-squared = 0.990 (standard errors in parentheses) 67. V modelu s konečně rozděleným zpožděním (FDL), např. y t = β 0 + δ 0x t + δ 1x t 1+ δ 2x t 2+ δ 2x t 3 + u t, bývají často velmi široké intervaly spolehlivosti pro mezní efekty impulsní změny x t v jednotlivých letech (v uvedeném modelu by šlo o intervaly spolehlivosti pro δ 0, δ 1, δ 2 a δ 3), zatímco dlouhodobý multiplikátor bývá odhadnut o poznání přesněji (jeho interval spolehlivosti je výrazně užší). Proč tomu tak bývá? 68. Uvažujte model s konečně rozděleným zpožděním (FDL), y t = β 0 + δ 0x t + δ 1x t 1+ δ 2x t 2+ δ 3x t 3 + u t. a) Co v tomto modelu představuje krátkodobý a dlouhodobý multiplikátor? b) Chceme-li získat interval spolehlivosti pro dlouhodobý multiplikátor, můžeme použít vhodné transformace vysvětlujících proměnných tak, aby se dlouhodobý multiplikátor stal jedním z odhadovaných parametrů výsledného modelu. Popište, jak by taková transformace mohla vypadat. 69. Načrtněte graf rozdělení zpoždění pro regresní funkci yˆ t 1.5 0.7xt 1.3xt 1 0.5xt 2 1.5 x t 3.

70. Uveďte hodnotu dlouhodobého multiplikátoru v odhadnuté regresní funkci modelu s konečně rozděleným zpožděním ve tvaru yˆ t 1.5 0.7xt 1.3xt 1 0.5xt 2 1.5 x t 3. Jaká je interpretace této hodnoty (předpokládejte, že x t a yt jsou roční časové řady)? 71. Formulujte předpoklady TS.1 TS.3 pro regresi s časovými řadami. Vysvětlete, proč by byl předpoklad TS.3 patrně porušen v modelu, který vysvětluje počet krádeží automobilů na obyvatele konkrétního města za rok (krádeže t) pomocí průměrného počtu policejních hlídek na obyvatele (hlídky t). 72. Co je to striktně stacionární a kovariančně stacionární náhodný proces? 73. Popište, jaké náhodné procesy se označují zkratkami AR(1) a MA(1), a uveďte předpis obou těchto procesů. 74. Uveďte příklad slabě a silně závislého náhodného procesu. 75. Vysvětlete pojem křivka impulsní odezvy. Jako příklad uveďte křivku impulzní odezvy pro AR(1) proces. 76. Formulujte předpoklady o homoskedasticitě a absenci autokorelace v regresi s časovými řadami (vycházejte z verze Gaussových-Markovových podmínek, která předpokládá striktní exogenitu regresorů). 77. Uveďte předpoklady TS.1 TS.3 pro regresi s časovými řadami. K čemu zhruba potřebujeme předpoklady o stacionaritě a slabé závislosti použitých časových řad? 78. Co to znamená, že odhadová technika je konzistentní? Můžete vše vysvětlit na příkladu odhadu konkrétního parametru lineárního regresního modelu.