Základy ekonometrie Příklady ze cvičení (ZS 2012)

Transkript

1 Základy ekonometrie Příklady ze cvičení (ZS 2012) Katedra ekonometrie FIS VŠE v Praze, zouharj@vse.cz 1. října 2014 Pár slov úvodem. Zadání příkladů je rozděleno po jednotlivých cvičeních. Jedná se o orientační rozvržení je možné, že v průběhu semestru dojde z nejrůznějších důvodů ke skluzu. (Koneckonců, z toho důvodu je poslední 12. cvičení vyhrazeno na dodělávky a opakování.) Pokud budete na cvičení chybět a budete mít v plánu si neprobranou látku do příštího cvičení doplnit (což samozřejmě vřele doporučuji), zkuste se od svých kolegů informovat o tom, které příklady jsme probrali. Cvičení 1: Metoda nejmenších čtverců a R 2 Příklad 1.1 (Různé odchylky od přímky.) Je dána regresní přímka y = x + 1 a jedno pozorování hodnot x a y, které představuje bod A = [1, 1]. Vypočtěte, jaká je... a)... absolutní odchylka bodu A od regresní přímky. b)... čtvercová odchylka bodu A od regresní přímky. c)... ortogonální odchylka bodu A od regresní přímky. Příklad 1.2 (Metoda nejmenších čtverců a R 2 ruční výpočet.) V následující tabulce jsou zadány hodnoty veličin x (délka přípravy v hodinách) a y (body z testu) pro pět sledovaných průřezových jednotek: Eva, Vašek, Hynek, Vilém a Jarmila. Tyto jednotky jsou očíslovány v uvedeném pořadí od 1 do 5 a rozlišovány pomocí indexu i. i x i y i a) Uvažujte následující dvě regresní přímky popisující závislost y na x: p 1 : y = x, p 2 : y = x. Vypočtěte součet čtverců pro obě přímky a rozhodněte, která z nich je podle tohoto kritéria lepší. b) Nalezněte takovou přímku, která minimalizuje součet čtverců, tj. proveďte odhad regresní přímky pomocí metody nejmenších čtverců (mnč). Návod: při obecném vyjádření přímky ve tvaru y = ˆβ 0 + ˆβ 1 x zapište celkový součet čtverců jako funkci dvou proměnných ˆβ 0 a ˆβ 1 a najděte její globální minimum (vynulováním jejích parciálních derivací podle ˆβ 0 a ˆβ 1 ). c) O kolik se v průměru zvýší počet bodů s dodatečnou hodinou studia (podle odhadnuté regresní přímky)? (Jinak řečeno, jaká je průměrná absolutní pružnost bodů z testu vzhledem k počtu hodin přípravy?) d) Víte, že Emil se připravoval na test 2 hodiny. Kolik byste mu předpověděli bodů z testu? e) Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. vyrovnané hodnoty (fitted values, ŷ) podle vztahu ŷ i = ˆβ 0 + ˆβ 1 x i. 1

2 f ) Vypočtěte pro vaši regresní přímku a všechna pozorování tzv. rezidua (residuals, e) podle vztahu e i = y i ŷ i. Pozn.: Nepočítali jste je náhodou už v jiném bodě tohoto příkladu jako mezikrok nějakého výpočtu? g ) Vypočtěte tzv. nevysvětlený součet čtverců (též reziduální, residual sum of squares, RSS) definovaný předpisem (ve zbytku tohoto příkladu budeme zkracovat zápis 5 i=1 na ) RSS = e 2 i = (y i ŷ i ) 2. Pozn.: viz součet čtverců pro přímku p 2 z a. h) Vypočtěte tzv. celkový součet čtverců pro proměnnou y (total sum of squares, TSS), TSS = (y i ȳ) 2, kde ȳ je průměrná hodnota proměnné y ve vašich datech, čili zde ȳ = 62. i) Vypočtěte tzv. vysvětlený součet čtverců pro proměnnou y (explained sum of squares, ESS), ESS = (ŷ i ȳ) 2. Rada: Co takhle namísto počítání podle předchozího vzorce využít identity o součtech čtverců? j) Vypočtěte koeficient determinace (R-squared, R 2 ) podle vzorce R 2 = ESS TSS = 1 RSS TSS. Příklad 1.3 (Zamyšlení nad R 2.) a) Jaká je přesná interpretace koeficientu determinace z předchozího příkladu? b) Po odhadu jisté regresní přímky vyšlo R 2 = 1. Co vám to říká o y, ŷ a e? c) Po odhadu jisté regresní přímky vyšlo R 2 = 0. Co vám to říká o ˆβ 0 a ˆβ 1? d) Jak moc vám pomůže znalost x při předpovědi hodnoty y, je-li R 2 = 0, R 2 = 0.6, R 2 = 1? Příklad 1.4 (Seznámení s Gretlem.) Otevřete soubor test.gdt v programu Gretl a ověřte, že v něm uložená data odpovídají příkladu s body z testu. a) Odhadněte regresní přímku pomocí mnč v Gretlu (Model Ordinary least squares). b) Najděte ve výstupu v Gretlu hodnoty ˆβ 0, ˆβ 1, ȳ, RSS a R 2. Jak byste dopočítali TSS a ESS? c) Zapište odhadnutou regresní funkci. Pozn.: odhadnutou regresní funkci zapisujeme ve tvaru ŷ = ˆβ 0 + ˆβ 1 x. d) Vykreslete graf s vašimi pozorováními body (x i, y i ) a odhadnutou regresní přímkou (Graphs Fitted, actual plot Against x). e) Uložte rezidua (e) a vyrovnané hodnoty (ŷ) jako nové proměnné (Save Residuals, Save Fitted values) a ověřte, že se shodují s výsledky vašich předchozích ručních výpočtů. f ) Najděte výběrový průměr reziduí (View Summary Statistics) a výběrový korelační koeficient mezi e and x (View Correlation Matrix). Je tento výsledek neočekávaný, nebo lze zobecnit i na jiné regresní přímky odhadnuté mnč? Vysvětlete. g ) Najděte výběrový korelační koeficient mezi y a ŷ, umocněte jej na druhou a porovnejte s R 2. Pozn.: Toto je vlastně původ označení R 2 statistici zpravidla označují výběrové korelační koeficienty písmenem r. Cvičení 2: Opakování základních statistických pojmů Příklad 2.1 (Tři charakteristiky polohy.) Přiřaďte každé z definic v seznamu a d jeden pojem ze seznamu ) Střední hodnota. 2) Medián. 3) Modus. 2

3 a) Nejpravděpodobnější (tj. nejběžnější) hodnota v populaci. b) Dlouhodobý průměr výsledků při opakovaném náhodném výběru z populace. c) Hodnota oddělující horní polovinu populace od spodní. d) Vážený průměr možných hodnot, kde váhy představují pravděpodobnosti (tj. relativní četnosti) jednotlivých hodnot. Příklad 2.2 (Průměrná, mediánová a modální mzda.) a) Průměrná měsíční mzda v populaci je e Vztahuje se termín průměrná mzda ke střední hodnotě, mediánu nebo modu populačního rozdělení mezd? b) Která mzda je zpravidla větší, the mediánová nebo průměrná? (Nebo jinak, vydělává většina lidí více nebo méně, nežli je průměrná mzda?) Příklad 2.3 (Výpočet střední hodnoty.) a) Uvažujme náhodnou veličinu (nv) x. Je možné, že Pr{x = Ex} = 0? (Např., je možné, že nikdo nevydělává přesně průměrnou mzdu?) b) Jaká je střední hodnota z hodu šestistěnnou kostkou? c) Uvažujte falešnou kostku, která dává výsledky 1 až 6 s různými pravděpodobnostmi, uvedenými v tabulce 1. Jaká je střední hodnota z hodu touto kostkou? Tabulka 1: Falešná kostka ξ Pr{x = ξ} Příklad 2.4 (Rozptyl a směrodatná odchylka.) a) Jak byste popsali pojem rozptyl (např. mezd v populaci) někomu, kdo neví nic o statistice? b) Obrázek 1 znázorňuje rozdělení dvou náhodných veličin (pomocí jejich hustot). Která z nich má větší rozptyl? c) nv x má následující characteristiky: Ex = 10, varx = 0. Co dalšího můžeme říci o x? d) Předpokládejte, že výška dospělého člověka má v populaci přibližně normální rozdělení se střední hodnotou 180 cm a rozptylem σ 2. Jaké procento dospělé populace spadá (z hlediska výšky) do rozpětí ±σ od populačního průměru (tj. do intervalu [180 σ, σ])? A jak je tomu při rozpětí ±2σ a ±3σ? Nakreslete obrázek, který situaci ilustruje. Obrázek 1: Dvě rozdělení s různými rozptyly Příklad 2.5 (Počítání se středními hodnotami a rozptyly.) Mějme nezávislé nv x a y, Vypočtěte: Ex = 10, Ey = 5, varx = 1, var y = 2. 3

4 a) E(4x). b) E(4x + 5). c) E(x + y). d) E(x y). e) E(4x 3y + 5). f ) var(4x). g ) var(4x + 5). h) var(x + y). i) var(x y). j) var(4x 3y + 5). Příklad 2.6 (Více kostek.) a) Představte si, že dvakrát hodíte šetstistěnnou kostkou a sečtete oba počty ok. Jaké jsou možné výsledky? Jaké jsou jejich pravděpodobnosti? Nakreslete výslednou pravděpodobnostní funkci. b) Jaká je střední hodnota a rozptyl nv z bodu a? (Rada: rozptyl při hodu jednou kostkou je ) c) Představte si součet ok při hodu 10 kostkami. Jaká je střední hodnota a rozptyl výsledku? Příklad 2.7 (Náhodný výběr a výběrový průměr.) Populační rozdělení počtu zubů (x) má střední hodnotu 20 a rozptyl 64. Chystáme se provést následující pokus. Náhodně vybereme 10 jedinců, změříme hodnotu x pro každého z nich (získáme tak hodnoty x 1, x 2,..., x 10 ), a pak spočteme prostý aritmetický průměr x = i=1 x i. Jelikož vybíráme jedince náhodně, je x náhodná veličina. a) Jaká je střední hodnota x? Jaký je rozptyl? b) (Zákon velkých čísel.) Místo 10 lidí nyní uvažujme n. Co se stane s E x a var x, jestliže postupně zvedáme n nade všechny meze? c) (Centrální limitní věta.) Opět máme náhodný výběr n jedinců, ale zajímáme se o hodnotu y = n( x 20) = Roste-li n, co se děje s rozdělením y? d) A co kdybychom nyní uvažovali veličinu z = y 64 = n i=1 (x i 20) n. x n Příklad 2.8 (Nestranné odhady.) Uvažujme náhodný výběr (x 1, x 2, x 3, x 4 ) z populace, v níž má sledovaný znak x neznámou střední hodnotu (označme ji jako µ) a neznámý rozptyl (označme jej σ 2 ). a) Je výběrový průměr x = i=1 x i nestrannou odhadovou statistikou (nebo stručně nestranným odhadem) populační střední hodnoty µ? (Připomeňme, že s je nestranná odhadová statistika parametru µ, je-li Es = µ.) b) Uvažujme namísto prostého aritmetického průměru vážený průměr podle předpisu w = 0.1x x x x 4. Je w nestranným odhadem µ? Které z obou statistik x a w byste při odhadu µ věřili víc? c) Je statistika s 2 = i=1 (x i x) 2 nestranným odhadem populačního rozptylu σ 2? Příklad 2.9 (Testování hypotéz.) Představitel opoziční politické strany tvrdí, že průměrná hrubá měsíční mzda (µ) klesla na 20 tisíc korun. Premiér se rozhodl udělat si malý průzkum, který má ukázat, že mzdy jsou ve skutečnosti vyšší. Hodlá náhodně vybrat 16 jedinců z ČR a dotázat se jich na jejich mzdu (x), čímž získá náhodný výběr (x 1, x 2,..., x 16 ). Na základě tohoto výběru chce provést test hypotézy, který snad poukáže na lživost výroku opozičního představitele. a) Jak by měl premiér volit nulovou a alternativní hypotézu (zapište formálně). b) Premiér se rozhodl provést test na hladině významnosti α = Co to znamená? Co přesně zde vyjadřuje číslo 0.05?? 4

5 c) Představte si, že po sběru dat vyjde najevo, že výběrový průměr ( x) činí Kč. Je to důvod pro zamítnutí nulové hypotézy? A co v případech, že x = , x = nebo x = ? d) Jistojistě víte, že rozptyl mezd v celé populaci činí Výběrový průměr vyšel Jaká je přibližně pravděpodobnost, že při platnosti nulové hypotézy vyjde výběrový průměr (při šestnácti dotázaných jedincích) vyšší nežli ? (Pozn.: pokud jste správně formulovali jednostrannou alternativní hypotézu, označuje se tato pravděpodobnost jako p-hodnota vašeho testu. Pro její výpočet využijte centrální limitní věty.) Můžete na základě tohoto výpočtu zamítnout nulovou hypotézu z bodu a na hladině významnosti 5%? e) Řešte stejný problém jako v předchozím bodě s tím, že populační rozptyl mezd neznáte, nýbrž pouze odhadujete na základě statistiky s 2 = i=1 (x i x) 2, jejíž hodnota vyšla f ) Vysvětlete, co je špatně na následující větě: Hodnota testové statistiky padla mimo kritický obor, tedy přijímáme nulovou hypotézu. Příklad 2.10 (Korelace & kovariance.) a) Řekli byste, že mzdy a vzdělání jsou pozitivně korelované, negativně korelované or nekorelované? Jak je tomu v případě mezd a tělesné výšky? b) Najděte příklad negativně korelovaných ekonomických veličin. c) Víme-li, že nv jsou negativně korelované, co nám to říká o jejich kovarianci? d) Jakých hodnot může nabývat kovariance dvou nv? e) Nechť x a y jsou nezávislé. Je možné, že cov(x, y) = 0.58? Proč? f ) Víme, že cov(x, y) = 0. Znamená to, že x a y jsou nutně nezávislé? (Pokud ne, zkuste najít nv, které jsou nekorelované navzdory tomu, že nejsou nezávislé.) g ) Jakých hodnot může nabývat korelační koeficient dvou nv? h) Která z následujících možností může nastat: 1) corr(x, y) = ) corr(x, y) = 0.28, cov(x, y) = 0. 3) corr(x, y) = 0.28, cov(x, y) = ) corr(x, y) = 0.28, cov(x, y) = 0.5. Proč? Jaký je vztah mezi kovariancí a korelačním koeficientem? Příklad 2.11 (Podmíněná střední hodnota.) a) Jaká je průměrná měsíční mzda v ČR? (Zkuste zhruba odhadnout.) b) Představte si, že potkáte někoho na ulici a dozvíte se, že dotyčný dokončil pouze základní školu, nežli začal pracovat. Změní tato informace vaší představu o jeho mzdě? c) Tipněte si hodnoty pro následující ukazatele: E(mzda vzdělání = 9), E(mzda vzdělání = 13), E(mzda vzdělání = 18). (Proměnná mzda je měsíční mzda jedince v Kč a vzdělání je zde vyjádrěno v letech, tj. 9 let vzdělání představuje zpravidla dokončenou základní školu a 18 let magisterský titul.) d) Na základě c zkuste od oka aproximovat E(mzda vzdělání ) pomocí lineárního vztahu E(mzda vzdělání ) = β 0 + β 1 vzdělání. e) Na základě d, jaký je očekávaný rozdíl mezd dvou jedinců, jejichž vzdělání se liší o 1 rok? Jinými slovy, jaká je hodnota E(mzda vzdělání ) vzdělání?) Příklad 2.12 (Podmíněný rozptyl.) Myslíte, že se rozptyl mezd liší v různých kategoriích podle dosaženého vzdělání? Konkrétně, je rozdíl mezi var(mzda vzdělání = 9) a var(mzda vzdělání = 18)? Cvičení 3: Lineární regresní model 5

6 Příklad 3.1 (Teoretická doplňovačka.) Vysvětlujeme-li y pomocí x prostřednictvím lineárního regresního modelu, předpokládáme, že veličina y se v ekonomice/populaci utváří podle vztahu y = β 0 + β 1 x + u, (1) kde u je neznámá (též disturbance) a β 0, β 1 jsou reálná čísla (konstantní parametry, které charakterizují danou ekonomiku/populaci). Koeficientu β 0 říkáme (též intercept). Veličinu u lze chápat jako souhrn vlivů všech dalších faktorů, které spolu s x utvářejí y. Hodnoty β 0, β 1 neznáme, ale máme-li k dispozici sadu pozorování pro veličiny x, y (v případě průřezových dat to bude tzv. ze zkoumané populace), můžeme hodnoty β 0, β 1 alespoň odhadnout (prostřednictvím vhodně zvolených odhadových statistik, též estimátorů, nebo méně korektně, ale stručně jen odhadů). Zatímco parametry β 0, β 1 jsou (neznámé) konstanty, jejich odhadové statistiky (označované zpravidla jako, ) jsou 1, má tedy smysl zabývat se jejich statistickými vlastnostmi, např. jejich střední hodnotou, nebo pravděpodobnostním. Ukáže-li se například, že E ˆβ 1 = β 1, říkáme, že ˆβ 1 je odhadem β 1. Pro odhad zpravidla používáme metodu. Důvodem je to, že tato metoda má řadu dobrých statistických vlastností (např. nestrannost, ale též třeba tzv. konzistenci a vydatnost); to ovšem jenom v případě, že jsou splněny - předpoklady (dále jen G-M předpoklady). Příklad 3.2 (G-M předpoklady šedá teorie.) Zapište stručně G-M předpoklady a řekněte, který z nich vylučuje přítomnost a) heteroskedasticity, b) autokorelace, c) perfektní multikolinearity. Pozn.: G-M předpoklady lze zapsat různým způsobem. Někteří autoři dokonce rozlišují různé varianty G-M předpokladů podle typu použitých dat (průřezová data, časové řady, panel), viz např. mnou doporučovaná Wooldridgeova učebnice. Příklad 3.3 (G-M předpoklady v praxi.) Uvažujte lineární regresní model mzda = β 0 + β 1 vzdělání + u, kde mzda představuje hrubou měsíční mzdu respondenta a vzdělání je měřeno v letech. a) Vysvětlete, proč je v modelu heteroskedasticita, neboli proč var(u vzdělání ) není konstantní (mění se s úrovní dosaženého vzdělání). Rada: Uvědomte si, že při dané hodnotě vzdělání je na pravé straně rovnice všechno kromě u konstantní, tedy var(u vzdělání ) = var(mzda vzdělání ), vizte též příklad b) Vysvětelete, proč v modelu neplatí, že E(u vzdělání ) je konstantní, a vysvětlete, který G-M předpoklad tato skutečnost porušuje. Rada: Ukažte, že u obsahuje vliv nějakého faktoru určujícího mzdu, který je korelovaný se vzděláním jedince. c) Víte, že výběr respondentů bude probíhat náhodným losováním jedinců z populace. Má smysl v takovém případě očekávat autokorelaci? Proč? Příklad 3.4 (Změna jednotek a odhadnuté koeficienty.) Data v souboru birth_weight.gdt pochází z článku J. Mullahyho (1997), cílem je odhadnout nežádoucí dopady matčina kouření cigaret v době těhotenství na zdraví plodu. Jedním ze snadno měřitelných indikátorů zdraví dítěte je jeho porodní váha. Uvažujte následující populační regresní funkci E(bwght cigs) = β a 0 + β a 1 cigs, (a) 1 Záleží totiž na tom, jaká konkrétní pozorování se nám podaří získat (např. při náhodném výběru z populace); jinak řečeno, jak to dopadne v našem výběrovém vzorku s hodnotami neznámé náhodné složky. 6

7 kde bwght ja váha plodu měřená v uncích (1 oz 28 g) a cigs je průměrný počet cigaret, které matka vykouřila za den v průběhu těhotenství. Oba dva ukazatele (porodní váhu i počet cigaret) bychom mohli samozřejmě vyjádřit i v jiných měřítkách: váhu bychom chtěli možná převést na gramy a počet cigaret bychom mohli třeba vyjádřit v krabičkách cigaret namísto v kusech. Místo proměných bwght a cigs bychom pak použili proměnné Uvažujte dále populační regresní funkce bwgram = 28bwght, packs = 1 20 cigs. E(bwght packs) = β b 0 + β b 1packs, E(bwgram packs) = β c 0 + β c 1packs. (b) (c) a) Jaký je vztah mezi koeficienty β a 0, β b 0 a β c 0? A mezi koeficienty β a 1, β b 1 a β c 1? b) S daty ze souboru birth_weight.gdt odhadněte modely (a), (b) a (c) a ověřte, že mezi odhadnutými koeficienty je stejný vztah, jako mezi skutečnými populačními hodnotami parametrů (které jste zkoumali v bodě a). Pozn.: Nejdříve bude potřeba vytvořit proměnné bwgram a packs. Toho docílíte následovně. Zvolíte v menu Add Define new variable... a do zobrazeného příkazového řádku zapíšete bwgram = 28*bwght, resp. packs = cigs/20. c) Kolik žen v datovém souboru nekouřilo během těhotenství? Jaký byl nejvyšší průměrný počet vykouřených cigaret? Rada: Zkuste třeba View Summary statistics nebo Data Sort data.... Příklad 3.5 (Model s konstantní elasticitou.) V tomto příkladu použijte datový soubor house1.gdt, který obsahuje charakteristiky domů prodávaných v roce 1981 v Andoveru, Massachusetts, z článku Kiel a McClain (1995). a) Odhadněte následující rovnici, která poukazuje na souvislost ceny nemovitostí se vzdáleností od nově vybudované městské spalovny odpadu: log(price) = β 0 + β 1 log(dist) + u, kde price je prodejní cena domu v dolarech a dist je vzdálenost od spalovny ve stopách. Rada: Logaritmy obou proměnných je třeba vytvořit před vlastním odhadem pomocí funkce Add Logs of selected variables. Pak již lze odhadovat klasickou mnč, ovšem již s nově vytvořenými proměnnými l_price a l_dist. b) Zapište odhadnutou regresní rovnici a interpretujte koeficient u proměnné log(dist). c) Jaké další faktory ovlivňují prodejní cenu domu? Jsou některé z nich korelovány se vzdáleností od spalovny? Jaké to má důsledky ohledně naplnění G-M předpokladů? Cvičení 4: Statistické vlastnosti MNČ Příklad 4.1 (Teoretická doplňovačka.) V příkladu 3.1 jsme si připomněli, že zatímco koeficienty β j v LRM jsou (neznámé) konstanty, jejich odhady ˆβ j pořízené libovolnou odhadovou technikou jsou náhodné veličiny, neboť závisí na realizaci náhodného výběru z populace. Jsou-li splněny G-M předpoklady, je nejvýhodnější za odhadovou techniku volit MNČ, neboť vykazuje řadu příjemných statistických vlastností, konkrétně, a. říká, že E ˆβ j = β j, neboli při opakovaném náhodném výběru vzorku z populace a následném odhadu parametrů nedochází k systematickému ani vlivu jednotlivých proměnných. Nestrannost není ovšem měřítkem přesnosti odhadů; za ukazatel přesnosti nestranného odhadu ˆβ j se zpravidla bere jeho. Vlastnost MNČ nazývaná (též eficience) říká, že MNČ je ze všech nestranných lineárních technik v průměru nejpřesnější (měřeno čtvercovou odchylkou od skutečné hodnoty parametru), tj. její odhady mají. 7

8 Zatímco a jsou vlastnosti, které se týkají použití MNČ na výběrových souborů libovolného rozsahu, je vlastnost asymptotická, tj. hovoří o tom, co se děje, pokud (n) roste nade všechny meze. Konkrétně říká, že lim Pr{ ˆβ j β j ε } = 0 pro libovolné ε > 0, n neboli = β j. Jelikož rozptyl odhadu ˆβ j slouží jako základní měřítko jeho přesnosti, je třeba umět tento rozptyl odhadnout. K tomu je nejprve třeba dhadnout rozptyl náhodné složky u, který typicky značíme jeho odhad se pak označuje většinou s 2. Potíž je, že náhodnou složku neznáme (nemáme pro ni data); pro příslušný odhad tedy místo ní použijeme. Lze ukázat, že nestranný odhad rozptylu u lze získat jako s 2 =, kde k je počet vysvětlujících proměnných. Rozptyl odhadu ˆβ j 1 při daných hodnotách vysvětlujících proměnných, potom odhadneme jako j-tý diagonální prvek matice, kde matice X obsahuje v prvním sloupci samé jednotky a v j-tém hodnoty pozorování proměnné x j 1. Odmocnině z odhadu rozptylu ˆβ j říkáme odhadu ˆβ j, anglicky standard error, a značíme s ˆβj. Abychom mohli konstruovat intervaly spolehlivosti a provádět testy hypotéz a ohledně hodnot parametrů β j, nestačí znát jen střední hodnotu a rozptyl pro odhady jednotlivých parametrů; potřebujeme vědět, jaké mají. Ukazuje se, že je výhodné mluvit nikoli přímo o rozdělení odhadů, nýbrž o rozdělení standardizovaných odhadů spočtených jako ˆβ j β j, jejichž rozdělení se při splnění G-M předpokladů blíží k (vzorec) při n, tj. pro velké výběry. Pro malé výběry musíme přijmout další předpoklad (nad rámec G-M), a sice předpoklad o složky. Standardizované odhady pak mají rozdělení s stupni volnosti, kde k je počet vysvětlujících proměnných. Příklad 4.2 Vysvětlete, co je špatně na následujících tvrzeních. Všechny se vztahují k odhadům LRM (1). a) Používám nestrannou odhadovou metodu. Nemusím se tedy bát, že můj odhad parametru β 1 bude o hodně vyšší, nežli je jeho skutečná hodnota. b) Moje odhadová technika systematicky nadhodnocuje vliv proměnné x. To znamená, že odhad koeficientu β 1 bude vyšší, nežli je jeho skutečná hodnota. c) Odhadová technika A je vydatnější nežli odhadová technika B. To znamená, že odhady pořízené pomocí A jsou vždy přesnější než odhady pořízené pomocí B. Příklad 4.3 (Monte Carlo.) Na přednáškách zkoumáte statistické vlastnosti MNČ analytickými prostředky. Existuje ještě jiná možnost, a sice počítačová simulace (někdy též nazývaná metodou Monte Carlo). Uvažujte lineární regresní model y = β 0 + β 1 x + u, β 0 = 5, β 1 = 10, (2) který splňuje všechny G-M předpoklady, a náhodný výběr o 15 pozorováních. Proveďte následující simulaci v MS Excel (můžete využít soubor MonteCarlo.xls). a) Náhodně generujte hodnoty x a u pro vašich 15 pozorování a zapište je do dvou sloupců. Použijte funkci RANDBETWEEN tato funkce vrací náhodná celá čísla mezi zadanými mezemi. Pro x můžete použít libovolné meze, nicméně aby byly splněny G-M předpoklady, Eu musí být rovno nule. Horní a dolní mez pro u musí tedy být opačná čísla; jinými slovy, použijte RANDBETWEEN( u max, u max ). b) Vytvořte sloupce pro y a E[y x]; ty budou dopočítány podle (2). 8

9 c) Nakreslete bodový diagram (scatterplot) pro y vs. x a přidejte do něj přímku E[y x] = β 0 +β 1 x. Za opakovaného stisku klávesy F9 sledujte, jak se vyvíjejí hodnoty pro váš náhodný výběr. Co představuje v grafu náhodná složka u? d) Spočtěte odhady ˆβ 0 a ˆβ 1 pořízené MNČ pomocí funkcí INTERCEPT a SLOPE. Pak vypočítejte vyrovnané hodnoty vysvětlované proměnné (ŷ) a rezidua (e). Přidejte do grafu získanou regresní funkci, tj. přímku ŷ = ˆβ 0 + ˆβ 1 x. Opět tiskněte F9 a posuďte, jak blízko jsou ke skutečným hodnotám β 0 a β 1. Který z dvou odhadů bývá v průměru přesnější, ˆβ 0 nebo ˆβ 1? Co představují v grafu rezidua e? e) Desetkrát stiskněte F9, zapište výsledné hodnoty ˆβ 0 a ˆβ 1 a pak spočtěte prostý aritmetický průměr ze všech deseti pokusů pro ˆβ 0 a ˆβ 1. Jaké výsledky byste očekávali, kdybychom provedli tisíc pokusů místo deseti? f ) Otevřete soubor MonteCarlo2.xls. Je zde zautomatizován experiment z bodu e pro tisíc pokusů. Všech tisíc hodnot pro ˆβ 0 a ˆβ 1 je zapsáno ve sloupcích W a AC. Ve stejných sloupcích lze vyčíst i průměr a výběrovou směrodatnou odchylku ze všech 1000 pokusů. Porovnejte směrodatné odchylky pro ˆβ 0 a ˆβ 1. Odpovídá rozdíl těchto hodnot vašim předchozím závěrům ohledně přesnosti jednotlivých odhadů? g ) Histogramy napravo zachycují relativní četnosti pro ˆβ 0 (zelená) a ˆβ 1 (modrá) v rámci všech 1000 pokusů. Tyto grafy nám napovídají něco o pravděpodobnostních rozděleních náhodných veličin ˆβ 0 a ˆβ 1. Připomínají vám histogramy svým tvarem nějaké důvěrně známé rozdělení? h) Vytvořte nový soubor v MS Excel a uložte do prvních dvou sloupců aktuálních 15 hodnot proměnných x a y. Následně načtěte data z tohoto souboru do Gretlu a odhadněte lineární regresní model y = β 0 + β 1 x + u pomocí MNČ. Co vám říkají hodnoty ve sloupci std. error? Odpovídají jejich hodnoty podobným údajům zjištěným na základě Monte Carlo simulací? Co je nejspíš přesnějším měřítkem rozptylu odhadů, čísla ve sloupci std. error v Gretlu nebo směrodatné odchylky spočítané ze souboru 1000 pokusů pro ˆβ 0 a ˆβ 1? Příklad 4.4 (Asymptotika.) Společnost Klapeme, s. r. o., pořádá intenzivní tréninkové kurzy v psaní všemi deseti. Jejím cílem je odhadnout model, který porovnává hodiny tréninku (trénink) s počtem překlepů na jednu přepisovaného textu (překlepy). Bude proto odhadovat lineární regresní model překlepy = β 0 + β 1 trénink + u. Představme si, že by firma postupně sbírala údaje o náhodném souboru 10 lidí, 20, lidí, 100 lidí, 1000 lidí atd. a pokaždé odhadla koeficienty β 0 a β 1. Předpokládejme, že jsou v modelu splněny všechny G-M předpoklady. Určete, které z následujících statistik se budou někam systematicky vyvíjet (nahoru či dolů) a uveďte kam. U ostatních (které budou oscilovat nesystematicky) určete, zdali se s rostoucím rozsahem výběru bude ustalovat jejich hodnota okolo určité úrovně. a) odhadnuté koeficienty, b) odhad rozptylu náhodné složky, c) směrodatné chyby (standard errors) odhadovaných koeficientů, d) R 2. Co se bude dít s t-poměrem pro trénink (t b1 = b 1 /s b1 ), předpokládáme-li, že... a)... trénink je zcela k ničemu. b)... trénink pomáhá při omezení překlepů. Lze v tomto případě nějak snadno určit asymptotické pravděpodobnostní rozdělení pro t-poměr? Cvičení 5: Vícenásobná regrese Příklad 5.1 Vaším záměrem je provést pro studenty VŠE studii, která se se zabývá vztahem mezi studijním průměrem a časem stráveným různými aktivitami. Máte k dispozici výsledky ankety, ve které studenti rozdělili celý svůj průměrný týden mezi následující čtyři kategorie: studium, práce, zábava a spánek. Studenti měli za úkol roztřídit veškeré své aktivity mezi tyto čtyři kategorie, čili součet hodin strávených ve všech kategoriích musí dát

10 a) Uvažujte lineární regresní model stud_průměr = β 0 + β 1 studium + β 2 práce + β 3 zábava + β 4 spánek + u. (3) Mohou se dvě pozorování (např. i-tý a j-tý student) lišit pouze v jedné vysvětlující proměnné? b) Vysvětlete, proč vysvětlující proměnné v modelu (3) porušují G-M předpoklady. c) Navrhněte nějakou změnu modelu (3) tak, aby byl odstraněn problém s G-M předpoklady, a koeficienty modelu (tj. β j ) měly přitom interpretaci, která se vztahuje k původnímu zadání. Uveďte interpretaci koeficientů v upraveném modelu. Příklad 5.2 (Spánek vs. práce.) Následující model je zjednodušenou verzí modelu z článku Biddleho a Hamermeshe (1990), který mj. zkoumá, zda lidé kompenzují delší pracovní dobu zkrácením délky spánku: sleep = β 0 + β 1 totwrk + β 2 educ + β 3 age + u, kde sleep a totwrk (total work) jsou vyjádřeny v minutách za týden a educ (education) a age jsou měřeny v letech. a) Pokud lidé kompenzují delší pracovní dobu kratším spánkem, jaké je znaménko β 1? b) I v případě, že model je zcela správně specifikován (a všechny G-M předpoklady jsou splněny), musí nutně vyjít stejné znaménko i u ˆβ 1? c) Co si myslíte o znaménkách koeficientů β 2 a β 3? d) Data o výběrovém vzorku obsahuje souboru sleep.gdt, odhadněte uvažovaný model a zapište odhadnutou regresní funkci. e) Přesně interpretujte odhadnuté koeficienty. f ) Pokud se někdo rozhodne pracovat o 5 hodin týdně víc, jaké zkrácení jeho doby spánku byste očekávali? Je to velká kompenzace? g ) Vysvětlují proměnné totwrk, educ, a age velkou část výběrové variability proměnné sleep? Jaké další faktory ovlivňují délku spánku? Mohou být některé z nich korelovány s totwrk? Který z G-M předpokladů by to porušilo? h) Máte za úkol provést na 5% hladině významnosti statistický test s hypotézami H 0 : β 2 = 0, H 1 : β 2 0. Vysvětlete, co přesně říká nulová hypotéza, a následně test vyhodnoťte. i) Změnil by se závěr předchozího testu, pokud bychom použili jednostrannou alternativu H 1 : β 2 < 0? Příklad 5.3 (Nízké R 2.) Pro tento příklad použijte soubor birth_weight.gdt (se kterým jsme pracovali už v příkladě 3.4). a) Odhadněte rovnici log(bwght) = β 0 + β 1 cigs + β 2 log(faminc) + β 3 male + β 4 parity + β 5 white + u a zapište odhadnutou regresní funkci v rovnicovém tvaru, včetně směrodatných chyb. Rada: Můžete po odhadu rovnice využít funkce File View as equation. b) Interpretujte získané R 2. Myslíte, že jeho hodnota snižuje použitelnost modelu? c) Máte testovat, zda je vliv kouření ceteris paribus statisticky významný na hladině významnosti 5 %. Formulujte formálně nulovou a alternativní hypotézu (použijte oboustrannou alternativu). Test následně vyhodnoťte pomocí 95% intervalu spolehlivosti pro koeficient β 1, který vypočtěte podle přibližného vztahu neboli v Gretlu bodový odhad ± 2 směrodatná chyba, coefficient ± 2 std. error. Poté výsledek porovnejte s výsledkem Analysis Confidence intervals for coefficients. Co přesně nám říká 95% interval spolehlivosti? Myslíte, že je vliv kouření v těhotenství odhadnutý dostatečně přesně? 10

11 Příklad 5.4 (Ojeté škodovky interpretace, dummy proměnné atd.) Data, se kterými se pracuje v tomto příkladě, pocházejí z ledna 2004 a týkají se 328 ojetých vozů značky Škoda; konkrétně jde o modely Octavia, Felicia a Superb. Shromáždil jsem je kdysi pro účely semestrální práce na předmět Statistika a SPSS na této škole. a) Prohlédněte si obsah souboru škoda_původní.xls a zamyslete se, jak kvantifikovat do ekonometrických proměnných údaje o modelu vozu, použitém palivu a objemu motoru. b) Ve zbylých úkolech pracujte se souborem škoda.gdt. Otevřete jej v Gretlu a podívejte se, jak jsou kvantifikovány jednotlivé proměnné. Rada: Zobrazení dat, které nejvíce připomíná databázi z tabulkového kalkulátoru typu MS Excel, se vyvolá pomocí View Icon view Data set. c) Odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a stari a interpretujte odhadnuté koeficienty u jednotlivých regresorů. Lze nějak smysluplně interpretovat i intercept? Připadá vám jeho výše rozumná? d) Nechte otevřené okno s předchozím výstupem a odhadněte LRM, který vysvětluje cenu vozidla pomocí proměnných km a rok. Sledujte rozdíly oproti předchozímu modelu. Jak byste interpretovali konstantu v tomto případě? e) Odhadněte lineární regresní model, který vysvětluje cenu vozidla pomocí všech dostupných regresorů. Proč byly z modelu vyřazeny některé proměnné? Vysvětlete. f ) Odhadněte model znovu, tentokrát vynechejte vysvětlující proměnné rok, felicia a benzin. Interpretujte koeficienty a porovnejte je s předchozími výsledky. g ) Zkuste vytvořit co nejlepší model vysvětlující cenu ojeté škodovky. Je zde lineární tvar regresního modelu na místě? Zkuste odpověď ekonomicky zdůvodnit, zvažte (a následně odhadněte) jiný funkční tvar modelu. Důsledně interpretujte odhadnuté koeficienty a porovnejte je s předchozími výsledky. h) Jakou cenu byste požadovali (v lednu 2004) za škodu Felicii, která má najeto km, motor 1.9D a je vyrobena v roce 1998? Návod: Pokud jste v předchozím bodě pracovali podle mých očekávání, berete za vysvětlovanou proměnnou log(cena). Predikce v takovém případě není úplně jednoduchá, viz Wooldridge (2002), str Cvičení 6: Vícenásobná regrese II Příklad 6.1 (Lineární restrikce koeficientů.) a) Uvažujte model, který vysvětluje závislost mezd (wage) na vzdělání (v letech, educ), pracovních zkušenostech (v letech, exper), a době strávené u aktuálního zaměstnavatele (v letech, tenure), ve tvaru log(wage) = β 0 + β 1 educ + β 2 exper + β 3 tenure + u, b) Formulujte nulovou hypotézu, že dodatečný rok všeobecných pracovních zkušeností má stejný dopad na mzdu jako další rok strávený u stávajícího zaměstnavatele. c) Odhadněte zadaný model pomocí dat ze souboru wages.gdt. Testujte hypotézu z bodu b proti oboustranné alternativě na hladině významnosti 5%. Příklad 6.2 (Interakce proměnných, F -test a multikolinearita.) Pracujte opět s daty v souboru škoda.gdt, se kterými jste pracovali již v příkladu 5.4. a) Budeme se zajímat o rozdíly mezi Octaviemi a Feliciemi. Jelikož Superby v našem výběrovém souboru svými charakteristikami značně vybočují (v roce 2004 byly všechny existující Superby poměrně nová auta), budeme je chtít z výběrového souboru pro následující výpočty vypustit. Omezte tedy výběrový soubor pouze na ta pozorování, kde superb = 0. Návod: Použijte funkci Sample Restrict, based on criterion. b) Vaším cílem je zjistit, zdali se pro Octavie a Felicie liší přirážka za variantu kombi. Odhadujete proto model cena = β 0 + β 1 octavia + β 2 kombi + β 3 octavia kombi + u. 11

12 Vysvětlete přesně, jakou interpretaci budou mít jednotlivé parametry. Následně formulujte hypotézu, že přirážka za kombi variantu je pro oba modely shodná. Nakonec model odhadněte a hypotézu testujte na 5% hladině proti jednostranné alternativě, že přirážka za kombi je vyšší pro Octavie. c) Vysvětlete, proč předchozí model neposkytl netranný odhad rozdílu přirážky v důsledku kombi varianty. Jinými slovy, ukažte, že nejde o rozdíl v přirážce ceteris paribus. Následně se pokuste formulovat model, který bude v tomto ohledu vyhovovat lépe, a opakujte test hypotézy z předchozího bodu. d) Odhadněte model, který bude vysvětlovat logaritmus ceny vozu pomocí všech dostupných proměnných (již víte, že některé z proměnných udávajících model a palivo je třeba vynechat; vynechejte proto proměnné octavia a benzin). Následně formulujte a testujte hypotézu, že palivo nemá vliv na výši ceny (ceteris paribus). e) Spočtěte tzv. VIF ukazatel v předchozím modelu pro proměnnou stari: odhadněte pomocný model, který vysvětluje stáří vozu pomocí proměnných udávajících najeté kilometry, model, typ karoserie a palivo, a spočtěte VIF stari = 1/ ( 1 R 2 stari), kde R 2 stari je koeficient determinace z pomocné regrese. f ) Dopočtěte VIF pro ostatní proměnné pomocí procedury Tests Collinearity v okně s výstupem pro model z bodu d. Příklad 6.3 (Kvadratická regrese.) Pro tento příklad použijte data ze souboru wages.gdt. a) Odhadněte lineární regresní model ve tvaru wage = β 0 + β 1 exper + β 2 exper 2 + u a zjistěte, zdali mají zkušenosti jedince (vyjádřené v letech) vždy pozitivní vliv, či zda mohou po určitém počtu let z hlediska mzdy spíše škodit. Pokud ano, najděte takovou hodnotu exper, kdy začínají dodatečné zkušenosti snižovat mzdu ( bod zlomu ). Diskutujte možné zkreslení závěrů při použití uvedeného modelu. b) Na základě bodu a zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. c) Řešte analogický problém jako v bodu a s tím, že tentokrát použijete logaritmované mzdy, tj. budete pracovat s modelem log(wage) = β 0 + β 1 exper + β 2 exper 2 + u. d) Na základě bodu c zjistěte, s jakým přírůstkem mzdy je spojen pátý rok zkušeností. Použijte přitom aproximaci % wage. = 100( ˆβ ˆβ 2 exper) exper. e) Odhadněte lineární regresní model ve tvaru wage = β 0 + β 1 exper + β 2 exper 2 + β 3 educ + β 4 female + u a formulujte hypotézu, že vliv pracovních zkušeností není významný. Následně tuto hypotézu testujte na 5% hladině významnosti. f ) Zjistěte, zda se výnosnost investice do vzdělání (returns to education) liší pro muže a ženy (použijte vhodný regresní model, který bude obsahovat interakci female educ). g ) Nahraďte v předchozím modelu interakci female educ výrazem female (educ 12.5). Porovnejte v obou modelech koeficient u proměnné female a diskutujte rozdíly. h) Zjistěte, zda se výnosnost investice do vzdělání liší pro občany bílé pleti a pro ostatní. i) Odhadněte model, ve kterém se výnosnost investice do vzdělání liší podle dosažených zkušeností. Testujte nulovou hypotézu, že výnosnost investice na aktuální úrovni zkušeností nezávisí. Cvičení 7: Heteroskedasticita 12

13 Příklad 7.1 (Teoretická doplňovačka.) Vyskytuje-li se v našem LRM heteroskedasticita, znamená to, že je porušen jeden z - předpokladů, konkrétně ten, který vyžaduje, aby byl konstantní (a konečný); matematicky zapsáno, =, kde x představuje vektor všech vysvětlujících proměnných a σ 2 je nějaké kladné reálné číslo. Již jsme si uvedli příklad modelů, ve kterých se zdá zřejmé, že tento předpoklad bude porušen viz třeba příklad 3.3. Obecně vzato, heteroskedasticita se vyskytuje jak u průřezových dat, tak v časových řadách. U průřezových dat zpravidla předpokládáme, že se rozptyl náhodné složky systematicky mění s hodnotami jedné nebo několika vysvětlujících proměnných. U časových řad existuje navíc možnost, že rozptyl náhodné složky kolísá. Heteroskedasticita nestrannost a konzistenci odhadů regresních koeficientů pořízených. Je ovšem zřejmé, že nejsou korektně spočteny veškeré ukazatele, při jejichž výpočtu se pracuje se σ 2 (neboť při heteroskedasticitě nemá smysl počítat s jedním číslem, které by charakterizovalo rozptyl náhodné složky pro všechna pozorování). Konkrétně, nejsou korektní výsledky ohledně chyb, čili ani výsledky -testů a -testů. Vztaženo k výstupu z Gretlu, nemá smysl se příliš zabývat výsledky v posledních (doplňte číslovku) sloupcích výsledkové tabulky a v. řádku výstupu pod tabulkou. Přítomnost heteroskedasticity lze statisticky testovat. Jelikož chceme zjistit něco o náhodné složce u, jejíž hodnoty však neznáme, používáme pro účely testování hodnoty, spočtené po odhadu modelu pomocí MNČ. Statistické testy heteroskedasticity lze dělit na a. První z nich se vyznačují tím, že předpokládáme nějaký konkrétní funkční tvar závislosti rozptylu náhodné složky na hodnotách vysvětlujících proměnných a odhadujeme parametry této funkce. Patří sem například test nebo - test. V obou těchto testech se postupuje nejprve tím způsobem, že se odhadne pomocný LRM, který vysvětluje hodnotu (která aproximuje rozptyl náhodné složky) pomocí všech vysvětlujících proměnných z původního modelu ( test zde zahrnuje i druhé mocniny a interakce těchto proměnných). Pokud je v modelu, neměly by být v této pomocné regresi vysvětlující proměnné jako celek statisticky významné pro vyhodnocení lze tedy použít -test. Tradičně se ovšem používají i jiná kritéria, konkrétně tzv. LM -statistika, spočtená jako, kde n je počet pozorování a Re 2 je koeficient determinace z pomocné regrese. Tato statistika se testuje proti 2 kritickým hodnotám rozdělení s stupni volnosti, kde p je počet odhadovaných parametrů v pomocné regresi. Příkladem testu je Spearmanův test korelace pořadí. Vychází z myšlenky, že pokud se rozptyl náhodné složky systematicky vyvíjí s hodnotami proměnné x, potom by mělo být korelováno pořadí pozorování podle e a podle x. Počítá se proto Spearmanův podle vzorce r e,x = 1 6 n i=1 d2 i n(n 2 1). Jeho možné hodnoty jsou mezi a, hodnoty poblíž obou těchto extrémů indikují přítomnost. Ná základě r e,x lze též konstruovat statistický test, jehož testová statistika se dopočte z r e,x a porovnává se s kvantily Studentova rozdělení. Pro praktické použití je důležité si pamatovat, že nulová hypotéza u všech testů heteroskedasticity říká, že náhodná složka u je. Nízké p-hodnoty tedy poukazují na heteroskedasticity. Příklad 7.2 (Testování heteroskedasticity.) Pro tento příklad použijte soubor house2.gdt. a) Odhadněte rovnici price = β 0 + β 1 lotsize + β 2 sqrft + β 3 bdrms + u a uložte druhou mocninu reziduí, tj e 2 (Save Squared residuals). 13

14 b) Proveďte Breuschův-Paganův test heteroskedasticity: odhadněte rovnici e 2 = γ 0 + γ 1 lotsize + γ 2 sqrft + γ 3 bdrms + ε a testujte nulovou hypotézu o současném vynulování parametrů γ 1, γ 2, γ 3. Poté spočtěte hodnotu LM -statistiky a porovnejte ji s 95% kvantilem χ 2 3. Jaké jsou závěry testů ohledně přítomnosti heteroskedasticity? c) Proveďte Whiteův test heteroskedasticity: vysvětlete e 2 pomocí proměnných lotsize, sqrft, bdrms, lotsize 2, sqrft 2, bdrms 2, lotsize sqrft, lotsize bdrms, sqrft bdrms a testujte hypotézu o současném vynulování koeficientů u těchto proměnných. Poté opět testujte pomocí LM -testu. Jaký bude v tomto příkladě počet stupňů volnosti pro použité χ 2 rozdělení? d) Odhadněte model z bodu a znovu, tentokrát však pracujte se vzorcem pro výpočet směrodatných chyb, který je robustní vůči heteroskedasticitě. Jak se změnily intervalové odhady a závěry z testů hypotéz? e) Odhadněte model metodou zobecněných nejmenších čtverců (MZNČ, Model Other linear models Heteroskedasticity corrected) a porovnejte s předchozími výsledky. f ) Opakujte body a, b, c pro model log(price) = β 0 + β 1 log(lotsize) + β 2 log(sqrft) + β 3 bdrms + u. Pozn.: Logaritmická transformace vysvětlované proměnné často pomůže snížit míru heteroskedasticity. Příklad 7.3 (Spearman korelující, testující.) Hodnoty proměnné x v lineárním regresním modelu y = β 0 + β 1 x + u a hodnoty reziduí získané po odhadu parametrů pomocí MNČ jsou uvedeny v následující tabulce. Pomocí Spearmanova koeficientu korelace pořadí vyšetřete, zda je v modelu přítomna heteroskedasticita. i x i e i Příklad 7.4 (Cobbova-Douglasova produkční funkce.) Soubor CDPF.gdt obsahuje data o 868 zemědělských firmách, jmenovitě záznamy o roční produkci obilovin (produkce), použitém množství hnojiva NPK (hnojivo) a spotřebě energie a maziv (energie), vždy vztaženo k hektaru půdy. a) Odhadněte Cobbovu-Douglasovu produkční funkci pro uvedené vstupy a výstup a zapište její výsledný tvar. b) Určete charakter výnosů z rozsahu pro vaši produkční funkci. Testujte na 5% hladině nulovou hypotézu, že výnosy z rozsahu jsou konstantní. c) Určete elasticitu (tj. relativní pružnost) produkce vůči změnám v použitém množství hnojiva. d) Určete mezní míru technické substituce hnojiva za energii. e) Určete elasticitu substituce hnojiva za energii. Cvičení 8: Úvod do práce s časovými řadami Příklad 8.1 (Trendy lososi.) V souboru losos.gdt najdete časovou řadu popisující roční výlov lososů norskými rybářskými společnostmi (losos) a údaje o hrubém domácím produktu USA (gdp) za roky a) Odhadněte rovnici gdp t = β 0 + β 1 losos t + u t a otestujte, zda je β 1 statisticky významně odlišné od nuly. Co vám říká výsledek o provázanosti rybolovu v Norsku a HDP v USA? Vysvětlete. 14

15 b) Odhadněte stejný model s tím, že nejprve očistíte proměnnou gdp o lineární trend. Nejprve přidejte v Gretlu proměnnou t, která bude v roce 1983 nabývat hodnoty 1, v roce 1984 hodnoty 2 atd. Nejsnáz toho docílíte volbou Add Time trend. Poté odhadněte rovnici gdp t = α 0 + α 1 t + ε t a uložte výsledná rezidua pod názvem gdpoc (tato rezidua představují HDP v USA očištěný o lineární trend). Nakonec odhadněte rovnici gdpoc t = β 0 + β 1 losos t + u t. Co říkají nové výsledky o vztahu obou veličin? c) Odhadněte rovnici gdp t = β 0 + β 1 losos t + β 2 t + u t a porovnejte s výsledky z bodu b. Příklad 8.2 (Lineární vs. exponenciání trend.) V souboru HDP.xls najdete údaje o HDP v ČR v letech Nejprve importujte data do Gretlu a zvolte příslušný formát časové řady. Poté popište vývoj HDP v čase pomocí a) lineárního trendu, tj. odhadněte model b) exponenciálního trendu, tj. odhadněte model hdp t = β 0 + β 1 t + u t, ln(hdp t ) = β 0 + β 1 t + u t. V obou případech důsledně interpretujte koeficient β 1. Příklad 8.3 (Logistický růstový model.) V souboru mycka.xls najdete údaje o vývoji vybavenosti domácností v ČR myčkou nádobí v letech (hodnoty představují počet domácností v tisících). Odhadněte logistický růstový model pro vybavenost myčkou za předpokladu, že potenciální velikost celého trhu je 4 mil. domácností. Určete a interpretujte inflexní bod odhadnuté logistické S-křivky. Příklad 8.4 (Sezónní ochutnávka.) Měsíční a čtvrtletní makroekonomické časové řady se zpravidla vykazují v podobě sezónně očištěných údajů; bývá problém vůbec se dostat k původním neočištěným údajům. V případě, že pracujete s neočištěnými údaji, je dobré vědět, že existuje jedna velmi jednoduchá metoda pro posouzení a korekci sezónnosti, založená na použití dummy proměnných. a) Soubor durgoods.gdt obsahuje čtvrtletní údaje o prodeji předmětů dlouhodobé spotřeby v USA v letech Otevřete tento soubor a sdělte Gretlu, že se jedná o čtvrtletní časovou řadu (Data Dataset structure). b) Vytvořte dummy proměnné q 1t až q 4t definované jako { 1 pro pozorování z i-tých čtvrtletí, q it = 0 jinak. V Gretlu toho docílíte snadno volbou Add Periodic dummies. Následně odhadněte model dish t = β 0 + β 1 q 1t + β 2 q 2t + β 3 q 3t + u t. O kolik se v průměru liší prodeje myček (dish) v poslední čtvrtletí oproti prvnímu? c) Formulujte nulovou hypotézu, že prodeje myček nepodléhají sezónním výkyvům. Následně ji testujte na 5% hladině významnosti. d) Proveďte stejnou analýzu i pro ledničky a pračky. Který z výrobků vykazuje při prodeji sezónnost? Uměli byste vaše výsledky nějak ekonomicky zdůvodnit? 15

16 e) Pro model popisující pračky si nechte vykreslit graf s původní i sezónně očištěnou časovou řadou (Graphs Fitted, actual plot...). Příklad 8.5 (Dynamická CDPF.) V souboru farms.gdt najdete agregovaná data o zemědělské výrobě v USA za roky 1948 až a) Odhadněte model ln(output t ) = β 0 + β 1 ln(labor t ) + β 2 ln(machines t ) + u t. Interpretujte odhadnuté koeficienty a vysvětlete, proč nejsou v souladu s apriorními očekávání jejich hodnot. Diskutujte možné příčiny. b) Odhadněte dynamickou Cobbovu-Douglasovu produkční funkci, tj. model output t = β 0 labor β1 t machines β2 t e β3 t+ut, interpretujte získané odhady a porovnejte výsledky s bodem a. Cvičení 9: Autokorelace Příklad 9.1 Autokorelace se vyskytuje především při práci s. Jedná se o porušení jednoho z - předpokladů, konkrétně toho, který požaduje, aby (zapište vzorcem) pro všechna s různá od t. Při její detekci zpravidla předpokládáme, že náhodné složky u t jsou generovány procesem (tzv. AR(1) procesem), který má předpis u t =, (4) kde ρ představuje koeficient prvního řádu a ε t jsou v čase nekorelované náhodné složky s nulovou střední hodnotou a konstantním a konečným rozptylem. Aby byl AR(1) proces stacionární, musí být hodnota ρ mezi a. Je-li ρ > 0, hovoříme o autokorelaci, pokud ρ < 0, jde o autokorelaci. Koeficient ρ se zpravidla odhaduje tak, že do rovnice (4) dosadíme namísto neznámých hodnot náhodné složky (u t ) známá, získaná po odhadu původní rovnice (y = x β + u) metodou nejmenších čtverců. Namísto (4) tak získáme rovnici = + ε t, (5) kterou můžeme opět odhadnout MNČ. Při detekci autokorelace ovšem nevycházíme z předchozí rovnice, nýbrž zpravidla počítáme tzv. - statistiku d podle předpisu d =. Pro dané k a n (tj. počet regresorů a pozorování) jsou tabelovány kritické hodnoty a, na jejichž základě vyhodnocujeme tzv. DW-test následujícím způsobem: je-li d <, počítáme s autokorelací, je-li d >, počítáme s autokorelací, je-li d mezi a, nezamítáme hypotézu o absenci autokorelace, v ostatních případech jsou výsledky DW-testu neprůkazné. DW-test není korektní (a nepoužíváme ho) v případě, že zkoumaný model neobsahuje zkoumaný model obsahuje mezi regresory zpožděné hodnoty, nebo proměnné. 16

17 Příklad 9.2 Hodnoty reziduí, které byly získány po odhadu lineárního regresního modelu y t = β 0 + β 1 x t + u t, t = 1, 2,..., 6 pomocí mnč, jsou v následující tabulce. Testujte pomocí Durbinovy-Watsonovy statistiky, zda je v modelu přítomna autokorelace. t e t Příklad 9.3 V souboru usa.gdt jsou k dispozici roční údaje o agregátní spotřebě v USA (cons) a hrubém domácím produktu USA (usa) v letech a) Odhadněte lineární regresní model gdp t = β 0 + β 1 cons t + β 2 t + u t, t = 1959,..., 1994 a testujte, zda se v získaných reziduích vyskytuje autokorelace. Nejprve použijte Durbinovu- Watsonovu statistiku (tj. proveďte DW-test), a poté proveďte t-test pro rovnice tvaru b) Odhadněte lineární regresní model e t = ρe t 1 + v t, e t = β 0 + β 1 cons t + β 2 t + β 3 e t 1 + ε t. gdp t = β 0 + β 1 cons t + β 2 gdp t 1 + u t, t = 1960,..., 1994 a testujte, zda se v získaných reziduích vyskytuje autokorelace. Použijte Durbinovo h a Breuschův-Godfreyův test. Příklad 9.4 S použitím dat ze souboru makro.xls uvažujte lineární regresní model ve tvaru output t = β 0 + β 1 cons t + β 2 inc t + u t, t = 1980:1,..., 2004:4. a) Model odhadněte pomocí mnč a ukažte, že je v modelu přítomna autokorelace prvního řádu. b) Pokuste se odstranit autokorelaci s využitím odhadu r autokorelačního koeficientu ρ. c) Odhadněte model pomocí Cochraneovy-Orcuttovy metody a porovnejte výsledky z bodů a,b,c. Cvičení 10: Průběžný test Cvičení 11: Modely simultánních rovnic Příklad 11.1 Uvažujte model simultánních rovnic popisujících funkce nabídky a poptávky ve tvaru q t = α 0 + α 1 p t + α 2 y t + u t, t = 1, 2,..., T, q t = β 0 + β 1 p t + v t, t = 1, 2,..., T, (6) přičemž předpokládáme, že hodnoty parametrů splňují α 1 > 0, α 2 < 0, β 1 > 0. a) Určete, které proměnné jsou v uvedeném modelu endogenní a které exogenní. b) Soustava (6) představuje strukturní tvar msr. Převeďte soustavu do tvaru redukovaného. c) po odhadu redukovaného tvaru p t = π 10 + π 11 y t + w 1t, t = 1, 2,..., T, q t = π 20 + π 21 y t + w 2t, t = 1, 2,..., T jsme získali následující hodnoty: π 10 = 1, π 11 = 2, π 20 = 3, π 21 = 4. Pokuste se na základě těchto hodnot odhadnout původní parametry modelu (6). 17

18 d) Ověřte řádovou podmínku identifikace obou rovnic. e) Ověřte hodnostní podmínku identifikace obou rovnic. Příklad 11.2 V souboru plyn.xls jsou uvedeny údaje z USA o celkových tržbách za dodávky plynu v mld. USD (q), cenách plynu (p) a příjmech domácností (y) v letech Uvažujte model simultánních rovnic q t = α 0 + α 1 p t + α 2 y t + u t, t = 1981,..., 2000, q t = β 0 + β 1 p t + β 2 q t 1 + v t, t = 1981,..., a) Určete, které proměnné jsou v uvedeném modelu endogenní a které predeterminované. b) Určete, zda jsou jednotlivé rovnice podidentifikované, přesně identifikované nebo přeidentifikované. c) Odhadněte soustavu (7) metodou nepřímých nejmenších čtverců. d) Odhadněte soustavu (7) metodou dvoustupňových nejmenších čtverců a porovnejte výsledky s přechozím bodem. (7) Cvičení 12: Rezerva Dodatek: Namátkové poznámky Multikolinearita. Platí: var( ˆβ j x) = σ 2 SST j (1 R 2 j ), kde SST j = i (x ij x j ) 2, tedy SST j je celkový součet čtverců proměnné x j, a Rj 2 je koeficient determinace z pomocné regrese, kde vysvětlujeme x j pomocí zbylých vysvětlujících proměnných, tj. pomocí x 1,..., x j 1, x j+1,..., x k. V Gretlu lze snadno vypočítat tu část výše uvedeného vzorečku, která poukazuje na míru multikolinearity, a sice tzv. variance inflation factors (VIF), definované jako 1 VIF j = 1 Rj 2. VIF se zobrazí, zvolíme-li v menu okna s výstupem po odhadu modelu volbu Tests Collinearity. Gretl naznačuje, že multikolinearitou má smysl se zabývat, je-li pro některé j hodnota VIF > 10, což odpovídá tomu, že Rj 2 > 0.9. Pravdou ale je, že toto číslo nelze nijak pádně odůvodnit. Testování hypotéz po odhadu LRM. Po odhadu LRM lze testovat celá řada statistických hypotéz, udělejme si stručný přehled, jak na ně. Významnost (parciálního, tj. očištěného) vlivu jednotlivých proměnných. Testujeme vlastně hypotézu o skutečném (ale neznámém) parametru β j, konkrétně při oboustranném testu H 0 : β j = 0, H 1 : β j 0. Tady je situace jednoduchá, Gretl nám vrací automaticky p-hodnotu daného testu (a rovněž všemi tak oblíbené hvězdičky) v základní výsledkové tabulce. Často chceme volit test jednostranný např. že stáří vozu (což je řekněme j-tá vysvětlující proměnná) má negativní vliv na jeho cenu, tj. chceme testovat H 0 : β j = 0, H 1 : β j < 0. Tady je na místě ostražitost. Vyjde-li ˆβ j > 0, zřejmě nezamítáme nulovou hypotézu. V opačném případě. tj. pokud data poukazují na očekávaný směr závislosti, stačí použít opět p-hodnotu z výsledkové tabulky s tím, že ji nejprve vydělíme 2! 18

19 Konkrétní úroveň vlivu jednotlivých proměnných. Obecnějším případem předchozího testu je nulová hypotéza ve tvaru H 0 : β j = c, kde c je libovolná konstanta. Volíme-li oboustrannou hypotézu, můžeme vyhodnotit test pomocí intervalu spolehlivosti: pokud neleží c v 95% intervalu spolehlivosti pro β j, zamítáme H 0 na 5% hladině významnosti. Analogicky můžeme postupovat pro jiné hladiny významnosti, ale 95% interval spolehlivosti se snadno přibližně spočítá jako coefficient ± 2 std. error. Pro libovolnou podobu alternativní hypotézy pak můžeme využít výsledek ˆβ j β j při H 0 coefficient c = s ˆβj std. error t n k 1, kde t n k 1 je Studentovo rozdělení s n k 1 stupni volnosti. Při testování vypočítáme výraz za rovnítkem a porovnáme s kritickými hodnotami ze Studentova rozdělení, které najdeme pod Tools Statistical tables v základním okně Gretlu. Významnost souhrnného vlivu několika proměnných. Tento test používáme např. v případě, že chceme testovat významnost vlivu kategoriálního faktoru zakódovaného do sady dummy proměnných viz příklad 6.2c, nebo pokud máme testovat vliv proměnné, která se vyskytuje v první i druhé mocnině (kvadratická regrese) viz příklad 6.3e. V posledním zmiňovaném příkladu jsme měli hypotézy ve tvaru H 0 : β 1 = β 2 = 0, H 1 : non H 0, testujeme ji tzv. F -testem. Jméno naznačuje, že testová statistika má za platnosti H 0 Fisherovo (též Fisherovo-Snedeckerovo) rozdělení s vhodně zvolenými stupni volnosti. Nic z toho si naštěstí nemusíme pro praktické použití pamatovat. Stačí vědět, že v Gretlu test spustíme v okně s výsledky našeho odhadu volbou Tests Omit variables, ve výstupu koukáme na závěrečnou p-hodnotu. Speciálním případem tohoto testu je rovněž tzv. celkový F -test, kdy se testuje hypotéza, zda lze z modelu vynechat všechny vysvětlující proměnné současně. Hypotézy mají podobu H 0 : β 1 =... = β k = 0, H 1 : non H 0. Upozorňuji, že k hodnotě úrovňové konstanty β 0 se nulová hypotéza nijak nevyslovuje, jde pouze o koeficienty u vysvětlujících proměnných. Tento test není třeba ručně spouštět, jeho vyhodnocení je součástí standardního výstupu po odhadu modelu (v části pod hlavní tabulkou). Lineární restrikce koeficientů. Lineární restrikce koeficientů jsou zobecněním předchozích omezení. Nulová hypotéza může být formulována v podobě nějaké soustavy lineárních rovnic, kterou musí koeficienty β 0,..., β k splňovat. Konkrétní využítí ukazuje např. příklad 6.1; tam měla H 0 podobu H 0 : β 2 = β 3, což je zřejmě jedna lineární rovnice v proměnných β 2 a β 3. Alternativní hypotéza se opět volí vždy ve tvaru H 1 : non H 0. Testujeme stejně jako v předchozím případě jistou formou F -testu, v Gretlu ji najdeme v nabídce Tests Linear restrictions. Test opět vyhodnotíme na základě výsledné p-hodnoty. 19

20 Cobbova-Douglasova produkční funkce (statická). CDPF představuje jeden z nejpoužívanějších funkčních tvarů, který ekonomové používají pro modelování nejen vícefaktorové produkce, ale rovněž např. funkce užitku apod. V učebnicích se zapisuje nejčastěji jako dvoufaktorová výrobní faktory se zpravidla označují jako K a L a nazývají práce a kapitál, ale lze ji jednoduše zobecnit na více výrobních faktorů. Označíme-li objem produkce jako Q, má tradiční CDPF předpis Q = ak α L β. (8) Zlogaritmováním obou stran (log je zde přirozený logaritmus) dostaneme log Q = log a + α log K + β log L. Toto už je tvar, který je lineární v parametrech α, β. Odhadujeme-li parametry CDPF z empirických dat, sestrojíme z ekonomického modelu model ekonometrický parametry nazveme standardně jako β j a přidáme náhodnou složku: Co se parametrů týče, udělali jsme vlastně substituci log Q = β 0 + β 1 log K + β 2 log L + u. (9) β 0 = log a, čili a = e β0, β 1 = α, β 2 = β. Model (9) již připomíná na první pohled LRM, můžeme odhadovat MNČ. Po odhadu je třeba si uvědomit, že zatímco parametry odhadnuté u výrobních faktorů jsou přímo odhady α a β, úrovňová konstanta je odhad log a, je tedy třeba ji prohnat exponencielou (neboť e log a = a). Následují některá zajímavá fakta o CDPF: Jelikož jsou všechny proměnné modelu (9) logaritmovány, udávají koeficienty přibližné vztahy mezi relativními změnami výstupu na straně jedné a výrobních faktorů na straně druhé. Konkrétněji, α a β jsou elasticity výstupu vzhledem ke kapitálu a práci, neboli α Q/Q K/K = % Q % K, β Q/Q L/L = % Q % L. CDPF je tedy funkce s konstantními elasticitami, tj. elasticity nejsou závislé na aktuální výši K a L, jsou konstatní podél CDPF. Mělo by platit, že 0 < α < 1. První nerovnost odpovídá požadavku, aby při nárůstu výrobního faktoru vzrostl výstup, druhá nerovnost zachycuje zákon o klesajícím mezním výnosu při změně jednoho výrobního faktoru. Stejné vztahy platí i pro β. Součet α + β udává stupeň homogenity CDPF, neboli určuje výnosy z rozsahu. α + β výnosy z rozsahu < 1 klesající = 1 konstantní > 1 rostoucí Mezní míra technické substituce práce za kapitál (MRTS L,K ) vyjadřuje, kolik potřebujeme přidat jednotek práce (L), pokud se kapitál (K) sníží o jednotku a chceme udržet stejný výstup (Q). Platí: MRTS L,K = α β L K. Mezní míra technické substituce se tedy podél CDPF mění. Elasticita substituce je podél celé CDPF konstantní a jednotková. 20

Zobrazit více