Praktikum z ekonometrie Panelová data

Podobné dokumenty
5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

Časové řady, typy trendových funkcí a odhady trendů

AVDAT Klasický lineární model, metoda nejmenších

Časové řady, typy trendových funkcí a odhady trendů

4EK211 Základy ekonometrie

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

5EN306 Aplikované kvantitativní metody I

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Bodové a intervalové odhady parametrů v regresním modelu

Ilustrační příklad odhadu LRM v SW Gretl

Regresní analýza 1. Regresní analýza

AVDAT Geometrie metody nejmenších čtverců

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

Úvod do analýzy časových řad

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

METODY ODHADU REDUKOVANÉHO A STRUKTURNÍHO TVARU MODELŮ SIMULTÁNNÍCH ROVNIC.

Kontingenční tabulky, korelační koeficienty

Ilustrační příklad odhadu SM v SW Gretl

Klasická a robustní ortogonální regrese mezi složkami kompozice

LINEÁRNÍ MODELY. Zdeňka Veselá

Diagnostika regrese pomocí grafu 7krát jinak

Přednáška 4. Lukáš Frýd

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

PRAVDĚPODOBNOST A STATISTIKA

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

Ekonometrie. Jiří Neubauer

Bodové a intervalové odhady parametrů v regresním modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika II. Jiří Neubauer

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

AVDAT Nelineární regresní model

Základy ekonometrie. X. Regrese s časovými řadami. Základy ekonometrie (ZAEK) X. Regrese s časovými řadami Podzim / 47

Odhad parametrů N(µ, σ 2 )

LWS při heteroskedasticitě

Cross-section pozorování Firma, člověk Časový úsek

Základy lineární regrese

7 Regresní modely v analýze přežití

odpovídá jedna a jen jedna hodnota jiných

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Testování statistických hypotéz

Korelační a regresní analýza

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

8 Coxův model proporcionálních rizik I

5EN306 Aplikované kvantitativní metody I

7. Analýza rozptylu.

4EK211 Základy ekonometrie

LINEÁRNÍ REGRESE. Lineární regresní model

Stavový model a Kalmanův filtr

5EN306 Aplikované kvantitativní metody I

4EK201 Matematické modelování. 11. Ekonometrie

1. Přednáška. Ing. Miroslav Šulai, MBA

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

6 Vícerovnicové ekonometrické soustavy 1

Úvod do ekonometrie Minitesty

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

VEKTOROVÉ AUTOREGRESE. APLIKACE V PROGNÓZOVÁNÍ.

Normální (Gaussovo) rozdělení

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika (KMI/PSTAT)

5EN306 Aplikované kvantitativní metody I

Tomáš Karel LS 2012/2013

4EK211 Základy ekonometrie

STATISTIKA I Metodický list č. 1 Název tématického celku:

Odhady Parametrů Lineární Regrese

Aplikovaná statistika v R - cvičení 2

dat Robust ledna 2018

12. cvičení z PST. 20. prosince 2017

Aplikovaná ekonometrie a teorie časových řad Zápočtový test 2 Varianta P2017

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Jednofaktorová analýza rozptylu

1 Odvození poptávkové křivky

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Transkript:

Praktikum z ekonometrie Panelová data Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, zouharj@vse.cz 9. května 2014 1 Terminologie a značení Sledujeme-li pro všechny průřezové jednotky stejná časová období, hovoříme o vyrovnaném panelu; pro jednoduchost se budeme zabývat pouze vyrovnanými panely (zjednoduší to značení a modifikace pro nevyrovnané panely bývají zpravidla jednoduché). Počet průřezových jednotek značíme N, počet časových období T, počet vysvětlujících proměnných K. Indexy: průřezové jednotky i, časová období t, vysvětlující proměnné j. Rozlišují se tzv. krátké a dlouhé panely podle délky časové řady (vzhledem k počtu pozorování); rozlišení není přesně dáno, jde o to, zdali chceme uplatňovat asymptotickou teorii pro N nebo pro T. Příklady na krátké vs. dlouhé panely: 500 jednotlivců sledovaných v 5 navazujících obdobích vs. Visegrádská čtyřka v letech 1995 2015. Krátké panely koncepčně jednodušší asymptotické úvahy opět ve smyslu náhodného výběru jedinců z populace. Aspekty náhodných procesů, zejména stacionarita a heteroskedasticita v čase, se řeší o poznání méně než u dlouhých panelů. 2 Model s nepozorovanou heterogenitou S panelovými daty lze počítat běžný LRM, tj. y = α + β 1 x 1 +...β K x K + u = α + xβ + u. Z jistého důvodu, který bude patrný za chvíli, jsme oproti předchozím zápisům oddělili intercept od vektoru β, jinak je ovšem všechno při starém. Rozepíšeme-li model pro jednotlivá

Praktikum z ekonometrie: Panelová data 2 pozorování v náhodném výběru, je situace trochu méně přehledná kvůli dvěma rozměrům (průřezovému a časovému): y it = α + β 1 x it1 +...β K x }{{ itk + u } it = α + x it β + u it. [x it1...x itk ][β 1...β K ] =x it β Jedním z důvodů použití panelových dat je snaha vypořádat se s tím, že není v naší moci sledovat (a zahrnout do modelu) všechny charakteristiky, které ovlivňují závisle proměnnou. Například v modelu, kde vysvětlujeme mzdu jedince, nejsme zpravidla schopni změřit jeho motivaci, talent a další vlastnosti označované souhrnně jako nepozorovaná heterogenita. Panelová struktura dat nám umožní velmi efektivně obejít problémy s tou složkou nepozorované heterogenity, která je neměnná v čase, jako třeba zmiňovaný talent, nebo též tělesná výška, vlivy výchovy v dětství apod. Označme souhrnný vliv všech nepozorovaných faktorů, v čase neměnných, jako c. V lineárním modelu vypadá situace takto: y it = α + x it β + c i + u it. (1) Všimněte si, že proměnná c nepotřebuje časový index t, nebot je pro každou průřezovou jednotku v čase neměnná. Díky přítomnosti interceptu α si můžeme dovolit bez okolků a újmy na obecnosti předpokládat, že průměrný dopad nepozorované heterogenity je ve zkoumané populaci nulový, tj. Ec = 0. (2) 3 Různé přístupy k odhadu modelu s nepozorovanou heterogenitou 3.1 Diferencování (first-difference estimator, FD) Zapíšeme-li rovnici (1) zpožděnou o jedno období, a odečteme od (1), dostaneme y i,t 1 = α + x i,t 1 β + c i + u i,t 1, y it = x it β + u it, (3) kde y it = y it y i,t 1 a podobně x it = x it x i,t 1 a u it = u it u i,t 1. Za zmínku stojí několik pozorování: (ii) V (3) se nevyskytuje nepozorovaná heterogenita c i (ani intercept α). Naopak parametr β je shodný jako v původním modelu (1). Máme-li data pro y a x, snadno z nich připravíme první diference y a x. (iii) Chceme-li tedy odhadnout parametr β, můžeme aplikovat OLS přímo na model (3).

Praktikum z ekonometrie: Panelová data 3 (iv) Je-li původní náhodná složka u it nekorelovaná v čase, pak u it vykazuje negativní autokorelaci prvního řádu, konkrétně corr( u it, u i,t 1 ) = 0.5. Pokud má naopak u it podobu náhodné procházky (čili u it = u i,t 1 + šum, krajní případ pozitivní autokorelace), pak jsou u it v čase nekorelované. Autokorelace Irelevantní při T = 2. Testování autokorelace po FD: (ii) Při T 3 uložíme rezidua z (3), u it, a odhadneme u it = ρ u i,t 1 + šum it a testujeme nulovou hypotézu H 0 : ρ = 0 (nulová hypotéza říká, že u it je nekorelovaná). (iii) Při zamítnutí H 0 použijeme robustní standardní chyby, příp FDGLS (viz pokročilý Wooldridge). Je-li ale ˆρ poblíž 0.5, naznačuje to, že původní náhodná složka u it byla možná nekorelovaná (viz výše); za takových podmínek je výhodnější použít FE. 3.2 Fixní efekty (fixed-effects estimator, within estimator, FE) Zprůměrujeme rovnici (1) pro i-tou průřezovou jednotku přes všechna časová období; získáme y i = α + x i β + c i + u i, kde y i = 1 T T t=1 y it a podobně x i = 1 T T t=1 x it a u i = 1 T T t=1 u it. Tuto rovnici odečteme od (1) a dostaneme ÿ it = ẍ it β + ü it, (4) kde ÿ it = y it y i a podobně ẍ it = x it x i a ü it = u it u i. Přechod od proměnné k její dvojitě tečkované verzi, tj. např. od y k ÿ, se někdy označuje jako časové centrování (time demeaning). Za zmínku stojí několik pozorování: V (4) se nevyskytuje nepozorovaná heterogenita c i (ani intercept α). Naopak parametr β je shodný jako v původním modelu (1). (ii) Máme-li data pro y a x, snadno připravíme jejich časově centrované protějšky ÿ a ẍ. (iii) Chceme-li tedy odhadnout parametr β, můžeme aplikovat OLS přímo na model (4). (iv) Časové centrování zanáší korelaci do náhodných složek ü it. Lze ukázat, že je-li původní náhodná složka u it v čase nekorelovaná, pak corr(ü it,ü is ) = T 1 1 pro s t. Metoda fixních efektů je dostupná ve všech moderních statistických/ekonometrických SW, operaci časového centrování není tedy třeba ručně provádět. Většina SW vypíše ještě odhad interceptu α, který není v odhadované rovnici (4) obsažen. Tento odhad se získá jako ˆα = y ˆβx.

Praktikum z ekonometrie: Panelová data 4 Autokorelace Testování autokorelace po FE: Komplikované. (ii) Irelevantní při T = 2. (iii) Při T 3 lze odhadnout model ˆü it = ρ ˆü i,t 1 + šum it a testovat nulovou hypotézu H 0 : ρ = T 1 1 (nulová hypotéza říká, že původní náhodná složka u it je nekorelovaná, viz výše). Pro test je třeba použít standardní chyby robustní vůči autokorelaci. (iv) Při zamítnutí H 0 použijeme robustní standardní chyby. Lze též zvážit útěk k FD (viz též níže) nebo FEGLS (viz pokročilý Wooldridge). 3.3 Odhad pomocí průřezových dummy proměnných (dummy variable regression, DVR) Souhrnný vliv nepozorované heterogenity lze chápat jako parametr, který je třeba odhadnout. Můžeme psát y it = α i + x it β + u it, (5) kde α i nahrazuje výraz α + c i z modelu (1). Ačkoli rozdíl oproti předchozímu modelu je nepatrný, zde chápeme α i jako intercept pro i-tou průřezovou jednotku, potažmo jako parametr, který je třeba odhadnout. Model můžeme ekvivalentně přepsat jako y it = α 1 d1 i + α 2 d2 i +... + α N dn i + x it β + u it, (6) kde d1 i je proměnná, která nabývá hodnoty 1 pro všechna pozorování první průřezové jednotky (tj. pokud i = 1) a hodnoty 0 jinak; proměnné d2 i až dn i jsou definovány analogicky. (Např. v Gretlu lze tyto proměnné vyrobit po nastavení panelové struktury dat příkazem Add Unit dummies.) V této podobě lze model běžným způsobem odhadnout v SW pomocí OLS. Tato metoda není příliš praktická v případě, že máme velký počet průřezových jednotek. Vezměme výše zmíněný příklad panelového souboru 500 respondentů sledovaných v pěti navazujících časových obdobích. Ačkoli není problém připravit proměnné d1 až d500 a spočítat požadovaný regresní model, výsledková tabulka bude nečitelný kolos s více než 500 řádky, navíc nám zbytečně naroste datový soubor o 500 proměnných. Kromě této ryze praktické nevýhody je tu problém statistického rázu, který je daleko závažnější. Odhady parametrů α i nemají dobré statistické vlastnosti, konkrétně nejsou konzistentní. Tento problém má jednoduchý intuitivní důvod. Zvětšujeme-li rozsah výběru co do počtu průřezových jednotek (tj. roste N), s každou novou jednotkou přibývá jeden odhadovaný parametr (tzv. incidental parameters problem). Při N tedy nedochází k jinak

Praktikum z ekonometrie: Panelová data 5 obvyklému hromadění informace o jednotlivých parametrech α i. Jinými slovy, jednotlivé odhady ˆα i nelze brát příliš vážně. Je nicméně pravda, že při dodržení obvyklých G-M předpokladů jsou ˆα i a BLUE. (Mimochodem, jedná se o klasický příklad odhadové statistiky, která je nestranná, nikoli však konzistentní.) Obecně vzato, odhady ˆα i bývají přesnější v modelech s delšími časovými řadami (větší T ). Ačkoli konkrétní hodnoty ˆα i pro jednotlivé průřezové jednotky zpravidla neinterpretujeme, lze si na základě celého souboru odhadů (pro všechna i) udělat rámcovou představu o rozdělení heterogenity v populaci (zdali je hodně koncentrovaná okolo svého průměru nebo naopak hodně rozptýlená, zdali je symetrická nebo sešikmená apod.). Předchozí výhrady k odhadům parametrů α i ovšem neplatí pro odhady parametrů β tyto odhady se při růstu N klasickým způsobem zpřesňují, tj. jsou konzistentní. Ve skutečnosti je to ještě zajímavější: lze ukázat, že odhady parametrů z DVR jsou identické s odhady pořízené metodou FE. V tomto smyslu je tedy jedno, kterou z obou metod použijeme. Je třeba se mít ale na pozoru: tento výsledek platí čistě jen pro námi uvažovaný lineární model. Konkrétně, podobné vztahy neplatí v hojně používaných nelineárních panelových modelech s nepozorovanou heterogenitou (např. pro čítací modely nebo modely diskrétní volby). V takových případech jsou zpravidla odhady β pomocí průřezových dummy proměnných nekonzistentní! 3.4 Náhodné efekty 3.5 Metody ignorující nepozorovanou heterogenitu prostá (hromadná) OLS, meziskupinový model 4 FE nebo FD? Pro T = 2 metody stejné. Rozhodnutí řešíme jen pro T 3. Je-li u it v čase nekorelovaná, je FE vydatnější než FD. Vykazuje-li u it výraznou pozitivní autokorelaci, je FD vydatnější než FE. Testovat lze způsoby uvedenými výše. FE i FD jsou konzistentní pouze při striktně exogenních regresorech lze testovat jak v FD, tak v FD (viz pokročilý Wooldridge).