Praktikum z ekonometrie Panelová data Jan Zouhar Katedra ekonometrie, FIS VŠE v Praze, zouharj@vse.cz 9. května 2014 1 Terminologie a značení Sledujeme-li pro všechny průřezové jednotky stejná časová období, hovoříme o vyrovnaném panelu; pro jednoduchost se budeme zabývat pouze vyrovnanými panely (zjednoduší to značení a modifikace pro nevyrovnané panely bývají zpravidla jednoduché). Počet průřezových jednotek značíme N, počet časových období T, počet vysvětlujících proměnných K. Indexy: průřezové jednotky i, časová období t, vysvětlující proměnné j. Rozlišují se tzv. krátké a dlouhé panely podle délky časové řady (vzhledem k počtu pozorování); rozlišení není přesně dáno, jde o to, zdali chceme uplatňovat asymptotickou teorii pro N nebo pro T. Příklady na krátké vs. dlouhé panely: 500 jednotlivců sledovaných v 5 navazujících obdobích vs. Visegrádská čtyřka v letech 1995 2015. Krátké panely koncepčně jednodušší asymptotické úvahy opět ve smyslu náhodného výběru jedinců z populace. Aspekty náhodných procesů, zejména stacionarita a heteroskedasticita v čase, se řeší o poznání méně než u dlouhých panelů. 2 Model s nepozorovanou heterogenitou S panelovými daty lze počítat běžný LRM, tj. y = α + β 1 x 1 +...β K x K + u = α + xβ + u. Z jistého důvodu, který bude patrný za chvíli, jsme oproti předchozím zápisům oddělili intercept od vektoru β, jinak je ovšem všechno při starém. Rozepíšeme-li model pro jednotlivá
Praktikum z ekonometrie: Panelová data 2 pozorování v náhodném výběru, je situace trochu méně přehledná kvůli dvěma rozměrům (průřezovému a časovému): y it = α + β 1 x it1 +...β K x }{{ itk + u } it = α + x it β + u it. [x it1...x itk ][β 1...β K ] =x it β Jedním z důvodů použití panelových dat je snaha vypořádat se s tím, že není v naší moci sledovat (a zahrnout do modelu) všechny charakteristiky, které ovlivňují závisle proměnnou. Například v modelu, kde vysvětlujeme mzdu jedince, nejsme zpravidla schopni změřit jeho motivaci, talent a další vlastnosti označované souhrnně jako nepozorovaná heterogenita. Panelová struktura dat nám umožní velmi efektivně obejít problémy s tou složkou nepozorované heterogenity, která je neměnná v čase, jako třeba zmiňovaný talent, nebo též tělesná výška, vlivy výchovy v dětství apod. Označme souhrnný vliv všech nepozorovaných faktorů, v čase neměnných, jako c. V lineárním modelu vypadá situace takto: y it = α + x it β + c i + u it. (1) Všimněte si, že proměnná c nepotřebuje časový index t, nebot je pro každou průřezovou jednotku v čase neměnná. Díky přítomnosti interceptu α si můžeme dovolit bez okolků a újmy na obecnosti předpokládat, že průměrný dopad nepozorované heterogenity je ve zkoumané populaci nulový, tj. Ec = 0. (2) 3 Různé přístupy k odhadu modelu s nepozorovanou heterogenitou 3.1 Diferencování (first-difference estimator, FD) Zapíšeme-li rovnici (1) zpožděnou o jedno období, a odečteme od (1), dostaneme y i,t 1 = α + x i,t 1 β + c i + u i,t 1, y it = x it β + u it, (3) kde y it = y it y i,t 1 a podobně x it = x it x i,t 1 a u it = u it u i,t 1. Za zmínku stojí několik pozorování: (ii) V (3) se nevyskytuje nepozorovaná heterogenita c i (ani intercept α). Naopak parametr β je shodný jako v původním modelu (1). Máme-li data pro y a x, snadno z nich připravíme první diference y a x. (iii) Chceme-li tedy odhadnout parametr β, můžeme aplikovat OLS přímo na model (3).
Praktikum z ekonometrie: Panelová data 3 (iv) Je-li původní náhodná složka u it nekorelovaná v čase, pak u it vykazuje negativní autokorelaci prvního řádu, konkrétně corr( u it, u i,t 1 ) = 0.5. Pokud má naopak u it podobu náhodné procházky (čili u it = u i,t 1 + šum, krajní případ pozitivní autokorelace), pak jsou u it v čase nekorelované. Autokorelace Irelevantní při T = 2. Testování autokorelace po FD: (ii) Při T 3 uložíme rezidua z (3), u it, a odhadneme u it = ρ u i,t 1 + šum it a testujeme nulovou hypotézu H 0 : ρ = 0 (nulová hypotéza říká, že u it je nekorelovaná). (iii) Při zamítnutí H 0 použijeme robustní standardní chyby, příp FDGLS (viz pokročilý Wooldridge). Je-li ale ˆρ poblíž 0.5, naznačuje to, že původní náhodná složka u it byla možná nekorelovaná (viz výše); za takových podmínek je výhodnější použít FE. 3.2 Fixní efekty (fixed-effects estimator, within estimator, FE) Zprůměrujeme rovnici (1) pro i-tou průřezovou jednotku přes všechna časová období; získáme y i = α + x i β + c i + u i, kde y i = 1 T T t=1 y it a podobně x i = 1 T T t=1 x it a u i = 1 T T t=1 u it. Tuto rovnici odečteme od (1) a dostaneme ÿ it = ẍ it β + ü it, (4) kde ÿ it = y it y i a podobně ẍ it = x it x i a ü it = u it u i. Přechod od proměnné k její dvojitě tečkované verzi, tj. např. od y k ÿ, se někdy označuje jako časové centrování (time demeaning). Za zmínku stojí několik pozorování: V (4) se nevyskytuje nepozorovaná heterogenita c i (ani intercept α). Naopak parametr β je shodný jako v původním modelu (1). (ii) Máme-li data pro y a x, snadno připravíme jejich časově centrované protějšky ÿ a ẍ. (iii) Chceme-li tedy odhadnout parametr β, můžeme aplikovat OLS přímo na model (4). (iv) Časové centrování zanáší korelaci do náhodných složek ü it. Lze ukázat, že je-li původní náhodná složka u it v čase nekorelovaná, pak corr(ü it,ü is ) = T 1 1 pro s t. Metoda fixních efektů je dostupná ve všech moderních statistických/ekonometrických SW, operaci časového centrování není tedy třeba ručně provádět. Většina SW vypíše ještě odhad interceptu α, který není v odhadované rovnici (4) obsažen. Tento odhad se získá jako ˆα = y ˆβx.
Praktikum z ekonometrie: Panelová data 4 Autokorelace Testování autokorelace po FE: Komplikované. (ii) Irelevantní při T = 2. (iii) Při T 3 lze odhadnout model ˆü it = ρ ˆü i,t 1 + šum it a testovat nulovou hypotézu H 0 : ρ = T 1 1 (nulová hypotéza říká, že původní náhodná složka u it je nekorelovaná, viz výše). Pro test je třeba použít standardní chyby robustní vůči autokorelaci. (iv) Při zamítnutí H 0 použijeme robustní standardní chyby. Lze též zvážit útěk k FD (viz též níže) nebo FEGLS (viz pokročilý Wooldridge). 3.3 Odhad pomocí průřezových dummy proměnných (dummy variable regression, DVR) Souhrnný vliv nepozorované heterogenity lze chápat jako parametr, který je třeba odhadnout. Můžeme psát y it = α i + x it β + u it, (5) kde α i nahrazuje výraz α + c i z modelu (1). Ačkoli rozdíl oproti předchozímu modelu je nepatrný, zde chápeme α i jako intercept pro i-tou průřezovou jednotku, potažmo jako parametr, který je třeba odhadnout. Model můžeme ekvivalentně přepsat jako y it = α 1 d1 i + α 2 d2 i +... + α N dn i + x it β + u it, (6) kde d1 i je proměnná, která nabývá hodnoty 1 pro všechna pozorování první průřezové jednotky (tj. pokud i = 1) a hodnoty 0 jinak; proměnné d2 i až dn i jsou definovány analogicky. (Např. v Gretlu lze tyto proměnné vyrobit po nastavení panelové struktury dat příkazem Add Unit dummies.) V této podobě lze model běžným způsobem odhadnout v SW pomocí OLS. Tato metoda není příliš praktická v případě, že máme velký počet průřezových jednotek. Vezměme výše zmíněný příklad panelového souboru 500 respondentů sledovaných v pěti navazujících časových obdobích. Ačkoli není problém připravit proměnné d1 až d500 a spočítat požadovaný regresní model, výsledková tabulka bude nečitelný kolos s více než 500 řádky, navíc nám zbytečně naroste datový soubor o 500 proměnných. Kromě této ryze praktické nevýhody je tu problém statistického rázu, který je daleko závažnější. Odhady parametrů α i nemají dobré statistické vlastnosti, konkrétně nejsou konzistentní. Tento problém má jednoduchý intuitivní důvod. Zvětšujeme-li rozsah výběru co do počtu průřezových jednotek (tj. roste N), s každou novou jednotkou přibývá jeden odhadovaný parametr (tzv. incidental parameters problem). Při N tedy nedochází k jinak
Praktikum z ekonometrie: Panelová data 5 obvyklému hromadění informace o jednotlivých parametrech α i. Jinými slovy, jednotlivé odhady ˆα i nelze brát příliš vážně. Je nicméně pravda, že při dodržení obvyklých G-M předpokladů jsou ˆα i a BLUE. (Mimochodem, jedná se o klasický příklad odhadové statistiky, která je nestranná, nikoli však konzistentní.) Obecně vzato, odhady ˆα i bývají přesnější v modelech s delšími časovými řadami (větší T ). Ačkoli konkrétní hodnoty ˆα i pro jednotlivé průřezové jednotky zpravidla neinterpretujeme, lze si na základě celého souboru odhadů (pro všechna i) udělat rámcovou představu o rozdělení heterogenity v populaci (zdali je hodně koncentrovaná okolo svého průměru nebo naopak hodně rozptýlená, zdali je symetrická nebo sešikmená apod.). Předchozí výhrady k odhadům parametrů α i ovšem neplatí pro odhady parametrů β tyto odhady se při růstu N klasickým způsobem zpřesňují, tj. jsou konzistentní. Ve skutečnosti je to ještě zajímavější: lze ukázat, že odhady parametrů z DVR jsou identické s odhady pořízené metodou FE. V tomto smyslu je tedy jedno, kterou z obou metod použijeme. Je třeba se mít ale na pozoru: tento výsledek platí čistě jen pro námi uvažovaný lineární model. Konkrétně, podobné vztahy neplatí v hojně používaných nelineárních panelových modelech s nepozorovanou heterogenitou (např. pro čítací modely nebo modely diskrétní volby). V takových případech jsou zpravidla odhady β pomocí průřezových dummy proměnných nekonzistentní! 3.4 Náhodné efekty 3.5 Metody ignorující nepozorovanou heterogenitu prostá (hromadná) OLS, meziskupinový model 4 FE nebo FD? Pro T = 2 metody stejné. Rozhodnutí řešíme jen pro T 3. Je-li u it v čase nekorelovaná, je FE vydatnější než FD. Vykazuje-li u it výraznou pozitivní autokorelaci, je FD vydatnější než FE. Testovat lze způsoby uvedenými výše. FE i FD jsou konzistentní pouze při striktně exogenních regresorech lze testovat jak v FD, tak v FD (viz pokročilý Wooldridge).