5EN306 Aplikované kvantitativní metody I Přednáška 10 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Panelová data (First differencing, Fixed Effects, ) minule: instrumentální proměnné identifikační strategie = způsob, jakým výzkumník využívá napozorovaná data (tedy data negenerována náhodně) k přiblížení se k reálnému (přirozenému) experimentu pozorovaná korelace X a Y nemusí nutně znamenat existenci kauzality z důvodu možné existence nepozorovaných faktorů Panelová data data, u kterých opakovaně pozorujeme charakteristiky statistických jednotek: roční míra nezaměstnanosti každého státu za několik let čtvrtletní prodeje každé z poboček Tesca za několik čtvrtletí mzda jedince v několika zaměstnáních podstata měříme stále stejnou statistickou jednotku (na rozdíl od pooled cross-section data náhodný výběr) definice vyrovnaného a nevyrovnaného panelu (balanced / unbalanced) krátký vs. dlouhý panel (práce s krátkými panely je podobnější práci s průřezovými údaji, práce s dlouhými panely práci s časovými řadami) Wooldridge kap. 13 a 14 3
Unobserved heterogeneity (unobserved effect) forma omitted variable bias problém k řešení: statistické jednotky i (jedinci, domácnosti, firmy, státy, ) se od sebe můžou lišit o specifické charakteristiky, které jsou v čase neměnné: demografické (kromě věku) geografické atd. to má vliv na měřenou (závislou) veličinu úrovňová konstanta pro každou ze statistických jednotek unobserved effect model nebo fixed effect model (v čase neměnné) příklad crime rate (různé způsoby reportování zločinů v různých státech USA, lokace) mzda vs. vzdělání (různá barva pleti, genetická zátěž, sociální zázemí apod.) neměřitelné vlivy (neměřitelný vliv je náhodná složka) tak dělíme na v čase neměnné fixed effects v čase proměnlivé náhodná složka u it jak bychom to řešili (odhad modelu)? přidat regresory? binární proměnné? 4
Vymezení problému panelová data (datová kostka) základní model: y t x w it it it je zde problematizován heterogenitou jednotek: y t x a u it it i it kde w it = a i + u it, a i = fixní, nepozorovaný efekt (nemění se v čase, ale je jiný pro každou pozorovanou jednotku) také nepozorovaná či individuální heterogenita u it = idiosynkratická chyba a i ovlivňuje Y a může být korelována i s X! a i jsou konstantní v čase, neměřitelné i když u it a x it jsou nekorelované, problém, pokud a i a x it korelované, tj. platí, že E(a i x it ) 0 omitted variable bias = heterogeneity bias pozn.: trend může být definován formou dummies 5
First differencing (první diference) princip: diference sousedních časových period ztrácíme jedno období pro každou jednotku (n) nejjednodušší - pro dvě časové periody y d2 x a u i 0 0 t 1 it i it Period 2: y ( ) x a u Period 1: i2 0 0 1 i2 i i2 y x a u i1 0 1 i1 i i1 First-differencing: y y ( x x ) u u i2 i1 0 1 i2 i1 i2 i1 y x u i2 0 1 i2 i2 fixní efekty jsou odstraněny (stále ale mohou být v čase proměnné faktory, které v modelu nemáme) 6
First differencing (první diference) Předpoklady Δu i není skorelované s Δx i (platí, pokud je u it nekorelovaná s x it v každém t) nenastáva podstatná heterogenita proměnlivá v čase homoskedasticita Δu i pro více časových period neautokorelace Δu it Δx i musí mít nějakou variabilitu přes i (problém, pokud x se v čase nemění nebo se mění o stejnou hodnotu neodseparujeme od a i ) příklad? Nedostatky redukce variability x (ztrácíme informaci) někdy se dá do určité míry obejít velkým počtem pozorování) někdy se používají diference přes delší časové periody hodně nízká variabilita (vysoké standardní chyby) některé charakteristiky se v čase vůbec nemění, či o konstantu nelze je použít (nelze je odseparovat od a i ) ztráta n pozorování stále tu mohou být faktory v čase proměnné 7
First differencing (první diference) Více časových period nezbavíme se faktoru času musíme řešit autokorelaci Δu it pro t = 2, 3, pokud je u it neautokorelovaná, pak Δu it autokorelovaná je: sousední pozorování náhodné složky ve FD u it u it-1 a u it+1 u it pokud u it ~ AR(1) pak Δu it autokorelované pokud u it ~ RW pak Δu it nekorelované 8
First differencing příklad 1 mzda příklad s více nezávislými proměnnými závislá proměnná: y it = logaritmus mzdy pracovníka i v čase t nezávislé proměnné: x it1 = lokální míra nezaměstnanosti pracovníka i v čase t = počet měsíců zkušeností pracovníka i v čase t x it2 x i3 a i = počet let vzdělání pracovníka i (v čase neměnná!!!) = talent pracovníka i (neměřitelná a zároveň v čase neměnná) Δy i2 = δ 0 + β 1 Δx i21 + β 2 Δx i22 + Δu i2 x i3 počet let vzdělání + a i talent pracovníka jsme metodou FD odstranili!!! Δx i22 bude rovna 12 pro skoro všechny pracovníky (méně než 12 pro nezaměstnané) nízká variabilita nepřesně odhadnut koeficient β 2 vysoké standardní chyby významný heterogeneity bias!!! 9
First differencing příklad 2 kriminalita míra kriminality: období 1982 a 1987 46 měst USA míra nezaměstnanosti (v %) a míra kriminality (počet zločinů na 1000 obyvatel) rok 1987 po FD Interpretace 15,4 = nárůst kriminality o 15,40 na 1000 obyvatel mezi obdobími 1982 až 1987 bez změny nezaměstnanosti 2,22 = vzroste-li nezaměstnanost o 1 %, vzroste počet zločinů o 2,22 na 1000 obyvatel 10
First differencing příklad 3 školení Účastníci školení měřím kauzální efekt účastníků školení nezávislé proměnné účast na školení, individuální charakteristiky, závislá proměnná mzdy, produktivita práce, t = 2 období po absolvování školení y d2 prog a u, t 1,2 it t it i it first differencing model: y prog u i i i model OLS: y treat y control náhodná složka v it = a i + u it kontroluje v čase neměnné charakteristiky firem: účastník školení: prog it = 1 nezúčastnil se školení: prog it = 0 11
Fixed effects model přístup č. 2 k dohadu panelových dat Jak odseparovat fixní efekty a i + neztratit pozorování? uvažujme model: zprůměrujme rovnici v čase pro každé i: kde např.: odečtu obě rovnice od sebe tímto jsme odstranili fixní efekty a i poslední rovnice je tzv. time-demeaned odhadneme pooled data OLS metodou tento estimátor se nazývá within-estimátor, protože využívá rozptyl v čase v rámci (within) průřezových jednotek pokud bychom odhadli model přímo z průměrů (neodečetli bychom rovnice mezi sebou) metodou OLS, jednalo by se o betweenestimátor není nestranný 12
Fixed effects model Předpoklady opět striktní exogenita x it homoskedasticita u it neautokorelace u it (musíme řešit i pro 2 periody) Nedostatky ztratíme proměnné konstantní v čase (wage = f(sex, race, ) proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) proměnné měnící se o konstantu neodlišíme od trendu jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry) 13
Fixed effects model Předpoklady opět striktní exogenita x it homoskedasticita u it neautokorelace u it (musíme řešit i pro 2 periody) Nedostatky ztratíme proměnné konstantní v čase (wage = f(sex, race, )) proměnné konstantní v čase můžeme použít v interakcích (educ*časová dummy) proměnné měnící se o konstantu neodlišíme od trendu jestli do modelu dáme všechny časové dummies, nemůžeme odhadnout efekt proměnných, jejichž změna v čase je konstantní (např. počet let zkušeností) počet stupňů volnosti je N*T-N-k (tato úprava je nutná, protože navíc odhadujeme N*průměry) Pozitiva neztrácíme pozorování po FE odhadu můžeme fixní efekty odhadnout: 14
Fixed effects model nebo First difference? když T = 2, FE a FD jsou identické když T > 2, FE je vydatnější než FD, pokud jsou splněny předpoklady KLRM pokud náhodná složka u it neautokorelovaná, pak lepší FE pokud náhodná složka u it generována RW, pak lepší FD obecně se spíše používají FE, ale je vhodné aplikovat obojí a porovnávají se výsledky pokud dlouhé časové řady (T velké) a problém s nestacionaritou (hrozí zdánlivá regrese), pak může být FD lepší variantou (speciálně máme-li málo jednotek) také závisí, zda nás zajímají odhady a i 15