5EN306 Aplikované kvantativní metody I Přednáška 9 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Instrumentální proměnné minule: difference in differences identifikační strategie = způsob, jakým výzkumník využívá napozorovaná data (tedy data negenerována náhodně) k přiblížení se k reálnému (přirozenému) experimentu pozorovaná korelace X a Y nemusí nutně znamenat existenci kauzaly z důvodu možné existence nepozorovaných faktorů dnes: instrumentální proměnné (zkratka IV instrumental variables) Wooldridge kap. 15 k čemu IV použít? jak je řeší? za jakých předpokladů? empirické studie 3
Aplikace endogena regresorů rozdíl endogena vs exogena regresorů??? Jak se vyhnout problému self-selekce? příklad: vliv povinné vojenské služby na výdělky (šlo by D. in D.?) Jak nalož s nepozorovan(ou/telnou) nebo vynechanou proměnnou? příklad: vliv dodatečného roku vzdělání na výdělky (proč ne DiD, RD nebo FE?) Jak rozseknout oboustrannou kauzalu? příklad: vliv počtu policistů na četnost zločinů příklad: odhad (elasticy) poptávky Jak odstran chybu měření? 4
Příklad schéma problému Vysvětlovaná proměnná Regresor - endogenní Y? X u mzda množství vzdělání cena nepozorovaný faktor Co může být nepozorovaný faktor? Co se děje s bodovými odhady parametrů? 5
Princip y x u x endogenní charakter 0 1 řešení - najít takovou pomocnou vysvětlující proměnnou z, že platí: y corr( z, u) 0 pozor na předpoklady!!! x z corr( z, x) 0 6
Odhad (1) jedná se o dvoustupňovou MNČ (two-stage least squares - 2SLS) Stupeň 1: z proměnné x potřebujeme vytvoř proměnnou exogenní pomocí instrumentů (nevysvětlený zbytek odpadne potenciální zdroj endogeny) a získáme vyrovnané hodnoty - exogenní Stupeň 2: použijeme z prvního stupně k odhadu ve druhém stupni Ukázka: ˆx y x u 0 1 x z v 0 1 ˆx y 0 1ˆ x u educ exper exper motheduc fatheduc v 2 0 1 2 3 4 2 wage 0 1educ 2exper 3exper u 7
Odhad (2) odvození estimátoru s IV z 2SLS y x u 1 0 1 cov( y, z) cov( x, z) cov( z, u) dle podmínek pak cov( xz, ) 0 a cov( zu, ) 0 cov( yz, ) 1 ˆ i1 1 n cov( xz, ) n i1 ( z z )( y y) i ( z z )( x x) i i i 8
Odhad (2) x = endogenní proměnná z = instrument t-testy o parametrech instrumentálních proměnných v 1. stupni H : 0 0 1 H : 0 1 1 x z v 0 1 9
Příklady Příklad 1: Y = mzda vs. X = počet let vzdělání - instrumenty: vzdělání rodičů? příjem rodičů? den narození? Angrist, J. D., and Krueger, A. B. (1991) - čtvrtletí narození (dummy proměnná, = 1 narozen v 1. čtvrtletí, 0 jinak) - je nekorelována na nepozorovaných faktorech (např. vrozená schopnost), které ovlivňují mzdu Card (1995) - vzdálenost školy Příklad 2: Y = birthweight vs. X = počet cigaret - instrumenty: cena cigaret, daň na cigarety, zákaz kouření 10
Mzda vs. vzdělání (2) srovnáni OLS a 2SLS, různé instrumenty OLS cca 11% návratnost investic do vzdělání na 1 rok (v průměru) 2SLS rozdíly v 1 výběru!!! 11
Mzda vs. vzdělání (3) Card (1995) použijme nearc4 (dummy proměnná, = 1 když jedinec bydlel v blízkosti univerzy, = 0 jinak) jako IV nearc4 zvyšuje počet let vzdělání (viz níže výsledek) zajímá nás t-statistika vysoká, nearc4 je statisticky významná za předpokladu, že nearc4 je nekorelovaná s nepozorovanými faktory v náhodné složce lze použít jako IV pro educ 12
Mzda vs. vzdělání (4) porovnáme odhad 0.075 vs 0.132 (konfidenční interval <0.024; 0.239>) co standardní chyby? neporovnávám R 2 u OLS vs IV (R 2 u OLS bude vždy vyšší, R 2 u IV může být i negativní R 2 = 1- SSR/SST, SSR > SST R 2 0) 13
Test endogeny teorie, dosavadní výzkumy potřebujeme nějaký statistický test např. Hausmanův test (Gretl) kde z j jsou exogenní proměnné předpokládejme existenci dalších exogenních proměnných z3 a z4, které nejsou ve výše uvedené rovnici Postup 1. 2. y x z z u 1 0 1 2 1 3 2 x z z z z v 3. t-test o δ: H 0 : δ = 0 H 1 : δ 0 0 1 1 2 2 3 3 4 4 y x z z v w 1 0 1 ˆ 2 1 3 2 pokud je x exogenní, pak 2SLS poskytuje vyšší standardní chyby odhadů (OLS je vydatnější) 14
IV problémy endogena teorie, testy (pozn. Jaké jsou formy endogeny?) všudepřítomná v sociálních vědách a v ekonomii mnohé důležé proměnné se nedají měř často jsou korelované s pozorovanými vysvětlujícími proměnnými chyby měření estimátory jsou vychýlené a konzistentní volba (existence) instrumentů platnost všech předpokladů weak instrument slabá korelace mezi z a x identifikace pro každý endogenní regresor alespoň jeden instrument multikolineara často výrazný problém R 2 OLS vs. 2SLS vzhledem k tomu, že může být R 2 záporný, nemá při metodě 2SLS přirozenou interpretaci a velký význam tato metoda se zaměřuje na odhad ceteris paribus efektu, nikoliv na maximalizaci R 2 (pro potřeby predikce) standardní chyby z 2 stupně SLS nejsou platné, kdybychom obě rovnice počítali zvlášť!!! software dodává správné!!! 15
IV problémy simultanea poptávka Y = poptávané množství X = cena instrumenty: počasí, technologický šok, daň, nabídka Y = nabízené množství X = cena instrumenty: cena substutů, cena komplementů, reklamní kampaň cena je endogenní!!! 16
Příklady možných instrumentů Legal/polical instutions as an instrument (laws, election dynamics) Administrative rules as an instrument (wage/staffing rules, reimbursement rules, eligibily rules) správné použí regresní diskontinuy (nespojosti) existuje nějaká spojá proměnná (x), která skokově ovlivňuje pravděpodobnost např. účasti na projektu Naturally occurring randomization (draft, birth timing, lottery, roommate assignment, weather) Geography as an instrument (distance, rivers, small area variation) další příklady viz Table 1, článek Angrist - IV 17
Ukázka 1 Asensio Dráhy Asensio, J.: The success story of Spanish suburban railways: determinant of demand and policy, Transport Policy, Volume 7, Issue 4, October 2000, pp. 295-302 k dispozici na stránkách http://nb.vse.cz/~figlova/vyuka_5en306.html log RIDERSHIP 6 13 dummy log price lag _ rider e 14 0 1 log qualy 2 log 3 petrol log 4 pop suburb 5 RIDERSHIP - measured in passenger-kms (in area i, in time t) PRICE - is calculated as the ratio of total revenue in real terms over passengers-km at each urban area () QUALITY - the number of places_km offered by RENFE, divided by the length of the suburban rail network at each cy () PETROL - the real price of petrol () POP - total population living in the municipalies covered by RENFE's suburban network () SUB - the ratio of peripheral to central cy population () 18
Ukázka 1 Asensio Dráhy možný problém s endogenou regresorů? PRICE - is calculated as the ratio of total revenue in real terms over passengers-km at each urban area () změny cen pod kontrolou vlády OK QUALITY - the number of places_km offered by RENFE, divided by the length of the suburban rail network at each cy () zde by mohl být problém (počet míst mění RENFE v závislosti na poptávce) - IV 19
20 e rider lag dummy suburb pop petrol qualy price RIDERSHIP _ log log log log log 14 13 6 5 4 3 2 1 0 Ukázka 1 Asensio Dráhy
Ukázka 2 Levt Police force Levt (1997): what is the effect of increasing the police force on the crime rate? Aby byl efekt počtu policistů na kriminalu identifikován, je potřeba proměnná, která ovlivňuje počet policistů, ale není přímo spojena s kriminalou 59 měst USA, 1970-1992 This is a classic case of simultaneous causaly (high crime areas tend to need large police forces) resulting in an incorrectly-signed (posive) coefficient. To address this problem, Levt uses the timing of mayoral and gubernatorial elections as an instrumental variable. Is this instrument valid? Relevance: police force increases in election years Exogeney: election cycles are pre-determined. 21
Ukázka 2 Levt Police force Two-stage least squares: Stage 1: Decompose police hires into the component that can be predicted by the electoral cycle and the problematic component police = 0 + 1 election + Stage 2: Use the predicted value of police i from the first-stage regression to estimate s effect on crime i crime = 0 + 1 police-hat + Finding: an increased police force reduces violent crime (but has ltle effect on property crime) počet policistů snižuje zločinnost statisticky významný výsledek jen u násilných činů počet policistů ve velkých městech je pod optimální hranicí (ale pozor: velmi hrubé odhady) 22