5EN306 Aplikované kvantitativní metody I Přednáška 7 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Difference in differences Wooldridge kap. 13 česky rozdíl v rozdílech jaké problémy tato metoda řeší? jak je řeší? na co si musíme dát pozor? příklady DiD článků 3
Úvod k identifikačním strategiím základní problémy chybějící faktory obrácená (nebo jinak komplikovaná) kauzalita x 2 x 5 Y = + u x 1 x 3 x 4 KORELACE vs. KAUZALITA 4
Úvod k identifikačním strategiím Problémy k řešeni: Jak funguje lék? Jaký dopad má výstavba továrny na zdraví lidí v okolí? Jaký je dopad opatření na Y? (bodový systém v ČR, změna spotřební daně cigaret, alkoholu) Jaký je dopad deregulace na Y? (odstranění povinnosti nosit helmy) Jaký je dopad výstavby dálničního obchvatu na Y? Jak úspěšný byl kurz pro zaměstnance? řízený (kontrolovaný) experiment přirozené experimenty a identifikace pomocí: - pooled cross sections a panel - difference in differences - panel - fixed/random effects - instrumentální proměnné jak změřit čistý efekt exogenní změny v podmínkách? (tj. jak by si relevantní skupina vedla v případě absence změny?) realita: často přirozené experimenty DATA: pooled cross sections; později na panelová data 5
Příklad vliv exogenní změny na cenu nemovitostí Kiel, K. A., and McClain, K. T. (1995): House Prices During Siting Decision Stages: The Case of an Incinerator from Rumor Through Operation, Journal of Environmental Economics and Management 28, pp. 241 255. k dispozici na stránkách (https://webhosting.vse.cz/figlova/5en306/ Wooldridge, 2012). spalovna Přilehlé Vzdálené bohužel, místní samospráva byla uplacena a uprostřed obce postavila spalovnu odpadků naším úkolem je změřit vliv výstavby spalovny na ceny přilehlých nemovitostí 6
Příklad vliv exogenní změny na cenu nemovitostí máme k dispozici vzorek 100 náhodně vybraných nemovitostí v roce 1999 (před) a 2001 (po výstavbě spalovny) cena přilehlých = β 0 + β 1 po výstavbě + β k X k + u intepretace β 1, je to to, co hledáme? cena všech = β 0 + β 1 u spalovny + β k X k + u intepretace β 1, je to to, co hledáme? my však potřebujeme: pouze změnu zapříčiněnou výstavbou spalovny takže ne výše uvedený přístup!!! 7
Jak na to? situace PO výstavbě spalovny v roce 2001 cena blízko u i, po 1 1 i 1i situace PŘED výstavbou spalovny v roce 1999 cena blízko u ipřed, 2 2 i 2i pokud β 1 i β 2 jsou kladné a významné, rozdíly v cenách zřejmě existovaly už před výstavbou spalovny chceme vlastně rozdíl (β 1 - β 2 ), ale co t-test? 8
Jak na to? pro zjednodušení: pracujme chvíli pouze s průměry cen označme průměrnou cenu přilehlých nemovitostí jako T a cenu vzdálených nemovitostí jako C. Dále je vybavíme indexy označující stav před výstavbou jako BEFORE a po ní jako AFTER rozdíl TA TB nám ukáže celkovou změnu ceny u přilehlých nemovitostí a rozdíl CA CB nám ukáže celkovou změnu cen nemovitostí mezi B a A a rozdíl v rozdílech neboli difference-in-differences těchto průměrů bude: Average Treatment Effect = (TA - TB) - (CA - CB) resp. (TA - CA) - (TB - CB) viz předchozí slide spalovna TREATED CONTROL 9
Základní myšlenka graficky Average Treatment Effect = (T A - T B ) - (C A - C B ) C A T A C B T B T 10
Předpoklady princip (situace): naše ovlivněná skupina má příbuzný protějšek, který není ovlivněn : porovnáme tedy jejich vývoj v čase ( před vs. po ) Předpoklady: společný trend = stejný vývoj podmínek = stejné reakce na změnu podmínek (kromě naší sledované exogenní změny) existence změny - změna je exogenní = změna ovlivní jen TREATED = nebyla reakcí na vývoj v TREATED = neexistuje jiná exogenní změna, o které nevíme 11
Předpoklady Předpoklad 1: porozumění kontextu regrese cílové veličiny v T na C regrese každé skupiny na vysvětlující proměnné a porovnání elasticit použití více CONTROL groups Předpoklad 2: pečlivě studovat situaci a dobře porozumět změně!!! 12
Specifikace DiD y it = β 0 + β 1 TREAT i + β 2 AFTER t + β 3 TREAT i *AFTER t + u it y it = β 0 + β 1 u spalovny i + β 2 po výstavbě t + + β 3 u spalovny i * po výstavbě t + u it 13
Specifikace DiD y d2 db d2 db další faktory u kde d2 definuje období po změně a db treatment group d1 je tudíž dummy proměnná pro období před změnou a da pro control group (kontrolní skupinu) difference in differences parametr: resp. ˆ ( y y ) ( y y ) B,2 A,2 B,1 A,1 ˆ ( y y ) ( y y ) B,2 B,1 A,2 A,1 14
Specifikace DiD rok 1981 rok 1978 DiD = 30,688.27 ( 18,824.37) = 11,863.90 jak jinak získat??? y d2 db d2 db další faktory u 15
Postup vytvoříme teoretický model; pochopíme kontext a rozhodneme zda se jedná o přirozený experiment Máme TREATMENT a CONTROL group: 1. získáme data o pozorováních včetně relevantních kontrolních proměnných dle teorie 2. zavedeme dummy proměnné: skupiny - rozdělíme treatment a control group 3. zavedeme dummy proměnné: období - rozdělíme na pozorování na měřená před a po 4. sfúzujeme do jednoho datasetu (důležité jsou dummies) pooled CS či panel 5. specifikace DiD a odhad 16
Přínosy získáme testové statistiky (lze t-test, intervalový odhad) můžeme kontrolovat více veličin můžeme použít více CONTROL GROUPs můžeme pracovat s více pozorováními v čase (pooled data) jsme blíže kauzalitě Co měří β 3? průměrný efekt změny = Average Treatment Effect (pouze při splnění předpokladů) 17
Základní úskalí metody nereprezentativní CONTROL group TREATMENT byly vyselektováni dle charakteristiky, kterou neznáme změna byla endogenní nastala další změna a následně složitá interakce změna byla známá již dříve (přizpůsobení) trendy inflace, stárnutí; šoky, které neznáme, nemůžeme kontrolovat vše, co chceme silná kolinearita regresorů když nemůžeme exogenní změnu ovládnout, musíme jí alespoň velmi dobře porozumět (Meyer, 1995) musíme znát situaci a prostředí 18
Použití: Meyer Kompenzace za zranění Meyer, B., Viscusi, K., Durbin, D.: Workers' Compensation and Injury Duration: Evidence from a Natural Experiment. The American Economic Review 1995b, 83 (3), pp. 322 338 k dispozici na stránkách https://webhosting.vse.cz/figlova/5en306/ výzkumná otázka: Jak výše náhrady mzdy determinuje délku domácí léčby?? na co má výše kompenzace vliv? počet rerpotovaných zranění délka domácí léčby klesají náklady ušlé příležitosti X otázkou je ovšem morálka chuť pracovat přirozený experiment (náhodný výběr před a po změně) 19
Použití: Meyer Kompenzace za zranění Teorie Y=f(x) na čem závisí délka PN? na výši kompenzace (a ta závisí na výši mzdy) druh zranění, věk, rodinný stav, pohlaví, odvětví, závažnost zranění apod. Y f ( x1; x2; x3; x4; x5; x6; x7 ) ale máme problém řada nepozorovatelných faktorů morálka pracujících (simulanti, zbytečné protahování nemocenské), doktorů, 20
Použití: Meyer Kompenzace za zranění E 1 -E 2 =CONTROL E 3 a více =TREATED 21
Použití: Meyer Kompenzace za zranění Data reprezentativní vzorek všech události a korespondujících parametrů (datum, typ zranění, délka léčby, náklady léčby, pohlaví, průmysl..) Strategie srovnat TREATMENT a CONTROL; BEFORE a AFTER stejné srovnání ve dvou státech (Kentucky, Michigan) nejdříve srovnat rozdíly průměrů, mediánů, pak provést i regresi zatímco v CONTROL nedošlo k významným změnám, u TREATED konzistentně narostla délka léčby log duration (závislá proměnná): méně ovlivněno extrémními hodnotami porovnání elasticit; porovnání mean, median a 75 percentil duration a dále mean of log DiD je to důležité při distribuci, kde median je malý (5 týdnů) a existuje pár extrémních pozorování (182 týdnů) (průměr je na extrémy citlivý) 22
Použití: Meyer Kompenzace za zranění 5. sloupec oba státy velký rozdíl pro high earnings x vysoké standardní chyby Mean of log duration zde redukujeme vliv asymetrie rozdělení standardní chyby nízké; nárůst o 20 resp. 29% 23
Použití: Meyer Kompenzace za zranění interpretace koeficienty kontrolní proměnné důležitá kontrola 1: není tento vývoj důsledkem změny závažnosti zranění? důležitá kontrola 2: není tento vývoj důsledkem změny distribuce zranění? log_dur i = β 0 + β 1 HIGH_INCOME i + β 2 AFTER i + + β 3 HIGH_INCOME i *AFTER i + β k X k + u i 24
Použití: Bronzini Investice Bronzini, R., Blasio, G. (2006): Evaluating the Impact of Investment Incentives: The Case of Italy s Law 488/1992. Bank of Italy k dispozici na stránkách https://webhosting.vse.cz/figlova/5en306/ výzkumní otázka: Jaké jsou rozdíly ve výši investic u podpořených a nepodpořených firem? motivace: Zjistit účinnost vládní politiky zapříčiňuje zvýšení investic nebo pouze platí za projekty, které by byly realizovány stejně Kontext: Italská vláda od r. 1996 poskytuje investiční pobídky do vybraných regionů na základě aukce v každém regionu jsou nabídky investorů seřazeny dle předem známých kritérií (podíl vlastních zdrojů, počet vytvořených prac. míst, environmentální a regionální charakteristiky ) Možné problémy: jiné granty? plnění investice v čase zánik či špatná situace firem, které grant nedostaly DATA: registr všech uchazečů (parametry projektů) kombinován s centrální databází o investicích 25
Použití: Bronzini Investice Data: registr všech uchazečů (parametry projektů) kombinován s centrální databází o investicích z jednoho kola aukce získali vzorek cca 1000 firem; celkem zkoumají 2 kola panelová data: o investicích jednotlivých firem; mají časovou řadu, vyvářejí vyvážený panel Jak na to? nejlepší pro měření by bylo náhodné udělování grantu co srovnat firmy s grantem s ostatníma v ekonomice? bohužel: bojíme se self-selekce volí cestu: Treated=podpořené firmy; Control= ty co zažádaly a podporu nezískaly pořád: jsou stejné? 26
Použití: Bronzini Investice test: deskriptivní statistiky a hypotézy o shodnosti průměrů jelikož je výsledek nejasný, provádějí i další testy jak ještě můžeme ověřit vhodnost kontrolní skupiny? 27