Pooled data
y = Xβ + ε Cross-section pozorování Firma, člověk ds = αsdt + σsdw Časový úsek Základní soubor Výběrový soubor Základní soubor Je Proces 1 konkrétní realizace
Co sledovat firmu(y), osobu(y) v čase? Pro začátek ve dvou rozdílných obdobích Jak cross-section Tak časový charakter Základní soubor Základní soubor Výběrový soubor Výběrový soubor t = 1 1990 t = 2 2000
Mluvíme o dvou typech pooled data 1) nezávisle pooled cross sections 2) Panelová data (longitudinal data) Pooled cross sections Výběr z populace v každém období (např. rok) se dotážeme x subjektu na. Období se mění a sním i výběrový soubor (jiné subjekty) Jedná se tak o nezávislé výběry nejsou korelovány (není autokorelace) Je však přítomný prvek času Panel data Český statistický úřad a rodinné účty (mikrodata) Pravidelné dotazování rodin na income, health, education, employment, etc. Jedná se tak o průřezová data, sbíraná v čase Výběrový soubor se nemění!!!
Pooling Independent Cross Sections Across Time Proč to děláme? Zvýšíme počet pozorování (rozptyl, multikolinearita, atd.) Můžeme zkoumat změny v čase Můžeme zkoumat efekt času Rozdílné výběrové soubory Základní soubor Základní soubor Základní soubor t = 1 t = 2 t = 3
přirozený experiment Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami Mějme 2 skupiny (T,C) pro 2 různé časové intervaly t=1,2 Jak zakomponujeme čas do modelu? Pomocí dummy (umělých) proměnných
Plán vybudovat spalovnu vznikl v po roce 1978 Vlastní výstavba nastala v roce 1981 Spuštění v roce 1985 Hypotéza měla výstavba spalovny vliv na cenu nemovitostí v jejím okolí? Jak určíme co je okolí? Uvažujme, že blízko bereme okruh do 15840 stop Využijeme dummy proměnnou nearinc = 1 blízko nearinc = 0 mimo pásmo Změnila se cena domů po roce 1981? rprice = β 0 + δ 1 y81 + δ 2 nearinc. y81 + ε rprice = 101307,5 30688,27nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu
Využijeme dummy proměnnou nearinc = 1 blízko nearinc = 0 mimo pásmo Změnila se cena domů po roce 1981? rprice = β 0 + δ 1 y81 + δ 2 nearinc. y81 + ε rprice = 101307,5 30688,27nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu rprice = 101307,5 30688,27 1 rprice = 101307,5 30688,27 0 Průměrná cena nemovitosti v okolí spalovny Průměrná cena mimo okolí spalovny Je zřejmé, že v okolí spalovny je nižší cena nemovitostí Je to však vlivem spalovny? To takto nezjistíme!
Jaká byla cena nemovitostí v okolí dnešní spalovny, před plánovanou výstavbou? rprice = β 0 + δ 1 y78 + δ 2 nearinc. y78 + ε rprice = 82517 18824. nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1978 V okolí/mimo dnešní spalovnu rprice = 82517 18824 1 rprice = 82517 18824 0 Průměrná cena nemovitosti v okolí DNEŠNÍ spalovny Průměrná cena mimo okolí DNEŠNÍ spalovny Již před odsouhlasením výstavby, byly v dané lokalitě nižší ceny nemovitostí Zatím jsme tak nezjistili jaký čistý efekt měla výstavba spalovny
1981 1978 rprice = 101307,5 30688,27nearinc rprice = 82517 18824. nearinc Jak se ovlivnila výstavba spalovny cenu nemovitostí v jejím okolí? δ 3 = 30688,27 18824 = 11863 Vlivem výstavby spalovny se snížila cena nemovitostí v jejím okolí o 11863 $
δ 3 = 30688,27 18824 = 11863 δ 3 difference in differences odhad δ 3 = (rprice 81,nr rprice 81,fr ) (rprice 78,nr rprice 78,fr ) fr dále od spalovny nr v okolí spalovny Problém je, že nevíme zda-li je odhad δ 3 signifikantní Jak určit?
rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε Jaká data jsou obsažena v modelu? Domy pro období 1978 a 1981 Pooled cross-section data rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 y81 = 0 rok 1978 rprice = 82517 18824neatinc 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v 1978
rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 y81 = 0 rok 1978 rprice = 82517 18824neatinc 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v roce 1978 11863 měří vliv spalovny na cenu nemovitostí δ 3 = 30688,27 18824 = 11863 Nyní však můžeme určit signifikantnost δ 3 H0: δ 3 = 0 H1: δ 3 < 0
rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + other_controls + ε
log(rprice) = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε
Přirozený experiment Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami δ 3 = 30688,27 18824 = 11863 δ 3 difference in differences odhad δ 3 = (rprice 81,nr rprice 81,fr ) (rprice 78,nr rprice 78,fr ) δ 3 = (TA CA) (TB CB) δ 3 = (TA TB) (CA CB)
Policy analysis Uvedenou metodologii můžeme použít při zkoumání (experimentu) v určité politice Je třeba mít kontrolní skupinu (C), které se opatření nedotkne A skupinu, kterou opatření ovlivní (T) Musíme mít nějaký vztah mezi C a T Společný trend Dopad vlivu změny spotřební daně z cigarety na poptávané množství USA vs ČR Stejné reakce na změnu podmínek Exogenní událost - např. změna zákona, vládní nařízení To se dotkne cross-section units lidé, firmy, města atd. skupiny T, ale ne skupiny C Událost nebyla reakcí na vývoj T Neexistuje jiná neznámá exogenní změna Dále potřebujeme 2 období PŘED a PO změně
Díky tomu můžeme změřit čistý efekt exogenní změny při daných podmínkách Jak funguje lék? Jaký dopad má výstavba továrny na zdraví lidí v okolí? Jaký je dopad opatření na Y? (bodový systém v ČR, změna spotřební daně cigaret, alkoholu) Jaký je dopad deregulace na Y? (odstranění povinnosti nosit helmy) Jaký je dopad výstavby dálničního obchvatu na Y? Jak úspěšný byl kurz pro zaměstnance? Samozřejmě určitý problém je mít T a C skupinu
rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + other_controls + ε y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy δ 3 = ( y 2,T y 2,C ) ( y 1,T y 1,C ) difference in differences estimator
y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy y = β 0 + δ 1. 0 + δ 2. 0 + δ 3 0.0 + y = β 0 + δ 1 1 + δ 2 0 + δ 3 0.1 + Před Po Před-Po Control β 0 β 0 + δ 1 δ 1 Treatment β 0 + δ 2 β 0 + δ 1 + δ 2 + δ 3 δ 1 + δ 3 Treatmen-control δ 2 δ 2 + δ 3 δ 3 y = β 0 + δ 1 d0 + δ 2 1 + δ 3 1.0 + y = β 0 + δ 1 1 + δ 2 1 + δ 3 1.1 +
Před Po Před-Po Control β 0 β 0 + δ 1 δ 1 Treatment β 0 + δ 2 β 0 + δ 1 + δ 2 + δ 3 δ 1 + δ 3 Treatmen-control δ 2 δ 2 + δ 3 δ 3 rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny Jak vzrostla cena nemovitostí? Co cenová hladina? rprice = 82517 18824neatinc y81 = 0 rok 1978 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v roce 1978
Soubor obsahuje charakteristiky 7150 náhodně vybraných pozorování (statistickou jednotkou je jedinec) z let 1980 (stát Kentucky, USA, zvýšení týdenní nemocenské ze 131 USD na 217 USD) a 1982 (stát Michigan, USA, zvýšení týdenní nemocenské ze 181 USD na 307 USD). Data jsou rozdělena na vysokopříjmovou a nízkopříjmovou skupinu. Bylo zjištěno, že vysokopříjmoví jedinci před navýšením nemocenské zkracovali svůj pobyt doma. Zadání: a) definujte treatment a control group; b) naformulujte ekonometrický model a odhadněte vliv období před a po navýšení nemocenské a skupiny vysokopříjmových a nízkopříjmových na délku pobytu na nemocenské pomocí metody difference-in-difference; c) přidejte do modelu z b) další možné charakteristiky a odhadněte model, testujte multikolinearitu a heteroskedasticitu (pro α = 0,05).
Jak výše náhrady mzdy determinuje délku domácí léčby? náklady ušlé příležitosti na co má výše kompenzace vliv? počet rerpotovaných zranění délka domácí léčby X otázkou je ovšem morálka chuť pracovat přirozený experiment (náhodný výběr před a po změně)
log durat = β 0 + δ 1 afchnge + δ 2 highearn + δ 3 afchnge. highearn + ε y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy