Cross-section pozorování Firma, člověk Časový úsek

Podobné dokumenty
5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

5EN306 Aplikované kvantitativní metody I

Přednáška 4. Lukáš Frýd

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

5EN306 Aplikované kvantitativní metody I

Statistika II. Jiří Neubauer

5EN306 Aplikované kvantitativní metody I

Ekonometrie. Jiří Neubauer

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Lekce 1 úvod do ekonometrie

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

4EK201 Matematické modelování. 11. Ekonometrie

Intervalová data a výpočet některých statistik

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

5EN306 Aplikované kvantitativní metody I

5. PŘEDNÁŠKA EKONOMETRICKÝ MODEL REGRESNÍ ANALÝZA DUMMIES VÍCENÁSOBNÁ REGRESE

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Design Experimentu a Statistika - AGA46E

Praktikum z ekonometrie Panelová data

Regresní analýza 1. Regresní analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

FJFJ Cvičení 1. Lukáš Frýd

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

4EK211 Základy ekonometrie

STATISTICKÉ ODHADY Odhady populačních charakteristik

PRAVDĚPODOBNOST A STATISTIKA

Bodové a intervalové odhady parametrů v regresním modelu

Korelační a regresní analýza

Dynamické metody pro predikci rizika

5EN306 Aplikované kvantitativní metody I

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

LWS při heteroskedasticitě

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Normální (Gaussovo) rozdělení

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

Úloha 1: Lineární kalibrace

Statistická analýza jednorozměrných dat

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Odhad parametrů N(µ, σ 2 )

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Cvičení ze statistiky - 8. Filip Děchtěrenko

AVDAT Klasický lineární model, metoda nejmenších

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

12. cvičení z PST. 20. prosince 2017

4EK211 Základy ekonometrie

Normální (Gaussovo) rozdělení

4. Aplikace matematiky v ekonomii

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Biostatistika Cvičení 7

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úvodem Dříve les než stromy 3 Operace s maticemi

Ilustrační příklad odhadu LRM v SW Gretl

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Jana Vránová, 3. lékařská fakulta UK

Návrh a vyhodnocení experimentu

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

10. Předpovídání - aplikace regresní úlohy

4EK211 Základy ekonometrie

Ing. Michael Rost, Ph.D.

6. Lineární regresní modely

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

Statistické testování hypotéz II

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

5EN306 Aplikované kvantitativní metody I

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

4EK211 Základy ekonometrie

http: //meloun.upce.cz,

Ranní úvahy o statistice

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Studie HELEN. Zdravotní stav a životní styl obyvatel ČR. porovnání I. a II. etapy

4EK211 Základy ekonometrie

7. Analýza rozptylu.

Testování statistických hypotéz

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Ekonomické předstihové ukazatele: nástroj krátkodobé predikce

Transkript:

Pooled data

y = Xβ + ε Cross-section pozorování Firma, člověk ds = αsdt + σsdw Časový úsek Základní soubor Výběrový soubor Základní soubor Je Proces 1 konkrétní realizace

Co sledovat firmu(y), osobu(y) v čase? Pro začátek ve dvou rozdílných obdobích Jak cross-section Tak časový charakter Základní soubor Základní soubor Výběrový soubor Výběrový soubor t = 1 1990 t = 2 2000

Mluvíme o dvou typech pooled data 1) nezávisle pooled cross sections 2) Panelová data (longitudinal data) Pooled cross sections Výběr z populace v každém období (např. rok) se dotážeme x subjektu na. Období se mění a sním i výběrový soubor (jiné subjekty) Jedná se tak o nezávislé výběry nejsou korelovány (není autokorelace) Je však přítomný prvek času Panel data Český statistický úřad a rodinné účty (mikrodata) Pravidelné dotazování rodin na income, health, education, employment, etc. Jedná se tak o průřezová data, sbíraná v čase Výběrový soubor se nemění!!!

Pooling Independent Cross Sections Across Time Proč to děláme? Zvýšíme počet pozorování (rozptyl, multikolinearita, atd.) Můžeme zkoumat změny v čase Můžeme zkoumat efekt času Rozdílné výběrové soubory Základní soubor Základní soubor Základní soubor t = 1 t = 2 t = 3

přirozený experiment Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami Mějme 2 skupiny (T,C) pro 2 různé časové intervaly t=1,2 Jak zakomponujeme čas do modelu? Pomocí dummy (umělých) proměnných

Plán vybudovat spalovnu vznikl v po roce 1978 Vlastní výstavba nastala v roce 1981 Spuštění v roce 1985 Hypotéza měla výstavba spalovny vliv na cenu nemovitostí v jejím okolí? Jak určíme co je okolí? Uvažujme, že blízko bereme okruh do 15840 stop Využijeme dummy proměnnou nearinc = 1 blízko nearinc = 0 mimo pásmo Změnila se cena domů po roce 1981? rprice = β 0 + δ 1 y81 + δ 2 nearinc. y81 + ε rprice = 101307,5 30688,27nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu

Využijeme dummy proměnnou nearinc = 1 blízko nearinc = 0 mimo pásmo Změnila se cena domů po roce 1981? rprice = β 0 + δ 1 y81 + δ 2 nearinc. y81 + ε rprice = 101307,5 30688,27nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1981 V okolí/mimo spalovnu rprice = 101307,5 30688,27 1 rprice = 101307,5 30688,27 0 Průměrná cena nemovitosti v okolí spalovny Průměrná cena mimo okolí spalovny Je zřejmé, že v okolí spalovny je nižší cena nemovitostí Je to však vlivem spalovny? To takto nezjistíme!

Jaká byla cena nemovitostí v okolí dnešní spalovny, před plánovanou výstavbou? rprice = β 0 + δ 1 y78 + δ 2 nearinc. y78 + ε rprice = 82517 18824. nearinc Co jsme odhadli? Jaká byla cena nemovitostí v roce 1978 V okolí/mimo dnešní spalovnu rprice = 82517 18824 1 rprice = 82517 18824 0 Průměrná cena nemovitosti v okolí DNEŠNÍ spalovny Průměrná cena mimo okolí DNEŠNÍ spalovny Již před odsouhlasením výstavby, byly v dané lokalitě nižší ceny nemovitostí Zatím jsme tak nezjistili jaký čistý efekt měla výstavba spalovny

1981 1978 rprice = 101307,5 30688,27nearinc rprice = 82517 18824. nearinc Jak se ovlivnila výstavba spalovny cenu nemovitostí v jejím okolí? δ 3 = 30688,27 18824 = 11863 Vlivem výstavby spalovny se snížila cena nemovitostí v jejím okolí o 11863 $

δ 3 = 30688,27 18824 = 11863 δ 3 difference in differences odhad δ 3 = (rprice 81,nr rprice 81,fr ) (rprice 78,nr rprice 78,fr ) fr dále od spalovny nr v okolí spalovny Problém je, že nevíme zda-li je odhad δ 3 signifikantní Jak určit?

rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε Jaká data jsou obsažena v modelu? Domy pro období 1978 a 1981 Pooled cross-section data rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 y81 = 0 rok 1978 rprice = 82517 18824neatinc 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v 1978

rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 y81 = 0 rok 1978 rprice = 82517 18824neatinc 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v roce 1978 11863 měří vliv spalovny na cenu nemovitostí δ 3 = 30688,27 18824 = 11863 Nyní však můžeme určit signifikantnost δ 3 H0: δ 3 = 0 H1: δ 3 < 0

rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + other_controls + ε

log(rprice) = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε

Přirozený experiment Je analyzována policy change Pokud provádíme experiment potřebujeme treatment and control groups Následně tak můžeme porovnat (analyzovat) změny, které nastaly mezi skupinami δ 3 = 30688,27 18824 = 11863 δ 3 difference in differences odhad δ 3 = (rprice 81,nr rprice 81,fr ) (rprice 78,nr rprice 78,fr ) δ 3 = (TA CA) (TB CB) δ 3 = (TA TB) (CA CB)

Policy analysis Uvedenou metodologii můžeme použít při zkoumání (experimentu) v určité politice Je třeba mít kontrolní skupinu (C), které se opatření nedotkne A skupinu, kterou opatření ovlivní (T) Musíme mít nějaký vztah mezi C a T Společný trend Dopad vlivu změny spotřební daně z cigarety na poptávané množství USA vs ČR Stejné reakce na změnu podmínek Exogenní událost - např. změna zákona, vládní nařízení To se dotkne cross-section units lidé, firmy, města atd. skupiny T, ale ne skupiny C Událost nebyla reakcí na vývoj T Neexistuje jiná neznámá exogenní změna Dále potřebujeme 2 období PŘED a PO změně

Díky tomu můžeme změřit čistý efekt exogenní změny při daných podmínkách Jak funguje lék? Jaký dopad má výstavba továrny na zdraví lidí v okolí? Jaký je dopad opatření na Y? (bodový systém v ČR, změna spotřební daně cigaret, alkoholu) Jaký je dopad deregulace na Y? (odstranění povinnosti nosit helmy) Jaký je dopad výstavby dálničního obchvatu na Y? Jak úspěšný byl kurz pro zaměstnance? Samozřejmě určitý problém je mít T a C skupinu

rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + other_controls + ε y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy δ 3 = ( y 2,T y 2,C ) ( y 1,T y 1,C ) difference in differences estimator

y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy y = β 0 + δ 1. 0 + δ 2. 0 + δ 3 0.0 + y = β 0 + δ 1 1 + δ 2 0 + δ 3 0.1 + Před Po Před-Po Control β 0 β 0 + δ 1 δ 1 Treatment β 0 + δ 2 β 0 + δ 1 + δ 2 + δ 3 δ 1 + δ 3 Treatmen-control δ 2 δ 2 + δ 3 δ 3 y = β 0 + δ 1 d0 + δ 2 1 + δ 3 1.0 + y = β 0 + δ 1 1 + δ 2 1 + δ 3 1.1 +

Před Po Před-Po Control β 0 β 0 + δ 1 δ 1 Treatment β 0 + δ 2 β 0 + δ 1 + δ 2 + δ 3 δ 1 + δ 3 Treatmen-control δ 2 δ 2 + δ 3 δ 3 rprice = β 0 + δ 1 y81 + δ 2 neatinc + δ 3 nearinc. y81 + ε rprice = 82517 + 18790y81 18824neatinc 11863nearinc. y81 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny Jak vzrostla cena nemovitostí? Co cenová hladina? rprice = 82517 18824neatinc y81 = 0 rok 1978 82517 průměrná cena domů v roce 1978, které neleží v okolí dnešní spalovny 82517 18824 = průměrná cena v blízkosti spalovny v roce 1978

Soubor obsahuje charakteristiky 7150 náhodně vybraných pozorování (statistickou jednotkou je jedinec) z let 1980 (stát Kentucky, USA, zvýšení týdenní nemocenské ze 131 USD na 217 USD) a 1982 (stát Michigan, USA, zvýšení týdenní nemocenské ze 181 USD na 307 USD). Data jsou rozdělena na vysokopříjmovou a nízkopříjmovou skupinu. Bylo zjištěno, že vysokopříjmoví jedinci před navýšením nemocenské zkracovali svůj pobyt doma. Zadání: a) definujte treatment a control group; b) naformulujte ekonometrický model a odhadněte vliv období před a po navýšení nemocenské a skupiny vysokopříjmových a nízkopříjmových na délku pobytu na nemocenské pomocí metody difference-in-difference; c) přidejte do modelu z b) další možné charakteristiky a odhadněte model, testujte multikolinearitu a heteroskedasticitu (pro α = 0,05).

Jak výše náhrady mzdy determinuje délku domácí léčby? náklady ušlé příležitosti na co má výše kompenzace vliv? počet rerpotovaných zranění délka domácí léčby X otázkou je ovšem morálka chuť pracovat přirozený experiment (náhodný výběr před a po změně)

log durat = β 0 + δ 1 afchnge + δ 2 highearn + δ 3 afchnge. highearn + ε y = β 0 + δ 1 d2 + δ 2 dt + δ 3 dt. d2 + other_controls + ε d2 období PO změně, dummy dt treatment group dummy