5EN306 Aplikované kvantitativní metody I Přednáška 12 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti a citlivosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Testy hypotéz v KLRM alternativní t-testy Oboustranný (two-sided / two-tail t-test) H 0 : β 1 = 0 H 0 : β 1 = 0,3 H 0 : β 1 = 0,3 H 1 : β 1 0 H 1 : β 1 0,3 H 1 : β 1 0,3 t = 0,5091 0 0,0357 = 14,24 t = 0,5091 0,3 0,0357 = 5,86 t = t* = 2,306 (α = 0,05, d.f. = 8), v tabulkách two-tailed 0,5091 ( 0,3) 0,0357 = 22,66 3
Testy hypotéz v KLRM alternativní t-testy Jednostranný (one-sided / one-tail t-test) pravostranný (right-tail) H 0 : β 1 0,3 H 1 : β 1 > 0,3 t = 0,5091 0,3 0,0357 = 5,86 t* = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t* zamítám H 0 levostranný (left-tail) H 0 : β 1 0,3 H 1 : β 1 < 0,3 t = 0,5091 0,3 0,0357 = 5,86 t * = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t * nezamítám H 0 4
Testy hypotéz v KLRM alternativní t-testy Jednostranný (one-sided / one-tail t-test) pravostranný (right-tail) H 0 : β 1 0,3 H 1 : β 1 > 0,3 t = 0,5091 ( 0,3) 0,0357 = 22,66 t* = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t* zamítám H 0 levostranný (left-tail) H 0 : β 1 0,3 H 1 : β 1 < 0,3 t = 0,5091 ( 0,3) 0,0357 = 22,66 t * = 1,860 (α = 0,05, d.f. = 8), v tabulkách one-tailed t > t * nezamítám H 0 5
Testy hypotéz v KLRM alternativní t-testy 6
Testy hypotéz v KLRM dílčí F-test pro libovolnou podmnožinu regresorů zpravidla pro skupinu souvisejících proměnných (např. dummies) k včetně úrovňové konstanty neomezený (unrestricted) model omezený (restricted) model 7
Kontrola modelu Nejčastější chyby a problémy: outliers, distribuce a charakter dat, jednotky měření výběr proměnných, jejich definice, způsob měření a vztahy funkční forma modelu endogenita (= korelace e a y): omitted variable, selekce, simultaneita proč nezahrnout X? strukturní změny ve vzorku (časové řady, panel) konzistence v datech (zejména dotazníky) => všechny kroky poctivě (a kontrolovat) 8
Kontrola modelu multikolinearita = není porušením GM (to je pouze perfektní kolinearita), ale kontrolovat perfektní kolinearita téměř vždy chyba specifikace modelu hetero = je porušením, důvod: špatná forma funkce, opomenutí X, outliers auto = u časových dat zdánlivé vztahy (nestacionarita, ) ne vyjmenovat!!! ale aplikovat a diskutovat v kontextu práce 9
Testy robustnosti (1) Další podmínka: výsledek vydrží (smysluplné!!) externí šoky; hledáme slabá místa, testujeme stabilitu modelu: jiná funkční forma nelineární; logaritmizace proměnných, mocniny, interakce jiná specifikace zejména v případě očekávaných problémů jiná definice proměnných z absolutních na míru; normuji jinou proměnnou; měřím věc jinak jiná definice (ability - IQ, KWW) 10
Testy robustnosti (2) odlehlá pozorování různé odhadové techniky (IV, FD x FE x RE, pro autokorelaci, ) robustní st. chyby přidání, ubrání proměnných změna vzorku (nový vzorek, změna rozsahu) citlivost parametrů na změny variantní analýza kontrolní proměnné jiná definice kontrolní skupiny (D in D), (př. spalovna jiná definice vzdálenosti (treat x control)), (př. Bronzini, De Blasio) 11
Testy robustnosti (3) strukturní změny v rámci vzorku (Chow, ) změna definice vysvětlované proměnné, změna vysvětlující proměnné rozdělení vzorku dle některé charakteristiky změna funkční formy modelu Reportovat všechno; i nula je výsledek, i nesignifikantní vliv je výsledek ZAPSAT: cílem není NĚCO naměřit hledáme TRUE POPULATION MODEL radši nic než špatně 12
Odlehlá pozorování transformace dat - logaritmická transformace, odstranění odlehlých pozorování, jak? nahrazení průměry, apod. př. t-testy (s menším n se zlepšují?!?) asymetrie zvyšuje rozptyl 13
Změna funkční formy 14
Robustní standardní chyby 15
Rozdělení vzorku vliv kouření matek během těhotenství na porodní váhu dítěte celý dataset birwt <= 2500 g birwt >= 4000 g 16
Kontrolní proměnné Kontrolní proměnné pro redukci omitted variable bias 17
Jiná odhadová technika př. Asensio (2006) IV pro kvalitu př. kvantilová regrese (lze i pro odlehlá pozorování) 18
Různé odhadové techniky 19
Různé odh. techniky pooled cross-section RE - FE The drop in the marriage premium is consistent with the idea that men who are more able - as captured by a higher unobserved effect, ai - are more likely to be married. Therefore, in the pooled OLS stimation, a large part of the marriage premium reflects the fact that men who are married would earn more even if they were not married. The remaining 4.7% has at least two possible explanations: (1) marriage really makes men more productive or (2) employers pay married men a premium because marriage is a signal of stability. We cannot distinguish between these two hypotheses. Wooldridge, str 451. 20
Jiná kontrolní skupina INCINERATOR (Kiel, McClain (1995)) nearinc = 1, pokud dist <= 15840 stop zkusme nearinc2 = 1, pokud dist <= 15000 21
Změna distribuce Meyer (2008) Workers' Compensation and Injury Duration: Evidence from a Natural Experiment Změna distribuce zranění (změna délky a závažnosti zranění) We emphasize the mean of the logarithm of duration because this statistic is likely to be more precisely measured and less susceptible to the influence of a few large observations. This issue of robustness is important here since the distribution of claim lengths has a few large values, but most values are small. 22
Změna distribuce 23
Změna distribuce The mean of costs in Kentucky shows a relative decrease in severity for the high-earnings group. We should emphasize, though, that none of the difference-in-differencee stimates is significantly different from zero. The comparability of the claims from the year before the increases to those the year after the benefit increases is generally supported by the numbers on total medical costs associated with the claims. These numbers, reported in the second panel of Table 4, show that the high- and low-earnings groups experience similar increases in median costs, probably due to a general rise in medical costs. 24
Změna struktury ve vzorku Chowův test (tzv. Chowův 1. test) liší se regresní parametry modelu pro různé podmnožiny pozorování (podvzorky)? H 0 :struktura je stejná H 1 :struktura se v čase mění T celkový počet pozorování T = T1 + T2 podmínka: T1 > k a T2 > k (test je možné použít i pro více podvýběrů) SSR ( SSR1 SSR 2) / k ( SSR SSR ) / ( T 2 k) 1 2 F( k, T 2 k) zamítnutí nulové hypotézy znamená, že model není vhodný pro predikce 25
Použití: Bronzini Investice Bronzini, R., Blasio, G. (2006): Evaluating the Impact of Investment Incentives: The Case of Italy s Law 488/1992. Bank of Italy k dispozici na stránkách http://nb.vse.cz/~figlova/vyuka_5en306.htm výzkumní otázka: Jaké jsou rozdíly ve výši investic u podpořených a nepodpořených firem? motivace: Zjistit účinnost vládní politiky zapříčiňuje zvýšení investic nebo pouze platí za projekty, které by byly realizovány stejně Kontext: Italská vláda od r. 1996 poskytuje investiční pobídky do vybraných regionů na základě aukce v každém regionu jsou nabídky investorů seřazeny dle předem známých kritérií (podíl vlastních zdrojů, počet vytvořených prac. míst, environmentální a regionální charakteristiky ) Možné problémy: jiné granty? plnění investice v čase zánik či špatná situace firem, které grant nedostaly 26
Použití: Bronzini Investice DATA: z každého kola aukce získali vzorek cca 1000 firem; typ: panelová data o investicích jednotlivých firem; mají časovou řadu, vyvářejí vyvážený panel JAK NA TO? co by bylo nejlepší pro měření?? co srovnat firmy s grantem s ostatníma firmami v ekonomice? MODEL: y it I t /K t-1 Z it sales, ROA, own capital/debt 27
Použití: Bronzini Investice jednoduché rozdíly průměrů/mediánů výsledek regresní rovnice (diffs in diffs) koeficienty γ t 28
Použití: Bronzini Investice Co když program akceleroval prodeje/odpisy starého majetku a tudíž nadhodnotil I/K? (positive bias) kontrolujeme náhradou vysvětlované proměnné za I/sales; I/assets; výsledky: stejné! Co když program zachránil některé firmy a jiné díky jeho nedostání nepřežily? (survivorship bias - negative) využijeme nevyvážený panel: všechny firmy, které mají alespoň 1 PRE a jedno POST pozorování výsledky: o málo vyšší, ale nevýznamné co to znamená? jak na to jinak? Jiný faktor než INCENTIVES kontrolujeme dalšími proměnnými výsledky: velmi podobné! 29
Použití: Bronzini Investice Vliv regionu nebo velikosti firmy - rozdělíme vzorek podle R (např. vybereme nejbohatší, pak nejchudší) - rozdělíme vzorek podle velikosti firem (pak např. vybereme 10% největších apod.) - výsledky: efekty pro menší firmy jsou silnější, ale γ t přibližně stejné tj. až na výjimky nevýznamné a POST významně negativní! Špatný výběr kontrolní skupiny? 30