5EN306 Aplikované kvantitativní metody I Přednáška 6 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. vorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. esty robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Dnes minule: dummies dnes: - korelační analýza - regresní analýza - princip - koeficienty a základní statistiky - omitted variable bias 3
Korelační analýza Regresní analýza: analýza jednostranných závislostí mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou. Popis průběhu závislosti určitou analytickou funkcí. Cíle co nejpřesnější kvantifikace vlivu určitého faktoru na jiný, odhalení kauzálních vztahů (příčina-následek), co nejpřesnější model k vysvětlované proměnné k predikcím Konstrukce korelačních koeficientů: Y Y E[( E( ))( Y E( Y))] 1;1 E( E( )) E( Y E( Y)) Y vzájemné vztahy vždy pouze 2 veličiny nerozeznáme kauzalitu tabulky sdružených četností, pravděpodobností grafy education x wage 4
Regresní analýza populace y = β 0 + β 1 x + u wage educ u i 0 1 i i výběr wage 7,8 8,9educ u i i i 5
Regresní analýza Zajímáme se (zpravidla) o podmíněné průměry (podmíněné střední hodnoty) vysvětlované proměnné při změnách proměnných vysvětlujících hledáme vhodný model Snaha poznat příčinné vztahy mezi veličinami Snaha matematicky popsat vztahy (závislosti) mezi veličinami Hledáme co nejlepší matematickou funkci (empirickou regresní funkci) popisující průběh podmíněné střední hodnoty (hypotetickou (populační) regresní funkci) Korelační analýza hovoří o intenzitě závislosti a regresní analýza o průběhu závislosti mezi dvěma znaky; aplikace společně graficky: 6
Korelační analýza vs. regrese u regrese již vkládáme jistou strukturu s řadou předpokladů (L/P strana, aditivní charakter, /ne/linearita) realita ( chaos ) vs. model ceteris paribus nebezpečí: jedná se pořád pouze o korelaci, nikoliv kauzální vztah Metoda nejmenších čtverců - MNČ y = β 0 + β 1 x + u předpokládáme vztah v populaci (nikdy neodhalíme úplně ) hledáme jeho odraz ve vzorku PC najde nejlepší β 0 a β 1 a získáme fitted values z nejlepší regresní přímky pak musíme rozlišovat: y i a rozdíl je residuum (chyba, error):strukturu s řadou předpokladů (L/P 7
MNČ metoda nejmenších čtverců MNČ metoda nejmenších čtverců Jak najít přímku, tak aby co nejlépe popisovala závislost? j. byla co nejblíže všem bodům? Chceme minimalizovat součet čtverců odchylek (reziduí) e ee 2 i min Y Maticový zápis KLRM obecný model (maticový zápis): y β u matice (n x k) pozorování exogenních (resp. predeterminovaných) proměnných y vektor (n x 1) pozorování endogenní proměnné β vektor (k x 1) parametrů u náhodná složka, o které předpokládáme, že má normální rozdělení N(0,σ 2 ) 8
MNČ metoda nejmenších čtverců Odvození bodové odhadové funkce b b e e min e e (y b) y y 2b kdeplatí,že y (y b) y y b b (y b) y b b, b y y y b b b e e b (y y 2b y b b b) 0 2 y 2 b 2 ( ( ) b ( y 2 )b 1 ( ) 1 b y )b ( y ) 1 y 9
MNČ metoda nejmenších čtverců Minimalizací funkce: Dostaneme: =0 =0 klíčové pro nás je 10
Regresní koeficienty říká, o kolik se v průměru změní Y pokud se změní o jednotku průměrná odchylka od průměru statisticky spojena s průměrnou odchylkou Y od průměru kovariance,y normalizovaná rozptylem cov( x, y) cov( x, y) ( y) cov( x, y) ( y) ( y) 1.. ( xy, ). 2 2 ( x) ( x) ( y) ( x) ( y) ( x) ( x) koeficient β 0 - co je očekávaná hodnota Y pokud je =0? koeficient β 1 - změní-li se o jednotku, jaká je očekávaná změna Y? - graficky? žádná kauzalita (pokouší nás to!!!) 11
Vychýlený (biased) odhad Wooldridge str. 87 př. 1: yield = β 0 + β 1 fertilizer + u př. 2: wage = β 0 + β 1 educ + u vždy se ptáme otázku: jsme dostatečně blízko laboratoři? ideálně: každý faktor úplně nezávislý na všech ostatních. realita: pravý opak je exogenní vůči Y (= není endogenní) vychýlený (skreslený, biased) odhad patří mezi chyby specifikace modelu 12
Vychýlený (biased) odhad 1) Vynechání důležité proměnné vede k vychýlení odhadu koeficientu ex ante: identifikujeme pomocí teoretického modelu: číst jiný výzkum ex post: konfrontujeme výsledky s jiným výzkumem nemůžeme přidat všechno přinejmenším musíme znát směr vychýlení a diskutovat jej velikost zkreslení? Wooldridge: wage educ innate ability 13
Vychýlený (biased) odhad vynechání způsobí neplatnost E(u x) E(u) = 0 vychýlení odhadu nahor či dolů (upward or downward bias) nemůžeme-li jej odstranit, alespoň diskutujeme x 1 neskorelována s x 2 b 0 skreslený, b 1 - neskreslený skreslený odhad všech rozptylů prametrů nekorektní testování hypotéz a konfidenčních intervalů 14
Vychýlený (biased) odhad 2) Chybný tvar funkce pokud vztah v základní populaci není lineární (a my máme lin. funkci), máme vychýlený odhad opět: ex ante, ex post výzkum můžeme zvolit více forem, ale ne všechny uvnitř jednoho modelu často používáme více forem najednou (jaké?) Mocninný tvar wage exper u wage exper exper u i i i 2 i i i i wage exper 2 exper 15
Vychýlený (biased) odhad 16
Vychýlený (biased) odhad příklad Returns to education kolik je průměrný výnos z dodatečného roku studia? Mincer, Jacob (1974) Schooling, Experience and Earnings, NBER teoretický model: wage wagei f ( edui ) f ( edu, exper, gender, ability, firm, region ) i i i i i i j, i problémy: ability, forma funkce ln wage i 0 1edu i 2exper i 3 female i ui 2 ln wage i 0 1edu i 2exper i 3exper i 4 female i ui 17
Vychýlený (biased) odhad příklad OLS estimates Dependent variable: lwage (1) (2) const 0.4808** 0.3905** (0.1050) (0.1022) educ 0.09129** 0.08414** (0.007123) (0.006957) exper 0.009414** 0.03891** (0.001449) (0.004824) female -0.3436** -0.3372** (0.03767) (0.03632) expersq -0.0006860** (0.0001074) n 526 526 Adj. R**2 0.3488 0.3950 lnl -299.1-279.3 Standard errors in parentheses * indicates significance at the 10 percent level ** indicates significance at the 5 percent level 18
Vychýlený (biased) odhad 3) Další problémy způsobující vychýlení nenáhodný vzorek selekce agentů obrácená nebo oboustranná kauzalita (simultaneita) problém identifikujeme hlavně teoreticky: jiný výzkum řešení: identifikační strategie přednášky 8-13 19
Vychýlený (biased) odhad poptávka po brazilské kávě v USA je funkcí PriceBrazCof (-), Priceea (+), DispInc (+) Model 1 Model 2 Model 3 Const 9,1 9,3 10,0 PriceBrazCof 7,8 (15,6) -5,6 (2,0) Priceea 2,4 (1,2) 2,6 (1,0) 2,6 (1,3) DispInc 0,0035 (0,0010) 0,0036 (0,0009) 0,0030 (0,0010) PriceColomCof 8,0 (4,0) R 2 adj 0,60 0,61 0,65 Model 1: Priceea a DispInc jsou SV, znamínka jsou ok; problém u PriceBrazCof předpokládejme, že poptávka po kávě je cenově neelastická Model 2 porovnejme oba modely vyřazení PriceBrazCof teoreticky i z pohledu t-testu; zvýšil se R 2 adj, vychýlení u Priceea a DispInc je zanedbatelné závěr poptávka po kávě je cenově neelastická a tato proměnná by měla být vyřazena z modelu neoprávněný!!! nebude platit cenově neelastická v porovnání s jinou kávou, např.! Model 3 Model 3: PriceBrazCof a PriceColomCof zařazení do modelu teoreticky ok, SV, zvýšil se R 2 adj, vychýlení u Priceea a DispInc je zanedbatelné, významné vychýlení u PriceBrazCof (porovnej Model 1 a Model 3) 20
Vychýlený (biased) odhad PriceColomCof > 0, corr(pricebrazcof,pricecolomcof) > 0 positive bias ponechat proměnnou v modelu i když je statisticky nevýznamná, je to důležité z teoretického hlediska PriceColomCof měla být zařazena do modelu už na začátku a ne zkoušet různé proměnné vyvarovat se mylnému vyřazení nevýznamné proměnné z modelu (viz Model 2) 21