5EN306 Aplikované kvantitativní metody I Přednáška 4 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Kde jsme? wage f ( educ, exper, tenure, age, female, married, reg1, reg2, soc,...) wage educ exper tenure i 0 i 1 i 2 i age female married u 3 i 4 i 5 i i 3
Teorie cena substitutu Q důchod Q cena auta pravděpodobnost luxusní SPZ cena komplementu Q důchod Q výše trestu Q zločinů počet policistů zabráněné zločiny advertising extra spotřebitelé 4
Teorie když něco očekáváme, musíme mít důvod (ne: bylo to tak minule, ale HLAVNĚ logický důkaz) základní je substituční efekt (klesající poptávka) + kontext hezké, hladké a spojité je jasné, že X Y (ale častokrát již teorie predikuje i Y X) ceteris paribus ošklivé, kostrbaté a nespojité nelineární ne ceteris paribus Y X; X Y; Y X a existuje Z 5
Data základní pojmy + doporučení pozorování (= řádek; observation) atributy jednotlivých pozorování (obsah konkrétního řádku; characteristics) charakteristika, proměnná, faktor (= sloupec; variable) minimálně 1 identifikátor!!! missing data prázdne políčko nebo tečka. bez odpovědi 99, 999, příp. negativní hodnoty vychýlení!!! nikdy nepracovat s originální proměnnou!!! vhodný název proměnné hrubydomaciprodukt, HDP, 6
Typy proměnných kvantitativní diskrétní pouze celočíselné obměny (počet dětí, pohlaví) spojité libovolné hodnoty z určitého intervalu (příjem, cena, věk) kvalitativní ordinální (pořadová) kategorie v určitém logickém pořadí (vzdělání, úroveň spokojenosti) nominální text, číselné kódy, ne ordinální info k porovnání jednotek dle nominálního znaku (rodinný stav, region, pohlaví) kategoriální (obměny jsou kategorie) - nominální, ordinální a kvantitativní diskrétní dichotomické (alternativní) binární vícekategoriální (množné) 7
Typy dat Dle úrovně: agregovaná - individuální velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: průřezová časové řady pooled cross-sections panelová 8
Průřezová data definice jednotné časové vymezení co je pozorování? náhodný výběr? (domácnosti, firmy) neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody 9
Časové řady definice řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) Intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční do je pozorování? problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, sezónnost, trendovost, zdánlivé vztahy, 10
Pooled cross-sections definice náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává proměnnou 11
Panelová data definice nejlepší a nejdražší co je pozorování? indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu 12
Jak data uchopit? (ojetá auta) 13
Jak data uchopit? (ojetá auta) 14
Kontrola 1 popisné charakteristiky aritmetický průměr (aritmetic average, mean) N X i 1 N i SCORE 4 5 6 8 12 4 5 6 8 12 5 35 5 7 nejjednodušší jenom míra polohy citlivý na extrémní pozorování 15
Kontrola 1 popisné charakteristiky rozptyl (variance) N 2 i 1 X i N 2 4, 5, 6, 8, 12 mean = 7 2 (4 7) (5 7) 9 4 1 1 25 8 5 2 2 (6 7) 5 2 (8 7) 2 (12 7) 2 standardní odchylka 8 2,83 16
Summary (descriptive) statistics popisné charakteristiky (průměry, mediány, max, min, rozptyly, počty pozorování, ad.) missing values 17
Kontrola 2 četnosti četnosti (histogram) odlehlá pozorování chyby, kódy 18
Kontrola 3 vztahy korelační analýza grafy 19
Úpravy dat transformace, funkční tvar v LRM logaritmování co to znamená? proč to děláme? škála pozor na nuly a záporná čísla pozor na interpretaci β: 20
Úpravy dat transformace, funkční tvar v LRM obecně nás zajímá, jaký efekt závislé proměnné vyvolá marginální změna j-té vysvětlující proměnné level-level FoodExp i = 94,201 + 0,437TotalExp i zvýšení celkových výdajů o 1 rupii vyvolá v průměru zvýšení výdajů na jídlo o 0,437 rupie level-log FoodExp i = 1283,910 + 257,270 ln TotalExp i zvýšení celkových výdajů o 1 % vyvolá v průměru zvýšení výdajů na jídlo o 2,573 rupie (dělím 100) log-level ln expservices t = 7,789 + 0,007time výdaje na služby rostli čtvrtletně o 0,7 % (násobím 100) log-log ln expdur t = 9,697 + 1,906 ln pcexp t elasticita zvýšení celkových výdajů o 1 % vyvolá v průměru zvýšení výdajů na předměty dlouhodobé spotřeby o 1,91 % 21
Úpravy dat transformace, funkční tvar v LRM mocniny wage i = 3,73 + 0,298exper i 0,0061exper i 2 y = β 1 + 2 β 2 exper mocniny a logaritmy ln y i = β 0 + β 1 lnx i + β 2 (ln x i ) 2 +u i y = β 1 + 2 β 2 ln x 22
Úpravy dat transformace, funkční tvar v LRM Tvorba nových proměnných DUMMY 0-1 (rozlišovací, sezónnost / trend) interakce (dummies, - diff-in-diff. apod.) příklad článek Asensio Dráhy, dummy měsíce, Sevilla Expo, Barcelona Olympics PROXY proměnné náhrada neměřitelné / obtížně měřitelné proměnné kvalita života per-capita HDP schopnosti IQ test, počet let vzdělání pozor na odlišení od instrumentálních proměnných příklad článek Asensio Dráhy, str. 4 reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy transformace (logaritmy, mocniny, indexy, součty, rozdíly, součiny, poměry, ) missingy příčiny nahrazení průměrem, modusem, pokročilé metody Úprava dat sezónní očištění, modelování trendu, odlehlá pozorování, 23
Data zdroje dat a prezentace Zdroje dat czso.cz, cnb.cz, Eurostat, OECD, ECB, WB banky, národní a mezinárodní instituce, firmy centrální banky, statistické úřady jiných zemí většinou kombinace více zdrojů dotazníky; Experimenty, Databáze (daně, důchodový systém, firma) Google vždy uvést zdroj; spolehlivost, rok měření a vydání!!!pozor na reprezentativnost dat!!! Prezentace dat zdroj, typ, roky, problémy deskriptivní statistiky (průměry, směr. odchylky, extrémy) všechny úpravy a jejich důvody intepretace citlivost, robustnost 24