5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Data základní pojmy + doporučení empirický projekt vyžaduje data (kap. 1) pozorování - řádek atributy jednotlivých pozorování - obsah konkrétního řádku - hodnota charakteristika, proměnná, faktor - sloupec minimálně 1 identifikátor pro každé pozorování!!! 3
Data základní pojmy + doporučení + chybějící hodnoty nikdy nepracovat s originální proměnnou!!! vhodný název proměnné - hrubydomaciprodukt, HDP, hruby_dom_prod, Chybějící hodnoty (missing values) první krok analýzy - identifikace chybějících hodnot: systémové - záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). uživatelsky definované - máme-li např. z dotazníku k dispozici podrobnější informaci (například Netýká se, Odmítl odpovědět, Neví ) pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v dostatečně velkém výběrovém souboru) přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích ( příčin), tj. měli bychom se ptát: kdo neodpovídá na naše otázky? při > 5% výskyt chybějících hodnot totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějících hodnot 4
Data základní pojmy + doporučení + chybějící hodnoty Postup: zjištění, zda jsou v datech chybějící hodnoty označeny a jak (min, max, frekvenční tabulka), pokud ne, pak: označení (nastavení) chybějících hodnot (případně překódování či jiné transformace dat) věcná analýza chybějících hodnot: zhodnocení zda je lze ignorovat, pokud ne, analýza jejich závislosti na jiných proměnných imputace chybějících hodnot (odhad hodnot, tam kde chybí): aritmetický průměr a doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy proměnná) a testovat její statistickou významnost imputaci hodnot za použití sofistikovaných metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných Chybějící hodnoty ovlivnění výsledků např. odhadu modelu: missing completely at random (MCAR) - ideální situace, výsledky nejsou zkreslené (biased) missing at random (MAR) - chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny not missing at random (NMAR) - chybějící hodnoty jsou něčím (nenáhodně) podmíněny a nastává problém - zkreslení výsledků 5
Typy dat Dle úrovně: agregovaná vs. individuální velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: průřezová (cross-sectional data) časové řady (time series data) souhrnná průřezová data (pooled cross sections) panelová (panel/longitudinal) 6
Průřezová data definice náhodný výběr jednotlivců a jejich charakteristik (domácností, firem, měst, států, ) v určitém časovém okamžiku neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody 7
Časové řady definice - řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, stacionarita, sezónnost, trendovost, zdánlivé vztahy, 8
Souhrnná průřezová data definice - náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává proměnnou analýza změny politiky (např. změna daně z nemovitostí) před změnou po změně 9
Panelová data definice - stejný výběr průřezových dat v různém čase nejlepší a nejdražší indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu, kontrola dodatečných vlivů Každé město má pozorování pro rok 1986 a 1990 10
Transformace dat operace, kdy z existujících proměnných vznikají nové nebo se tyto proměnné systematicky podle zadaného předpisu mění Rekódování hodnot slučování hodnot kategorizování číselných - kardinálních proměnných (vytváření intervalů) změna pořadí kategorií (např. otočení škály) vyloučení některých kategorií z analýz Vytváření nových proměnných sešikmená data - logaritmování / druhá mocnina / reciproční (1/x) / druhá, třetí odmocnina (pravostranně sešikmená data) pozor na nulové a negativní hodnoty standardizace dat na interval hodnot <0,1> bez interpretace (porovnávaní proměnných v různých jednotkách), nejčastěji standardní skóre: (x-průměr x)/std x snadná interpretace transformace na procenta interakce proměnných pohlaví x region časové řady diference, tempo růstu (procentní změna), diference logaritmů (aproximace tempa růstu) součty, rozdíly, součiny, poměry 11
Transformace dat dummy proměnné - 0-1 (rozlišovací, sezónnost / trend). interakce příklad - článek Asensio - Dráhy, dummy proměnné - měsíce, Sevilla Expo, Barcelona Olympics proxy proměnné - náhrada neměřitelné / obtížně měřitelné proměnné kvalita života per-capita HDP schopnosti IQ test, počet let vzdělání pozor na odlišení od instrumentálních proměnných příklad - článek Asensio - Dráhy, str. 4 - reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy je nezbytné zmínit se o všech manipulacích (překódování apod.) s daty 12
Jak data uchopit sesbíraná data 13
Jak data uchopit data po transformaci přiřazení identifikátoru, vyřazení proměnných, výpočet proměnné stáří, vytvoření dummy promenných, 14
Odlehlá a vlivná pozorování (outliers) výskyt extrémních hodnot v datech (min, max) je třeba zkontrolovat, jestli nemáme evidentní chybu v datech, pokud ano, raději pozorování opravíme / odstraníme když ne ponechat, ale odhadnout model bez outlierů a s outliery a porovnat výsledky transformovat proměnnou (logaritmus, ) nahradit nejbližší nižší / vyšší hodnotou použít jinou odhadovou techniku (LAD - Least Absolute Deviations) - minimalizuje sumu absolutních odchylek robustnější vůči odlehlým pozorováním na rozdíl od OLS (Ordinary Least Squares, metoda nejmenších čtverců) estimátoru, který odhaduje parametry podmíněného průměru, odhaduje LAD estimátor parametry podmíněného mediánu LAD estimátor je speciálním případem kvantilové regrese, při které se odhadují parametry podmíněných kvantilů 15
Kontrola dat - popisné charakteristiky nominální znaky - modus ordinální znaky - medián (aritmetický průměr) intervalové znaky - aritmetický průměr míry úrovně a variability Výstup z R-ka (zdroj: http://www.ats.ucla.edu/stat/r/faq/basic_desc.htm) 16
Kontrola dat četnosti, grafy histogram + boxplot + četnosti Zdroj kódu v R-ku: http://stackoverflow.com/questions/11148868/how-togenerate-a-frequency-table-in-r 17
Kontrola dat vztahy 2 proměnných korelační analýza grafy bodový x-y graf (scatter plot) 18
Zdroje dat a prezentace zdroje viz minulá přednáška vždy v práci uvést zdroj; spolehlivost, rok měření a vydání pozor na reprezentativnost dat Prezentace dat zdroj, typ, roky, problémy deskriptivní statistiky (průměry, směr. odchylky, extrémy) všechny úpravy a jejich důvody intepretace citlivost, robustnost 19