5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá
Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2
Data základní pojmy + doporučení empirický projekt vyžaduje data (kap. 1) pozorování - řádek atributy jednotlivých pozorování - obsah konkrétního řádku - hodnota charakteristika, proměnná, faktor - sloupec minimálně 1 identifikátor pro každé pozorování!!! 3
Data základní pojmy + doporučení + chybějící hodnoty nikdy nepracovat s originální proměnnou!!! vhodný název proměnné - hrubydomaciprodukt, HDP, Chybějící hodnoty (missing values) první krok analýzy - identifikace chybějících hodnot: systémové - záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). uživatelsky definované - máme-li např. z dotazníku k dispozici podrobnější informaci (například Netýká se, Odmítl odpovědět, Neví ) pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v dostatečně velkém výběrovém souboru) přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích ( příčin), tj. měli bychom se ptát: kdo neodpovídá na naše otázky? při > 5% výskyt chybějících hodnot totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějících hodnot. 4
Data základní pojmy + doporučení + chybějící hodnoty Postup: zjištění zda jsou v datech chybějící hodnoty označeny a jak (min, max, frequencies), pokud ne, pak: označení (nastavení) chybějících hodnot (případně překódování či jiné transformace dat) věcná analýza chybějících hodnot: zhodnocení zda je lze ignorovat, pokud ne: analýza jejich závislosti na jiných proměnných imputace chybějících hodnot (odhad hodnot, tam kde chybí): průměr a doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy proměnná) a testovat její statistickou významnost imputaci hodnot za použití sofistikovaných metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných. Chybějící hodnoty v datech mohou být: missing completely at random (MCAR) - ideální situace, výsledky nejsou zkreslené (biased) missing at random (MAR) - chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny not missing at random (NMAR) - chybějící hodnoty jsou něčím (nenáhodně) podmíněny a nastává problém - zkreslení výsledků 5
Typy dat Dle úrovně: agregovaná vs. individuální velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: průřezová (cross-sectional data) časové řady (time series data) pooled cross sections panelová (panel/longitudinal) 6
Průřezová data definice náhodný výběr jednotlivců a jejich charakteristik (domácností, firem, měst, států, ) v určitém časovém okamžiku neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody 7
Časové řady definice - řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, sezónnost, trendovost, zdánlivé vztahy, 8
Pooled cross sections definice - náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává proměnnou analýza změny politiky (např. změna daně z nemovitostí) před změnou po změně 9
Panelová data definice - stejný výběr průřezových dat v různém čase nejlepší a nejdražší indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu Každé město má pozorování pro rok 1986 a 1990 10
Transformace dat operace, kdy z existujících proměnných vznikají nové nebo se tyto proměnné systematicky podle zadaného předpisu mění Rekódování hodnot slučování hodnot kategorizování číselných kardinálních proměnných (vytváření intervalů) změna pořadí kategorií (např. otočení škály) vyloučení některých kategorií z analýz Vytváření nových proměnných sešikmená data - logaritmování / druhá mocnina / reciproční (1/x) / druhá, třetí odmocnina (pravostranně sešikmená data) pozor na nulové a negativní hodnoty standardizace dat na interval hodnot <0,1> bez interpretace (porovnávaní proměnných v různých jednotkách), nejčastěji standardní skóre: (x-průměr x)/std x snadná interpretace transformace na procenta interakce proměnných pohlaví x region součty, rozdíly, součiny, poměry 11
Transformace dat dummy proměnné - 0-1 (rozlišovací, sezónnost / trend). interakce příklad - článek Asensio - Dráhy, dummy proměnné - měsíce, Sevilla Expo, Barcelona Olympics proxy proměnné - náhrada neměřitelné / obtížně měřitelné proměnné kvalita života per-capita HDP schopnosti IQ test, počet let vzdělání pozor na odlišení od instrumentálních proměnných příklad článek Asensio - Dráhy, str. 4 reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy je nezbytné zmínit se o všech manipulacích (překódování apod.) s daty 12
Jak data uchopit 13
Jak data uchopit 14
Odlehlá a vlivná pozorování výskyt extrémních hodnot v datech je třeba zkontrolovat, jestli nemáme evidentní chybu v datech, pokud ano, raději pozorování opravíme / odstraníme když ne ponechat, ale odhadnout model bez outlierů a s outliery a porovnat výsledky transformovat proměnnou (logaritmus, ) nahradit nejbližší nižší / vyšší hodnotou použít jinou odhadovou techniku (LAD - Least Absolute Deviations - minimalizuje sumu absolutních odchylek robustnější vůči odlehlým pozorováním na rozdíl od OLS estimátoru, který odhaduje parametry podmíněného průměru, odhaduje LAD estimátor parametry podmíněného mediánu LAD estimátor je speciálním případem kvantilové regrese, při které se odhadují parametry podmíněných kvantilů 15
Kontrola dat - popisné charakteristiky nominální znaky - modus ordinální znaky - medián (aritmetický průměr) intervalové znaky - aritmetický průměr 16
Kontrola dat - četnosti histogram 17
Kontrola dat - vztahy korelační analýza grafy bodový x-y graf (scatter plot) Sledování TV a věk Sledování TV (počet hodin) 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 20 30 40 50 60 70 Věk 18
Zdroje dat a prezentace vždy uvést zdroj; spolehlivost, rok měření a vydání pozor na reprezentativnost da Prezentace dat zdroj, typ, roky, problémy deskriptivní statistiky (průměry, směr. odchylky, extrémy) všechny úpravy a jejich důvody intepretace citlivost, robustnost 19