5EN306 Aplikované kvantitativní metody I

Podobné dokumenty
5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Analýza dat na PC I.

5EN306 Aplikované kvantitativní metody I

Příprava souboru dat a analýza

Popisná statistika. Statistika pro sociology

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

PRAVDĚPODOBNOST A STATISTIKA

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

5EN306 Aplikované kvantitativní metody I

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky

odlehlých hodnot pomocí algoritmu k-means

5EN306 Aplikované kvantitativní metody I

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Popisná statistika. Komentované řešení pomocí MS Excel

Základní statistické charakteristiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Statistika pro geografy

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

STATISTICKÉ CHARAKTERISTIKY

Měření závislosti statistických dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Popisná statistika kvantitativní veličiny

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Statistická analýza jednorozměrných dat

Korelační a regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Metodologie pro Informační studia a knihovnictví 2

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Základy pravděpodobnosti a statistiky. Popisná statistika

4EK211 Základy ekonometrie

KORELACE. Komentované řešení pomocí programu Statistica

AVDAT Klasický lineární model, metoda nejmenších

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Zápočtová práce STATISTIKA I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

5EN306 Aplikované kvantitativní metody I

Statistická analýza jednorozměrných dat

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a statistika

Deskriptivní statistika (kategorizované proměnné)

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Simulace. Simulace dat. Parametry


5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úvod do statistické metodologie

Renáta Bednárová STATISTIKA PRO EKONOMY

KGG/STG Statistika pro geografy

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTIKA I Metodický list č. 1 Název tématického celku:

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Metodologie pro ISK II

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

4EK211 Základy ekonometrie

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Informační technologie a statistika 1

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Cvičení ze statistiky - 3. Filip Děchtěrenko

Třídění statistických dat

Kontingenční tabulky v Excelu. Představení programu Statistica

Výběry z populace, příprava dat, popisné statistiky

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Transkript:

5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá

Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2

Data základní pojmy + doporučení empirický projekt vyžaduje data (kap. 1) pozorování - řádek atributy jednotlivých pozorování - obsah konkrétního řádku - hodnota charakteristika, proměnná, faktor - sloupec minimálně 1 identifikátor pro každé pozorování!!! 3

Data základní pojmy + doporučení + chybějící hodnoty nikdy nepracovat s originální proměnnou!!! vhodný název proměnné - hrubydomaciprodukt, HDP, hruby_dom_prod, Chybějící hodnoty (missing values) první krok analýzy - identifikace chybějících hodnot: systémové - záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). uživatelsky definované - máme-li např. z dotazníku k dispozici podrobnější informaci (například Netýká se, Odmítl odpovědět, Neví ) pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v dostatečně velkém výběrovém souboru) přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích ( příčin), tj. měli bychom se ptát: kdo neodpovídá na naše otázky? při > 5% výskyt chybějících hodnot totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějících hodnot 4

Data základní pojmy + doporučení + chybějící hodnoty Postup: zjištění, zda jsou v datech chybějící hodnoty označeny a jak (min, max, frekvenční tabulka), pokud ne, pak: označení (nastavení) chybějících hodnot (případně překódování či jiné transformace dat) věcná analýza chybějících hodnot: zhodnocení zda je lze ignorovat, pokud ne, analýza jejich závislosti na jiných proměnných imputace chybějících hodnot (odhad hodnot, tam kde chybí): aritmetický průměr a doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy proměnná) a testovat její statistickou významnost imputaci hodnot za použití sofistikovaných metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných Chybějící hodnoty ovlivnění výsledků např. odhadu modelu: missing completely at random (MCAR) - ideální situace, výsledky nejsou zkreslené (biased) missing at random (MAR) - chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny not missing at random (NMAR) - chybějící hodnoty jsou něčím (nenáhodně) podmíněny a nastává problém - zkreslení výsledků 5

Typy dat Dle úrovně: agregovaná vs. individuální velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: průřezová (cross-sectional data) časové řady (time series data) souhrnná průřezová data (pooled cross sections) panelová (panel/longitudinal) 6

Průřezová data definice náhodný výběr jednotlivců a jejich charakteristik (domácností, firem, měst, států, ) v určitém časovém okamžiku neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody 7

Časové řady definice - řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, stacionarita, sezónnost, trendovost, zdánlivé vztahy, 8

Souhrnná průřezová data definice - náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává proměnnou analýza změny politiky (např. změna daně z nemovitostí) před změnou po změně 9

Panelová data definice - stejný výběr průřezových dat v různém čase nejlepší a nejdražší indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu, kontrola dodatečných vlivů Každé město má pozorování pro rok 1986 a 1990 10

Transformace dat operace, kdy z existujících proměnných vznikají nové nebo se tyto proměnné systematicky podle zadaného předpisu mění Rekódování hodnot slučování hodnot kategorizování číselných - kardinálních proměnných (vytváření intervalů) změna pořadí kategorií (např. otočení škály) vyloučení některých kategorií z analýz Vytváření nových proměnných sešikmená data - logaritmování / druhá mocnina / reciproční (1/x) / druhá, třetí odmocnina (pravostranně sešikmená data) pozor na nulové a negativní hodnoty standardizace dat na interval hodnot <0,1> bez interpretace (porovnávaní proměnných v různých jednotkách), nejčastěji standardní skóre: (x-průměr x)/std x snadná interpretace transformace na procenta interakce proměnných pohlaví x region časové řady diference, tempo růstu (procentní změna), diference logaritmů (aproximace tempa růstu) součty, rozdíly, součiny, poměry 11

Transformace dat dummy proměnné - 0-1 (rozlišovací, sezónnost / trend). interakce příklad - článek Asensio - Dráhy, dummy proměnné - měsíce, Sevilla Expo, Barcelona Olympics proxy proměnné - náhrada neměřitelné / obtížně měřitelné proměnné kvalita života per-capita HDP schopnosti IQ test, počet let vzdělání pozor na odlišení od instrumentálních proměnných příklad - článek Asensio - Dráhy, str. 4 - reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy je nezbytné zmínit se o všech manipulacích (překódování apod.) s daty 12

Jak data uchopit sesbíraná data 13

Jak data uchopit data po transformaci přiřazení identifikátoru, vyřazení proměnných, výpočet proměnné stáří, vytvoření dummy promenných, 14

Odlehlá a vlivná pozorování (outliers) výskyt extrémních hodnot v datech (min, max) je třeba zkontrolovat, jestli nemáme evidentní chybu v datech, pokud ano, raději pozorování opravíme / odstraníme když ne ponechat, ale odhadnout model bez outlierů a s outliery a porovnat výsledky transformovat proměnnou (logaritmus, ) nahradit nejbližší nižší / vyšší hodnotou použít jinou odhadovou techniku (LAD - Least Absolute Deviations) - minimalizuje sumu absolutních odchylek robustnější vůči odlehlým pozorováním na rozdíl od OLS (Ordinary Least Squares, metoda nejmenších čtverců) estimátoru, který odhaduje parametry podmíněného průměru, odhaduje LAD estimátor parametry podmíněného mediánu LAD estimátor je speciálním případem kvantilové regrese, při které se odhadují parametry podmíněných kvantilů 15

Kontrola dat - popisné charakteristiky nominální znaky - modus ordinální znaky - medián (aritmetický průměr) intervalové znaky - aritmetický průměr míry úrovně a variability Výstup z R-ka (zdroj: http://www.ats.ucla.edu/stat/r/faq/basic_desc.htm) 16

Kontrola dat četnosti, grafy histogram + boxplot + četnosti Zdroj kódu v R-ku: http://stackoverflow.com/questions/11148868/how-togenerate-a-frequency-table-in-r 17

Kontrola dat vztahy 2 proměnných korelační analýza grafy bodový x-y graf (scatter plot) 18

Zdroje dat a prezentace zdroje viz minulá přednáška vždy v práci uvést zdroj; spolehlivost, rok měření a vydání pozor na reprezentativnost dat Prezentace dat zdroj, typ, roky, problémy deskriptivní statistiky (průměry, směr. odchylky, extrémy) všechny úpravy a jejich důvody intepretace citlivost, robustnost 19