5EN306 Aplikované kvantitativní metody I

Podobné dokumenty
5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

5EN306 Aplikované kvantitativní metody I

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

5EN306 Aplikované kvantitativní metody I

Analýza dat na PC I.

Příprava souboru dat a analýza

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

5EN306 Aplikované kvantitativní metody I

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. Statistika pro sociology

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

PRAVDĚPODOBNOST A STATISTIKA

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: 75% docházka na cvičení. + odevzdání seminární práce (úkoly na PC)

5EN306 Aplikované kvantitativní metody I

Základy popisné statistiky

Číselné charakteristiky

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

odlehlých hodnot pomocí algoritmu k-means

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

5EN306 Aplikované kvantitativní metody I

Popisná statistika. Komentované řešení pomocí MS Excel

VYHODNOCOVÁNÍ KVANTITATIVNÍCH DAT (ÚVOD DO PROBLEMATIKY) Metodologie pro ISK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Korelační a regresní analýza

Měření závislosti statistických dat

4EK211 Základy ekonometrie

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Metodologie pro Informační studia a knihovnictví 2

KORELACE. Komentované řešení pomocí programu Statistica

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

4EK211 Základy ekonometrie

Úvodem Dříve les než stromy 3 Operace s maticemi

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Úvod do statistické metodologie

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Aplikovaná statistika v R

STATISTICKÉ CHARAKTERISTIKY

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Deskriptivní statistika (kategorizované proměnné)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5EN306 Aplikované kvantitativní metody I

Zápočtová práce STATISTIKA I

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Statistika I (KMI/PSTAT)

METODOLOGIE I - METODOLOGIE KVANTITATIVNÍHO VÝZKUMU

Popisná statistika kvantitativní veličiny

4EK211 Základy ekonometrie

Pravděpodobnost a statistika

Pravděpodobnost a matematická statistika

Základy pravděpodobnosti a statistiky. Popisná statistika

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

STATISTIKA. Inovace předmětu. Obsah. 1. Inovace předmětu STATISTIKA Sylabus pro předmět STATISTIKA Pomůcky... 7

Renáta Bednárová STATISTIKA PRO EKONOMY

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Tomáš Karel LS 2012/2013

Statistická analýza jednorozměrných dat

Třídění statistických dat

Statistika pro geografy

Tabulka 1. Výběr z datové tabulky

Simulace. Simulace dat. Parametry


PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Kontingenční tabulky v Excelu. Představení programu Statistica

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

PSY Statistická analýza dat v psychologii Přednáška 3. Transformace skórů a kvantily normálního rozložení

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistická analýza jednorozměrných dat

Excel mini úvod do kontingenčních tabulek

Manažerská ekonomika KM IT

Výběry z populace, příprava dat, popisné statistiky

AVDAT Klasický lineární model, metoda nejmenších

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

5EN306 Aplikované kvantitativní metody I

Metodologie pro ISK II

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Spokojenost se životem

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Transkript:

5EN306 Aplikované kvantitativní metody I Přednáška 3 Zuzana Dlouhá

Předmět a struktura kurzu 1. Úvod: struktura empirických výzkumů 2. Tvorba ekonomických modelů: teorie 3. Data: zdroje a typy dat, význam popisných charakteristik 4. Vicenásobná regrese v ekonomické analýze 5. Vicenásobná regrese: DUMMY proměnné a jejich interakce 6. Difference in differences estimator 7. First Differencing a Fixed Effects 8. Instrumentální proměnné, Panelová data 9. Testy robustnosti 10. Úvod do časových řad (zbyde-li čas) témata se prolínají 2

Data základní pojmy + doporučení empirický projekt vyžaduje data (kap. 1) pozorování - řádek atributy jednotlivých pozorování - obsah konkrétního řádku - hodnota charakteristika, proměnná, faktor - sloupec minimálně 1 identifikátor pro každé pozorování!!! 3

Data základní pojmy + doporučení + chybějící hodnoty nikdy nepracovat s originální proměnnou!!! vhodný název proměnné - hrubydomaciprodukt, HDP, Chybějící hodnoty (missing values) první krok analýzy - identifikace chybějících hodnot: systémové - záznam v datech nebyl u dané proměnné vůbec proveden, nebo se proměnná daného případu (respondenta) netýká (např. rok rozvodu u svobodných/ženatých). uživatelsky definované - máme-li např. z dotazníku k dispozici podrobnější informaci (například Netýká se, Odmítl odpovědět, Neví ) pokud je relativní počet chybějících hodnot menší než cca 5 %, pak je lze většinou ignorovat (v dostatečně velkém výběrovém souboru) přesáhne-li počet chybějících hodnot tuto hranici, pak je nutná analýza závislosti chybějících hodnot na jiných znacích ( příčin), tj. měli bychom se ptát: kdo neodpovídá na naše otázky? při > 5% výskyt chybějících hodnot totiž nemusí být už jen náhodný (tj. náhodně distribuovaný v populaci), což je třeba ověřit, případně zvážit imputaci chybějících hodnot. 4

Data základní pojmy + doporučení + chybějící hodnoty Postup: zjištění zda jsou v datech chybějící hodnoty označeny a jak (min, max, frequencies), pokud ne, pak: označení (nastavení) chybějících hodnot (případně překódování či jiné transformace dat) věcná analýza chybějících hodnot: zhodnocení zda je lze ignorovat, pokud ne: analýza jejich závislosti na jiných proměnných imputace chybějících hodnot (odhad hodnot, tam kde chybí): průměr a doplnit o indikaci, zda u konkrétní proměnné hodnota chyběla (dummy proměnná) a testovat její statistickou významnost imputaci hodnot za použití sofistikovaných metody doplnění (aproximace) chybějících hodnot pro nezávislé proměnné na základě odhadu z hodnot jiných proměnných. Chybějící hodnoty v datech mohou být: missing completely at random (MCAR) - ideální situace, výsledky nejsou zkreslené (biased) missing at random (MAR) - chybějící hodnoty jsou jen u některé proměnné, ale nejsou ničím systematicky ovlivněny not missing at random (NMAR) - chybějící hodnoty jsou něčím (nenáhodně) podmíněny a nastává problém - zkreslení výsledků 5

Typy dat Dle úrovně: agregovaná vs. individuální velmi důležité: absolutní vs. relativní ukazatele (indexy) + jak kombinovat Dle struktury: průřezová (cross-sectional data) časové řady (time series data) pooled cross sections panelová (panel/longitudinal) 6

Průřezová data definice náhodný výběr jednotlivců a jejich charakteristik (domácností, firem, měst, států, ) v určitém časovém okamžiku neexperimentální charakter dat (mzda vs. vzdělání) velikost a nezávislost jednotek (státy, města) výhody a nevýhody 7

Časové řady definice - řada hodnot jistého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase; realizace stochastického procesu (každá hodnota časové řady je náhodná veličina) intervalová a okamžiková; dlouhodobé, krátkodobé, vysokofrekvenční problém (ne)závislosti v čase frekvence měření výhody a nevýhody pozor: autokorelace, sezónnost, trendovost, zdánlivé vztahy, 8

Pooled cross sections definice - náhodný výběr průřezových dat v různém čase nezávislé, různý rozsah rok se stává proměnnou analýza změny politiky (např. změna daně z nemovitostí) před změnou po změně 9

Panelová data definice - stejný výběr průřezových dat v různém čase nejlepší a nejdražší indexy vyvážený vs. nevyvážený panel můžeme přesněji analyzovat kauzalitu Každé město má pozorování pro rok 1986 a 1990 10

Transformace dat operace, kdy z existujících proměnných vznikají nové nebo se tyto proměnné systematicky podle zadaného předpisu mění Rekódování hodnot slučování hodnot kategorizování číselných kardinálních proměnných (vytváření intervalů) změna pořadí kategorií (např. otočení škály) vyloučení některých kategorií z analýz Vytváření nových proměnných sešikmená data - logaritmování / druhá mocnina / reciproční (1/x) / druhá, třetí odmocnina (pravostranně sešikmená data) pozor na nulové a negativní hodnoty standardizace dat na interval hodnot <0,1> bez interpretace (porovnávaní proměnných v různých jednotkách), nejčastěji standardní skóre: (x-průměr x)/std x snadná interpretace transformace na procenta interakce proměnných pohlaví x region součty, rozdíly, součiny, poměry 11

Transformace dat dummy proměnné - 0-1 (rozlišovací, sezónnost / trend). interakce příklad - článek Asensio - Dráhy, dummy proměnné - měsíce, Sevilla Expo, Barcelona Olympics proxy proměnné - náhrada neměřitelné / obtížně měřitelné proměnné kvalita života per-capita HDP schopnosti IQ test, počet let vzdělání pozor na odlišení od instrumentálních proměnných příklad článek Asensio - Dráhy, str. 4 reálna cena benzínu jako proxy proměnná k nákladům alternativních způsobů dopravy je nezbytné zmínit se o všech manipulacích (překódování apod.) s daty 12

Jak data uchopit 13

Jak data uchopit 14

Odlehlá a vlivná pozorování výskyt extrémních hodnot v datech je třeba zkontrolovat, jestli nemáme evidentní chybu v datech, pokud ano, raději pozorování opravíme / odstraníme když ne ponechat, ale odhadnout model bez outlierů a s outliery a porovnat výsledky transformovat proměnnou (logaritmus, ) nahradit nejbližší nižší / vyšší hodnotou použít jinou odhadovou techniku (LAD - Least Absolute Deviations - minimalizuje sumu absolutních odchylek robustnější vůči odlehlým pozorováním na rozdíl od OLS estimátoru, který odhaduje parametry podmíněného průměru, odhaduje LAD estimátor parametry podmíněného mediánu LAD estimátor je speciálním případem kvantilové regrese, při které se odhadují parametry podmíněných kvantilů 15

Kontrola dat - popisné charakteristiky nominální znaky - modus ordinální znaky - medián (aritmetický průměr) intervalové znaky - aritmetický průměr 16

Kontrola dat - četnosti histogram 17

Kontrola dat - vztahy korelační analýza grafy bodový x-y graf (scatter plot) Sledování TV a věk Sledování TV (počet hodin) 4,5 4 3,5 3 2,5 2 1,5 1 0,5 0 20 30 40 50 60 70 Věk 18

Zdroje dat a prezentace vždy uvést zdroj; spolehlivost, rok měření a vydání pozor na reprezentativnost da Prezentace dat zdroj, typ, roky, problémy deskriptivní statistiky (průměry, směr. odchylky, extrémy) všechny úpravy a jejich důvody intepretace citlivost, robustnost 19