Aplikovaná statistika v R - cvičení 2

Podobné dokumenty
Aplikovaná statistika v R - cvičení 3

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení ze statistiky - 9. Filip Děchtěrenko

Korelace. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení ze statistiky - 3. Filip Děchtěrenko

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

KORELACE. Komentované řešení pomocí programu Statistica

INDUKTIVNÍ STATISTIKA

Korelační a regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Regresní a korelační analýza

Statistika (KMI/PSTAT)

Testování hypotéz a měření asociace mezi proměnnými

Pearsonův korelační koeficient

Aplikovaná statistika v R

Kontingenční tabulky, korelační koeficienty

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

KGG/STG Statistika pro geografy

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Regresní a korelační analýza

Testování statistických hypotéz

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Testy nezávislosti kardinálních veličin

Jana Vránová, 3. lékařská fakulta UK

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz. 4. přednáška

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Tomáš Karel LS 2012/2013

Kontingenční tabulky, korelační koeficienty

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

KGG/STG Statistika pro geografy

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz

Neparametrické metody

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Ilustrační příklad odhadu LRM v SW Gretl

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

12. cvičení z PST. 20. prosince 2017

Tomáš Karel LS 2012/2013

Statistická analýza dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

4EK211 Základy ekonometrie

Statistické metody uţívané při ověřování platnosti hypotéz

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Regresní analýza. Eva Jarošová

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Pravděpodobnost a matematická statistika

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Charakteristika datového souboru

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

4EK211 Základy ekonometrie

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

6. Lineární regresní modely

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz o parametrech regresního modelu

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednostranné intervaly spolehlivosti

Návrhy dalších možností statistického zpracování aktualizovaných dat

Statistické testování hypotéz II

Testy statistických hypotéz

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

4EK211 Základy ekonometrie

Návrh a vyhodnocení experimentu

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PRAVDĚPODOBNOST A STATISTIKA

Transkript:

Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18

Přehled Rkových příkazů Jen pro připomenutí nejzákladnější věci v Rku Pracujeme s data.frame, což je tabulka Data načítáme příkazem read.csv, jsou-li csv formátu s oddělovačem čárkou, jinak read.csv2 Na prozkoumání data frame se hodí příkazy dim, str a head Na grafy plot a hist Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 2 / 18

Vztah dvou proměnných Chceme-li zkoumat, jak se dvě proměnné chovají společeně, můžeme to spočítat pomocí kovariance, v Rku příkaz cov Protože kovariance může nabývat různých hodnot, je vhodné ji normalizovat, čímž dostaneme korelaci Korelace nabývá hodnot mezi -1 a 1, přičemž 1 značí úplnou pozitivní korelaci, -1 úplnou negativní korelaci (jedna proměnná roste, druhá klesá) Máme 2 druhy koleací dvě proměnné a parciální korelace Bivariete correlations je korelace mezi dvěma proměnnými, máme několik typů Pearsonův korelační koeficient Spearmanův korelační koeficient Kendallův korelační koeficient Parciální korelace nám zachycuje vztah dvou proměnných kontrolujeme-li 3 proměnnou Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 3 / 18

Pearsonův korelační koeficient Předpoklady: intervalová proměnná, (normálně rozdělená data) Určuje míru lineární závislosti (tj. jak moc dobrá je přímka mezi daty) Můžeme testovat jeho významnost pomocí t-testu (Rko dělá za nás) Podle velikosti korelačního koeficientu můžeme mluvit o efektu (jde jen o doporučení, můžeme to interpretovat v rámci vlastního výzkumu) r = ±.1 Malý efekt r = ±.3 Střední efekt r = ±.5 Velký efekt Koeficient determinace R 2 určuje kolik procent variability jedné proměnné je sdíleno s druhou. Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 4 / 18

Odbočka Testování hypotéz Ve vědě nemůžeme nic dokázat (kromě matematiky), můžeme pouze vyvracet! Když chceme něco otestovat, stanovíme si nulovou(h 0 ) a alternativní(h A ) hypotézu Vždy testujeme, jaká je pravděpodobnost, že naše naměřená data D pocházejí ze světa, kde platí nulová hypotéza H 0 (P(D H 0 )) Každý test má testovou statitiku, kterou porovnáváme s kritickou hodnotou (kdy by to bylo moc divné), resp. p-hodnotu s hladinou významnosti Nulová hypotéza je vždy ta situace, kdy se nic něděje. Jak by byla nulová hypotéza u testu významnosti korelačního koeficientu? Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 5 / 18

Chyba 1. a 2. druhu Při testování hypotéz mohou nastat čtyři případy H 0 platí H 0 neplatí Nezamítám H 0 OK Chyba 2.druhu Zamítám H 0 Chyba 1. druhu OK Tabulka : Chyba 1. a 2. druhu Snažíme se kontrolovat chybu 1. druhu, je to větší problém Pravděpodobnost chyby 2. druhu určuje síla testu Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 6 / 18

Ukázka reálného testu Df Sum Sq Mean Sq F value Pr(>F) Species 2 437.1 218.55 1180 <2e-16 *** Residuals 147 27.2 0.19 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 P-hodnota je menší než 0.001, tedy zamítáme nulovou hypotézu na hladině významnosti 0.001 ve prospěch alternativní hypotézy (kterou tady neznáme) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 7 / 18

Spearmanův korelační koeficient ρ Neparametrická statistika pracuje s pořadím Hodí se, pokud data porušují normalitu a máme jich málo (< 20) Pokud se v proměnných vyskytuje moc stejných hodnot (ties), počítá jen odhad Má obdobně R 2 s Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 8 / 18

Kendallův korelační koeficient τ Neparametrická statistika Je lepší ho použivat pro malé vzorky s množsvím shod Spearman je sice více populární, ale Kendall je lepším odhadem korelace v celé populaci Nemá koeficient determinace Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 9 / 18

Biserialní a bodově biseriální korelace Používají se v případě, že aspoň jedna proměnná je dichotomická (2 možnosti) Bodově-biseriální (r pb )korelace se používá, pokud jedna z proměnných je dichotomická a zároveň diskrétní (těhotoná/není těhotná) Biseriální (r b ) se liší od bodové tím, že jedna z proměnných je vlastně spojitá (prošel v testu/neprošel v testu) Bodově biseriální se matematicky rovná Pearsonově korelaci, takže prakticky to není třeba moc řešit Není dobré dichotomizovat data - vždy je lepší to počítat na spojité proměnné Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 10 / 18

Lineární regrese Obecně se snažíme popsat data pomocí rovnice (i odpovídá pozorvání) data i = (model) + chyba i V lineární regresi vysvětlujeme jednu proměnnou pomocí dalších Y i = (b 0 + b 1 X 1 + b 2 X 2 + + b n X n ) + ɛ i Lineární je proto, že všechny b i jsou lineární (žádné nadruhou či jiné funkce), namísto X i může být cokoli, tedy toto je taktéž linerární regrese Y i = (b 0 + b 1 log(x 1 ) + b 2 X 2 2 ) + ɛ i Hodnotám ɛ i se říká residuum určuje odchylku jednotlivých pozorování (lidí) od modelu Zobecněním regrese i na jiné typy proměnných dostaneme Zobecněný linear model (General Linear Model; GLM) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 11 / 18

Konec cvičení Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 12 / 18