Aplikovaná statistika v R - cvičení 3

Podobné dokumenty
Aplikovaná statistika v R - cvičení 2

Cvičení ze statistiky - 3. Filip Děchtěrenko

Statistika (KMI/PSTAT)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

Regresní a korelační analýza

Lineární a logistická regrese

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Plánování experimentu

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

5EN306 Aplikované kvantitativní metody I

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Měření závislosti statistických dat

StatSoft Jak poznat vliv faktorů vizuálně

LINEÁRNÍ REGRESE. Lineární regresní model

Aplikovaná statistika v R

Tomáš Karel LS 2012/2013

Úvodem Dříve les než stromy 3 Operace s maticemi

Korelační a regresní analýza

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

You created this PDF from an application that is not licensed to print to novapdf printer (

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Jana Vránová, 3. lékařská fakulta, UK Praha

AVDAT Klasický lineární model, metoda nejmenších

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Informační technologie a statistika 1

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Inovace bakalářského studijního oboru Aplikovaná chemie

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

6. Lineární regresní modely

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Časové řady, typy trendových funkcí a odhady trendů

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

=10 =80 - =

Lineární regrese. Komentované řešení pomocí MS Excel

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Neparametrické metody

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Bodové a intervalové odhady parametrů v regresním modelu

Časové řady, typy trendových funkcí a odhady trendů

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

KORELACE. Komentované řešení pomocí programu Statistica

Cvičná bakalářská zkouška, 1. varianta

Semestrální práce. 2. semestr

Normální (Gaussovo) rozdělení

4EK211 Základy ekonometrie

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Testování hypotéz o parametrech regresního modelu

Úvod do analýzy časových řad

Regresní analýza. Eva Jarošová

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

6. Lineární regresní modely

Kontingenční tabulky, korelační koeficienty

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Regresní analýza 1. Regresní analýza

4EK211 Základy ekonometrie

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Korelace. Komentované řešení pomocí MS Excel

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

AVDAT Geometrie metody nejmenších čtverců

5EN306 Aplikované kvantitativní metody I

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA I Metodický list č. 1 Název tématického celku:

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Kanonická korelační analýza

GRAPHS SCATTERPLOT SIMPLE

Vít Gabrhel FSS MU,

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Zobecněná analýza rozptylu, více faktorů a proměnných

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

INDUKTIVNÍ STATISTIKA

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

PRAVDĚPODOBNOST A STATISTIKA

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

4EK211 Základy ekonometrie

Cvičení ze statistiky - 8. Filip Děchtěrenko

Kapitola V. REGRESE A KALIBRACE.

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Tvorba grafů v programu ORIGIN

Tomáš Karel LS 2012/2013

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Transkript:

Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10

Lineární regrese Obecně se snažíme popsat data pomocí rovnice (i odpovídá pozorvání) data i = (model) + chyba i V lineární regresi vysvětlujeme jednu proměnnou pomocí dalších Y i = (b 0 + b 1 X 1 + b 2 X 2 + + b n X n ) + ɛ i Lineární je proto, že všechny b i jsou lineární (žádné nadruhou či jiné funkce), namísto X i může být cokoli, tedy toto je taktéž linerární regrese Y i = (b 0 + b 1 log(x 1 ) + b 2 X 2 2 ) + ɛ i Hodnotám ɛ i se říká residuum určuje odchylku jednotlivých pozorování (lidí) od modelu Zobecněním regrese i na jiné typy proměnných dostaneme Zobecněný linear model (General Linear Model; GLM) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 2 / 10

Základní varianta - máme jen jednu spojitou proměnnou X 1 Rovnice je tvaru Y i = b 0 + b 1 X 1 + ɛ i Pearsonův korelační koeficient mám popisuje, jak moc dobrá to je přímka Koeficientu b 0 říkáme intercept, koeficientu b 1 říkáme slope Koeficienty hledáme metodou nejmenších čtverců - hledáme takovou přímku, která nám mimimalizuje odchylky od přímky. Obvykle nás zajímá významnost jednotlivých koeficientů (tedy prediktorů), intercept je většinou nezajímavý (není překvapivé, že bude odlišný od nuly) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 3 / 10

Goodness of fit důležité odchylky Goodness of fit nám jedním číslem určuje, jak dobře náš model sedí, jde o vztah odchylka = (pozorovani model) 2 Důležité odchylky Celková suma čtveců (SS T ) celkový součet odchylek od průměrné hodnoty Y Celková suma čtveců (SS R ) celkový součet reziduí Celková suma čtveců (SS M ) Rozdíl SS T a SS R, nám říká, o co je lepší naše predikce Y pomocí modelu než bez něj V případě regresní přímky nám to určuje parametr R 2, který známe z korelace. Spočítáme ho jako R 2 = SS M SS T Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 4 / 10

Goodness of fit graficky Obrázek : SS T Obrázek : SS R Obrázek : SS M Obrázek : Jednotlivé sumy čtverců Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 5 / 10

Vícerozměrná regrese Máme více proměnných X i, předpokládáme, že všechny proměnné jsou spojité Takto nám může vzniknout několik modelů, v kterých se liší prediktory. Poté je můžeme porovnávat a určovat, zda má smysl přidávat další proměnné do modelu. Mluvíme o hierarchické regresi Mějme model Plat = b 1 PocetOdpracHodin + ɛ i kde ɛ i odpovídá osobnímu hodnocení. Má smysl do modelu přidat ještě pohlaví? Měli bychom mít 10-15 dat za každý prediktor (rule of thumb), ale záleží, jak velký efekt nás zajímá Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 6 / 10

Významná pozorování Některá pozorování ovlivňují směr přímky více než jiná. V datech se mohou nacházet odlehlá pozorování (outliers). Co s outliery je těžká otázka:-) Abychom určili, zda naše regrese je stabilní, a tedy zda dá i pro další modely stejné predikce, můžeme určit významná pozorování Je mnoho diagnostik, jak poznat významná pozorování, je dobré znát alespoň Cookovu vzdálenost, která by měla být menší než 1 (více prakticky) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 7 / 10

Předpoklady regrese Prediktory musí mít nenulový rozptyl (nebývá problém) Prediktory spolu nesmí být velmi silně korelované (multicolinearity) Na různých úrovních prediktorů musí mít závislá proměnná stejný rozptyl (řeší se u GLM) Jednotlivé pozorování nesmí být spolu korelované (autocorrelation) (+několik triviálních podmínek) Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 8 / 10

Kategorický prediktor Regrese si snadno poradí i s prediktory, které nejsou spojité (třeba s pohlavím) Otázkou je, jakým způsobem je překódovat na čísla Nejjednodušším způsobem je dummy coding: máme-li n úrovní proměnné (třeba pohlaví má 2 úrovně), přidáme do modelu n 1 proměnných, kde každá z proměnných nám určuje, která kategorie je aktivní. Jedna z kategoríı je braná jako baseline. Při testování významnosti jednotlivých prediktorů vždy testujeme významnost proměnné vůči referenční kategorii. X 1 X 2 Zelená 1 0 Červená 0 1 Bílá 0 0 Tabulka : Pro tři barvy zavedu dvě proměnné X 1 a X 2. Bílá je referenční úroveň Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 9 / 10

Konec cvičení Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 10 / 10