Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.



Podobné dokumenty
Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Frekvenční analýza, čtyřpolní tabulky

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Tabulární data, pozorované vs očekávané četnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

KORELACE. Komentované řešení pomocí programu Statistica

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Datový soubor X1 1, 5, 7, 8, 9, 10, 11, 12, 12.5, 13, 14, 15, 16, 17, 18, 20, 24

Regresní a korelační analýza

M cvičení : GLM03a (The Working Activities of Bees)

Inovace bakalářského studijního oboru Aplikovaná chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Regresní a korelační analýza

Lineární regrese. Komentované řešení pomocí MS Excel

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Korelační a regresní analýza

Regresní analýza. Eva Jarošová

4EK211 Základy ekonometrie

Statistické modelování v S-Plus

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

4ST201 STATISTIKA CVIČENÍ Č. 10

Klasická lineární regrese

Regresní a korelační analýza

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

M cvičení : GLM04b (Vztah mezi Poissonovým a

LINEÁRNÍ REGRESE. Lineární regresní model

Aplikovaná statistika v R - cvičení 2

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Popisná statistika. Komentované řešení pomocí MS Excel

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Regresní a korelační analýza

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Statistická analýza dat

PRAVDĚPODOBNOST A STATISTIKA

Měření závislosti statistických dat

Analýza dat na PC I.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika (KMI/PSTAT)

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Funkce jedné reálné proměnné. lineární kvadratická racionální exponenciální logaritmická s absolutní hodnotou

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

INDUKTIVNÍ STATISTIKA

4EK211 Základy ekonometrie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Regresní a korelační analýza

Vztah mezi počtem květů a celkovou biomasou rostliny

M cvičení : GLM01a (Toxic Chemical Production Data)

Korelace. Komentované řešení pomocí MS Excel

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Aplikovaná statistika v R - cvičení 3

Přednáška IX. Analýza rozptylu (ANOVA)

Statistická analýza jednorozměrných dat

5EN306 Aplikované kvantitativní metody I

Testy nezávislosti kardinálních veličin

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

PRAVDĚPODOBNOST A STATISTIKA

Tomáš Karel LS 2012/2013

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Plánování experimentu

=10 =80 - =

10. Předpovídání - aplikace regresní úlohy

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

AVDAT Klasický lineární model, metoda nejmenších

KGG/STG Statistika pro geografy

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Úvodem Dříve les než stromy 3 Operace s maticemi

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

KGG/STG Statistika pro geografy

ADDS cviceni. Pavlina Kuranova

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Téma 9: Vícenásobná regrese

Transkript:

Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena pro řešení vztahů, kdy máme jednu závislou (y) a jednu či více závislých (x) proměnných. Předpoklad regresní analýzy je, že nezávislé proměnné jsou měřené s nulovou chybou (nebo je alespoň její chyba oproti závislé velmi malá). Pro jednu nezávislou proměnnou za předpokladu lineární závislosti je vztah roven y=a+bx. Regresní analýza hledá parametry a a b, kde a je absolutní člen (průsečík s osou y) a b je směrnicí regresní přímky. V příkladu máme k dispozici údaje o růstu rostliny v čase (počet dnů). dny; X 2 3 4 6 7 8 9 0 2 3 4 výška; Y. 3 4. 6 8 9 3 4 6 8. 20 23 Pokud data zadáme přes "Commands" okno: SDF$X<-c(:) //vytvoření řady čísel od do SDF$Y<-c(.,3,4.,,6,8,9,,3,4,,6,8.,20,23) Nejdříve je vhodné si data zobrazit. K tomu použijeme graf s funkcí proloženou daty. K tomu slouží typ grafů "Fit...", pro proložení přímky vybereme "Fit - Linear Least Squares (x, y, y2...)". Tím jsme dostali grafické zobrazení studovaného vztahu i s regresní přímkou. Stejný graf z příkazové řádky získáme zadáním: plot (x, y) a pak abline (lm(y~x)). abline je funkce pro vykreslení lineární závislosti daného modelu, v tomto případě lineární regrese (lm) se závislou proměnnou y a nezávislou x (viz níže). 20 Y 0 0 2 3 4 6 7 8 9 0 2 3 4 X Regresní analýzu najdeme v S+ přes menu Statistics>Regression>Linear... Sestavíme obecný vzorec pro náš příklad, tedy "Dependent" je Y a "Independent" X. Pokud budeme chtít s modelem pracovat později, pak si zvolíme pod jakým jménem jej uložíme (Save Model Object). Na záložce "Results" zaškrtneme požadované výstupy (Long Output a ANOVA Table). Pokud budeme dále pracovat s reziduály, zaškrtneme je a vybereme cílové místo kam

budou uloženy. Stejně tak i fitované hodnoty. Na záložce "Predict" můžeme rovnou propojit spočtenou regresi s dalším datovým souborem a uložit výsledek nafitovaných hodnot. Grafy nalezneme na záložce "Plot". Zde bychom měli vybrat grafy pro následnou analýzu reziduí ( vs. Fit, Normal QQ). Další grafy (histogram) můžeme vytvořit z uložených hodnot reziduí. Při práci pomocí příkazového řádku postupujeme takto: podle zvoleného jména (např. model) zadáme model<-lm(sdf$y~sdf$x). lm určuje že data budou fitována lineárním modelem, v případě že máme v proměnných některé prázdné buňky, pak je třeba zadat doplňující parametr na model<-lm(sdf$y~sdf$x, na.action = na.exclude). Výsledek regrese uvidíme po zadání: summary (model). Další obecné funkce pro práci s modely viz. příloha. Z výsledků S+ nejprve zobrazí grafy. Jedním z předpokladů regresní analýzy, podobně jako u ANOVy, je normalita rozdělení reziduálů. Použití lineárního modelu je oprávněné tehdy, je-li studovaná závislost v datech (přibližně) lineární. Pokud je to pravda, pak rozdělení reziduálů nevykazuje žádný trend a blíží se normalitě. Vizuální kontrola rozdělení reziduálů je důležitá pro ověření správnosti použitého regresního modelu. Pokud máme model uložený, jak z nabídky tak i z příkazové řádky, pro diagnostické grafy voláme plot(model). Ideální rozložení reziduí vůči predikované nebo vysvětlované proměnné je v rovnoměrném pásu okolo nulové hodnoty. -.0-0. 0.0 0..0. 2 -.0-0. 0.0 0..0. 2 0 20 Fitted : X - 0 Quantiles of Standard Normal Po prohlídce rozdělení reziduí v tomto případě můžeme použitý lineární model považovat za vhodný. Stejně tak i shrnutí rozdělení reziduálů ve výsledné tabulce ukazuje na symetrii. Výsledkem analýzy je rovnice y = -0.33+.462x. Hodnota Intercept odpovídá absolutnímu členu, parametru a. Základní otázkou regresní analýzy je zda se regresní koeficient b průkazně liší od nuly, zda existuje statistická závislost mezi proměnnými x a y. Náš test (t-test) zamítá nulovou hypotézu, že regresní koeficient není odlišný od nuly. Parametr R-Squared uvádí, kolik variability v datech bylo vysvětleno modelem, v tomto případě se tedy jedná o téměř 99 %. Call: lm(formula = Y ~ X, data = SDF3, na.action = na.exclude) : Min Q Median 3Q Max

-.07-0.434-0.0967 0.4708.96 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) -0.333 0.3824 -.3946 0.86 X.462 0.042 34.770 0.0000 Residual standard error: 0.7038 on 3 degrees of freedom Multiple R-Squared: 0.9894 F-statistic: 209 on and 3 degrees of freedom, the p-value is 3.264e-04 Analysis of Variance Table Response: Y Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) X 98.8938 98.8938 209.02 3.26406e-04 3 6.4396 0.494 Součástí regresní analýzy je také analýza variance příslušného regresního modelu, která testuje zda model vysvětluje signifikantní množství variability v datech. V příkazovém řádku zadáváme anova (model). V tabulce je množství variance vysvětlené modelem a zbytková variance. Tato analýza je testem průkaznosti modelu. R-squared je podíl sumy čtverců modelu ku celkové sumě čtverců. Pro jednoduchou regresi je tato analýza testem, zda se regresní koeficient průkazně liší od nuly (je tedy analogií příslušného T-testu). Pokud má model více nezávislých proměnných, pak analýza variance testuje průkaznost celého modelu. V dalším příkladě studujeme závislost počtu semen na vzdálenosti od mateřské rostliny. vzdálenost; X 2 3 4 6 7 8 9 0 2 3 4 počet semen; Y2 30 400 34 262 220 96 70 9 86 60 3 26 20 8 2 Pokud si závislost vyneseme do grafu stejně jako v předchozím příkladě, pak získáme závislost, kdy odchylky od přímky se ke koncům zvyšují. 00 300 Y2 00-00 2 3 4 6 7 8 9 0 2 3 4 X

Spočteme-li lineární regresi pro tento vztah získáme tyto grafy reziduí. -0 0 0 00-0 0 0 00-0 Quantiles of Standard Normal 0 00 200 300 400 Fitted : X Analýza reziduálů nám ukazuje, že předpoklad lineární závislosti byl chybný. Jejich rozdělení není náhodné a jejich uspořádání vykazuje trend, kdy jejich spojnice tvoří parabolu. Přestože výsledky regresní analýzy i analýzy variance modelu jsou průkazné, použití lineárního modelu je v tomto případě chybné. *** Linear Model *** Call: lm(formula = Y2 ~ X, data = SDF3, na.action = na.exclude) : Min Q Median 3Q Max -47.3-38.3-28.8 27.72 26. Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 437.492 29.3346 4.939 0.0000 X -34.0286 3.2264-0.470 0.0000 Residual standard error: 3.99 on 3 degrees of freedom Multiple R-Squared: 0.894 F-statistic:.2 on and 3 degrees of freedom, the p-value is 9.666e- 008 Analysis of Variance Table Response: Y2 Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) X 324224.2 324224.2.2388 9.666232e-008 3 37890.7 294.7 V našem příkladě bychom spíše mohli očekávat, že s rostoucí vzdáleností od zdroje bude semen ubývat podle kvadratické závislosti. Můžeme buď použít kvadratický model a nebo data linearizovat a poté s takto upravenými daty provést lineární regresi. Na tomto příkladě použijeme transformaci dat. Pro lineární regresi použijeme tedy jako závislou proměnnou odmocninu z Y2. Pro transformování proměnných můžeme použít nabídku v okně "Create Formula" a poté

"Transform". Výsledný vzorec bude tedy sqrt(y2) ~ X. To samé platí i pro zadání dat z příkazového řádku model2<-lm(sqrt(y2)~x). Jak je vidět z grafů reziduí, závislost již mnohem více odpovídá lineárnímu vztahu a její použití je nyní opravněné. Rezidua se vyskytují v "požadovaném" pasu okolo nulové hodnoty. -0. 0.0 0..0. -0. 0.0 0..0. 4 4-0 Quantiles of Standard Normal 0 20 Fitted : X Regresní model má nyní podobu y=22.9-.47x. Regresní koeficient je opět průkazně odlišný od nuly. Oproti netransformované závislosti se ale výrazně zvýšil koeficient determinace R-squared na 99 %. *** Linear Model *** Call: lm(formula = sqrt(y2) ~ X, data = SDF3, na.action = na.exclude) : Min Q Median 3Q Max -0.87-0.4363-0.098 0.494.64 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) 22.9302 0.378 6.686 0.0000 X -.4720 0.0409-36.008 0.0000 Residual standard error: 0.6842 on 3 degrees of freedom Multiple R-Squared: 0.990 F-statistic: 296 on and 3 degrees of freedom, the p-value is 2.087e-04 Analysis of Variance Table Response: sqrt(y2) Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) X 606.702 606.702 296.32 2.08729e-04 3 6.082 0.468

V tomto příkladu si ukážeme další linearizaci dat. Máme k dispozici data o hmotnosti jakési pěstované houby na Petriho misce v čase. Počet dní; X2 2 3 4 6 7 Hnotnost; Y3 0.92. 4.7 22 78 0 246 Zobrazením vztahu lehce zjistíme, že závislost mezi proměnnými není lineární. 20 200 0 Y3 00 0 0-0 2 3 4 6 7 X2 Graf reziduí ukazuje také na nelinearitu ve vztahu. Data tvoří jakési V a je tedy opět třeba tento vztah zlinearizovat. 7-40 -20 0 20 40-0 0 0 00 0 4 Fitted : X2 Náš předchozí vztah předpokládal lineární závislost růstu kolonie houby na čase. Avšak ve skutečnosti je tento růst exponenciální (do té doby, než je dostupný prostor a živiny vyčerpán). Rovnice exponenciálního růstu je: Y = e (a+bx). Pomocí logaritmické transformace

tento vztah linearizujeme do formy ln Y = a+bx. Graf pro takto transformovanou proměnnou pak dobře odpovídá lineárnímu vztahu. Vytvoříme další sloupec pro transformovanou proměnnou Y3; z menu voláme Data>Transform..., vybereme zdrojovou proměnnou, typ transformace (log - logaritmus s přirozeným základem, sqrt - odmocnina). Ze získané "nové" proměnné vytvoříme graf a je patrné, že použitá transformace závislost zlinearizovala. Nyní tedy můžeme spočítat lineární regresi s modelem buď použitím netransformované proměnné a zápisu log(y3) ~ X2 a nebo s transformovanou proměnnou jako závislou. -0.4-0.2 0.0 0.2 0.4 2 7 0 2 3 4 6 Fitted : X2 Rezidua jsou již mnohem lépe rozloženy a vzhledem k malému počtu měření, jsou ve výsledku vypsány rezidua pro všechny hodnoty. *** Linear Model *** Call: lm(formula = log(y3) ~ X2, data = SDF3, na.action = na.exclude ) : 2 3 4 6 7 0.3-0.306-0.26 0.2 0.498 0.204-0.402 Coefficients: Value Std. Error t value Pr(> t ) (Intercept) -.268 0.362-3.9906 0.004 X2.023 0.0707 4.09 0.0000 Residual standard error: 0.374 on degrees of freedom Multiple R-Squared: 0.9768 F-statistic: 20.3 on and degrees of freedom, the p-value is 0.0000284 Analysis of Variance Table Response: log(y3) Terms added sequentially (first to last) Df Sum of Sq Mean Sq F Value Pr(F) X2 29.4369 29.4369 20.3046 0.000028389 0.69986 0.3997

Procento vysvětlené variability modelem je téměř 98 % a celý model je výrazně signifikantní. Takže závěrem jsme mohli použít lineární regresi, alternativou (avšak náročnější) k tomuto postupu by bylo použití netransformovaných hodnot a nelineárního modelu. Tento materiál byl vytvořen na základě příkladů a textů P. Sklenáře pro kurz biostatistiky v NCSS. Příloha: funkce pro práci s modely I. y~x y~x- lm aov glm abline summary plot update coef fitted resid model kde y je závislá proměnná a x nezávislá (model zahrnuje absolutní člen) model bez absolutního členu fituje data lineární regresí s normálním rozložením chyb fituje analýzu variance fituje data zobecněným lineárním modelem (podrobnosti viz. manuály) vytvoří graf lineární závislosti; abline(pokus), abline(mean(x),0) výstup souhrnu dle použitého modelu; např. summary (pokus) diagnostické grafy změna zadaného modelu vypíše odhady parametrů; coef (pokus) seznam fitovaných hodnot seznam reziduí funkce lze kombinovat: vytvoření histogramu reziduí modelu hist(resid(pokus)); hist(resid(lm(y~x))) vyjmutí "outlieru" (desátá hodnota) z analýzy lm(y[-0]~x[-0])