Vztah mezi počtem květů a celkovou biomasou rostliny

Podobné dokumenty
Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

AVDAT Klasický lineární model, metoda nejmenších

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Inovace bakalářského studijního oboru Aplikovaná chemie

4EK211 Základy ekonometrie

Regresní a korelační analýza

Regresní a korelační analýza

Korelační a regresní analýza

INDUKTIVNÍ STATISTIKA

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Regresní a korelační analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

odpovídá jedna a jen jedna hodnota jiných

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

LINEÁRNÍ REGRESE. Lineární regresní model

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Tomáš Karel LS 2012/2013

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

PRAVDĚPODOBNOST A STATISTIKA

Měření závislosti statistických dat

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R - cvičení 2

Regresní analýza. Eva Jarošová

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

6. Lineární regresní modely

4ST201 STATISTIKA CVIČENÍ Č. 10

Regresní analýza 1. Regresní analýza

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistika (KMI/PSTAT)

PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT. Všichni žijeme v matrixu.

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Kontingenční tabulky, korelační koeficienty

Optimalizace provozních podmínek. Eva Jarošová

Navrhování experimentů a jejich analýza. Eva Jarošová

Testování hypotéz a měření asociace mezi proměnnými

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Statistická analýza dat

Kontingenční tabulky, korelační koeficienty

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

10. Předpovídání - aplikace regresní úlohy

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

AVDAT Nelineární regresní model

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Cvičení ze statistiky - 3. Filip Děchtěrenko

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

AVDAT Geometrie metody nejmenších čtverců

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

6. Lineární regresní modely

5EN306 Aplikované kvantitativní metody I

Statistická analýza jednorozměrných dat

6. Lineární regresní modely

Přednáška IX. Analýza rozptylu (ANOVA)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Lineární regrese. Komentované řešení pomocí MS Excel

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Regresní a korelační analýza

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Statistické testování hypotéz II

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 3

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

Plánování experimentu

ELLENBERGOVY INDIKAČNÍ HODNOTY. David Zelený Zpracování dat v ekologii společenstev

Design Experimentu a Statistika - AGA46E

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Transkript:

Regrese a korelace

Regrese versus korelace Regrese (regression)* popisuje vztah = závislost dvou a více kvantitativních (popř. ordinálních) proměnných formou funkční závislosti měří těsnost Korelace (correlation) těsnost vztahu = závislosti mezi dvěma proměnnými Liší se chápání proměnných u obou metod? Regrese: lze rozlišit, která proměnná závisí na které (= příčinnost) rozlišujeme nezávislou (independent; není zatížena chybou ) a závislou (dependent, response; prediktor, je zatížena chybou) proměnnou (variable * v užším slova smyslu variable) (Pozn.: lze řešit i případy, kdy obě proměnné jsou zatíženy chybou ) Korelace: nelze rozlišit proměnné na závislou a nezávislou (obě jsou zatíženy chybou)

Graf závislosti (Scatter plot =x-y graf) Vztah mezi počtem květů a celkovou biomasou rostliny Osa y = závislá proměnná KVETU CELKEM 80.0 53.3 26.7 0.0 0.0 2.7 5.3 8.0 celková biomasa Osa x = nezávislá proměnná

Jednoduchá regrese - lineární model - nejjednodušší případ regrese: jednoduchá = pouze 1 nezávislá proměnná; lineární = závislost y na x vyjadřujeme přímkou Předpoklady lineární regrese: 1. homogenní rozptyl: všechna Y mají stejnou rozptýlenost 2. linearita: střední hodnota y i leží na regresní přímce populace 3. nezávislost 4. proměnná X je měřena bez chyby (pokud ne, pak užít Model II regrese*) Obecné populace Y podle X Speciální forma populací Y uvažovaných při jed. lineární regresi Náhodné veličiny Y 1,Y 2,..,Y i jsou nezávislé se střední hodnotou α+βx i a rozptylem σ 2

Jednoduchá lineární regrese Obecný předpis y i =α+βx i (simple linear regression) Jak to vypadá ale v populaci? Nezávislá proměnnáxje na horizontální ose x, závislá proměnná y je na vertikální ose y. y i =α+βx i +ε i...... chyba = reziduál (residuum)=odchylka očekávaného od skutečného y i Jak ale nalézt přímku, která bude nejlépe fitovat = = prokládat naše data? Tak kterou? Musí platit, aby (reziduální) součet čtverců odchylek skutečných od očekávaných hodnot (RSS) byl minimální RSS = n i= 1 ( y i y) 2 = min.

Jak vybrat nejlepší přímku? 1) spočítat celkový průměr všech hodnot y a vynést ho do grafu 2) přímka prochází bodem x, 3) rotuj přímku kolem bodu (2) přičemž SS Y =SS R +SS E a musí být splněno SS Y = RSS= i= 1 4) pak byla nalezena nejlepší možná přímka n ( y i y) 2 ( y) = min. (Grafen a Hails 2002, str. 24)

Výpočet parametrů regresní rovnice β (b) = regresní koeficient (směrnice přímky, slope) může nabývat všech hodnot na reálné ose směrnice b = změna Y,, která je způsobena změnou X o jednotku b y i =α+βx i y=a+bx... odhad ( x x)( y i i = 2 ( xi x) y) (pracujeme s výběrem) α (a) = absolutní člen (průsečík s osou y; intercept) - bod daný koordinátami ( x, y) leží vždy na přímce, pak a= y bx a b

Jak blízko je odhadovaná přímka skutečné regresní přímce populace? Odhad b je zatížen chybou (SE b ; s b ; standard error of b): ta má normální rozdělení SE = 1 s ( yi y = n 2 2 ( x x) ( x x) i i 2 y) 2 Jak zlepšit odhad b? 1. snížením rozptylu Y 2. zvýšením n 3. zvýšením rozptylu X (Wonnacot & Wonnacot 1993, str. 406)

Dělení variability v regresi Celková variabilita proměnné y je SSTOTAL= ( yi y) 2 Tuto variabilitu lze rozdělit na variabilitu vysvětlenou regresním modelem: SS = ( yˆ y) a zbytkovou, nevysvětlenou variabilitu: SS REG ERROR = ( yi yˆ i i 2 2 ) variabilita vysvětlená reg. modelem celková variabilita y i Y Y ˆ3 Y Y ˆ2 reziduum

Testovat regresi? Proč? A co? náhodný výběr (n=5) z populace s β=0 (Lepš 1996)

Testování signifikance regrese H 0 : b=0 [y i = α + ε i ] H A : b 0 [y i = α + β 1 x i + ε i ] Máme 2 možnosti: ANOVA a t-testtest porovnáme obě dílčí variability: čím menší bude SS ERROR, tím těsnější bude vztah mezi skutečnými hodnotami a přímkou SS DF REG =1 MS DF ERR =n-2 REG= 1 alternativně: b β t= 0 s b pak REG F= MS MS MS REG ERR ERR SSERR = n 2 je-li t t α(2), n-2... zamítáme H 0 je-li F F α(1), 1, n-2... zamítáme H 0

Jak úspěšná byla regrese? Koeficient determinace (coefficient of determination) - udává (rozsah <0;1>, popř. *100 v % <0;100>), jaká část variability závisle proměnné je vysvětlena regresním modelem r 2 = R 2 = SS SS REG TOT vysoký R 2 střední R 2 nízký R 2 (Lepš 1996)

Lineární regrese - příklad X Y 1 3 2 5 3 9 4 12 5 17 6 23 Y 25.0 18.8 12.5 (X,Y) Y X n 6 6 Průměr 11.5 3.5 s 7.5299 1.8708 Y= -2.4 + 3.97 * X 6.3 0.0 1.0 2.3 3.5 4.8 6.0 X Analysis of Variance Section Sum of Mean Prob Source DF Squares Square F-Ratio Level Slope 1 276.0143 276.0143 147.4885 0.0003 Error 4 7.485714 1.871429

Interpolace, extrapolace Interpolace = stanovení nových hodnot ležících uvnitř rozmezí sebraných dat Extrapolace = stanovení nových hodnot ležících mimo rozmezí sebraných dat Lineární modely mohou aproximovat nelineární závislosti v omezeném rozsahu nezávislé proměnné X. - interpolace uvnitř těchto limitů bude akceptovatelná, i když mimo ně (extrapolace) nepopisuje skutečnou závislost Y na X skutečný funkční vztah X a Y lineární model interpoluje dobře uvnitř sebraných dat (Gotelli & Ellison 2004, str. 241)

Konfidenční a predikční intervaly Cílem regresní analýzy není pouze predikce hodnoty závisle proměnné na nezávislé proměnné, ale i určení přesnosti takové predikce! Pro β: α(2),n-2 *SE b b±t α(2), Pro střední hodnotu y i při daném x i : konfidenční interval (confidence bands) Pro individuální (jednotlivé) hodnoty y i při daném x i : predikční interval (prediction intervals)

Diagnostické testy: kdy je použití lineární regrese chybné? Reziduály y jako funkce jejich příslušného x yi yˆ i (graf residuálů = residual plot) Nutný další regresor* y ˆ i yi Heteroskedalita věk Ulétlé hodnoty yi yˆ i věk yi yˆ i věk Homoskedalita Regrese Reziduály věk Špatně specifikován reg. model Regrese Reziduály

Tak takhle tedy ne... Nepřiměřený vliv 1 bodu může zcela změnit závislost y na x, pokud není dodržena podmínka zahrnutí celého (resp. většího) rozmezí proměnné x do analýzy... (Gotelli & Ellison 2004)

Ty ulétlé hodnoty...

Role X a Y: záleží které je které? Model I regrese: : jsou minimalizovány vertikální odchylky jiný pohled: fitovaná přímka popisuje vztah mezi naměřenými hodnotami X a očekávanými hodnotami Y výsledný vztah je podmíněný použitým souborem hodnot X Model II regrese: : uvažujeme existenci chyby jak pro X, tak pro Y. lze využít pouze tehdy,, když zároveň (a) jedinou příčinou odchylek naměřených hodnot od přímky je chyba měření (measurement error) (b) tuto chybu lze přesně rozdělit mezi X a Y proměnnou objem=-87,1+1,54*výška výška=69,0+0,232*objem (Grafen a Hails 2002, str. 43)

Jiné typy regresní analýzy I. Robustní regrese (robust regression): - reziduály se počítají ne pomocí čtverce (rozdíl 2 ), ale jako např. absolutní odchylky, ale existuje řada jiných typů (např. M- estimators, least-trimmed,...) - méně náchylná na vliv ulétlých hodnot (zvl. jsou-li skutečné) - nelze použít klasického postupu, nutno užít iterační procedury pro nalezení parametrů přímky Kvantilová regrese (quantile regression): - minimalizuje odchylky od fitované regresní přímky, ale minimalizující funkce je asymetrická pozitivní a negativní odchylky jsou váženy rozdílně

Jiné typy regresní analýzy II. Logistická regrese (logistic regression): - speciální forma regrese, kde proměnná y je kategoriální (nejčastěji 2 kategorie, méně často více) - závislost je vyjádřena tzv. S-křivkou, tedy logistickou křivkou, která stoupá od jisté minimální hodnoty (0 a vyšší) do maximální asymptoty (max.=1) - výpočet parametrů je prováděn tzv. maximum likelihood approach (princip maximální věrohodnosti) p= e β 0 1+ e + β β 0 1 x + β β 0 = pravděpodobnost úspěchu (y=1), když je x=0 β 1 = určuje, jak rychle bude křivka stoupat k hodnotě p = 1 1 x

Jiné typy regresní analýzy III. - jde o typ regrese, kde regresní funkce není lineární v parametrech (α, β, ε), tj. není-li jejich lineární kombinací y=ab y y Nelineární regrese (Non-linear regression) x exponenciální růst = ab x exponenciální pokles = a logistický 1 + bc x růst Výpočet parametrů regresní rovnice je složitý a provádí se tzv. iterační procedurou (iteration)

Mnohonásobná lineární regrese (Multiple linear regression) - studuje závislost jedné závislé proměnné na 2 a více nezávislých proměnných y j =α+β 1 x 1j + β 2 x 2j + β 3 x 3j +...+ε j parciální regresní koeficienty (partial regression coefficients) testuje se obecná hypotéza F-testem: H 0 : β 1 = β 2 =...= β m = 0 v případě zamítnutí H 0 se testují dílčí parciální koeficienty t-testem: testem: H 0 : β i = 0 Příklad rovina: 2 nezávislé proměnné

Jak vypadá výstup mnohonásobné regrese z PC? Závislá proměnná (Dependent v.): počet pacibulek česneku domácího Regression Equation Section IndependentRegression Standard T-Value Prob Decision Power Variable Coefficient Error (Ho: B=0) Level (5%) (5%) Intercept 12.54699 18.82904 0.6664 0.507279 Accept Ho 0.100829 výška rost. 1.017877 0.3341421 3.0462 0.003224 Reject Ho 0.852213 počet listů -9.270854 4.083927-2.2701 0.026155 Reject Ho 0.610345 R-Squared 0.152349 Analysis of Variance Section Sum of Mean Prob Power Source DF Squares Square F-Ratio Level (5%) Intercept 1 130227.8 130227.8 Model 2 8336.867 4168.434 6.5602 0.002398 0.898402 Error 73 46385.29 635.4149 Total 75 54722.16 729.6288 testování parciálních koeficientů t-testemtestem ANOVA (F-test) R-Squared 0.1523 Adj R-Squared 0.1291

Polynomická regrese (Polynomial regression) - jedná se o zvláštní typ mnohonásobné regrese - pouze jedna proměnná X,, ale v rovnici se vyskytují její 1-n mocniny y=a+b 1 x i +b 2 x i2 +...+b m x im +ε ι Kolik členů použít? Testujeme postupně b m stále vyšších mocnin na H 0 : b m =0 a podle výsledku určujeme počet členů rovnice (nejužívanější je kvadratická regrese)

Polynomická regrese- příklad: Polynom 1. st. Polynom 2. st. Který je nejvhodnější? Polynom 3. st. Polynom 4. st. Polynom 5. st. (Lepš 1996)

Analýza kovariance (ANCOVA) - hybrid regrese a ANOVy - užívá se v případě, kdy v analýze pomocí ANOVA zohledňuji dodatečnou kvantitativní proměnnou (kovariáta)) měřenou pro každé opakování - hypotéza je, že také kovariáta přispívá k variabilitě závisle proměnné Model:* Yij = µ + Ai + βi(xij- ) + εij Pokud má kovariáta vliv, pak reziduály budou výrazně menší a test rozdílů mezi zásahy bude výrazně silnější *nejkomplexnější model, kdy každá hladina faktoru A má vlastní regresní přímku x i Možné výsledky experimentů s ANCOVA designem (Gotelli et Ellison 2004, str. 334)

Analysis of Variance Table Source Term ANCOVA - příklad Př.: Liší se počet květů v květenství česneku domácího mezi cytotypy (4x, 5x) s odstraněním vlivu počtu pacibulek (kovariáta)? DF Sum of Squares Mean Square F-Ratio Prob Level X(pocet_pacibulek) 1 6554.282 6554.282 86.72 0.000000* A: Ploidie 1 761.285 761.285 10.07 0.001671* S 282 21313.13 75.57848 Total (Adjusted) 284 28147.87 Total 285 * Term significant at alpha = 0.05 KVETU_CELKEM KVETU_CELKEM vs pocet_pacibulek 80.0 53.3 26.7 Ploidie 5 4 0.0 0.0 40.0 80.0 120.0 pocet_pacibulek

Kovariance (covariance) - jedním číslem vyjadřuje vztah mezi dvěma (kvantitativními) proměnnými - její hodnoty závisí na jednotkách, ve kterých jsou měřeny proměnné (viz čitatel vzorce) - teoreticky se pohybuje od - do + COV ( x x)( = i n y i y) 1 Variance-covariance covariance matrix: matice n x n proměnných (čtverec), kde na úhlopříčce leží variance jednotlivých proměnných, a nad a pod diagonálou leží kovariance párů proměnných ných x i a x j

Parametrická korelace (correlation) - měří stupeň neboli těsnost lineární závislosti dvou kvantitativních proměnných Pearsonův korelační koeficient (correlation coefficient) r = ( x ( x i i x) x)( y i y) = 1 n 2 2 ( yi y) 1 n i= 1 x i s x x y i s y y - standardizovaná kovariance -nelze rozlišit závislou a nezávislou proměnnou (obě jsou zatíženy chybou) -parametrický výběrový korelační koeficient + je odhadem parametru r - je bezrozměrný, nabývá hodnot <-1;+1> Předpoklad užití: dvourozměrná normální populace (!!!)

Dvourozměrné normální rozdělení Dvourozměrné normální rozdělení pro dvě proměnné Y 1 a Y 2, které jsou slabě korelované. (Quinn & Keough 2002, str. 73) Dvourozměrné normální rozdělení pro dvě proměnné Y 1 a Y 2 které jsou silně pozitivně korelované.

Jaký význam má korelační koeficient? (A) r>0...pozitivní korelace - stoupá X,, stoupá Y (obráceně je to zcela totožné) ((B)(B) r=1... úplná pozitivní (deterministická) korelace) (C) r<0 0... negativní korelace - stoupá X,, klesá Y (= stoupá Y, klesá X) ((D)(D) r=-1 1... úplná negativní (deterministická) korelace) (E) r=0... nulová korelace (proměnné jsou nekorelované) - není lineární vztah mezi proměnnými A C E r=0.60 r=-0.80 r=0.00 B D E ALE POZOR!!! r=1.00 r=-1.00 r=0.00

r je odhadem: je nutno ho testovat! H 0 : r=0 H A : r 0 t= r s r kde s r 1 r = n 2 2 = standardní chyba korelačního koeficientu je-li t t α(2),n... zamítáme H (2),n-2 0

r s A co když nemám splněnu podmínku pro užití param. = 1 6 n n i= 1 3 d 2 i n korelace? Spearmanův pořadový koeficient korelace (Spearman rank correlation coefficient) kde d i2 = rozdíl pořadí mezi x i a y i -pracujeme s pořadím - nevyžaduje dvourozměrné normální rozdělení -interpretace jako u parametrického r - testování se provádí porovnáním s kritickými hodnotami na zvolené hladině významnosti při příslušné velikosti souboru (v tabulkách)

Parciální korelace (Parcial correlation) -vyjadřuje těsnost závislosti dvou proměnných za předpokladu, že další proměnná (proměnné) se nemění - umožňuje odfiltrovat interakce -mají úzkou souvislost s parciálními regresními koeficienty