Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Podobné dokumenty
Vztah mezi počtem květů a celkovou biomasou rostliny

REGRESNÍ ANALÝZA. 13. cvičení

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Regresní a korelační analýza

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

6 LINEÁRNÍ REGRESNÍ MODELY

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

7. Analýza rozptylu jednoduchého třídění

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

Analýza závislosti veličin sledovaných v rámci TBD

Regresní a korelační analýza

Regresní a korelační analýza

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Využití logistické regrese pro hodnocení omaku

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

VĚROHODNOST VÝSLEDKŮ PŘI UŽITÍ EXPLORATORNÍ ANALÝZY DAT

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

4EK211 Základy ekonometrie

Statistická analýza jednorozměrných dat

Korelační a regresní analýza

INDUKTIVNÍ STATISTIKA

4EK211 Základy ekonometrie

Aplikace Li-Ma metody na scintigrafické vyšetření příštítných tělísek. P. Karhan, P. Fiala, J. Ptáček

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Teorie efektivních trhů (E.Fama (1965))

4EK211 Základy ekonometrie

Matematika I A ukázkový test 1 pro 2018/2019

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

STATISTIKA (pro navazující magisterské studium)

4EK211 Základy ekonometrie

Aplikovaná statistika v R - cvičení 2

KGG/STG Statistika pro geografy

Inovace bakalářského studijního oboru Aplikovaná chemie

Úvod Terminologie Dělení Princip ID3 C4.5 CART Shrnutí. Obsah přednášky

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

PRAVDĚPODOBNOST A STATISTIKA

Metody zkoumání závislosti numerických proměnných

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Regresní a korelační analýza

Validation of the selected factors impact on the insured accident

L8 Asimilace dat II. Oddělení numerické předpovědi počasí ČHMÚ 2007

MODELOVÁNÍ A SIMULACE

4EK211 Základy ekonometrie

Náhodným vektorem rozumíme sloupcový vektor složený z náhodných veličin X = (X 1, X 2,

4ST201 STATISTIKA CVIČENÍ Č. 10

AVDAT Geometrie metody nejmenších čtverců

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

odpovídá jedna a jen jedna hodnota jiných

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY

Tepelná kapacita = T. Ē = 1 2 hν + hν. 1 = 1 e x. ln dx. Einsteinův výpočet (1907): Soustava N nezávislých oscilátorů se stejnou vlastní frekvencí má

Kinetika spalovacích reakcí

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

You created this PDF from an application that is not licensed to print to novapdf printer (

Design Experimentu a Statistika - AGA46E

Regresní a korelační analýza

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

Testování hypotéz o parametrech regresního modelu

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

4.4 Exploratorní analýza struktury objektů (EDA)

Optimalizace provozních podmínek. Eva Jarošová

Měření závislosti statistických dat

Statistika (KMI/PSTAT)

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Statistická analýza jednorozměrných dat

Plánování experimentu

6. Lineární regresní modely

2. Najděte funkce, které vedou s těmto soustavám normálních rovnic

KGG/STG Statistika pro geografy

Přednášky část 4 Analýza provozních zatížení a hypotézy kumulace poškození, příklady. Milan Růžička

LINEÁRNÍ REGRESE. Lineární regresní model

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Jednofaktorová analýza rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kontingenční tabulky, korelační koeficienty

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

PSY117/454 Statistická analýza dat v psychologii. Zobrazení dvojrozměrných dat Bodový graf - Scatterplot Korelační koeficient

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Solventnost II. Standardní vzorec pro výpočet solventnostního kapitálového požadavku. Iva Justová

Hustota pravděpodobnosti případ dvou proměnných

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regresní analýza 1. Regresní analýza

Transkript:

Regrese a korelace

Regrese versus korelace Regrese (regresson)* popsuje vztah = závslost dvou a více kvanttatvních (popř. ordnálních) proměnných formou funkční závslost měří těsnost Korelace (correlaton) těsnost vztahu = závslost mez dvěma proměnným Lší se chápání proměnných u obou metod? Regrese: lze rozlšt, která proměnná závsí na které (= příčnnost) rozlšujeme nezávslou (ndependent; není zatížena chybou chybou ) a závslou (dependent, response; predktor, je zatížena chybou) proměnnou (varable * v užším slova smyslu varable) (Pozn.: lze řešt případy, kdy obě proměnné jsou zatíženy chybou ) Korelace: nelze rozlšt proměnné na závslou a nezávslou (obě jsou zatíženy chybou)

Graf závslost (Scatter plot =x-y graf) Vztah mez počtem květů a celkovou bomasou rostlny ná oměnn slá pro Osa y = záv KVETU CELKE EM 80.0 53.3 26.7 0.0 0.0 2.7 5.3 8.0 celková bomasa Osa x = nezávslá proměnná

Jednoduchá regrese - lneární model nejjednodušší případ regrese: jednoduchá jednoduchá = pouze 1 nezávslá proměnná; lneární lneární = závslost y na x vyjadřujeme j přímkou Předpoklady lneární regrese: 1. homogenní rozptyl: všechna Y mají stejnou rozptýlenost 2. lnearta: střední hodnota y leží na regresní přímce populace 3. nezávslost 4. proměnná X je měřena bez chyby (pokud ne, pak užít Model II regrese*) Obecné populace Y podle X Specální forma populací Y uvažovaných př jed. lneární regres Náhodné velčny Y 1,Y 2,..,Y jsou nezávslé se střední hodnotou α+βx a rozptylem σ 2

Jednoduchá lneární regrese Obecný předps y =α+βx Nezávslá proměnná x je na horzontální ose x, závslá proměnná y je na vertkální ose y. (smple lnear regresson) Jak to vypadá ale v populac? je y =α+βx +ε...... chyba = rezduál (resduum)=odchylka očekávaného od skutečného y Jak ale nalézt přímku, která bude nejlépe ftovat = = prokládat naše data? Tak kterou? Musíplatt, aby (rezduální) součet čtverců odchylek skutečných od očekávaných hodnot (RSS) byl mnmální RSS = n = 1 ( y y) 2 = mn.

Jak vybrat nejlepší přímku? 1) spočítat celkový průměr všech hodnot y a vynést ho do grafu 2) přímka prochází bodem ( x, y) 3) rotuj přímku kolem bodu (2) přčemž SS Y =SS R +SS E a musí být splněno SS Y = n 2 RSS = ( y y ) = mn. = 1 4) pak byla bl nalezena nejlepší možná přímka (Grafen a Hals 2002, str. 24)

Výpočet parametrů regresní rovnce y =α+βx y=a+bx... odhad (pracujeme s výběrem) β (b) = regresní koefcent (směrnce přímky, slope) můženabý nabýva vat všech hhodnot na reálné ose směrnce b = změna Y,, která je způsobena změnou X o jednotku b ( x x)( y = 2 ( x x) ) y) α (a) =absolutní íčl člen (průsečík ů s osou y; ntercept) bod dd daný ýk koordnátam ( x, y ) lží leží vždy na přímce, pak pak a = y bx a b

Jak blízko je odhadovaná přímka skutečné regresní přímce populace? Odhad b je zatížen chybou (SEb; b; standard error of b): ta má normální rozdělení 1 SE b ; s b ; s ( y y SE = = n 2 2 ( x x ) ( x x ) 2 y ) 2 Jak zlepšt odhad b? 1. snížením rozptylu Y 2. zvýšením n 3. zvýšením rozptylu X (Wonnacot & Wonnacot 1993, str. 406)

Celková varablta proměnnéě y je Dělení varablty v regres SS = y y 2 TOTAL ( ) Tuto varabltu lze rozdělt na varabltu vysvětlenou regresním modelem: varablta vysvětlená = 2 SSREG ( yˆ y) reg. modelem a zbytkovou, nevysvětlenou varabltu: SS ERROR = ( y y ˆ ) 2 celková varablta y Yˆ3 Y Yˆ Y ˆ2 rezduum

Testovat regres? Proč? Aco? náhodný výběr (n=5) z populace p s β=0β (Lepš 1996)

Testování sgnfkance regrese H 0 : b=0 [y = α + ε ] H A :b 0 [y = α + β 1 x + ε ] Máme 2 možnost: ANOVA a t test test porovnáme obě dílčí varablty: čím menší bude SS ERROR, tím těsnější bude vztah mez skutečným hodnotam a přímkou SS DF REG =1 MS = DF ERR =n 2 REG 1 alternatvně: b β t = 0 pak s b REG F = MS MS MS REG MS ERR ERR = SS ERR n 2 je-l t t α(2), n-2... zamítáme H 0 je-l F F α(1), 1, n... zamítáme H 0 (1), 1, n-2

Jak úspěšná byla regrese? ese Koefcent determnace (coeffcent of determnaton) udává (rozsah <0;1>, popř. *100 v % <0;100>), jaká část varablty závsle proměnné je vysvětlena regresním modelem 2 r = R = = 2 SS REG SS TOT vysoký R 2 střední R 2 nízký R 2 (Lepš 1996)

Lneární regrese - příklad X Y 1 3 2 5 25.0 3 9 18.8 4 12 5 17 12.5 6 23 Y X n 6 6 Průměr 11.5 3.5 s 7.5299 1.8708 Y 6.3 (X,Y) 0.0 1.0 2.3 3.5 4.8 6.0 Y= -2.4 + 3.97 * X X Analyss of Varance Secton Sum of Mean Prob Source DF Squares Square F-Rato Level Slope 1 276.0143 276.0143 147.48854885 0.00030003 Error 4 7.485714 1.871429

Interpolace, extrapolace Interpolace = stanovení nových hodnot ležících uvntř rozmezí sebraných dat Extrapolace = stanovení nových hodnot ležících mmo rozmezí sebraných dat Lneární modely mohou aproxmovat nelneární závslost v omezeném rozsahu nezávslé proměnné X. nterpolace uvntř těchto lmtů bude akceptovatelná, když mmo ně (extrapolace) nepopsuje p skutečnou závslost Y na X skutečný funkční vztah X a Y lneární model dl nterpoluje dobře uvntř ř sebraných hd dat (Gotell & Ellson 2004, str. 241)

Konfdenční a predkční ntervaly Cílem regresní analýzy není pouze predkce hodnoty závsle proměnné na nezávslé proměnné, ale určení přesnost takové predkce! Pro β: b±t α(2),n-2 *SE b Pro střední hodnotu y př daném x : konfdenční nterval (confdence bands) Pro ndvduální (jednotlvé) hodnoty y př daném x : predkční nterval (predcton ntervals)

Dagnostcké testy: kdy je použtí lneární regrese chybné? Rezduály y jako funkce jejch příslušného x (graf resduálů = resdual plot) Nutný další regresor* y yˆ y yˆ y Heteroskedalta věk Ulétlé hodnoty y ˆ y věk y ˆ y věk Homoskedalta Regrese Rezduály věk Špatně specfkován reg. model Regrese Rezduály

Tak takhle tedy ne... Nepřměřený vlv 1 bodu může zcela změnt závslost y na x, pokud není dodržena podmínka zahrnutí celého (resp. většího) rozmezí proměnné ě x do analýzy... (Gotell & Ellson 2004)

Ty ulétlé hodnoty...

Role X a Y: záleží které je které? Model I regrese: : jsou mnmalzovány vertkální odchylky jný ýp pohled: ftovaná přímka popsuje p vztah mez naměřeným hodnotam X a očekávaným hodnotam Y výsledný vztah je podmíněný použtým souborem hodnot X Model II regrese: : uvažujeme exstenc chyby jak pro X, tak pro Y. lze využít pouze tehdy,, když zároveň (a) jednou příčnou odchylek naměřených hodnot od přímky je chyba měření (measurement error) (b) tuto chybu lze přesně rozdělt mez X a Y proměnnou objem=-87,1+1,54*výška výška=69,0+0,232*objem (Grafen a Hals 2002, str. 43)

Jné typy regresní analýzy I. Robustní regrese (robust regresson): rezduály se počítají ne pomocí čtverce (rozdíl 2 ), ale jako např. absolutní odchylky, ale exstuje řada jných typů (např. M estmators, least trmmed trmmed,...) méně náchylná na vlv ulétlých hodnot (zvl. jsou l skutečné) nelze použít klasckého postupu, nutno užít terační procedury pro nalezení parametrů přímky Kvantlová regrese (quantle regresson): mnmalzuje odchylky dhlk od ftované regresní přímky, ale mnmalzující funkce je asymetrcká poztvní a negatvní odchylky dhlk jsou váženy rozdílně ě

Jné typy regresní analýzy II. Logstcká regrese (logstc regresson): specální forma regrese, kde proměnná y je kategorální (nejčastěj 2 kategore, méně ěč často více) závslost je vyjádřena tzv. S křvkou, tedy logstckou křvkou, která stoupá od jsté mnmální íh hodnoty (0 a vyšší) do maxmální asymptoty t (max.=1) výpočet parametrů je prováděn tzv. maxmum lkelhood approach (prncp maxmální věrohodnost) p e β0 + β1x = β + β x 1+ e β 0 = pravděpodobnost úspěchu (y=1), když je x=0 β 1 = určuje, jak rychle bude křvka stoupat k hodnotě p = 1 0 1

Jné typy regresní analýzy III. Nelneární regrese (Non lnear regresson) - jde o typ regrese, kde regresní funkce není lneární v parametrech ( (α, β, ε), ε tj. není-l jejch lneární kombnací y = ab y = x b x ab a y = 1+ bc x exponencální růstů ů t Výpočet č parametrů ů exponencální pokles logstcký růst regresní rovnce je složtý a provádí se tzv. terační procedurou (teraton)

Mnohonásobná lneární regrese (Multple l lnear regresson) studuje závslost jedné závslé proměnné na 2 a více nezávslých proměnných y j =α+β 1 x 1j + β 2 x 2j + β 3 x 3j +...+ε+ +ε j parcální regresní koefcenty (partal testuje se obecná hypotéza F-testem: H 0: β 1 = β 2 =...= β m = 0 partal regresson coeffcents) v případě zamítnutí H 0 se testují dílčí parcální koefcenty t-testem: testem: H 0 : β = 0 Příklad rovna: 2 nezávslé proměnné

Jak vypadá výstup mnohonásobné regrese z PC? Závslá proměnná (Dependent v.): počet pacbulek česneku domácího Regresson Equaton Secton IndependentRegresson Standard T-Value Prob Decson Power Varable Coeffcent Error (Ho: B=0) Level (5%) (5%) Intercept 12.54699 18.82904 0.6664 0.507279 Accept Ho 0.100829 výška rost. 1.017877 0.3341421 3.0462 0.003224 Reject Ho 0.852213 počet lstů -9.270854 4.083927-2.2701 0.026155 Reject Ho 0.610345 R-Squared 0.152349 Analyss of Varance Secton Sum of Mean Prob Power Source DF Squares Square F-Rato Level (5%) Intercept 1 130227.8 130227.8 Model 2 8336.867 4168.434 6.5602 0.002398 0.898402 testování parcálních koefcentů t testemtestem Error 73 46385.29 635.4149 Total 75 54722.16 729.6288 ANOVA (F test) R-Squared 0.1523 Adj R-Squared 0.1291

Polynomcká regrese (Polynomal regresson) jedná se o zvláštní typ mnohonásobnéregrese pouze jedna proměnná X,, ale v rovnc se vyskytují její 1 n mocnny y=a+b 1 x +b 2 x 2 +...+b +...+b m x m +ε ι 1 2 m ι Kolk členů použít? Testujeme postupně ě b m stále vyšších mocnn na H 0 : b m =0 a podle výsledku určujeme počet členů rovnce (nejužívanější je kvadratcká regrese)

Polynomcká regrese- příklad: Polynom 1. st. Polynom 2. st. Který je nejvhodnější? Polynom 3. st. Polynom 4. st. Polynom 5. st. (Lepš 1996)

Analýza kovarance (ANCOVA) hybrd regrese a ANOVy užívá se v případě, kdy v analýze pomocí ANOVA zohledňuj dodatečnou kvanttatvní proměnnou (kovaráta)) měřenou pro každé opakování hypotéza je, že také kovaráta přspívá k varabltě závsle proměnné Model:* j- Yj = μ + A + β(xj x ) + εj Pokud má kovaráta vlv, pak rezduály budou výrazně menší a test rozdílů mez zásahy bude výrazně slnější *nejkomplexnější model, kdy každá hladna faktoru A má vlastní regresní přímku Možné výsledky expermentů s ANCOVA desgnem (Gotell et Ellson 2004, str. 334)

ANCOVA - příklad Př.: Lší se počet květů v květenství česneku domácího mez cytotypy (4x, 5x) s odstraněním vlvu počtu pacbulek (kovaráta)? Analyss of Varance Table Source Term DF Sum of Squares Mean Square F-Rato Prob Level X(pocet_pacbulek) 1 6554.282 6554.282 86.72 0.000000* A: Plode 1 761.285 761.285 10.07 0.001671* S 282 21313.13 75.57848 57848 Total (Adjusted) 284 28147.87 Total 285 * Term sgnfcant at alpha = 0.05 KVET TU_CELKEM KVETU_CELKEM vs pocet_pacbulek 80.00 53.3 26.7 Plode 5 4 0.0 0.0 40.0 80.0 120.0 pocet_pacbulek

Kovarance (covarance) jedním číslem vyjadřuje vztah mez dvěma (kvanttatvním) proměnným její hodnoty závsí na jednotkách, ve kterých jsou měřeny proměnné (vz čtatel vzorce) teoretcky se pohybuje od do + COV ( x x )( y = n 1 y ) Varance covarance covarance matrx: matce n x n proměnných (čtverec), kde na úhlopříčce leží varance jednotlvých proměnných, a nad a pod dagonálou leží kovarance párů proměnných ných x a x j

r = Parametrcká korelace (correlaton) měří stupeň nebol těsnost lneární závslost dvou kvanttatvních proměnných Pearsonův korelační koefcent (correlaton coeffcent) ( x n x)( y y) 1 x x y y = 2 2 ( x = x) ( y n s y) 1 1 x sy standardzovaná kovarance nelze rozlšt závslou a nezávslou proměnnou (obě jsou zatíženy chybou) parametrcký výběrový korelační koefcent + je odhadem parametru r je bezrozměrný, nabývá hodnot < 1;+1> Předpoklad užtí: dvourozměrná normální populace (!!!)

Dvourozměrné normální rozdělení Dvourozměrné normální rozdělení pro dvě proměnné Y 1 a Y 2, které jsou slabě korelované. (Qunn & Keough 2002, str. 73) Dvourozměrné normální rozdělení pro dvě proměnné Y 1 a Y 2 které jsouslně slně poztvně korelované.

Jaký význam má korelační koefcent? (A) r>0 0...poztvní ík korelace stoupá X,, stoupá Y (obráceně ě je to zcela totožné) t ((B)(B) r=1... úplná poztvní (determnstcká) korelace) (C) r<0 0... negatvní korelace stoupá X,, klesá Y (= stoupá Y, klesá X) ((D)(D) r= 1 1... úplná negatvní (determnstcká) korelace) (E) r=0 0... nulová korelace (proměnné jsou nekorelované) není lneární vztah mez proměnným A C E r=0.60 B r=1.00 r= 0.80 r= 1.00 r=0.00 D E ALE POZOR!!! r=0.00

r je odhadem: je nutno ho testovat! H 0 : r=0 H A : r 0 t = r 1 r kde s = s r n 2 r = standardní chyba korelačního koefcentu 2 je-l t t α(2),n... zamítáme H (2),n-2 0

r s A co když nemám splněnu podmínku pro užtí param. korelace? Spearmanův pořadový koefcent korelace = 1 n 6 d 2 6 n = 1 3 n (Spearman rank correlaton coeffcent) kde d 2 = rozdíl pořadí mez x a y pracujeme s pořadím nevyžaduje dvourozměrné normální rozdělení nterpretace jako u parametrckého r testování se provádí porovnáním s krtckým hodnotam na zvolené hladně významnost př příslušné velkost souboru (v tabulkách)

Parcální korelace (Parcal correlaton) vyjadřujetěsnost závslost dvouproměnnýchza předpokladu, že další proměnná (proměnné) se nemění umožňuje odfltrovat nterakce mají úzkou souvslost s parcálním regresním koefcenty