Regresní a korelační analýza

Podobné dokumenty
Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistika (KMI/PSTAT)

Normální (Gaussovo) rozdělení

INDUKTIVNÍ STATISTIKA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Tomáš Karel LS 2012/2013

Normální (Gaussovo) rozdělení

LINEÁRNÍ REGRESE. Lineární regresní model

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Aplikovaná matematika I

Stručný úvod do testování statistických hypotéz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Bodové a intervalové odhady parametrů v regresním modelu

Regresní analýza 1. Regresní analýza

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Inovace bakalářského studijního oboru Aplikovaná chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Korelační a regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Testy statistických hypotéz

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

PRAVDĚPODOBNOST A STATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 10

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Statistická analýza jednorozměrných dat

odpovídá jedna a jen jedna hodnota jiných

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Kalibrace a limity její přesnosti

Tomáš Karel LS 2012/2013

MATEMATIKA III V PŘÍKLADECH

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Kalibrace a limity její přesnosti

PRAVDĚPODOBNOST A STATISTIKA

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Kanonická korelační analýza

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE

Plánování experimentu

Kontingenční tabulky, korelační koeficienty

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Regresní analýza. Eva Jarošová

Odhad parametrů N(µ, σ 2 )

Testování statistických hypotéz

Pearsonův korelační koeficient

Tvorba grafů v programu ORIGIN

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

UNIVERZITA PARDUBICE

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

6. Lineární regresní modely

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Úloha 1: Lineární kalibrace

Aplikovaná statistika v R - cvičení 3

SEMESTRÁLNÍ PRÁCE X. Aproximace křivek Numerické vyhlazování

KGG/STG Statistika pro geografy

Kontingenční tabulky, korelační koeficienty

Měření závislosti statistických dat

Aplikovaná statistika v R - cvičení 2

Cvičení ze statistiky - 3. Filip Děchtěrenko

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

UNIVERZITA PARDUBICE

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Odhad parametrů N(µ, σ 2 )

Korelace. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

12. cvičení z PST. 20. prosince 2017

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

PRAVDĚPODOBNOST A STATISTIKA

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Lineární regrese. Komentované řešení pomocí MS Excel

10. Předpovídání - aplikace regresní úlohy

6. Lineární regresní modely

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Neparametrické metody

4EK211 Základy ekonometrie

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Kalibrace a limity její přesnosti

Transkript:

Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x). Hendl, J. (2014). Statstia v apliiacích. Praha: Portál.

Metody zpracování naměřených závislostí 1. Funkce, která v uzlových bodech x i nabývá zadané hodnoty y i. Interpolace pro x z intervalu (x min, x max ) Extrapolace pro x mimo interval (x min, x max ) 2. Funkce, která uzlovými body obecně neprochází. Aproximace - neznáme typ funkční závislosti y = f(x) Regrese - známe typ funkční závislosti y = f(x) - cílem je určit z naměřených dat parametry f(x) tak, aby funkce co nejlépe vystihla naměřenou závislost Při regresi je funkční závislost předem daná např. teoretickým vztahem, kdežto aproximační funkce bývá volena bez hlubšího fyzikálního významu. Hendl, J. (2014). Statstia v apliiacích. Praha: Portál.

Metoda nejmenších čtverců Přímým měřením získáme dvojic veličin [x i, y i ], které v kartézské soustavě os x, y můžeme znázornit jako bodový graf. Předpokládejme, že mezi x a y existuje funkční vztah y = f(x) známého tvaru. Pokud by při měření nevznikaly náhodné chyby, pak by všechny body [x i, y i ] ležely na křivce y = f(x). Ve skutečnosti však platí y i = f(x i ) + ε i, kde ε i je náhodná chyba i-tého měření. Body [x i, y i ] jsou rozptýleny kolem hledané regresní křivky, která má být co nejvěrnějším obrazem funkce y = f(x). Hledáme tedy takové parametry a, b, c, (tzv. regresní koeficienty) daného typu funkce y = f(x; a, b, c, ), aby se její průběh co nejvíce přimykal k zadaným bodům [x i, y i ]. (Rektorys, 1981) Rektorys, K. Přehled užité matematky. 4., nezm. vyd. (1981) Praha: STL.

Metoda nejmenších čtverců

Metoda nejmenších čtverců Hledáme kritérium přiléhavosti regresní křivky k experimentálním bodům. ejvěrohodnější je tzv. reziduální (zbytkový) součet čtverců. S = resid. (Rektorys, 1981) ( y i f (x i ) ) 2 Rektorys, K. Přehled užité matematky. 4., nezm. vyd. (1981) Praha: STL.

Metoda nejmenších čtverců Hledáme takové parametry a, b, c, (tzv. regresní koeficienty) daného typu funkce y = f(x; a, b, c, ), aby se její průběh co nejvíce přimykal k zadaným bodům [x i, y i ]. Tzn., že hledáme tedy takové parametry a, b, c, které by minimalizovaly zbytkový součet čtverců. S resid. a = 0, S resid. b = 0, S resid. c = 0,... ejběžnější regresní metoda se proto nazývá (Rektorys, 1981) metoda nejmenších čtverců. Rektorys, K. Přehled užité matematky. 4., nezm. vyd. (1981) Praha: STL.

Lineární regrese 1 proměnné Ukažme si proložení přímky y = a + bx naměřenými body [x i, y i ] metodou nejmenších čtverců. Reziduální součet čtverců odchylek je S = resid. Hledáme takové y i f x i 2 = y i a b x i 2 a a b, aby rez. součet čtverců byl minimální. S resid. ^a = 2 ( y i ^a ^b x i )= 2( y i ^a ^b x i )=0 S resid. a = 2 y i a x i b x i = 2 x i y i a x i b x i 2 =0 (Rektorys, 1981) Rektorys, K. Přehled užité matematky. 4., nezm. vyd. (1981) Praha: STL.

=LIREGRESE OOa Calc i MS Excel nabízí několik funkcí počítajících parametry lineární regrese. ejlepší je =LIREGRESE(DataY;DataX;Typ;Parametr) Výstup funkce LIREGRESE: (odhad parametru b) (odhad parametru a) (odhad chyby parametru b) (odhad chyby parametru a) (koeficient determinace*) (chyba odhadu) F (F-statistika**) df (počet stupňů volnosti) S t - S r (rozdíl celkové a reziduální S r (reziduální suma čtverců odchylek*) sumy čtverců odchylek*)

Regresní model Kvalita zvoleného regresního modelu (tj. vhodnost vybrané regresní funkce a odhad jejích výběrových regresních koeficientů) se testuje. Výchozí veličinou je při tom reziduální součet čtverců S resid. (červeně), pomocnou celkový součet čtverců S t (modře). S resid. = S = t y i f x i 2 y i 1 2 y i Koeficient determinace r 2 = 1 S resid. S t r 2 > 0,95 se často považuje za dobré kritérium pro přijetí zvoleného modelu (Rektorys, 1981) Rektorys, K. Přehled užité matematky. 4., nezm. vyd. (1981) Praha: STL.

Korelační analýza Při korelační analýze prověřujeme existenci závislosti mezi x a y a těsnost této závislosti. Budeme předpokládat lineární závislost mezi dvěma veličinami. Při testování existence lineárního vztahu mezi proměnnými se používá odmocnina z koeficientu determinace r 2, která se nazývá Pearsonův korelační koeficient r. Korelační koeficient se počítá pomocí funkce =CORREL() nebo ze vztahu: (Meloun & Militký, 2013) r= x i x y 1 y x i x 2 y i y 2 Meloun, M., Militký, J. (2013). Kompendium statstciého zpracování dat. Praha: Karolinum.

Pearsonův korelační koeficient Korelační koeficient může nabývat hodnot od -1 do 1. Čím více se r blíží 1, tím těsnější je závislost. Je-li r = 1, body x,y, leží na přímce, je-li r = 0, mezi body není žádný lineární vztah. Je-li r > 0, s rostoucím x roste i y, je-li r < 0, s rostoucím x naopak y klesá. Zdůrazněme, že korelační koeficient detekuje lineární závislost. (Wikitedie, 2017) Korelace (2017, December 23). Retrieved from htts://cs.wikitedia.org/wiki/korelace

Záludnosti korelačního koeficientu 1) Je citlivý na odlehlé hodnoty.

Záludnosti korelačního koeficientu 2) Detekuje pouze lineární závislost. 3) Korelace neznamená příčinnou souvislost.

Test korelačního koeficientu Ukázali jsme, že korelační koeficient popisuje těsnost korelace mezi proměnnými x a y. Pokusme se nyní zjistit, jestli mezi proměnnými existuje vůbec nějaká (byť velmi slabá) souvislost. a začátku předpokládáme, že je korelační koeficient nulový (lineární závislost mezi x a y neexistuje). (Meloun & Militký, 2013) Testovací kritérium: t= r 1 r 2 2 Kritickou hodnotou t 1-α (-2) jsou kvantily Studentova rozdělení s -2 stupni volnosti pro zvolenou hladinu významnosti a, které najdeme ve statistických tabulkách nebo vypočítáme pomocí funkce =T.IV.T2(α,-2) Meloun, M., Militký, J. (2013). Kompendium statstciého zpracování dat. Praha: Karolinum.