Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Podobné dokumenty
Regresní a korelační analýza

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Regresní a korelační analýza

Korelační a regresní analýza

Regresní a korelační analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

Tomáš Karel LS 2012/2013

INDUKTIVNÍ STATISTIKA

Měření závislosti statistických dat

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

LINEÁRNÍ REGRESE. Lineární regresní model

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Tomáš Karel LS 2012/2013

AVDAT Nelineární regresní model

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

4EK211 Základy ekonometrie

Statistika (KMI/PSTAT)

Regresní analýza 1. Regresní analýza

Odhad parametrů N(µ, σ 2 )

Plánování experimentu

Časové řady, typy trendových funkcí a odhady trendů

6. Lineární regresní modely

Časové řady, typy trendových funkcí a odhady trendů

Inovace bakalářského studijního oboru Aplikovaná chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičení ze statistiky - 9. Filip Děchtěrenko

Statistická analýza jednorozměrných dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

odpovídá jedna a jen jedna hodnota jiných

Aplikovaná statistika v R - cvičení 2

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

5EN306 Aplikované kvantitativní metody I

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

4EK211 Základy ekonometrie

( + ) ( ) f x x f x. x bude zmenšovat nekonečně přesný. = derivace funkce f v bodě x. nazýváme ji derivací funkce f v bodě x. - náš základní zápis

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Plánování experimentu

4ST201 STATISTIKA CVIČENÍ Č. 10

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Aplikovaná statistika v R - cvičení 3

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

10. Předpovídání - aplikace regresní úlohy

Lineární regrese. Komentované řešení pomocí MS Excel

Prostorová variabilita

Odhad parametrů N(µ, σ 2 )

Téma 9: Vícenásobná regrese

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

=10 =80 - =

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Úloha 1: Lineární kalibrace

Lineární funkce, rovnice a nerovnice

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Kalibrace a limity její přesnosti

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

vzorek vzorek

Bodové a intervalové odhady parametrů v regresním modelu

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Stavový model a Kalmanův filtr

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Kapitola 10: Diferenciální rovnice 1/14

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

KGG/STG Statistika pro geografy

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

VY_32_INOVACE_M-Ar 8.,9.20 Lineární funkce graf, definiční obor a obor hodnot funkce

4EK211 Základy ekonometrie

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Regresní analýza. Eva Jarošová

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Kalibrace a limity její přesnosti

4EK211 Základy ekonometrie

2.8.6 Parametrické systémy funkcí

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

2.2 Kalibrace a limity její p esnosti

Transkript:

Regrese používáme tehd, jestliže je vsvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Specifikace modelu = a + bx a závisle proměnná b x vsvětlující proměnná

Cíl analýz Odhadnout hodnot parametrů a a b Odhadnout standardní chb parametrů Použít standardní chb k odhadu, které parametr modelu jsou důležité Odhadnout, jaká část rozptlu dat je Odhadnout, jaká část rozptlu dat je modelem vsvětlena (určení koeficientu determinace r )

Prvý krok: explorace dat Mají data sestupný či vzestupný trend? Pokud takový trend existuje, je lineární či nelineární? Je rozptl dat kolem modelu homogenní, a nebo se sstematick mění s hodnotou x?

Závislost váh housenek na obsahu taninu Váhov vý přírůstek (mg) 1 1 4 6 8 Obsah taninu (%)

Závislost váh housenek na obsahu taninu klesá s rostoucí x trend je lineární rozptl se sstematick nemění s hodnotou x 1 1 4 6 8 O bsah taninu (% )

Závislost váh housenek na obsahu taninu: očekávání průsečík a je větší než nula sklon b je negativní rozptl kolem je konstantní a relativně malý 1 1 4 6 8 O bsah taninu (% )

Metoda nejmenších čtverců Slouží k definici přímk nejlepší shod, která minimalizuje sumu čtverců odchlek hodnot od přímk nejlepší shod 1 1 4 6 8 O bsah taninu (% )

Předpoklad modelu Chb jsou omezené na závisle proměnnou ; jsou nezávislé na úrovni vsvětlující proměnné x; mají normální rozložení Rozptl je homogenní

Metoda nejmenších čtverců Slouží k definici přímk nejlepší shod, která minimalizuje sumu čtverců odchlek hodnot od přímk nejlepší shod 1 1 4 6 8 O bsah taninu (% )

1 Metoda nejmenších čtverců SST ( ) = 1 1 1 d = 4 6 8 4 6 8 Obsah taninu (%)

1. Kde b měla být umístěna?. Jaký b měla mít sklon? Přímka nejlepší shod Umístění: přímka nejlepší shod b měla procházet průměrnými hodnotami x a : Sklon: přímka b měla být otáčena kolem bodu x, až do dosažení sklonu nejlepší shod: Váhový přírůste ek (mg) 1 1 x 6 8 Obsah taninu (%)

Váhový přírůste ek (mg) = a + a = SSE SSE 1 1 Přímka nejlepší shod: formalizace bx b n a = = min min n x e = x = n x n ( a bx) b e = Sklon nejlepší shod b se získá derivací rovnice pro SSE x = a + bx 6 8 Obsah taninu (%)

Sklon nejlepší shod: výpočet hledáme funkci, která minimalizuje hodnotu b v rovnici derivujeme rovnici podle b: dsse db = x( a bx) SSE ( a bx) = min dsse db = ( x ax bx ) konstantu dáme před závorku a čísla v závorce násobíme x: sumujeme každý člen zvlášť, nalézáme minimum funkce tím, že pokládáme derivaci podle b rovnou nule a zbavujeme se konstant tím, že obě stran rovnice dělíme dvěma: x ax bx = rovnici nemůžeme přímo řešit, protože obsahuje dvě neznámé, a a b. Hodnotu a jsme si však již definovali rovnicí x a = b n n dosazením za a a přepsáním ax = a x, bx = b x dostaneme: x b x b x = x n n ( ) x x x b x = n x x = b n ( ) x x : n násobením členů v závorce x x + b n obě člen obsahující b dáme na stejnou stranu rovnice: odhad b získáme vdělením obou stran rovnice x x = n b ( x) x n x b ( x) n

přírůstek (mg) Váhový 1 1 1 a 1 Přímka nejlepší shod: význam b = SSXY SSX d = e = SSE = min = a + bx SST 4 6 8 b ( ) = ( a bx) x 6 8 Obsah taninu (%)

Metoda nejmenších čtverců: tři důležité vzorce SST = ( ) n ( x) SSX = x n = x SSXY x n SST měří celkový rozptl hodnot kolem průměru ru (rozptl d) SSX měří stejným způsobem rozptl hodnot x kolem průměru x; měří rozsah hodnot x regresního grafu SSXY měří korelaci hodnot x a. SSXY je negativní, pokud klesá s rostoucí hodnotou x; je pozitivní, pokud roste s x; je nula, pokud a x nejsou korelované

Testování významnosti Test je založen na standardních chbách parametrů Standardní chb závisejí na rozptlu chb a na stupních volnosti 1 1 4 6 8 O bsah taninu (% )

Standardní chba regresního sklonu Naše důvěra v odhadnutou hodnotu regresního sklonu bude velká, kdž: budeme mít velký počet opakování; budeme mít velký rozsah hodnot x (SSX bude veliká); rozptl chb bude malý. 1 1 4 6 8 O bsah taninu (% )

přírůstek (mg) Váhový 1 1 1 a 1 Standardní chba regresního sklonu Jaká b sklon bla statistick relativní průkazně d = hodnota nelišil d a od e nul?, kdb se 4 6 8 e = ležet na přímce, bude SST=SSE Jaká je hodnota, kdž se sklon statistick průkazně liší od nul? (Konkrétně, je průkazně negativní?) SSE<SST V hraničním případě, kd budou všechn bod SSE= x 6 8 Obsah taninu (%)

Standardní chba regresního sklonu: regresní suma čtverců SSR = SST SSE SSR bude veliká, jestliže fitovaná přímka vsvětlí velkou část variabilit SSR bude malá, pokud lineární trend bude málo patrný SSR se bude rovnat SST, pokud bude shoda regresní přímk s fitovanými dat dokonalá, protože SSE bude nulová. SSR bude nulová, jestliže bude nezávislé na x 1 1 4 6 8 O bsah taninu (% )

ANOVA tabulka lineární regrese Zdroj SS d.f. MS F-test P Regrese SSR 1 SSR SSR Tabulk Chba SSE n - Celkem SST n - 1 s = SSE n s

Výpočet regresní sum čtverců Tento výpočet je nepraktický; lépe je nejprve spočítat SSR = b.ssx (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vdání, s. 47-476) a pak SSE podle vztahu: SSE = SST - SSR 1 1 4 6 8 O bsah taninu (% )

SE b = Standardní chba regresního sklonu b s (odvození viz Sokal a Rohlf, Biometr, 1994, SSX 3. vd., s. 47-476) standardní chba roste s rostoucí hodnotou chbového rozptlu standardní chba klesá, jestliže roste rozsah hodnot, přes které bla měřena hodnota x; to dává dobrý intuitivní smsl čím větší rozsah hodnot x bl pokrt, tím důvěrhodnější bude odhad sklonu 1 1 4 6 8 O bsah taninu (% )

Interval spolehlivosti (konfidenční interval CI) regresního sklonu CI b = t tabulk SE b (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vd., s. 17-17) Pro normální rozložení to je hodnota z tabulek t-testu, pro dvoustranou hpotézu na % hladině významnosti to je α =,. 1 1 4 6 8 O bsah taninu (% )

SE a = Standardní chba průsečíku a s x (odvození Sokal a Rohlf, Biometr, 1994, 3. vd., nssx s. 47-476) standardní chba a má ted stejné závislosti jako standardní chba b, ale navíc závisí na: 1. Čtverci vzdálenosti mezi mezi průměrnou hodnotou x a hodnotou bodu, pro kterou je predikce dělána; důvěra v predikci klesá se vzdáleností od průměrné hodnot,tj. s ( x x). Střední chba průsečíku klesá s rostoucím počtem bodů na grafu, tj. s hodnotou n. 1 1 4 6 8 O bsah taninu (% )

Interval spolehlivosti (konfidenční interval CI) průsečíku CI a = t tabulk SE a (odvození viz Sokal a Rohlf, Biometr, 1994, 3. vd., s. 17-17) Pro normální rozložení to je hodnota z tabulek t-testu, pro dvoustranou hpotézu na % hladině významnosti to je α =,. 1 1 4 6 8 O bsah taninu (% )

Standardní chba libovolné předvídané hodnot ( x x) 1 (odvození Sokal a Rohlf, Biometr, 1994, 3. SE = s + n SSX vd., s. 47-476) standardní chba průsečíku je ted jen speciálním případem standardní chb libovolné předvídané hodnot pro x = 1 1 4 6 8 O bsah taninu (% )

Lineární regrese: numerický příklad Tanin (%) x 1 3 4 6 7 8 Váhový přírůstek (mg) 1 1 8 11 6 7 3 3 X = 36, X = 4, Y = 6, Y = 36, XY = 17 ( XY je (x1)+(1x1)+ +(8x3) = 17 1 1 4 6 8 O bsah taninu (% )

Lineární regrese: numerický příklad X = 36, X = 4, Y = 6, Y = 36, XY = 17 ( XY je (x1)+(1x1)+ +(8x3) = 17 b = SSXY SSX = 1,1666 6 SST = 36 = 18,889 9 a = bx = 11,7 36 6 36 SSX = 4 = 6 = = 6,889; x = = 4, 9 9 9 36x6 SSR = b. SSXY = 1,167 x( 73) = 88,8 SSXY = 17 = 73 SSE = SST SSR = 18,89 88,8 =,7 9 7 1 1 4 6 8 O bsah taninu (% )

ANOVA tabulka lineární regrese Zdroj SS d.f. MS F-test P Regrese 88,8 1 88,8 3,98,8 Chba,7 7,867 Celkem 18,89 8

Střední chb sklonu a průsečíku s,867 SE b = = =,186 SSX 6 s x SE a = nssx,867x4 9x6 = = 1,41 CI b = t tabulk SE b =,867,36 =,47 6,867 x4 CI a = t tabulk SE a =,36 9x6 =,463 1 1 4 6 8 O bsah taninu (% )

9% CI parametrů a a b a = 11,76 ±,463 b = -1,17 ±,47 1 1 4 6 8 O bsah taninu (% )

Stupeň roztroušenosti (scatter) Data mohou mít stejný sklon přímk nejlepší shod (PNS), ale velmi různý stupeň roztroušenosti kolem této přímk Vedle sklonu PNS je potřeba definovat, jakou část variabilit tato přímka vsvětluje PNS vsvětluje skoro všechen rozptl PNS vsvětluje velmi málo rozptlu PNS vsvětluje všechen rozptl PNS nevsvětluje žádný rozptl x

Měřítko stupně roztroušenosti Mělo b nabývat hodnot mezi nulou a jednou. Lze ho definovat jako část SST, vsvětlené modelem. Přitom víme, že SSE je variabilita, která nebla vsvětlena modelem a SSR je variabilita vsvětlená modelem. Měřítko roztroušenosti se nazývá koeficient determinace r a je dán jako poměr SSR a SST: r = SSR SST

Stupeň roztroušenosti (scatter) SSE = SSR = SST r = 1 SSE = SST r = x r je korelační koeficient: SSXY r = SSX. SST (odvození Sokal a Rohlf, 1994, 3. vd., 9-66)

Regrese v S-Plus 1. Seznámení s dat. Navržení modelu 3. Fitování modelu 4. Kritika modelu. Analýza odlehlých hodnot 6. Zjednodušení modelu

Prvý krok: explorace dat Mají data sestupný či vzestupný trend? Pokud takový trend existuje, je lineární či nelineární? Je rozptl dat kolem modelu homogenní, a nebo se sstematick mění s hodnotou x? 1 1 4 6 8 O bsah taninu (% )