Regresní analýza. Eva Jarošová

Podobné dokumenty
LINEÁRNÍ REGRESE. Lineární regresní model

Inovace bakalářského studijního oboru Aplikovaná chemie

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Regresní analýza 1. Regresní analýza

Úvodem Dříve les než stromy 3 Operace s maticemi

Korelační a regresní analýza

odpovídá jedna a jen jedna hodnota jiných

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Semestrální práce. 2. semestr

Regresní a korelační analýza

Tomáš Karel LS 2012/2013

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Regresní a korelační analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Regresní a korelační analýza

4EK211 Základy ekonometrie

Ilustrační příklad odhadu LRM v SW Gretl

Kalibrace a limity její přesnosti

4EK211 Základy ekonometrie

Bodové a intervalové odhady parametrů v regresním modelu

Úloha 1: Lineární kalibrace

Statistika (KMI/PSTAT)

Příloha č. 1 Grafy a protokoly výstupy z adstatu

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Tvorba lineárních regresních modelů při analýze dat

Tomáš Karel LS 2012/2013

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

Kalibrace a limity její přesnosti

Regresní a korelační analýza

KGG/STG Statistika pro geografy

Národníinformačnístředisko pro podporu jakosti

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Kalibrace a limity její přesnosti

Statistika II. Jiří Neubauer

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

PRAVDĚPODOBNOST A STATISTIKA

Ekonometrie. Jiří Neubauer

4EK211 Základy ekonometrie

Semestrální práce. 2. semestr

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Diagnostika regrese pomocí grafu 7krát jinak

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Jednofaktorová analýza rozptylu

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Lineární regrese. Komentované řešení pomocí MS Excel

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

S E M E S T R Á L N Í

INDUKTIVNÍ STATISTIKA

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Tvorba nelineárních regresních

Univerzita Pardubice

UNIVERZITA PARDUBICE

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Tvorba nelineárních regresních modelů v analýze dat

2.2 Kalibrace a limity její p esnosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Bodové a intervalové odhady parametrů v regresním modelu

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

6. Lineární regresní modely

You created this PDF from an application that is not licensed to print to novapdf printer (

Plánování experimentu

Statistická analýza jednorozměrných dat

Průzkumová analýza dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

http: //meloun.upce.cz,

Statistická analýza jednorozměrných dat

KORELACE. Komentované řešení pomocí programu Statistica

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Způsobilost systému měření podle normy ČSN ISO doc. Ing. Eva Jarošová, CSc.

Tvorba nelineárních regresních modelů v analýze dat

Transkript:

Regresní analýza Eva Jarošová 1

Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2

1. Regresní přímka 3

nosnost Jednoduchá regrese Studium závislosti jedné numerické veličiny (měřitelné na spojité stupnici) na jiné numerické veličině Scatterplot of nosnost vs průměr 1300 1200 Zkoumání existence vztahu Popis vztahu pomocí modelu Odhad (předpověď ) 1100 1000 900 800 700 Kalibrace 600 190 200 210 220 230 průměr 240 250 260 270 Hledání optimálních podmínek 4

Původ pojmu regrese Francis Galton zkoumání závislosti výšky synů na výšce otců y výška syna x výška otce y i = 74 + 0,58 x i y i - 170,8 = 0,58 ( x i - 166 ) x = 176 y = 176,6 x = 156 y = 165 5

Regresní model y i i i střední hodnota proměnné Y v bodě x i funkce proměnné X chyba (náhodná složka) projev vlivů v modelu neuvažovaných Model regresní přímky y x i 0 1 i i 6

Interpretace parametrů ( x 1) 0 1 1 x 0 1 0 0 x x 1 7

nosnost Odhad parametrů 1300 Fitted Line Plot nosnost = - 569,5 + 6,898 průměr vyrovnaná hodnota pozorovaná hodnota 1200 1100 1000 900 800 700 600 190 200 210 220 230 průměr 240 250 260 270 pozorovaná hodnota - vyrovnaná hodnota = reziduum minimum reziduálního součtu čtverců 8

Metoda nejmenších čtverců Reziduální součet čtverců (část variability závisle proměnné, která není vysvětlena modelem) n n n 2 2 2 R i i i i 0 1 i i 1 i 1 i 1 S e (y Y ) (y b b x ) Hledání b 0 a b 1 tak, aby S R byl minimální S b R 0 0 S b R 1 0 Normální rovnice y nb b x i 0 1 i 2 i i 0 i 1 i x y b x b x 9

Odhad parametrů b n x y x y i i i i 1 2 2 n xi xi b y i 0 b1 n n x i S x i y i xy i i 190 680 129200 36100 200 800 160000 40000 209 780 163020 43681 215 885 190275 46225 215 975 209625 46225 215 1025 220375 46225 230 1100 253000 52900 250 1030 257500 62500 265 1175 311375 70225 250 1300 325000 62500 2239 9750 2219370 506581 2 x i 10

Výstup v Minitabu průměr 11

nosnost Graf regresní přímky Fitted Line Plot nosnost = - 569,5 + 6,898 průměr 1300 1200 S 99,9008 R-Sq 75,8% R-Sq(adj) 72,8% 1100 1000 900 800 700 600 190 200 210 220 230 průměr 240 250 260 270 Nosnost svaru v závislosti na průměru, Duncan (1965) 12

pruhyb Přímka procházející počátkem 100 Plot of Fitted Model 80 60 40 20 0 0 2 4 6 8 10 12 síla Určení modulu pružnosti plastické hmoty, Hátle, Likeš (1972) 13

Kvalita modelu, koeficient determinace celková variabilita proměnné Y (celkový součet čtverců) y n S (y y) i 1 i 2 variabilita proměnné Y vysvětlená modelem (teoretický součet čtverců) T n S (Y y) i 1 i 2 nevysvětlená část variability reziduální součet čtverců Platí S S S y T R n S (y Y ) R i i i 1 2 koeficient determinace (model s konstantou) R S S hodnoty z intervalu < 0 ; 1 > 2 T y 14

Výstup v Minitabu průměr 15

Kvalita modelu, směrodatná chyba odhadu průměr s S R n p 16

Odhad, předpověď Bodový odhad pro průměr 220 Y = -569,5 + 6,898 220 = 948,1 odhad střední hodnoty nosnosti při průměru 220 odhad nosnosti při průměru 220 17

nosnost Intervalový odhad Fitted Line Plot nosnost = - 569,5 + 6,898 průměr 1500 1250 Regression 95% CI 95% PI S 99,9008 R-Sq 75,8% R-Sq(adj) 72,8% 1000 750 500 190 200 210 220 230 průměr 240 250 260 270 18

2. Možnosti zlepšení modelu 19

Příčiny nízké hodnoty koeficientu determinace Nevhodně zvolená vysvětlující proměnná (závislost neexistuje nebo je slabá) Nevhodně zvolený tvar modelu (závislost existuje, ale není lineární) Nejsou zařazeny všechny důležité vysvětlující proměnné (je třeba hledat další proměnné, které mají vliv na Y) 20

Neexistující závislost Cena notebooku vs hmotnost Y = 16 315 + 210 x R 2 = 0,0004 21

dráha Nevhodný tvar modelu Fitted Line Plot dráha = - 20,13 + 3,142 rychlost 140 120 S 11,7687 R-Sq 87,8% R-Sq(adj) 87,6% 100 80 60 40 20 0 0 10 20 rychlost 30 40 22

Další modely lineární z hlediska parametrů ln x 0 1 1 0 1 x x x 0 1 2 2 x x x 2 3 0 1 2 3 x Modely po transformaci, např. 0 1 ln ln xln 0 1 23

Regresní parabola x 0 1 2 x 2 jedna vysvětlující proměnná v lineárním a kvadratickém tvaru speciální případ regresního polynomu ačkoli regresní funkce obsahuje kvadratický člen, je lineární v parametrech odhad parametrů metodou nejmenších čtverců 24

dráha Regresní parabola 140 120 100 80 60 40 20 0 Y 1,580 0,4161x 0,06556x Fitted Line Plot dráha = 1,580 + 0,4161 rychlost + 0,06556 rychlost**2 S 9,92696 R-Sq 91,4% R-Sq(adj) 91,2% 2 zlepšení R 2 z 87,8 % na 91,4 % 0 10 20 rychlost 30 40 Y b b x b x 0 1 2 2 25

Nejsou zařazeny důležité vysvětlující proměnné Y 6,9595 0,2429x 1 Y 0,7559 0,20013 x1 0,0039693 x2 2 R 17,5 % R 86,9 % 2 26

Porovnání modelů s různým počtem parametrů Upravený koeficient determinace 2 2 n 1 Radj 1 (1 R ) n p x 1 : R 2 adj = 14,4 % p počet parametrů modelu x 1, x 2 R 2 adj = 85,9 % 27

3. Testy v regresním modelu 28

Ověření existence závislosti model y x i 0 1 i i t-test Testovaná hypotéza H 0 : (Y nezávisí na X) 1 0 Alternativní hypotéza H 1 : (Y závisí na X) 1 0 29

Testová statistika Postup při t-testu t b j s(b ) j směrodatná chyba odhadu, vyjadřuje přesnost odhadu Kritický obor W { t : t t 1 / 2 } Platí-li t t, zamítneme H 0. 1 / 2 t 1 / 2 kvantil t-rozdělení s (n p) stupni volnosti, n je rozsah výběrového souboru p je počet parametrů modelu (u přímky p = 2) 30

Využití p-hodnoty P-hodnota pravděpodobnost, že při platnosti testované hypotézy H 0 nabude testová statistika hodnoty svědčící ještě více v neprospěch H 0 než vypočtená hodnota testové statistiky Je-li p-hodnota menší než, H 0 zamítneme na hladině významnosti. Výhoda používání p-hodnoty: Ihned vidíme, jak silný důkaz proti platnosti H 0 máme. 0, 01 p 0, 05 slabší důkaz 0,001 p 0, 01 silnější důkaz p 0, 001 silný důkaz 31

Výstup v Minitabu průměr 32

Ověření existence závislosti model y x x i 0 1 i1 2 i2 i F-test Testovaná hypotéza H 0 : 1 2 0 (Y nezávisí na žádné z vysvětlujících proměnných) Alternativní hypotéza H 1 : non H 0 (Y závisí alespoň na jedné z vysvětlujících proměnných) 33

Testová statistika Postup při F-testu ST p 1 SR n p p počet parametrů (zde p = 3 ) n rozsah výběrového souboru) F Kritický obor W { F : F F 1 } Platí-li F F 1, zamítneme H 0. F 1 - kvantil F rozdělení s (p 1) a (n p) stupni volnosti 34

Výstup v Minitabu 35

4. Regresní diagnostika 36

proud_o Zkoumání vhodnosti tvaru regresní funkce 120 100 Fitted Line Plot proud_o = - 105,7 + 17,44 prasnost_o S 5,43780 R-Sq 98,2% R-Sq(adj) 98,1% 80 60 40 20 0 6 7 8 9 prasnost_o 10 11 12 Odlučovač popílku, opakovaná data 37

residual Graf rezidua vs vysvětlující proměnná 8 Residual Plot proud = -105,708 + 17,4394*prasnost 4 0-4 -8 6 7 8 9 10 11 12 prasnost 38

residual Rezidua vs vysvětlující proměnná 8 Residual Plot proud = -96,0775 + 16,5851*prasnost 5 2-1 -4-7 6 7 8 9 10 11 12 prasnost 39

proud Zkoumání vhodnosti tvaru regresní funkce Fitted Line Plot proud = - 96,08 + 16,59 prasnost 100 80 S 3,31370 R-Sq 99,2% R-Sq(adj) 99,1% 60 40 20 0 6 7 8 9 prasnost 10 11 12 Kalibrace filtru v odlučovači popílku, Vaněk 40

proud Volba jiné regresní funkce Fitted Line Plot proud = - 28,95-0,363 prasnost + 1,006 prasnost**2 100 80 S 2,22604 R-Sq 99,7% R-Sq(adj) 99,6% 60 40 20 0 6 7 8 9 prasnost 10 11 12 41

residual Rezidua vs vysvětlující proměnná 4,3 Residual Plot 2,3 0,3-1,7-3,7 6 7 8 9 10 11 12 prasnost 42

Ověření předpokladů o náhodné složce Konstantní rozptyl (homoskedasticita) Nezávislost Normalita Důsledky zanedbání předpokladů vliv na přesnost odhadů na spolehlivost intervalového odhadu závěry t-testů a F-testu 43

residual Heteroskedasticita 8 Residual Plot proud = -105,708 + 17,4394*prasnost 4 0-4 -8 6 7 8 9 10 11 12 prasnost 44

Heteroskedasticita Zjišťování heteroskedasticity Grafy reziduí Testy (Bartlett, Levene, Glejser, Goldfeld-Quandt, Breusch-Pagan, ) Opatření Transformace, např. logaritmická Vážená metoda nejmenších čtverců 45

Residual ztráty Autokorelace Fitted Line Plot ztráty = 50,44 + 4,249 rok + 0,2311 rok**2 450 400 350 S 10,4268 R-Sq 99,1% R-Sq(adj) 99,1% Graf reziduí 300 250 200 50 Residuals Versus the Order of the Data (response is ztráty) 150 100 40 30 20 50 10 0 5 10 15 rok 20 25 30 35 0-10 -20 Ztráty při výrobě vody v letech 1953 1983, Zvára (1989) -30-40 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 Durbin-Watsonův test 46

Residual výroba Autokorelace Fitted Line Plot výroba = 327,7 + 20,31 rok + 0,7519 rok**2 1750 1500 S 15,1551 R-Sq 99,9% R-Sq(adj) 99,9% Residuals Versus the Order of the Data (response is výroba) 100 1250 1000 50 750 0 500-50 0 5 10 15 rok 20 25 30 35-100 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 47

ztráty Residual Autokorelace Fitted Line Plot ztráty = - 42,34 + 0,2633 výroba 400 S 9,26088 R-Sq 99,3% R-Sq(adj) 99,3% 20 Residuals Versus the Order of the Data (response is ztráty) 300 10 200 0 100-10 -20 0 500 750 1000 výroba 1250 1500 1750 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 Závislost ztrát na výrobě vody, Zvára (1989) Opatření: transformace (Cochran Orcutt) 48

ISC Longitudinální data Speciální případ závislosti (kromě autokorelace ještě závislost pozorování náležejících stejné jednotce) 5 4 3 2 1 2 3 čas Degradace solárních článků, Kenett, Zacks (1998) Lineární model s náhodnými efekty 49

Percent Nesplněný předpoklad normálního rozdělení 99 Normal Probability Plot of the Residuals (response is ztráty) 95 90 80 70 60 50 40 30 20 10 5 1-20 -10 0 Residual 10 20 Testy normality: např. Shapiro-Wilk Opatření: Transformace Zobecněný lineární model (gama model, logistická regrese) 50

nosnost Odlehlá a vlivná pozorování Fitted Line Plot nosnost = 285,5 + 2,958 průměr 1300 1200 S 164,489 R-Sq 27,5% R-Sq(adj) 19,4% 1100 1000 900 800 700 600 200 220 240 průměr 260 280 300 Nosnost svaru, přidáno (300;900) 51

y y Důsledky přítomnosti vlivného pozorování Fitted Line Plot y = 0,1962 + 0,000811 body_wt Fitted Line Plot y = 0,1330 + 0,2346 dose 0,6 S 0,0899863 R-Sq 2,3% R-Sq(adj) 0,0% 0,6 S 0,0886433 R-Sq 5,2% R-Sq(adj) 0,0% 0,5 0,5 0,4 0,4 0,3 0,3 0,2 140 150 160 170 body_wt 180 190 200 0,2 0,70 0,75 0,80 0,85 dose 0,90 0,95 1,00 52

53

54

55

56

5. Speciální využití 57

DOE Odezvové plochy hledání optimálních podmínek y x x x x x x 2 2 0 1 1 2 2 12 1 2 11 1 22 2 Surface Plot of y vs x2; x1 8 y 6 4 32 34 340 36 x1 38 350 360 x2 Chutnost koláče v závislosti na době a teplotě pečení, Weisberg (2005) 58

Y Kalibrace 100 Plot of Fitted Model 80 = (-6,0889 + 1,42606*prasnost)^2 80 80,0 60 40 20 0 6 7 8 9 10 11 12 X 10,5418 (9,94168;11,1846) 59