Regresní analýza Eva Jarošová 1
Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2
1. Regresní přímka 3
nosnost Jednoduchá regrese Studium závislosti jedné numerické veličiny (měřitelné na spojité stupnici) na jiné numerické veličině Scatterplot of nosnost vs průměr 1300 1200 Zkoumání existence vztahu Popis vztahu pomocí modelu Odhad (předpověď ) 1100 1000 900 800 700 Kalibrace 600 190 200 210 220 230 průměr 240 250 260 270 Hledání optimálních podmínek 4
Původ pojmu regrese Francis Galton zkoumání závislosti výšky synů na výšce otců y výška syna x výška otce y i = 74 + 0,58 x i y i - 170,8 = 0,58 ( x i - 166 ) x = 176 y = 176,6 x = 156 y = 165 5
Regresní model y i i i střední hodnota proměnné Y v bodě x i funkce proměnné X chyba (náhodná složka) projev vlivů v modelu neuvažovaných Model regresní přímky y x i 0 1 i i 6
Interpretace parametrů ( x 1) 0 1 1 x 0 1 0 0 x x 1 7
nosnost Odhad parametrů 1300 Fitted Line Plot nosnost = - 569,5 + 6,898 průměr vyrovnaná hodnota pozorovaná hodnota 1200 1100 1000 900 800 700 600 190 200 210 220 230 průměr 240 250 260 270 pozorovaná hodnota - vyrovnaná hodnota = reziduum minimum reziduálního součtu čtverců 8
Metoda nejmenších čtverců Reziduální součet čtverců (část variability závisle proměnné, která není vysvětlena modelem) n n n 2 2 2 R i i i i 0 1 i i 1 i 1 i 1 S e (y Y ) (y b b x ) Hledání b 0 a b 1 tak, aby S R byl minimální S b R 0 0 S b R 1 0 Normální rovnice y nb b x i 0 1 i 2 i i 0 i 1 i x y b x b x 9
Odhad parametrů b n x y x y i i i i 1 2 2 n xi xi b y i 0 b1 n n x i S x i y i xy i i 190 680 129200 36100 200 800 160000 40000 209 780 163020 43681 215 885 190275 46225 215 975 209625 46225 215 1025 220375 46225 230 1100 253000 52900 250 1030 257500 62500 265 1175 311375 70225 250 1300 325000 62500 2239 9750 2219370 506581 2 x i 10
Výstup v Minitabu průměr 11
nosnost Graf regresní přímky Fitted Line Plot nosnost = - 569,5 + 6,898 průměr 1300 1200 S 99,9008 R-Sq 75,8% R-Sq(adj) 72,8% 1100 1000 900 800 700 600 190 200 210 220 230 průměr 240 250 260 270 Nosnost svaru v závislosti na průměru, Duncan (1965) 12
pruhyb Přímka procházející počátkem 100 Plot of Fitted Model 80 60 40 20 0 0 2 4 6 8 10 12 síla Určení modulu pružnosti plastické hmoty, Hátle, Likeš (1972) 13
Kvalita modelu, koeficient determinace celková variabilita proměnné Y (celkový součet čtverců) y n S (y y) i 1 i 2 variabilita proměnné Y vysvětlená modelem (teoretický součet čtverců) T n S (Y y) i 1 i 2 nevysvětlená část variability reziduální součet čtverců Platí S S S y T R n S (y Y ) R i i i 1 2 koeficient determinace (model s konstantou) R S S hodnoty z intervalu < 0 ; 1 > 2 T y 14
Výstup v Minitabu průměr 15
Kvalita modelu, směrodatná chyba odhadu průměr s S R n p 16
Odhad, předpověď Bodový odhad pro průměr 220 Y = -569,5 + 6,898 220 = 948,1 odhad střední hodnoty nosnosti při průměru 220 odhad nosnosti při průměru 220 17
nosnost Intervalový odhad Fitted Line Plot nosnost = - 569,5 + 6,898 průměr 1500 1250 Regression 95% CI 95% PI S 99,9008 R-Sq 75,8% R-Sq(adj) 72,8% 1000 750 500 190 200 210 220 230 průměr 240 250 260 270 18
2. Možnosti zlepšení modelu 19
Příčiny nízké hodnoty koeficientu determinace Nevhodně zvolená vysvětlující proměnná (závislost neexistuje nebo je slabá) Nevhodně zvolený tvar modelu (závislost existuje, ale není lineární) Nejsou zařazeny všechny důležité vysvětlující proměnné (je třeba hledat další proměnné, které mají vliv na Y) 20
Neexistující závislost Cena notebooku vs hmotnost Y = 16 315 + 210 x R 2 = 0,0004 21
dráha Nevhodný tvar modelu Fitted Line Plot dráha = - 20,13 + 3,142 rychlost 140 120 S 11,7687 R-Sq 87,8% R-Sq(adj) 87,6% 100 80 60 40 20 0 0 10 20 rychlost 30 40 22
Další modely lineární z hlediska parametrů ln x 0 1 1 0 1 x x x 0 1 2 2 x x x 2 3 0 1 2 3 x Modely po transformaci, např. 0 1 ln ln xln 0 1 23
Regresní parabola x 0 1 2 x 2 jedna vysvětlující proměnná v lineárním a kvadratickém tvaru speciální případ regresního polynomu ačkoli regresní funkce obsahuje kvadratický člen, je lineární v parametrech odhad parametrů metodou nejmenších čtverců 24
dráha Regresní parabola 140 120 100 80 60 40 20 0 Y 1,580 0,4161x 0,06556x Fitted Line Plot dráha = 1,580 + 0,4161 rychlost + 0,06556 rychlost**2 S 9,92696 R-Sq 91,4% R-Sq(adj) 91,2% 2 zlepšení R 2 z 87,8 % na 91,4 % 0 10 20 rychlost 30 40 Y b b x b x 0 1 2 2 25
Nejsou zařazeny důležité vysvětlující proměnné Y 6,9595 0,2429x 1 Y 0,7559 0,20013 x1 0,0039693 x2 2 R 17,5 % R 86,9 % 2 26
Porovnání modelů s různým počtem parametrů Upravený koeficient determinace 2 2 n 1 Radj 1 (1 R ) n p x 1 : R 2 adj = 14,4 % p počet parametrů modelu x 1, x 2 R 2 adj = 85,9 % 27
3. Testy v regresním modelu 28
Ověření existence závislosti model y x i 0 1 i i t-test Testovaná hypotéza H 0 : (Y nezávisí na X) 1 0 Alternativní hypotéza H 1 : (Y závisí na X) 1 0 29
Testová statistika Postup při t-testu t b j s(b ) j směrodatná chyba odhadu, vyjadřuje přesnost odhadu Kritický obor W { t : t t 1 / 2 } Platí-li t t, zamítneme H 0. 1 / 2 t 1 / 2 kvantil t-rozdělení s (n p) stupni volnosti, n je rozsah výběrového souboru p je počet parametrů modelu (u přímky p = 2) 30
Využití p-hodnoty P-hodnota pravděpodobnost, že při platnosti testované hypotézy H 0 nabude testová statistika hodnoty svědčící ještě více v neprospěch H 0 než vypočtená hodnota testové statistiky Je-li p-hodnota menší než, H 0 zamítneme na hladině významnosti. Výhoda používání p-hodnoty: Ihned vidíme, jak silný důkaz proti platnosti H 0 máme. 0, 01 p 0, 05 slabší důkaz 0,001 p 0, 01 silnější důkaz p 0, 001 silný důkaz 31
Výstup v Minitabu průměr 32
Ověření existence závislosti model y x x i 0 1 i1 2 i2 i F-test Testovaná hypotéza H 0 : 1 2 0 (Y nezávisí na žádné z vysvětlujících proměnných) Alternativní hypotéza H 1 : non H 0 (Y závisí alespoň na jedné z vysvětlujících proměnných) 33
Testová statistika Postup při F-testu ST p 1 SR n p p počet parametrů (zde p = 3 ) n rozsah výběrového souboru) F Kritický obor W { F : F F 1 } Platí-li F F 1, zamítneme H 0. F 1 - kvantil F rozdělení s (p 1) a (n p) stupni volnosti 34
Výstup v Minitabu 35
4. Regresní diagnostika 36
proud_o Zkoumání vhodnosti tvaru regresní funkce 120 100 Fitted Line Plot proud_o = - 105,7 + 17,44 prasnost_o S 5,43780 R-Sq 98,2% R-Sq(adj) 98,1% 80 60 40 20 0 6 7 8 9 prasnost_o 10 11 12 Odlučovač popílku, opakovaná data 37
residual Graf rezidua vs vysvětlující proměnná 8 Residual Plot proud = -105,708 + 17,4394*prasnost 4 0-4 -8 6 7 8 9 10 11 12 prasnost 38
residual Rezidua vs vysvětlující proměnná 8 Residual Plot proud = -96,0775 + 16,5851*prasnost 5 2-1 -4-7 6 7 8 9 10 11 12 prasnost 39
proud Zkoumání vhodnosti tvaru regresní funkce Fitted Line Plot proud = - 96,08 + 16,59 prasnost 100 80 S 3,31370 R-Sq 99,2% R-Sq(adj) 99,1% 60 40 20 0 6 7 8 9 prasnost 10 11 12 Kalibrace filtru v odlučovači popílku, Vaněk 40
proud Volba jiné regresní funkce Fitted Line Plot proud = - 28,95-0,363 prasnost + 1,006 prasnost**2 100 80 S 2,22604 R-Sq 99,7% R-Sq(adj) 99,6% 60 40 20 0 6 7 8 9 prasnost 10 11 12 41
residual Rezidua vs vysvětlující proměnná 4,3 Residual Plot 2,3 0,3-1,7-3,7 6 7 8 9 10 11 12 prasnost 42
Ověření předpokladů o náhodné složce Konstantní rozptyl (homoskedasticita) Nezávislost Normalita Důsledky zanedbání předpokladů vliv na přesnost odhadů na spolehlivost intervalového odhadu závěry t-testů a F-testu 43
residual Heteroskedasticita 8 Residual Plot proud = -105,708 + 17,4394*prasnost 4 0-4 -8 6 7 8 9 10 11 12 prasnost 44
Heteroskedasticita Zjišťování heteroskedasticity Grafy reziduí Testy (Bartlett, Levene, Glejser, Goldfeld-Quandt, Breusch-Pagan, ) Opatření Transformace, např. logaritmická Vážená metoda nejmenších čtverců 45
Residual ztráty Autokorelace Fitted Line Plot ztráty = 50,44 + 4,249 rok + 0,2311 rok**2 450 400 350 S 10,4268 R-Sq 99,1% R-Sq(adj) 99,1% Graf reziduí 300 250 200 50 Residuals Versus the Order of the Data (response is ztráty) 150 100 40 30 20 50 10 0 5 10 15 rok 20 25 30 35 0-10 -20 Ztráty při výrobě vody v letech 1953 1983, Zvára (1989) -30-40 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 Durbin-Watsonův test 46
Residual výroba Autokorelace Fitted Line Plot výroba = 327,7 + 20,31 rok + 0,7519 rok**2 1750 1500 S 15,1551 R-Sq 99,9% R-Sq(adj) 99,9% Residuals Versus the Order of the Data (response is výroba) 100 1250 1000 50 750 0 500-50 0 5 10 15 rok 20 25 30 35-100 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 47
ztráty Residual Autokorelace Fitted Line Plot ztráty = - 42,34 + 0,2633 výroba 400 S 9,26088 R-Sq 99,3% R-Sq(adj) 99,3% 20 Residuals Versus the Order of the Data (response is ztráty) 300 10 200 0 100-10 -20 0 500 750 1000 výroba 1250 1500 1750 2 4 6 8 10 12 14 16 18 20 Observation Order 22 24 26 28 30 Závislost ztrát na výrobě vody, Zvára (1989) Opatření: transformace (Cochran Orcutt) 48
ISC Longitudinální data Speciální případ závislosti (kromě autokorelace ještě závislost pozorování náležejících stejné jednotce) 5 4 3 2 1 2 3 čas Degradace solárních článků, Kenett, Zacks (1998) Lineární model s náhodnými efekty 49
Percent Nesplněný předpoklad normálního rozdělení 99 Normal Probability Plot of the Residuals (response is ztráty) 95 90 80 70 60 50 40 30 20 10 5 1-20 -10 0 Residual 10 20 Testy normality: např. Shapiro-Wilk Opatření: Transformace Zobecněný lineární model (gama model, logistická regrese) 50
nosnost Odlehlá a vlivná pozorování Fitted Line Plot nosnost = 285,5 + 2,958 průměr 1300 1200 S 164,489 R-Sq 27,5% R-Sq(adj) 19,4% 1100 1000 900 800 700 600 200 220 240 průměr 260 280 300 Nosnost svaru, přidáno (300;900) 51
y y Důsledky přítomnosti vlivného pozorování Fitted Line Plot y = 0,1962 + 0,000811 body_wt Fitted Line Plot y = 0,1330 + 0,2346 dose 0,6 S 0,0899863 R-Sq 2,3% R-Sq(adj) 0,0% 0,6 S 0,0886433 R-Sq 5,2% R-Sq(adj) 0,0% 0,5 0,5 0,4 0,4 0,3 0,3 0,2 140 150 160 170 body_wt 180 190 200 0,2 0,70 0,75 0,80 0,85 dose 0,90 0,95 1,00 52
53
54
55
56
5. Speciální využití 57
DOE Odezvové plochy hledání optimálních podmínek y x x x x x x 2 2 0 1 1 2 2 12 1 2 11 1 22 2 Surface Plot of y vs x2; x1 8 y 6 4 32 34 340 36 x1 38 350 360 x2 Chutnost koláče v závislosti na době a teplotě pečení, Weisberg (2005) 58
Y Kalibrace 100 Plot of Fitted Model 80 = (-6,0889 + 1,42606*prasnost)^2 80 80,0 60 40 20 0 6 7 8 9 10 11 12 X 10,5418 (9,94168;11,1846) 59