Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT) 2 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 2 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 2 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 3 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 4 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 5 / 18
V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. resp. č. 1 2 3 4 5 6 7 8 9 10... výška [cm] 164 178 187 182 161 183 190 160 193 183... hmotnost [kg] 60 79 91 77 57 86 87 56 103 80... Statistika (KMI/PSTAT) 6 / 18
Regresní analýza - regrese Máme spojité veličiny a snažíme se najít matemetický model závislosti těchto veličin, tj. najít vzorec, který číselně popisuje vztah těchto veličin Statistika (KMI/PSTAT) 7 / 18
Regresní analýza - regrese Máme spojité veličiny a snažíme se najít matemetický model závislosti těchto veličin, tj. najít vzorec, který číselně popisuje vztah těchto veličin Statistika (KMI/PSTAT) 7 / 18
Regresní analýza - regrese Máme spojité veličiny a snažíme se najít matemetický model závislosti těchto veličin, tj. najít vzorec, který číselně popisuje vztah těchto veličin m = 1, 25 h 145, 1 Statistika (KMI/PSTAT) 7 / 18
Korelační analýza - korelace Korelace - měření kvality matematického modelu popisujícího závislost spojitých veličin, tj. popis těsnosti naměřených dat a použitého matematického modelu; včetně stanovení, zda mezi veličinami existuje závislost Statistika (KMI/PSTAT) 8 / 18
Korelační analýza - korelace Korelace - měření kvality matematického modelu popisujícího závislost spojitých veličin, tj. popis těsnosti naměřených dat a použitého matematického modelu; včetně stanovení, zda mezi veličinami existuje závislost silná závislost vysoký korelační koeficient Statistika (KMI/PSTAT) 8 / 18
Korelační analýza - korelace Korelace - měření kvality matematického modelu popisujícího závislost spojitých veličin, tj. popis těsnosti naměřených dat a použitého matematického modelu; včetně stanovení, zda mezi veličinami existuje závislost silná závislost vysoký korelační koeficient žádná (slabá) závislost nulový (bĺızký nule) korelační koeficient Statistika (KMI/PSTAT) 8 / 18
Lineární regrese Hledáme rovnici přímky, tj. předpis funkční závislosti ve tvaru lineární funkce y = b 0 + b 1 x, kde b 1 = x y x y x 2 ( x ) 2, b 0 = y b 1 x. Statistika (KMI/PSTAT) 9 / 18
Lineární regrese Hledáme rovnici přímky, tj. předpis funkční závislosti ve tvaru lineární funkce y = b 0 + b 1 x, kde b 1 = x y x y x 2 ( x ) 2, b 0 = y b 1 x. Lineární regrese Nalezněte regresní přímku pro body [1; 3], [2; 5], [3; 11], [4; 14], tj. x 1 2 3 4 y 3 5 11 14 Statistika (KMI/PSTAT) 9 / 18
Lineární regrese Hledáme rovnici přímky, tj. předpis funkční závislosti ve tvaru lineární funkce y = b 0 + b 1 x, kde b 1 = x y x y x 2 ( x ) 2, b 0 = y b 1 x. Lineární regrese Nalezněte regresní přímku pro body [1; 3], [2; 5], [3; 11], [4; 14], tj. x 1 2 3 4 y 3 5 11 14 x = 10 4 = 2, 5 y = 33 4 = 8, 25 x y = 102 4 = 25, 5 x 2 = 30 4 = 7, 5 Statistika (KMI/PSTAT) 9 / 18
Lineární regrese Hledáme rovnici přímky, tj. předpis funkční závislosti ve tvaru lineární funkce y = b 0 + b 1 x, kde b 1 = x y x y x 2 ( x ) 2, b 0 = y b 1 x. Lineární regrese Nalezněte regresní přímku pro body [1; 3], [2; 5], [3; 11], [4; 14], tj. x 1 2 3 4 y 3 5 11 14 x = 10 4 = 2, 5 y = 33 4 = 8, 25 x y = 102 4 = 25, 5 x 2 = 30 4 = 7, 5 b 1 = x y x y x 2 ( x ) 2 25, 5 2, 5 8, 25 = 7, 5 ( 2, 25 ) 4, 875 = 2 1, 25 = 3, 9 b 0 = y b 1 x = 8, 25 3, 9 2, 5 = 1, 5 y= 1, 5 + 3, 9x, resp. y = 3, 9x 1, 5 Statistika (KMI/PSTAT) 9 / 18
Rovnice regresní funkce ve tvaru polynomu Mějme naměřeno m datových bodů [x 1, y 1 ], [x 2, y 2 ], [x 3, y 3 ],... [x m, y m]. Hledáme předpis funkční závislosti ve tvaru polynomické funkce stupně n, tj. y = b 0 + b 1 x + b 2 x 2 +... + b nx n, tj. y = X B, kde b 0 X = (1, x,..., x n ) a b 1 B =... b n Statistika (KMI/PSTAT) 10 / 18
Rovnice regresní funkce ve tvaru polynomu Mějme naměřeno m datových bodů [x 1, y 1 ], [x 2, y 2 ], [x 3, y 3 ],... [x m, y m]. Hledáme předpis funkční závislosti ve tvaru polynomické funkce stupně n, tj. y = b 0 + b 1 x + b 2 x 2 +... + b nx n, tj. y = X B, kde b 0 X = (1, x,..., x n ) a b 1 B =... b n Lze ukázat, že B vypočteme ze vztahu ( ) 1 B = F T F F T y, kde F = 1 x 1 (x 1 ) 2... (x 1 ) n 1 x 2 (x 2 ) 2... (x 2 ) n 1 x 3 (x 3 ) 2... (x 3 ) n.... 1 x m (x m) 2... (x m) n a y = y 1 y 2. y m. Statistika (KMI/PSTAT) 10 / 18
Lineární regrese Nalezněte regresní kvadratickou funkci y = b 0 + b 1 x + b 2 x 2 pro body [1; 3], [2; 5], [3; 11], [4; 14], x 1 2 3 4 tj. y 3 5 11 14, kde B = ( F T F ) 1 F T y. Statistika (KMI/PSTAT) 11 / 18
Lineární regrese Nalezněte regresní kvadratickou funkci y = b 0 + b 1 x + b 2 x 2 pro body [1; 3], [2; 5], [3; 11], [4; 14], x 1 2 3 4 tj. y 3 5 11 14, kde B = ( F T F ) 1 F T y. 1 x 1 (x 1 ) 2... (x 1 ) n 1 x 2 (x 2 ) 2... (x 2 ) n F =.... 1 x m (x m) 2... (x m) n = 1 x 1 (x 1 ) 2 1 x 2 (x 2 ) 2 1 x 3 (x 3 ) 2 1 x 4 (x 4 ) 2 = 1 1 1 1 2 4 1 3 9 1 4 16 Statistika (KMI/PSTAT) 11 / 18
Lineární regrese Nalezněte regresní kvadratickou funkci y = b 0 + b 1 x + b 2 x 2 pro body [1; 3], [2; 5], [3; 11], [4; 14], x 1 2 3 4 tj. y 3 5 11 14, kde B = ( F T F ) 1 F T y. 1 x 1 (x 1 ) 2... (x 1 ) n 1 x 2 (x 2 ) 2... (x 2 ) n F =.... 1 x m (x m) 2... (x m) n = 1 x 1 (x 1 ) 2 1 x 2 (x 2 ) 2 1 x 3 (x 3 ) 2 1 x 4 (x 4 ) 2 = 1 1 1 1 2 4 1 3 9 1 4 16 B = b 0 b 1 b 2 = 1 1 1 1 1 2 3 4 1 4 9 16 1 1 1 1 2 4 1 3 9 1 4 16 1 1 1 1 1 1 2 3 4 1 4 9 16 3 5 11 14 Statistika (KMI/PSTAT) 11 / 18
Lineární regrese Nalezněte regresní kvadratickou funkci y = b 0 + b 1 x + b 2 x 2 pro body [1; 3], [2; 5], [3; 11], [4; 14], x 1 2 3 4 tj. y 3 5 11 14, kde B = ( F T F ) 1 F T y. 1 x 1 (x 1 ) 2... (x 1 ) n 1 x 2 (x 2 ) 2... (x 2 ) n F =.... 1 x m (x m) 2... (x m) n = 1 x 1 (x 1 ) 2 1 x 2 (x 2 ) 2 1 x 3 (x 3 ) 2 1 x 4 (x 4 ) 2 = 1 1 1 1 2 4 1 3 9 1 4 16 B = b 0 b 1 b 2 = 1 1 1 1 1 2 3 4 1 4 9 16 1 1 1 1 2 4 1 3 9 1 4 16 1 1 1 1 1 1 2 3 4 1 4 9 16 3 5 11 14 B = 4 10 30 10 30 100 30 100 354 1 33 102 = 346 0, 25 2, 65 0, 25 y = 0, 25x 2 + 2, 65x 0, 25 Statistika (KMI/PSTAT) 11 / 18
Korelační analýza Index determinace K měření kvality nalezeného regresního modelu používáme index determinace I 2 = 1 Qe, kde Q y Q e = i (y i ŷ i ) 2... reziduální součet čtverců, Q y = i (y i y) 2... variabilita dat, ŷ i... teoretická hodnota y vypočtená na základě regresního modelu, y i... naměřená hodnota y. Statistika (KMI/PSTAT) 12 / 18
Korelační analýza Index determinace K měření kvality nalezeného regresního modelu používáme index determinace I 2 = 1 Qe, kde Q y Q e = i (y i ŷ i ) 2... reziduální součet čtverců, Q y = i (y i y) 2... variabilita dat, ŷ i... teoretická hodnota y vypočtená na základě regresního modelu, y i... naměřená hodnota y. Index determinace Vypočtěte index determinace pro data z předchozí úlohy, tj. pro body [1; 3], [2; 5], [3; 11], [4; 14] a regresní funkci y = 3, 9x 1, 5. Statistika (KMI/PSTAT) 12 / 18
Korelační analýza Index determinace K měření kvality nalezeného regresního modelu používáme index determinace I 2 = 1 Qe, kde Q y Q e = i (y i ŷ i ) 2... reziduální součet čtverců, Q y = i (y i y) 2... variabilita dat, ŷ i... teoretická hodnota y vypočtená na základě regresního modelu, y i... naměřená hodnota y. Index determinace Vypočtěte index determinace pro data z předchozí úlohy, tj. pro body [1; 3], [2; 5], [3; 11], [4; 14] a regresní funkci y = 3, 9x 1, 5. x y ŷ y ŷ (y ŷ) 2 y 8, 25 (y 8, 25) 2 1 3 2,4 0,6 0,36 5, 25 27,5625 2 5 6,3-1,3 1,69 3, 25 10,5625 3 11 10,2 0,8 0,64 2, 75 7,5625 4 14 14,1-0,1 0,01 5, 75 33,0625 součet 33 2,7 78,75 Statistika (KMI/PSTAT) 12 / 18
Korelační analýza Index determinace K měření kvality nalezeného regresního modelu používáme index determinace I 2 = 1 Qe, kde Q y Q e = i (y i ŷ i ) 2... reziduální součet čtverců, Q y = i (y i y) 2... variabilita dat, ŷ i... teoretická hodnota y vypočtená na základě regresního modelu, y i... naměřená hodnota y. Index determinace Vypočtěte index determinace pro data z předchozí úlohy, tj. pro body [1; 3], [2; 5], [3; 11], [4; 14] a regresní funkci y = 3, 9x 1, 5. x y ŷ y ŷ (y ŷ) 2 y 8, 25 (y 8, 25) 2 1 3 2,4 0,6 0,36 5, 25 27,5625 2 5 6,3-1,3 1,69 3, 25 10,5625 3 11 10,2 0,8 0,64 2, 75 7,5625 4 14 14,1-0,1 0,01 5, 75 33,0625 součet 33 2,7 78,75 I 2 = 1 2, 7 78, 75 2, 7 76, 05. = = = 0, 966 78, 75 78, 75 78, 75 Statistika (KMI/PSTAT) 12 / 18
Korelační analýza Korelační koeficient K měření kvality nalezeného lineárního regresního modelu používáme korelační koeficient r = sgn(b 1 ) I 2. Statistika (KMI/PSTAT) 13 / 18
Korelační analýza Korelační koeficient K měření kvality nalezeného lineárního regresního modelu používáme korelační koeficient r = sgn(b 1 ) I 2. r = sgn(3, 9) 0, 966 = 1 0, 983 = 0, 983 Statistika (KMI/PSTAT) 13 / 18
Korelační analýza Korelační koeficient K měření kvality nalezeného lineárního regresního modelu používáme korelační koeficient r = sgn(b 1 ) I 2. r = sgn(3, 9) 0, 966 = 1 0, 983 = 0, 983 Korelační koeficient Korelační koeficient lze vypočítat také ze vztahu r = x y x y (x 2 (x) 2) (y 2 (y) 2) Statistika (KMI/PSTAT) 13 / 18
Korelační analýza Korelační koeficient K měření kvality nalezeného lineárního regresního modelu používáme korelační koeficient r = sgn(b 1 ) I 2. r = sgn(3, 9) 0, 966 = 1 0, 983 = 0, 983 Korelační koeficient Korelační koeficient lze vypočítat také ze vztahu r = x y x y (x 2 (x) 2) (y 2 (y) 2) x y x 2 y 2 x y 1 3 1 9 3 2 5 4 25 10 3 11 9 11 33 4 14 16 196 56 součet 10 33 30 351 102 x = 10/4 = 2, 5 y = 33/4 = 8, 25 x 2 = 30/4 = 7, 5 y 2 = 351/4 = 87, 75 x y = 102/4 = 25, 5 Statistika (KMI/PSTAT) 13 / 18
Korelační analýza Korelační koeficient K měření kvality nalezeného lineárního regresního modelu používáme korelační koeficient r = sgn(b 1 ) I 2. r = sgn(3, 9) 0, 966 = 1 0, 983 = 0, 983 Korelační koeficient Korelační koeficient lze vypočítat také ze vztahu r = x y x y (x 2 (x) 2) (y 2 (y) 2) x y x 2 y 2 x y 1 3 1 9 3 2 5 4 25 10 3 11 9 11 33 4 14 16 196 56 součet 10 33 30 351 102 r = 25, 5 2, 5 8, 25. = 0, 983 (7, 5 (2, 5) 2 ) (87, 75 (8, 25) 2 ) x = 10/4 = 2, 5 y = 33/4 = 8, 25 x 2 = 30/4 = 7, 5 y 2 = 351/4 = 87, 75 x y = 102/4 = 25, 5 Statistika (KMI/PSTAT) 13 / 18
Korelační analýza Reziduální rozptyl K porovnávání kvality různých modelů slouží reziduální rozptyl S 2 e = Q e = i (y i ŷ i ) 2... reziduální součet čtverců, n... počet měření, p... počet parametrů modelu. Qe n p, kde Statistika (KMI/PSTAT) 14 / 18
Korelační analýza Reziduální rozptyl K porovnávání kvality různých modelů slouží reziduální rozptyl S 2 e = Q e = i (y i ŷ i ) 2... reziduální součet čtverců, n... počet měření, p... počet parametrů modelu. Qe n p, kde lineární model: y = 3, 9x 1, 5, I 2 = 0, 966 kvadratický model: y = 0, 25x 2 + 2, 65x 0, 25, I 2 = 0, 969 Statistika (KMI/PSTAT) 14 / 18
Korelační analýza Reziduální rozptyl K porovnávání kvality různých modelů slouží reziduální rozptyl S 2 e = Q e = i (y i ŷ i ) 2... reziduální součet čtverců, n... počet měření, p... počet parametrů modelu. Qe n p, kde lineární model: y = 3, 9x 1, 5, I 2 = 0, 966 kvadratický model: y = 0, 25x 2 + 2, 65x 0, 25, I 2 = 0, 969 lineární model: y = 3, 9x 1, 5, Se 2 = 2,7 = 1, 35 4 2 kvadratický model: y = 0, 25x 2 + 2, 65x 0, 25, Se 2 = 2,45 = 2, 45 4 3 Statistika (KMI/PSTAT) 14 / 18
Korelační analýza Reziduální rozptyl K porovnávání kvality různých modelů slouží reziduální rozptyl S 2 e = Q e = i (y i ŷ i ) 2... reziduální součet čtverců, n... počet měření, p... počet parametrů modelu. Qe n p, kde lineární model: y = 3, 9x 1, 5, I 2 = 0, 966 kvadratický model: y = 0, 25x 2 + 2, 65x 0, 25, I 2 = 0, 969 lineární model: y = 3, 9x 1, 5, Se 2 = 2,7 = 1, 35 4 2 kvadratický model: y = 0, 25x 2 + 2, 65x 0, 25, Se 2 = 2,45 = 2, 45 4 3 Čím nižší reziduální rozptyl, tím lepší model: vybereme lineární model. Statistika (KMI/PSTAT) 14 / 18
Testování významnosti regresních koeficientů Testování významnosti regresních koeficientů Zjišt ujeme, zda je vysvětlovaná proměnná opravdu ovlivňována vysvětlující proměnnou. H 0 : β 1 = β 2 =... = β p 1 = 0 H 1 : non H 0 T = (Qy Qe)/(p 1) Q e/(n p) W = F 1 α (p 1, n p); ) p... počet parametrů modelu n... počet naměřených dvojic dat Statistika (KMI/PSTAT) 15 / 18
Testování významnosti regresních koeficientů Testování významnosti regresních koeficientů Na hladině významnosti α = 0, 05 otestujte významnost regresních koeficientů pro data z úvodního příkladu. Statistika (KMI/PSTAT) 16 / 18
Testování významnosti regresních koeficientů Testování významnosti regresních koeficientů Na hladině významnosti α = 0, 05 otestujte významnost regresních koeficientů pro data z úvodního příkladu. Q e = 2, 7, Q y = 78, 75, p = 2, p 1 = 1, n = 4 H 0 : β 1 = 0 H 1 : β 1 0 T = (Qy Qe)/(p 1) Q e/(n p) W = F 1 α (p 1, n p); ) Statistika (KMI/PSTAT) 16 / 18
Testování významnosti regresních koeficientů Testování významnosti regresních koeficientů Na hladině významnosti α = 0, 05 otestujte významnost regresních koeficientů pro data z úvodního příkladu. Q e = 2, 7, Q y = 78, 75, p = 2, p 1 = 1, n = 4 H 0 : β 1 = 0 H 1 : β 1 0 T = (Qy Qe)/(p 1) Q e/(n p) W = F 1 α (p 1, n p); ) (78, 75 2, 7)/1 T = 2, 7/2 76, 05. = = 56, 3 1, 35 W = F 1 α (p 1, n p); ) = F 0,95 (1, 2); ) = 18, 513; ) T W, zamítáme H 0, hodnota y je ovlivňována hodnotami proměnné x. Statistika (KMI/PSTAT) 16 / 18
Korelační a regresní analýza Příklad I Ve firmě sledovali, jak dlouho je již daný pracovník zaměstnán a kolik procent zmetků za směnu vyrobí. Zjistili následující data: počet měsíců 45 47 51 58 64 procenta zmetků 20 18 14 16 13 Vypočtěte předpis regresní přímky. Interpretujte hodnoty koeficientů b 0, b 1. Kolik procent zmetků můžeme očekávat u zaměstnance zaměstnaného 55 měsíců. Vypočtěte a interpretujte hodnoty I 2, r. Vypočtěte kvadratický regresní model a rozhodněte, zda je vhodnější lineární či kvadratický model k popisu těchto dat. Otestujte významnost regresního koeficientu β 1 v lineární regresní funkci. Statistika (KMI/PSTAT) 17 / 18
Korelační a regresní analýza Příklad II Obchodní oddělení se snaží odhadnout rovnici poptávky po svém produktu. Zjišt ovali množství Q poptávaného zboží (v tisících ks) při ceně P. Zjistili následující data: P 40 45 50 55 60 Q 4,2 3,5 2,7 1,5 0,7 Vypočtěte předpis rovnice poptávky ve tvaru lineární funkce. Interpretujte hodnoty koeficientů b 0, b 1. Jaké množství poptávaného zboží můžeme očekávat při ceně 53 Kč? Vypočtěte a interpretujte hodnoty I 2, r. Vypočtěte kvadratický regresní model a rozhodněte, zda je vhodnější lineární či kvadratický model k popisu těchto dat. Otestujte významnost regresního koeficientu β 1 v lineární regresní funkci. Statistika (KMI/PSTAT) 18 / 18