LINEÁRNÍ REGRESE Chemometrie I, David MILDE Lineární regresní model 1
Typy závislosti 2 proměnných FUNKČNÍ VZTAH: 2 závisle proměnné: určité hodnotě x odpovídá jediná hodnota y. KORELACE: 2 náhodné (nezávislé) proměnné: síla vzájemného vztahu, popisovaná korelačním koeficientem R. REGRESE: vztah náhodné (nezávislé) proměnné x a závisle proměnné y, které má určité rozdělení pravděpodobnosti. Metoda nejmenších čtverců (MNČ) y MNČ je v regresní analýze nejpoužívanější pro výpočet odhadů parametrů b i do regresního modelu. Např. propřímku: y = b 0 +b 1 x y 1,reg y 1 y 3,reg y 2 y 3 y 2,reg x RSC reziduální součet čtverců RSC: Σ = min. Tento součet čtverců je: = min., = min. reziduum: e i =, 2
Metoda nejmenších čtverců (MNČ) Legendre a Gauss navrhli, aby se od každého bodu vedla ve svislém směru úsečka až k uvažované přímce. Tato úsečka se bere jako strana čtverce. Řekne se, že přímka je tím lepší, čím menší součet čtverců vytváří. Máme-li proložit přímku více než 2 body, řešíme tzv. přeurčený systém více rovnic než neznámých. To lze pro určitou podmínku a tou je právě požadavek na nejmenší čtverce. Pro obrázek na předchozím slidu: y 1,reg = b 0 + b 1 x 1 y 2,reg = b 0 + b 1 x 2 y 3,reg = b 0 + b 1 x 3 Výpočet regresních koeficientů b i 3
Výpočet regresních koeficientů b i Regresní koeficienty: b 0 úsek (absolutní člen) b 1 směrnice přímky Směrodatné odchylky Intervaly spolehlivosti b i 2 4
Pás spolehlivosti regresního modelu Testování hypotéz v lineární regresi 5
Testování významnosti parametrů (b i ) Je-li parametr nevýznamný, znamená to, že je = 0! H 0 : b i = 0; H 1 : b i 0 bi ti sbi t i v absolutní hodnotě porovnáváme s t krit (1-/2) Studentova rozdělení pro (n-m) stupňů volnosti, kde n je počet hodnot a m je počet parametrů b i. Pokud b 0 =0,říkáme, že přímka prochází počátkem a regresní závislost se zjednoduší na y = b 1 x. F test významnosti regrese Test významnosti všech regresních koeficientů b i kromě absolutního členu (b 0 ). Také označován jako test významnosti R 2 H 0 : R 2 = 0; H 1 : R 2 0 F R 2 R ( n m) 2 (1 R )( m 1) F R porovnáváme s kritickou hodnotou F-rozdělení s (m-1) a (n-m) stupni volnosti. 6
F test významnosti regrese Standardním výstupem programů regresní analýzy je závěr F R testu o významnosti koeficientu determinace a Studentova testu o významnosti jednotlivých parametrů b i. Mohou nastat tyto případy: F R i všechny t i nevýznamné regresní model nevýhodný, nevystihuje variabilitu proměnné y. F R i všechny t i významné vhodný regresní model k vystižení variability proměnné y. F R významný, ale t i nevýznamný pro některé parametry vhodný model a provádí se vypouštění vysvětlujících proměnných x i, pro které jsou parametry b i nevýznamné. F R významný a všechny t i nevýznamné. Model formálně vyhovuje jako celek, ale žádná vysvětlující proměnná x i není významná. Je to důsledek multikolinearity a porušení předpokladu MNČ. F test linearity Jeden z testů linearity (tj. vhodnosti přímkového regresního modelu), který je založený na volbě mezi přímkou (y = b 0 +b 1 x) a parabolou (y = b 0 +b 1 x+ b 2 x 2 ). H 0 : b 2 = 0, pokud přijmeme H 0, je závislost lineární H 1 : b 2 0, pokud přijmeme H 1, je závislost kvadratická F L porovnáváme s F krit (1, n-3) stupni volnosti. F L ( RSC L RSC RSC kde RSC L a RSC K je reziduální součet čtverců pro lineární a kvadratickou závislost. K K )( n 3), 7
Chowův test shody 2 lineárních modelů Testuje shodu parametrů b pro regresní model A a model B: y A =b 0A +b 1A x+ A,kterýmáRSC A y B =b 0B +b 1B x+ A,kterýmáRSC B H 0 : b A = b B ; H 1 : b A b B F C ( RSC RSC ( RSC A A RSC RSC B )( n 2m) ) m B Za předpokladu homoskedasticity obou výběrů se statistika F C porovnává s F krit pro m a (n-2m) stupňů volnosti. V případě heteroskedasticity je nutné použit aproximativní vzorec pro určení stupňů volnosti, který zde není uveden., y y A B X X A B A b. B Lineární vs. nelineární regrese Pro lineární regresi platí následující podmínka: f( x,b) g j konst. b i Pokud alespoň pro jeden b i je parciální derivace g j funkcí, tak jde o nelineární regresi! Př. lineárních regresních modelů: y=b 0 +b 1 x b 2 x 2 polynom; y = b 0 +(b 1 /x) hyperbola Př. nelineárních regresních modelů: y=b 0. x b1 ;y=b 0 +b 1 exp(b 2 x) 8