AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita
Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i je pozorovaná hodnota náhodné veličiny Y x i1,, x ik jsou hodnoty vysvětlujících proměnných (regresorů, prediktorů) β 0, β 1,, β k jsou parametry modelu (fixní, leč neznámé hodnoty) ε i je náhodná složka i = 1, 2,, n je index pozorování (objektu)
Lineární model y = Xβ + ε (2) Matice X má k + 1 sloupců, v prvním sloupci jsou jedničky, dalších sloupcích jsou hodnoty vysvětlujících veličin. pro i-tý řádek y i = x T i β + ε i (3)
Předpoklady v klasickém modelu: 1 E(ε) = 0, tj. vektor středních hodnot náhodné složky je roven nulovému vektoru 2 cov(ε) = σ 2 I n, σ 2 > 0, I je jednotková matice řádu n, tj. náhodné složky jsou nekorelované a jejich rozptyl je konstantní 3 X je nenáhodná matice typu n (k + 1) 4 hodnost matice X, h(x) = k + 1 n, tj. sloupce matice X nejsou lineárně závislé a počet pozorování je alespoň roven počtu parametrů
Klasický lineární model Podmíněné střední hodnoty: E(y X) = Xβ + E(ε X) = Xβ (4) Připomenutí - kovarianční matice náhodného vektoru X [ ] Σ = cov(x) = E (X E(X))(X E(X)) T (5) Kovarianční matice s využitím rov. (5) cov(y X) = E { [y E(y X)][y E(y X)] T X } = = E { [y Xβ][y Xβ] T X } = E { (ε X)(ε X) T X } = σ 2 I (6)
Metoda nejmenších čtverců vektor b, pro který je nejmenší tzv. residuální suma čtverců (RSS) odchylek pozorovaných hodnot od jejich odhadů z modelu RSS = (y Xb) T (y Xb) (7) V minimu derivace výrazu (7) podle vektoru b, tj. RSS b = b (yt y b T X T y y T X b + b T X T X b) = = b ( 2 bt X T y + b T X T X b) = 2 X T y + 2X T X b se rovná nulovému vektoru. Soustava normálních rovnic X T y = X T Xb (8)
Soustava normálních rovnic - řešení Soustava normálních rovnic X T y = X T Xb Vzhledem k platnosti předpokladu h(x T X) = k + 1 můžeme řešení této soustavy lineárních rovnic (vzhledem k b) vyjádřit explicitně jako b = (X T X) 1 X T y (9) Odhady určené podle (9) se nazývají OLS odhady (Ordinary Least Squares). Tyto odhady jsou nestranné, nebot E(b) = E(b X) = (X T X) 1 X T E(y X) = (X T X) 1 X T Xβ = β (10)
Kovarianční matice odhadů [ ] cov(b) = (X T X) 1 X T σ 2 I (X T X) 1 X T T = σ 2 (X T X) 1 (11) Na diagonále této matice jsou rozptyly odhadu parametrů var(b i ). Nestranný odhad parametru σ 2 s 2 = RSS n k 1 (12) Nestranný odhad kovarianční matice odhadů parametru b S bb = s 2 (X T X) 1 (13) Na diagonále matice S bb jsou nestranné odhady rozptylů odhadu parametrů, jejich odmocninu (směrodatnou odchylku odhadu) označme s(b i ).
Rozdělení náhodného kolísání Přidáme k předpokladům (1) až (4) ještě předpoklad o tvaru rozdělení náhodné složky modelu (1) (5) ε i N(0, σ 2 ), i = 1, 2,, n, S využitím předpokladu (2) ε N(0, σ 2 I) pro následující statistiku platí b i β i N(0, 1) var(bi ) i = 0, 1,, k a pro b i β i s(b i ) t n k 1. (14) Tuto statistiku pak můžeme užít ke stanovení intervalu spolehlivosti pro parametr β i a testování hypotéz o tomto parametru.
Příklad výstupu lineární regrese Regression Equation Section Independent Regression Standard T-Value Prob Variable Coefficient Error (Ho: B=0) Level Intercept 9.12688 1.102801 8.2761 0.000000 x6 0.2028154 4.576761E-02 4.4314 0.000210 x8-7.239294e-02 7.999381E-03 9.0498 0.000000
Odhad parametrů metodou maximální věrohodnosti Maximálně věrohodné (Maximum Likelihood). ML-odhady odhadují hodnoty parametrů tak, aby tyto odhady maximalizovaly tzv. věrohodnostní funkci, tj. odhady jsou určeny jako nejpravděpodobnější hodnoty parametrů pro pozorovaná data. ML-odhady obecně mají řadu dobrých vlastností: jsou asymptoticky nestranné (s rostoucím n jejich střední hodnota konverguje k odhadovanému parametru) skoro vždy jsou konsistentní (s rostoucím n rozptyl odhadu konverguje k nule) Věrohodnostní funkce (součin hustot jednotlivých pozorování) L ML = (2πσ 2) ( ) n/2 exp εt ε 2σ 2 a její logaritmus je ln(l ML ) = L = ( n 2 ) ln (2πσ2 ) (y Xβ)T (y Xβ) 2σ 2 (15)
Odhad parametrů metodou maximální věrohodnosti Při hledání maxima funkce (15) položíme derivace podle hledaných proměnných rovny nule, tedy L β = 0, L σ 2 = 0 (16) a dostaneme X T y = X T Xβ ML (17) Vidíme, že ML-odhady regresních koeficientů jsou v klasickém lineárním modelu stejné jako odhady získané metodou nejmenších čtverců (OLS-odhady), β ML = b, ML-odhad parametru σ 2 z rov.(16) je σ ML = 1 n (y Xβ)T (y Xβ) = RSS n tedy se liší od OLS-odhadu, je pouze asymptoticky nestranný.