AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita
Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε N(0, σ 2 I) b = (X T X) 1 X T y. Vektor ŷ = Xb je lineární kombinací vektorů regresorů, tj. leží v prostoru (přímce, rovině, nadrovině), jehož dimenze je rovna počtu regresorů. Dosadíme-li za b, dostaneme ŷ = Xb = X(X T X) 1 X T y = Hy Matice H = X(X T X) 1 X T je matice projekce vektoru y do prostoru určeného vektory regresorů.
Lineární model projekce RSS = (y ŷ) T (y ŷ) min vlastně znamená, že tato projekce je ortogonální. Pak tedy vektory ŷ a e = y ŷ jsou ortogonální vektory, ŷ T e = e T ŷ = 0 (Xb) T (y Xb) = b T X T y b T X T Xb = b T (X T y X T Xb) = 0, výraz v poslední závorce je nulový vektor, viz normální rovnice: X T y = X T Xb
Residua e = y ŷ vektor residuí složky e i = y i ŷ i residua. Součet a tedy i průměr residuí je roven nule: n e i = i=1 n (y i ŷ i ) = i=1 n n y i ŷ i = 0, i=1 i=1 Z první normální rovnice platí ȳ = b T x, x T = [1, x 1, x 2,..., x k ], n (ŷ i ȳ) = i=1 n n ŷ i y i = b T i=1 i=1 n (x i x) = 0, i=1 nebot součet odchylek od průměru je nulový.
Rozklad součtu čtverců TSS = (y ȳ) T (y ȳ) TSS můžeme rozložit na dvě složky: MSS = (ŷ ȳ) T (^y ȳ) a už dříve definovanou RSS = (y ŷ) T (y ŷ) = e T e Platí tedy, že TSS = MSS + RSS, MSS je část z TSS, která je vysvětlena závislostí na regresorech zbylou část (RSS) lineární závislostí vysvětlit nelze.
Index determinace R 2 = MSS TSS = TSS RSS TSS = 1 RSS TSS 0 R 2 1. R 2 = 1, když RSS = 0, tzn. regresní model vysvětluje závislost vysvětlované veličiny na regresorech úplně (dokonalá lineární závislost). R 2 = 0, model nevysvětluje nic, tedy RSS = TSS, tzn. b 1 = b 2 =... = b k = 0 a b 0 = ȳ např. pro k = 1 je regresní přímka rovnoběžná s osou x v úrovni b 0 = ȳ.
ANOVA zdroj stupně součet průměrný variab. volnosti čtverců čtverec F p value MSS/k model k MSS MSS/k RSS/(n k 1) 0.... error n k 1 RSS RSS/(n k 1) total n 1 TSS Za předpokladu, že s 2 = RSS/(n k 1) je nestranným odhadem rozptylu náhodné složky σ 2 a náhodné kolísání má normální rozdělení, má statistika F rozdělení F F k,n k 1 a můžeme ji užít k testu hypotézy H 0 : β 1 = β 2 =... = β k = 0 proti H 1 : aspoň jeden parametr β j 0, j = 1, 2,..., k
Směrodatná odchylka residuí, adjustovaný R 2 Důležitou informaci o variabilitě residuí e i = y i ŷ i poskytuje směrodatná odchylka residuí (square root mean error) RSS s = n k 1 Index determinace má tendenci nadhodnocovat podíl modelu na vysvětlení celkové variability. Kvůli náhodnému kolísání jsou odhady b j 0 i tehdy, když β j = 0, j = 1, 2,..., k. Adjustovaný index determinace R 2 adj = 1 RSS/(n k 1) TSS/(n 1) = 1 n 1 n k 1 (1 R2 ) R 2 adj < R2. Rozdíl je výrazný tehdy, když n je jen o málo větší než k R 2 adj se přibližuje R2 pro n k.
Regresní diagnostika projekční matice Vektor residuí vyjádřit pomocí projekční matice H: Kovarianční matice residuí e = y ŷ = Iy Hy = (I H)y cov(e) = cov [(I H)y] = (I H)cov(y)(I H) T = (I H)σ 2 I(I H) T = σ 2 (I H)(I H) T = σ 2 (I H H T + HH T ) = σ 2 (I H) H je symetrická (H T = H) a idempotentní (H 2 = H): HH T = H 2 = X(X T X) 1 X T X(X T X) 1 X T = H
Regresní diagnostika projekční matice Matice H s prvky h ij, i, j = 1, 2,..., n je symetrická, ale nemusí být diagonální. Jak bylo v předchozím odstavci ukázáno, kovarianční matice vektoru residuí je rovna cov(e) = σ 2 (I H) Nestranným odhadem parametru σ 2 je reziduální rozptyl (tzn. rozptyl ε i ): s 2 1 = n k 1 et e
Regresní diagnostika residua Klasická residua Jejich rozptyly e = y Xb. var(e i ) = s 2 e(1 h ii ), nejsou konstantní, i když var(ɛ i ) = σ 2 konstantní je. Normovaná residua Jsou to klasická residua, vydělená reziduální směrodatnou odchylkou: e Ni = e i s Jejich rozptyl je roven tedy nemusí být roven jedné. var(e Ni ) = 1 h ii,
Regresní diagnostika residua Standardizovaná rezidua Někdy vnitřně studentizovaná residua (internally studentized) e Si = e i s 1 h ii jejich rozptyl je konstantní, roven jedné. Plně studentizovaná rezidua JACKKNIFE residua, vždy pro i tý bod se residuum počítá z modelu, jehož parametry byly odhadnuty ze zbývajících n 1 bodů. e ( i) e Ji =. s ( i) 1 hii kde s ( i) je residuální směrodatná odchylka při vynechání i-tého bodu. Tato residua mají t rozdělení, e Ji t(n k 2).
Regresní diagnostika leverage Leverage Tyto charakteristiky ohodnocují vliv i-tého bodu na hodnoty odhadů parametrů. Jsou to diagonální prvky projekční matice, tedy hodnoty h ii. Platí, že 0 < h ii < 1 a n h ii = k + 1, i=1 kde k je počet regresorů. Hodnota h ii je úměrná vzdálenosti i-tého pozorování od těžiště (v k-rozměrném prostoru regresorů), h ii se považuje za velké, když h ii je větší než dvojnásobek průměrné hodnoty, tj. h ii > 2(k + 1)/n).
Regresní diagnostika Cookova vzdálenost Cookova vzdálenost Tato charakteristika slouží také k posouzení vlivu i-tého pozorování na odhady parametrů modelu, tj. na hodnoty b. Je to vlastně relativní změna reziduálního součtu čtverců způsobená vypuštěním i-tého pozorování. Cookova vzdálenost pro i-té pozorování je definována C i = (y ŷ ( i)) T (y ŷ ( i) ) ps 2 = (b b ( i)) T (X T X)(b b ( i) ) ps 2 = h ii p(1 h ii ) e2 Si kde b ( i) jsou jsou jackknife odhady (spočítané při vypuštění i-tého bodu) a p je počet odhadovaných parametrů. Cookova vzdálenost ohodnocuje vliv i-tého pozorování na odhad vektoru regresních parametrů b. Je-li Cookova vzdálenost C i 1, i-pozorování velmi podstatně ovlivňuje odhady parametrů.
Regresní diagnostika autokorelace Model autokorelačního procesu prvního řádu AR(1): ε i = ρ 1 ε i 1 + u i kde u i N(0, σ 2 ) Autokorelační koeficient prvního řádu ρ 1 odhadujeme jako ˆρ 1 = n i=2 e ie i 1 n i=1 e2 i Durbin Watsonova statistika D W = n i=2 (e i e i 1 ) 2 n i=1 e2 i 2 (1 ˆρ 1 ) Pro tuto statistiku platí 0 D W 4, E(D W ) = 2 při ρ 1 = 0. Při rozhodování je pro hodnoty statistiky velmi blízké dvěma spoléhat na intuici a považovat residua za nekorelované.