PRAVDĚPODOBNOST A STATISTIKA
Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice je plné hodnosti Vektor Xβ je nenáhodný, tedy E Y Xβ vary I Y T T Y 1,,Y n Matice X X n,k E( i ) 0 E(ε) 0 D( ) C(, ) 0 i i je náhodný vektor a y y 1,, se nazývá matice plánu j y n var( ε) I je jeho realizace. Předpokládáme navíc, že ~ Nn ( 0, I) tedy Y ~ N n ( Xβ, I )
Lineární normální regresní model Z těchto předpokladů plyne: βˆ Yˆ T 1 T X X X Y Xβˆ H X Yˆ HY Eˆ Y Yˆ X T 1 T X X X Y T 1 T X X X h(h) k MY M I H h(m) n k βˆ Yˆ ~ Eˆ ~ ~ Nk N n N n β, ( 0, ( Xβ, X M ) T H 1 X )
Lineární normální regresní model - diagnostika Předpoklady: ~ Nn ( 0, I) Při ověřování předpokladů se vychází z reziduí ~ (, E N 0 M) D( E i ) (1 h ii ) n Získané hodnoty: e y yˆ Složky e nemusí mít stejný rozptyl
Lineární normální regresní model - diagnostika Modifikace: - normalizované rezidua: - predikovaná rezidua: e e Ni Pi e i s ei 1 h ii - standardizované rezidua: - studentizované rezidua: kde s s ( i) e e Si Ti s je odhad rozptylu, pokud vynecháme i tý bod ei n ks T y Xb( i) y Xb 1 ( i) h s ( i) n k 1 n k 1 ( i) s e i 1 h e i ( i) 1 ii h ii ii
Váha Výška 1 Příklad Výška Váha - Regresní přímka
Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: x i y složka bude: e si v grafu hledáme - velké hodnoty (outlier) - trend (potřeba přidat třeba x ) - oblasti s různým rozptylem (porušen předpokladu) Bartlettův test Příklad:
Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: y složka bude: e si i 1 h ii y
Lineární normální regresní model - diagnostika Diagnostika: - ověření základních předpokladů MNČ (kritika metody). - ověření stejného rozptylu - ověření autokorelace - ověření normality - ověření vhodnosti modelu pro daná data (kritika modelu) - ověření zda v datech je nějaká závislost - ověření kvality modelu - vhodnosti dat pro navržený regresní model (kritika dat) - zjištění vlivných bodů - vlivné body v nezávisle proměnných - vlivné body v závisle proměnných
Heteroskedasticita nekonstantnost rozptylu : - v grafické analýze reziduí x složka: h ii y, y složka : klínový tvar bodů v grafu -Cook-Weisbergův test: Pokud CW (1) Lineární normální regresní model diagnostika ověření předpokladů CW n s i1 je prokázána heteroskedasticita. 4 1 V přítomnosti heteroskedasticity je třeba uvažovat o použití metodě vážených nejmenších čtverců s váhou: 1 wi 1 1 var( ε) W y 1 diag,, βˆ T 1 T 1 X W X X W i y1 y n ( y n i i1 ( y y) e i i i y) D( ) i W Y e si
Lineární normální regresní model diagnostika ověření předpokladů
Příklad Výška Váha - Regresní přímka Váha Výška 1 Cook- Weisbergův test: CW= 5,48396 - v grafické analýze reziduí - heteroskedasticita x složka: y složka : i 1 h ii y e si klínový tvar bodů v grafu alfa= 0,05 Chi^(1)= 3,841459
Lineární normální regresní model diagnostika ověření předpokladů Ověření nezávislosti: C( i, j ) 0 Složky e i mohou být závislé zjišťuje se autokorelace Durbin-Watsonův test nezávislosti (u posloupnosti) d n1 i1 e n ei i1 i1 e i d 0, 4 Pokud d nezamítáme nezávislost, jinak jsou hodnoty zavislé na X Příklad Výška - Váha: d= 0,497331
Lineární normální regresní model diagnostika ověření předpokladů Ověření normality : ~ Nn ( 0, I) uspořádání reziduí: e( 1) e( n) - Q-Q plot j 3 1 e 8 tj. empiricky vs. teoreticky kvantil ( j ), n 1 4 - P-P plot: j 0.5, e( j) n normální body by měly být na přímce: y = x - testy normality: Pearson χ, Kolmogoriv-Smirnov, Anderson-Darling
Příklad Výška Váha - Regresní přímka Ověření normality j ej 1-10,56798-5,567979 3-5,335868 4-4,330054 5-3,949016 6 -,335868 7-1,949016 8-1,7719 9-1,490608 10 1,741507 11 3,0509839 1 3,05745 13 14,4301 14 14,818873
Lineární normální regresní model diagnostika ověření modelu Předpokládejme, že je to první sloupec jsou jedničky: Dále označme: T 1 T yˆ X X X X y T 1 T b X X X yˆ Xb y X X n, k ~ 1 X H X T 1 T X X X yˆ Hy T MSS ( yˆ 1y) ( yˆ 1y) TSS ( y 1y) ( y 1y) T RSS ( y yˆ) ( y yˆ) T Platí: TSS=MSS+RSS
Lineární normální regresní model diagnostika ověření modelu Testem celého modelu se rozumí test hypotézy: T : ( 0, 1,, k ) ( y,0, H,0) vzhledem k alternativní Pak testovací kritérium: doplněk kritického oboru: W T na hladině významnosti α, 1,, k: 0 H A : 0 y, j j MSS F k 1 RSS n k 1 0, F 1 ( k 1, n k 1) Testem celého modelu se zkoumá, zda použitý model je lepší, než žádný model (model se nahradí průměrem z hodnot y)
Lineární normální regresní model diagnostika ověření modelu Test vhodnosti modelu: pomocí koeficientu determinace MSS RSS R 1 TSS TSS Často se uvádí v procentech a udává, kolik procent bodů je vysvětleno pomocí zvoleného modelu. Aby se odstranil vliv počtu parametrů, používá se upravený koeficient determinace: R 1 (1 R n 1 ) n k
Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha 1 Výška Excel Analýza dat Regrese: ANOVA Rozdíl SS MS F ýznamnost F Regrese 1 370,7693 370,7693 6,63637 0,047 Rezidua 1 670,445 55,8704 Celkem 13 1041,14 Regresní statistika Násobné R 0,596735
Lineární normální regresní model diagnostika ověření modelu Další charakteristiky pro ověření modelu: Střední kvadratická chyba predikce - MEP: MEP 1 n n i1 e i 1 h ii, kde h ii jdou diagonální prvky matice H Akaikovo informační kritérium - AIC: RSS k T AIC ln, kde RSS ( y yˆ) ( y yˆ ) n n čím jsou tyto kritéria menší tím je lepší model Predikovaný koeficient determinace R P : R P n MEP 1 je citlivější na vybočující body než R TSS
Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha 1 Výška Střední kvadratická chyba predikce - MEP: MEP= 64,09681 Akaikovo informační kritérium - AIC: AIC= 6,0194 Predikovaný koeficient determinace R P : RP = 0,138165
Lineární normální regresní model diagnostika detekce vlivných bodů Kvalita dat úzce souvisí s použitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavním zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů. Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů.
Lineární normální regresní model diagnostika detekce vlivných bodů Vlivné body silně ovlivňují většinu výsledků regrese. Lze je rozdělit do tří základních skupin: a) Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování) nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou obyčejně důsledkem chyb při manipulaci s daty. b) Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu. c) Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.
Lineární normální regresní model diagnostika detekce vlivných bodů Podle složky dat, ve které se vlivné body vyskytují, lze provést dělení na: 1. vybočující pozorování (outliers O), které se na ose y výrazně liší od ostatních (OB),. extrémy (high leverage points E), které se liší v hodnotách na ose x, nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů (EB). Vyskytují se však i body, které jsou jak vybočující tak i extrémní (OE). O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy.
Lineární normální regresní model - diagnostika
Lineární normální regresní model diagnostika detekce vlivných bodů Detekce vlivných bodů Pro detekci vlivných bodů ve směru nezávisle proměnných se využívají hodnoty h ii (diagonální hodnoty matice H). Body považujeme za vlivné, pokud k platí: h ii, ( pro n > 300 : ). n 3k h ii n Pro detekci vlivných bodů ve směru závisle proměnných se využívají hodnoty Studentizovaných reziduí. Body považujeme za vlivné, pokud platí: e Ti t1 k ( n )
Lineární normální regresní model diagnostika detekce vlivných bodů Cookova vzdálenost Cookova vzdálenost je často využívanou metodou pro identifikaci vlivných v regresi. Tato metoda měří vliv i-tého pozorování na hodnotu odhadu vektoru β regresního modelu T Cookova vzdálenost je definována: yˆ yˆ ˆ ˆ i y yi Di kse kde ŷ i je odhad při vynechání i-tého pozorování. Cookovu vzdálenost lze definovat také s pomocí Studentizovaných reziduí: D i Orientačně platí, že je-li Cookova vzdálenost D i >1, lze detekovat i-té pozorování jako vlivný bod. Hodnotu D i je však možné porovnávat také s kvantilem Fisherova rozdělení, a to konkrétně s kvantilem F α (k,n k). Body jsou vlivné, jestliže platí D i >F α (k,n k). e Ti k h ii 1 h ii ˆ y j, i
Lineární normální regresní model diagnostika detekce vlivných bodů Williamsův graf V tomto grafu jsou na ose x znázorněny diagonální prvky projekční matice h ii a na ose y pak Studentizovaná jackknife rezidua v absolutní hodnotě. V grafu jsou pak uvedeny také mezní linie pro detekci jak leverage points, tak outliers. A to mezní linie pro leverage points, tedy ve směru osy x: k n, 3k n a mezní linie pro outliers, tedy ve směru osy y:. t n ) Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. 1 ( k
Váha Výška 1 Příklad Výška Váha - Regresní přímka hii tudent_resi Cook 0,13685,487035 0,98068 0,07451 0,3184 0,00411 0,07004,449571 0,465573 0,06619-0,4843 0,016073 0,13685-1,619 0,417074 0,1089 0,417095 0,01114 0,13685-0,78909 0,09873 0,079159-0,796 0,045717 0,1089-0,651 0,008536 0,4803-0,79096 0,57833 0,079159-0,31318 0,00843 0,1089-0,5477 0,035754 0,163685 0,45318 0,040196 0,11136-0,09 0,00516 mez= mez= mez= 0,85714,00985 >1
Příklad Výška Váha - Regresní přímka Minitab: Test koeficientů na hodnotu 0: