PRAVDĚPODOBNOST A STATISTIKA
Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti Vektor β je nenáhodný, tedy E Y β vary I Y T T Y 1,,Y n Matice n,k je náhodný vektor a y y 1,, se nazývá matice plánu y n je jeho realizace. Předpokládáme navíc, že ~ Nn ( 0, I) tedy Y ~ N n ( β, I )
SP Regresní analýza Z těchto předpokladů plyne: rezidua : realizace reziduí: Lineární normální regresní model 1, ~ ˆ β β T k N ), ( ~ ˆ M 0 Y Y U N n Y β T T 1 ˆ Y β Y T T 1 ˆ ˆ T T H 1 Y HY ˆ k h (H) H I M k n h (M) ), ( ~ ˆ ˆ M 0 Y Y U E N n ), ( ~ ˆ H β Y N n MY Y Y U ˆ y y e ˆ
Lineární normální regresní model - diagnostika Diagnostika: -ověření modelu - ověření zda v datech je nějaká závislost - ověření kvality modelu -ověření předpokladů - ověření normality - ověření stejného rozptylu -zjištění vlivných bodů - vlivné body v nezávisle proměnných - vlivné body v závisle proměnných
Lineární normální regresní model diagnostika ověření modelu Předpokládejme, že je to první sloupec jsou jedničky: Dále označme: T 1 T yˆ y T 1 T b yˆ b y n, k 1 ~ H T 1 T yˆ Hy MSS T ( yˆ 1y) ( yˆ 1y) TSS T ( y 1y) ( y 1y) RSS T ( y yˆ) ( y yˆ) Platí: TSS=MSS+RSS
Lineární normální regresní model diagnostika ověření modelu Testem celého modelu se rozumí test hypotézy: T T H : ( 0, 1,, k ) ( y,0,,0) vzhledem k alternativní Pak testovací kritérium: doplněk kritického oboru: W na hladině významnosti α, 1,, k: 0 H A : 0 y, j j MSS F k 1 RSS n k 1 0, F 1 ( k 1, n k 1) Testem celého modelu se zkoumá, zda použitý model je lepší, než žádný model (model se nahradí průměrem z hodnot y)
Lineární normální regresní model diagnostika ověření modelu Test vhodnosti modelu: pomocí koeficientu determinace MSS RSS R 1 TSS TSS Často se uvádí v procentech a udává, kolik procent bodů je vysvětleno pomocí zvoleného modelu. Aby se odstranil vliv počtu parametrů, používá se upravený koeficient determinace: R 1 (1 R n 1 ) n k
Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha Výška 1 Excel Analýza dat Regrese: ANOVA Rozdíl SS MS F ýznamnost F Regrese 1 370,7693 370,7693 6,63637 0,047 Rezidua 1 670,445 55,8704 Celkem 13 1041,14 Regresní statistika Násobné R 0,596735
Předpoklady: Y ~ ( β, N n I ) Lineární normální regresní model diagnostika ověření předpokladů Při ověřování předpokladů se vychází z reziduí ˆ ~ (, E N 0 M) D( E i ) (1 h ii ) n Získané hodnoty: e y yˆ
Váha Výška 1 Příklad Výška Váha - Regresní přímka
Složky e nemusí mít stejný rozptyl Lineární normální regresní model diagnostika ověření předpokladů Modifikace: - normalizované rezidua: e Ni e i s - standardizované rezidua: - studentizované rezidua: kde s s ( i) e e Si Ti s je odhad rozptylu, pokud vynecháme i tý bod ei n ks T y b( i) y b 1 ( i) h s ( i) n k 1 n k 1 ( i) s e i 1 h e i ( i) 1 ii h ii ii
Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: x i y složka bude: e si v grafu hledáme - velké hodnoty (outlier) - trend (potřeba přidat třeba x - oblasti s různým rozptylem (porušen předpokladu) - Bartlettuv test Příklad:
Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: y složka bude: e si i 1 h ii y
Váha Výška 1 Příklad Výška Váha - Regresní přímka
Heteroskedasticita nekonstantnost rozptylu - v grafické analýze reziduí x složka: h ii y, y složka : klínový tvar bodů v grafu -Cook-Weisbergův test: Pokud CW (1) Lineární normální regresní model diagnostika ověření předpokladů CW n s i1 je prokázána heteroskedasticita. 4 1 V přítomnosti heteroskedasticity je třeba uvažovat o použití metodě vážených nejmenších čtverců. ( y n i i1 ( y y) e i i i y) e si
Lineární normální regresní model - diagnostika Ověření normality uspořádání rezudií: e( 1) e( n) - Q-Q plot j 3 1 e 8 tj. empiricky vs. teoreticky kvantil ( j ), n 1 4 - P-P plot: j 0.5, e( j) n normální body by měly být na přímce y=x - testy normality: Pearson χ, Kolmogoriv-Smirnov, Anderson-Darling
Příklad Výška Váha - Regresní přímka Ověření normality j ej 1-10,56798-5,567979 3-5,335868 4-4,330054 5-3,949016 6 -,335868 7-1,949016 8-1,7719 9-1,490608 10 1,741507 11 3,0509839 1 3,05745 13 14,4301 14 14,818873
Lineární normální regresní model - diagnostika Ověření nezávislosti Složky e i mohou být závislé zjišťuje se autokorelace Durbin-Watsonův test nezávislosti (u posloupnosti) d n1 i1 e n ei i1 i1 e i d 0, 4 Pokud d nezamítáme nezávislost, jinak jsou hodnoty zavislé na Příklad Výška - Váha: d= 0,497331
Lineární normální regresní model diagnostika detekce vlivných bodů Kvalita dat úzce souvisí s použitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavním zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů. Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů.
Lineární normální regresní model diagnostika detekce vlivných bodů Vlivné body silně ovlivňují většinu výsledků regrese. Lze je rozdělit do tří základních skupin: a) Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování) nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou obyčejně důsledkem chyb při manipulaci s daty. b) Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu. c) Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.
Lineární normální regresní model diagnostika detekce vlivných bodů Podle složky dat, ve které se vlivné body vyskytují, lze provést dělení na: 1. vybočující pozorování (outliers O), které se na ose y výrazně liší od ostatních (OB),. extrémy (high leverage points E), které se liší v hodnotách na ose x, nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů (EB). Vyskytují se však i body, které jsou jak vybočující tak i extrémní (OE). O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy.
Lineární normální regresní model - diagnostika
Lineární normální regresní model diagnostika detekce vlivných bodů Detekce vlivných bodů Pro detekci vlivných bodů ve směru nezávisle proměnných se využívají hodnoty h ii (diagonální hodnoty matice H). Body považujeme za vlivné, pokud k platí: h ii, ( pro n > 300 : ). n 3k h ii n Pro detekci vlivných bodů ve směru závisle proměnných se využívají hodnoty Studentizovaných reziduí. Body považujeme za vlivné, pokud platí: e Ti t1 k ( n )
Lineární normální regresní model diagnostika detekce vlivných bodů Cookova vzdálenost Cookova vzdálenost je často využívanou metodou pro identifikaci vlivných v regresi. Tato metoda měří vliv i-tého pozorování na hodnotu odhadu vektoru β regresního modelu T Cookova vzdálenost je definována: yˆ yˆ ˆ ˆ i y yi Di kse kde ŷ i je odhad při vynechání i-tého pozorování. Cookovu vzdálenost lze definovat také s pomocí Studentizovaných reziduí: D i Orientačně platí, že je-li Cookova vzdálenost D i >1, lze detekovat i-té pozorování jako vlivný bod. Hodnotu D i je však možné porovnávat také s kvantilem Fisherova rozdělení, a to konkrétně s kvantilem F α (k,n k). Body jsou vlivné, jestliže platí D i >F α (k,n k). e Ti k h ii 1 h ii ˆ y j, i
Lineární normální regresní model diagnostika detekce vlivných bodů Williamsův graf V tomto grafu jsou na ose x znázorněny diagonální prvky projekční matice h ii a na ose y pak Studentizovaná jackknife rezidua v absolutní hodnotě. V grafu jsou pak uvedeny také mezní linie pro detekci jak leverage points, tak outliers. A to mezní linie pro leverage points, tedy ve směru osy x: k n, 3k n a mezní linie pro outliers, tedy ve směru osy y:. t n ) Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. 1 ( k
Váha Výška 1 Příklad Výška Váha - Regresní přímka hii tudent_resi Cook 0,13685,487035 0,98068 0,07451 0,3184 0,00411 0,07004,449571 0,465573 0,06619-0,4843 0,016073 0,13685-1,619 0,417074 0,1089 0,417095 0,01114 0,13685-0,78909 0,09873 0,079159-0,796 0,045717 0,1089-0,651 0,008536 0,4803-0,79096 0,57833 0,079159-0,31318 0,00843 0,1089-0,5477 0,035754 0,163685 0,45318 0,040196 0,11136-0,09 0,00516 mez= mez= mez= 0,85714,00985 >1
Příklad Výška Váha - Regresní přímka Minitab: Test koeficientů na hodnotu 0: