4.11.011 REGRESNÍ DIAGNOSTIKA Chemometrie I, David MILDE Regresí diagostika Obsahuje postupy k posouzeí: kvality dat pro regresí model (přítomost vlivých bodů), kvality modelu pro daá data, splěí předpokladů pro MNČ (či jiou metodu odhadu). Společé posouzeí všech 3 výše uvedeých bodů ám umožňuje studium tzv. regresího tripletu. Regresí triplet: data + regresí model + metoda odhadu Z praktického hlediska (využití software) budeme regresí diagostiku dělit a části: metody aalýzy vlivých bodů, metody pro odhaleí porušeí předpokladů MNČ a posuzováí vhodosti modelu. 1
4.11.011 Regresí diagostika Základí rozdíl mezi regresí diagostikou a klasickými statistickými testy používaými v regresi je v tom, že eí třeba přesě formulovat alterativí hypotézu. Regresí diagostika se tak blíží EDA, a umožňuje iteraktiví zásah uživatele, který zá svá data lépe ež software. Tím je omeze vzik formálích regresích modelů, které emají fyzikálí smysl a jsou v praxi obvykle je omezeě použitelé. Kvalita dat: vlivé body Vlivé body ovlivňují výsledek statistické aalýzy tím, že zkreslují regresí model či zvyšují rozptyl. Lze je rozdělit do 3 skupi: hrubé chyby důsledek chyb při maipulaci s daty, body s vysokým vlivem spolehlivě změřeé body rozšiřující predikčí schopost regresího modelu, zdálivě vlivé body jeví se jako vlivé, protože byl zvole evhodý regresí model. Podle místa výskytu se dělí a: odlehlé body (OB) liší se v hodotách závisle proměé, extrémí body () liší se v hodotách ezávisle proměé, kombiace OB a, o jejich výsledém vlivu spíše rozhoduje to, že jsou.
4.11.011 Kvalita dat: vlivé body y OB OB, x Idikace vlivých bodů: statistická aalýza reziduí Reziduum je vyčísleá hodota z regresího modelu a používá se při posuzováí kvality modelu i kvality dat. 1. Klasické reziduum e i =y i y i,reg. Normovaé reziduum e Ni =e i / 3. Stadardizovaé reziduum (e Si ) idetifikaci heteroskedasticity slouží k 4. Jackkife reziduum (e Ji ) idetifikuje OB 5. Predikovaé reziduum (e Pi ) idetifikuje OB 3
4.11.011 Idikace vlivých bodů: aalýza vlivu pomocí idexů Velké možství diagostik vlivých bodů, které jsou založey a sledováí změ, ke kterým dojde při vypuštěí jedotlivých bodů a jejich dopočteí z regresího modelu. Cookova vzdáleost D i : je-li D i > 1, bod je vlivý. Atkisoova vzdáleost: modifikace Cookovy vzdáleosti se zvýrazěou citlivostí a. Diagoálí prvky projekčí matice H ii : idikují přítomost, které ezachytí aalýza reziduí, H=X(X T X) -1 X T V software se používá barevé zvýrazěí bodů idetifikovaých jako vlivé. Grafy idetifikace vlivých bodů Graf predikovaých reziduí (GPR) Williamsův graf OB OB OB, OB 4
4.11.011 Grafy idetifikace vlivých bodů Pregiboův graf (PG) erozlišuje od OB McCullohův-Meeterův graf (MMG) OB OB OB, Grafy idetifikace vlivých bodů L-R graf (osa x: H ii, osa y: e Ni ) Hyperboly zázorňují isoliie stejého vlivu. Podle polohy vůči 3 křivkám lze data rozdělit a slabě vlivá, vlivá a silě vlivá. Q-Q graf (osa x: kvatil N(O, 1), osa y: reziduum) Lze kostruovat pro růzá rezidua. Kromě vlivých bodů slouží i k posouzeí ormality reziduí. Graf Cookovy vzdáleosti. Graf Atkisoovy vzdáleosti. Graf diagoálích prvků projekčí matice H. 5
4.11.011 Grafická aalýza reziduí Vhodé použití MNČ Heteroskedasticita Tred v reziduích Chybý výpočet Chybý regresí model Ověřeí předpokladů MNČ Testováí regresího tripletu Statistická výzamost regresího modelu: F R test výzamosti regrese testuje, zda použitý model je lepší ež žádý model. viz. předáška o testováí hypotéz v LR Multikoliearita: Scottovo kritérium multikoliearity SC testuje, zda mezi ezávisle proměými eí příliš velká koliearita, která zvyšuje výrazě rozptyl parametrů regresího modelu. viz. předáška o polyomické regresi Závislost/tred reziduí: eparametrický test ověřuje přítomost závislostí, které ejsou postihuty modelem posouzeí a základě počtu změ +/- reziduí. 6
4.11.011 Ověřeí předpokladů MNČ Testováí regresího tripletu Heteroskedasticita = ekostatost rozptylu: Cook-Weisbergůvtest; CW se srovává s krit (1). Je-li CW > krit je prokázáa heteroskedasticita. ( yi y) ei i1 CW 4 ( y y) i1 Heteroskedasticitu lze odhalit i v grafu heteroskedasticity (osa x: (1-H ii )y i,osay:e Si ) klíový tvar bodů v grafu. V přítomosti heteroskedasticity je třeba uvažovat o použití vah = metodě vážeých ejmeších čtverců. i Ověřeí předpokladů MNČ Testováí regresího tripletu Normalita reziduí: Jarque-Bearův test; JB se srovává s krit (). Je-li JB < krit je prokázáa ormalita. Test je založe a posouzeí statistického rozděleí reziduí. g ( 3) JB. 1 g 6 4 Normalitu reziduí lze odhalit i v Q-Q grafech reziduí. 7
4.11.011 Ověřeí předpokladů MNČ Testováí regresího tripletu Autokorelace v LR bývá důsledkem vyecháí výzamé proměé související s y: Waldův test test; WA se srovává s krit (1). Je-li WA > krit je prokázáa autokorelace. Testuje přítomost autokorelace chyb a základě reziduí. Často se používá i Durbi-Watsoův test, který také ověřuje přítomost autokorelace a základě reziduí. 0 DW < a < DW < 4 potvrzuje autokorelaci. DW autokorelace eí. WA 1 1 1 DW í ( e e i i1 e i ) i1 Ověřeí předpokladů MNČ Kvalita regresího modelu Pomocí rozptylového grafu: y = f(x). Pomocí parciálích regresích grafů (zejméa u vícerozměré LR). Závislost y a zvoleé x i s elimiací vlivu ostatích ezávisle proměých x. Závislost je lieárí pouze v případě, že model je správý. y Směrice přímky = b i x i 8
4.11.011 Ověřeí předpokladů MNČ Kvalita regresího modelu Pomocí charakteristik vhodosti modelu AIC, MEP, R p. Při porováváí regresích modelů hledáme MEP a AIC miimálí a R p maximálí. Středí kvadratická chyba predikce -MEP(Mea Error of Predictio) MEP využívá predikce y reg,i z odhadu, při jehož kostrukci byla iformace o i-tém bodu vypuštěa. Jde tedy o chybu i-tého bodu závisle proměé spočítaou regresí právě s vyloučeím i-tého bodu. 1 MEP i1 ei (1 H ii ) Ověřeí předpokladů MNČ Kvalita regresího modelu Predikovaý koeficiet determiace R p - získáme pokud při výpočtu R použijeme MEP místo RSC, je citlivější a vybočující body ež klasický R. QC Expert používá predikovaý korelačí koeficiet R p. R p 1 i1 MEP Akaikovo iformačí kriterium AIC je kritérium kvality regrese vycházející z RSC pealizovaého počtem proměých. y i y RSC AIC l m 9
4.11.011 Výstavba lieárího regresího modelu 1. Návrh modelu (co ejjedodušší předběžý model).. Předběžá aalýza dat (posouzeí R, AIC, MEP, R p, ). 3. Regresí diagostika zaměřeá zejméa a kvalitu dat. 4. Kostrukce zpřesěého regresího modelu (případé použití jiých metod odhadu ež je MNČ). 5. Posouzeí kvality modelu s využitím testů regresího tripletu. 6. Tvorba koečého regresího modelu. 10