Výstavba regresního modelu regresním trpletem Prof. RNDr. Mlan Meloun, DrSc., Katedra analytcké cheme, Unverzta Pardubce, 53 10 Pardubce Souhrn: Postup hledání regresního modelu e popsán obecnì a dokumentován na 3 úlohách analytcké laboratoøe. Skládá se z tìchto krokù: 1. Návrh modelu zaèíná vždy od neednoduššího modelu, lneárního.. Pøedbìžná analýza dat sledue promìnlvost promìnných na rozptylových dagramech, ndexových grafech. Vyšetøue se multkolnearta, heteroskedastcta, autokorelace a vlvné body. 3. Odhadování parametrù se provádí klasckou metodou nemenších ètvercù, následue testování významnost parametrù Studentovým t-testem. Støední kvadratcká chyba predkce MEP a Akakovo nformaèní krtérum AIC sou rozhodèí krtéra pø hledání modelu. 4. Regresní dagnostka provádí dentfkac vlvných bodù a ovìøení pøedpokladù metody nemenších ètvercù. V pøípadì více vysvìtluících promìnných se posoudí vhodnost promìnných pomoc parcálních regresních grafù a parcálních rezduálních grafù. 5. Konstrukce zpøesnìného modelu: parametry zpøesnìného modelu sou odhadovány s využtím (a) metody vážených nemenších ètvercù (MVNÈ) pø nekonstantnost rozptylu, (b) metody zobecnìných nemenších ètvercù (MZNÈ) pø autokorelac, (c) metody podmínkových nemenších ètvercù (MPNÈ) pø omezení kladených na parametry, (d) metody raconálních hodností u multkolnearty, (e) metody rozšíøených nemenších ètvercù (MRNÈ) pro pøípad, že všechny promìnné sou zatížené náhodným chybam, a koneènì (f) robustních metod pro ná rozdìlení než normální a data s vyboèuícím hodnotam a extrémy. Pø výstavbì regresních modelù se bìžnì užívá metody nemenších ètvercù. Metoda nemenších ètvercù poskytue postaèuící odhady parametrù enom pø souèasném splnìní všech pøedpokladù o datech a o regresním modelu. Pokud tyto pøedpoklady nesou splnìny, ztrácí metoda nemenších ètvercù své vlastnost. Základní pøedpoklady metody nemenších ètvercù (MNÈ): Statstcké vlastnost odhadù P,, b závsí na splnìní stých pøedpokladù. Pokud platí pøedpoklady I až IV, sou odhady b parametrù â nelepší, nestranné a lneární (NNLO). Navíc maí asymptotcky normální rozdìlení. Pokud platí eštì pøedpoklad VII, maí odhady b normální rozdìlení pro koneèné výbìry. I. Regresní parametry â mohou nabývat lbovolných hodnot. V prax však èasto exstuí omezení parametrù, která vycházeí z ech fyzkálního smyslu. II. Regresní model e lneární v parametrech a platí adtvní model mìøení. III. Matce nenáhodných, nastavovaných hodnot vysvìtluících promìnných X má hodnost rovnou právì m. To znamená, že žádné eí dva sloupce x, x knesou kolneární, t. rovnobìžné T vektory. Tomu odpovídá formulace, že matce X X e symetrcká regulární matce, ke které exstue nverzní matce a eíž determnant e vìtší než nula. IV. Náhodné chyby maí nulovou støední hodnotu E( ) = 0. To musí u korelaèních modelù platt vždy. U regresních modelù se mùže stát, že E( ) = K, = 1,..., n, což znamená, že model neobsahue absolutní èlen. Po eho zavedení bude E( ) = 0, kde = y - - K. V. Náhodné chyby maí konstantní a koneèný rozptyl E( ) = ó. Také podmínìný rozptyl D(y/x) = ó e konstantní a de o homoskedastcký pøípad.
VI. Náhodné chyby sou vzáemnì nekorelované a platí cov( ) = E( ) = 0. Pokud maí chyby normální rozdìlení, sou nezávslé. Tento požadavek odpovídá požadavku nezávslost mìøených velèn y. VII. Chyby maí normální rozdìlení N(0, ó ). Vektor y má pak vícerozmìrné normální rozdìlení se støední hodnotou X â a kovaranèní matcí ó E, kde E e ednotková matce. Regresní dagnostka Metoda nemenších ètvercù nezaš ue obecnì nalezení pøatelného modelu, a to ak ze statstckého, tak z fyzkálního hledska. Musí být splnìny podmínky, odpovídaící složkám tzv. regresního trpletu [data, model, metoda odhadu]. Regresní dagnostka obsahue postupy k dentfkac a) vhodnost dat pro navržený regresní model (složka data), b) vhodnost modelu pro daná data (složka model), c) splnìní základních pøedpokladù MNÈ (složka metoda). Základní rozdíl mez regresní dagnostkou a klasckým testy spoèívá v tom, že u regresní dagnostky není tøeba pøesnì formulovat alternatvní hypotézu. Tímto poetím se regresní dagnostka blíží spíše k exploratorní regresní analýze, která vychází z faktu, že "užvatel ví o analyzovaných datech pøece enom více než poèítaè". Poèítaè slouží ako nástro analýzy dat, modelu a metody odhadu. Model e navrhován v nterakc užvatele s programem. Tím by mìl být omezen vznk formálních regresních modelù, které nemaí fyzkální smysl a sou v techncké prax obyèenì en omezenì použtelné. 1. Data: mez základní technky dagnostky patøí stanovení rozmezí dat, ech varablty a pøítomnost vyboèuících pozorování. K tomu lze využít grafù rozptýlení s kvantly a øady postupù prùzkumové analýzy ednorozmìrných dat. Pøes svo ednoduchost umožòue dagnostka dentfkovat eštì pøed vlastní regresní analýzou a) nevhodnost dat (malé rozmezí nebo pøítomnost vyboèuících bodù), b) nesprávnost navrženého modelu (skryté promìnné), c) multkolneartu, d) nenormaltu v pøípadì, kdy sou vysvìtluící promìnné náhodné velèny. Kvalta dat úzce souvsí s užtým regresním modelem. Pø posuzování se sledue pøedevším výskyt vlvných bodù (VB), které mohou být hlavním zdroem øady problémù, ako e zkreslení odhadù a rùst rozptylù až k naprosté nepoužtelnost regresních modelù. Podle toho, kde se vlvné body vyskytuí, lze provést dìlení na 1. Vyboèuící pozorování (outlers), které se lší v hodnotách vysvìtlované (závsle) promìnné y od ostatních, a. Extrémy (hgh leverage ponts), které se lší v hodnotách vysvìtluících (nezávsle) promìnných x nebo v ech kombnac (v pøípadì multkolnearty) od ostatních bodù. Vyskytuí se však body, které sou ak vyboèuící, tak extrémní. K dentfkac vlvných bodù typu vyboèuícího pozorování se využívá zeména rùzných typù rezduí a k dentfkac extrémù pak dagonálních prvkù H proekèní matce H.. Model: kvaltu regresního modelu lze posoudt v pøípadì edné vysvìtluící promìnné x pøímo z rozptylového grafu závslost y na x. V pøípadì více vysvìtluících promìnných a multkolnearty mohou však rozptylové grafy mylnì ndkovat nelneární trend u lneárního modelu. Z øady rùzných grafù k posouzení vztahu y a x se omezíme na a) parcální regresní grafy, a b) parcální rezduální grafy.
Parcální regresní grafy byly Belseyem zaøazeny mez základní nástroe poèítaèové nteraktvní analýzy regresních modelù. Umožòuí neenom posouzení kvalty navrženého regresního modelu, ale ndkuí pøítomnost vlvných bodù a nesplnìní pøedpokladù klascké metody nemenších ètvercù. Parcální regresní graf pro posouzení vztahu mez y a -tou vysvìtluící promìnnou x e závslost rezduí v regrese y na sloupcích matce X () a rezduí u regrese x na sloupcích matce X (). Pøtom matce X () vznkne z matce X vynecháním -tého sloupce x, odpovídaícího -té vysvìtluící promìnné. Parcální regresní grafy maí tyto vlastnost: a) Smìrnce pøímky v parcálním regresním grafu e stená ako odhad b v nedìleném modelu a úsek e roven nule. Tato lneární závslost platí pouze v pøípadì, že navržený model e správný. b) Korelaèní koefcent mez obìma promìnným parcálního regresního grafu odpovídá parcálnímu korelaènímu koefcentu. Parcální rezduální grafy se oznaèuí také ako grafy "komponenta + rezduum". Parcální rezduální grafy však poskytuí ponìkud odlšné nformace než parcální regresní grafy. Smìrnce lneární závslost e rovna b a úsek e nulový. Lneární závslost pak ukazue na vhodnost navržené promìnné x v modelu. Parcální rezduální grafy se doporuèuí pøedevším k ndkac rozlèných typù nelnearty v pøípadì nesprávnì navrženého regresního modelu. 3. Metoda: V prax bývaí nìkteré pøedpoklady MNÈ porušeny, což vede k použtí ných krtérí. K porušení pøedpokladù dochází v tìchto základních pøípadech: a) Na parametry sou kladena omezení, což vede na užtí metody podmínkových nemenších ètvercù (MPNÈ). b) Kovaranèní matce chyb není dagonální (autokorelace), pøíp. data nemaí stený rozptyl (heteroskedastcta), což vede na užtí metody zobecnìných nemenších ètvercù (MZNÈ), resp. metody vážených nemenších ètvercù (MVNÈ). c) Rozdìlení dat nelze považovat za normální nebo se v datech vyskytuí vlvné body. V takovém pøípadì se místo krtéra metody nemenších ètvercù uže robustního krtéra, které e na porušení pøedpokladu o rozdìlení chyb a na vlvné body málo ctlvé. Z robustních krtérí sou neznámìší M-odhady. Jedná se o maxmálnì vìrohodné odhady pro vhodnou hustotu pravdìpodobnost chyb. Pro odhad parametrù b se užívá teraèní metody vážených nemenších ètvercù (IVNÈ). d) Také promìnné x mohou být zatížené náhodným chybam, což vede na užtí metody rozšíøených nemenších ètvercù (MRNÈ). Pro pøípad regresní pøímky e použtí metody rozšíøených nemenších ètvercù velm ednoduché. Postaèue znalost pomìru rozptylu (vysvìtlovaná promìnná) a (vysvìtluící promìnné),. Pro odhad smìrnce regresní pøímky y = a x + b pak platí kde yx a sgn S e znaménková funkce. Symboly S oznaèuí souèty ètvercù, odpovídaících promìnných
,, Pø znalost odhadu smìrnce se snadno urèí odhad úseku ze vztahu Pro pøípad stených rozptylù, t. K = 1 vede dosazení do výše uvedených vztahù k odhadùm mnmalzuícím kolmé vzdálenost (orthogonální regrese). Pro odhady rozptylù odhadù, se pak používá specálních vztahù. T e) Pro špatnì podmínìné matce XX se používá metoda raconálních hodností, vedoucí k systému vychýlených odhadù, kde vychýlení e øízeno edním parametrem. Postup výstavby lneárního regresního modelu: 1. Návrh modelu: zaèíná se vždy od neednoduššího modelu, u kterého vystupuí ednotlvé vysvìtluící promìnné v prvních mocnnách a nevyskytuí se žádné nterakèní èleny typu x x. k. Pøedbìžná analýza dat: sledue se promìnlvost ednotlvých promìnných a možné párové vztahy. Užívá se proto rozptylových dagramù závslost x na x knebo ndexových grafù závslost x na. Posuzue se významnost promìnných s ohledem na ech promìnlvost a pøítomnost multkolnearty. Pøblžnì lneární vztah mez promìnným v rozptylových grafech závslost x na x k ndkue multkolneartu. Lze rovnìž odhalt vlvné body, které zpùsobuí multkolneartu. Podle volby užvatele se provedou požadované transformace pùvodních promìnných. Zadává se, zda model obsahue absolutní èlen. Užvatel mùže volt polynomckou transformac zadáním stupnì polynomu. Provádí se sestavení korelaèní matce R a eí rozklad na vlastní èísla a vlastní vektory. Jsou vypoèteny VIF k ndkac multkolnearty a tsknuta setøídìná vlastní èísla. K urèení nverzní -1-15 matce R se užívá metoda raconálních hodností pro standardnì zadávané vychýlení P = 10. Užvatel mùže zadat nou hodnotu parametru vychýlení P, což však vede pro vyšší hodnoty -5-3 P k vychýleným odhadùm. Bývá proto vhodné volt P z tohoto ntervalu 10 P 10. 3. Odhadování parametrù: odhadování parametrù modelu se provádí metodou -5-1 raconálních hodností s volbou P = 10. Ze zobecnìné nverzní matce R sou urèovány odhady parametrù b, ech smìrodatné odchylky a velkost testaèních statstk Studentova t-testu významnost pro â = 0. Dále sou provedeny testy významnost odhadù b, vícenásobného korelaèního koefcentu R a koefcentu determnace D. Je vhodné sledovat souhrnné charakterstky regrese ako e støední kvadratcká chyba predkce MEP a Akakovo nformaèní krtérum AIC, pøípadnì posoudt lneartu modelu. 4. Regresní dagnostka: s využtím pìt rozlèných grafù e provádìna dentfkace vlvných bodù, a to grafy Wlamsovým, Pregbonovým, McCulloh-Meeterovým, L-R, a grafem predkovaných rezduí. Dále pak ovìøení splnìní pøedpokladù metody nemenších ètvercù ako e homoskedastcta, nepøítomnost autokorelace a normalta rozdìlení chyb. Pokud dode k úpravì dat, e tøeba provést znovu regresní dagnostku se zamìøením na porušení pøedpokladù metody nemenších ètvercù a posouzení vlvu multkolnearty. V pøípadì více vysvìtluících promìnných se posoudí vhodnost ednotlvých promìnných a ech funkcí s využtím parcálních regresních grafù nebo grafù "komponenta + rezduum". Tabulka rezduí
obsahue klascká rezdua, normovaná rezdua N, standardzovaná rezdua S a Jackknfe rezdua J. Je uveden odhad autokorelaèního koefcentu rezduí prvního øádu. Tabulka vlvných bodù obsahue velèny H,, D, A, DF, LD (b), LD ( ) a LD (b, ). Hvìzdèkou sou oznaèeny hodnoty slnì vlvných bodù. 5. Konstrukce zpøesnìného modelu: s využtím a) metody vážených nemenších ètvercù (MVNÈ) pø nekonstantnost rozptylù, b) metody zobecnìných nemenších ètvercù (MZNÈ) pø autokorelac, c) metody podmínkových nemenších ètvercù (MPNÈ) pø omezeních na parametry, d) metody raconálních hodností RH u multkolnearty, e) metody rozšíøených nemenších ètvercù (MRNÈ) pro pøípad, že všechny promìnné sou zatížené náhodným chybam, f) robustní metody pro ná rozdìlení dat než normální a data s vyboèuícím hodnotam a extrémy sou odhadovány parametry zpøesnìného modelu. 6. Zhodnocení kvalty modelu: s využtím klasckých testù, postupù regresní dagnostky a doplòkových nformací o modelované soustavì se provede posouzení kvalty navrženého lneárního regresního modelu. Vzorová úloha: Model teplotní závslost pøechodového tlaku bsmutu (J6.01) Ukážeme postup analýzy ednorozmìrného lneárního regresního modelu. Byl studován pøechodový tlak bsmutu I - II p ako funkce teploty t. Naleznìte lneární regresní model, který bude adekvátní daným datùm. Vyšetøete regresní trplet a ndkute vlvné body. Data: Teplota t [ C], tlak p [bar]: 0.8 576, 0.9 556, 1.0 516, 1.9 5187,.1 517,.1 5187,.4 5177,.5 5177, 4.8 5098, 4.8 5093, 5.0 5088, 34.0 4711, 34.0 4701, 34.1 4716, 4.7 4374, 4.7 4394, 4.7 4384, 49.9 4067, 50.1 4057, 50.1 4057,.5 5147, 3.1 5107, 3.0 5077 Øešení: 1. Odhadování parametrù: klasckou metodou nemenších ètvercù (MNÈ) byly nalezeny nelepší odhady úseku â 0 a smìrnce â 1. Studentùv t-test ukázal, že úsek (absolutní èlen) â 0 e statstcky významný a smìrnce â e statstcky významná. 1 Odhad Smìrodatná Test H0: B[] = 0 vs. HA: B[] <> 0 odchylka t-krterum hypoteza H0 e Hlad. význam. B[0].6068E+04 1.6169E+01 1.61E+03 Zamítnuta 0.000 B[1] -3.9874E+01 5.0419E-01-7.9084E+01 Zamítnuta 0.000. Regresní dagnostka: absolutní hodnota párového korelaèního koefcentu R ukazue, že navržený lneární regresní model e statstcky významný. Vysoká hodnota koefcentu determnace D = R (99.67%), pøedstavue procento varablty, vysvìtlené modelem. Predkovaný koefcent determnace R p ukazue na predkèní schopnost modelu, e však vyèíslen nak než R, místo RSC se ve vztahu uže MEP. Støední kvadratcká chyba predkce MEP a Akakovo nformaèní krtérum AIC se užívaí k rozlšení mez nìkolka navrženým modely. Za optmální se považue model, pro který dosahue MEP a AIC mnmální hodnotu. Vícenásobný korelaèní koefcent, R Koefcent determnace, D Predkovaný koefcent determnace, Rp^ : 9.9833E-01 : 9.9665E-01 : 9.9804E-01
Støední kvadratcká chyba predkce, MEP Akakeho nformaèní krtérum, AIC : 6.8546E+0 : 1.5054E+0 3. Konstrukce zpøesnìného modelu: (a) Po odstranìní bodù è. 3 (krtka dat) byly nalezeny nové odhady parametrù zpøesnìného modelu. Zpøesnìný model (v závorce e uveden vždy odhad smìrodatné odchylky parametru) y = 6 078 (13) - 40.1 (0.4) x 1 e doložen statstckým charakterstkam: párový korelaèní koefcent R = 0.9990, koefcent determnace D = 99.808% a predkovaný korelaèní koefcent R P = 0.99885 dosáhly vesmìs vysokých hodnot. Støední kvadratcká chyba predkce MEP = 414. a Akakeho nformaèní krtérum AIC = 13.6 dosáhly nžších hodnot než u pøedešlého modelu, což dokazue, že zpøesnìný model e lepší. Rezdua nyní vykazuí normální rozdìlení a nevykazuí trend, stále však vykazuí heteroskedastctu, a proto lze doporuèt použít metodu vážených nemenších ètvercù. (b) Užtím statstcké váhy (w = 1/y ) kompenzueme heteroskedastctu v datech. Obdržíme nové odhady parametrù. Opravený model má tvar, (v závorce e uveden odhad smìrodatné odchylky parametru) y = 6 079 (13) - 40.1 (0.4) x 1. Jelkož došlo ke snížení rozhoduících krtérí, t. støední kvadratcké chyby predkce MEP = 410.9 a Akakeho nformaèního krtéra AIC = 13.39, lze považovat tyto odhady za lepší než pøedešlé. 4. Zhodnocení kvalty modelu: porovnáním hodnot regresní dagnostky lze snadno provést zhodnocení regresního trpletu u dosaženého lneárního regresního modelu pro upravená data, zbavená odlehlých hodnot a metodou vážených nemenších ètvercù. Nalezený a prokázaný model teplotní závslost pøechodového tlaku bzmutu má tvar, (v závorce e vždy uveden odhad smìrodatné odchylky parametru) y = 6 079 (13) - 40.1 (0.4) x. Podìkování: Práce vznkla za podpory grantu Mnsterstva zdravotníctví NS9831-4/008 a vìdeckých zámìrù MSMT0016750. Doporuèená lteratura [1] Meloun M., Mltký J., Statstcké zpracování expermentálních dat, Plus Praha 1994, Academa Praha 004.. [] Meloun M., Mltký J., Hll M., Poèítaèová analýza vícerozmìrných dat v pøíkladech, Academa Praha 005. [3] Meloun M., Mltký J., Kompendum statstckého zpracování expermentálních dat, Academa Praha 00, 006. 1