6 LINEÁRNÍ REGRESNÍ MODELY

1 6 LINEÁRNÍ REGRESNÍ MODELY Př budování regresních modelů se běžně užívá metody nejmenších čtverců. Metoda nejmenších čtverců poskytuje postačující odhady parametrů jenom př současném splnění všech předpokladů o datech a o regresním modelu. Pokud tyto předpoklady nejsou splněny, ztrácí výsledky metodou nejmenších čtverců své vlastnost. Užtí lneární regresní analýzy se týkají následujících možností: 1. Pops dat: hledáme vztah, lneární regresní model, který sumarzuje soubor dat.. Určení parametrů: nejběžnějším cílem regresní analýzy je vyčíslení nejlepších odhadů neznámých parametrů regresního modelu. Užvatel navrhne regresní model a regresní analýzou se snaží model prokázat. Často tento cíl překrývá ostaní záměry regresní analýzy. 3. Predkce: nejdůležtějším cílem regresní analýzy je predkce, vyčíslení hodnot závsle proměnných. Bývá to často cena, dodací lhůta, účnnost, obložnost v nemoc-nc, výtěžek reakce, síla kovu, atd. Predkce jsou důležté v plánování, montorngu, vyhodnocování chemckých procesů atd. Je však řada předpokladů a kvalfkací, které se musí respektovat v regresním modelu a datech. Často se například nesmí extrapolovat mmo rozsah dat. Intervalové odhady vyžadují dodržení předpokladu normalty. Metoda nejmenších čtverců (MNČ) má svých sedm důležtých předpo-kladů, které je třeba respektovat a dodržet. 4. Řízení: regresní modely lze využít také k montorngu a řízení systémů, například ke kalbrac měřcího systému. Když využjeme regresní model k řídcím účelům, nezávsle proměnné musí být vztaženy k závsle proměnné kauzálním způsobem. 5. Výběr (volba) proměnných: volba proměnných sleduje ty nezávsle proměnné, které vysvětlují významný objem proměnlvost závsle proměnné. V řadě aplkací nejde o jednorázový proces, ale o spojtý proces výstavby modelu.

Základní předpoklady metody nejmenších čtverců: statstcké vlastnost odhadů ŷ P, ê, b závsí na splnění jstých základních předpokladů. Předpoklady metody nejmenších čtverců: I. Regresní parametry β mohou nabývat lbovolných hodnot. V prax však exstují často omezení parametrů, která vycházejí z jejch fyzkálního smyslu. II. Regresní model je lneární v parametrech a platí adtvní model měření. III. Matce nenáhodných, nastavovaných hodnot vysvětlujících proměnných X má hodnost rovnou právě m. To znamená, že žádné její dva sloupce x j, x k nejsou kolneární, tj. T rovnoběžné vektory. Tomu odpovídá formulace, že matce X X je symetrcká regulární matce, ke které exstuje nverzní matce a jejíž determnant je větší než nula. IV. Náhodné chyby g mají nulovou střední hodnotu E(g ) = 0. To musí u kore-lačních modelů platt vždy. U regresních modelů se může stát, že E(g ) = K, = 1,..., n, což znamená, že model neobsahuje absolutní člen. Po jeho zavedení bude E( g ) ) = 0, kde g ) = y - ŷ P, - K. g V. Náhodné chyby g mají konstantní a konečný rozptyl E( ) = σ. Také podmíněný rozptyl D(y/x) = σ je konstantní a jde o homoskedastcký případ. VI. Náhodné chyby g jsou vzájemně nekorelované a platí cov(g j g ) = E(g j g ) = 0. Pokud mají chyby normální rozdělení, jsou nezávslé. Tento požadavek odpovídá požadavku nezávslost měřených velčn y. VII. Chyby g mají normální rozdělení N(0, σ ). Vektor y má pak vícerozměrné normální rozdělení se střední hodnotou X β a kovaranční matcí σ E, kde E je jednotková matce. Pokud platí předpoklady I až VI, jsou odhady b parametrů β nejlepší, nestranné a lneární (NNLO). Navíc mají asymptotcky normální rozdělení. Pokud platí ještě předpoklad VII, mají odhady b normální rozdělení pro konečné výběry. Regresní dagnostka: metoda nejmenších čtverců nezajšťuje obecně nalezení přjatelného modelu, a to jak ze statstckého, tak z fyzkálního hledska. Musí být splněny podmínky, odpovídající složkám tzv. regresního trpletu (krtka dat, krtka modelu a krtka metody odhadu). Regresní dagnostka obsahuje postupy k dentfkac a) vhodnost dat pro navržený regresní model (složka data), b) vhodnost modelu pro daná data (složka model), c) splnění základních předpokladů MNČ (složka metoda). Základní rozdíl mez regresní dagnostkou a klasckým testy spočívá v tom, že u regresní dagnostky není třeba přesně formulovat alternatvní hypotézu H A. Tímto pojetím se regresní dagnostka blíží spíše k exploratorní regresní analýze, která vychází z faktu, že "užvatel ví o analyzovaných datech přece jenom více než počítač". Počítač zde slouží pouze jako nástroj analýzy dat, modelu a metody odhadu. Model je navrhován v nterakc užvatele s programem. Tím by měl být omezen vznk formálních regresních modelů, které nemají fyzkální smysl a jsou v techncké prax obyčejně jen omezeně použtelné. 1. Data: mez základní technky regresní dagnostky patří stanovení rozmezí dat, jejch varablty a přítomnost vybočujících pozorování. K tomu lze využít grafů rozptýlení s kvantly a řady postupů průzkumové analýzy jednorozměrných dat z kap.. Přes svoj

jednoduchost umožňuje regresní dagnostka dentfkovat ještě před vlastní regresní analýzou a) nevhodnost dat (malé rozmezí nebo přítomnost vybočujících bodů), b) nesprávnost navrženého modelu (skryté proměnné), c) multkolneartu, d) nenormaltu v případě, kdy jsou vysvětlující proměnné náhodným velčnam. Kvalta dat úzce souvsí s užtým regresním modelem. Př posuzování se sleduje především výskyt vlvných bodů, které mohou být hlavním zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužtelnost regresních modelů. Vlvné body lze rozdělt do tří skupn: a) Hrubé chyby, které jsou způsobeny měřenou velčnou (vybočující pozorování) nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Hrubé chyby jsou obyčejně důsledkem chyb př manpulac s daty. b) Body s vysokým vlvem (tzv. golden ponts) jsou specálně vybrané body, které byly přesně změřeny, a které obvykle rozšřují predkční schopnost modelu. c) Zdánlvě vlvné body vznkají jako důsledek nesprávně navrženého regresního modelu. Podle toho, kde se vlvné body vyskytují, lze provést dělení na 1. Vybočující pozorování (outlers), které se lší v hodnotách vysvětlované (závsle) proměnné y od ostatních, a. extrémy (hgh leverage ponts), které se lší v hodnotách vysvětlujících (nezávsle) proměnných x nebo v jejch kombnac (v případě multkolnearty) od ostatních bodů. Vyskytují se však body, které jsou jak vybočující, tak extrémní. O jejch výsledném vlvu však především rozhoduje to, že jsou extrémy. K dentfkac vlvných bodů typu vybočujícího pozorování se využívá zejména různých typů rezduí a k dentfkac extrémů 7 pak dagonálních prvků H projekční matce H (detaly v učebnc ).. Model: kvaltu regresního modelu lze posoudt v případě jedné vysvětlující proměnné x přímo z rozptylového grafu závslost y na x. V případě více vysvětlujících proměnných a multkolnearty mohou však rozptylové grafy mylně ndkovat nelneární trend u lneárního modelu. Z řady různých grafů k posouzení vztahu y a x se omezíme na a) parcální j regresní grafy, a b) parcální rezduální grafy. Parcální regresní grafy byly Belseyem zařazeny mez základní nástroje počítačové nteraktvní analýzy regresních modelů. Umožňují nejenom posouzení kvalty navrženého regresního modelu, ale ndkují přítomnost vlvných bodů a nesplnění předpokladů klascké metody nejmenších čtverců. Parcální regresní graf pro posouzení vztahu mez y a -tou vysvětlující proměnnou x je závslost rezduí v regrese y na sloupcích matce X () a rezduí u regrese x na sloupcích matce X. Přtom matce X vznkne z matce X vynecháním - () () tého sloupce x, odpovídajícího -té vysvětlující proměnné. Parcální regresní grafy mají tyto vlastnost: a) Směrnce přímky v parcálním regresním grafu je stejná jako odhad b j v neděleném modelu a úsek je roven nule. Tato lneární závslost platí pouze v případě, že navržený model je správný. b) Korelační koefcent mez oběma proměnným parcálního regresního grafu odpovídá parcálnímu korelačnímu koefcentu. ˆR yxj (x) 3

4 c) Rezdua v parcálním regresním grafu jsou shodná s klasckým rezdu ê pro nedělený model. d) V grafu jsou ndkovány vlvné body a některá porušení předpokladů metody nejmenších čtverců (heteroskedastcta). Parcální rezduální grafy se označují také jako grafy "komponenta + rezduum". Parcální rezduální grafy však poskytují poněkud odlšné nformace než parcální regresní grafy: a) Směrnce lneární závslost je rovna b a úsek je nulový. Lneární závslost pak j ukazuje na vhodnost navržené proměnné x j v modelu. b) Rezdua regresní přímky jsou přímo rezdua ê pro nedělený model. c) Pokud je úhel mez x j a některým sloupc matce X (j) malý (multkolnearta), ukazuje parcální rezduální graf nesprávně malý rozptyl kolem regresní přímky b jx ja dochází navíc k potlačení efektu vlvných bodů. Parcální rezduální grafy se doporučují především k ndkac rozlčných typů nelnearty v případě nesprávně navrženého regresního modelu. 3. Metoda: v prax bývají některé předpoklady MNČ porušeny, což vede k použtí jných krtérí. K porušení předpokladů dochází v těchto základních případech: a) Na parametry jsou kladena omezení, což vede na užtí metody podmínkových nejmenších čtverců (MPNČ). b) Kovaranční matce chyb není dagonální (autokorelace), popř. data nemají stejný rozptyl (heteroskedastcta), což vede na užtí metody zobecněných nejmenších čtverců (MZNČ), resp. metody vážených nejmenších čtverců (MVNČ). c) Rozdělení dat nelze považovat za normální nebo se v datech vyskytují vlvné body. V takovém případě se místo krtéra metody nejmenších čtverců užje robustního krtéra, které je na porušení předpokladu o rozdělení chyb a na vlvné body málo ctlvé. Z robustních krtérí jsou nejznámější M-odhady. Jedná se o maxmálně věrohodné odhady pro vhodnou hustotu pravděpodobnost chyb. Pro odhad parametrů b se užívá terační metody vážených nejmenších čtverců (IVNČ). d) Také proměnné x mohou být zatíženy náhodným chybam, což vede na užtí metody rozšířených nejmenších čtverců (MRNČ). Pro případ regresní přímky je použtí metody rozšířených nejmenších čtverců velm jednoduché. Postačuje znalost poměru rozptylu F x K ' F (vysvětlovaná proměnná) a (vysvětlující proměnné), y /F x. Pro odhad směrnce regresní přímky y = a x + b pak platí F y â ' L % sgn(s yx ) K % L, kde L ' S yx & K S x S x a sgn S je znaménková funkce. Symboly S označují součty čtverců, odpovídajících yx proměnných

5 n n S x ' j (x & x), S y ' j (y & ȳ), '1 '1 S yx ' j n '1 (x & x)(y & ȳ). Př znalost odhadu směrnce â se snadno určí odhad úseku ˆb ze vztahu ˆb ' ȳ & â x Pro případ stejných rozptylů, tj. K = 1, vede dosazení do uvedených vztahů k odhadům mnmalzujícím kolmé vzdálenost (ortogonální regrese). Pro odhady rozptylů odhadů â, ˆb se pak používá specálních vztahů. T e) Pro špatně podmíněné matce XX se používá metoda raconálních hodností, (General Prncpal Component Regresson) vedoucí k systému vychýlených odhadů, kde vychýlení je řízeno jedním parametrem. Postup výstavby lneárního regresního modelu (ADSTAT) 7 (defnce regresních dagnostk a ostatních statstckých pojmů jsou v učebnc ): 1. Návrh modelu: začíná se vždy od nejjednoduššího modelu, u kterého vystupují jednotlvé vysvětlující proměnné v prvních mocnnách a nevyskytují se žádné nterakční členy typu x j x. k Pouze v případech, u kterých je předem známo, že model má obsahovat funkce vysvětlujících proměnných, může být výchozí model dle těchto požadavků upraven.. Předběžná analýza dat: sleduje se proměnlvost jednotlvých proměnných a možné párové vztahy. Užívá se proto rozptylových dagramů závslost x j na x k nebo ndexových grafů závslost x na j. Posuzuje se významnost proměnných s ohledem na jejch j proměnlvost a přítomnost multkolnearty. Přblžně lneární vztah mez proměnným v rozptylových grafech závslost x j na x k ndkuje multkolneartu. Lze rovněž odhalt vlvné body, které způsobují multkolneartu. Podle volby užvatele se provedou požadované transformace původních proměn-ných. Zadává se, zda model obsahuje absolutní člen. Užvatel může volt polyno-mckou transformac zadáním stupně polynomu, Taylorův rozvoj do. stupně a lneární model s nterakcem. Užvatel může zadat lbovolnou mocnnu původních proměnných včetně logartmů. Ostatní typy transformací se provádějí př přípravě dat k výpočtu v datovém edtoru. K odstranění případné heteroskedastcty, vznklé nelneární transformací proměnné y, je možné zadat nestatstcké váhy, jež odpovídají kvazlnearzac. Provádí se sestavení korelační matce R a její rozklad na vlastní čísla a vlastní vektory. Jsou vypočteny faktory VIF (varaton nflaton factor) k ndkac multkolnearty a dále jsou -1 vyčíslena setříděná vlastní čísla. K určení nverzní matce R se užívá metoda raconálních -15 hodností GPCR pro standardně zadávané vychýlení P = 10. Užvatel může zadat jnou hodnotu parametru vychýlení P, což však vede pro vyšší hodnoty P k vychýleným odhadům. -5-3 Bývá proto vhodné volt P z ntervalu 10 # P # 10..

6 3. Odhadování parametrů: odhadování parametrů modelu se provádí metodou -5 raconálních hodností GPCR s volbou P = 10, což je vlastně MNČ. Ze zobecněné nverzní -1 matce R jsou určovány odhady parametrů b, jejch směrodatné odchylky D(b j ) a velkost testačních statstk Studentova t-testu významnost pro β j = 0. Dále jsou provedeny testy významnost odhadů b j, vícenásobného korelačního koefcentu R a koefcentu determnace D. Je vhodné sledovat souhrnné charakterstky regrese jako je střední kvadratcká chyba predkce MEP a Akakovo nformační krtérum AIC, popř. posoudt lneartu modelu. 4. Regresní dagnostka: dentfkace vlvných bodů je prováděna využtím pět rozlčných grafů, a to grafů Wlamsova, Pregbonova, McCullohova-Meeterova, L-R, a grafu predkovaných rezduí. Dále musíme ověřt splnění předpokladů metody nejmenších čtverců, jako je homoskedastcta, nepřítomnost autokorelace a normalta rozdělení chyb. Pokud dojde k úpravě dat, je třeba provést znovu regresní dagnostku se zaměřením na porušení předpokladů metody nejmenších čtverců a posouzení vlvu multkolnearty. V případě více vysvětlujících proměnných se posoudí vhodnost jednotlvých proměnných a jejch funkcí využtím parcálních regresních grafů nebo grafů "komponenta + rezduum". Obvykle jsou využívány následující tabulky: Tabulka výsledků obsahuje hodnoty predkce ŷ, rozptylů predkce D( ŷ ) a relatvní odchylky predkce od expermentálních dat. Je uvedena průměrná absolutní, resp. relatvní odchylka a rezduální suma čtverců RSC. Následuje statstcká analýza klasckých rezduí. Tabulka rezduí obsahuje klascká rezdua ê, normovaná rezdua ê N, standardzovaná rezdua ê S a Jackknfe rezdua ê J. Je uveden odhad autokorelačního koefcentu rezduí prvního řádu ˆk 1. Tabulka vlvných bodů obsahuje velčny H, H (, D, A, DF, LD (b), LD ( ˆF ) a ˆF LD (b, ). Hvězdčkou bývají označeny hodnoty slně vlvných bodů. 5. Konstrukce zpřesněného modelu: př využtí a) metody vážených nejmenších čtverců (MVNČ) př nekonstantnost rozptylů, b) metody zobecněných nejmenších čtverců (MZNČ) př autokorelac, c) metody podmínkových nejmenších čtverců (MPNČ) př omezeních, kladených na parametry, d) metody raconálních hodností GPCR u multkolnearty, e) metody rozšířených nejmenších čtverců (MRNČ) pro případ, že všechny proměnné jsou zatížené náhodným chybam, f) robustní metody - parametry zpřesněného modelu jsou odhadovány pro jná rozdělení dat než normální a data s vybočujícím hodnotam a extrémy. 6. Zhodnocení kvalty modelu: provede se s využtím klasckých testů, postupů regresní dagnostky a doplňkových nformací o modelované soustavě posouzení kvalty navrženého lneárního regresního modelu. * * 7. Kalbrační modely: u kalbračních modelů se pro daný sgnál y vypočte hodnota x spolu se svým konfdenčním ntervalem. Před vlastním užtím kalbračního modelu je vhodné určt lmtu detekce a lmtu stanovení, které určují použtelnou dolní hranc kalbračního modelu nebo odpovídající metody. Postup obsahuje

(a) Návrh modelu. (b) Statstckou analýzu rezduí. (c) Výpočet dervací a ntegrálů. (d) Určení kalbračních mezí. (e) Sestavení kalbrační tabulky. 8. Testování různých hypotéz: ve zvláštních případech, jako je porovnání několka přímek atd., se provádí testování pomocí dalších testů k ověřování rozlčných typů hypotéz. Užvatel může př nteraktvní prác s počítačem některé tabulky nebo grafy vynechat. Na základě analýzy vlvných bodů a rezduí lze provést vypuštění některých bodů a výpočty pak zopakovat. Podrobný pops, vzorce a statstcké testy najde čtenář v 7 doporučované učebnc. 7