8 NELINEÁRNÍ REGRESNÍ MODELY 8 Tvorba eleárího regresího modelu Postup tvorby eleárího regresího modelu se dá rozčlet do těchto kroků: Návrh regresího modelu Obvykle se jako eleárí regresí model používá ějaká fyzkálí ebo emprcká závslost Odhadováí parametrů Na rozdíl od leárích regresích modelů je třeba pro hledáí mma krtéra regrese použít teratvích algortmů V aprosté většě případů se používá krtérum mma součtu čtverců odchylek (rezduí) 3 Posouzeí kvalty odhadů Kvalta alezeých odhadů se stadardě posuzuje podle jejch tervalů spolehlvost ebo pouze jejch rozptylů D(b j) Příčou vysokých rozptylů parametrů bývá také předčasé ukočeí mmalzačího procesu před dosažeím mma 4 Grafcké posouzeí vhodost modelu Zahruje řadu metod a charakterstk Grafcká aalýza rezduí využívá grafu rezduí vs predkce ve kterém lze sado odhalt: a) odlehlé hodoty b) tred v rezduích c) edostatečé střídáí zaméka u rezduí d) heteroskedastctu K ověřeí ormalty rozděleí rezduí lze užít raktových grafů a vyčísleí koefcetu škmost g ( ê ) a špčatost g ( ê ) 5 Základí statstcké charakterstky O přblížeí avržeého modelu k expermetálím datům formuje hodota sumy čtverců rezduí v mmu ze které se vyčíslí rezduálí rozptyl ˆF = /( - m) Jedoduchou charakterstkou založeou a hodotě je koefcet determace D který je pro leárí regresí modely čtvercem víceásobého korelačího koefcetu D & kde ȳ j y j (y & ȳ)
Stoásobek koefcetu determace se azývá regresí rabat 00 D [%] V lteratuře se často esprávě užívá Hamltoův R-faktor R&faktor j y Pro ȳ = 0 platí že R-faktor = - D Pro ȳ 0 platí mez R-faktorem a koefcetem determace D vztah R&faktor ( & D) & ( & D) ȳ j y Hamltoův R-faktor ukazuje a rozdíl mez modelem y = f(x β) a modelem y = 0 což u modelů s absolutím čleem emá smysl a hodoty Hamltoova R-faktoru vycházejí v těchto případech esprávě ízké Je třeba upozort že D R-faktor jsou fukcí počtu parametrů modelu a to D je fukcí rostoucí s počtem parametrů zatímco Hamltoův R- faktor klesající A D a R-faktor eí proto vhodým rozlšovacím krtérem k porováí modelů o růzém počtu parametrů K rozlšeí mez modely je vhodější užít Akakova formačího krtéra AIC pro které platí AIC & L(b) % m Za optmálí se považuje model pro který dosahuje AIC mmálí hodoty Př použtí metody ejmeších čtverců a modelů epatřících do téže třídy je AIC l % m 6 Regresí dagostka Obsahuje stejě jako u leárích regresích modelů pomůcky a postupy aalýzy regresího trpletu tj pro krtku dat krtku modelu a krtku metody Aalýzou vlvých bodů se detfkují body které slě ovlvňují odhadovaé regresí parametry v modelu což umožňuje určt vybočující pozorováí ebo extrémy Pro adtví modely měřeí a užívaou metodu ejmeších čtverců jsou rezdua defováa vztahem ê y b) Pops je uvede v 6 kaptole A Aalýza klasckých rezduí Krtka dat se skládá z aalýzy ěkolka druhů grafckých dagostk a tabulek růzých druhů rezduí V řadě programů aplkovaé eleárí regrese je aalýza rezduí hlaví dagostckou pomůckou př rozlšeí chemckého modelu a avíc těsost dosažeého proložeí expermetálím body je mírou vhodost avržeého modelu Mez ejčastěj užívaé charakterstky patří směrodatá odchylka rezduí s( ê) která by se měla rovat velkost šumu závsle proměé y koefcet škmost g ( ê ) a koefcet špčatost g ( ê ) rezduí
K testováí rezduí lze užít všech statstk zámých z leárích regresích modelů Potíže zde čí pouze určeí rozděleí testačích statstk které jsou závslé a eleartě modelu B Aalýza vlvých bodů U leárích regresích modelů (vz 6 kaptola) jsou k dspozc všechy charakterstky k odhaleí vlvých bodů pomocí rezduí ê a da- T - T goálích prvků P projekčí matce P = X (X X) X zatímco u eleárích modelů je T - T rozdíl v matc P Matce P = J (J J) J totž obsahuje J Jakobá čl dervac modelové fukce podle jedotlvých parametrů v daých bodech U eleárích regresích modelů je stuace komplkováa tím že jž elze vyjádřt odhady parametrů a rezdua jako leárí kombac expermetálích dat Pokud se užje learzace eleárího modelu je možé užít přímo všech techk odhaleí vlvých bodů v leárích modelech Vychází se z jedokrokové aproxmace odhadu b () pro kterou platí 3 b () b & (J T J) & J ê & P kde P jsou prvky projekčí matce P Lze vyčíslt charakterstku DFS j která vyjadřuje vlv -tého bodu a odhad j-tého parametru vztahem DFS j b j & b j() ŝ () V kde ŝ () je odhad rozptylu vyčísleý př vyecháí -tého bodu pro který platí ŝ () & ê & P & m & T - Symbol V začí prvky matce V = (J J) Př testováí se považuje -tý bod za vlvý pokud je DFS j > /% Vlvé body lze také detfkovat a základě jedokrokové aproxmace Jackkfe rezduí ê pro kterou platí vztah J ê J ê ŝ () & P K vyjádřeí vlvu jedotlvých bodů a odhady parametrů lze použít kvadratckého rozvoje regresího modelu a vyčíslovat změy vektoru vychýleí h () př vyecháí -tého bodu ebo změy středí hodoty -tého rezdua př vyecháí -tého bodu Mez eleárí míry vlvu -tého bodu a odhady parametrů patří věrohodostí vzdáleost LD [l L(b) & l L(b () )]
4 Pro případ metody ejmeších čtverců bude věrohodostí vzdáleost ve tvaru LD l U(b () ) Do obou vztahů lze dosadt buď odhady b () určeé regresí př vyecháí -tého bodu ebo b () určeé z jedokrokové aproxmace Je-l LD > χ -α() je daý bod slě vlvý Obyčejě se volí α = 005 (a) Vlvé body ovlvňují ejeom odhady parametrů ale také relatví vychýleí h R které je začě ctlvé a jejch výskyt (b) Charakterstky založeé a learzac ebo kvadratcké aproxmac eleárího modelu edkují vždy správě přítomost vlvých bodů Hodí se především pro málo eleárí modely (c) Nejlepší dkac vlvých bodů poskytuje věrohodostí vzdáleost LD Pouze tato charakterstka umožňuje dkac celé skupy vlvých bodů kde může dojít k jejch vzájemému "maskováí" (d) U praktckých úloh postačuje aproxmace LDS 7 Mapa ctlvostí fukce Na rozdíl od leárích regresích modelů je třeba u eleárích modelů počítat s řadou komplkací jako je eodhadutelost ěkte-rých parametrů exstece mma fukce U(β) je pro ěkteré regresí modely výskyt lokálích mm a exstece sedlových bodů ovlvňujících krterálí fukc U(β) a špatou podmíěost parametrů v regresím modelu Tyto problémy lze částečě dkovat a základě aalýzy ormalzovaých ctlvostích koefcetů * f(x C j() $ $) j *$ j j m Pro vzuálí posouzeí špaté podmíěost vzklé jako důsledek přblžé multkolearty mez parametry β j β h se kostruují ctlvostí grafy Obyčejě jde o závslost C j() a C h() a x = Lze také vyášet závslost ormalzovaých ctlvostích koefcetů přímo a dexu Pro vyjádřeí ctlvost regresích modelů a změu parametru β j je možé využít celkové ctlvostí fukce C cj j *f(x $) *$ j Tato ctlvostí fukce je ekostatí pro takové parametry β j které jsou v modelu f(x β) eleárí (0) Ctlvostí grafy parametrů jsou pak závslost C cj a β j v okolí bodů β j ebo b j Pokud jsou ctlvostí grafy parametrů přblžě kostatí dkuje to malou ctlvost regresího modelu ke změám j-tého parametru ebo je model f(x β) vzhledem k parametru β j leárí 8 Predkčí schopost modelu Predkčí schopost se může posoudt postupem cross-valdato : data se rozdělí a dvě podskupy M (s dexy = t(/)) a M
(s dexy = t(/) + ) Ozačí se odhady parametrů z bodů podskupy M jako b(m ) a z bodů podskupy M jako b(m ) Predkčí schopost modelu lze pak vyjádřt krtérem 5 K j [y b(m ))] % j [y b(m ))] 0M 0M Predkčí schopost modelu je tím vyšší čím víc se hodota K blíží k jedé Mez další krtéra patří středí kvadratcká chyba predkce MEP j (y b () )) Místo odhadu b () lze použít také jedokrokové aproxmace b () Čím je MEP žší tím je model věrohodější a má lepší predkčí schopost 9 Souhlas s požadavky fyzkálího smyslu U avržeých modelů jsou a odhady parametrů kladea omezeí vycházející z fyzkálího smyslu odpovídajících parametrů Stadardě se vyžaduje aby odhady ležely v jsté předpokládaé oblast (apř kocetrace 6 v oblast kladých čísel molárí absorpčí koefcety g v oboru čísel 0 až 0 kostaty stablty log β pqr v oboru čísel 0 až 50 atd) Program ADSTAT umožňuje umerckou a statstckou aalýzu eleárího regresího modelu f(x β) s využtím mmalzačí hybrdí stratege "double dog-leg" Vstupem je soubor expermetálích dat {x y } = a ulté přblížeí odhadovaých parametrů (0) β Užvatel zadává regresí model a může volt zda se vybraé parametry zkostatí