Statistická analýza jednorozměrných dat

Podobné dokumenty
http: //meloun.upce.cz,

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

6. Lineární regresní modely

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Statistická analýza jednorozměrných dat

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

PRAVDĚPODOBNOST A STATISTIKA

6. Lineární regresní modely

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

UNIVERZITA PARDUBICE

Tvorba nelineárních regresních

Statistická analýza jednorozměrných dat

Semestrální práce. 2. semestr

Inovace bakalářského studijního oboru Aplikovaná chemie

Kalibrace a limity její přesnosti

AVDAT Nelineární regresní model

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Kalibrace a limity její přesnosti

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Úloha 1: Lineární kalibrace

Statistická analýza jednorozměrných dat

Regresní analýza 1. Regresní analýza

Úvodem Dříve les než stromy 3 Operace s maticemi

Kalibrace a limity její přesnosti

Tvorba nelineárních regresních modelů v analýze dat

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Kalibrace a limity její přesnosti

Statistická analýza jednorozměrných dat

6. Lineární regresní modely

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Testování hypotéz o parametrech regresního modelu

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Testování hypotéz o parametrech regresního modelu

Semestrální práce. 2. semestr

odpovídá jedna a jen jedna hodnota jiných

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Regresní a korelační analýza

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

2.2 Kalibrace a limity její p esnosti

UNIVERZITA PARDUBICE

Semestrální práce. 2. semestr

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Regresní analýza. Eva Jarošová

Tvorba lineárních regresních modelů

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Tvorba nelineárních regresních modelů v analýze dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Lineární regrese. Komentované řešení pomocí MS Excel

S E M E S T R Á L N Í

AVDAT Geometrie metody nejmenších čtverců

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Semestrální práce str. 1. Semestrální práce. 2.1 Tvorba lineárních regresních modelů při analýze dat. 2.3 Kalibrace a limity její přesnosti

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

4EK211 Základy ekonometrie

Regresní a korelační analýza

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

6. Lineární regresní modely

UNIVERZITA PARDUBICE

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Menu: QCExpert Nelineární regrese Modul nelineární regrese slouží pro tvorbu a analýzu explicitních nelineárních regresních modelů v obecném tvaru

Statistická analýza jednorozměrných dat

6. Lineární regresní modely

IDENTIFIKACE BIMODALITY V DATECH

Odhad parametrů N(µ, σ 2 )

Posouzení přesnosti měření

Chyby měření 210DPSM

Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer

Reologie tavenin polystyrenových plastů. Závěrečná práce LS Pythagoras

Tvorba lineárních regresních modelů při analýze dat

Tvorba lineárních regresních modelů při analýze dat

Univerzita Pardubice

Nelineární optimalizace a numerické metody (MI NON)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Aproximace a vyhlazování křivek

Odhad parametrů N(µ, σ 2 )

4EK211 Základy ekonometrie

Simulace. Simulace dat. Parametry

Statistická analýza jednorozměrných dat

Transkript:

Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 1

Kapitola 8.1 NELINEÁRNÍ REGRESNÍ MODELY 2

Nelineární regresní modely Základní úlohy: 1. konstrukce kalibračních modelů, 2. ověření teoretických modelů fyzikálně-chemické zákonitosti, 3. tvorba empirických modelů. Tvorba regresního modelu f(c, β) čili funkce a) Vektoru nastavovaných proměnných (deterministických, kontrolovatelných, vysvětlujících, nezávislých) x, tj. bodů x i T, y i, i = 1,, n 3

Nelineární regresní modely b) vektoru parametrů β o rozměru m 1, β = β 1,, β m T. c) y je vysvětlovaná proměnná (závisle p., odezva, měření, pozorování) na zvolenou kombinaci nastavovaných veličin x i 4

Nelineární regresní modely 5

Nelineární regresní modely 6

Nelineární regresní modely 7

Nelineární regresní modely 8

Nelineární regresní modely 9

Nelineární regresní modely Tvorba se formuluje s ohledem na regresní triplet 1. zadaná data, 2. navržený model, 3. kritérium regrese. Dělení regresních modelů: 1. Lineární modely: parametry nemají fyzikální smysl (koeficienty), 2. Nelineární modely: parametry mají přesný fyzikální význam. (např. rovnovážné konstanty (disociační, stability, součiny rozpustnosti) reakčních produktů, rychlostní konstanty u kinetických modleů, neznámé koncentrace, atd. 10

Model: rozšířený Debye-Hückelův zákon pk a,smíš = pk a,t Proměnné: 0.5115 I 1 + 3.29 10 10 a I + CI Závisle proměnná y: pk a,smíš, nezávisle proměnná x: I, Neznámé parametry: β 1 : pk a,t ; β 2 : a ; β 3 : C 11

Závislost smíšené disoc. konstanty pk a,smíš homatropinu na iontové síle Nulté přiblížení: pk a T = 1, a = 1, C = 1 Nalezeno: pk a T = 9.90(1), a = 6(2), C = 0.51(3) 12

Postup a diagnostika regrese Regresní triplet: kvalita dat n U = w i y exp,i y vyp,i 2 i + kde y vyp,i = f(x i ; β 1,, β m ) výběr kritéria (metody) regrese volba modelu = minimum 13

Geometrické znázornění kritéria U n 2 U = w i y exp,i y vyp,i minimum i + kde y vyp,i = f(x i ; β 1,, β m ; p 1,, p m ) Optimalizční problém v (m + 1) rozměrném prostoru 14

Gradientová metoda hledání minima 15

Statistická analýza 16

Formulace modelu 1. Lineární regresní model: je lineární kombinací parametrů, např. model f x, β = β 1 + β 2 sin (x). Pro lineární regresní modely platí podmínka g j = δf(x,β) = konst. kde j = 1, m. δβ j 2. Nelineární regresní model: alespoň pro jeden parametr β j je parciální derivace g j jeho funkcí, 17

Formulace modelu Dělí se: 1. Neseparabilní modely, kdy podmínka parciální derivace g j neplatí pro žádný parametr modelu, např. f x, β = exp β 1 x + exp(β 2 x) 2. Separabilní modely, kdy podmínka parciální derivace g j platí pro jeden modelový parametr, např. f x, β = β 1 + β 2 exp(β 3 x) který je nelineární pouze vzhledem k parametru β 3. 3. Vnitřně lineární modely, jsou nelineární, ale lze je reparametrizací převést na lineární regresní model, např. f x, β = β 2 x který reparametrizací γ = β 2 přechází na lineární model 18

Reparametrizace Transformace parametrů β do nových γ, např. reparametrizací Arrheniovy rovnice f x, γ = exp (γ 1 + γ 2 /x) vznikne neseparabilní model: γ 1 = ln β 1 a γ 2 = β 2. Linearizace modelu: transformací převést na lineární regresní model, např. Arrheinův regresní model lze při zanedbání chyb transformovat do tvaru ln y = γ 1 + γ 2 z kde γ 1 = ln β 1, γ 2 = β 2 a z = 1/x. 19

Linearizace modelu Výsledný model je lineární, ale transformace není správná, protože se projeví vznikem heteroskedasticity: - naměřené k i měly konstantní rozptyl σ 2 (k), a hodnoty ln k i mají nekonstantní rozptyl σ 2 ln k i = σ2 k i ln k i 2, tj. konstantní relativní chybu. 20

Míra citlivosti parametru β 1 v modelu g j = δf(x, β) δβ j, j = 1,, m Redundance (přeurčení): nadbytečný počet parametrů. - model neobsahuje nadbytečné parametry, když jsou míry citlivosti g j pro analyzovaná data lineárně nezávislé, tj. nelze určit nenulové koeficienty v j, j = 1,, m, aby bylo splněno kritérium redundance m i=1 g j v j = 0 - existuje-li alespoň jeden v j 0, je regresní model přeurčený a je nutné ho zjednodušit 21

Potíže redundance (přeurčení modelu) 1. Přeurčení vede vždy k singularitě matice J T J. 2. Lokální přeurčení se neprojeví při použití pseudoinverze matice J T J. 3. Špatná podmíněnost nelineárních modelů (redundance), je kvůli špatné podmíněnosti matice J T J. Známe-li přibližné velikosti parametrů b (0), můžeme sestrojit matici L = n 1 (J T J) s prvky L jk = 1 n n i=1 δf(x i, b) δb j δf(x i, b) δb k b=b (0) (Matice L odpovídá matici n 1 (X T X) pro lineární modely). 22

Potíže redundance (přeurčení modelu) Pro stanovenpodmíněnosti se matice L převádí do standardizované formy L L ij = L ij L ii L jj Dle podmíněnosti matice L se usuzuje na podmíněnost daného modelu. Míra podmíněnosti: Mírou špatné podmíněnosti je determinant matice L : det L < 0.01, nelineární model špatně podmíněný a je nutné hledat jeho zjednodušení. 23

Modely chyb měření Druhy chyb: celková chyba ε závisle proměnné je kombinací - chyby měření ε M, - chyby formulace modelu ε A, - chyby nastavování nezávisle proměnné ε x, - chyby náhodného kolísání podmínek experimentu ε N, - má nulovou střední hodnotu pro všechny hodnoty y i, i = 1,, n, E ε i = 0. 24

Modely chyb měření Platí 1. pro E ε i = konst., chybí v modelu absolutní člen, 2. pro E ε i konst je model nevhodně navržen. Obecný model regrese: zahrnuje vlastní regresní model a i model měření y i = Z i x i, ε i, β, i = 1,, n 25

Modely chyb měření 1. Aditivní model měření: pro výsledky experimentů y i platí Z i = f x i, β + ε i 2. Multiplikativní model měření: pro výsledky experimetnů y i platí Z i = f x i, β exp ε i 3. Smíšený model měření: pro výsledky experimentů y i platí Z i = f x i, β exp(v i ) + ε i kde chyby v i a ε i jsou vzájemně nezávislé. Měření na přístrojích jsou zatížena konstantní relativní chybou v y = σ y /f(x, β) a rozptyl měřené veličiny σ 2 y f 2 (x, β) je úměrný čtverci hodnoty modelové funkce 26

Modely chyb měření (a) aditivní, (b) multiplikativní, (c) smíšený model 27

Modely chyb měření Celková chyba ε i je pak ε i = i u j + v i j=1 kde v i jsou chyby měření a u j jsou procesní chyby. Procesní chyby jsou způsobeny fluktuací exper. podmínek, (tj. teploty, tlaku a čistoty chemikálií) a mají kumulativní charakter. Předpokládá se, že chyby ε i působí aditivně. 28

Modely chyb měření Rozdělení náhodných veličin y i : bude úzce souviset s rozdělením chyb ε i, které je dáno sdruženou hodnotou pravděpodobnosti p ε (ε), která je funkcí distribučních parametrů, jako je rozptyl σ 2, atd. Pro případ nezávislých náhodných chyb ε platí vztah p y i = p ε [Z i 1 (x i, y i ε)] δz i 1 (. ) δy i kde symbol Z i 1 (. ) označuje inverzi k funkci Z(. ). 29

Aditivní model měření Z i 1. = y i f(x i, β) a derivace δz i 1 (.) δy i = 1. Dosazením vyjde p y i = p ε (y i f(x i, β)) Aditivní model měření nezpůsobuje žádné deformace rozdělení měřených veličin vzhledem k rozdělení chyb. 30

Multiplikativní model měření Z i 1. = ln y i ln f(x i, β) a derivace δz i 1 (.) = 1, kde se předpokládají pouze δy i y i kladné hodnoty měřených veličin. Po dosazení bude p y i = 1 y i p ε (ln y i ln f(x i, β)) Tato hustota pravděpodobnosti již neodpovídá hustotě pravděpodobnosti chyb p ε (. ). 31

Geometrie nelineární regrese Kritérium regrese U(β) vektorovým zápisem U β = y f 2 kde y = y 1,, y n T, f = f x 1, β,, f(x n, β) T a symbol x = x T x označuje euklidovskou normu. Minimum účelové funkce u pro (a) lineární modely, (b) nelineární modely 32

Pro lineární regresní modely 1. Útvar kritéria U(β) v prostoru odhadů je eliptický hyperparaboloid se středem v bodě [β, U(β)], kde nabývá minimální hodnoty. 2. Účelová funkce U(β) je vzhledem k β kvadratickou formou β T X T X β a matice X T X je pozitivně definitní. Pro nelineární regresní modely: 1. Složitější útvary vznikají u nelineárních modelů v závislosti na nelinearitě funkce f(x, β), počtu extrémů a sedlových bodů. 33

Minimalizační proces 34

Souřadnice minima = nejlepší odhady parametrů 35

Případ dvou lokálních minim β a β a sedlového bodu S 36

Geometrická interpretace hledání minima U(β) O lokálním chování funkce U(β) v okolí libovolného bodu β j lze získat kvantitativní informace z jejího Taylorova rozvoje U β = U β j + Δβ j T g j + 1 2 Δβ j T H j Δβ j 37

Numerické postupy Nelineární minimalizace: model f(x, β) je nelineární vzhledem k parametru β r Nelineární maximalizace: použití maximální věrohodnosti Extremalizace: užití libovolného kritéria regrese, kde proměnné jsou regresní parametry β Optimalizační metody: - hledání volného extrému, pokud nejsou na regresní parametry kladena žádná omezení, - hledání vázaného extrému, jestliže regresní parametry musí splňovat jisté omezující podmínky. 38

Numerické postupy Programy obsahují: 1. hledání extrému v zadaném směru (jednorozměrná optimalizace), 2. invertaci matic, 3. numerické derivace (u derivačních metod), 4. způsoby překonávání lokálních oblastí divergence. Dělení programů: a) nederivační optimalizační metody, b) derivační metody pro kritérium metody MNČ, c) obecné derivační metody, d) algoritmy pro speciální případy. 39

Nederivační metody Umožňují nalezení extrému G(β) vzhledem k β : 1. metody přímého hledání, 2. simplexové metody, 3. metody využívající náhodných čísel, 4. postupy speciálně vhodné pro MNČ 40

Metody přímého hledání Hookův-Jeevsův algoritmus a) krokové posuny a nalezení zlepšeného odhadu β p (i), pro který je G β p i < G(β (i) ), b) hledání lokálního minima β (i+1) ve směru β (i) a β p i. 41

Rosenbrockova metoda Místo krokového hledání ve směru s rotaci souřadného systému tak, aby jedna osa splynula se směrem S = β p (i+1) β (i). 42

Simplexové metody Postupné vytváření adaptivních polyedrů (simplexů) Simplex pro (a) m = 2, a (b) m = 3 parametry. Simplex A, B, C, lze převrátit do tří poloh CBE, ABE, ACE. 43

Simplexové metody Z počátečního odhadu β (0) se postupně tvoří simplexy. Simplex je konvexní mnohostěn v m-rozměrném prostoru parametrů právě svými (m + 1) vrcholy. Postup minimalizace: 1. konstrukce výchozího simplexu, 2. iterativní postup k minimu, 3. identifikace ukončení hledání terminace. 44

Iterativní postup k minimu Na spojnici mezi V H a jeho zrcadlovým obrazem pět operací reflexe, expanze, kontrakce, redukce a přenesení. 45

Základní operace simplexu Přenesení 46

47

Postupy speciálně pro MNČ Algoritmus LETAGROP: mapování dolíčku mrozměrným eliptickým hyperparaboloidem. Po dosazení vyjde (m + 1)(m + 2)/2 nástřelů (=lineárních rovnic) pro určení koeficientů aproximačního paraboloidu. 48

Geometrická interpretace hledání minima U(β) (LETAGROP) 49

Kapitola 8.2 TĚSNOST PROLOŽENÍ 50

Statistická analýza reziduí Pro aditivní modely měření: e i = y i f(x i, β) vektor reziduí e i souvisí s vektorem chyb ε podle e E P ε kde a P ik jsou prvky projekční matice P, Každé reziduum je přibližně lineární kombinací všech chyb e i = ε i P ik ε k k=1 ale u malých výběrů je rušivý efekt supernormality. q 51

Grafická analýza reziduí a) odlehlé (extrémní) hodnoty v souboru reziduí, b) trend v reziduích, c) nedostatečné střídání znaménka reziduí, d) chybný model nebo vzájemnou závislost reziduí, e) heteroskedasticitu (nekonstantnost rozptylu) závisle proměnné (měřené) veličiny y, f) náhlou změnu podmínek při měření hodnot y. 52

Grafická analýza reziduí (a) odlehlá hodnota v datech, b) trend v reziduích, c)nedostatečné střídání znaménka reziduí, d) chybný model, e) heteroskedasticita, f) náhlá změna podmínek 53

Numerická analýza reziduí 1. Střední hodnota reziduí, E(e ), by se měla rovnat nule, 2. Průměrné reziduum e = 1 n rovnat náhodné chybě. n i=1 e i by se mělo 3. Směrodatná odchylka střední hodnoty reziduí s(e ) by se měla rovnat náhodné chybě. 4. Koeficient šikmosti g 1 (e ) se pro Gaussovo rozdělení rovná nule. 5. Koeficient špičatosti g 2 (e ) se pro Gaussovo rozdělení rovná třem. 54

Obecné testační charakteristiky n T p,q = e i f x i, β q i=1 a) Testační charakteristika T 1,1 by měla být (přibližně) rovna nule, protože obyčejně platí, že e T f x i, β = 0. b) Testační charakteristika T 2,1 ukazuje na heteroskedasticitu c) Testační charakteristika T 1,2 ukazuje na chybně navržený model c) Testační charakteristika T 1,0 by měla být přibližně rovna nule. 55

Analýza vlivných bodů Vychází z jednokrokové aproximace odhadu b (i) b 1 i = b JT J 1 J i e i 1 P ii kde P ii jsou prvky projekční matice, a) Charakteristika DFS ij vyjadřuje vliv i-tého bodu na odhad j-tého parametru DFS ij = b j b j i s (i) 1 V ii 56

Analýza vlivných bodů kde s 2 i je odhad rozptylu vyčíslený při vynechámí itého bodu podle vztahu U β e i 2 s 2 1 P i = ii n m 1 a symbol V ii značí prvky matice V = J T J 1. Test: i-tý bod se považuje za vlivný, pokud je DFS ij > 2/ n b) Jackknife rezidua eji = s (i) e i 1 P ii Test: silně vlivné body mají eji > 10. 57

Analýza vlivných bodů c) Věrohodnostní vzdálenost LD i = 2 ln L β ln L β i Pro případ MNČ bude věrohodnostní vzdálenost ve tvaru LD i = n ln U β i U β 2 Test: Je-li LD i > χ 1 α (2), je daný bod silně vlivný, obyčejně se volí α = 0.05. 58

Input dat, grafická analýza reziduí Input dat Grafická analýza reziduí 59

Grafické závěry o nalezených odhadech parametrů z postaveného chemického (=nelineárního regresního ) modelu 60

Outliery Mírou věrohodnosti nalezených odhadů regresního modelu je vždy míra těsnosti proložení experimentálních bodů vypočtenou regresní křivkou čili statistická analýza reziduí před a po odstranění outlierů. 61

Míra těsnosti proložení Míru těsnosti proložení je vhodné posuzovat dle velikosti reziduí a jejich rozdělení, a to především dle střední hodnoty reziduí a symetrie rozdělení (vyjádřené koeficientem šikmosti a špičatosti). 62

Koeficient šikmosti Symetrii a tvar rozdělení vystihuje koeficient šikmosti g 1 a špičatosti g 2 před a po odstranění outlierů. 63

SOUHRN 64

Postup při testování navrženého modelu 1. Kvalita nalezených odhadů parametrů Kvalita se posuzuje podle a) jejich intervalů spolehlivosti b) rozptylů D(β j ) Pravidlo 3 sigma : 3 D(β j ) < β j 2. Kvalita dosažené těsnosti proložení a) Reziduální rozptyl σ 2 = U(β)/(n m) b) Koeficient determinace D, který je pro lineární modely čtvecem vícenásobného korelačního koeficientu 65

Postup při testování navrženého modelu R 2 = D = 1 n i=1 U(β) y i y 2, kde y = 1 n n i=1 Stonásobek koeficientu determinace je regresní rabat 100D. c) K rozlišení mezi modely užijeme Akaikova informačního kritéria AIC AIC = L β + 2m za optimální se považuje model, pro který dosahuje AIC minimální hodnoty, a platí U β AIC = n ln + 2m n y i 66

Postup při testování navrženého modelu 3. Predikční schopnost modelu Postup: data se rozdělí na dvě podskupiny M 1 (s indexy i = 1,, int(n/2)) s odhady β(m 1 ) M 2 (s indexy i = int n 2 + 1,, n) s odhady β(m 2) a) Predikční schopnost modelu K = U(β) [y i f x i, β M 2 2 + [y i f x i, β M 1 2 i M 2 i M 1 Predikční schopnost modelu je tím vyšší, čím víc se hodnota K blíží k jedničce. 67

Postup při testování navrženého modelu b) Střední kvadratická chyba predikce je definována n MEP = 1 2 y n i f x i, β i i=1 Čím je MEP nižší, tím má model lepší predikční schopnost. 4. Kvalita experimentálních dat K posouzení kvality experimentálních dat se užívá analýzy reziduí a vlivných bodů. 68

Postup při testování navrženého modelu 5. Správnost navrženého modelu Whitův test C = n 1 n i=1 δf x i, β δβ j δf x i, β δβ k [e i U β n ] Pro správný model je C = 0. Při výpočtu se postupuje tak, že se vyčíslí m(m + 1)/2 umělých proměnných W s = δf x i, β δf x i, β δβ j δβ k pro s = 1,, m(m + 1)/2. 69

Postup při testování navrženého modelu Za testační charakteristiku se považuje korelační koeficient regrese veličiny e 2 na vektoru proměnných W. V případě správného modelu má tato charakteristika χ 2 (m(n + 1)/2) rozdělení. 6. Souhlas s požadavky fyzikálního smyslu Parametry by měly mít fyzikální smysl. 70

Postup tvorby nelineárního regresního modelu 1. Návrh regresního modelu obvykle se používá nějaká fyzikální nebo empirická závislost. 2. Odhadování parametrů k hledání minima kritéria regrese se užívá iterativních algoritmů, kritérium minima součtu čtverců reziduí. 3. Posouzení kvality odhadů Kvalita nalezení odhadů se posuzuje dle jejich intervalů spolehlivosti nebo pouze jejich rozptylů D(β j ) Příčinou vysokých rozptylů parametrů bývá ttaké předčasné ukončení minimalizačního procesu dosažení minima. 71

Grafické posouzení vhodnosti modelu Grafická analýza reziduí využívá rozptylového grafu reziduí vs. predikce a odhalí a) odlehlé hodnoty, b) trend v reziduích, c) nedostatečné střídání znaménka u reziduí, d) heteroskedasticitu. K ověření normality rozdělení reziduí se užijí rankitové grafy a vyčíslení koeficientu šikmosti g 1 (e )a špičatosti g 2 (e ). 72

Základní statické charakteristiky O přiblížení modelu experimentálním datům informuje suma čtverců reziduí v minimu U(β), ze které se vyčíslí reziduální rozptyl σ 2 = U(β)/(n m). Z U(β) je odvozen koeficient determinace D a regresní rabat 100D[%] D = 1 n i=1 U β y i y 2, kde y = 1 n n i=1 y i. Hamiltonův R faktor je definován R faktor = U β n i=1 y i 73

Základní statické charakteristiky a pro y = 0 platí, že R 2 faktor = 1 D a pro y 0 pak platí vztah R faktor = 1 D 1 D ny2 n i=1 Hamiltonův R faktor ukazuje na rozdíl mezi modelem y = f(x, β) a modelem y = 0. Mezi modely rozliší Akaikovo informační kritérium AIC = L β + 2m Optimální je model, pro který je AIC minimální. Platí přitom AIC = n ln U β n + 2m. y i 2 74

Regresní diagnostika Obsahuje pomůcky analýzy regresního tripletu, tj. pro kritiku dat, kritiku modelu a kritiku metody. Analýzou vlivných bodů (vybočující pozorování a extrémy) se identifikují body, které silně ovlivňují odhadované parametry v modelu. Pro aditivní modely měření a MNČ jsou rezidua definována vztahem e i = y i f(x i, β) 75

Analýza vlivných bodů U lineárních regresních modelů: je odhalení vlivných bodů VB pomocí reziduí e i a prvků P ii projekční matice P = X X T X 1 X T. U nelineárních regresních modelů: je proto třeba konstuovat matici P vztahem P = J J T J 1 J T kde J je Jakobián, čili derivace modelové funkce podle jednotlivých parametrů v daných bodech. Komplikace je v tom, že již nelze vyjádřit odhady parametrů a rezidua jako lineární kombinaci experimentálních dat. 76

Analýza vlivných bodů Vychází se proto z jednokrokové aproximace odhadu β (i) β 1 i = β JT J 1 J i e i 1 P ii kde P ii jsou prvky pojekční matice P. 77

Analýza vlivných bodů Charakteristika DFS ij vyjadřuje vliv i-tého bodu na odhad j-tého parametru dle vztahu DFS ij = β j β j i 1 s (i) V ii, kde s 2 i je odhad rozptylu vyčíslený při vynechání i-tého bodu s 2 i = U β e 2 i 1 P ii, kde V n m 1 ii značí prvky matice V = J T J 1 Test: i-tý bod je vlivný, když je DFS ij > 2/ n. 78

Analýza vlivných bodů Vlivné body VB lze identifikovat jednokrokovou aproximací Jackknife reziduí dle vztahu e i eji =. s (i) 1 P ii K vyjádření vlivu jednotlivých bodů na odhady parametrů lze použít změny vektoru vychýlení (i) při vynechání i-tého bodu nebo změny střední hodnoty itého rezidua při vynechání i-tého bodu 79

Analýza vlivných bodů Mezi nelineární míry vlivu i-tého bodu na odhady parametrů patří věrohodnostní vzdálenost LD i = 2[ln L β ln L(β (i) )] a pro MNČ je ve tvaru LD i = n ln U β i U β Do obou vztahů lze dosadit buď odhady β i, určené regresí při vynechámí i-tého bodu, nebo β 1 i, určené z jednokrokové aproximace. 2 Test: Je-li LD i > χ 1 α (2), je daný bod silně vlivný a α = 0.05.. 80

Analýza vlivných bodů (a) VB ovlivňují odhady parametrů a relativní vychýlení R, (b) charakteristiky založené na aproximaci nelineárního modelu neindikují vždy správně přítomnost VB. (c) Nejlepší indikaci VB poskytuje LD i, protože umožňuje indikaci celé skupiny vlivných bodů, kde může dojít k jejich vzájemnému maskování. 81

Mapa citlivostní funkce U nelineárních modelů existuje celá řada komplikací - neodhadnutelnost některých parametrů, - existence minima funkce U β jen pro některé regresní modely, - výskyt kokálních minim, - existence sedlových bodů, ovlivňujících kriteriální funkci U β a - špatná podmíněnost parametrů v regresním modelu. 82

Mapa citlivostní funkce Problémy lze indikovat analýzou normovaných citlivostních koeficientů δf(x i, β) C j(i) = β j, j = 1,, m, i = 1,, n δβ j Pro vizuální posouzení špatné podmíněnosti např. multikolinearitou mezi parametry β j, β h, se konstruují citlivostní grafy závislosti C j(i) a C h(i) na x i, i = 1,, n nebo závislost normalizovaných citlivostních koeficientů přímo na indexu i. 83

Mapa citlivostní funkce Citlivost regresních modelů na změnu parametru β j vyjadřuje celková citlivostní funkce C cj = 1 n n i=1 δf x i, β δβ j která je nekonstantní pro nelineární parametry β j, v modelu f x, β. Interpretace citlivostních grafů parametrů: když jsou závislosti C cj na β j v okolí bodů β j (0) nebo βj přibližně konstantní, indikuje to malou citlivost regresního modelu ke změnám j-tého parametru, nebo je model f x, β vzhledem k parametru β j lineární. 2, 84

Predikční schopnost modelu crossvalidation Data se rozdělí na dvě podskupiny M 1 (s indexy i = 1,, int(n/ 2)) a M 2 (s indexy i = int n 2,, n). Označí se: - odhady parametrů z bodů podksupiny M 1 jako β(m 1 ) a - odhady parametrů z bodů podksupiny M 2 jako β(m 2 ). Predikční schopnost modelu se vyjádří kritériem K U(β) K = [y i f x i, β M 2 2 + [y i f x i, β M 2 i M 1 i M 2 1 Test: Predikční schopnost modelu je tím vyšší, čím víc se K blíží k 1. 85

Kritérium střední kvadratická chyba predikce n MEP = 1 2 y n i f x i, β i i=1 Test: Čím je MEP nižší, tím je model věrohodnější a má lepší predikční schopnost. 86

Souhlas s požadavky fyzikálního smyslu Na odhady parametrů jsou kladena omezení, vycházející z fyzikálního smyslu. Odhady musí ležet v jisté předpokládané oblasti (např. koncentrace v oblasti kladných čísel, molární absorpční koeficienty ε v oboru čísel 10 až 10 6, konstanty stability log β pqr v oboru čísel 0 až 50, atd.). 87