6. Lineární regresní modely

Podobné dokumenty
6. Lineární regresní modely

http: //meloun.upce.cz,

Inovace bakalářského studijního oboru Aplikovaná chemie

6. Lineární regresní modely

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Kalibrace a limity její přesnosti

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Kalibrace a limity její přesnosti

Tvorba lineárních regresních modelů

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Kalibrace a limity její přesnosti

Tvorba nelineárních regresních

Úloha 1: Lineární kalibrace

Tvorba lineárních regresních modelů při analýze dat

Semestrální práce. 2. semestr

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Tvorba lineárních regresních modelů při analýze dat

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PRAVDĚPODOBNOST A STATISTIKA

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

6. Lineární regresní modely

Tvorba nelineárních regresních modelů v analýze dat

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Semestrální práce. 2. semestr

UNIVERZITA PARDUBICE

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 2. semestr

PRAVDĚPODOBNOST A STATISTIKA

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Fakulta chemicko technologická Katedra analytické chemie

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

LINEÁRNÍ REGRESE. Lineární regresní model

Univerzita Pardubice

Statistická analýza jednorozměrných dat

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

6. Lineární regresní modely

Kalibrace a limity její přesnosti

Statistická analýza jednorozměrných dat

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Statistická analýza jednorozměrných dat

2.2 Kalibrace a limity její p esnosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Tvorba nelineárních regresních modelů v analýze dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Semestrální práce str. 1. Semestrální práce. 2.1 Tvorba lineárních regresních modelů při analýze dat. 2.3 Kalibrace a limity její přesnosti

III. Semestrální práce

Testování hypotéz o parametrech regresního modelu

Úloha 1. Napište matici pro případ lineárního regresního spline vyjádřeného přes useknuté

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE

Regresní a korelační analýza

FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE. Semestrální práce z CHEMOMETRE. TOMÁŠ SYROVÝ 4.ročník

Korelační a regresní analýza

Regresní analýza 1. Regresní analýza

Regresní a korelační analýza

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Statistika (KMI/PSTAT)

Testování hypotéz o parametrech regresního modelu

Statistická analýza jednorozměrných dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Licenční studium Galileo: Statistické zpracování dat. Kalibrace a limity její přesnosti. Semestrální práce

Regresní a korelační analýza

4EK211 Základy ekonometrie

Regresní a korelační analýza

Regresní a korelační analýza

odpovídá jedna a jen jedna hodnota jiných

PRAVDĚPODOBNOST A STATISTIKA

Úvodem Dříve les než stromy 3 Operace s maticemi

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Regresní analýza. Eva Jarošová

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Statistická analýza jednorozměrných dat

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Zobecněná analýza rozptylu, více faktorů a proměnných

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

AVDAT Geometrie metody nejmenších čtverců

10. Předpovídání - aplikace regresní úlohy

Statistická analýza jednorozměrných dat

Univerzita Pardubice Fakulta chemicko-technologická. Licenční studium Statistické zpracování dat

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

S E M E S T R Á L N Í

Ilustrační příklad odhadu LRM v SW Gretl

2.1 Tvorba lineárních regresních

Menu: QCExpert Nelineární regrese Modul nelineární regrese slouží pro tvorbu a analýzu explicitních nelineárních regresních modelů v obecném tvaru

ÚLOHA 1. EXPONENCIÁLNÍ MODEL...2 ÚLOHA 2. MOCNINNÝ MODEL...7

Transkript:

6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu 6.6 Kritika metody v regresním tripletu 6.7 Lineární a nelineární kalibrace 1 7. Korelační modely

FORMULACE REGRESNÍHO MODELU 11 12 1 1 21 22 2 2 1 2 1 2 1 2 1 2 1 2 j m j m i i ij im n n nj nm i n j m i n y x x x x x x x x x x x x x y x y x x y X ε β y závisle nezávisle proměnná regresní náhodná proměnná parametry chyba y = X +

TYPY REGRESNÍHO MODELU Regresní model předpokládá, že nezávislá proměnná (proměnné) je nenáhodná (tj. pevně určena, např. experimentátorem) a závislá proměnná je náhodná (měřená). Tento předpoklad nebývá v praxi splněn (často jsou obě nebo všechny veličiny naměřené, potom nazýváme tento model korelačním). Rozeznáváme: regresní modely lineární mají lineární postavení parametrů regresní modely nelineární mají nelineární postavení parametrů

PODSTATA REGRESNÍ ANALÝZY Podstatou řešení regrese je: Stanovit nejlepší regresní model (čili určit matematickou rovnici, která bude popisovat závislost y na x), Stanovit parametry modelu (tj. stanovit nejlepší odhady parametrů ), Stanovit statistickou významnost modelu (určit, zda nalezený model přispěje ke zpřesnění odhadu závisle proměnné oproti použití pouhého průměru), Výsledky dané modelem interpretovat z hlediska zadání.

URČENÍ VHODNÉHO MODELU 1) Najít řadu modelů, které svými vlastnostmi vyhovují řešenému problému (např. rozličné formy růstové funkce), 2) Potom najít takový model, který nejlépe vyhovuje naměřeným datům. Je nutné dbát, aby byla modelována skutečná příčinná závislost!

KRITÉRIA PRO HLEDÁNÍ A ROZLIŠENÍ NEJLEPŠÍHO REGRESNÍHO MODELU Střední kvadratická chyba predikce (MEP) MEP 1 n n i1 1 e 2 i H ii 2 e i 2 čtverec reziduí modelu H ii i-tý diagonální prvek projekční matice H Akaikovo informační kritérium (AIC) AIC RSC n ln 2m RSC reziduální součet čtverců n m počet parametrů Pravidlo: Čím je AIC (nebo MEP) menší, tím je model vhodnější.

Y Y Postačí R a D [%] k nalezení nejlepšího modelu? Výběr A Výběr B 14 14 12 12 10 10 8 8 6 6 4 2 y = 0,5x + 3,0 R = 0,8164 4 2 y = 0,5x + 3,0 R = 0,8162 0 4 6 8 10 12 14 16 0 4 6 8 10 12 14 16 X X

Y Y Výběr C Výběr D 14 14 12 12 10 10 8 8 6 4 2 y = 0,5x + 3,0 R = 0,8162 6 4 2 y = 0,5x + 3,0 R = 0,8165 0 4 6 8 10 12 14 16 0 4 9 14 19 24 X X

Grafy vyjadřují závislost mezi vysvětlovanou proměnnou (vektorem y) a jednou vysvětlující proměnnou x při statisticky j neměnném vlivu ostatních vysvětlujících proměnných, které tvoří matici X. Jde o grafickou obdobu parciálního korelačního (j) koeficientu u korelačních modelů.

Grafický výklad parciálního regresního grafu Příklad: Zajímá nás, zda všechny proměnné x 1-3 jsou v modelu oprávněně. Postup je vysvětlen pro proměnnou x 1. X X (1) y x 1 x 2 x 3 y x 1 x 2 x 3 x 1 =f(x (1) ) regrese v 1 rezidua u 1 Proměnná x 1 do modelu patří u 1 y=f(x (1) ) regrese Proměnná x 1 do modelu nepatří u 1 rezidua v 1 v 1

Ukázky parciálních regresních grafů u vícenásobného regresního modelu pro m = 3

Pokud body parciálního regresního grafu leží na přímce s nulovým úsekem, existuje lineární závislost mezi y a x j. Směrnice přímky proložená body parciálního regresního grafu číselně odpovídá regresnímu koeficientu b j původního regresního modelu. Korelační koeficient mezi u j a v j odpovídá parciálnímu korelačnímu koeficientu. Rezidua regresní přímky mezi u j a v j odpovídají reziduím původního modelu.

17 1. vzorová úloha na výstavbu lineárního regresního modelu pomoci parciálního regresního grafu M619

18 Parciální regresní grafy tří nezávisle proměnných

19 ADSTAT 1.25 QC-EXPERT 3.1 NCSS2007

ADSTAT 1.25: statistická kritéria věrohodnosti regr. modelu 20 QC-EXPERT 3.1

Parciální regresní grafy pro tři nezávisle proměnné mají vesměs nenulovou směrnici. 21

Závěr: Nejlepší lineární regresní model musí vždy obsahovat kritéria věrohodnosti 22

23 2. vzorová úloha na výstavbu lineárního regresního modelu pomoci parciálního regresního grafu P651

Příklad P6.51

Parciální regresní grafy pro tři proměnné

Parciální regresní graf na proměnnou x1 Příklad P6.51

Parciální regresní graf na proměnnou x2 Příklad P6.51

Parciální regresní graf na proměnnou x3 Příklad P6.51

29 Odhady parametrů: Proměnná Odhad Směr.odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs -37.676 12.009 Významný 0.006006-63.01554-12.338228 P651x1 0.7335 0.1388 Významný 0.000061 0.440737 1.0264 P651x2 1.3883 0.3565 Významný 0.001166 0.636164 2.140444 P651x3-0.216 0.1613 Nevýznamný 0.196792-0.556894 0.123592 Statistické charakteristiky regrese Vícenásobný korelační koeficient R : 0.955585 Koeficient determinace R^2 : 0.913142 Predikovaný korelační koeficient Rp : 0.742775 Střední kvdratická chyba predikce MEP : 13.613202 Akaikeho informační kritérium : 53.085507

34 1. vzorová úloha na výstavbu lineárního regresního modelu pomoci parciálního reziduálního grafu M619

Parciální reziduální graf pro x1 proměnnou má nenulovou směrnici.

Parciální reziduální graf pro x2 proměnnou má nenulovou směrnici. Parciální reziduální graf pro x3 proměnnou má nenulovou směrnici.

Závěr: Nalezený nejlepší lineární regresní model musí obsahovat kritéria věrohodnosti 37

38 2. vzorová úloha na výstavbu lineárního regresního modelu pomoci parciálního reziduálního grafu P651

Parciální reziduální graf pro x1 proměnnou má nenulovou směrnici.

Parciální reziduální graf pro x2 proměnnou má nenulovou směrnici.

Parciální reziduální graf pro x3 proměnnou má téměř nulovou směrnici.

Závěr: Nalezený nejlepší lineární regresní model musí obsahovat kritéria věrohodnosti Odhady parametrů: Proměnná Odhad Směr.odch. Závěr Pravděpodobnost Spodní mez Horní mez Abs -37.676 12.009 Významný 0.006006-63.01554-12.338228 P651x1 0.7335 0.1388 Významný 0.000061 0.440737 1.0264 P651x2 1.3883 0.3565 Významný 0.001166 0.636164 2.140444 P651x3-0.216 0.1613 Nevýznamný 0.196792-0.556894 0.123592 Statistické charakteristiky regrese Vícenásobný korelační koeficient R : 0.955585 Koeficient determinace R^2 : 0.913142 Predikovaný korelační koeficient Rp : 0.742775 Střední kvdratická chyba predikce MEP : 13.613202 Akaikeho informační kritérium : 53.085507 42

43 POSTUP VÝSTAVBY REGRESNÍHO MODELU

1. Kvalita nalezených odhadů parametrů a) Podle intervalů spolehlivosti (čím menší interval spolehlivosti, tím lépe) b C m s 2 F j j mm 1 ; m; nm b) Podle rozptylů parametrů, kde pro kvalitní odhad musí platit 2 D( b ) b j j

2. Kvalita dosažené těsnosti proložení a) Podle reziduálního rozptylu s(y). b) Podle regresního rabatu D (= koeficient determinace v %: čím více se blíží 100 %, tím lepší je proložení). 3. Vhodnost navrženého modelu Akaikovo informační kritérium AIC (čím je menší nebo zápornější, tím vhodnější je navržený model). Střední kvadratická chyba predikce MEP (čím je MEP menší, tím je predikční schopnost navrženého modelu lepší).

4. Predikční schopnost modelu Střední kvadratická chyba predikce MEP (čím je MEP menší, tím je predikční schopnost navrženého modelu lepší). 5. Kvalita experimentálních dat a) Na základě analýzy rozličných druhů reziduí. b) Na základě Indikace vlivných bodů (Jackknife rezidua, standardizovaná rezidua, normovaná rezidua, predikovaná rezidua, rekurzivní rezidua, Cookova vzdálenost, diagonální prvky projekční matice a věrohodnostní vzdálenosti).

6. Testy regresního tripletu (Data + Model + Metoda): o 6.1 Fisher-Snedecorův test celkové regrese, o 6.2 Scottovo kritérium multikolinearity, o 6.3 Cook-Weisbergův test heteroskedasticity, o 6.4 Jarque-Berrův test normality reziduí, o 6.5 Waldův test autokorelace, o 6.6 Znaménkový test reziduí. 51

Úlohy na výstavbu lineárního regresního modelu Kritika modelu Software QC-EXPERT 3.1, 53 ADSTAT 1.25

Úloha M6.06 Vliv čtyř faktorů na koncentraci amoniakálního dusíku Zadání: Je vyšetřován vliv teploty x 1, ph x 2, koncentrace celkového dusíku x 3 a koncentrace rozpuštěného kyslíku x 4 na koncentraci amoniakálního dusíku y v odtoku z dosazovací nádrže. Úkoly: (1) Postavte vícerozměrný lineární regresní model a vyšetřete regresní triplet. (2) Pomocí parciálních regresních grafů a parciálních reziduálních grafů vyšetřete statistickou významnost jednotlivých faktorů. (3) Jsou v datech vlivné body? Je nutné odstranit vybočující hodnoty? (4) K čemu slouží znaménkový test navrženého regresního modelu? (5) Jak řešíme úlohu v případě porušení předpokladů MNČ, a to především při nalezené heteroskedasticitě v datech, autokorelaci a nenormalitě chyb? Data: Teplota x 1, ph x 2, koncentrace celkového dusíku x 3, koncentrace rozpuštěného kyslíku x 4, koncentrace amoniakálního dusíku y : x 1 x 2 x 3 x 4 y 21 7.2 35 0.1 18.5............... 22.5 7.5 38.5 0.1 25.5 54

Úloha M6.13 Vliv šesti parametrů na výtěžek destilace cyklohexanolu Zadání: Při studiu destilační kolony byly proměřovány jednotlivé fyzikálněchemické veličiny, ovlivňující výtěžek destilace. Pomocí lineárního regresního modelu diskutujte vliv dále v datech uvedených šesti sledovaných veličin x 1 až x 6 na koncentraci cyklohexanolu y. Úkoly: (1) Testujte statistickou významnost jednotlivých regresních parametrů. (2) Jsou v datech vlivné body? (3) Vysvětlete všech sedm předpokladů MNČ a řešení regresním tripletem. (4) Která kritéria jsou nejvhodnější při hledání lineárního regresního modelu? (5) Které z následujících kritérií je nejvýhodnější: střední kvadratická chyba predikce MEP, Akaikovo informační kritérium AIC a predikovaný koeficient determinace R 2 P. Data: Koncetrace cyklohexanolu v surovině x 1 [ppm], teplota na hlavě kolony x 2 [ C], tlak na hlavě kolony x 3 [atm], teplota na patě kolony x 4 [ C], reflux x 5 [kg/h], odtah x 6 [kg/h], koncetrace výsledného cyklohexanolu v produktu y [ppm]: x 1 x 2 x 3 x 4 x 5 x 6 y 80 155 0.53 165 10000 9000 29............... 1760 156 0.52 166 9200 8000 327 55

Úloha M6.29 Vliv pěti parametrů experimentálních podmínek na výtěžek syntézy Zadání: Syntéza 1-fenyl-3-methylpyrazolonu (FMP) se provádí dvoustupňově: v prvním stupni reaguje diketen s amoniakem a ve druhém stupni vzniklý acetoacetamid s hydrochloridem fenylhydrazinu. V průběhu řady syntéz byly měněny tyto parametry: molární poměr amoniaku a diketenu x 1, molární poměr acetoacetamidu AAA a fenyl-hydrazinu FH x 2, reakční teplota x 3, reakční doba x 4 a čistota diketenu v % x 5. Výsledkem experimentů byl výtěžek FMP y, vyjádřený procentem vůči teoretickému výtěžku fenylhydrazinu. Úkoly: (1) Určete lineární regresní model a testujte statistickou významnost regresních parametrů. (2) Jsou v datech odlehlé body a je třeba odstranit nějaké? (3) Uveďte všechny tabulkové hodnoty numerických diagnostik indikace vlivných bodů, které se obvykle vyskytují na počítačovém výstupu. (4) Které diagnostiky užijete k testu významnosti jenotlivých parametrů? Data: Molární poměr amoniaku a diketenu x 1, molární poměr acetoacetamidu AAA a fenylhydrazinu FH x 2, reakční teplota [ C] x 3, reakční doba [min] x 4 a čistota diketenu [%] x 5, výtěžek [%] y : x 1 x 2 x 3 x 4 x 5 y 1.02 1.21 60 40 60 73.6.................. 56 1.15 1.15 30 60 95.4 91.6

Úloha M6.55 Vliv škodlivin ovzduší na koncentraci ozonu v ionosféře Zadání: Na stanovišti byly automatickými analyzátory po dobu 24 hodin proměřovány škodliviny a faktory ovzduší. Úkoly: (1)Navrhněte vhodný regresní model pro závislost koncentrace ozonu v ionosféře na jednotlivých sledovaných proměnných. (2) Jsou v datech vlivné body? (3) Který z parametrů je statisticky významný? (4) Vyšetřením regresního tripletu proveďte kritiku dat a pomocí parciálních regresních a parciálních reziduálních grafů a Sudentova t-testu vyšetřete statistickou významnost jednotlivých parametrů modelu. Data: x 1 značí obsah SO 2 [μg/m 3 ], x 2 obsah CO [μg/m 3 ], x 3 obsah NO 2 [μg/m 3 ], x 4 obsah benzenu [μg/m 3 ], x 5 množství prachu PM10 [μg/m 3 ], x 6 směr větru [stupeň], x 7 rychlost větru [m/s], x 8 teplota [ 0 C], x 9 relativní vlhkost [ %], y značí koncentraci ozonu O 3 [μg/m 3 ]. x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 8 x 9 y 17 314 12 2.2 73 26 1.8 9.2 70 38.............................. 31 496 25 5.4 37 31 0.7 10 59 29 57

58