REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

Podobné dokumenty
Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Inovace bakalářského studijního oboru Aplikovaná chemie

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

Příloha č. 1 Grafy a protokoly výstupy z adstatu

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Kalibrace a limity její přesnosti

Semestrální práce. 2. semestr

6. Lineární regresní modely

8. Analýza rozptylu.

Deskriptivní statistika 1

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Kalibrace a limity její přesnosti

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Tvorba nelineárních regresních

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Tvorba lineárních regresních modelů při analýze dat

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PRAVDĚPODOBNOST A STATISTIKA

http: //meloun.upce.cz,

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

UNIVERZITA PARDUBICE

Úloha 1: Lineární kalibrace

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice

Tvorba lineárních regresních modelů při analýze dat

6. Lineární regresní modely

Tvorba nelineárních regresních modelů v analýze dat

Kalibrace a limity její přesnosti

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

Semestrální práce. 2. semestr

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Tvorba lineárních regresních modelů

UNIVERZITA PARDUBICE

Pravděpodobnost a aplikovaná statistika

Závislost slovních znaků

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

1. Základy počtu pravděpodobnosti:

Metody zkoumání závislosti numerických proměnných

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

LINEÁRNÍ REGRESE. Lineární regresní model

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

NEPARAMETRICKÉ METODY

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

KONEČNĚ ROZDĚLENÁ ZPOŽDĚNÍ. POLYNOMICKY ROZDĚLENÉ ZPOŽDĚNÍ.

Tvorba nelineárních regresních modelů v analýze dat

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Tvorba nelineárních regresních modelů v analýze dat

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Pravděpodobnost a aplikovaná statistika

Přednáška II. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

P2: Statistické zpracování dat

Pravděpodobnostní modely

Fakulta chemicko technologická Katedra analytické chemie

Pravděpodobnost a aplikovaná statistika

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

9. Měření závislostí ve statistice Pevná a volná závislost

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

2.2 Kalibrace a limity její p esnosti

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

8. cvičení 4ST201-řešení

Semestrální práce. 2. semestr

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

L A B O R A T O R N Í C V I Č E N Í Z F Y Z I K Y

III. Semestrální práce

Lineární a adaptivní zpracování dat. 9. Modely časových řad II.

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Statistická analýza jednorozměrných dat

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

FAKULTA CHEMICKO-TECHNOLOGICKÁ KATEDRA ANALYTICKÉ CHEMIE. Semestrální práce z CHEMOMETRE. TOMÁŠ SYROVÝ 4.ročník

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Lekce 2 Jednoduchý lineární regresní model

2 IDENTIFIKACE H-MATICE POPISUJÍCÍ VEDENÍ Z NAMĚŘENÝCH HODNOT

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

Univerzita Pardubice Fakulta chemicko-technologická. Licenční studium Statistické zpracování dat

17. Statistické hypotézy parametrické testy

Náhodný výběr 1. Náhodný výběr

Neparametrické metody

Tržní ceny odrážejí a zahrnují veškeré informace předpokládá se efektivní trh, pro cenu c t tedy platí c t = c t + ε t.

Úloha III.S... limitní

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

MATICOVÉ HRY MATICOVÝCH HER

Transkript:

4.11.011 REGRESNÍ DIAGNOSTIKA Chemometrie I, David MILDE Regresí diagostika Obsahuje postupy k posouzeí: kvality dat pro regresí model (přítomost vlivých bodů), kvality modelu pro daá data, splěí předpokladů pro MNČ (či jiou metodu odhadu). Společé posouzeí všech 3 výše uvedeých bodů ám umožňuje studium tzv. regresího tripletu. Regresí triplet: data + regresí model + metoda odhadu Z praktického hlediska (využití software) budeme regresí diagostiku dělit a části: metody aalýzy vlivých bodů, metody pro odhaleí porušeí předpokladů MNČ a posuzováí vhodosti modelu. 1

4.11.011 Regresí diagostika Základí rozdíl mezi regresí diagostikou a klasickými statistickými testy používaými v regresi je v tom, že eí třeba přesě formulovat alterativí hypotézu. Regresí diagostika se tak blíží EDA, a umožňuje iteraktiví zásah uživatele, který zá svá data lépe ež software. Tím je omeze vzik formálích regresích modelů, které emají fyzikálí smysl a jsou v praxi obvykle je omezeě použitelé. Kvalita dat: vlivé body Vlivé body ovlivňují výsledek statistické aalýzy tím, že zkreslují regresí model či zvyšují rozptyl. Lze je rozdělit do 3 skupi: hrubé chyby důsledek chyb při maipulaci s daty, body s vysokým vlivem spolehlivě změřeé body rozšiřující predikčí schopost regresího modelu, zdálivě vlivé body jeví se jako vlivé, protože byl zvole evhodý regresí model. Podle místa výskytu se dělí a: odlehlé body (OB) liší se v hodotách závisle proměé, extrémí body () liší se v hodotách ezávisle proměé, kombiace OB a, o jejich výsledém vlivu spíše rozhoduje to, že jsou.

4.11.011 Kvalita dat: vlivé body y OB OB, x Idikace vlivých bodů: statistická aalýza reziduí Reziduum je vyčísleá hodota z regresího modelu a používá se při posuzováí kvality modelu i kvality dat. 1. Klasické reziduum e i =y i y i,reg. Normovaé reziduum e Ni =e i / 3. Stadardizovaé reziduum (e Si ) idetifikaci heteroskedasticity slouží k 4. Jackkife reziduum (e Ji ) idetifikuje OB 5. Predikovaé reziduum (e Pi ) idetifikuje OB 3

4.11.011 Idikace vlivých bodů: aalýza vlivu pomocí idexů Velké možství diagostik vlivých bodů, které jsou založey a sledováí změ, ke kterým dojde při vypuštěí jedotlivých bodů a jejich dopočteí z regresího modelu. Cookova vzdáleost D i : je-li D i > 1, bod je vlivý. Atkisoova vzdáleost: modifikace Cookovy vzdáleosti se zvýrazěou citlivostí a. Diagoálí prvky projekčí matice H ii : idikují přítomost, které ezachytí aalýza reziduí, H=X(X T X) -1 X T V software se používá barevé zvýrazěí bodů idetifikovaých jako vlivé. Grafy idetifikace vlivých bodů Graf predikovaých reziduí (GPR) Williamsův graf OB OB OB, OB 4

4.11.011 Grafy idetifikace vlivých bodů Pregiboův graf (PG) erozlišuje od OB McCullohův-Meeterův graf (MMG) OB OB OB, Grafy idetifikace vlivých bodů L-R graf (osa x: H ii, osa y: e Ni ) Hyperboly zázorňují isoliie stejého vlivu. Podle polohy vůči 3 křivkám lze data rozdělit a slabě vlivá, vlivá a silě vlivá. Q-Q graf (osa x: kvatil N(O, 1), osa y: reziduum) Lze kostruovat pro růzá rezidua. Kromě vlivých bodů slouží i k posouzeí ormality reziduí. Graf Cookovy vzdáleosti. Graf Atkisoovy vzdáleosti. Graf diagoálích prvků projekčí matice H. 5

4.11.011 Grafická aalýza reziduí Vhodé použití MNČ Heteroskedasticita Tred v reziduích Chybý výpočet Chybý regresí model Ověřeí předpokladů MNČ Testováí regresího tripletu Statistická výzamost regresího modelu: F R test výzamosti regrese testuje, zda použitý model je lepší ež žádý model. viz. předáška o testováí hypotéz v LR Multikoliearita: Scottovo kritérium multikoliearity SC testuje, zda mezi ezávisle proměými eí příliš velká koliearita, která zvyšuje výrazě rozptyl parametrů regresího modelu. viz. předáška o polyomické regresi Závislost/tred reziduí: eparametrický test ověřuje přítomost závislostí, které ejsou postihuty modelem posouzeí a základě počtu změ +/- reziduí. 6

4.11.011 Ověřeí předpokladů MNČ Testováí regresího tripletu Heteroskedasticita = ekostatost rozptylu: Cook-Weisbergůvtest; CW se srovává s krit (1). Je-li CW > krit je prokázáa heteroskedasticita. ( yi y) ei i1 CW 4 ( y y) i1 Heteroskedasticitu lze odhalit i v grafu heteroskedasticity (osa x: (1-H ii )y i,osay:e Si ) klíový tvar bodů v grafu. V přítomosti heteroskedasticity je třeba uvažovat o použití vah = metodě vážeých ejmeších čtverců. i Ověřeí předpokladů MNČ Testováí regresího tripletu Normalita reziduí: Jarque-Bearův test; JB se srovává s krit (). Je-li JB < krit je prokázáa ormalita. Test je založe a posouzeí statistického rozděleí reziduí. g ( 3) JB. 1 g 6 4 Normalitu reziduí lze odhalit i v Q-Q grafech reziduí. 7

4.11.011 Ověřeí předpokladů MNČ Testováí regresího tripletu Autokorelace v LR bývá důsledkem vyecháí výzamé proměé související s y: Waldův test test; WA se srovává s krit (1). Je-li WA > krit je prokázáa autokorelace. Testuje přítomost autokorelace chyb a základě reziduí. Často se používá i Durbi-Watsoův test, který také ověřuje přítomost autokorelace a základě reziduí. 0 DW < a < DW < 4 potvrzuje autokorelaci. DW autokorelace eí. WA 1 1 1 DW í ( e e i i1 e i ) i1 Ověřeí předpokladů MNČ Kvalita regresího modelu Pomocí rozptylového grafu: y = f(x). Pomocí parciálích regresích grafů (zejméa u vícerozměré LR). Závislost y a zvoleé x i s elimiací vlivu ostatích ezávisle proměých x. Závislost je lieárí pouze v případě, že model je správý. y Směrice přímky = b i x i 8

4.11.011 Ověřeí předpokladů MNČ Kvalita regresího modelu Pomocí charakteristik vhodosti modelu AIC, MEP, R p. Při porováváí regresích modelů hledáme MEP a AIC miimálí a R p maximálí. Středí kvadratická chyba predikce -MEP(Mea Error of Predictio) MEP využívá predikce y reg,i z odhadu, při jehož kostrukci byla iformace o i-tém bodu vypuštěa. Jde tedy o chybu i-tého bodu závisle proměé spočítaou regresí právě s vyloučeím i-tého bodu. 1 MEP i1 ei (1 H ii ) Ověřeí předpokladů MNČ Kvalita regresího modelu Predikovaý koeficiet determiace R p - získáme pokud při výpočtu R použijeme MEP místo RSC, je citlivější a vybočující body ež klasický R. QC Expert používá predikovaý korelačí koeficiet R p. R p 1 i1 MEP Akaikovo iformačí kriterium AIC je kritérium kvality regrese vycházející z RSC pealizovaého počtem proměých. y i y RSC AIC l m 9

4.11.011 Výstavba lieárího regresího modelu 1. Návrh modelu (co ejjedodušší předběžý model).. Předběžá aalýza dat (posouzeí R, AIC, MEP, R p, ). 3. Regresí diagostika zaměřeá zejméa a kvalitu dat. 4. Kostrukce zpřesěého regresího modelu (případé použití jiých metod odhadu ež je MNČ). 5. Posouzeí kvality modelu s využitím testů regresího tripletu. 6. Tvorba koečého regresího modelu. 10