PRAVDĚPODOBNOST A STATISTIKA

Podobné dokumenty
PRAVDĚPODOBNOST A STATISTIKA

Inovace bakalářského studijního oboru Aplikovaná chemie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

PRAVDĚPODOBNOST A STATISTIKA

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

6. Lineární regresní modely

AVDAT Geometrie metody nejmenších čtverců

Semestrální práce. 2. semestr

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

6. Lineární regresní modely

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Kalibrace a limity její přesnosti

http: //meloun.upce.cz,

Tvorba lineárních regresních modelů při analýze dat

Regresní analýza. Eva Jarošová

Kalibrace a limity její přesnosti

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

Kalibrace a limity její přesnosti

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Úloha 1: Lineární kalibrace

Statistická analýza jednorozměrných dat

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

Tvorba nelineárních regresních

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Tvorba lineárních regresních modelů při analýze dat

6. Lineární regresní modely

Regresní analýza 1. Regresní analýza

Tvorba lineárních regresních modelů

Semestrální práce. 2. semestr

Statistická analýza jednorozměrných dat

UNIVERZITA PARDUBICE

4EK211 Základy ekonometrie

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Tomáš Karel LS 2012/2013

Tvorba nelineárních regresních modelů v analýze dat

6. Lineární regresní modely

Fakulta chemicko technologická Katedra analytické chemie

LINEÁRNÍ REGRESE. Lineární regresní model

Bodové a intervalové odhady parametrů v regresním modelu

2.2 Kalibrace a limity její p esnosti

4EK211 Základy ekonometrie

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

Úvodem Dříve les než stromy 3 Operace s maticemi

Univerzita Pardubice

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Semestrální práce. 2. semestr

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Plánování experimentu

Korelační a regresní analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

Tvorba nelineárních regresních modelů v analýze dat

Regresní a korelační analýza

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Regresní a korelační analýza

AVDAT Klasický lineární model, metoda nejmenších

INDUKTIVNÍ STATISTIKA

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

odpovídá jedna a jen jedna hodnota jiných

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

6. Lineární regresní modely

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

7. Analýza rozptylu.

Lineární regrese. Komentované řešení pomocí MS Excel

Regresní a korelační analýza

Kalibrace a limity její přesnosti

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Ilustrační příklad odhadu LRM v SW Gretl

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Aplikovaná statistika v R - cvičení 3

Menu: QCExpert Nelineární regrese Modul nelineární regrese slouží pro tvorbu a analýzu explicitních nelineárních regresních modelů v obecném tvaru

Testování statistických hypotéz

UNIVERZITA PARDUBICE

4EK211 Základy ekonometrie

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Statistická analýza jednorozměrných dat

Průzkumová analýza dat

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Úlohy. Kompendium 2012, Úloha B8.01a, str. 785, Model y = P1 * exp( P2/(B801x + P3)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Transkript:

PRAVDĚPODOBNOST A STATISTIKA

Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice je plné hodnosti Vektor Xβ je nenáhodný, tedy E Y Xβ vary I Y T T Y 1,,Y n Matice X X n,k E( i ) 0 E(ε) 0 D( ) C(, ) 0 i i je náhodný vektor a y y 1,, se nazývá matice plánu j y n var( ε) I je jeho realizace. Předpokládáme navíc, že ~ Nn ( 0, I) tedy Y ~ N n ( Xβ, I )

Lineární normální regresní model Z těchto předpokladů plyne: βˆ Yˆ T 1 T X X X Y Xβˆ H X Yˆ HY Eˆ Y Yˆ X T 1 T X X X Y T 1 T X X X h(h) k MY M I H h(m) n k βˆ Yˆ ~ Eˆ ~ ~ Nk N n N n β, ( 0, ( Xβ, X M ) T H 1 X )

Lineární normální regresní model - diagnostika Předpoklady: ~ Nn ( 0, I) Při ověřování předpokladů se vychází z reziduí ~ (, E N 0 M) D( E i ) (1 h ii ) n Získané hodnoty: e y yˆ Složky e nemusí mít stejný rozptyl

Lineární normální regresní model - diagnostika Modifikace: - normalizované rezidua: - predikovaná rezidua: e e Ni Pi e i s ei 1 h ii - standardizované rezidua: - studentizované rezidua: kde s s ( i) e e Si Ti s je odhad rozptylu, pokud vynecháme i tý bod ei n ks T y Xb( i) y Xb 1 ( i) h s ( i) n k 1 n k 1 ( i) s e i 1 h e i ( i) 1 ii h ii ii

Váha Výška 1 Příklad Výška Váha - Regresní přímka

Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: x i y složka bude: e si v grafu hledáme - velké hodnoty (outlier) - trend (potřeba přidat třeba x ) - oblasti s různým rozptylem (porušen předpokladu) Bartlettův test Příklad:

Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: y složka bude: e si i 1 h ii y

Lineární normální regresní model - diagnostika Diagnostika: - ověření základních předpokladů MNČ (kritika metody). - ověření stejného rozptylu - ověření autokorelace - ověření normality - ověření vhodnosti modelu pro daná data (kritika modelu) - ověření zda v datech je nějaká závislost - ověření kvality modelu - vhodnosti dat pro navržený regresní model (kritika dat) - zjištění vlivných bodů - vlivné body v nezávisle proměnných - vlivné body v závisle proměnných

Heteroskedasticita nekonstantnost rozptylu : - v grafické analýze reziduí x složka: h ii y, y složka : klínový tvar bodů v grafu -Cook-Weisbergův test: Pokud CW (1) Lineární normální regresní model diagnostika ověření předpokladů CW n s i1 je prokázána heteroskedasticita. 4 1 V přítomnosti heteroskedasticity je třeba uvažovat o použití metodě vážených nejmenších čtverců s váhou: 1 wi 1 1 var( ε) W y 1 diag,, βˆ T 1 T 1 X W X X W i y1 y n ( y n i i1 ( y y) e i i i y) D( ) i W Y e si

Lineární normální regresní model diagnostika ověření předpokladů

Příklad Výška Váha - Regresní přímka Váha Výška 1 Cook- Weisbergův test: CW= 5,48396 - v grafické analýze reziduí - heteroskedasticita x složka: y složka : i 1 h ii y e si klínový tvar bodů v grafu alfa= 0,05 Chi^(1)= 3,841459

Lineární normální regresní model diagnostika ověření předpokladů Ověření nezávislosti: C( i, j ) 0 Složky e i mohou být závislé zjišťuje se autokorelace Durbin-Watsonův test nezávislosti (u posloupnosti) d n1 i1 e n ei i1 i1 e i d 0, 4 Pokud d nezamítáme nezávislost, jinak jsou hodnoty zavislé na X Příklad Výška - Váha: d= 0,497331

Lineární normální regresní model diagnostika ověření předpokladů Ověření normality : ~ Nn ( 0, I) uspořádání reziduí: e( 1) e( n) - Q-Q plot j 3 1 e 8 tj. empiricky vs. teoreticky kvantil ( j ), n 1 4 - P-P plot: j 0.5, e( j) n normální body by měly být na přímce: y = x - testy normality: Pearson χ, Kolmogoriv-Smirnov, Anderson-Darling

Příklad Výška Váha - Regresní přímka Ověření normality j ej 1-10,56798-5,567979 3-5,335868 4-4,330054 5-3,949016 6 -,335868 7-1,949016 8-1,7719 9-1,490608 10 1,741507 11 3,0509839 1 3,05745 13 14,4301 14 14,818873

Lineární normální regresní model diagnostika ověření modelu Předpokládejme, že je to první sloupec jsou jedničky: Dále označme: T 1 T yˆ X X X X y T 1 T b X X X yˆ Xb y X X n, k ~ 1 X H X T 1 T X X X yˆ Hy T MSS ( yˆ 1y) ( yˆ 1y) TSS ( y 1y) ( y 1y) T RSS ( y yˆ) ( y yˆ) T Platí: TSS=MSS+RSS

Lineární normální regresní model diagnostika ověření modelu Testem celého modelu se rozumí test hypotézy: T : ( 0, 1,, k ) ( y,0, H,0) vzhledem k alternativní Pak testovací kritérium: doplněk kritického oboru: W T na hladině významnosti α, 1,, k: 0 H A : 0 y, j j MSS F k 1 RSS n k 1 0, F 1 ( k 1, n k 1) Testem celého modelu se zkoumá, zda použitý model je lepší, než žádný model (model se nahradí průměrem z hodnot y)

Lineární normální regresní model diagnostika ověření modelu Test vhodnosti modelu: pomocí koeficientu determinace MSS RSS R 1 TSS TSS Často se uvádí v procentech a udává, kolik procent bodů je vysvětleno pomocí zvoleného modelu. Aby se odstranil vliv počtu parametrů, používá se upravený koeficient determinace: R 1 (1 R n 1 ) n k

Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha 1 Výška Excel Analýza dat Regrese: ANOVA Rozdíl SS MS F ýznamnost F Regrese 1 370,7693 370,7693 6,63637 0,047 Rezidua 1 670,445 55,8704 Celkem 13 1041,14 Regresní statistika Násobné R 0,596735

Lineární normální regresní model diagnostika ověření modelu Další charakteristiky pro ověření modelu: Střední kvadratická chyba predikce - MEP: MEP 1 n n i1 e i 1 h ii, kde h ii jdou diagonální prvky matice H Akaikovo informační kritérium - AIC: RSS k T AIC ln, kde RSS ( y yˆ) ( y yˆ ) n n čím jsou tyto kritéria menší tím je lepší model Predikovaný koeficient determinace R P : R P n MEP 1 je citlivější na vybočující body než R TSS

Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha 1 Výška Střední kvadratická chyba predikce - MEP: MEP= 64,09681 Akaikovo informační kritérium - AIC: AIC= 6,0194 Predikovaný koeficient determinace R P : RP = 0,138165

Lineární normální regresní model diagnostika detekce vlivných bodů Kvalita dat úzce souvisí s použitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavním zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů. Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů.

Lineární normální regresní model diagnostika detekce vlivných bodů Vlivné body silně ovlivňují většinu výsledků regrese. Lze je rozdělit do tří základních skupin: a) Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování) nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou obyčejně důsledkem chyb při manipulaci s daty. b) Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu. c) Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.

Lineární normální regresní model diagnostika detekce vlivných bodů Podle složky dat, ve které se vlivné body vyskytují, lze provést dělení na: 1. vybočující pozorování (outliers O), které se na ose y výrazně liší od ostatních (OB),. extrémy (high leverage points E), které se liší v hodnotách na ose x, nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů (EB). Vyskytují se však i body, které jsou jak vybočující tak i extrémní (OE). O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy.

Lineární normální regresní model - diagnostika

Lineární normální regresní model diagnostika detekce vlivných bodů Detekce vlivných bodů Pro detekci vlivných bodů ve směru nezávisle proměnných se využívají hodnoty h ii (diagonální hodnoty matice H). Body považujeme za vlivné, pokud k platí: h ii, ( pro n > 300 : ). n 3k h ii n Pro detekci vlivných bodů ve směru závisle proměnných se využívají hodnoty Studentizovaných reziduí. Body považujeme za vlivné, pokud platí: e Ti t1 k ( n )

Lineární normální regresní model diagnostika detekce vlivných bodů Cookova vzdálenost Cookova vzdálenost je často využívanou metodou pro identifikaci vlivných v regresi. Tato metoda měří vliv i-tého pozorování na hodnotu odhadu vektoru β regresního modelu T Cookova vzdálenost je definována: yˆ yˆ ˆ ˆ i y yi Di kse kde ŷ i je odhad při vynechání i-tého pozorování. Cookovu vzdálenost lze definovat také s pomocí Studentizovaných reziduí: D i Orientačně platí, že je-li Cookova vzdálenost D i >1, lze detekovat i-té pozorování jako vlivný bod. Hodnotu D i je však možné porovnávat také s kvantilem Fisherova rozdělení, a to konkrétně s kvantilem F α (k,n k). Body jsou vlivné, jestliže platí D i >F α (k,n k). e Ti k h ii 1 h ii ˆ y j, i

Lineární normální regresní model diagnostika detekce vlivných bodů Williamsův graf V tomto grafu jsou na ose x znázorněny diagonální prvky projekční matice h ii a na ose y pak Studentizovaná jackknife rezidua v absolutní hodnotě. V grafu jsou pak uvedeny také mezní linie pro detekci jak leverage points, tak outliers. A to mezní linie pro leverage points, tedy ve směru osy x: k n, 3k n a mezní linie pro outliers, tedy ve směru osy y:. t n ) Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. 1 ( k

Váha Výška 1 Příklad Výška Váha - Regresní přímka hii tudent_resi Cook 0,13685,487035 0,98068 0,07451 0,3184 0,00411 0,07004,449571 0,465573 0,06619-0,4843 0,016073 0,13685-1,619 0,417074 0,1089 0,417095 0,01114 0,13685-0,78909 0,09873 0,079159-0,796 0,045717 0,1089-0,651 0,008536 0,4803-0,79096 0,57833 0,079159-0,31318 0,00843 0,1089-0,5477 0,035754 0,163685 0,45318 0,040196 0,11136-0,09 0,00516 mez= mez= mez= 0,85714,00985 >1

Příklad Výška Váha - Regresní přímka Minitab: Test koeficientů na hodnotu 0: