PRAVDĚPODOBNOST A STATISTIKA

Podobné dokumenty
PRAVDĚPODOBNOST A STATISTIKA

Inovace bakalářského studijního oboru Aplikovaná chemie

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Geometrie metody nejmenších čtverců

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

6. Lineární regresní modely

Regresní analýza. Eva Jarošová

Semestrální práce. 2. semestr

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Regresní analýza 1. Regresní analýza

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

6. Lineární regresní modely

Tvorba lineárních regresních modelů při analýze dat

http: //meloun.upce.cz,

4EK211 Základy ekonometrie

Kalibrace a limity její přesnosti

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Korelační a regresní analýza

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Kalibrace a limity její přesnosti

Úvodem Dříve les než stromy 3 Operace s maticemi

Kalibrace a limity její přesnosti

Tabulka č. 1 95%ní intervaly Úsek Směrnice model L1 L2 L1 L2 Leco1-0, , , ,15618 OES -0, , , ,21271

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Plánování experimentu

Regresní a korelační analýza

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

12. licenční studium Statistické zpracování dat při managementu jakosti. Lenka Hromádková

Tomáš Karel LS 2012/2013

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

UNIVERZITA PARDUBICE

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Regresní a korelační analýza

Úloha 1: Lineární kalibrace

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Lineární regrese. Komentované řešení pomocí MS Excel

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Statistická analýza jednorozměrných dat

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Tvorba nelineárních regresních

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Tvorba lineárních regresních modelů při analýze dat

Regresní a korelační analýza

Testování statistických hypotéz

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Statistická analýza jednorozměrných dat

Kontingenční tabulky, korelační koeficienty

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

LINEÁRNÍ REGRESE. Lineární regresní model

Aplikovaná statistika v R - cvičení 3

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

6. Lineární regresní modely

2.2 Kalibrace a limity její p esnosti

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

INDUKTIVNÍ STATISTIKA

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistická analýza jednorozměrných dat

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Ilustrační příklad odhadu LRM v SW Gretl

Univerzita Pardubice

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

odpovídá jedna a jen jedna hodnota jiných

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tvorba lineárních regresních modelů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Fakulta chemicko technologická Katedra analytické chemie

4EK211 Základy ekonometrie

Kontingenční tabulky, korelační koeficienty

Průzkumová analýza dat

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Kalibrace a limity její přesnosti

S E M E S T R Á L N Í

Licenční studium Galileo: Statistické zpracování dat. Tvorba lineárních regresních modelů při analýze dat. Semestrální práce

Semestrální práce. 2. semestr

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Tvorba nelineárních regresních modelů v analýze dat

Statistika, Biostatistika pro kombinované studium. Jan Kracík

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Charakteristika datového souboru

Transkript:

PRAVDĚPODOBNOST A STATISTIKA

Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti Vektor β je nenáhodný, tedy E Y β vary I Y T T Y 1,,Y n Matice n,k je náhodný vektor a y y 1,, se nazývá matice plánu y n je jeho realizace. Předpokládáme navíc, že ~ Nn ( 0, I) tedy Y ~ N n ( β, I )

SP Regresní analýza Z těchto předpokladů plyne: rezidua : realizace reziduí: Lineární normální regresní model 1, ~ ˆ β β T k N ), ( ~ ˆ M 0 Y Y U N n Y β T T 1 ˆ Y β Y T T 1 ˆ ˆ T T H 1 Y HY ˆ k h (H) H I M k n h (M) ), ( ~ ˆ ˆ M 0 Y Y U E N n ), ( ~ ˆ H β Y N n MY Y Y U ˆ y y e ˆ

Lineární normální regresní model - diagnostika Diagnostika: -ověření modelu - ověření zda v datech je nějaká závislost - ověření kvality modelu -ověření předpokladů - ověření normality - ověření stejného rozptylu -zjištění vlivných bodů - vlivné body v nezávisle proměnných - vlivné body v závisle proměnných

Lineární normální regresní model diagnostika ověření modelu Předpokládejme, že je to první sloupec jsou jedničky: Dále označme: T 1 T yˆ y T 1 T b yˆ b y n, k 1 ~ H T 1 T yˆ Hy MSS T ( yˆ 1y) ( yˆ 1y) TSS T ( y 1y) ( y 1y) RSS T ( y yˆ) ( y yˆ) Platí: TSS=MSS+RSS

Lineární normální regresní model diagnostika ověření modelu Testem celého modelu se rozumí test hypotézy: T T H : ( 0, 1,, k ) ( y,0,,0) vzhledem k alternativní Pak testovací kritérium: doplněk kritického oboru: W na hladině významnosti α, 1,, k: 0 H A : 0 y, j j MSS F k 1 RSS n k 1 0, F 1 ( k 1, n k 1) Testem celého modelu se zkoumá, zda použitý model je lepší, než žádný model (model se nahradí průměrem z hodnot y)

Lineární normální regresní model diagnostika ověření modelu Test vhodnosti modelu: pomocí koeficientu determinace MSS RSS R 1 TSS TSS Často se uvádí v procentech a udává, kolik procent bodů je vysvětleno pomocí zvoleného modelu. Aby se odstranil vliv počtu parametrů, používá se upravený koeficient determinace: R 1 (1 R n 1 ) n k

Příklad Výška Váha - Regresní přímka Příklad výška, váha Regresní přímka: Váha Výška 1 Excel Analýza dat Regrese: ANOVA Rozdíl SS MS F ýznamnost F Regrese 1 370,7693 370,7693 6,63637 0,047 Rezidua 1 670,445 55,8704 Celkem 13 1041,14 Regresní statistika Násobné R 0,596735

Předpoklady: Y ~ ( β, N n I ) Lineární normální regresní model diagnostika ověření předpokladů Při ověřování předpokladů se vychází z reziduí ˆ ~ (, E N 0 M) D( E i ) (1 h ii ) n Získané hodnoty: e y yˆ

Váha Výška 1 Příklad Výška Váha - Regresní přímka

Složky e nemusí mít stejný rozptyl Lineární normální regresní model diagnostika ověření předpokladů Modifikace: - normalizované rezidua: e Ni e i s - standardizované rezidua: - studentizované rezidua: kde s s ( i) e e Si Ti s je odhad rozptylu, pokud vynecháme i tý bod ei n ks T y b( i) y b 1 ( i) h s ( i) n k 1 n k 1 ( i) s e i 1 h e i ( i) 1 ii h ii ii

Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: x i y složka bude: e si v grafu hledáme - velké hodnoty (outlier) - trend (potřeba přidat třeba x - oblasti s různým rozptylem (porušen předpokladu) - Bartlettuv test Příklad:

Lineární normální regresní model diagnostika grafická analýza reziduí Sestavíme graf, kde x složka bude: y složka bude: e si i 1 h ii y

Váha Výška 1 Příklad Výška Váha - Regresní přímka

Heteroskedasticita nekonstantnost rozptylu - v grafické analýze reziduí x složka: h ii y, y složka : klínový tvar bodů v grafu -Cook-Weisbergův test: Pokud CW (1) Lineární normální regresní model diagnostika ověření předpokladů CW n s i1 je prokázána heteroskedasticita. 4 1 V přítomnosti heteroskedasticity je třeba uvažovat o použití metodě vážených nejmenších čtverců. ( y n i i1 ( y y) e i i i y) e si

Lineární normální regresní model - diagnostika Ověření normality uspořádání rezudií: e( 1) e( n) - Q-Q plot j 3 1 e 8 tj. empiricky vs. teoreticky kvantil ( j ), n 1 4 - P-P plot: j 0.5, e( j) n normální body by měly být na přímce y=x - testy normality: Pearson χ, Kolmogoriv-Smirnov, Anderson-Darling

Příklad Výška Váha - Regresní přímka Ověření normality j ej 1-10,56798-5,567979 3-5,335868 4-4,330054 5-3,949016 6 -,335868 7-1,949016 8-1,7719 9-1,490608 10 1,741507 11 3,0509839 1 3,05745 13 14,4301 14 14,818873

Lineární normální regresní model - diagnostika Ověření nezávislosti Složky e i mohou být závislé zjišťuje se autokorelace Durbin-Watsonův test nezávislosti (u posloupnosti) d n1 i1 e n ei i1 i1 e i d 0, 4 Pokud d nezamítáme nezávislost, jinak jsou hodnoty zavislé na Příklad Výška - Váha: d= 0,497331

Lineární normální regresní model diagnostika detekce vlivných bodů Kvalita dat úzce souvisí s použitým regresním modelem. Při posuzování se sleduje především výskyt vlivných bodů (VB), které jsou hlavním zdrojem řady problémů, jako je zkreslení odhadů a růst rozptylů až k naprosté nepoužitelnosti regresních odhadů parametrů. Ve zvláštních případech však vlivné body zlepšují predikční schopnosti modelů.

Lineární normální regresní model diagnostika detekce vlivných bodů Vlivné body silně ovlivňují většinu výsledků regrese. Lze je rozdělit do tří základních skupin: a) Hrubé chyby, které jsou způsobeny měřenou veličinou (vybočující pozorování) nebo nevhodným nastavením vysvětlujících proměnných (extrémy). Jsou obyčejně důsledkem chyb při manipulaci s daty. b) Body s vysokým vlivem (tzv. golden points) jsou speciálně vybrané body, které byly přesně změřeny, a které obvykle rozšiřují predikční schopnosti modelu. c) Zdánlivě vlivné body vznikají jako důsledek nesprávně navrženého regresního modelu.

Lineární normální regresní model diagnostika detekce vlivných bodů Podle složky dat, ve které se vlivné body vyskytují, lze provést dělení na: 1. vybočující pozorování (outliers O), které se na ose y výrazně liší od ostatních (OB),. extrémy (high leverage points E), které se liší v hodnotách na ose x, nebo v jejich kombinaci (v případě multikolinearity) od ostatních bodů (EB). Vyskytují se však i body, které jsou jak vybočující tak i extrémní (OE). O jejich výsledném vlivu však především rozhoduje to, že jsou extrémy.

Lineární normální regresní model - diagnostika

Lineární normální regresní model diagnostika detekce vlivných bodů Detekce vlivných bodů Pro detekci vlivných bodů ve směru nezávisle proměnných se využívají hodnoty h ii (diagonální hodnoty matice H). Body považujeme za vlivné, pokud k platí: h ii, ( pro n > 300 : ). n 3k h ii n Pro detekci vlivných bodů ve směru závisle proměnných se využívají hodnoty Studentizovaných reziduí. Body považujeme za vlivné, pokud platí: e Ti t1 k ( n )

Lineární normální regresní model diagnostika detekce vlivných bodů Cookova vzdálenost Cookova vzdálenost je často využívanou metodou pro identifikaci vlivných v regresi. Tato metoda měří vliv i-tého pozorování na hodnotu odhadu vektoru β regresního modelu T Cookova vzdálenost je definována: yˆ yˆ ˆ ˆ i y yi Di kse kde ŷ i je odhad při vynechání i-tého pozorování. Cookovu vzdálenost lze definovat také s pomocí Studentizovaných reziduí: D i Orientačně platí, že je-li Cookova vzdálenost D i >1, lze detekovat i-té pozorování jako vlivný bod. Hodnotu D i je však možné porovnávat také s kvantilem Fisherova rozdělení, a to konkrétně s kvantilem F α (k,n k). Body jsou vlivné, jestliže platí D i >F α (k,n k). e Ti k h ii 1 h ii ˆ y j, i

Lineární normální regresní model diagnostika detekce vlivných bodů Williamsův graf V tomto grafu jsou na ose x znázorněny diagonální prvky projekční matice h ii a na ose y pak Studentizovaná jackknife rezidua v absolutní hodnotě. V grafu jsou pak uvedeny také mezní linie pro detekci jak leverage points, tak outliers. A to mezní linie pro leverage points, tedy ve směru osy x: k n, 3k n a mezní linie pro outliers, tedy ve směru osy y:. t n ) Body vpravo od svislé přímky jsou silně vlivné, body nad vodorovnou přímkou jsou silně vybočující. 1 ( k

Váha Výška 1 Příklad Výška Váha - Regresní přímka hii tudent_resi Cook 0,13685,487035 0,98068 0,07451 0,3184 0,00411 0,07004,449571 0,465573 0,06619-0,4843 0,016073 0,13685-1,619 0,417074 0,1089 0,417095 0,01114 0,13685-0,78909 0,09873 0,079159-0,796 0,045717 0,1089-0,651 0,008536 0,4803-0,79096 0,57833 0,079159-0,31318 0,00843 0,1089-0,5477 0,035754 0,163685 0,45318 0,040196 0,11136-0,09 0,00516 mez= mez= mez= 0,85714,00985 >1

Příklad Výška Váha - Regresní přímka Minitab: Test koeficientů na hodnotu 0: