AVDAT Geometrie metody nejmenších čtverců

Podobné dokumenty
AVDAT Klasický lineární model, metoda nejmenších

AVDAT Výběr regresorů v mnohorozměrné regresi

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Bodové a intervalové odhady parametrů v regresním modelu

AVDAT Mnohorozměrné metody metody redukce dimenze

PROGRAMECH JOSEF TVRDÍK ČÍSLO OBLASTI PODPORY: STUDIJNÍCH PROGRAMECH OSTRAVSKÉ UNIVERZITY REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/28.

odpovídá jedna a jen jedna hodnota jiných

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

ANALÝZA VÍCEROZMĚRNÝCH DAT

Statistická analýza jednorozměrných dat

PRAVDĚPODOBNOST A STATISTIKA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

AVDAT Nelineární regresní model

Inovace bakalářského studijního oboru Aplikovaná chemie

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

7. Analýza rozptylu.

Semestrální práce. 2. semestr

LINEÁRNÍ MODELY. Zdeňka Veselá

AVDAT Mnohorozměrné metody, metody klasifikace

6. Lineární regresní modely

5EN306 Aplikované kvantitativní metody I

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

4EK211 Základy ekonometrie

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Bodové a intervalové odhady parametrů v regresním modelu

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

http: //meloun.upce.cz,

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Časové řady, typy trendových funkcí a odhady trendů

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

AVDAT Vektory a matice

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

6. Lineární regresní modely

Odhady Parametrů Lineární Regrese

4EK211 Základy ekonometrie

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Regresní analýza. Eva Jarošová

Korelační a regresní analýza

Časové řady, typy trendových funkcí a odhady trendů

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

4EK211 Základy ekonometrie

Prostorová variabilita

Regresní a korelační analýza

Úvod do analýzy časových řad

Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer

4EK211 Základy ekonometrie

Modely stacionárních časových řad

4ST201 STATISTIKA CVIČENÍ Č. 10

UNIVERZITA PARDUBICE

5EN306 Aplikované kvantitativní metody I

11 Analýza hlavních komponet

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

TERMINOLOGIE ... NAMĚŘENÁ DATA. Radek Mareček PŘEDZPRACOVÁNÍ DAT. funkční skeny

4EK211 Základy ekonometrie

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistická analýza jednorozměrných dat

Úvodem Dříve les než stromy 3 Operace s maticemi

KGG/STG Statistika pro geografy

Kalibrace a limity její přesnosti

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

ZOBECNĚNÝ LINEÁRNÍ REGRESNÍ MODEL. METODA ZOBECNĚNÝCH NEJMENŠÍCH ČTVERCŮ

Příloha č. 1 Grafy a protokoly výstupy z adstatu

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

LINEÁRNÍ REGRESE. Lineární regresní model

Regresní a korelační analýza

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

Klasická a robustní ortogonální regrese mezi složkami kompozice

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Tomáš Karel LS 2012/2013

Základy lineární regrese

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

4EK211 Základy ekonometrie

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

6. Lineární regresní modely

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Transkript:

AVDAT Geometrie metody nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Lineární model klasický lineární regresní model odhad parametrů MNČ y = Xβ + ε, ε N(0, σ 2 I) b = (X T X) 1 X T y. Vektor ŷ = Xb je lineární kombinací vektorů regresorů, tj. leží v prostoru (přímce, rovině, nadrovině), jehož dimenze je rovna počtu regresorů. Dosadíme-li za b, dostaneme ŷ = Xb = X(X T X) 1 X T y = Hy Matice H = X(X T X) 1 X T je matice projekce vektoru y do prostoru určeného vektory regresorů.

Lineární model projekce RSS = (y ŷ) T (y ŷ) min vlastně znamená, že tato projekce je ortogonální. Pak tedy vektory ŷ a e = y ŷ jsou ortogonální vektory, ŷ T e = e T ŷ = 0 (Xb) T (y Xb) = b T X T y b T X T Xb = b T (X T y X T Xb) = 0, výraz v poslední závorce je nulový vektor, viz normální rovnice: X T y = X T Xb

Residua e = y ŷ vektor residuí složky e i = y i ŷ i residua. Součet a tedy i průměr residuí je roven nule: n e i = i=1 n (y i ŷ i ) = i=1 n n y i ŷ i = 0, i=1 i=1 Z první normální rovnice platí ȳ = b T x, x T = [1, x 1, x 2,..., x k ], n (ŷ i ȳ) = i=1 n n ŷ i y i = b T i=1 i=1 n (x i x) = 0, i=1 nebot součet odchylek od průměru je nulový.

Rozklad součtu čtverců TSS = (y ȳ) T (y ȳ) TSS můžeme rozložit na dvě složky: MSS = (ŷ ȳ) T (^y ȳ) a už dříve definovanou RSS = (y ŷ) T (y ŷ) = e T e Platí tedy, že TSS = MSS + RSS, MSS je část z TSS, která je vysvětlena závislostí na regresorech zbylou část (RSS) lineární závislostí vysvětlit nelze.

Index determinace R 2 = MSS TSS = TSS RSS TSS = 1 RSS TSS 0 R 2 1. R 2 = 1, když RSS = 0, tzn. regresní model vysvětluje závislost vysvětlované veličiny na regresorech úplně (dokonalá lineární závislost). R 2 = 0, model nevysvětluje nic, tedy RSS = TSS, tzn. b 1 = b 2 =... = b k = 0 a b 0 = ȳ např. pro k = 1 je regresní přímka rovnoběžná s osou x v úrovni b 0 = ȳ.

ANOVA zdroj stupně součet průměrný variab. volnosti čtverců čtverec F p value MSS/k model k MSS MSS/k RSS/(n k 1) 0.... error n k 1 RSS RSS/(n k 1) total n 1 TSS Za předpokladu, že s 2 = RSS/(n k 1) je nestranným odhadem rozptylu náhodné složky σ 2 a náhodné kolísání má normální rozdělení, má statistika F rozdělení F F k,n k 1 a můžeme ji užít k testu hypotézy H 0 : β 1 = β 2 =... = β k = 0 proti H 1 : aspoň jeden parametr β j 0, j = 1, 2,..., k

Směrodatná odchylka residuí, adjustovaný R 2 Důležitou informaci o variabilitě residuí e i = y i ŷ i poskytuje směrodatná odchylka residuí (square root mean error) RSS s = n k 1 Index determinace má tendenci nadhodnocovat podíl modelu na vysvětlení celkové variability. Kvůli náhodnému kolísání jsou odhady b j 0 i tehdy, když β j = 0, j = 1, 2,..., k. Adjustovaný index determinace R 2 adj = 1 RSS/(n k 1) TSS/(n 1) = 1 n 1 n k 1 (1 R2 ) R 2 adj < R2. Rozdíl je výrazný tehdy, když n je jen o málo větší než k R 2 adj se přibližuje R2 pro n k.

Regresní diagnostika projekční matice Vektor residuí vyjádřit pomocí projekční matice H: Kovarianční matice residuí e = y ŷ = Iy Hy = (I H)y cov(e) = cov [(I H)y] = (I H)cov(y)(I H) T = (I H)σ 2 I(I H) T = σ 2 (I H)(I H) T = σ 2 (I H H T + HH T ) = σ 2 (I H) H je symetrická (H T = H) a idempotentní (H 2 = H): HH T = H 2 = X(X T X) 1 X T X(X T X) 1 X T = H

Regresní diagnostika projekční matice Matice H s prvky h ij, i, j = 1, 2,..., n je symetrická, ale nemusí být diagonální. Jak bylo v předchozím odstavci ukázáno, kovarianční matice vektoru residuí je rovna cov(e) = σ 2 (I H) Nestranným odhadem parametru σ 2 je reziduální rozptyl (tzn. rozptyl ε i ): s 2 1 = n k 1 et e

Regresní diagnostika residua Klasická residua Jejich rozptyly e = y Xb. var(e i ) = s 2 e(1 h ii ), nejsou konstantní, i když var(ɛ i ) = σ 2 konstantní je. Normovaná residua Jsou to klasická residua, vydělená reziduální směrodatnou odchylkou: e Ni = e i s Jejich rozptyl je roven tedy nemusí být roven jedné. var(e Ni ) = 1 h ii,

Regresní diagnostika residua Standardizovaná rezidua Někdy vnitřně studentizovaná residua (internally studentized) e Si = e i s 1 h ii jejich rozptyl je konstantní, roven jedné. Plně studentizovaná rezidua JACKKNIFE residua, vždy pro i tý bod se residuum počítá z modelu, jehož parametry byly odhadnuty ze zbývajících n 1 bodů. e ( i) e Ji =. s ( i) 1 hii kde s ( i) je residuální směrodatná odchylka při vynechání i-tého bodu. Tato residua mají t rozdělení, e Ji t(n k 2).

Regresní diagnostika leverage Leverage Tyto charakteristiky ohodnocují vliv i-tého bodu na hodnoty odhadů parametrů. Jsou to diagonální prvky projekční matice, tedy hodnoty h ii. Platí, že 0 < h ii < 1 a n h ii = k + 1, i=1 kde k je počet regresorů. Hodnota h ii je úměrná vzdálenosti i-tého pozorování od těžiště (v k-rozměrném prostoru regresorů), h ii se považuje za velké, když h ii je větší než dvojnásobek průměrné hodnoty, tj. h ii > 2(k + 1)/n).

Regresní diagnostika Cookova vzdálenost Cookova vzdálenost Tato charakteristika slouží také k posouzení vlivu i-tého pozorování na odhady parametrů modelu, tj. na hodnoty b. Je to vlastně relativní změna reziduálního součtu čtverců způsobená vypuštěním i-tého pozorování. Cookova vzdálenost pro i-té pozorování je definována C i = (y ŷ ( i)) T (y ŷ ( i) ) ps 2 = (b b ( i)) T (X T X)(b b ( i) ) ps 2 = h ii p(1 h ii ) e2 Si kde b ( i) jsou jsou jackknife odhady (spočítané při vypuštění i-tého bodu) a p je počet odhadovaných parametrů. Cookova vzdálenost ohodnocuje vliv i-tého pozorování na odhad vektoru regresních parametrů b. Je-li Cookova vzdálenost C i 1, i-pozorování velmi podstatně ovlivňuje odhady parametrů.

Regresní diagnostika autokorelace Model autokorelačního procesu prvního řádu AR(1): ε i = ρ 1 ε i 1 + u i kde u i N(0, σ 2 ) Autokorelační koeficient prvního řádu ρ 1 odhadujeme jako ˆρ 1 = n i=2 e ie i 1 n i=1 e2 i Durbin Watsonova statistika D W = n i=2 (e i e i 1 ) 2 n i=1 e2 i 2 (1 ˆρ 1 ) Pro tuto statistiku platí 0 D W 4, E(D W ) = 2 při ρ 1 = 0. Při rozhodování je pro hodnoty statistiky velmi blízké dvěma spoléhat na intuici a považovat residua za nekorelované.