AVDAT Klasický lineární model, metoda nejmenších

Podobné dokumenty
AVDAT Geometrie metody nejmenších čtverců

AVDAT Nelineární regresní model

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Odhady Parametrů Lineární Regrese

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

8 Coxův model proporcionálních rizik I

AVDAT Mnohorozměrné metody, metody klasifikace

LINEÁRNÍ MODELY. Zdeňka Veselá

4EK211 Základy ekonometrie

Regresní analýza 1. Regresní analýza

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Odhad parametrů N(µ, σ 2 )

AVDAT Výběr regresorů v mnohorozměrné regresi

Pojem endogenity a exogenity

odpovídá jedna a jen jedna hodnota jiných

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Odhad parametrů N(µ, σ 2 )

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

Základy teorie odhadu parametrů bodový odhad

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

AVDAT Mnohorozměrné metody metody redukce dimenze

7. Analýza rozptylu.

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

4EK211 Základy ekonometrie

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

6. Lineární regresní modely

ANALÝZA VÍCEROZMĚRNÝCH DAT

AVDAT Vektory a matice

Regresní a korelační analýza

PROGRAMECH JOSEF TVRDÍK ČÍSLO OBLASTI PODPORY: STUDIJNÍCH PROGRAMECH OSTRAVSKÉ UNIVERZITY REGISTRAČNÍ ČÍSLO PROJEKTU: CZ.1.07/2.2.00/28.

Klasická a robustní ortogonální regrese mezi složkami kompozice

4EK211 Základy ekonometrie

Regresní a korelační analýza

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

5EN306 Aplikované kvantitativní metody I

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

4EK211 Základy ekonometrie

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Inovace bakalářského studijního oboru Aplikovaná chemie

Korelační a regresní analýza

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4EK211 Základy ekonometrie

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Stavový model a Kalmanův filtr

Optimalizace provozních podmínek. Eva Jarošová

Matematika pro chemické inženýry

3 Bodové odhady a jejich vlastnosti

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

LINEÁRNÍ REGRESE. Lineární regresní model

Tomáš Karel LS 2012/2013

Lineární a logistická regrese

oddělení Inteligentní Datové Analýzy (IDA)

Přepoklady KLM a Gauss Markov teorém. Blue odhad - GM. KLM Klasický lineární model. 1) Lineární v parametrech. 2) E ε = 0

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

4ST201 STATISTIKA CVIČENÍ Č. 10

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Základy lineární regrese

PRAVDĚPODOBNOST A STATISTIKA

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

MATEMATICKÁ STATISTIKA - XP01MST

5EN306 Aplikované kvantitativní metody I

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Heteroskedasticita. Vysoká škola ekonomická Praha. Fakulta informatiky a statistiky. Katedra statistiky a pravděpodobnosti

4EK211 Základy ekonometrie

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Vícerozměrná rozdělení

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Normální (Gaussovo) rozdělení

Příklady - Bodový odhad

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Regresní a korelační analýza

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Statistická analýza dat

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Statistická analýza jednorozměrných dat

Vlastnosti odhadů ukazatelů způsobilosti

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Náhodné vektory a matice

Transkript:

AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita

Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i je pozorovaná hodnota náhodné veličiny Y x i1,, x ik jsou hodnoty vysvětlujících proměnných (regresorů, prediktorů) β 0, β 1,, β k jsou parametry modelu (fixní, leč neznámé hodnoty) ε i je náhodná složka i = 1, 2,, n je index pozorování (objektu)

Lineární model y = Xβ + ε (2) Matice X má k + 1 sloupců, v prvním sloupci jsou jedničky, dalších sloupcích jsou hodnoty vysvětlujících veličin. pro i-tý řádek y i = x T i β + ε i (3)

Předpoklady v klasickém modelu: 1 E(ε) = 0, tj. vektor středních hodnot náhodné složky je roven nulovému vektoru 2 cov(ε) = σ 2 I n, σ 2 > 0, I je jednotková matice řádu n, tj. náhodné složky jsou nekorelované a jejich rozptyl je konstantní 3 X je nenáhodná matice typu n (k + 1) 4 hodnost matice X, h(x) = k + 1 n, tj. sloupce matice X nejsou lineárně závislé a počet pozorování je alespoň roven počtu parametrů

Klasický lineární model Podmíněné střední hodnoty: E(y X) = Xβ + E(ε X) = Xβ (4) Připomenutí - kovarianční matice náhodného vektoru X [ ] Σ = cov(x) = E (X E(X))(X E(X)) T (5) Kovarianční matice s využitím rov. (5) cov(y X) = E { [y E(y X)][y E(y X)] T X } = = E { [y Xβ][y Xβ] T X } = E { (ε X)(ε X) T X } = σ 2 I (6)

Metoda nejmenších čtverců vektor b, pro který je nejmenší tzv. residuální suma čtverců (RSS) odchylek pozorovaných hodnot od jejich odhadů z modelu RSS = (y Xb) T (y Xb) (7) V minimu derivace výrazu (7) podle vektoru b, tj. RSS b = b (yt y b T X T y y T X b + b T X T X b) = = b ( 2 bt X T y + b T X T X b) = 2 X T y + 2X T X b se rovná nulovému vektoru. Soustava normálních rovnic X T y = X T Xb (8)

Soustava normálních rovnic - řešení Soustava normálních rovnic X T y = X T Xb Vzhledem k platnosti předpokladu h(x T X) = k + 1 můžeme řešení této soustavy lineárních rovnic (vzhledem k b) vyjádřit explicitně jako b = (X T X) 1 X T y (9) Odhady určené podle (9) se nazývají OLS odhady (Ordinary Least Squares). Tyto odhady jsou nestranné, nebot E(b) = E(b X) = (X T X) 1 X T E(y X) = (X T X) 1 X T Xβ = β (10)

Kovarianční matice odhadů [ ] cov(b) = (X T X) 1 X T σ 2 I (X T X) 1 X T T = σ 2 (X T X) 1 (11) Na diagonále této matice jsou rozptyly odhadu parametrů var(b i ). Nestranný odhad parametru σ 2 s 2 = RSS n k 1 (12) Nestranný odhad kovarianční matice odhadů parametru b S bb = s 2 (X T X) 1 (13) Na diagonále matice S bb jsou nestranné odhady rozptylů odhadu parametrů, jejich odmocninu (směrodatnou odchylku odhadu) označme s(b i ).

Rozdělení náhodného kolísání Přidáme k předpokladům (1) až (4) ještě předpoklad o tvaru rozdělení náhodné složky modelu (1) (5) ε i N(0, σ 2 ), i = 1, 2,, n, S využitím předpokladu (2) ε N(0, σ 2 I) pro následující statistiku platí b i β i N(0, 1) var(bi ) i = 0, 1,, k a pro b i β i s(b i ) t n k 1. (14) Tuto statistiku pak můžeme užít ke stanovení intervalu spolehlivosti pro parametr β i a testování hypotéz o tomto parametru.

Příklad výstupu lineární regrese Regression Equation Section Independent Regression Standard T-Value Prob Variable Coefficient Error (Ho: B=0) Level Intercept 9.12688 1.102801 8.2761 0.000000 x6 0.2028154 4.576761E-02 4.4314 0.000210 x8-7.239294e-02 7.999381E-03 9.0498 0.000000

Odhad parametrů metodou maximální věrohodnosti Maximálně věrohodné (Maximum Likelihood). ML-odhady odhadují hodnoty parametrů tak, aby tyto odhady maximalizovaly tzv. věrohodnostní funkci, tj. odhady jsou určeny jako nejpravděpodobnější hodnoty parametrů pro pozorovaná data. ML-odhady obecně mají řadu dobrých vlastností: jsou asymptoticky nestranné (s rostoucím n jejich střední hodnota konverguje k odhadovanému parametru) skoro vždy jsou konsistentní (s rostoucím n rozptyl odhadu konverguje k nule) Věrohodnostní funkce (součin hustot jednotlivých pozorování) L ML = (2πσ 2) ( ) n/2 exp εt ε 2σ 2 a její logaritmus je ln(l ML ) = L = ( n 2 ) ln (2πσ2 ) (y Xβ)T (y Xβ) 2σ 2 (15)

Odhad parametrů metodou maximální věrohodnosti Při hledání maxima funkce (15) položíme derivace podle hledaných proměnných rovny nule, tedy L β = 0, L σ 2 = 0 (16) a dostaneme X T y = X T Xβ ML (17) Vidíme, že ML-odhady regresních koeficientů jsou v klasickém lineárním modelu stejné jako odhady získané metodou nejmenších čtverců (OLS-odhady), β ML = b, ML-odhad parametru σ 2 z rov.(16) je σ ML = 1 n (y Xβ)T (y Xβ) = RSS n tedy se liší od OLS-odhadu, je pouze asymptoticky nestranný.