Odhady Parametrů Lineární Regrese

Podobné dokumenty
Intervalové Odhady Parametrů

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Cvičení 11. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Základy teorie odhadu parametrů bodový odhad

AVDAT Klasický lineární model, metoda nejmenších

Intervalové Odhady Parametrů II Testování Hypotéz

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Lineární Regrese Hašovací Funkce

PRAVDĚPODOBNOST A STATISTIKA

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

Odhad parametrů N(µ, σ 2 )

Cvičení 10. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

prof. RNDr. Roman Kotecký DrSc., Dr. Rudolf Blažek, PhD Pravděpodobnost a statistika Katedra teoretické informatiky Fakulta informačních technologií

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Odhad parametrů N(µ, σ 2 )

Výběrové charakteristiky a jejich rozdělení

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Charakterizace rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

3 Bodové odhady a jejich vlastnosti

5. B o d o v é o d h a d y p a r a m e t r ů

AVDAT Náhodný vektor, mnohorozměrné rozdělení

PRAVDĚPODOBNOST A STATISTIKA

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Odhady - Sdružené rozdělení pravděpodobnosti

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Bodové a intervalové odhady parametrů v regresním modelu

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

LWS při heteroskedasticitě

Regresní analýza 1. Regresní analýza

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Přijímací zkouška na navazující magisterské studium 2017

LINEÁRNÍ MODELY. Zdeňka Veselá

4EK211 Základy ekonometrie

Pravděpodobnost a statistika I KMA/K413

Chyby nepřímých měření

Statistika II. Jiří Neubauer

Pravděpodobnost a statistika

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

AVDAT Nelineární regresní model

Příklady - Bodový odhad

Téma 22. Ondřej Nývlt

Regresní a korelační analýza

Pravděpodobnost a matematická statistika

Přijímací zkouška na navazující magisterské studium 2014

15. T e s t o v á n í h y p o t é z

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

NMFM301 Statistika pro finanční matematiky. Michal Kulich

Základy teorie pravděpodobnosti

NÁHODNÁ VELIČINA. 3. cvičení

AVDAT Geometrie metody nejmenších čtverců

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

odpovídá jedna a jen jedna hodnota jiných

Interpolace, aproximace

Aplikovaná numerická matematika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Apriorní rozdělení. Jan Kracík.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

4. Aplikace matematiky v ekonomii

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Odhad stavu matematického modelu křižovatek

Klasifikace a rozpoznávání. Lineární klasifikátory

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Pravděpodobnost a aplikovaná statistika

KVADRATICKÁ KALIBRACE

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Zápočtová písemka z Matematiky III (BA04) skupina A

oddělení Inteligentní Datové Analýzy (IDA)

PRAVDĚPODOBNOST A STATISTIKA

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Tomáš Karel LS 2012/2013

Algoritmy komprese dat

4EK211 Základy ekonometrie

Vybraná rozdělení náhodné veličiny

Tomáš Karel LS 2012/2013

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Neparametrické odhady podmíněné rizikové funkce

Transkript:

Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze Rudolf Blažek & Roman Kotecký, 2011 Pravděpodobnost a statistika BI-PST, LS 2010/11, Přednáška 11 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnos@

Bodové Odhady Parametrů Úvod Teorie pro Odhady Parametrů (Parameter Estimation Theory) 2

Bodové Odhady Parametrů Úvod Bodové odhady populačního průměru μ a rozptylu σ 2 Bodové odhady μ a σ 2 Nechť X1, X2, X3,..., Xn je náhodný výběr (i.i.d. náhodné veličiny) se střední hodnotou μ a rozptylem σ 2 (konečnými). Jako bodový odhad μ použijeme výběrový průměr Jako bodový odhad σ 2 použijeme výběrový rozptyl s 2 n = 1 n 1 X n = 1 n X i (X i X n ) 2 i.i.d....* independent and identically distributed * * * nezávislé a stejně rozdělené 3

Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů K formátu bodových odhadů pro střední hodnotou μ a rozptylu σ 2 jsme došli intuicí... Jsou to dobré odhady? Co to znamená dobré? Obecně, bodový odhad* * * * * * * (point estimator) je funkce napozorovaných veličin X1, X2, X3,..., Xn je to tedy náhodná veličina její rozdělení je základem pro intervalový odhad Jak ale zvolíme tuto funkci napozorovaných veličin? 4

Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů Definice Nechť X = (X1, X2, X3,..., Xn) je náhodný vektor pozorování jehož rozdělení závisí na parametru θ, který chceme odhadnou. Bodový odhad parametru θ je funkce ˆ = g(x 1,..., X n ). Rozdělení X závisí na hodnotě parametru θ. Proto na θ závisí i rozdělení odhadu ˆ = g(x 1,..., X n ). Pθ a Eθ... *pravděpdobnost a střední hodnota, pokud θ je * * * * správná hodnota parametru 5

Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů Terminologie pro bodové odhady Nechť je odhad parametru θ. Chyba odhadu: Vychýlení: ˆ = g(x 1,..., X n ) Nevychýlený odhad: Asymptoticky nevychýlený odhad: lim n!1 E Konzistentní odhad: = ˆ b ( ˆ ) =E ˆ E ˆ = 8 ˆ n = 8 ˆ n! v pravděpodobnosti 8 6

Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad Pro náhodný výběr X1, X2, X3,..., Xn jsou výběrový průměr a výběrový rozptyl oba nevychýlené odhady. X n = 1 n X i s 2 n = 1 n 1 (X i X n ) 2 7

Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad X1,..., Xn: i.i.d. náhodné veličiny s EXi = μ a Var Xi = σ 2. Výběrový průměr je nevychýlený odhad μ: EX n = E 1 n X i = 1 n µ = µ = 1 n EX i Výběrový rozptyl je nevychýlený odhad σ 2 : Es 2 n = E 1 n 1 (X i X n ) 2 = 1 1 E n (X i X n ) 2 E (X i X n ) 2 = E X 2 i 2X n X i + X 2 n 8

Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad E (X i X n ) 2 = E X 2 i 2X n X i + X 2 n = EX 2 i 2EX n X i + EX 2 n = EX 2 i 2EX n nx n + n EX 2 n = EX 2 i = EX 2 i = n EX 2 i n EX 2 n 2n EX 2 n + n EX 2 n n EX 2 n 9

Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad E (X i X n ) 2 = n EX 2 i n EX 2 n Recall: Var X = EX 2 (EX) 2 E (X i X n ) 2 = n EX 2 = Var X + (EX) 2 So EX 2 i = Var X i + (EX i ) 2 = 2 + µ 2 and EX 2 n = Var X n + EX n 2 = 2 /n + µ 2 = (n 1) 2 2 + µ 2 n 2 /n + µ 2 10

Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad X1,..., Xn: i.i.d. náhodné veličiny s EXi = μ a Var Xi = σ 2. Výběrový rozptyl je nevychýlený odhad σ 2 : Es 2 n = E 1 n 1 (X i X n ) 2 = 1 n E (X i X n ) 2 = (n 1) 2 1 E (X i X n ) 2 = 1 n 1 ( n 1) 2 = 2 11

Bodové Odhady Parametrů Odhad momentovou metodou Odhad momentovou metodou Definice Nechť X1, X2, X3,..., Xn je náhodný výběr (i.i.d. náhodné veličiny) s konečnými momenty mk = EX k (pro k K). Předpokládejme, že odhadovaný parametr θ je funkcí momentů: ** θ = H(m1,..., mk) Odhad parametru θ momentovou metodou je kde ˆ = H ( ˆm 1,..., ˆm K ) ˆm k = 1 n X k i jsou ohady momentů. 12

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Pro náhodný výběr X1,..., Xn z Exp(λ) m 1 = EX i =1/, takže =1/EX i =1/m 1. Momentový odhad λ: ˆ =1/ ˆm1 =1/X = n/ X i 13

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad alternativní přístup Pro náhodný výběr X1,..., Xn z Exp(λ) 1/ 2 = Var X i = EX 2 i (EX i ) 2 = m 2 + m 2 1 takže =1/ p m 2 + m 2 1. Momentový odhad λ: p ˆ =1/ kde ˆm 2 = 1 n X 2 i = X 2 ˆm 2 + ˆm 2 1 =1/ px 2 + X 2, 14

Bodové Odhady Parametrů Věrohodnostní funkce Věrohodnostní funkce Definice& & & & & & & & & & & (likelihood function) Nechť X = (X1, X2, X3,..., Xn) je náhodný vektor pozorování se sdruženou pravděpodobnostní funkcí px(x1,..., xn; θ) nebo se sdruženou hustotou fx(x1,..., xn; θ) pokud rozdělení náh. vektoru X je spojité Předpokládejme, že jsme napozorovali hodnoty (x1,..., xn). Pak funkci px(x1,..., xn; θ) [nebo fx(x1,..., xn; θ) pro spojité] nazýváme věrohodnostní funkce. Věrohodnostní funkce závisí pouze na parametru θ. Hodnoty (x1,..., xn) jsou známé a pevné. 15

Bodové Odhady Parametrů Exp(λ): věrohodnostní funkce Exp(λ): věrohodnostní funkce Příklad Pro náhodný výběr X1,..., Xn z rozdělení Exp(λ) f Xi (x; )= e x, x 0, > 0 Xi jsou i.i.d., sdružená hustota X = (X1,..., Xn) je tedy f X (x 1,..., x n ; )=f X1 (x 1 ; ) f X2 (x 2 ; )... f Xn (x n ; ) = Q n e x i = n e x i... věrohodnostní funkce 16

Bodové Odhady Parametrů Věrohodnostní funkce Odhad metodou maximální věrohodnosti Definice Odhadem parametru θ metodou maximální věrohodnosti je taková hodnota θ, která maximizuje věrohodnostní funkci pro pevné napozorované hodnoty (x1,..., xn). Pro diskrétní rozdělení: ˆ n = arg max Pro spojité rozdělení: ˆ n = arg max p X f X x 1,..., x n ; x 1,..., x n ; 17

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Věrohodnostní funkce pro náh. výběr X1,..., Xn z Exp(λ) f X (x 1,..., x n ; )= n e x i Odhad λ metodou maximální věrohodnosti: ˆ n = arg max n e x i Často maximizujeme logaritmus věrohodnostní funkce, kde produkt fx se změní na sumu, která se lépe derivuje ˆ n = arg max ln n e x i = arg max n ln x i 18

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Maximizujme log věrohodnostní funkci ˆ n = arg max n ln x i (log-likelihood) Najděme horizontální tečnu: 0= d d n ln x i 0= n x i n = x i ˆ n = n/ x i =1/X n. 19

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Ověřme, že se jedná o maximum: P d 2 n d 2 n ln x i = d d = d d d d n n ln x i x i = n/ 2 < 0 8 > 0... konkávní funkce našli jsme maximum 20

Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Věrohodnostní funkce pro náh. výběr X1,..., Xn z Exp(λ) f X (x 1,..., x n ; )= n e x i Odhad λ metodou maximální věrohodnosti: ˆ n = arg max n e x i = arg max ln P Často maximizujeme logaritmus věrohodnostní n funkce, kde = arg max n ln produkt fx se změní na sumu, která se lépe derivuje x i * * * * ln fx(x1,..., xn; θ)*...* * (log-likelihood function) n e x i 21

Lineární Regrese Lineární regrese (Linear Regression) 22

Lineární Regrese Lineární regrese Regresní model y i = 0 + 1 x i + " i, i = 1,..., n β0 a β1 *...* jsou neznámé parametry εi * * *...* jsou náhodné chyby * * * * obvykle i.i.d. N(0,1) 23

Lineární Regrese Residuální součet čtverců Sečteme čtvercové residuální svislé chyby e1 e2 e3 RSS = e 2 i Residual Sum of Squares e4 Hledáme přímku, která minimizuje RSS e5 e6 (metoda nejmenších čtverců) e7 e9 e8 e 10 24

Lineární Regrese Lineární regrese odhady parametrů Regresní model Odhady parametrů y i = 0 + 1 x i + " i, i = 1,..., n b 0 = y b 1 x b 1 = (x i x)(y i y) (x i x) 2 = s X,Y s 2 X s X,Y = 1 n 1 P N (y i y)(x i x) s 2 X = 1 n 1 P N (x i x) 2 25

Lineární Regrese Lineární regrese odhady parametrů Regresní model: Proložená přímka: (Reziduální) chyby: y i = 0 + 1 x i + " i, i = 1,..., n ŷ i = b 0 + b 1 x i e i = y i ŷ i = y i (b 0 + b 1 x i ) Součet čtverců * * RSS * * = * * * * (Residual Sum of & & & & & & & & & & & & & & & & & Squares) Odhady b0 a b1 nalezneme minimizací RSS. Položíme rovny nule derivace RSS podle b0 a podle b1: e 2 i d RSS db 0 =0 d RSS db 1 =0 26

Lineární Regrese Položíme rovnu nule derivaci RSS podle b0: 0= d RSS = d db 0 db 0 e 2 i = d db 0 (y i ŷ i ) 2 0= d db 0 (y i (b 0 + b 1 x i )) 2 = d db 0 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( 1) = (y i b 0 b 1 x i ) 0= y i nb 0 b 1 x i = n (y b 0 b 1 x) b 0 = y b 1 x 27

Lineární Regrese Položíme rovnu nule derivaci RSS podle b1: 0= d RSS = d db 1 db 1 e 2 i = d db 1 (y i ŷ i ) 2 0= d (y i (b 0 + b 1 x i )) 2 = db 1 d db 1 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( x i ) 0= 2(y i b 0 b 1 x i )( 1) 0= (y i y + b 1 x b 1 x i )( x i ) b 0 = y b 1 x 28

Lineární Regrese Položíme rovnu nule derivaci RSS podle b1: 0= d RSS = d db 1 db 1 e 2 i = d db 1 (y i ŷ i ) 2 0= d db 1 (y i (b 0 + b 1 x i )) 2 = d db 1 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( x i ) 0= (y i b 0 b 1 x i ) x i Z předchozí stránky: 0= (y i b 0 b 1 x i ) 29

Lineární Regrese Zkombinujme obě rovnice: +1 x 0= P N (y i b 0 b 1 x i ) x i 0= P N (y i b 0 b 1 x i ) b 0 = y b 1 x 0= P N (y i b 0 b 1 x i )(x i x) 0= P N (y i y + b 1 x b 1 x i )(x i x) 0= P N (y i y + b 1 (x x i ))(x i x) 0= P N (y i y)(x i x) b 1 P N (x i x) 2 b 1 P N (x i x) 2 P N = (y i y)(x i x) b 1 = P N (y i y)(x i x) P N (x i x) 2 30