Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze Rudolf Blažek & Roman Kotecký, 2011 Pravděpodobnost a statistika BI-PST, LS 2010/11, Přednáška 11 Evropský sociální fond Praha & EU: Investujeme do vaší budoucnos@
Bodové Odhady Parametrů Úvod Teorie pro Odhady Parametrů (Parameter Estimation Theory) 2
Bodové Odhady Parametrů Úvod Bodové odhady populačního průměru μ a rozptylu σ 2 Bodové odhady μ a σ 2 Nechť X1, X2, X3,..., Xn je náhodný výběr (i.i.d. náhodné veličiny) se střední hodnotou μ a rozptylem σ 2 (konečnými). Jako bodový odhad μ použijeme výběrový průměr Jako bodový odhad σ 2 použijeme výběrový rozptyl s 2 n = 1 n 1 X n = 1 n X i (X i X n ) 2 i.i.d....* independent and identically distributed * * * nezávislé a stejně rozdělené 3
Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů K formátu bodových odhadů pro střední hodnotou μ a rozptylu σ 2 jsme došli intuicí... Jsou to dobré odhady? Co to znamená dobré? Obecně, bodový odhad* * * * * * * (point estimator) je funkce napozorovaných veličin X1, X2, X3,..., Xn je to tedy náhodná veličina její rozdělení je základem pro intervalový odhad Jak ale zvolíme tuto funkci napozorovaných veličin? 4
Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů Definice Nechť X = (X1, X2, X3,..., Xn) je náhodný vektor pozorování jehož rozdělení závisí na parametru θ, který chceme odhadnou. Bodový odhad parametru θ je funkce ˆ = g(x 1,..., X n ). Rozdělení X závisí na hodnotě parametru θ. Proto na θ závisí i rozdělení odhadu ˆ = g(x 1,..., X n ). Pθ a Eθ... *pravděpdobnost a střední hodnota, pokud θ je * * * * správná hodnota parametru 5
Bodové Odhady Parametrů Úvod Bodové odhady obecných parametrů Terminologie pro bodové odhady Nechť je odhad parametru θ. Chyba odhadu: Vychýlení: ˆ = g(x 1,..., X n ) Nevychýlený odhad: Asymptoticky nevychýlený odhad: lim n!1 E Konzistentní odhad: = ˆ b ( ˆ ) =E ˆ E ˆ = 8 ˆ n = 8 ˆ n! v pravděpodobnosti 8 6
Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad Pro náhodný výběr X1, X2, X3,..., Xn jsou výběrový průměr a výběrový rozptyl oba nevychýlené odhady. X n = 1 n X i s 2 n = 1 n 1 (X i X n ) 2 7
Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad X1,..., Xn: i.i.d. náhodné veličiny s EXi = μ a Var Xi = σ 2. Výběrový průměr je nevychýlený odhad μ: EX n = E 1 n X i = 1 n µ = µ = 1 n EX i Výběrový rozptyl je nevychýlený odhad σ 2 : Es 2 n = E 1 n 1 (X i X n ) 2 = 1 1 E n (X i X n ) 2 E (X i X n ) 2 = E X 2 i 2X n X i + X 2 n 8
Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad E (X i X n ) 2 = E X 2 i 2X n X i + X 2 n = EX 2 i 2EX n X i + EX 2 n = EX 2 i 2EX n nx n + n EX 2 n = EX 2 i = EX 2 i = n EX 2 i n EX 2 n 2n EX 2 n + n EX 2 n n EX 2 n 9
Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad E (X i X n ) 2 = n EX 2 i n EX 2 n Recall: Var X = EX 2 (EX) 2 E (X i X n ) 2 = n EX 2 = Var X + (EX) 2 So EX 2 i = Var X i + (EX i ) 2 = 2 + µ 2 and EX 2 n = Var X n + EX n 2 = 2 /n + µ 2 = (n 1) 2 2 + µ 2 n 2 /n + µ 2 10
Bodové Odhady Parametrů Nevychýlené odhady μ a σ 2 Nevychýlené odhady populačního průměru μ a rozptylu σ 2 Příklad X1,..., Xn: i.i.d. náhodné veličiny s EXi = μ a Var Xi = σ 2. Výběrový rozptyl je nevychýlený odhad σ 2 : Es 2 n = E 1 n 1 (X i X n ) 2 = 1 n E (X i X n ) 2 = (n 1) 2 1 E (X i X n ) 2 = 1 n 1 ( n 1) 2 = 2 11
Bodové Odhady Parametrů Odhad momentovou metodou Odhad momentovou metodou Definice Nechť X1, X2, X3,..., Xn je náhodný výběr (i.i.d. náhodné veličiny) s konečnými momenty mk = EX k (pro k K). Předpokládejme, že odhadovaný parametr θ je funkcí momentů: ** θ = H(m1,..., mk) Odhad parametru θ momentovou metodou je kde ˆ = H ( ˆm 1,..., ˆm K ) ˆm k = 1 n X k i jsou ohady momentů. 12
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Pro náhodný výběr X1,..., Xn z Exp(λ) m 1 = EX i =1/, takže =1/EX i =1/m 1. Momentový odhad λ: ˆ =1/ ˆm1 =1/X = n/ X i 13
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad alternativní přístup Pro náhodný výběr X1,..., Xn z Exp(λ) 1/ 2 = Var X i = EX 2 i (EX i ) 2 = m 2 + m 2 1 takže =1/ p m 2 + m 2 1. Momentový odhad λ: p ˆ =1/ kde ˆm 2 = 1 n X 2 i = X 2 ˆm 2 + ˆm 2 1 =1/ px 2 + X 2, 14
Bodové Odhady Parametrů Věrohodnostní funkce Věrohodnostní funkce Definice& & & & & & & & & & & (likelihood function) Nechť X = (X1, X2, X3,..., Xn) je náhodný vektor pozorování se sdruženou pravděpodobnostní funkcí px(x1,..., xn; θ) nebo se sdruženou hustotou fx(x1,..., xn; θ) pokud rozdělení náh. vektoru X je spojité Předpokládejme, že jsme napozorovali hodnoty (x1,..., xn). Pak funkci px(x1,..., xn; θ) [nebo fx(x1,..., xn; θ) pro spojité] nazýváme věrohodnostní funkce. Věrohodnostní funkce závisí pouze na parametru θ. Hodnoty (x1,..., xn) jsou známé a pevné. 15
Bodové Odhady Parametrů Exp(λ): věrohodnostní funkce Exp(λ): věrohodnostní funkce Příklad Pro náhodný výběr X1,..., Xn z rozdělení Exp(λ) f Xi (x; )= e x, x 0, > 0 Xi jsou i.i.d., sdružená hustota X = (X1,..., Xn) je tedy f X (x 1,..., x n ; )=f X1 (x 1 ; ) f X2 (x 2 ; )... f Xn (x n ; ) = Q n e x i = n e x i... věrohodnostní funkce 16
Bodové Odhady Parametrů Věrohodnostní funkce Odhad metodou maximální věrohodnosti Definice Odhadem parametru θ metodou maximální věrohodnosti je taková hodnota θ, která maximizuje věrohodnostní funkci pro pevné napozorované hodnoty (x1,..., xn). Pro diskrétní rozdělení: ˆ n = arg max Pro spojité rozdělení: ˆ n = arg max p X f X x 1,..., x n ; x 1,..., x n ; 17
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Věrohodnostní funkce pro náh. výběr X1,..., Xn z Exp(λ) f X (x 1,..., x n ; )= n e x i Odhad λ metodou maximální věrohodnosti: ˆ n = arg max n e x i Často maximizujeme logaritmus věrohodnostní funkce, kde produkt fx se změní na sumu, která se lépe derivuje ˆ n = arg max ln n e x i = arg max n ln x i 18
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Maximizujme log věrohodnostní funkci ˆ n = arg max n ln x i (log-likelihood) Najděme horizontální tečnu: 0= d d n ln x i 0= n x i n = x i ˆ n = n/ x i =1/X n. 19
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Ověřme, že se jedná o maximum: P d 2 n d 2 n ln x i = d d = d d d d n n ln x i x i = n/ 2 < 0 8 > 0... konkávní funkce našli jsme maximum 20
Bodové Odhady Parametrů Exp(λ): odhad λ momentovou metodou Exp(λ): odhad λ momentovou metodou Příklad Věrohodnostní funkce pro náh. výběr X1,..., Xn z Exp(λ) f X (x 1,..., x n ; )= n e x i Odhad λ metodou maximální věrohodnosti: ˆ n = arg max n e x i = arg max ln P Často maximizujeme logaritmus věrohodnostní n funkce, kde = arg max n ln produkt fx se změní na sumu, která se lépe derivuje x i * * * * ln fx(x1,..., xn; θ)*...* * (log-likelihood function) n e x i 21
Lineární Regrese Lineární regrese (Linear Regression) 22
Lineární Regrese Lineární regrese Regresní model y i = 0 + 1 x i + " i, i = 1,..., n β0 a β1 *...* jsou neznámé parametry εi * * *...* jsou náhodné chyby * * * * obvykle i.i.d. N(0,1) 23
Lineární Regrese Residuální součet čtverců Sečteme čtvercové residuální svislé chyby e1 e2 e3 RSS = e 2 i Residual Sum of Squares e4 Hledáme přímku, která minimizuje RSS e5 e6 (metoda nejmenších čtverců) e7 e9 e8 e 10 24
Lineární Regrese Lineární regrese odhady parametrů Regresní model Odhady parametrů y i = 0 + 1 x i + " i, i = 1,..., n b 0 = y b 1 x b 1 = (x i x)(y i y) (x i x) 2 = s X,Y s 2 X s X,Y = 1 n 1 P N (y i y)(x i x) s 2 X = 1 n 1 P N (x i x) 2 25
Lineární Regrese Lineární regrese odhady parametrů Regresní model: Proložená přímka: (Reziduální) chyby: y i = 0 + 1 x i + " i, i = 1,..., n ŷ i = b 0 + b 1 x i e i = y i ŷ i = y i (b 0 + b 1 x i ) Součet čtverců * * RSS * * = * * * * (Residual Sum of & & & & & & & & & & & & & & & & & Squares) Odhady b0 a b1 nalezneme minimizací RSS. Položíme rovny nule derivace RSS podle b0 a podle b1: e 2 i d RSS db 0 =0 d RSS db 1 =0 26
Lineární Regrese Položíme rovnu nule derivaci RSS podle b0: 0= d RSS = d db 0 db 0 e 2 i = d db 0 (y i ŷ i ) 2 0= d db 0 (y i (b 0 + b 1 x i )) 2 = d db 0 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( 1) = (y i b 0 b 1 x i ) 0= y i nb 0 b 1 x i = n (y b 0 b 1 x) b 0 = y b 1 x 27
Lineární Regrese Položíme rovnu nule derivaci RSS podle b1: 0= d RSS = d db 1 db 1 e 2 i = d db 1 (y i ŷ i ) 2 0= d (y i (b 0 + b 1 x i )) 2 = db 1 d db 1 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( x i ) 0= 2(y i b 0 b 1 x i )( 1) 0= (y i y + b 1 x b 1 x i )( x i ) b 0 = y b 1 x 28
Lineární Regrese Položíme rovnu nule derivaci RSS podle b1: 0= d RSS = d db 1 db 1 e 2 i = d db 1 (y i ŷ i ) 2 0= d db 1 (y i (b 0 + b 1 x i )) 2 = d db 1 (y i b 0 b 1 x i ) 2 0= 2(y i b 0 b 1 x i )( x i ) 0= (y i b 0 b 1 x i ) x i Z předchozí stránky: 0= (y i b 0 b 1 x i ) 29
Lineární Regrese Zkombinujme obě rovnice: +1 x 0= P N (y i b 0 b 1 x i ) x i 0= P N (y i b 0 b 1 x i ) b 0 = y b 1 x 0= P N (y i b 0 b 1 x i )(x i x) 0= P N (y i y + b 1 x b 1 x i )(x i x) 0= P N (y i y + b 1 (x x i ))(x i x) 0= P N (y i y)(x i x) b 1 P N (x i x) 2 b 1 P N (x i x) 2 P N = (y i y)(x i x) b 1 = P N (y i y)(x i x) P N (x i x) 2 30