M - ODHADY Jan Voříšek 26. 10. 2009
Obsah Obecný případ Odhady polohy Odhady měřítka Optimally bounding the gross-error sensitivity Change-of-variance function
Obecný případ Úvod Názem M-odhad je odvozen (Huber, 1964) od zobecněného odhadu maximální věrohodností. Pro jeden parametr také z odhadu maximální věrohodností vychází: n [ ln f Tn (X i )] = i=1 n i=1 ρ(x i, T n ) = min T n. (1) Pokud funkce ρ(., θ) má derivaci podle θ, potom T n můžeme vypočítat z n i=1 θ [ρ(x i, θ)] θ=t (F ) = n ψ(x i, T n ) = 0. (2) Def. 1 Libovolný odhad splňující (1) nebo (2) se nazývá M-odhad i=1
Obecný případ Je-li G n empirická distribuční funkce, platí ψ(x, T (G))dG(x) = 0. (3) Nahradíme-li G kontaminovaným rozdělením F t,x = (1 t)f + t x a zderivujeme podle t, dostaneme + 0 = ψ(y, T (F ))d( x F ) + θ [ψ(y, θ)] θ=t (F ) df (y) t [T (F t,x)] t=0. (4) Z výrazu (4) můžeme vyjádřit influenční funkci jako: IF (x; ψ, F ) = ψ(x, T (F )) θ [ψ(y, θ)] (5) θ=t (F ) df (y).
Obecný případ Řekneme, že ψ je B-robustní v F, právě když ψ(, T (F )) je omezená. Obdobně jako influenční funkci můžeme vyjádřit asymptotický rozptyl jako: ψ 2 (x, T (F ))df (x) V (T, F ) = [ ] 2 (6) θ [ψ(y, θ)] θ=t (F ) df (y)
Obecný případ Fisherova informace Pomocí Fisherovy informace můžeme vyjádřit J(F θ ) = [ θ [ln f θ(x)] θ= θ] 2 df θ, IF (x; T, F θ ) = J(F θ ) 1 V (T, F θ ) = J(F θ ) 1 θ [ln f θ(x)] θ= θ
Obecný případ Maximum likelihood scores function s(x, θ) := θ [ln f θ(x)] θ= θ (7) Pokud je T fisherovsky konsistentní (T (F θ ) = θ pro θ Θ), platí ψ(x, θ)df θ (x) = 0 pro θ (8) a zderivováním podle θ v bodě θ dostaneme vyjádření IF (x; ψ, F ) = (výhoda obsahuje ψ pouze v bodě θ ) ψ(x, θ ) ψ(y, θ ) s(y, θ )df (y). (9)
Odhady polohy Odhady polohy Pro odhady polohy v modelu X = R, Θ = R, F θ (x) = F (x θ), se používá ψ(x, θ) = ψ(x θ) (10) a předpokládáme, že ψ(x) df (x) = 0, (11) aby T byl fisherovsky konzistentní.
Odhady polohy Za předpokladu fisherovské konzistence platí IF(x; ψ, G) = a při rozdělení modelu F dostaneme IF(x; ψ, F ) = ψ(x T (G)) ψ (y T (G)) dg(y) ψ(x) ψ (y) df (y) za předpokladu, že jmenovatel je různý od nuly. V případě, že ψ obsahuje delta funkci (při nespojitosti ψ) využijeme při výpočtu vzorec (9). Cramer-Raova nerovnost platí pro Fisherovu informaci ( ) f 2 J(F ) = df. f
Odhady polohy Příklad MLE odpovídá ψ = f /f, přičemž nejmenší asymptotický rozptyl je V (ψ, F ) = J(F ) 1. Rozdělení f (x) ψ(x) J(F ) 1 normální φ(x) x 1 logistické e x / [1 + e x ] 2 e x 1 e x +1 3 1 Laplaceovo 2 e y sign(x) 1 Cauchyho 1/ [ π(1 + x 2 ) ] 2x/(1 + x 2 ) 2
Odhady polohy Huber estimator Pro F = Φ je definován jako ψ b (x) = min{b, max{x, b}} = x min { } b 1,, (12) x pro 0 < b < a je to maximálně věrohodný odhad pro rozdělení s hustotou f (x) = exp( x 0 ψ b(y)dy) exp( z 0 ψ b(y)dy)dz, která je nejnepříznivější ve smyslu Huberovy metody (minimax).
Odhady polohy Vlastnosti Huberova odhadu je B-robustní (γ (T, F ) = sup x IF (x; T, F ) < ) je kvalitativně robustní (d p (P, Q) < δ d p (L P (T n ), L Q (T n )) < ɛ) ɛ = 1 2 (breakdown point)
Odhady polohy Ekvivariance odhadu Zatímco M-odhady jsou invariantní vůči posunutí T n (X 1 + c,..., X n + c) = T n (X 1,..., X n ) + c, obvykle nejsou invariatní vůči měřítku. Tento problém se řeší definováním T n jako řešení n ( ) xi T n ψ = 0, i=1 S n kde S n je robustní estimátor měřítka.
Odhady polohy Odhad S n Je doporučeno nejprve odhadnout S n pomocí S n = 1.483 MAD(x i ) = 1.483 med i { x i med j (x j ) }, které má maximální breakdown point ɛ = 1 2. Další možnost odadnout simultálně T n a S n byla podle simulací (Andrews et al., 1972) horší, nehledě na jednodušší odhad pomocí MAD, proto je tento postup upřednostňován.
Odhady polohy One-step M-estimator One-step M-estimator (označovaný jako m-estimator) je definován: T n = T n (0) + S n (0) ( ) n x i T n (0) ψ S n (0) / i=1 ( n ψ i=1 ) x i T n (0) S n (0), kde T (0) n = med(x i ) a S (0) n = MAD(x i ) jsou doporučené počáteční odhady polohy a měřítka. Výsledek T n je první krok v iterativním algoritmu pro M-odhady (má stejné IF, V a další chování jako plně iterované odhady, pokud ψ je lichá a F symetrická). V případě, že ψ není monotonní, předchází jednokrokový M-odhad problémům s nejednoznačností.
Odhady měřítka Odhady měřítka Pro odhady měřítka v modelu X = R, Θ = (0, ), F θ (x) = F (x/θ) a θ 0 = 1, se používá ψ(x, θ) = ψ(x/θ). (13) Stejně jako u odhadů polohy potřebujeme fisherovskou konzistenci ψ(x) df (x) = 0. Potom IF vychází ve tvaru IF (x; ψ, G) = ( ) ψ x T (G) T (G) ( ). (14) ψ y y T (G) T (G) dg(y)
Odhady měřítka Za předpokladu rozdělení modelu F dostáváme IF (x; ψ, F ) = ψ(x) y ψ (y) df (y). (15) Obdobně jako při odhadu polohy může ψ obsahovat delta funkci a asymptotická variance se rovná očekávané hodnotě IF 2. Cramer-Raova nerovnost platí pro Fisherovu informaci J(F ) = Pro normání rozdělení platí J(Φ) = 2. ( x f ) (x) 2 f (x) + 1 df (x). (16)
Odhady měřítka Vlastnosti Pokud je distribuční funkce F symetrická, je přirozené použít symetrickou ψ. Pokud je ψ striktně monotonní pro x > 0, pak máme následující možnosti: 1. ψ je omezená, pak je B-robustní, kvalitativně robustní a ɛ = ψ(0)/(ψ( ) ψ(0) 1 2 2. ψ je neomezená, pak není ani B-robustní ani kvalitativně robustní a ɛ = 0
Odhady měřítka Příklad MLE je dán ψ(x) = x(f (x)/f (x)) 1 a má nejmenší asymptotický rozptyl J(F ) 1. Pro F = Φ dostaneme ψ(x) = x 2 1, který není ani B-robustní ani kvalitativně robustní a ɛ = 0 M-odhad daný ψ MAD (x) = sign ( x Φ 1 ( 34 ) ), (17) je medián absolutních hodnot pozorování vynásobený 1/Φ 1 ( 3 4 ) = 1.483, aby byl fisherovsky konzistentní pro normální rozdělení.
Odhady měřítka V obecném případě, když neznáme parametr polohy, vezmeme medián absolutních odchylek od mediánu a vynásobíme stejnou konstantou 1.483. V takovém případě nazýváme odhad (standardized) median absolute deviation. Influenční funkce se rovná a platí IF (x; ψ, Φ) = sign ( x Φ 1 ( 3 4 )) 4 Φ 1 ( 3 4 ) φ(φ 1 ( 3 4 )) (18) γ = 1/[4 Φ 1 ( 3 4 ) φ(φ 1 ( 3 4 ))] je omezená (nezávisí na x), tedy odhad je B-robustní V (ψ, Φ) = (γ ) 2 e = 1/[V (ψ, Φ) J(Φ)] = 1/[2(γ ) 2 ] MAD je kvalitativně robustní breakdown point ɛ = ψ(0)/(ψ( ) ψ(0)) = 1 2
Optimally bounding the gross-error sensitivity Obecná optimalita Snaha o co nejmenší asymptotickou varianci vzhledem k dané horní mezi γ. Nechť θ Θ, F := F θ a f := f θ. Předpokládejme, že s(x, θ ) existuje pro každé x, s(x, θ ) df (x) = 0 (podmínka regularity) a Fisherova informace J(F ) = s(x, θ ) 2 df (x) (19) splňuje 0 < J(F ) <.
Optimally bounding the gross-error sensitivity věta: nechť platí výše zmíněné podmínky a b > 0 je zvolená konstanta, pak existuje a R takové, že ψ(x) := [s(x, θ ) a] b b (20) splňuje ψ df = 0 a d := ψ s(y, θ ) df (y) > 0. Takové ψ minimalizuje ψ 2 (x, θ ) df (x) [ ψ(y) s(y, θ ) df (y) ] 2 (21) mezi všemi zobrazeními ψ splňujícími:
Optimally bounding the gross-error sensitivity ψ(x, θ ) df (x) = 0 (22) ψ(y) s(y, θ ) df (y) 0 (23) sup x ψ(x)/ ψ(y) s(y, θ ) df (y) c(θ ) := b(θ ) d(θ ) (24) všechna další řešení splňující podmínky jsou násobky ψ skoro všude vzhledem k F.
Optimally bounding the gross-error sensitivity M-odhady Předpokládejme, že platí podmínky předcházející věty a odhad je fisherovky konzistentní, pak (23) je nenulový čitatel IF (x; ψ, F ), (21) je asymptotický rozptyl V (ψ, F ), levá strana (24) je gross-error sensitivity γ a (22) je fisherovská konsistence. (Pokud je b = a a = 0, dostaneme MLE.) Další postup spočívá ve volbě vhodné funkce b(θ) a rozšíření ψ(, θ ) na ψ(, ). Pokud toto rozšíření splňuje všechny podmínky, říkáme, že ψ(, ) determinuje optimální B-robustní M-odhad.
Optimally bounding the gross-error sensitivity Optimální odhad polohy Za předpokladů pro odhady polohy ψ(x, θ) = ψ(x θ) a θ 0 = 0, ψ určuje všechno ostatní. Položme F := F θ0 a za předpokladu fisherovské konzistence dostaneme Potom zobrazení IF (x; ψ, F ) = ψ(x) = ψ(x) ψ(y) s(y, θ0 ) df (y). (25) [ f ] (x) b f (x) a b (26) definuje M-odhad polohy, který má minimální asymptotický rozptyl vzhledem k dané mezi c, je fisherovsky konzistentní a jeho IF existuje, tedy se jedná o optimálně B robustní odhad.
Optimally bounding the gross-error sensitivity Příklad Pokud je F symetrické, a = 0. Pro normální rozděleníf = Φ platí ψ(x) = [x] b b, (27) což je Huberův odhad. Pro b 0 tento odhad konverguje k mediánu.
Optimally bounding the gross-error sensitivity Optimální odhad měřítka Funkce ψ v bodě θ 0 opět určuje vše, protože ψ(x, θ) = ψ(x/θ). Influenční funkci můžeme vyjádřit pomocí skórové funkce IF (x; ψ, F θ0 ) = ψ(x, θ 0 ) ψ(y, θ0 ) s(y, θ 0 ) df θ0 (y) za předpokladu fisherovské konzistence. Pak dosteneme optimální B-robustní odhad z ψ(x) = Pro standardní normální rozdělení dostaneme [ x f ] (x) b f (x) 1 a. (28) b ψ(x) = [ x 2 1 a ] b b. (29)
Change-of-variance function Change-of-variance function Pro M-odhady polohy s distribuční funkcí F θ (x) = F (x θ) předpokládáme: (F1) F má dvakrát diferenc. hustotu f symetrickou kolem 0 (F2) pro zobrazení Λ = f /f platí, Λ (x) > 0 pro x R a Λ f dλ = Λf dλ < Pozn.: zobrazení Λ je ψ-funkce, podmínka Λ (x) > 0 implikuje unimodalitu f a z Λ f dλ = Λf dλ < vyplývá, že Fisherova informace J(F ) = Λ 2 df > 0 splňuje J(F ) = Λ df <
Change-of-variance function Předpoklady pro odhad polohy Za určitých podmínek n(t n θ) je asymptoticky normální s asymptotickým rozptylem V (ψ, G). Budeme zkoumat třídu Ψ všech reálných funkcí ψ splňující: 1. ψ je dobře definována a spojitá na R\C(ψ), kde C(ψ) je konečná a v každém jejím bodě existují různé limity zleva a zprava ψ. Také ψ( x) = ψ(x) pro { x, x} R\C(ψ) a ψ(x) 0 pro x 0 nenáležící C(ψ). 2. konečná množina D(ψ) obsahuje body, kde je ψ spojitá, ale kde ψ není definovaná nebo spojitá 3. ψ 2 df <. 4. 0 < ψ df = ψ(x) f (x) dx = Λ ψ df <.
Change-of-variance function Tedy Ψ obsahuje všechny funkce ψ užívané při odhadech parametrů. Množiny D(ψ) a C(ψ) jsou symetrické kolem nuly a mají prázdný průnik. Z podmínek 1 a 3 vyplývá fisherovská konzistence ψ df = 0. Z podmínek 1 a 4 vyplývá, že 0 < ψ 2 df. Dále definujeme A(ψ) := ψ 2 df a B(ψ) := ψ df. (30) Podle n i=1 ψ(x i T n ) = 0 řekneme, že funce ψ 1 a ψ 2 jsou ekvivaletní, právě když C(ψ 1 ) = C(ψ 2 ) a všechna x mimo tuto množinu platí, že ψ 1 (x) = r ψ 2 (x) pro r > 0.
Change-of-variance function Funkci ψ obsahující delta funkce můžeme zapsat jako ψ 1 R\(C(ψ) D(ψ)) (x) + m [ψ(c i +) ψ(c i )]δ (ci )(x). (31) i=1 Uvažujeme-li rozdělení G se symetrickou hustotou g splňující 0 < ψ dg < a 0 < ψ 2 dg <, pak platí = t [V (ψ, (1 t)f + tg)] t=0 = [ A(ψ) B(ψ) ( )] 1 + ψ2 (x) A(ψ) (x) 2ψ dg(x) (32) B(ψ)
Change-of-variance function Definice CVF Change-of-variance function definujeme jako součet spojité ( ) A(ψ) 1 + ψ2 (x) B(ψ) A(ψ) (x) 2ψ 1 B(ψ) R\(C(ψ) D(ψ)) (x) a nespojité části ( ) [ A(ψ) 2 ψ (x) m ] (ψ(c i +) ψ(c i )) δ B(ψ) B(ψ) (ci )(x) i=1 Pokud je ψ spojitá, pak její derivace neobsahuje delta funkce a CVF (x; ψ, F ) = t [V (ψ, (1 t)f + t(1/2( x + x )))] t=0
Change-of-variance function Příklad Pro MLE máme IF (x; Λ, F ) = Λ(x)/J(F ) a CVF (x; Λ, F ) = J(F ) + Λ2 (x) 2Λ (x) J(F ) 2 Rozdělení F (x) Λ(x) J(F ) 1 CVF (x; Λ, F ) normální Φ(x) x 1 x 2 1 logistické [1 + e x ] 1 e x 1 e x +1 3 3 + 9 e2x 6e x +1 (e x +1) 2 Medián odpovídá ψ med (x) = sign(x), takže CVF (x; ψ med, F ) = [ 2 (2f (0)) 2 1 R\{0} (x) 1 ] f (0) δ (0)(x). (33)
Change-of-variance function Change-of-variance sensitivity κ definice: κ (ψ, F ) je definována jako +, pokud se v CVF objeví delta funkce s pozitivním koeficientem (skok dolů v ψ) a jinak jako κ (ψ, F ) := sup{cvf (x; ψ, F )/V (ψ, F ); x R\(C(ψ) D(ψ))} vlastnosti: CVF (x; ψ, F )df (x) = 0 change-of-variance curve je definována jako pro aritmetický průměr je κ = pro medián se κ = 2 CVF (x;ψ,f ) V (ψ,f )
Change-of-variance function V-robustnost Řekneme, že estimátor je V-robustní, pokud κ (ψ, F ) <. věta: Pro ψ Ψ platí, že pokud je V-robustní, je také B-robustní. γ (ψ, F ) [(κ (ψ, F ) 1) V (ψ, F )] 1/2 věta: Pro neklesající ψ V- a B- robustnost jsou ekvivalentní. κ (ψ, F ) = 1 + γ (ψ, F ) 2 /V (ψ, F ). medián definovaný pomocí neklesající funkce ψ med (x) = sign(x) je B- i V-robustní to platí i pro MLE, pokud je Λ omezená (např. logistické rozdělení má κ = 4 a γ = 3) pro neomezenou Λ není odhad ani B- ani V-robustní
Change-of-variance function Nejrobustnější odhady Odhady minimalizující γ nazýváme most B-robust a obdobně odhady minimalizující κ nazýváme most V-robust věta: Medián je nejb-robustnější odhad z Ψ. Pro každé ψ Ψ máme γ (ψ, F ) [2f (0)] 1 a rovnost platí, právě když ψ je ekvivalentní ψ med. pro normální rozdělení se γ (ψ med, F ) = π/2 pro logistcké rozdělení se γ (ψ med, F ) = 2 věta: Medián je zároveň nejv-robustnějším odhadem z Ψ. Pro každé ψ Ψ máme γ (ψ, F ) 2 a rovnost platí, právě když ψ je ekvivalentní ψ med.
Change-of-variance function M-odhady pro měřítko Pro M-odhady měřítka s distribuční funkcí F σ (x) = F (x/σ) předpokládáme: (F1) F má dvakrát diferenc. hustotu f symetrickou kolem 0 (F2) pro zobrazení Λ = f /f platí, Λ (x) > 0 pro x R a Λ f dλ = Λf dλ <. M-odhad σ je dán n χ(x i /S n ) = 0 (34) i=1 a odpovídá funkcionálu S daném χ(x/s(g)) dg(x) = 0. (35)
Change-of-variance function Za určitých podmínek je n(s n σ) asymptoticky normální s asymptotickým rozptylem χ 2 dg V 1 (χ, G) = ( x χ (x) dg(x) ) 2. (36) Třída Ψ 1 obsahuje všechny funkce χ splňující: 1. χ je dobře definována a spojitá na R\C(χ), kde C(χ) je konečná a v každém jejím bodě existují konečné limity zleva a zprava χ. Také χ( x) = χ(x) pro { x, x} R\C(χ) a existuje takové d > 0, že χ(x) 0 pro x < d a χ(x) 0 pro x > d. 2. konečná množina D(χ) obsahuje body, kde je χ spojitá, ale kde χ není definovaná nebo spojitá 3. χ df = 0 (fish. konzist.) a χ 2 df <. 4. 0 < x χ (x) df (x) = (x Λ(x) 1) χ(x) df (x) <.
Change-of-variance function Označme A 1 (χ) = χ 2 df a B 1 (χ) = x χ (x) df (x), (37) tedy IF (x; χ, F ) = χ(x)/b 1 (x) a aplikací Cauchy-Schwarzovy nerovnosti na (B 1 (χ)) 2 s využitím J(F ) = ( x f (x) f (x) + 1 ) 2 df (x) dostaneme pro asymptotický rozptyl V 1 (χ, F ) = A 1(χ) (B 1 (χ)) 2 1 J(F ) Obdobně jako u rozptylu řekneme o χ 1 a χ 2, že jsou ekvivalentní, pokud C(χ 1 ) = C(χ 2 ) a χ 1 (x) = r χ 2 (x) pro x / C(χ i ) a r > 0.
Change-of-variance function Definice CVF pro měřítko Uvažujme rozdělení G se symetrickou hustotou g splňující χ dg = 0, 0 < χ 2 dg < a 0 < x χ (x) dg(x) <, potom = t [V 1(χ, (1 t)f + tg)] t=0 = [ A1 (χ) B 1 (χ) ( )] 1 + χ2 (x) A 1 (χ) 2x χ (x) dg(x) (38) B 1 (χ) a change-of-variance funkci definujeme jako CVF (x; χ, F ) = A ( ) 1(χ) 1 + χ2 (x) B 1 (χ) A 1 (χ) 2x χ (x) B 1 (χ) (39)
Change-of-variance function Vlastnosti Obdobně jako odhadu polohy CVF (x; χ, F ) df (x) = 0, CVF je symetrická a κ je definována stejně. Dále V-rbustnost imlikuje B-robustnost a pro neklesající χ jsou ekvivalentní. MAD jsou nejrobustnější odhady v obou smyslech.