Robustní odhady kovarianční matice

Podobné dokumenty
Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. Multidimensional estimators. Základní pojmy.

LWS při heteroskedasticitě

Lineární algebra : Metrická geometrie

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

EUKLIDOVSKÉ PROSTORY

Matematika I 12a Euklidovská geometrie

1 Báze a dimenze vektorového prostoru 1

Úlohy nejmenších čtverců

Učební texty k státní bakalářské zkoušce Matematika Skalární součin. študenti MFF 15. augusta 2008

M-estimators. Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. M-estimators. Základní pojmy - připomenutí.

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Interpolace, ortogonální polynomy, Gaussova kvadratura

Základy matematiky pro FEK

10 Funkce více proměnných

Úvod do lineární algebry

terminologie předchozí kapitoly: (ϕ, Ω) - plocha, S - geometrický obraz plochy

15 Maticový a vektorový počet II

AVDAT Mnohorozměrné metody, metody klasifikace

Lineární algebra : Skalární součin a ortogonalita

Základy maticového počtu Matice, determinant, definitnost

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Lineární algebra : Skalární součin a ortogonalita

2 Vektorové normy. Základy numerické matematiky - NMNM201. Definice 1 (Norma). Norma je funkcionál splňující pro libovolné vektory x a y a pro

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

PROSTORY SE SKALÁRNÍM SOUČINEM. Definice Nechť L je lineární vektorový prostor nad R. Zobrazení L L R splňující vlastnosti

8 Matice a determinanty

2. Schurova věta. Petr Tichý. 3. října 2012

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

MATICE. a 11 a 12 a 1n a 21 a 22 a 2n A = = [a ij]

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Operace s maticemi

PRAVDĚPODOBNOST A STATISTIKA

Apriorní rozdělení. Jan Kracík.

DEFINICE Z LINEÁRNÍ ALGEBRY

Vlastní čísla a vlastní vektory

22 Základní vlastnosti distribucí

Matematika 1 MA1. 1 Analytická geometrie v prostoru - základní pojmy. 4 Vzdálenosti. 12. přednáška ( ) Matematika 1 1 / 32

Odhad parametrů N(µ, σ 2 )

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Afinita je stručný název pro afinní transformaci prostoru, tj.vzájemně jednoznačné afinní zobrazení bodového prostoru A n na sebe.

Texty k přednáškám z MMAN3: 4. Funkce a zobrazení v euklidovských prostorech

0.1 Úvod do lineární algebry

vyjádřete ve tvaru lineární kombinace čtverců (lineární kombinace druhých mocnin). Rozhodněte o definitnosti kvadratické formy κ(x).

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

AVDAT Vektory a matice

Náhodné vektory a matice

Dnešní látka Variačně formulované okrajové úlohy zúplnění prostoru funkcí. Lineární zobrazení.

Základy teorie odhadu parametrů bodový odhad

Vlastní číslo, vektor

Četba: Texty o lineární algebře (odkazy na webových stránkách přednášejícího).

Definice 1.1. Nechť je M množina. Funkci ρ : M M R nazveme metrikou, jestliže má následující vlastnosti:

1 Projekce a projektory

7. Lineární vektorové prostory

Singulární rozklad. Petr Tichý. 31. října 2013

a počtem sloupců druhé matice. Spočítejme součin A.B. Označme matici A.B = M, pro její prvky platí:

Operace s maticemi. 19. února 2018

Úvod do kvantového počítání

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

6 Samodružné body a směry afinity

0.1 Úvod do lineární algebry

Úvodní informace. 17. února 2018

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

6 Lineární geometrie. 6.1 Lineární variety

NMAI059 Pravděpodobnost a statistika

KGG/STG Statistika pro geografy

Kapitola 11: Vektory a matice:

Skalární součin dovoluje zavedení metriky v afinním bodovém prostoru, tj. umožňuje nám určovat vzdálenosti, odchylky, obsahy a objemy.

Dnešní látka Opakování: normy vektorů a matic, podmíněnost matic Jacobiova iterační metoda Gaussova-Seidelova iterační metoda

Definice : Definice :

6. Vektorový počet Studijní text. 6. Vektorový počet

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

1 Linearní prostory nad komplexními čísly

4. Aplikace matematiky v ekonomii

Primitivní funkce a Riemann uv integrál Lineární algebra Taylor uv polynom Extrémy funkcí více prom ˇenných Matematika III Matematika III Program

Lineární zobrazení. 1. A(x y) = A(x) A(y) (vlastnost aditivity) 2. A(α x) = α A(x) (vlastnost homogenity)

1 Vektorové prostory.

19 Eukleidovský bodový prostor

Matematika B101MA1, B101MA2

Odhad parametrů N(µ, σ 2 )

AVDAT Náhodný vektor, mnohorozměrné rozdělení

12. Determinanty. 12. Determinanty p. 1/25

AVDAT Mnohorozměrné metody metody redukce dimenze

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

Klasická a robustní ortogonální regrese mezi složkami kompozice

ALGEBRA. Téma 5: Vektorové prostory

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

6. ANALYTICKÁ GEOMETRIE

FREDHOLMOVA ALTERNATIVA

Zdrojem většiny příkladů je sbírka úloh 1. cvičení ( ) 2. cvičení ( )

Podobnostní transformace

Úvodem Dříve les než stromy 3 Operace s maticemi

Kapitola 11: Vektory a matice 1/19

z = a bi. z + v = (a + bi) + (c + di) = (a + c) + (b + d)i. z v = (a + bi) (c + di) = (a c) + (b d)i. z v = (a + bi) (c + di) = (ac bd) + (bc + ad)i.

Transkript:

Robustní odhady kovarianční matice Tomáš Hanzák Katedra pravděpodobnosti a matematické statistiky MFF UK Praha Seminář Stochastické modelování v ekonomii a financích 9.11. 2009 Tomáš Hanzák Robustní odhady kovarianční matice 1 / 39

Obsah Úvod 1 Úvod Motivace Covariance-location model 2 Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady 3 M-odhadů Odhady s bodem selhání 1/2 Tomáš Hanzák Robustní odhady kovarianční matice 2 / 39

Motivace Covariance-location model Odhady kovariančních matic ve statistice Kde všude se setkáváme s odhady kovariančních (či korelačních) matic? Téměř všude v mnohorozměrné statistice/ekonometrii: Analýza mnohorozměrných dat Mnohorozměrné časové řady Shluková analýza Diskriminační analýza Metoda hlavních komponent Kanonické korelace Mnohorozměrné t-testy apod. Tomáš Hanzák Robustní odhady kovarianční matice 3 / 39

Výběrová kovarianční matice Motivace Covariance-location model Nejběžnější odhad = výběrová kovarianční matice. Výhody: Srozumitelnost, snadný výpočet. Odhad probíhá po složkách, odhad podmatice je podmaticí odhadu. Výsledkem je vždy symetrická pozitivně semidefinitní matice. Nevýhoda: Odhad je citlivý na odlehlá pozorování (outliers). A to: ve smyslu jednorozměrných odhadů měřítka, tj. odledhlé pozorování může nadhodnotit diagonální prvky odhadu. ve smyslu ovlivnění korelační matice, tj. směru a těsnosti lineární závislosti mezi proměnnými. Tomáš Hanzák Robustní odhady kovarianční matice 4 / 39

Příklady odlehlých pozorování Motivace Covariance-location model Kovarianční matici lze vizualizovat pomocí mnohorozměrného elipsoidu ( vrstevnice hustoty pravděpodobnosti). Realativně snadná vizualizace odlehlých pozorování a kovarianční matice u dvourozměrných dat: scatter plot X vs. Y, elipsa. Příklad... Ve více rozměrech je to již horší: Žádný z 2D pohledů nemusí outlier odhalit. Příklad... Tomáš Hanzák Robustní odhady kovarianční matice 5 / 39

Problém nerobustnosti Úvod Motivace Covariance-location model Obsahují-li naše data odlehlá pozorování, může být náš odhad kovarianční matice poškozen. Tím pak logicky úměrně trpí i statistická metoda, v rámci které byl odhad prováděn. Sama metoda je tedy nerobustní, pokud je nerobustní odhad kovariancnčí matice. Pokud bychom mohli použít robustní odhad kovarianční matice, stane se i celá metoda robustní. Tomáš Hanzák Robustní odhady kovarianční matice 6 / 39

Řešení Úvod Motivace Covariance-location model Řešení = Uvažovat robustní odhady kovariančních matic. Několik možností: 1 Odhadovat kovarianční matici robustně po složkách. Nevýhody: Výsledná matice nemusí být pozitivně semidefinitní. Individuální 2D pohledy nemusí odhalit odlehlé pozorování. 2 Odhadovat celou kovarianční matici naráz. První nápad: Iterativně počítat výběrovou kovarianční matici a vždy vyloučit několik pozorování s největší Mahalanobisovou vzdáleností od středu dat. Tomáš Hanzák Robustní odhady kovarianční matice 7 / 39

Ortogonální transformace na R m Motivace Covariance-location model Definice Ortogonální transformací prostoru R m rozumíme zobrazení R m R m ve tvaru x Γx, kde Γ je ortogonální matice řádu m m (tj. její řádky jsou jednotkové vzájemně kolmé vektory). Pozorování: Platí (Γx) T (Γy) = x T Γ T Γxy = x T Iy = x T y, speciálně Γx = x, tj. ortogonální transformace zachovává úhly a vzdálenosti. Tomáš Hanzák Robustní odhady kovarianční matice 8 / 39

Sféricky symetrické rozdělení Motivace Covariance-location model Definice Rozdělení pravděpodobnosti na R m nazveme sféricky symetrické, pokud je invariantní vůči všem ortogonálním transformacím prostoru R m. Má-li sféricky symetrické rozdělení F 0 hustotu f 0 vzhledem k Lebesqueově míře, pak platí f 0 (z) = f z ( z 2) pro nějakou funkci f z : R + 0 R+ 0. Tedy hustota f 0(z) je pouze funkcí poloměru z, nezávisí na směru. Tomáš Hanzák Robustní odhady kovarianční matice 9 / 39

Eliptická rozdělení Úvod Motivace Covariance-location model Model Uvažujeme rodinu pravděpodobnostních rozdělení vzniklých pomocí aplikace všech afinních transformací tvaru α A,µ (z) = Az + µ, kde A R m m je regulární matice a µ R m, na jedno základní sféreciky symetrické rozdělení F 0. Vzniklá rozdělení budeme nazývat eliptická rozdělení. Tomáš Hanzák Robustní odhady kovarianční matice 10 / 39

Parametrizace I Úvod Motivace Covariance-location model Transformace se stejným vektorem posunutí µ a s maticemi A a AΓ, kde Γ je ortogonální, vedou evidentně ke stejnému rozdělení pravděpodobnosti. Tedy dvojice µ a A není vhodnou parametrizací modelu. Symetrická pozitivně definitní matice Σ = AA T je však totožná pro všechny matice A vedoucí ke stejnému rozdělení (a naopak). Náš model tedy budeme parametrizovat pomocí dvojice µ a Σ. Model obsahuje celkem p = m(m + 1)/2 + m parametrů. Užitečný je tzv. Choleskyho rozklad Σ = LL T, kde L je dolní trojúhelníková matice m m s kladnými prvky na diagonále. Tento rozklad je jednoznačný. Tomáš Hanzák Robustní odhady kovarianční matice 11 / 39

Parametrizace II Úvod Motivace Covariance-location model Abychom pracovali s vektorovým parametrem θ R p, zavedeme následující značení: vecs(σ) = ( σ 11 / 2,..., σ mm / (2), σ 21, σ 31, σ 32,..., σ m,m 1 ) T. Tedy sloupcový vektor vecs(σ) nejprve obsahuje diagonální prvky Σ dělené 2 a poté po řádcích prvky pod diagonálou. Dělení 2 diagonálních prvků zajistí, že platí vecs(σ) 2 = 1 σij 2 = 1 (ΣΣ ) 2 2 trace T. ij Položíme θ = [ vecs(σ) T, µ T ] T, což je kompletní parametr našeho modelu ve tvaru sloupcového vektoru. Tomáš Hanzák Robustní odhady kovarianční matice 12 / 39

Covariance-location model Motivace Covariance-location model Model Covariance-location model generovaný sféricky symetrickým rozdělením F 0 je rodina pravděpodobnostních rozdělení {F Σ,µ ; µ R m, Σ positivně definitní m m}, kde F Σ,µ je rozdělení α A,µ (Z) = Az + µ, AA T = Σ a náhodný vektor Z má rozdělení F 0. θ = (Σ, µ) [ vecs(σ) T, µ T ] T je p-rozměrný parametr modelu. Tomáš Hanzák Robustní odhady kovarianční matice 13 / 39

Motivace Covariance-location model Hustota, střední hodnota, kovarianční matice Má-li rozdělení F 0 hustotu f z, pak rozdělení F Σ,µ má hustotu f Σ,µ (x) = 1 det(σ) f z (v), kde v = (x µ) T Σ 1 (x µ). Má-li rozdělení F 0 nulovou střední hodnotu a jednotkovou kovarianční matici, pak rozdělení F Σ,µ má střední hodnotu µ a kovarianční matici Σ. Matice Σ se proto nazývá (pseudo-) kovarianční matice. Hodnota θ 0 = (I, 0) parametru θ je tzv. neutrální parametr. Tedy platí F θ0 = F 0. Tomáš Hanzák Robustní odhady kovarianční matice 14 / 39

Motivace Covariance-location model Příklad: Mnohorozměrné normální rozdělení Nejdůležitejším příkladem je systém (regulárních) m-rozměrných normálních rozdělení: F 0 = N m (0, I ), F Σ,µ = N m (µ, Σ). Pro hustotu základního rozdělení F 0 zde platí: f z (z) = (2π) N/2 e z /2. Standardní m-rozměrné normální rozdělení F 0 je jediným sféricky symetrickým rozdělením, jehož složky jsou vzájemně nezávislé. Tomáš Hanzák Robustní odhady kovarianční matice 15 / 39

Důležité charakteristiky matice Σ Motivace Covariance-location model Necht λ j jsou vlastní čísla Σ. Definujme log-size parametr jako τ 1 m ln det(σ) = 1 m m ln(λ j ) j=1 a shape parametr jako η 2 1 m m (ln(λ j ) τ) 2. j=1 Všechny charakteristiky vecs(σ), τ i η 2 jsou invariantní vůči transformacím Σ ΓΣΓ T, kde Γ je ortogonální matice. Tomáš Hanzák Robustní odhady kovarianční matice 16 / 39

Skórová funkce I Úvod Motivace Covariance-location model Skórová funkce s(x, θ) = θ ln f (x; θ) = 1 2 θ ln Σ + θ ln f z (v). [ v = Σ 1 (x µ) T (x µ)σ 1], σ ij µ v = 2Σ 1 (x µ) a s ohledem na definici vecs(σ) je ( G(Σ) 2 vecs(σ) = G,..., 2 G G, + G ) T,.... σ 11 σ mm σ 12 σ 21 Tomáš Hanzák Robustní odhady kovarianční matice 17 / 39

Skórová funkce II Úvod Motivace Covariance-location model Platí [ ( )] ( ( vecs(σ) vecs Σ s x, = 1 (x µ) T (x µ)σ 1 ω v (v) Σ 1) ) µ Σ 1 (x µ)ω v, (v) kde ω v (v) = 2 v ln [f z (v)]. Tomáš Hanzák Robustní odhady kovarianční matice 18 / 39

Hustota V = Z 2 Úvod Motivace Covariance-location model Necht Z F 0 a hustota f 0 existuje. Pak druhá mocnina poloměru Z, V = Z 2, má hustotu f v (v) = πm/2 Γ(m/2) v m/2 1 f z (v), kde Γ( ) je gama funkce. Funkce f v se od f z liší faktorem úměrným ploše nad-sféry o poloměru v v m-rozměrném prostoru. Můžeme psát ω v (v) = 2 v ln [f v (v)] + (m 2)/v. Pro normální rozdělení je f v hustota rozdělení χ 2 m a ω v (v) 1. Tomáš Hanzák Robustní odhady kovarianční matice 19 / 39

Značení Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Necht a : R m R p je libovolná funkce. V našem případě si za funkcí a můžeme představit skórovou funkci x s(x, θ), influenční funkci odhadu T v bodě x či funkci x ψ(x, θ) definující M-odhad. Každý prvek R p si můžeme představit jako hodnotu parametru θ a zapsat ho jako (vecs(σ) T, µ T ) T pro nějaké Σ (symetrická) a µ. Zaved me tedy Σ a (z) a µ a (z) tak, že a(z) = ( vecs [Σ a (z)] µ a (z) ). Tomáš Hanzák Robustní odhady kovarianční matice 20 / 39

Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Ortogonálně ekvivariantní vektorová funkce Definice Funkci a(z), a : R m R p, nazveme ortogonálně ekvivariantní, pokud splňuje Σ a (Γz) = ΓΣ a (z)γ T, µ a (Γz) = Γµ a (z) pro každé z R m a každou ortogonální m m matici Γ. Tomáš Hanzák Robustní odhady kovarianční matice 21 / 39

Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Charakterizace ortogonálně ekvivariantních funkcí I Lemma Funkce a(z) je ortogonálně ekvivariantní právě když jde zapsat ve tvaru Σ a (z) = zz T w a η ( z 2 ) Iw a δ ( z 2 ), µ a (z) = zw a µ( z 2 ), kde wη a, wδ a, w µ a : R + 0 R jsou skalární funkce. Dále platí a(z) 2 = 1 ( 1 1 ) [vw a η (v) ] 2 1 + 2 m 2m ua τ (v) 2 + vwµ(v) a 2, kde jako obvykle v = z 2 a navíc u a τ (v) = vw a η (v) mw a δ (v). Tomáš Hanzák Robustní odhady kovarianční matice 22 / 39

Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Charakterizace ortogonálně ekvivariantních funkcí II Dolní indexy u funkcí w a µ, u a τ a w a η odkazují na jednotlivé elementy parametru θ = (Σ, µ): µ... parametr polohy modelu, τ... log-size parametr kovarianční matice Σ, η... shape parametr kovarianční matice Σ. Pozorování: Skórová funkce z s(z, θ 0 ) je ortogonálně ekvivariantní. Tomáš Hanzák Robustní odhady kovarianční matice 23 / 39

d-matice Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Vedle ortogonálně ekvivariantních vektorových funkcí hrají důležitou roli v odvozování tzv. d-matice (d-type matrix). Definice d-maticí rozumíme symetrickou, skoro diagonální matici D o rozměru p p určenou třemi reálnými čísly d D η, d D τ a d D µ pomocí d D v = d D η + d D ρ a d D ρ = (d D τ d D η )/m. Viz tabule... Tomáš Hanzák Robustní odhady kovarianční matice 24 / 39

Vlastnosti Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Platí (postupně Lemma 2, 3 a 4 na str. 278-280 v knize): Je-li D = a(z)b(z) T df 0 (z) kde a(z) a b(z) jsou ortogonálně ekvivariantní funkce, pak D je d-matice a její µ, τ a η elementy lze charakterizovat pomocí µ, τ a η elementů funkcí a a b (jako jisté integrály podle distribuce F v náhodné veličiny Z, kde Z F 0 ). Množina všech d-matic spolu s násobením tvoří komutativní grupu. Násobení, inverze a jednotková matice se dají chápat po složkách µ, τ a η. Čísla d D η, d D τ a d D µ jsou vlastní čísla matice D. Je-li a ortogonálně ekvivariantní a D je d-matice, pak z D a(z) je také ortogonálně ekvivariantní a její µ, τ a η elementy se získají součinem těch D a a. Tomáš Hanzák Robustní odhady kovarianční matice 25 / 39

Obecné výsledky I Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Ekvivariantní odhad T v covariance-location modelu musí splňovat ( ]) vecs [AˆΣ(F )A T [α A,a (F )] = α A,a [T (F )] = T Aˆµ(F ) + a ] kde T (F ) [ˆΣ(F ), ˆµ(F ). Vezmeme-li speciálně F = F 0, a = 0 a A = Γ libovolnou ortogonální, dostaneme a tedy musí platit ˆΣ(F 0 ) = ΓˆΣ(F 0 )Γ T, ˆµ(F 0 ) = Γˆµ(F 0 ) pro nějaké σ 0 R. Odtud již ˆΣ(F 0 ) = σ 0 I, ˆµ(F 0 ) = 0 ˆΣ(F Σ,µ ) = σ 0 Σ, ˆµ(F Σ,µ ) = µ. T je Fisherovsky konzistentní σ 0 = 1. Platí ˆτ = τ(ˆσ) = ln(σ 0 ). Tomáš Hanzák Robustní odhady kovarianční matice 26 / 39

Obecné výsledky II Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Influenční funkce (IF ) ekvivariantního odhadu T je rovna ( [ vecs LΣ IF (Lz + µ; T, F LL T,µ) = I (z)l T ] ) Lµ I, (z) kde ( [ vecs Σ I (z) ] ) µ I IF (z; T, F (z) 0 ). Vezmeme-li speciálně µ = 0 a L = Γ libovolnou ortogonální, zjitíme, že z IF (z; T, F 0 ) je ortogonálně ekvivariantní funkce. Nyní je možné použít aparát ortogonálně ekvivariantních funkcí a d-matic k odvození dalších obecných výsledků pro ekvivariantní odhady. Tomáš Hanzák Robustní odhady kovarianční matice 27 / 39

Obecné výsledky III Úvod Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Platí (str. 281 a 282 v knize): Platí jisté rovnosti pro elementy w I µ, u I τ a w I η influenční funkce IF ( ; T, F 0 ). Norma IF (z; T, F 0 ) 2 je funkcí v = z 2 a lze ji rozložit na tři sčítance, kde každý zastupuje influenční funkci jednoho z elementů µ, τ a η Asymptotická kovarianční matice V (T, F 0 ) ekvivariantního odhadu T v bodě F 0 je d-matice, jejíž elementy dµ V, dτ V a dη V je možné vyjádřit pomocí elementů wµ, I uτ I a wη. I Fisherova informační matice je také d-matice a její elementy dµ, J dτ J a dη J lze vyjádřit analogicky pomocí funkce ω v (v). Platí tedy d V h 1/d J h pro h = µ, τ, η. Tomáš Hanzák Robustní odhady kovarianční matice 28 / 39

Ekvivariantní M-odhady I Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Každý M-odhad může být definován pomocí své IF jakožto skórové funkce ψ(x, θ). Každý ekvivariantní M-odhad tedy může být definován pomocí funkce ψ(x, θ) ve tvaru [ ( )] vecs(σ) [ ψ x, = ψ µ 0 L 1 (x µ) ] kde LL T = Σ a ψ 0 je ortogonálně ekvivariantní funkce. Naopak platí, že každý Modhad tohoto tvaru je ekvivariantní. Tomáš Hanzák Robustní odhady kovarianční matice 29 / 39

Ekvivariantní M-odhady II Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Ortogonálně ekvivariantní funkce ψ 0 je určena třemi skalárními funkcemi w ψ η, w ψ δ a w ψ µ. Příslušný M-odhad T tedy může být formulován jako řešení jisté soustavy rovnic s neznámými L a µ, jejímiž parametry jsou funkce w ψ η, w ψ δ a w ψ µ (definující daný M-odhad) a rozdělení F v němž hodnotu funcionálu T počítáme. Přesně řečeno řešení ˆL a ˆµ této soustavy pak dává dotyčný odhad T = T (F ) jako (ˆLˆLT ) T = (ˆΣ, ˆµ) =, ˆµ. Tomáš Hanzák Robustní odhady kovarianční matice 30 / 39

Ekvivariantní M-odhady III Ortogonálně ekvivariantní funkce a d-matice Obecné výsledky o ekvivariantních odhadech Ekvivariantní M-odhady Důležitá je otázka existence a jednoznačnosti ekvivariantního M-odhadu, tj. na jakých F je odhad T dobře definován. Věta - existence (Theorem 1, str. 287 v knize) Při splnění jistých podmínek kladených na funkce w ψ η, w ψ δ a w ψ µ a rozdělení F existuje řešení T (F ) příslušného M-odhadu. Věta - existence a jednoznačnost (Theorem 2, str. 288 v knize) Při splnění jistých podmínek existuje řešení T (F ) příslušného M-odhadu ve všech eliptických rozděleních F. Poznámka: Tato věta nám bohužel nedává existenci a jednoznačnost T v empirických rozděleních. Za jistých podmínek se však existence a jednoznačnost T šíří i do Prohorovských okoĺı eliptických rozdělení. Tedy dostáváme ji tak i pro dostatečně velké výběry z těchto rozdělení. Tomáš Hanzák Robustní odhady kovarianční matice 31 / 39

M-odhadů Odhady s bodem selhání 1/2 Horní mez pro bod selhání M-odhadu Věta (Theorem 1, str. 298 v knize) Pro slabě spojitý ekvivariantní M-odhad T platí ε ({T n }, F Σ,µ ) 1/m pro všechna Σ, µ. Tomáš Hanzák Robustní odhady kovarianční matice 32 / 39

Poznámka Úvod M-odhadů Odhady s bodem selhání 1/2 Výše uvedená věta diskvalifikuje M-odhady ve vyších dimenzích m jako odhady s vysokým bodem selhání. Naopak existují triviální ne-ekvivariantní odhady s bodem selhání rovným 1/2 (Příklad...). Dle autorů knihy je však možné se na věc dívat jako na ilustraci nevhodnosti klasického konceptu bodu selhání v případě použití na location-covariance model. Alternativní koncept: Point of breakdown at the edge (kapitola 5.5b v knize). Tomáš Hanzák Robustní odhady kovarianční matice 33 / 39

Projekční odhad - definice M-odhadů Odhady s bodem selhání 1/2 Uvažujme všechny projekce prostoru R m na přímku určené vektory d R m, d = 1. Necht L a S jsou jednorozměrné odhady polohy a měřítka. Označme L d (F ) a S d (F ) hodnoty těchto odhadů při projekci F ve směru d: x d T x. Zajímá nás největší t-hodnota pro každý bod x R m. Označme r(x; F ) sup d d T x L d (F ) S d (F ). Projekční odhad příslušící k L a S a váhové funkci w : R + 0 R je vážená kovarianční matice a vážená střední hodnota rozdělení F s vahami w [ r(x; F ) 2]. Kovarianční matici je třeba přenásobobit vhodnou kladnou konstantou tak, aby bylo dosaženo Fisherovské konzistence pro zvolený typ rozdělení F. Tomáš Hanzák Robustní odhady kovarianční matice 34 / 39

Projekční odhad - bod selhání 1/2 M-odhadů Odhady s bodem selhání 1/2 Věta (Theorem 3, str. 301 v knize) Předpokládejme, že platí: 1 Odhad (L, S) T má bod selhání 1/2 v projekci F 0 na přímku,. 2 Funkce w je spojitá, kladná a omezená, r w(r 2 )r 2 je také omezená funkce,. 3 Nosič F 0 je celý prostor R m. Pak bod selhání projekčního odhadu příslušného k LT a S je 1/2 pro všechna modelová (eliptická) rozdělení. Tomáš Hanzák Robustní odhady kovarianční matice 35 / 39

Projekční odhad - výpočetní aspekty M-odhadů Odhady s bodem selhání 1/2 Maximalizační úloha obsažená v definici r(x; F ) není výpočetně triviální. Maximalizovaná funkce totiž může obsahovat mnoho pouze lokálních maxim. To způsobuje, že obvyklé metodu nelineární optimalizace selžou. Lze použít dostatečně hustou sít bodů d na jednotkové sféře. Ovšem pro větší dimenze m je potřeba příliš mnoho bodů sítě. Existuje procedura pro empirická rozdělení o rozsahu n. Vybereme náhodně m bodů z výběru a zvoĺıme d kolmé k nadrovině utvořené těmito m body. Toto opakujeme q-krát a jako r(x; F ) vezmeme maximum přes těchto q hodnot d. Hodnotu je možné dále zpřesnit optimalizací na okoĺı nalezeného směru. Větší hodnota q logicky zvyšuje výpočetní náročnost a zvyšuje přesnost metody. Tomáš Hanzák Robustní odhady kovarianční matice 36 / 39

MVE a MCD odhady Úvod M-odhadů Odhady s bodem selhání 1/2 Další příklady ekvivariantních odhadů s bodem selhání 1/2: Minimal Volume Ellipsoid (MVE) Určeme elipsoid s nejmenším objemem, který pokrývá alespoň 50% dat. Střed takového elipsoidu je odhad parametru polohy µ, jeho tvar, velikost a orientace určuje odhad matice Σ. Minimal Covariance Determinant (MCD) Odhad polohy je průměr takových 50% dat, majících nejnižší determinant výběrové kovarianční matice. Ta slouží jako odhad matice Σ. Tomáš Hanzák Robustní odhady kovarianční matice 37 / 39

Literatura Úvod Kniha F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw & W.A. Stahel: Robust Statistics - The Approach Based on Influence Functions. John Wiley and Sons, 1986. J. Jurečková: Robustní statistické metody. Nakladatelství Karolinum, 2001. J. Anděl: Základy matematické statistiky. Preprint Matfyzpress, 2002. Tomáš Hanzák Robustní odhady kovarianční matice 38 / 39

Děkuji za pozornost! Tomáš Hanzák Robustní odhady kovarianční matice 39 / 39