TESTY A ODHADY PARETOVA INDEXU

Transkript

1 ROBUST 2004 c JČMF 2004 TESTY A ODHADY PARETOVA INDEXU Jan Pice Klíčová slova: Paretův index, rozdělení extrémních hodnot, sféra přitažlivosti, Hillův odhad. Abstrat:Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličiny sdistribučnífuncí Fanechť M n =max(x 1,..., X n ).Provětšinuobvylých distribučníchfuncívhodněstandardizovanámaxima M n onvergujívdistribucirozděleníextrémníchhodnot G γ.podlehodnotshapeparametru γ rozlišujeme tři záladní třídy distribučních funcí: γ > 0 Fréchetova třída, γ =0Gumbelovaaγ <0Weibullova.Zhledisaextrémníchudálostí je především zajímává třída Fréchetova, γ se v tomto ontextu často nazývá Paretovým indexem. V příspěvu se proto budeme zabývat semiparametricýmiodhady γpředevšímprotutotříduatestyoγ,zvláštěsebude jednatotestyhypotézy γ=0protialternativě γ >0,tj.náhodnývýběrje z rozdělení, terý patří do Gumbelovy třídy proti alternativě, že rozdělení je z Fréchetovy třídy. 1 Úvod Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličinysdistribučnífuncí F.Našepozornostvtomtočlánubudesoustředěnanaextremálníudálosti.Nechťtedy M n =max(x 1,..., X n ).Zřejmědistribuční funce M n je P(M n x)=p(x 1 x,..., X n x)=f n (x)s.j.. Jednodušejepotommožnéuázat,že M n x F s.j.pro n,de x F :=sup{x IR:F(x) <1}. Tato sutečnost nám neposytne příliš mnoho informace. Poud se inspirujeme centrální limitní větou, jistě je přirozené se zabývat standardizovanými maximy. Předpoládejme,žemůžemenajítposloupnostreálnýchčísel a n >0ab n ta,žeposloupnost(m n b n )/a n onvergujevdistribuci,t.j. P((M n b n )/a n x)=f n (a n x+b n ) G(x), n, (1) pro nějaou nedegenerovanou d.f. G(x) Jestliže podmína platí, říáme, že F je ve sféře přitažlivosti G(domain of attraction) F MDA(G). Přirozeně nás patrně napadnou otázy: ja vypadá G,jaépodmínymusí Fsplňovat,aby F MDA(G)ajavolit a n a b n.odpověďnatytozáladníotázymůžemenajítnapř.v[2].

2 276 Jan Pice Odpověď na první otázu známe už od rou 1928 Fisherova-Tippettova věta: Jestliže F MDA(G) potom G je typu jedné z následujících tří distribučních funcí: { 0, x 0 Fréchet Φ 1/γ (x)= exp ( x 1/γ), x >0 γ >0 { { } exp ( x) 1/γ, x 0 Weibull Ψ 1/γ (x)= 1 x >0 γ <0 Gumbel Λ(x)=exp( e x ), x IR. Po vhodné reparametrizaci můžeme tyto tři třídy charaterizovat jediným rozdělením zobecněnéným rozdělením extrémních hodnot(generalized Extreme Value Distribution) { ( ) exp (1+γx) 1/γ γ 0 G(x)=G γ (x)= exp( e x ) γ=0, de1+γx >0. Hodnota shape parametru γ > 0odpovídáFréchetovětřídě, γ =0 Gumbelově a γ < 0 Weibullově. Fisherova-Tippettova věta nám pa říá: jestliže vhodně standardizované maxima onvergují v distribuci nedegenerované limitě, potom limitní rozdělení musí být rozdělení extrémních hodnot. Poznamenejme, že G je určena jednoznačně až na parametr polohy a měříta. Je možné uázat, že v podstatě všechny běžně uvažované spojité rozdělení splňují podmínu(1). Nežsezaměřímenavolbu a n a b n připomeňmeněolipojmůzlasicé teorie extrémních událostí. Funce h(t)na(0, )jepravidelněseměnícífunce(regularlyvarying)v sindexem α IR(h R α ),jestliže h(xt) lim x h(x) = tα, t >0. Funce L(t)na(0, )jepomalu seměnící funce(slowlyvarying)v (L R 0 ),jestliže L(xt) lim =1, t >0. x L(x) V oblasti extrémních hodnot se často pracuje s vantilovou funcí chvostu ( U(t)=F ) =inf{y:f(y) 1 1/t}, t >0. t Věta1.1.a) F MDA(G γ )právědyž U(tx) U(t) lim = xγ 1 t a(t) γ proaždé x >0, ajenějaáladnáfunceaγ IR, a n = a(n), b n = U(n).

3 Testy a odhady Paretova indexu 277 b) F MDA(G γ ), γ >0právědyž proaždé x >0sγ>0,tj. U R γ (a n = U(n)). Důazadetailynapř.vdeHaanL.(1970). U(tx) lim t U(t) = xγ (2) Další a často používá charaterizace Fréchetovy třídy: F MDA(G γ ), γ > 0právědyž1 F(x) R 1/γ,tj. chvost rozdělení Fjepravidelněseměnícífuncev sindexem 1/γ 1 F(x)=x 1/γ L(x). (3) Statisticou inferenci v extremální statistice můžeme založit na záladě limitního rozdělení, tj. na zobecněném rozdělením extrémních hodnot např. pomocí metody maximální věrohodnosti. Uazuje se, že onvergence je vša velmi pomalá, proto je nutné hledat alternativní přístupy. V následujícím textu uážeme něteré možné semiparametricé přístupy. 2 Testy Případ F MDA(G 0 )jezajímavýpromnohoapliací,terésezabývajíextrémy. Důvodem je nejen jednodušší inference založená na Gumbelově sféře přitažlivosti, ale taé široá paleta rozdělení s exponenciální chvosty. Jao zástupce jmenujme normální, lognormální a gamma rozdělení. Na druhé straně opravdu extrémní události jsou modelovány pomocí rozdělení z Fréchetovy třídy. Je tedy určitě v praxi užitečné rozhodnout do jaé třídy rozdělení našich dat patří. To znamená uvažovat následující test oboustranné hypotézy (respetive anologicý jednostranný test) F MDA(G 0 ) protialternativě F MDA(G γ ) γ 0. (4) Asi nejpoužívanější test pro tuto situaci navrhli Hasofer A.M. and Wang Z. v roce Najdeme ho implementovaného v řadě softwarů pro statistiu extrémních událostí. Test jao většina semiparametricých postupů je založen na největších pořádových statistiách: ( ) 2 X X n +1:n W = ( 1) ( ) 2, X := 1 i=1 Xn i+1:n X X n i+1:n. (5) HasoferaWanguázali,žetestovástatistia W máasymptoticynormální rozdělenísestředníhodnotou µ arozptylem σ 2 µ = 1 ( 1), σ2 = i=1 4( 2) ( 1) 2 1 (+1)(+2)

4 278 Jan Pice Kriticý obor pro oboustrannou alternativu je potom dán následovně W > u 1 α/2, de W :=(W µ )/σ a u ε je ε-vantilnormálníhorozdělení. Při praticém provádění testu jistě narazíme na problém, ja zvolit vhodné. Poud budeme zvyšovat, zvýšíme sílu testu, ale na druhé straně zvyšujícísepodíl /nmáneblahývlivnachybui.druhu.volbasepastává dojistémíry alchymií,nicméněvliteratuřeexistujídoporučení,např.boos navrhuje /n=0.2pro50 n 500a/n=0.1pro500 < n 5000,Galambosradívolit =2 n. PodobnýtyptestunavrhliC.Neves,J.PiceaM.I.FragaAlves(2005). Jao testovou statistiu uvažují T,n= 1 X n:n X n :n log. (6) (X n i+1:n X n :n ) i=1 Uázali,žetestovástatistia T,n zanulovéhypotézyonvergujegumbelovurozdělení G(x)=exp( e x )ažetestjeonzistentní.nulováhypotéza jetedyzamítnutanaasymptoticéhladině α (0,1)jestliže T,n < g α/2 nebo T,n > g 1 α/2, de g ε označuje ε-vantil Gumbelova rozdělení, tj. g ε = log( log ε). Jao poslední přístup pro test(4) uveďme poměrně nedávný přístup J. Segerse a J.Teugelse(2001). Vychází z poměru uvažovaném Galtonem(1902): G n = X n:n X n 2:n X n 1:n X n 2:n Náhodnývýběrorozsahu njerozdělendo msupin m i=1 n i= n.važdé je spočítán poměr ξ i = X(i) n i:n i X (i) n i 2:n i X (i) n i 1:n i X (i) n i 2:n i, 1,, m Podle Serflinga(1980), Segers a Teugels navrhují užít testovou statistiu ( S m = 5 m 2 6x T(ξ i )), T(x):=1 m (1+x) 2, (7) i=1 auazují,žezanulovéhypotézyonvergujeχ 2 1rozdělenípro m. Nulová hypotéza je tedy zamítnuta na asymptoticé hladině α, je-li S m > χ 2 1 (1 α),de χ2 1 (ε)označuje ε-vantil χ2 rozdělenís1st.vol.

5 Testy a odhady Paretova indexu Numericá ilustrace Zusme ilustrovat chování výše uvedených testů na simulovaných datech a na jednom reálném příladu. Nejprve jsme uvažovali platnost nulové hypotézy(4), tj. jao zástupce z Gumbelovy sféry přitažlivosti jsme zvolili Gumbelovorozdělení F(x)=exp( e x ).Ztohotorozděleníjsmevygenerovali 1000 výběrorozsahu1000aprovedlivýšeuvedenétesty.naobr.1jsou zobrazeny výsledy ve formě relativního počtu zamítnutí nulové hypotézy na hladině α=0.05.testy(5)a(6)bylyprovedenypro =2,...,999(počet použitých nejvyšších pořádových statisti). Test(7) byl onstruován ta, ževýběrbylrozdělendo50(=m)bloůorozsahu20.obr.1vlastněilustrujeodhadchybyprvníhodruhu.jevidět,žeodhadtétochybyprotest (7) je praticy 0.05, poud přijmeme výše zmiňovaná doporučení pro volbu,potomtesty(5)a(6)majíodhadtaéblízý0.05.nicméněsezdá,že test(6)dovolívolitvětšírozsah anižbytomělovýraznývlivnachybui. druhu. Testovali jsme i jiná rozdělení z Gumbelovy sféry přitažlivosti i pro jiné rozsahy, charater řive byl podobný s jedinou výjimou a to exponenciálním rozdělením, pro teré odhad chyby prvního druhu byl stabilní(blízo hodnoty 0.05) praticy pro všechna možná Obráze1:Relativnípočetzamítnutí H 0 nahladině α=0.05progumbelovo rozdělení, T,n (plnáčára), W (tečovaně), S 50 (čerchovaně). Jao další zástupce pro ilustraci bylo zvoleno zobecněné Paretovo rozdělení F γ (x):=1+log G γ (x)=1 (1+γx) 1 γ { x 0 jestliže γ 0 pro 0 x 1 γ jestliže γ <0

6 280 Jan Pice Toto rozdělení závisí na parametru γ. Podle jeho hodnoty patří rozdělení do jedné z uvažovaných tříd. Opět byl 1000 rát generován výběr o rozsahu 1000 pro hodnoty γ = 2.0,-1.5,-1.0,-0.5,-0.25,-0.1,-0.01, 0.01, 0.1, 0.25, 0.5, 1.0, 1.5, 2.0. Poud se opět zajímáme o relativní počet zamítnutí nulové hypotézy, pa v tomto ontextu dostáváme představu o síle testů. Naobr. 2vidímesrovnáníprovšechnytřitestyvzávislostina γdata. Testy(5)a(6)bylyprovedenypro =150,test(7)sm=50.Vevšechtřech případech ta bylo použito 150 hodnot(i dyž ne nutně stejných) power gamma Obráze2:Sílatestu: T 150,n (plná), W 150(čerchovaná), S 50 (tečovaná)na hladině α=0.05prozobecněnépareto(γ= 2.0,-1.5,-1.0,-0.5,-0.25,-0.1, -0.01,0.01,0.1,0.25,0.5,1.0,1.5,2.0),rozsah n=1000. Vidíme,žezhledisasílytestusenejlépechovátest(5),trochuhůře(6) a nejslabší je test(7). Ten byl nejslabší ve všech případech, teré jsme zoumali.testy(5)a(6)sepřílišnelišilyazáviselonaonrétnívolbě,rozdělení a rozsahu. Doladem toho může být např. obr. 3, terý zobrazuje závislost sílytestu navolbě prozobecněnéparetorozdělenísγ=1.0 Co se týče asymptoticých vlastností a předpoladů všechny tři testy jsou rovnocenné, na druhou stranu vidíme, že poud máme i poměrně velý rozsahdat,rozdílynajítmůžeme.nejslabšímtestemsezdábýtdojistémíry(7). Test(5)jevpraxipatrněnejpoužívanější,alezdáse,že(6)jeplněsrovnatelný. Podívejmesetéžnatestynareálnýchdatech.Vposlednídoběsevede disuse, že počasí nabývá extrémního chování. Jedním z mnoha charateristi tohoto chování počasí mohou být např. extrémní srážy. V Česé Republice jsou dispozici data na řadě stanic od rou Extrémní srážy můžeme

7 Testy a odhady Paretova indexu power Obráze3:Sílatestu: T,n (plnáčára), W (čerchovaná), S 20 (tečovaná)na hladině α=0.05provzávislostina,rozsah n=200prozobecněnépareto rozdělenísγ=1.0(vpravo) Obráze 4: Maximální třídenní úhrny sráže v letech ve Valašsém Meziříčí. třeba charaterizovat maximálními třídenními úhrny sráže v daném roce (taovétodatamělautordispozici).naobr.4vidímetytodataprostanici ve Valašsém Meziříčí. Velmi dobře je vidět výjimečný ro 1997, terý přinesl velé záplavy na Moravě. Je otázou pro další statisticé úvahy, jaý záladní model je pro tuto veličinu

8 282 Jan Pice (maximálními třídenními úhrny sráže v daném roce) vhodný, tj. Gumbelova nebo Fréchetova třída. Výsledy testů jsou graficy zobrazeny na obr. 5, de vodorovné čáry odpovídají příslušným 97.5%-ním vantilům pro oboustranný test. Vidíme, že zamítnutí nulové hypotézy je velmi problematicé, zamítáme pouzeprovětšíhodnoty atohlavnětestem(6),vidělijsmezesimulací,že větší nedávají dobré výsledy co se týče platnosti nulové hypotézy. Hlavnímproblémemtujevšavelmimalýpočetpozorování(n=40),terýje v apliacích týajících se extrému nedostatečný, ale bohužel v praxi častý Obráze5:SrážyveValašsémMeziříčí:Hodnoty T,40 (plná), W (tečovaná), S 8 (čerchovaná).vodorovnélinyoznačujípříslušnévantilyodpovídající α=0.05. Další testy, teré byly v poslední době onstruovány, uvažují hypotézy ohodnotáchparametru γ(ja těžé jsoutěžéchvosty)pro F MDA(G γ ), γ >0,viz[11],[16].OtěchtotestechbyloreferovánonaRobustu2000.Poud se budeme zabývat úvahami o hodnotách γ, pa mnohem bohatší je literatura věnovaná odhadům. Proto následující část tohoto příspěvu věnujeme právě jim. 3 Odhady Připomeňme,ževycházímeznáhodnéhovýběru X 1, X 2,...zrozdělenísneznámoudistribučnífuncí F.Poud F MDA(G γ ), γ >0,papatrně nejznámějšíodhadem γjehillůvodhadzrou1975[8]: H n ()= 1 1 log X (n i:n) log X (n :n). (8) i=0

9 Testy a odhady Paretova indexu 283 Uažme návrh jedné z možných cest jeho odvození. Vyjděme z charaterizace Fréchetovy třídy(2): U(tx) lim t U(t) = xγ,de U(t)=F 1 (1 1/t). Pozlogaritmovánídostanemelim t log U(t/x) log U(t)= γlog x. Výběrováverzevantilovéfuncechvostu U je U n (1/x)=Fn 1 (1 x)= X n(1 x),n,tj. U n ( n )=X n,na U n ( n x )=X n x,n.tedypro0<x<1je log X n x,n log X n,n = γlog x.potéintegrujme γ= γ 1 0 log xdx= lim Dostaneme ta možný odhad γ H n () = t 1 0 {logu(t/x) log U(t)} dx. (log X n x,n log X n,n ) dx = 1 log X (n i:n) log X (n :n) i=0 Hillův odhad je onzistentní, tvrzení najdeme např. v[13]. Věta 3.1. Je-li F MDA(G γ ), γ >0,potom H n () γvpravděpodobnosti, =(n), (n)/n 0(n ). Poud nás zajímá asymptoticé rozdělení odhadu, musíme lást další podmíny na distribuční funci, abychom byli schopní ho odvodit. Nejčastěji se uvažuje následující podmína(regular variation of second order): Nechť existuje A(t) funce onstantního znaména a parametr ρ lim t U(tx) U(t) xγ A(t) = x γ xρ 1 ρ (9) provšechna x >0. Věta 3.2. Nechť podmína(9) platí a nechť posloupnost = (n) je taová, že (n) a A(n/) 0,potom (Hn () γ) jeasymptoticynormálnísnulovoustředníhodnotouarozptylem γ 2.

10 284 Jan Pice (( M() (1) ) 2 ) 1, (10) M()=1+M() (1) M() (2) 1 de M() (j) = 1 ( ) j log X(Nn i+1:nn) log X (Nn :Nn). i=1 Alternativou momentového odhadu je Picandsův odhad[17] P()= 1 ( ) log2 log XNn +1:Nn X Nn 2+1:Nn. (11) X Nn 2+1:Nn X Nn 4+1:Nn Výše uvedené odhady jsou patrně nejznámější, v literatuře existuje obrovsé množství dalších odhadů: různá zobecnění Hillova odhadu, odhady založené naparametrudruhéhořádu ρ,viz(9)amnohoamnohodalšíchalternativ. Uveďmealespoňjedenpřílad,terývycházíz(9)auvažuje,že ρ= 1. NavrhlihoGomesaMartinvroce2002,viz[9]. GM()= 1 U i i=1 ( 1 i=1 ) i=1 iu (2i 1)U i i i=1 i(2i 1)U, i [ U i = i log X ] Nn i+1:nn, (12) X Nn i:nn Stejně jao u testů je problém volby, lze řešit podobnými doporučeními nebo se uvažují postupy založené na bootstrapu- viz např.[10]. Pouduvažujeme F MDA(G γ ), γlibovolné,palze analogicyodvodit Momentovýodhad[1] Poudsepodívámedodomácíchluhůahájů,taitadynajdemepříspěveeonstruciodhadůparametru γzapodmíny F MDA(G γ ), γ >0. Tyto odhady nejsou založeny přímo na pořádových statistiách na rozdíl od předcházejících. Vychází se opět z určité charaterizace Fréchetovy třídy: log(1 F(a)) lim =1. (13) a mloga Apliací l Hospitalova pravidla z von Mises podmíne(viz Embrechts a ol., Kap.3),dostaneme,že1 F(x) = x m L(x),cožjecharaterizaceuvedená v(3). Platí i opačná impliace. Principem spočívá v rozdělení výběru do supin, v aždé je spočtena nějaá jednoduchá statistia. Výsledný odhad je onstruován na záladě empiricé distribuční funce sledované statistiy.

11 Testy a odhady Paretova indexu 285 O prvním typu odhadu referovala na Robustu 2000 A. Fialová: Rozdělíme pozorování do N nepřerývajících se výběrů rozsahu n a určíme zde průměry ( X n (1),..., X n (N) ). Dostaneme pa náhodný výběr z rozdělení s distribuční (N) funcí F Xn (x)=ip( X n x).označíme F X n (x) = 1 N (j) N j=1 I[ X n x] empiricoudistribučnífuncízaloženouna( X n (1),..., X n (N) ). Vyberme posloupnost {a N } N=1, a N pro N vetvaru a N = N 1 δ m 0,spevným δ (0,1). Odhadparametru m=1/γjepotom de m N = m N (a N )I[0 < F (N) X n (a N ) <1]+m 0 I[ F (N) X n (a N )=0 nebo1], (14) m N (a)= ( ) (N) log 1 F X n (a), a >0. log a Odhad(14) je onzistentní a jeho asymptoticé rozdělení je normální, viz následující věty. Věta3.3. Nechť {X 1, X 2,...}jeposloupnostnezávislýchstejněrozdělených náhodnýchveličinsdistribučnífuncí F MDA(G γ ), γ >0ahustotou f(x)=0pro x <0a0 < f(x) < for x K f 0.Nechť m N jeodhad m. Potom m N m spravděpodobností 1, pro N. Věta 3.4. Za podmíne předcházející věty posloupnost ( )1 1 N 1 2 log F Xn (a N ) ( m 2 an N m+ log ) L (a N ) F Xn (a N ) log a N je asymptoticy normální N. Důazyobouvětlzenaléztv[4].NarozdílodHillova(aidalšíchvýše zmíněných) odhadů je asymptoticé rozdělení odvozeno za mnohem slabších předpoladů.bohuželvýsledevěty3.4obsahujepomaluměnícísefunci L, terou zpravidla neznáme, není proto možné jednoduše výsledu využít např. pro onstruci intervalových odhadů. Pro tento odhad musíme zvolit δ, což je vlastně podobná úloha jao je určení vhodného pro předcházející odhady, navícje všanutné zvolit m 0,cožvyžadujenějaoupočáteční informaci otom,jachvostrozdělenímůžebýt těžý.toponěudomezujeužití odhadu pro praticé problémy. Ilustrujme na simulovaných datech na chování odhadu právě v závislosti navolbě δ a m 0.JaomodeldatpoužijemeParetovorozdělení,teréje jedním z typicy používaných rozdělení pro popis extrémních událostí: ( ) 1/γ 1 F(x)=1, x 0 (15) 1+x

12 286 Jan Pice KonrétněbylasimulaceprovedenaproParetovorozdělenísγ=1,cožje i hodnota, terou chceme odhadnout. Výslede můžeme vidět na obr. 6, zteréhovyplývá,žepoudjezhruba δ <0.4jeodhadpoměrněstabilnía rozumný. Pro velé hodnoty δ odhad naprosto selhává. Zároveň je vidět, že čímhoršímámeapriorníinformaciosprávnéhodnotě γ=1/m,tímdostaneme horší výslede. estimate % 75% 50% 25% 1% estimate % 75% 50% 25% 1% delta m_0 Obráze 6: Závislost odhadu v 1000 simulovaných výběrech Paretova rozdělenísγ =1naparametru δprodané m 0 =1.5(vlevo)závislosthodnot odhadunaparametru m 0 pro δ=0.1(vpravo).uvedenyjsoumedián1,25, 75 a 99 percentily. Jurečová, Pice(2004) navrhli odhad vycházející z postupů pro testování hypotézyohodnotáchparametru γ pro F MDA(G γ ), γ > 0.Krátá poznáma o nich byla v předcházející apitole. Invertováním těchto testů (v duchu způsobu, terý užil Hodges a Lehmann v roce 1963) dostaneme odhad M N = 1 2 (M+ N + M N ), de M N =sup{s: 1 ˆF N (a N,s)) < N (1 δ) }, M + N =inf{s: 1 ˆF N (a N,s)) > N (1 δ) }. X (1) (n),...,x(n) (n) jsou odpovídající výběrová maxima N supin o rozsahu n, terévznilyrozdělenímpůvodníhonáhodnéhovýběru.jaoˆf N označujeme empiricoudistribučnífunciodpovídajícívýběrovýmmaximům, a N,m = (nn 1 δ ) 1/m,de0 < δ < 1 2 jeonstanta. Ilustrujme podobně jao u předcházejícího odhadu chování v závislosti na volbě δ. Jao model dat tentoráte použijeme Burrovo rozdělení, teré je dalším typicy používaným rozdělením pro popis extrémních událostí: ( F(x)=1 1 1+x 1/γ ) α, x 0 (16) KonrétněbylasimulaceprovedenaproBurrovorozdělenísγ=1, α=1, jedniča je opět hodnota, terou chceme odhadnout. Výslede můžeme vidět

13 Testy a odhady Paretova indexu 287 naobr.7,zteréhovyplývá,želepšívýslededostaneme,poudje δblízé 0.5. Neplatí to obecně, pro jiná rozdělení to může dopadne úplně opačně. Na druhou stranu volba δ není ta problematicá jao volba u Hillova odhadu, vizobr.8,denastejnýchdatechjespočítánhillůvodhad. odhad % 25% 50% 75% 95% delta Obráze 7: Závislost odhadu v 1000 simulovaných výběrech Burrova rozdělení s γ=1, α=1naparametru δ.uvedenyjsoumedián5,25,75a95percentily. odhad % 25% 50% 75% 95% Obráze 8: Hillův odhad v 1000 simulovaných výběrech o rozsahu 1000 v závislostina proburrovorozdělenísγ=1, α=1.uvedenyjsoumedián5, 25,75a95percentily.

14 288 Jan Pice Jurečová a Pice uázali v[12], že odhad je silně onzistentní. Asymptoticou normalitu odvodil Omela[15]. Odhad(16) potřebuje pouze volbu δ, což ho činí použitelnějším než odhad(14). I simulace dávájí poměrně dobré výsledy- viz dále, přesto vša musíme být v praticých apliacích velmi opatrní. Oba odhady nejsou invariatní vzhledem e změně měříta na rozdíl od odhadu Hillova(8), Picandsonova(11), momentového(10) i(12). Všechny zmíněné odhady nejsou invaritní vzhledem e změně polohy. Při mechanicémpoužitíodhadůtopotommůževést zajímavým výsledům. Byly proto uvažovány něteré modifiace Hillova odhadu, viz např.[3]. Nějaé poznámy, ja se s naznačeným problémem vypořádat pro odhad(16) učinil Omela[15]. 3.1 Numericá ilustrace V této části zusíme porovnat zmiňované odhady na simulovaných datech. Jao výchozí model použijeme dříve zmiňovaná rozdělení: Paretovo, Burrovo a zobecněné Paretovo. U všech tří rozdělení zvolíme shape parametr(γ = 1/m=1)ta,abychvostybyly stejnětěžé amohlitasledovatvliv rozdělení. U zobecněného Paretova zvolíme ještě další dvě hodnoty γ: 1/3 lehčía2 těžšíchvost. Zdanéhorozděleníjsmevygenerovali1000 výběrorozsahu1000aprovedli výše zmíněné odhady. Odhady(8),(11),(10) a(12) jsme spočítali pro =2,...,998.Proodhady(14)a(16)jsmeprovedlirozdělenído200supin (= N)po5hodnotách(= n)aspočítaliodhadpro δ=0.01,...,0.50sroem0.01,navícpro(14)za m 0 jsmezvolili sutečné 1/γ+1.Zaúčelem porovnání jsme pro aždé, respetive δ spočetli střední vadraticou chybu (MSE)avybralitaovouhodnotu (δ),dyjemseminimálníaspočítali nějaé výběrové charateristiy z tisíce zísaných hodnot odhadů. Výsledy najdemevtabulce1.odhad(14)jevníoznačenjaofjpa(16)jaojp. Tučně je zvýrazněna pro dané rozdělení minimální MSE mezi odhady. Můžeme si všimnout, že pro opravdu těžé chvosty, tj. pro všechny případy romě zobecněného Paretova rozdělení s γ = 1/3, dávají všechny odhady v průměru rozumné výsledy. Nejslabší se přesto zdá být odhad(14) a protože byly už něteré výhrady disutovány dříve, nelze ho doporučit pro praticé úlohy. Naopa odhad(16) je srovnatelný s lasicými, navíc pro lehčí chvosty dává často rozumnější výsledy než lasicé odhady. Zdá se tedy, že s ním lze pracovat minimálně jao vhodnou alternativou. Ztabulyjedálevidětadalšísimulaceprojinépřípadyarozdělenítojen potvrzují, že index lehčích chvostů se odhaduje mnohem hůře. Převapující je výslede Picandsova odhadu(alespoň pro autora tohoto příspěvu), protože tentoodhadbymělfungovatproodhadnejenvefréchetovětřídě,aleipro GumbelovuaWeibullovusférupřitažlivosti,tedyipro lehé chvosty.

15 Testy a odhady Paretova indexu 289 rozdělení metoda, δ MSE průměr medián rozptyl Pareto Hill = γ=1 Moment = Picands = Gomes = FJP δ = JP δ = Burr Hill = α=1 Moment = γ=1 Picands = Gomes = FJP δ = JP δ = zobec. Hill = Pareto Moment = γ=2 Picands = β=1 Gomes = FJP δ = JP δ = zobec. Hill = Pareto Moment = γ=1 Picands = β = 1 Gomes = FJP δ = JP δ = zobec. Hill = Pareto Moment = γ=1/3 Picands = β = 1 Gomes = FJP δ = JP δ = Tabula 1: Výběrové charateristiy odhadů Paretova indexu pro minimální MSE při 1000 opaování generování dat rozsahu 1000 pro různá rozdělení. Reference [1] Deers A.L.M, Einmahl J.H.J., de Haan L.(1989). A moment estimator for the index of an extreme value distribution. Ann. Statist. 17, [2] Embrechts P., Klüppelberg C., Miosch T.(1997). Modelling extremal events for insurance and finance. Springer-Verlag, Berlin.

16 290 Jan Pice [3] Fraga Alves M.I.(2001). A location invariant Hill-type estimator. Extremes,4(2), [4] Fialová A., Jurečová J., Pice J.(2004). Estimation of tail index based onsamplemean.revstat,2, [5]deHaanL.(1970).Onregularvariationanditsapplicationtothewea convergence of sample extremes. Mathematical Centre Tract 32, Amsterdam. [6] de Hann L., Stadtmüller U.(1996). Generalized regular variation of second order. J.Austral.Math.Soc.(A) 61, [7]HasoferA.M.,WangZ.(1992).Atestforextremevaluedomainofattraction.JASA,87, [8]HillB.M.(1975).Asimplegeneralapproachtoinferenceaboutthetailof a distribution. Ann. Statist. 3, [9] Gomes M.I., Martins M.J.(2002). Asymptotically unbiased estimators of the tail indexbased onthe externalestimation of thesecond order parameter.extremes5(1),5 31. [10] Gomez I., Oliviera O.(2001). The bootstrap methodology in statistics of extremes-choice of the optimal sample fraction. Extremes 4(4), [11]JurečováJ.,PiceJ.(2001).Aclassoftestsonthetailindex.Extremes, 4,(2), [12]JurečováJ.,PiceJ.(2004).Estimatesofthetailindexbasedonnonparametric tests. Theory and Applications of Recent Robust Methods, Birhauser, Basel, [13] Mason D.M.(1982). Laws of large numbers for sums of extreme values. Ann.Probab.10, [14]NevesC.,PiceJ.,FragaAlvesM.I.(2005).Thecontributionofthe maximum to the sum of excesses for testing max-domains of attractions. J. Statist. Planning Infer., v tisu. [15] Omela M.(2005). Asymptotic normality of the estimates of the tail index based on nonparametric tests. Zasláno. [16]PiceJ.,JurečováJ.(2001).Aclassoftestsonthetailindexusingthe modified extreme regression quantiles. Sborní onference ROBUST 00 (J.Antoch, G.Dohnal, eds.), JČMF Praha, [17] Picands J.(1975). Statistical inference using extreme order statistics. Ann.Statist. 3, [18] Segers J., Teugels J.(2001). Testing the Gumbel hypothesis by Galton s ratio. Extremes, 3:3, Poděování: Příspěve vznil za podpory Grantové agentury AV ČR projet B a výzumného záměru MSM Adresa: J. Pice, Katedra apliované matematiy, Technicá univerzita v Liberci, Hálova 6, Liberec jan.pice@vslib.cz