TESTY A ODHADY PARETOVA INDEXU



Podobné dokumenty
MODELOVÁNÍ CHVOSTŮ TEORIE EXTRÉMNÍCH ODHADY PARETOVA INDEXU. Jan Dienstbier HODNOT. contact:

ODHADY NÁVRATOVÝCH HODNOT

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

ODHADY NÁVRATOVÝCH HODNOT PRO

PRAVDĚPODOBNOST A STATISTIKA

3. Mocninné a Taylorovy řady

Alternativní rozdělení. Alternativní rozdělení. Binomické rozdělení. Binomické rozdělení

Příklady: - počet členů dané domácnosti - počet zákazníků ve frontě - počet pokusů do padnutí čísla šest - životnost televizoru - věk člověka

χ 2 testy. Test nekorelovanosti.

f (k) (x 0 ) (x x 0 ) k, x (x 0 r, x 0 + r). k! f(x) = k=1 Řada se nazývá Taylorovou řadou funkce f v bodě x 0. Přehled některých Taylorových řad.

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Obsah přednášky. 1. Principy Meta-learningu 2. Bumping 3. Bagging 4. Stacking 5. Boosting 6. Shrnutí

Testování hypotéz. December 10, 2008

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Buckinghamův Π-teorém (viz Barenblatt, Scaling, 2003)

( ) Příklady na otočení. Předpoklady: Př. 1: Je dána kružnice k ( S ;5cm)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

6. T e s t o v á n í h y p o t é z

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Mendelova zemědělská a lesnická univerzita Provozně ekonomická fakulta. Výpočet charakteristik ze tříděných údajů Statistika I. protokol č.

MATEMATIKA II V PŘÍKLADECH

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

15. T e s t o v á n í h y p o t é z

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

1 Gaussova kvadratura

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Normální (Gaussovo) rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Budeme pokračovat v nahrazování funkce f(x) v okolí bodu a polynomy, tj. hledat vhodné konstanty c n tak, aby bylo pro malá x a. = f (a), f(x) f(a)

Závislost indexů C p,c pk na způsobu výpočtu směrodatné odchylky

Odhady Parametrů Lineární Regrese

15. T e s t o v á n í h y p o t é z

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Hodnocení přesnosti výsledků z metody FMECA

Konstrukce trojúhelníků II

MATEMATICKÁ STATISTIKA

3 Bodové odhady a jejich vlastnosti

Reprezentace přirozených čísel ve Fibonacciho soustavě František Maňák, FJFI ČVUT, 2005

MULTIKRITERIÁLNÍ ROZHODOVÁNÍ VEKTOROVÁ OPTIMALIZACE

6 5 = 0, = 0, = 0, = 0, 0032

(iv) D - vybíráme 2 koule a ty mají různou barvu.

Cvičení ze statistiky - 8. Filip Děchtěrenko

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Motivace. Náhodný pokus, náhodný n jev. pravděpodobnost. podobnostní charakteristiky diagnostických testů, Bayesův vzorec. Prof.RND. RND.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

7.3.9 Směrnicový tvar rovnice přímky

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Těleso na nakloněné rovině Dvě tělesa spojená tyčí Kyvadlo

Testy nezávislosti kardinálních veličin

Intervalové Odhady Parametrů II Testování Hypotéz

Pravděpodobnost a statistika

Testování statistických hypotéz

5. T e s t o v á n í h y p o t é z

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

NUMP403 (Pravděpodobnost a Matematická statistika I)

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Výběrové charakteristiky a jejich rozdělení

Úvod do Kalmanova filtru

3.3.4 Thaletova věta. Předpoklady:

Geometrická zobrazení

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Přednáška 6, 6. listopadu 2013

6. Měření Youngova modulu pružnosti v tahu a ve smyku

Charakteristika datového souboru

7.3.9 Směrnicový tvar rovnice přímky

9 Stupně vrcholů, Věta Havla-Hakimiho

Pravděpodobnost a statistika I KMA/K413

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Intervalové Odhady Parametrů

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Měření indukčností cívek

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

4. Přednáška: Kvazi-Newtonovské metody:

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA

Dynamika populací s oddělenými generacemi

Základy teorie pravděpodobnosti

TEPELNÁ ZÁTĚŽ, TEPLOTNÍ REKORDY A SDĚLOVACÍ PROSTŘEDKY

Reciprokou funkci znáte ze základní školy pod označením nepřímá úměra.

4 všechny koeficienty jsou záporné, nedochází k žádné změně. Rovnice tedy záporné reálné kořeny nemá.

5 Parametrické testy hypotéz

1.3.5 Kružnice, kruh. Předpoklady: Narýsuj bod S. Kružítkem narýsuj kružnici se středem v bodu S a poloměrem 3 cm.

MATEMATICKÁ STATISTIKA - XP01MST

INTEGRÁLY S PARAMETREM

Andrew Kozlík KA MFF UK

7. Analýza rozptylu.

Základním pojmem v kombinatorice je pojem (k-prvková) skupina, nebo také k-tice prvků, kde k je přirozené číslo.

Transkript:

ROBUST 2004 c JČMF 2004 TESTY A ODHADY PARETOVA INDEXU Jan Pice Klíčová slova: Paretův index, rozdělení extrémních hodnot, sféra přitažlivosti, Hillův odhad. Abstrat:Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličiny sdistribučnífuncí Fanechť M n =max(x 1,..., X n ).Provětšinuobvylých distribučníchfuncívhodněstandardizovanámaxima M n onvergujívdistribucirozděleníextrémníchhodnot G γ.podlehodnotshapeparametru γ rozlišujeme tři záladní třídy distribučních funcí: γ > 0 Fréchetova třída, γ =0Gumbelovaaγ <0Weibullova.Zhledisaextrémníchudálostí je především zajímává třída Fréchetova, γ se v tomto ontextu často nazývá Paretovým indexem. V příspěvu se proto budeme zabývat semiparametricýmiodhady γpředevšímprotutotříduatestyoγ,zvláštěsebude jednatotestyhypotézy γ=0protialternativě γ >0,tj.náhodnývýběrje z rozdělení, terý patří do Gumbelovy třídy proti alternativě, že rozdělení je z Fréchetovy třídy. 1 Úvod Nechť X 1, X 2,...jsounezávisléstejněrozdělenénáhodnéveličinysdistribučnífuncí F.Našepozornostvtomtočlánubudesoustředěnanaextremálníudálosti.Nechťtedy M n =max(x 1,..., X n ).Zřejmědistribuční funce M n je P(M n x)=p(x 1 x,..., X n x)=f n (x)s.j.. Jednodušejepotommožnéuázat,že M n x F s.j.pro n,de x F :=sup{x IR:F(x) <1}. Tato sutečnost nám neposytne příliš mnoho informace. Poud se inspirujeme centrální limitní větou, jistě je přirozené se zabývat standardizovanými maximy. Předpoládejme,žemůžemenajítposloupnostreálnýchčísel a n >0ab n ta,žeposloupnost(m n b n )/a n onvergujevdistribuci,t.j. P((M n b n )/a n x)=f n (a n x+b n ) G(x), n, (1) pro nějaou nedegenerovanou d.f. G(x) Jestliže podmína platí, říáme, že F je ve sféře přitažlivosti G(domain of attraction) F MDA(G). Přirozeně nás patrně napadnou otázy: ja vypadá G,jaépodmínymusí Fsplňovat,aby F MDA(G)ajavolit a n a b n.odpověďnatytozáladníotázymůžemenajítnapř.v[2].

276 Jan Pice Odpověď na první otázu známe už od rou 1928 Fisherova-Tippettova věta: Jestliže F MDA(G) potom G je typu jedné z následujících tří distribučních funcí: { 0, x 0 Fréchet Φ 1/γ (x)= exp ( x 1/γ), x >0 γ >0 { { } exp ( x) 1/γ, x 0 Weibull Ψ 1/γ (x)= 1 x >0 γ <0 Gumbel Λ(x)=exp( e x ), x IR. Po vhodné reparametrizaci můžeme tyto tři třídy charaterizovat jediným rozdělením zobecněnéným rozdělením extrémních hodnot(generalized Extreme Value Distribution) { ( ) exp (1+γx) 1/γ γ 0 G(x)=G γ (x)= exp( e x ) γ=0, de1+γx >0. Hodnota shape parametru γ > 0odpovídáFréchetovětřídě, γ =0 Gumbelově a γ < 0 Weibullově. Fisherova-Tippettova věta nám pa říá: jestliže vhodně standardizované maxima onvergují v distribuci nedegenerované limitě, potom limitní rozdělení musí být rozdělení extrémních hodnot. Poznamenejme, že G je určena jednoznačně až na parametr polohy a měříta. Je možné uázat, že v podstatě všechny běžně uvažované spojité rozdělení splňují podmínu(1). Nežsezaměřímenavolbu a n a b n připomeňmeněolipojmůzlasicé teorie extrémních událostí. Funce h(t)na(0, )jepravidelněseměnícífunce(regularlyvarying)v sindexem α IR(h R α ),jestliže h(xt) lim x h(x) = tα, t >0. Funce L(t)na(0, )jepomalu seměnící funce(slowlyvarying)v (L R 0 ),jestliže L(xt) lim =1, t >0. x L(x) V oblasti extrémních hodnot se často pracuje s vantilovou funcí chvostu ( U(t)=F 1 1 1 ) =inf{y:f(y) 1 1/t}, t >0. t Věta1.1.a) F MDA(G γ )právědyž U(tx) U(t) lim = xγ 1 t a(t) γ proaždé x >0, ajenějaáladnáfunceaγ IR, a n = a(n), b n = U(n).

Testy a odhady Paretova indexu 277 b) F MDA(G γ ), γ >0právědyž proaždé x >0sγ>0,tj. U R γ (a n = U(n)). Důazadetailynapř.vdeHaanL.(1970). U(tx) lim t U(t) = xγ (2) Další a často používá charaterizace Fréchetovy třídy: F MDA(G γ ), γ > 0právědyž1 F(x) R 1/γ,tj. chvost rozdělení Fjepravidelněseměnícífuncev sindexem 1/γ 1 F(x)=x 1/γ L(x). (3) Statisticou inferenci v extremální statistice můžeme založit na záladě limitního rozdělení, tj. na zobecněném rozdělením extrémních hodnot např. pomocí metody maximální věrohodnosti. Uazuje se, že onvergence je vša velmi pomalá, proto je nutné hledat alternativní přístupy. V následujícím textu uážeme něteré možné semiparametricé přístupy. 2 Testy Případ F MDA(G 0 )jezajímavýpromnohoapliací,terésezabývajíextrémy. Důvodem je nejen jednodušší inference založená na Gumbelově sféře přitažlivosti, ale taé široá paleta rozdělení s exponenciální chvosty. Jao zástupce jmenujme normální, lognormální a gamma rozdělení. Na druhé straně opravdu extrémní události jsou modelovány pomocí rozdělení z Fréchetovy třídy. Je tedy určitě v praxi užitečné rozhodnout do jaé třídy rozdělení našich dat patří. To znamená uvažovat následující test oboustranné hypotézy (respetive anologicý jednostranný test) F MDA(G 0 ) protialternativě F MDA(G γ ) γ 0. (4) Asi nejpoužívanější test pro tuto situaci navrhli Hasofer A.M. and Wang Z. v roce 1992. Najdeme ho implementovaného v řadě softwarů pro statistiu extrémních událostí. Test jao většina semiparametricých postupů je založen na největších pořádových statistiách: ( ) 2 X X n +1:n W = ( 1) ( ) 2, X := 1 i=1 Xn i+1:n X X n i+1:n. (5) HasoferaWanguázali,žetestovástatistia W máasymptoticynormální rozdělenísestředníhodnotou µ arozptylem σ 2 µ = 1 ( 1), σ2 = i=1 4( 2) ( 1) 2 1 (+1)(+2)

278 Jan Pice Kriticý obor pro oboustrannou alternativu je potom dán následovně W > u 1 α/2, de W :=(W µ )/σ a u ε je ε-vantilnormálníhorozdělení. Při praticém provádění testu jistě narazíme na problém, ja zvolit vhodné. Poud budeme zvyšovat, zvýšíme sílu testu, ale na druhé straně zvyšujícísepodíl /nmáneblahývlivnachybui.druhu.volbasepastává dojistémíry alchymií,nicméněvliteratuřeexistujídoporučení,např.boos navrhuje /n=0.2pro50 n 500a/n=0.1pro500 < n 5000,Galambosradívolit =2 n. PodobnýtyptestunavrhliC.Neves,J.PiceaM.I.FragaAlves(2005). Jao testovou statistiu uvažují T,n= 1 X n:n X n :n log. (6) (X n i+1:n X n :n ) i=1 Uázali,žetestovástatistia T,n zanulovéhypotézyonvergujegumbelovurozdělení G(x)=exp( e x )ažetestjeonzistentní.nulováhypotéza jetedyzamítnutanaasymptoticéhladině α (0,1)jestliže T,n < g α/2 nebo T,n > g 1 α/2, de g ε označuje ε-vantil Gumbelova rozdělení, tj. g ε = log( log ε). Jao poslední přístup pro test(4) uveďme poměrně nedávný přístup J. Segerse a J.Teugelse(2001). Vychází z poměru uvažovaném Galtonem(1902): G n = X n:n X n 2:n X n 1:n X n 2:n Náhodnývýběrorozsahu njerozdělendo msupin m i=1 n i= n.važdé je spočítán poměr ξ i = X(i) n i:n i X (i) n i 2:n i X (i) n i 1:n i X (i) n i 2:n i, 1,, m Podle Serflinga(1980), Segers a Teugels navrhují užít testovou statistiu ( S m = 5 m 2 6x T(ξ i )), T(x):=1 m (1+x) 2, (7) i=1 auazují,žezanulovéhypotézyonvergujeχ 2 1rozdělenípro m. Nulová hypotéza je tedy zamítnuta na asymptoticé hladině α, je-li S m > χ 2 1 (1 α),de χ2 1 (ε)označuje ε-vantil χ2 rozdělenís1st.vol.

Testy a odhady Paretova indexu 279 2.1 Numericá ilustrace Zusme ilustrovat chování výše uvedených testů na simulovaných datech a na jednom reálném příladu. Nejprve jsme uvažovali platnost nulové hypotézy(4), tj. jao zástupce z Gumbelovy sféry přitažlivosti jsme zvolili Gumbelovorozdělení F(x)=exp( e x ).Ztohotorozděleníjsmevygenerovali 1000 výběrorozsahu1000aprovedlivýšeuvedenétesty.naobr.1jsou zobrazeny výsledy ve formě relativního počtu zamítnutí nulové hypotézy na hladině α=0.05.testy(5)a(6)bylyprovedenypro =2,...,999(počet použitých nejvyšších pořádových statisti). Test(7) byl onstruován ta, ževýběrbylrozdělendo50(=m)bloůorozsahu20.obr.1vlastněilustrujeodhadchybyprvníhodruhu.jevidět,žeodhadtétochybyprotest (7) je praticy 0.05, poud přijmeme výše zmiňovaná doporučení pro volbu,potomtesty(5)a(6)majíodhadtaéblízý0.05.nicméněsezdá,že test(6)dovolívolitvětšírozsah anižbytomělovýraznývlivnachybui. druhu. Testovali jsme i jiná rozdělení z Gumbelovy sféry přitažlivosti i pro jiné rozsahy, charater řive byl podobný s jedinou výjimou a to exponenciálním rozdělením, pro teré odhad chyby prvního druhu byl stabilní(blízo hodnoty 0.05) praticy pro všechna možná. 0.0 0.2 0.4 0.6 0.8 1.0 0 200 400 600 800 1000 Obráze1:Relativnípočetzamítnutí H 0 nahladině α=0.05progumbelovo rozdělení, T,n (plnáčára), W (tečovaně), S 50 (čerchovaně). Jao další zástupce pro ilustraci bylo zvoleno zobecněné Paretovo rozdělení F γ (x):=1+log G γ (x)=1 (1+γx) 1 γ { x 0 jestliže γ 0 pro 0 x 1 γ jestliže γ <0

280 Jan Pice Toto rozdělení závisí na parametru γ. Podle jeho hodnoty patří rozdělení do jedné z uvažovaných tříd. Opět byl 1000 rát generován výběr o rozsahu 1000 pro hodnoty γ = 2.0,-1.5,-1.0,-0.5,-0.25,-0.1,-0.01, 0.01, 0.1, 0.25, 0.5, 1.0, 1.5, 2.0. Poud se opět zajímáme o relativní počet zamítnutí nulové hypotézy, pa v tomto ontextu dostáváme představu o síle testů. Naobr. 2vidímesrovnáníprovšechnytřitestyvzávislostina γdata. Testy(5)a(6)bylyprovedenypro =150,test(7)sm=50.Vevšechtřech případech ta bylo použito 150 hodnot(i dyž ne nutně stejných). 1 0.8 power 0.6 0.4 0.2 0-2 -1 0 1 2 gamma Obráze2:Sílatestu: T 150,n (plná), W 150(čerchovaná), S 50 (tečovaná)na hladině α=0.05prozobecněnépareto(γ= 2.0,-1.5,-1.0,-0.5,-0.25,-0.1, -0.01,0.01,0.1,0.25,0.5,1.0,1.5,2.0),rozsah n=1000. Vidíme,žezhledisasílytestusenejlépechovátest(5),trochuhůře(6) a nejslabší je test(7). Ten byl nejslabší ve všech případech, teré jsme zoumali.testy(5)a(6)sepřílišnelišilyazáviselonaonrétnívolbě,rozdělení a rozsahu. Doladem toho může být např. obr. 3, terý zobrazuje závislost sílytestu navolbě prozobecněnéparetorozdělenísγ=1.0 Co se týče asymptoticých vlastností a předpoladů všechny tři testy jsou rovnocenné, na druhou stranu vidíme, že poud máme i poměrně velý rozsahdat,rozdílynajítmůžeme.nejslabšímtestemsezdábýtdojistémíry(7). Test(5)jevpraxipatrněnejpoužívanější,alezdáse,že(6)jeplněsrovnatelný. Podívejmesetéžnatestynareálnýchdatech.Vposlednídoběsevede disuse, že počasí nabývá extrémního chování. Jedním z mnoha charateristi tohoto chování počasí mohou být např. extrémní srážy. V Česé Republice jsou dispozici data na řadě stanic od rou 1961. Extrémní srážy můžeme

Testy a odhady Paretova indexu 281 1 0.8 power 0.6 0.4 0.2 0 0 50 100 150 200 Obráze3:Sílatestu: T,n (plnáčára), W (čerchovaná), S 20 (tečovaná)na hladině α=0.05provzávislostina,rozsah n=200prozobecněnépareto rozdělenísγ=1.0(vpravo). 50 100 150 200 250 300 1961 1970 1980 1990 2000 Obráze 4: Maximální třídenní úhrny sráže v letech 1961-2000 ve Valašsém Meziříčí. třeba charaterizovat maximálními třídenními úhrny sráže v daném roce (taovétodatamělautordispozici).naobr.4vidímetytodataprostanici ve Valašsém Meziříčí. Velmi dobře je vidět výjimečný ro 1997, terý přinesl velé záplavy na Moravě. Je otázou pro další statisticé úvahy, jaý záladní model je pro tuto veličinu

282 Jan Pice (maximálními třídenními úhrny sráže v daném roce) vhodný, tj. Gumbelova nebo Fréchetova třída. Výsledy testů jsou graficy zobrazeny na obr. 5, de vodorovné čáry odpovídají příslušným 97.5%-ním vantilům pro oboustranný test. Vidíme, že zamítnutí nulové hypotézy je velmi problematicé, zamítáme pouzeprovětšíhodnoty atohlavnětestem(6),vidělijsmezesimulací,že větší nedávají dobré výsledy co se týče platnosti nulové hypotézy. Hlavnímproblémemtujevšavelmimalýpočetpozorování(n=40),terýje v apliacích týajících se extrému nedostatečný, ale bohužel v praxi častý. -4-2 0 2 4 6 0 10 20 30 40 Obráze5:SrážyveValašsémMeziříčí:Hodnoty T,40 (plná), W (tečovaná), S 8 (čerchovaná).vodorovnélinyoznačujípříslušnévantilyodpovídající α=0.05. Další testy, teré byly v poslední době onstruovány, uvažují hypotézy ohodnotáchparametru γ(ja těžé jsoutěžéchvosty)pro F MDA(G γ ), γ >0,viz[11],[16].OtěchtotestechbyloreferovánonaRobustu2000.Poud se budeme zabývat úvahami o hodnotách γ, pa mnohem bohatší je literatura věnovaná odhadům. Proto následující část tohoto příspěvu věnujeme právě jim. 3 Odhady Připomeňme,ževycházímeznáhodnéhovýběru X 1, X 2,...zrozdělenísneznámoudistribučnífuncí F.Poud F MDA(G γ ), γ >0,papatrně nejznámějšíodhadem γjehillůvodhadzrou1975[8]: H n ()= 1 1 log X (n i:n) log X (n :n). (8) i=0

Testy a odhady Paretova indexu 283 Uažme návrh jedné z možných cest jeho odvození. Vyjděme z charaterizace Fréchetovy třídy(2): U(tx) lim t U(t) = xγ,de U(t)=F 1 (1 1/t). Pozlogaritmovánídostanemelim t log U(t/x) log U(t)= γlog x. Výběrováverzevantilovéfuncechvostu U je U n (1/x)=Fn 1 (1 x)= X n(1 x),n,tj. U n ( n )=X n,na U n ( n x )=X n x,n.tedypro0<x<1je log X n x,n log X n,n = γlog x.potéintegrujme γ= γ 1 0 log xdx= lim Dostaneme ta možný odhad γ H n () = 1 0 1 t 1 0 {logu(t/x) log U(t)} dx. (log X n x,n log X n,n ) dx = 1 log X (n i:n) log X (n :n) i=0 Hillův odhad je onzistentní, tvrzení najdeme např. v[13]. Věta 3.1. Je-li F MDA(G γ ), γ >0,potom H n () γvpravděpodobnosti, =(n), (n)/n 0(n ). Poud nás zajímá asymptoticé rozdělení odhadu, musíme lást další podmíny na distribuční funci, abychom byli schopní ho odvodit. Nejčastěji se uvažuje následující podmína(regular variation of second order): Nechť existuje A(t) funce onstantního znaména a parametr ρ lim t U(tx) U(t) xγ A(t) = x γ xρ 1 ρ (9) provšechna x >0. Věta 3.2. Nechť podmína(9) platí a nechť posloupnost = (n) je taová, že (n) a A(n/) 0,potom (Hn () γ) jeasymptoticynormálnísnulovoustředníhodnotouarozptylem γ 2.

284 Jan Pice (( M() (1) ) 2 ) 1, (10) M()=1+M() (1) + 1 2 M() (2) 1 de M() (j) = 1 ( ) j log X(Nn i+1:nn) log X (Nn :Nn). i=1 Alternativou momentového odhadu je Picandsův odhad[17] P()= 1 ( ) log2 log XNn +1:Nn X Nn 2+1:Nn. (11) X Nn 2+1:Nn X Nn 4+1:Nn Výše uvedené odhady jsou patrně nejznámější, v literatuře existuje obrovsé množství dalších odhadů: různá zobecnění Hillova odhadu, odhady založené naparametrudruhéhořádu ρ,viz(9)amnohoamnohodalšíchalternativ. Uveďmealespoňjedenpřílad,terývycházíz(9)auvažuje,že ρ= 1. NavrhlihoGomesaMartinvroce2002,viz[9]. GM()= 1 U i i=1 ( 1 i=1 ) i=1 iu (2i 1)U i i i=1 i(2i 1)U, i [ U i = i log X ] Nn i+1:nn, (12) X Nn i:nn Stejně jao u testů je problém volby, lze řešit podobnými doporučeními nebo se uvažují postupy založené na bootstrapu- viz např.[10]. Pouduvažujeme F MDA(G γ ), γlibovolné,palze analogicyodvodit Momentovýodhad[1] Poudsepodívámedodomácíchluhůahájů,taitadynajdemepříspěveeonstruciodhadůparametru γzapodmíny F MDA(G γ ), γ >0. Tyto odhady nejsou založeny přímo na pořádových statistiách na rozdíl od předcházejících. Vychází se opět z určité charaterizace Fréchetovy třídy: log(1 F(a)) lim =1. (13) a mloga Apliací l Hospitalova pravidla z von Mises podmíne(viz Embrechts a ol., Kap.3),dostaneme,že1 F(x) = x m L(x),cožjecharaterizaceuvedená v(3). Platí i opačná impliace. Principem spočívá v rozdělení výběru do supin, v aždé je spočtena nějaá jednoduchá statistia. Výsledný odhad je onstruován na záladě empiricé distribuční funce sledované statistiy.

Testy a odhady Paretova indexu 285 O prvním typu odhadu referovala na Robustu 2000 A. Fialová: Rozdělíme pozorování do N nepřerývajících se výběrů rozsahu n a určíme zde průměry ( X n (1),..., X n (N) ). Dostaneme pa náhodný výběr z rozdělení s distribuční (N) funcí F Xn (x)=ip( X n x).označíme F X n (x) = 1 N (j) N j=1 I[ X n x] empiricoudistribučnífuncízaloženouna( X n (1),..., X n (N) ). Vyberme posloupnost {a N } N=1, a N pro N vetvaru a N = N 1 δ m 0,spevným δ (0,1). Odhadparametru m=1/γjepotom de m N = m N (a N )I[0 < F (N) X n (a N ) <1]+m 0 I[ F (N) X n (a N )=0 nebo1], (14) m N (a)= ( ) (N) log 1 F X n (a), a >0. log a Odhad(14) je onzistentní a jeho asymptoticé rozdělení je normální, viz následující věty. Věta3.3. Nechť {X 1, X 2,...}jeposloupnostnezávislýchstejněrozdělených náhodnýchveličinsdistribučnífuncí F MDA(G γ ), γ >0ahustotou f(x)=0pro x <0a0 < f(x) < for x K f 0.Nechť m N jeodhad m. Potom m N m spravděpodobností 1, pro N. Věta 3.4. Za podmíne předcházející věty posloupnost ( )1 1 N 1 2 log F Xn (a N ) ( m 2 an N m+ log ) L (a N ) F Xn (a N ) log a N je asymptoticy normální N. Důazyobouvětlzenaléztv[4].NarozdílodHillova(aidalšíchvýše zmíněných) odhadů je asymptoticé rozdělení odvozeno za mnohem slabších předpoladů.bohuželvýsledevěty3.4obsahujepomaluměnícísefunci L, terou zpravidla neznáme, není proto možné jednoduše výsledu využít např. pro onstruci intervalových odhadů. Pro tento odhad musíme zvolit δ, což je vlastně podobná úloha jao je určení vhodného pro předcházející odhady, navícje všanutné zvolit m 0,cožvyžadujenějaoupočáteční informaci otom,jachvostrozdělenímůžebýt těžý.toponěudomezujeužití odhadu pro praticé problémy. Ilustrujme na simulovaných datech na chování odhadu právě v závislosti navolbě δ a m 0.JaomodeldatpoužijemeParetovorozdělení,teréje jedním z typicy používaných rozdělení pro popis extrémních událostí: ( ) 1/γ 1 F(x)=1, x 0 (15) 1+x

286 Jan Pice KonrétněbylasimulaceprovedenaproParetovorozdělenísγ=1,cožje i hodnota, terou chceme odhadnout. Výslede můžeme vidět na obr. 6, zteréhovyplývá,žepoudjezhruba δ <0.4jeodhadpoměrněstabilnía rozumný. Pro velé hodnoty δ odhad naprosto selhává. Zároveň je vidět, že čímhoršímámeapriorníinformaciosprávnéhodnotě γ=1/m,tímdostaneme horší výslede. estimate 0.0 0.2 0.4 0.6 0.8 1.0 1.2 99% 75% 50% 25% 1% estimate 0.0 0.2 0.4 0.6 0.8 1.0 1.2 99% 75% 50% 25% 1% 0.0 0.2 0.4 0.6 0.8 1.0 1 2 3 4 5 6 delta m_0 Obráze 6: Závislost odhadu v 1000 simulovaných výběrech Paretova rozdělenísγ =1naparametru δprodané m 0 =1.5(vlevo)závislosthodnot odhadunaparametru m 0 pro δ=0.1(vpravo).uvedenyjsoumedián1,25, 75 a 99 percentily. Jurečová, Pice(2004) navrhli odhad vycházející z postupů pro testování hypotézyohodnotáchparametru γ pro F MDA(G γ ), γ > 0.Krátá poznáma o nich byla v předcházející apitole. Invertováním těchto testů (v duchu způsobu, terý užil Hodges a Lehmann v roce 1963) dostaneme odhad M N = 1 2 (M+ N + M N ), de M N =sup{s: 1 ˆF N (a N,s)) < N (1 δ) }, M + N =inf{s: 1 ˆF N (a N,s)) > N (1 δ) }. X (1) (n),...,x(n) (n) jsou odpovídající výběrová maxima N supin o rozsahu n, terévznilyrozdělenímpůvodníhonáhodnéhovýběru.jaoˆf N označujeme empiricoudistribučnífunciodpovídajícívýběrovýmmaximům, a N,m = (nn 1 δ ) 1/m,de0 < δ < 1 2 jeonstanta. Ilustrujme podobně jao u předcházejícího odhadu chování v závislosti na volbě δ. Jao model dat tentoráte použijeme Burrovo rozdělení, teré je dalším typicy používaným rozdělením pro popis extrémních událostí: ( F(x)=1 1 1+x 1/γ ) α, x 0 (16) KonrétněbylasimulaceprovedenaproBurrovorozdělenísγ=1, α=1, jedniča je opět hodnota, terou chceme odhadnout. Výslede můžeme vidět

Testy a odhady Paretova indexu 287 naobr.7,zteréhovyplývá,želepšívýslededostaneme,poudje δblízé 0.5. Neplatí to obecně, pro jiná rozdělení to může dopadne úplně opačně. Na druhou stranu volba δ není ta problematicá jao volba u Hillova odhadu, vizobr.8,denastejnýchdatechjespočítánhillůvodhad. odhad 0.9 1.0 1.1 1.2 1.3 5% 25% 50% 75% 95% 0.0 0.1 0.2 0.3 0.4 0.5 delta Obráze 7: Závislost odhadu v 1000 simulovaných výběrech Burrova rozdělení s γ=1, α=1naparametru δ.uvedenyjsoumedián5,25,75a95percentily. odhad 0.4 0.6 0.8 1.0 1.2 1.4 1.6 5% 25% 50% 75% 95% 0 100 200 300 400 500 Obráze 8: Hillův odhad v 1000 simulovaných výběrech o rozsahu 1000 v závislostina proburrovorozdělenísγ=1, α=1.uvedenyjsoumedián5, 25,75a95percentily.

288 Jan Pice Jurečová a Pice uázali v[12], že odhad je silně onzistentní. Asymptoticou normalitu odvodil Omela[15]. Odhad(16) potřebuje pouze volbu δ, což ho činí použitelnějším než odhad(14). I simulace dávájí poměrně dobré výsledy- viz dále, přesto vša musíme být v praticých apliacích velmi opatrní. Oba odhady nejsou invariatní vzhledem e změně měříta na rozdíl od odhadu Hillova(8), Picandsonova(11), momentového(10) i(12). Všechny zmíněné odhady nejsou invaritní vzhledem e změně polohy. Při mechanicémpoužitíodhadůtopotommůževést zajímavým výsledům. Byly proto uvažovány něteré modifiace Hillova odhadu, viz např.[3]. Nějaé poznámy, ja se s naznačeným problémem vypořádat pro odhad(16) učinil Omela[15]. 3.1 Numericá ilustrace V této části zusíme porovnat zmiňované odhady na simulovaných datech. Jao výchozí model použijeme dříve zmiňovaná rozdělení: Paretovo, Burrovo a zobecněné Paretovo. U všech tří rozdělení zvolíme shape parametr(γ = 1/m=1)ta,abychvostybyly stejnětěžé amohlitasledovatvliv rozdělení. U zobecněného Paretova zvolíme ještě další dvě hodnoty γ: 1/3 lehčía2 těžšíchvost. Zdanéhorozděleníjsmevygenerovali1000 výběrorozsahu1000aprovedli výše zmíněné odhady. Odhady(8),(11),(10) a(12) jsme spočítali pro =2,...,998.Proodhady(14)a(16)jsmeprovedlirozdělenído200supin (= N)po5hodnotách(= n)aspočítaliodhadpro δ=0.01,...,0.50sroem0.01,navícpro(14)za m 0 jsmezvolili sutečné 1/γ+1.Zaúčelem porovnání jsme pro aždé, respetive δ spočetli střední vadraticou chybu (MSE)avybralitaovouhodnotu (δ),dyjemseminimálníaspočítali nějaé výběrové charateristiy z tisíce zísaných hodnot odhadů. Výsledy najdemevtabulce1.odhad(14)jevníoznačenjaofjpa(16)jaojp. Tučně je zvýrazněna pro dané rozdělení minimální MSE mezi odhady. Můžeme si všimnout, že pro opravdu těžé chvosty, tj. pro všechny případy romě zobecněného Paretova rozdělení s γ = 1/3, dávají všechny odhady v průměru rozumné výsledy. Nejslabší se přesto zdá být odhad(14) a protože byly už něteré výhrady disutovány dříve, nelze ho doporučit pro praticé úlohy. Naopa odhad(16) je srovnatelný s lasicými, navíc pro lehčí chvosty dává často rozumnější výsledy než lasicé odhady. Zdá se tedy, že s ním lze pracovat minimálně jao vhodnou alternativou. Ztabulyjedálevidětadalšísimulaceprojinépřípadyarozdělenítojen potvrzují, že index lehčích chvostů se odhaduje mnohem hůře. Převapující je výslede Picandsova odhadu(alespoň pro autora tohoto příspěvu), protože tentoodhadbymělfungovatproodhadnejenvefréchetovětřídě,aleipro GumbelovuaWeibullovusférupřitažlivosti,tedyipro lehé chvosty.

Testy a odhady Paretova indexu 289 rozdělení metoda, δ MSE průměr medián rozptyl Pareto Hill = 998 0.0010 1.0003 0.9984 0.0010 γ=1 Moment =998 0.0023 1.0053 1.0033 0.0022 Picands = 985 0.0221 1.0177 0.9967 0.0218 Gomes = 997 0.0044 1.0016 0.9968 0.0044 FJP δ = 0.15 0.0123 0.9542 0.9371 0.0102 JP δ = 0.49 0.0147 1.0435 1.0427 0.0128 Burr Hill = 112 0.0098 0.9517 0.9489 0.0075 α=1 Moment =257 0.0101 0.9478 0.9383 0.0074 γ=1 Picands =985 0.0221 1.0177 0.9967 0.0218 Gomes = 998 0.0012 1.0007 0.9989 0.0012 FJP δ = 0.22 0.0111 0.9574 0.9402 0.0093 JP δ = 0.49 0.0047 1.0226 1.0192 0.0042 zobec. Hill = 310 0.0010 0.4847 0.4841 0.0007 Pareto Moment = 367 0.0010 0.4880 0.4863 0.0009 γ=2 Picands =993 0.0020 0.5030 0.4997 0.0020 β=1 Gomes = 482 0.0025 0.5227 0.5210 0.0020 FJP δ = 0.01 0.0084 0.4177 0.4123 0.0016 JP δ = 0.45 0.0042 0.5519 0.5491 0.0015 zobec. Hill = 112 0.0098 0.9517 0.9489 0.0075 Pareto Moment = 257 0.0101 0.9478 0.9383 0.0074 γ=1 Picands =985 0.0221 1.0177 0.9967 0.0218 β = 1 Gomes = 998 0.0012 1.0007 0.9989 0.0012 FJP δ = 0.22 0.0111 0.9574 0.9402 0.0093 JP δ = 0.49 0.0047 1.0226 1.0192 0.0042 zobec. Hill = 23 0.5527 2.4329 2.3598 0.2314 Pareto Moment = 257 0.5037 2.5140 2.4248 0.2678 γ=1/3 Picands =890 16.1112 3.6237 3.0364 15.7379 β = 1 Gomes = 102 0.4795 2.4276 2.4020 0.1520 FJP δ = 0.01 0.2869 2.5618 2.5565 0.0949 JP δ = 0.11 0.1166 2.8500 2.8384 0.0942 Tabula 1: Výběrové charateristiy odhadů Paretova indexu pro minimální MSE při 1000 opaování generování dat rozsahu 1000 pro různá rozdělení. Reference [1] Deers A.L.M, Einmahl J.H.J., de Haan L.(1989). A moment estimator for the index of an extreme value distribution. Ann. Statist. 17, 1833-1855. [2] Embrechts P., Klüppelberg C., Miosch T.(1997). Modelling extremal events for insurance and finance. Springer-Verlag, Berlin.

290 Jan Pice [3] Fraga Alves M.I.(2001). A location invariant Hill-type estimator. Extremes,4(2),165 183. [4] Fialová A., Jurečová J., Pice J.(2004). Estimation of tail index based onsamplemean.revstat,2,75 99. [5]deHaanL.(1970).Onregularvariationanditsapplicationtothewea convergence of sample extremes. Mathematical Centre Tract 32, Amsterdam. [6] de Hann L., Stadtmüller U.(1996). Generalized regular variation of second order. J.Austral.Math.Soc.(A) 61, 381 395. [7]HasoferA.M.,WangZ.(1992).Atestforextremevaluedomainofattraction.JASA,87,171 177. [8]HillB.M.(1975).Asimplegeneralapproachtoinferenceaboutthetailof a distribution. Ann. Statist. 3, 1163 1174. [9] Gomes M.I., Martins M.J.(2002). Asymptotically unbiased estimators of the tail indexbased onthe externalestimation of thesecond order parameter.extremes5(1),5 31. [10] Gomez I., Oliviera O.(2001). The bootstrap methodology in statistics of extremes-choice of the optimal sample fraction. Extremes 4(4), 331 358. [11]JurečováJ.,PiceJ.(2001).Aclassoftestsonthetailindex.Extremes, 4,(2),165 183. [12]JurečováJ.,PiceJ.(2004).Estimatesofthetailindexbasedonnonparametric tests. Theory and Applications of Recent Robust Methods, Birhauser, Basel, 141 152. [13] Mason D.M.(1982). Laws of large numbers for sums of extreme values. Ann.Probab.10,754 764. [14]NevesC.,PiceJ.,FragaAlvesM.I.(2005).Thecontributionofthe maximum to the sum of excesses for testing max-domains of attractions. J. Statist. Planning Infer., v tisu. [15] Omela M.(2005). Asymptotic normality of the estimates of the tail index based on nonparametric tests. Zasláno. [16]PiceJ.,JurečováJ.(2001).Aclassoftestsonthetailindexusingthe modified extreme regression quantiles. Sborní onference ROBUST 00 (J.Antoch, G.Dohnal, eds.), JČMF Praha, 217 226. [17] Picands J.(1975). Statistical inference using extreme order statistics. Ann.Statist. 3, 119 131. [18] Segers J., Teugels J.(2001). Testing the Gumbel hypothesis by Galton s ratio. Extremes, 3:3, 291 303. Poděování: Příspěve vznil za podpory Grantové agentury AV ČR projet B3042303 a výzumného záměru MSM4674788501. Adresa: J. Pice, Katedra apliované matematiy, Technicá univerzita v Liberci, Hálova 6, 461 17 Liberec E-mail: jan.pice@vslib.cz