MODELOVÁNÍ CHVOSTŮ TEORIE EXTRÉMNÍCH HODNOT ODHADY PARETOVA INDEXU Jan Dienstbier contact: dienstbi@karlin.mff.cuni.cz Univerzita Karlova MFF UK - KPMS Praha KPMS, 31.10. 2007
MODELOVÁNÍ CHVOSTŮ JAK TO NEJDE. Necht X 1,X 2,... jsou i.i.d. F X (n) = M n := max(x 1,...,X n ) X (n) = M n???
MODELOVÁNÍ CHVOSTŮ JAK TO NEJDE. Necht X 1,X 2,... jsou i.i.d. F X (n) = M n := max(x 1,...,X n ) X (n) = M n??? Ovšem P(X (n) x) = P(X 1 x,...,x n x) = F n (x), s.j. A ještě k tomu X (n) x F s.j. pro n, kde F (1) := sup {x R : F(x) < 1}
ZNOVU A LÉPE EXTRÉMY PŘES PRÁH zkoumat raději excess over high threshold t < F (1) kde P(X t x X > t) = F(t + x), F(t) F(t) := 1 F(t). Zajímá nás práh na levém okolí pravého bodu bod useknutí t F (1),
ZNOVU A LÉPE EXTRÉMY PŘES PRÁH zkoumat raději excess over high threshold t < F (1) kde P(X t x X > t) = F(t + x), F(t) F(t) := 1 F(t). Zajímá nás práh na levém okolí pravého bodu bod useknutí t F (1), Stále ale když F (1) <, tak F (1) t 0, pokud t F (1).
ZNOVU A LÉPE EXTRÉMY PŘES PRÁH zkoumat raději excess over high threshold t < F (1) kde P(X t x X > t) = F(t + x), F(t) F(t) := 1 F(t). Zajímá nás práh na levém okolí pravého bodu bod useknutí t F (1), Stále ale když F (1) <, tak F (1) t 0, pokud t F (1). Čili hodí se standartizovat ( ) X t P x a(t) X > t F(t + a(t)x) = F(t) nějakou normalizační funkcí a > 0.
VĚTA FISHER-TIPPET-GŇEDENKO THEOREM Pokud P ( X t a(t) ) x X > t pak (až na měřítko) pro nějaké γ R t F (1) H(x) slabě, (1) H(x) = H γ (x) = 1 (1 + γx) 1/γ, x 0,1 + γx > 0 H 0 (x) = 1 exp( x) H γ zobecněné Paretovo rozdělení generalized Pareto distribution γ Paretův index extreme value index (EVI) podmínka (1) je nazývána MDA(H γ ) maximum domain of attraction sféra přitažlivosti
NÁSTIN DŮKAZU 1 V F(t+a(t)x) F(t) H(x) substituujeme t + a(t)y) za t
NÁSTIN DŮKAZU 1 V F(t+a(t)x) F(t) 2 Pak H(x) substituujeme t + a(t)y) za t F(t + a(t)y + a(t + a(t)y)x) F(t) = F(t + a(t)y + a(t + a(t)y)x) F(t + a(t)y H(x) H(y) F(t + a(t)y) F(t)
NÁSTIN DŮKAZU 1 V F(t+a(t)x) F(t) 2 Pak H(x) substituujeme t + a(t)y) za t F(t + a(t)y + a(t + a(t)y)x) F(t) = F(t + a(t)y + a(t + a(t)y)x) F(t + a(t)y H(x) H(y) F(t + a(t)y) F(t) 3 Zvolme posloupnost hodnot t F (1) a a(t + a(t))/a(t) A y (0, ). Pak (ze spojitosti F ) F (t + a(t)(y + a(t + a(t)y)/a(t)x)) F(t) H(y + A y x)
NÁSTIN DŮKAZU 1 V F(t+a(t)x) F(t) 2 Pak H(x) substituujeme t + a(t)y) za t F(t + a(t)y + a(t + a(t)y)x) F(t) = F(t + a(t)y + a(t + a(t)y)x) F(t + a(t)y H(x) H(y) F(t + a(t)y) F(t) 3 Zvolme posloupnost hodnot t F (1) a a(t + a(t))/a(t) A y (0, ). Pak (ze spojitosti F ) F (t + a(t)(y + a(t + a(t)y)/a(t)x)) F(t) H(y + A y x) 4 Lze ukázat, že funkcionální rovnice H(y + A y x) = G(x) Hy má pouze jediné řešení.
VHODNÁ APROXIMACE PRO MAXIMA Necht X i jsou i.i.d a M n := max 1 i n X i.
VHODNÁ APROXIMACE PRO MAXIMA Necht X i jsou i.i.d a M n := max 1 i n X i. { } Mn d n P x = F n (c n x + d n ) t G(x) c n nlog(1 F(c n x + d n )) log G(x) nf(c n x + d n ) log G(x)
VHODNÁ APROXIMACE PRO MAXIMA Necht X i jsou i.i.d a M n := max 1 i n X i. { } Mn d n P x = F n (c n x + d n ) t G(x) c n nlog(1 F(c n x + d n )) log G(x) nf(c n x + d n ) log G(x) Protože limita je dána až na měřítko a posunutí lze BÚNO definovat a tedy log G(0) = 1 F(d n ) 1/n F(c n x + d n ) F(d n ) log G(x)
VHODNÁ APROXIMACE PRO MAXIMA Necht X i jsou i.i.d a M n := max 1 i n X i. { } Mn d n P x = F n (c n x + d n ) t G(x) c n nlog(1 F(c n x + d n )) log G(x) nf(c n x + d n ) log G(x) Protože limita je dána až na měřítko a posunutí lze BÚNO definovat a tedy log G(0) = 1 F(d n ) 1/n F(c n x + d n ) F(d n ) log G(x) t.j. vezmeme-li t = d n a a(t) = c n dostáváme log G = H.
FISHER-TIPPET-GŇEDENKOVA VĚTA PRO MAXIMA Pokud (slabě) konverguje { Mn d n P c n } x G(x), Pak až na parametr měřítka a posunutí platí pro nějaké γ R ( G(x) = G γ (x) = exp (1 + γx) 1/γ), pro1 + γx > 0 Pro γ = 0 to definujeme limitou jako G 0 (x) = exp ( e x), x R
FISHER-TIPPET-GŇEDENKOVA VĚTA PRO MAXIMA Pokud (slabě) konverguje { Mn d n P c n } x G(x), Pak až na parametr měřítka a posunutí platí pro nějaké γ R ( G(x) = G γ (x) = exp (1 + γx) 1/γ), pro1 + γx > 0 Pro γ = 0 to definujeme limitou jako G 0 (x) = exp ( e x), x R F náleží do sféry přitažlivosti extremálního rozdělení G, F MDA(G) maximum domain of attraction G γ zobecněné extremální rozdělení generalized extreme value distribution (GEV)
KLASICKÁ PARAMETRICE SFÉR PŘITAŽLIVOSTI Klasicky rozlišujeme extremální rozdělení na základě indexu γ v závislosti na γ <,=,> 0.
KLASICKÁ PARAMETRICE SFÉR PŘITAŽLIVOSTI Klasicky rozlišujeme extremální rozdělení na základě indexu γ v závislosti na γ <,=,> 0. Pro GEV: γ > 0 : Φ 1/γ := exp( x 1/γ ) = G γ ((x 1)/γ) Fréchet γ < 0 : Ψ 1/ γ (x) := exp( x 1/γ ) = G γ ((x 1)/ γ ) Weibull γ = 0 : Γ(x) := exp( e x ) = G 0 (x) Gumbel
KLASICKÁ PARAMETRICE SFÉR PŘITAŽLIVOSTI Klasicky rozlišujeme extremální rozdělení na základě indexu γ v závislosti na γ <,=,> 0. Pro GEV: γ > 0 : Φ 1/γ := exp( x 1/γ ) = G γ ((x 1)/γ) Fréchet γ < 0 : Ψ 1/ γ (x) := exp( x 1/γ ) = G γ ((x 1)/ γ ) Weibull γ = 0 : Γ(x) := exp( e x ) = G 0 (x) Gumbel A podobně pro GPD: γ > 0 : 1 + log Φ 1/γ := 1 x 1/γ = H γ ((x 1)/γ) Paretovo γ < 0 : 1 + log Ψ 1/ γ (x) := 1 x 1/γ = H γ ((x 1)/ γ ) beta γ = 0 : 1 + log Γ(x) := 1 e x = H 0 (x) exponenciální
JEDEN UŽITEČNÝ POJEM fce h(t) na (0, ) je pravidelně se měnící (regularly varying) v s indexem α R (f RV α ), pokud h(xt) lim x h(x) = tα, t > 0 fce L(t) na (0, ) je pomalu se měnící (slowly varying) v (f RV 0 ), pokud L(xt) lim x L(x) = 1, t > 0
JEDEN UŽITEČNÝ POJEM fce h(t) na (0, ) je pravidelně se měnící (regularly varying) v s indexem α R (f RV α ), pokud h(xt) lim x h(x) = tα, t > 0 fce L(t) na (0, ) je pomalu se měnící (slowly varying) v (f RV 0 ), pokud L(xt) lim x L(x) = 1, t > 0 Definujme dále tzv. kvantilovou funkci chvostu jako ( Q(t) := F 1 1 ) t
CHARAKTERIZACE CHVOSTŮ... Invertováním a úpravou konvergence F(u + a(u)x) F(u) dostáváme následující zajímavá fakta 1 F MDA(G γ ) právě když H γ (x) Q(tx) Q(t) lim = xγ 1 t a(t) γ x > 0, kde a je opět nějaká kladná funkce a γ R 2 F MDA(G γ ), γ > 0 právě když x > 0 s γ > 0, tj. Q RV γ Q(tx) lim t Q(t) = xγ 3 Podobně F MDA(G γ ), γ > 0 právě když F RV 1/γ, tj. F = x 1/γ L(x)
ODHADUJEME γ Mějme X i, 1 i n, i.i.d F MDA(G γ ) 1 standartizovaná maxima konvergují k nedegenerované limitě právě tehdy pokud podmíněné rozdělení přesahů konverguje k nedegenerované limitě, γ má tak právě hned dvě různé interpretace 2... a tak i dva možné přístupy, jak γ odhadovat 3 γ závisí pouze na chování F poblíž F (1) 4... a tak jsou nám k něčemu pouze velká pozorování
ODHADUJEME γ Mějme X i, 1 i n, i.i.d F MDA(G γ ) 1 standartizovaná maxima konvergují k nedegenerované limitě právě tehdy pokud podmíněné rozdělení přesahů konverguje k nedegenerované limitě, γ má tak právě hned dvě různé interpretace 2... a tak i dva možné přístupy, jak γ odhadovat 3 γ závisí pouze na chování F poblíž F (1) 4... a tak jsou nám k něčemu pouze velká pozorování Různé interpretace, co je velké bloková maxima několika po sobě následujících bloků, do kterých je soubor pozorování rozdělen velká pozorování, přesahující daný práh (excesses over high threshold)
NĚJAKÝ TEN ODHAD HILLŮV ODHAD Předpokládejme, že F MDA(G γ ) a γ > 0. Pak odtud Q(tx) Q(t) xγ F (1 tx) F (1 t) x γ 1 0 log F (1 tx) F dx γ (1 t) 1 0 log xdx = γ Po nahrazení F empirickou verzí F t s k/n dostáváme ˆγ H n,k := 1 k k i=1 log X n i+1:n X n k:n Hillův odhad Pro jeho konzistenci je nutné předpokládat k = k n a k/n 0.
ASYMPTOTIKA HILLOVA ODHADU Pro jednoduchost předpokládejme pro nějaké ρ > 0. Pak F (1 t) = ct γ (1 + O(t ρ )) F (1 tx) F (1 t) = x γ + O(t ρ ), t 0
ASYMPTOTIKA HILLOVA ODHADU Pro jednoduchost předpokládejme pro nějaké ρ > 0. Pak F (1 t) = ct γ (1 + O(t ρ )) F (1 tx) F (1 t) = x γ + O(t ρ ), t 0 a využijme fakt, že máme-li i.i.d. veličiny z rovnoměrného rozdělení na [0,1] U i U[0,1] platí v distribuci (X n i+1:n ) 1 i k+1 = (F (1 U i:n ) 1 i k+1, což se hodí k použití ve známé větě (Donsker) ( k 1/2 n ) k U kx :n x (W(x)) 0<x x0 slabě 0<x x 0 Takže pro vhodnou verzi Hillova odhadu dostaneme...
ASYMPTOTIKA HILLOVA ODHADU PODRUHÉ! k 1/2 (ˆγ H n,k γ) = kde platí ( log x γ F ) (1 U kx :n ) F (1 U k+1:n 1 0 ( k 1/2 log x γ F ) (1 U kx :n ) F, (1 U k+1:n ( ( ) γ U kx :n = log + O ( U ρ ) ) k+1:n xu k+1:n ( ( )) W(x) = γ log 1 + k 1/2 W(1) + O((k/n) ρ ) + o(k 1/2 ) x ( ) W(x) = k 1/2 γ W(1) + O((k/n) ρ ) + o(k 1/2 ) x A protože 1 W(x)/x W(1)dx N(0,1) 0 k 1/2 (γ H n,k γ) N(0,γ 2 ) ( 2ρ/(2ρ+1) ) KPMS 1/2 Jan Dienstbier ρ Modelování chvostů odhady Paretova indexu 31.10. 2007
ASYMPTOTIKA HILLOVA ODHADU POTŘETÍ! k 1/2 (γ H n,k γ) N(0,γ 2 )... ovšem za podmínky k 1/2 (k/n) ρ 0, tj. k = o ( n 2ρ/(2ρ+1)).
ASYMPTOTIKA HILLOVA ODHADU POČTVRTÉ! Pokud navíc F patří do tzv. Hallovou třídou tj. F (1 t) = ct γ (1 + dt ρ + o(t ρ )) pro nějaká c,ρ > 0, d R, pak k 1/2 (ˆγ n,k H γ ) 1 = d γ = γ 0 1 0 W(x) x W(x) x W(1)dx + k 1/2 1 W(1)dx k 1/2 ( k n 0 (( ) ρ k d n x k ρ ) dx n ) ρ d ρ ρ + 1 + o(1 + k1/2 (k/n) ρ )
ASYMPTOTIKA HILLOVA ODHADU SHRNUTÍ Pokud 1 k = o(n 2ρ/(2ρ+1) ) pak k 1/2 (ˆγ H n,k γ ) N(0,γ 2 )
ASYMPTOTIKA HILLOVA ODHADU SHRNUTÍ Pokud 1 k = o(n 2ρ/(2ρ+1) ) pak k 1/2 (ˆγ n,k H γ ) N(0,γ 2 ) 2 k λo(n 2ρ/(2ρ+1) ) pak k 1/2 (ˆγ n,k H γ ) N ( λ ρ+1/2 dρ/(ρ + 1),γ 2) A tedy ( n k ) ρ k 1/2 (ˆγ H n,k γ ) d ρ ρ + 1 pokud n 2ρ/(2ρ+1) = o(k), k = o(n) Optimální rychlost konvergence n ρ/(2ρ+1) dosahujeme pro k λn 2ρ/(2ρ+1).
ASYMPTOTIKA HILLOVA ODHADU SHRNUTÍ Pokud 1 k = o(n 2ρ/(2ρ+1) ) pak k 1/2 (ˆγ n,k H γ ) N(0,γ 2 ) 2 k λo(n 2ρ/(2ρ+1) ) pak k 1/2 (ˆγ n,k H γ ) N ( λ ρ+1/2 dρ/(ρ + 1),γ 2) A tedy ( n k ) ρ k 1/2 (ˆγ H n,k γ ) d ρ ρ + 1 pokud n 2ρ/(2ρ+1) = o(k), k = o(n) Optimální rychlost konvergence n ρ/(2ρ+1) dosahujeme pro k λn 2ρ/(2ρ+1). λ lze získat minimalizací AMSE
CO ZNAMENAJÍ PŘEDCHOZÍ VÝSLEDKY PRO PRAXI Hill plot for t_2 H_k,1000 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0 50 100 150 200 250 300 k rozptyl bude malý, pokud vezmeme k velké vychýlení bude malé jen, pokud vezmeme k malé