ODHADY NÁVRATOVÝCH HODNOT PRO SRÁŽKOVÁ A TEPLOTNÍ DATA Katedra aplikované matematiky Fakulta přírodovědně-humanitní a pedagogická Technická univerzita v Liberci Novohradské statistické dny
ÚVOD Velká pozornost v analýze extrémních dat (např. záplavy) je věnována odhadům T -leté úrovně (návratová hodnota, T -letá voda). Představa: úroveň opakující se v průměru jednou za T let.
ÚVOD Velká pozornost v analýze extrémních dat (např. záplavy) je věnována odhadům T -leté úrovně (návratová hodnota, T -letá voda). Představa: úroveň opakující se v průměru jednou za T let. Z pohledu statistiky: vysoký kvantil rozdělení náhodné veličiny (průtoku). ( u(t )=F 1 1 1 ) T P (X >u(t )) = 1 F (u(t )) = 1 T
PŘÍKLAD Příklad: Roční maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky) 10 20 100 1000 GEV rozdělení metoda max. věrohodnosti 34.1 34.9 36.3 37.9 Maximální dosažená hodnota za sledované období 36.2.
ZÁKLADNÍ PRINCIPY Necht X 1,X 2,...jsou nezávislé stejně rozdělené náhodné veličiny s distribuční funkcí F. Necht M n =max(x 1,...,X n ). Předpokládejme, že existuje posloupnost reálných čísel a n > 0 a b n tak, že posloupnost (M n b n )/a n konverguje v distribuci, t.j. P ((M n b n )/a n x) =F n (a n x + b n ) G(x), n, pro nějakou nedegenerovanou d.f. G(x) Jestliže podmínka platí, říkáme, že F je ve sféře přitažlivosti G (maximum domain of attraction), F MDA(G).
ZÁKLADNÍ PRINCIPY FISHEROVA-TIPPETTOVA VĚTA (1928) Jestliže F MDA(G) potom { G je typu jedné z následujících tří d.f. 0, x 0 Fréchet Φ 1/γ (x) = exp ( x 1/γ), x > 0 γ>0 { { } exp ( x) 1/γ, x 0 Weibull Ψ 1/γ (x) = 1 x>0 γ>0 Gumbel Λ(x) =exp( e x ), x R.
ZÁKLADNÍ PRINCIPY FISHEROVA-TIPPETTOVA VĚTA (1928) Jestliže F MDA(G) potom { G je typu jedné z následujících tří d.f. 0, x 0 Fréchet Φ 1/γ (x) = exp ( x 1/γ), x > 0 γ>0 { { } exp ( x) 1/γ, x 0 Weibull Ψ 1/γ (x) = 1 x>0 γ>0 Gumbel Λ(x) =exp( e x ), x R. GNĚDĚNKO (1943) Limitní rozdělení je zobecněné rozdělení extrémních hodnot. { ( ) exp (1 + γx) 1/γ γ 0 G(x) =G γ (x) = exp( e x ) γ =0, kde 1+γx > 0 G je určena jednoznačně až na parametr polohy a měřítka.
METHOD OF BLOCK MAXIMA Předpokládáme, že data rozdělíme do bloků obsahující n (velké) hodnot, bereme maximum v každém bloku a využijeme limitní výsledek, t.j. GEV rozdělení. Užití limitního rozdělení: ( Mn b n P a n ) x G γ (x). y = a n x + b n P (M n y) G γ ( y bn a n ) = G γ,bn,a n (y). Parametry odhadneme, např. metodou maximální věrohodnosti
METHOD OF BLOCK MAXIMA pro γ =0 L(b, a, γ) = m log a (1 + 1/γ) L(b, a) = m log a i=1 Neexistuje analytické řešení. m i=1 m i=1 [ 1+γ m ( ) zi b a ( log 1+γ ( zi b a ( )) zi b a )] 1/γ m {( zi b exp a i=1 )}.
L-MOMENTOVÁ METODA Necht X 1,X 2,...X n je náhodný výběr s distribuční funkcí F (x) a kvantilovou funkcí Q(u) a necht X 1:n X 2:n X n:n jsou pořádkové statistiky. L-momenty: EX j:r = λ r = 1 r 1 ( ) r 1 ( 1) k EX r k:r, r =1, 2,... r k k=0 r! (j 1)!(r j)! λ 1 = EX = x (F (x)) j 1 (1 F (x)) r j df (x) 1 λ 2 = 1 2 E(X 2:2 X 1:2 )= λ 3 = 1 3 E(X 3:3 2X 2:3 + X 1:3 )= 0 1 Q(u)du 0 1 0 Q(u)(2u 1)du Q(u)(6u 2 6u +1)du
L-MOMENTOVÁ METODA Příklady L-momentů některých rozdělení: Rovnoměrné na (a, b) λ 1 = 1 2 (a + b),λ 2 = 1 6 (b a),τ 3 =0,τ 4 =0 Normální N (µ, σ 2 ) λ 1 = µ, λ 2 = σ π,τ 3 =0,τ 4 =0.1226 Gumbelovo rozdělení F (x) =exp[ exp( (x ξ)/α)] λ 1 = ξ + αγ, λ 2 = α log 2,τ 3 =0.1699, τ 4 =0.1504,γ =0.5772... konst. Zobecněné rozdělení F (x) =exp[ (1 k(x ξ)/α) 1 k ] extrémních hodnot λ 1 = ξ + α(1 Γ(1 + k))/k, (GEV) λ 2 = α(1 2 k )Γ(1 + k)/k, τ 3 =2(1 3 k )/(1 2 k ) 3,τ 4 =... k> 1, Γ(.) označuje gamma funkci
L-MOMENTOVÁ METODA Odhady: Výběrový L moment: r =1, 2,...,n. Speciálně: ( ) 1 n l r =... r 1 ( ) r 1 r 1 ( 1) k r k 1 i 1<i 2<...<i r n k=0 l 1 = 1 n X ir k :n, n X i, l 2 = 1 ( ) 1 n (Xi:n X j:n ) 2 2 i=1 i>j l 3 = 1 ( ) 1 n (Xi:n 2X j:n + X k:n ) 3 3 i>j>k l 4 = 1 ( ) 1 n (Xi:n 3X j:n +3X k:n X l:n ) 4 4 i>j>k>l
L-MOMENTOVÁ METODA Odhady paramterů L-momentová metoda Rovnoměrné na (a, b) â = l 1 3l 2, â = l 1 +3l 2 Normální N (µ, σ 2 ) ˆµ = l 1, =ˆσ = π 1/2 l 2 Gumbelovo rozdělení F (x) =exp[ exp( (x ξ)/α)] ˆξ = l 1 ˆαγ, ˆα = l 2 / log 2 γ =0.5772... konst. Zobecněné rozdělení F (x) =exp[ (1 k(x ξ)/α) 1 k ] extrémních hodnot z =2/(3 + t 3 ) log 2/ log 3, (GEV) ˆk =7.8590z +2.9554z 2, ˆα = l 2ˆk/[(1 2 ˆk)Γ(1 + ˆk)], ˆξ = l 1 +ˆα[Γ(1 + ˆk) 1]/ˆk
L-MOMENTOVÁ METODA Výhody: Pro malé a střední rozsahy výběrů odhady mohou mít lepší vlastnosti než metoda maximální věrohodnosti např. simulační studie (Hosking, Wallis, Wood) ukazuje, že pro všechna k GEV z intervalu (-0.5,0.5) a rozsah výběru do 100 mají odhady menší či srovnatelnou střední kvadratickou chybu ve srovnání s odhady maximální věrohodností Výpočetně jednoduchá, metoda maximální věrohodnosti pro některá rozdělení obtížně aplikovatelná Ve srovnání s konvenční metodou momentů méně citlivá na odlehlá pozorování (u vyšších momentů), Neexistence vyšších konvenčních momentů, L-momenty ano. např. GEV pro k< 1/3 neexistují třetí a čtvrté momenty
PŘÍKLAD Příklad: Roční maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky) 10 20 100 1000 GEV rozdělení metoda max. věrohodnosti 34.1 34.9 36.3 37.9 L-momentová metoda 34.2 35.0 36.7 38.6 Maximální dosažená hodnota za sledované období 36.2.
PŘÍKLAD Příklad: Roční maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky) 10 20 100 1000 GEV rozdělení metoda max. věrohodnosti 34.1 34.9 36.3 37.9 L-momentová metoda 34.2 35.0 36.7 38.6 Gumbelovo rozdělení metoda max. věrohodnosti 34.4 35.3 38.4 42.2 L-momentová metoda 34.2 35.0 37.8 41.4 Maximální dosažená hodnota za sledované období 36.2.
PŘÍKLAD 50 100 150 200 250 300 1961 1970 1980 1990 2000 Maximální třídenní úhrny srážek v letech 1961-2000 ve Valašském Mezi říčí
SRÁŽKY -LIBERECKO Stanice srpen 2010 roky (bez) roky (s) Hejnice 179.0 156.9 78.2 (53.4-24 809) (36.8-2 612.5) Mníšek 160.0 305.4 89.9 (67.8-95 119) (38.2-8 117.3) Chrastava 135.5 1337.9 66.1 (87.1-1.848x10 6 ) (28.9-4 427.8) Mařenice 124.2 1250.8 153.0 (140.6-1.608x10 6 ) (54.6-23 530) Bedřichov 112.0 17.3 15.9 (13.1-42.7) (12.3-36.2) Liberec 98.9 45.0 35.2 (24.8-535.1) (21.4-200.6)
SRÁŽKY -LIBERECKO
POT METODA Necht X 1,X 2,...jsou nezávislé stejně rozdělené náhodné veličiny s ditr. funkcí F. Je "rozumné" zahrnovat všechny hodnoty překračující daný vysoký práh (threshold) u. Chování extrémních událostí je dáno podmíněnou pravděpodobností P (X i >y X i >u) a P (X i <y X i >u) H(y), u u end, zobecněné Paretovo rozdělení H(x) = 1 ( 1+γ ( x µ σ )) 1/γ γ 0 x µ 1 e ( σ ) γ =0, kde 1+γ ( ) x µ σ > 0. Uvažujeme hodnoty větší než dostatečně vysoký práh (threshold) a předpokládáme, že asymptotický výsledek je přibližně pravdivý, tj. užijeme zobecněné Paretovo rozdělení jako vhodný model. Metoda je známa jako peaks-over-threshold (POT).
POT Příklad: Roční maxima teploty vzduchu za období 1961-2007 Stanice Liberec Návratová hodnota (roky) 10 20 100 1000 GEV rozdělení L-momentová metoda 34.2 35.0 36.7 38.6 POT treshold 26.50 34.1 34.6 35.5 36.7 treshold 29.37 34.3 34.9 36.1 37.5 Maximální dosažená hodnota za sledované období 36.2.
TREND V DATECH When a significant trend is present in the data, no fixed threshold in the POT models is suitable over longer periods of time: there are either too few (or no) exceedances over the threshold in an earlier part of records or too many exceedances towards the end of the examined period.
TREND V DATECH Studovány maximální denní teploty v Evropě v letech 1961-2100 za účelem odhadnout vysoké kvantily vysokých teplot. Použity výstupy ze dvou GCMs ( Global Climate Models CM2.0 and CM2.1.) - denní simulovaná data pokrývající období 1961-2100 CM2.0 a CM2.1 jsou modely NOAA Geophysical Fluid Dynamics Laboratory. Mají horizontální rozlišení 2.5 2.0 (délka x šířka) a 24 vertikálních úrovní. Předpokládají vzrůst koncentrace skleníkových plynů - uvažuje se několik (7) scénářů. Pro každý uzlový bod a každý scénář za období 2001-2100 byl threshold odhadnut jako 95% regresní kvantil. Soustředili jsme se 20-ti letou teplotu (20-yr return values), tj. na 95% kvantil (1-1/20) a srovnávali s "klasickými" POT modely uvažující 30leté periody 2021-2050 a 2071-2100 (jako threshold brán obvyklý 95% kvantil z dat daného období)
TREND V DATECH Mean annual number of exceedances above the threshold (averaged over gridpoints) for the 95% regression quantile and the 95% quantile.
TREND V DATECH Differences between 20-yr return values of TMAX estimated using non-stationary POT model for year 2050 and stationary POT model over 2021-2050. Large (small) crosses mark gridpoints in which the estimated 90% (80%) CIs do not overlap.
TREND V DATECH Differences between 20-yr return values of TMAX estimated using non-stationary POT model for year 2100 and stationary POT model over 2071-2100. Large (small) crosses mark gridpoints in which the estimated 90% (80%) CIs do not overlap.