Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová, Marie Hušková a Simos G. Meintanis KPMS MFF UK Robust 2016 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 1/ 22
Motivace: Časová řada diskrétních veličin {Y t } t N časová řada nezáporných celočíselných veličin klasické ARMA modely nelze využít Burn injuries Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Cuts Time 1986 1988 1990 1992 1994 5 10 15 20 speciální modely: INAR, INARCH,... testy dobré shody (GOF) Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 2/ 22
1 Modely INAR a INARCH 2 Testová statistika 3 Asymptotické rozdělení 4 Simulace 5 Příklad Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 3/ 22
INAR(1) model klasická autoregrese: Y t = φ Y t 1 + ε t INAR(1) Y t = p Y t 1 + ε t, kde ε t jsou iid nezáporné, diskrétní, nezávislé na Y t 1, var ε t < a je operátor (Steutel-van Harn) Y t 1 p Y t 1 = U t,i, i=1 kde U t,i jsou Alt(p) nezávislé na Y t 1 a ε t, p (0, 1) stacionární, ergodický a absolutně regulární korelace cor (Y t, Y t k ) = p k rozdělení ε t rozdělení Y t Poissonovo (speciální postavení), negativně binomické, směs Poissonových rozdělení aj. testy dobré shody Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 4/ 22
INARCH(1) model I t = σ{y s, s t} informace do času t INARCH(1) Y t I t 1 Po(λ t ), λ t = r(y t 1, θ) Poissonovská lineární autoregrese λ t = θ 1 + Y t 1 θ 2 pro θ 1 > 0, θ 2 (0, 1) stacionární, ergodický korelace cor (Y t, Y t k ) = θ k 2 var Y t > EY t (overdispersion) negativně binomický INARCH... Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 5/ 22
Test dobré shody s modelem obecný tvar modelu Y t I t 1 F( ; I t 1, θ) data Y 1,..., Y T empirická pravděpodobnostní vytvořující funkce (PGF) X diskrétní g X (u) = Eu X, u [0, 1], pro Y 1,... Y T neparametrický odhad ĝ T,Y (u) = 1 T T t=1 u Yt idea: porovnáme ĝ T,Y (u) se (semiparametrickým) odhadem využívajícím strukturu modelu Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 6/ 22
Testová statistika pro INAR model H 0 : {Y t } se řídí modelem Y t = p Y t 1 + ε t, pro p (0, 1) a g ε G θ = {g ε (, θ); θ Θ} vytvořující funkce: g Y (u) =Eu Y t = E E[u Y t Y t 1 ] = E E[u Y t 1 i=1 U t,i +ε t Y t 1 ] = E[(1 + p(u 1)) Y t 1 ] g ε (u, θ) =g Y (1 + p(u 1)) g ε (u, θ) semiparametrický odhad ĝ T 0 (u) = ĝ T,Y (1 + p(u 1)) g ε (u, θ), kde p a θ jsou vhodné odhady a ĝ T,Y je neparametrický odhad g Y testová statistika S T = T 1 kde w(u) 0 je váhová funkce 0 (ĝt,y (u) ĝ T 0 (u) ) 2 w(u)du, Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 7/ 22
Testová statistika pro INARCH model H 0 : {Y t } se řídí modelem Y t I t 1 Po(λ t ), λ t = θ 1 + θ 2 Y t 1 pro (θ 1, θ 2 ) Θ = {(θ 1, θ 2 ) : θ 1 > 0, θ 2 (0, 1)} vytvořující funkce g Y (u) = Eu Yt = E E[u Yt Y t 1 ] = E[e (u 1)(θ 1+θ 2 Y t 1 ) ] = e θ1(u 1) ( ) g Y e (u 1)θ 2 semiparametrický odhad ĝ T 0 (u) = e θ 1 (u 1)ĝ T,Y (e θ 2 (u 1) ), kde ( θ 1, θ 2 ) je vhodný odhad testová statistika S T = T 1 0 (ĝt,y (u) ĝ T 0 (u) ) 2 w(u)du Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 8/ 22
Předpoklady pro INAR (A1) {Y t} se řídí INAR(1) za platnosti H 0 (A2) existuje g ε/ θ splňující pro u [0, 1] a θ θ 0 D 2 gε gε (u; θ) θ θ (u; θ 0) D 1 θ 0 θ v(u) a gε (u; θ) θ D 3v(u) pro D 1, D 2, D 3 > 0 a vhodnou funkci v( ). (A3) 0 < 1 0 w(u)du <, 1 0 w(u)v 2 (u)du < (A4) odhad ϑ T = ( p T, θ T ) splňuje T ( ϑt ϑ 0 ) = 1 T T l(y t q; ϑ 0 ) + o P (1), t=1+q kde Y t q = (Y t,..., Y t q), q 1 je pevné a l = (l 1, l 2 ), kde l j (Y t q; ϑ 0 ), j = 1, 2 jsou posloupnosti martingalových diferencí s konečným rozptylem Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 9/ 22
Asymptotické rozdělení pro INAR Věta Platí-li podmínky (A1) (A4), pak S T konverguje v distribuci k 1 0 Z 2 (u; p 0, θ 0 )w(u)du, kde {Z(u; p 0 [, θ 0 ), u [0, 1]} je centrovaný Gaussovský ] proces s kovarianční strukturou E Z q+1 (u 1 ; p 0, θ 0 )Z q+1 (u 2 ; p 0, θ 0 ) pro u 1, u 2 [0, 1], kde a Z t(u; p, θ) =u Y t (1 + p(u 1)) Y t 1 g ε(u; θ) + h 1 (u; p, θ)l 1 (Y t q; p, θ) + h 2 (u; p, θ)l 2 (Y t q; p, θ) h 1 (u; p, θ) = g Y (1 + p(u 1)) gε(u; θ) g ε(u; θ), h 2 (u; p, θ) = g Y (1+p(u 1)). p θ Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 10/ 22
Poznámky limitní rozdělení závisí na neznámých hodnotách konzistentní odhad kovarianční strutury parametrický bootstrap odhad ( p, θ) např. metodou nejmenších čtverců (CLS) platí (A4) váhová funkce w(u) = u a, a 0 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 11/ 22
Rozdělení za alternativy Alternativa g ε G θ Theorem Necht se {Y t } řídí INAR(1) modelem a necht platí (A3), ( p T, θ T ) P (p, θa ) a g ε (u; θ) je spojitá v θ pro všechna u [0, 1]. Pak pro T S T T P 1 0 [ g Y (1 + p(u 1))(g ε (u) g ε (u; θ A ))] 2w(u)du. konzistetní test alternativy porušení INAR struktury Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 12/ 22
Předpoklady pro INARCH (B1) {Y t } se řídí INARCH(1) za platnosti H 0 (B2) odhady θ 1T, θ 2T splňují T ( θjt θ j0 ) = 1 T T t=q+1 l j (Y t q ; θ 10, θ 20 ) + o P (1), j = 1, 2, kde q 1 je pevné a l j (Y t q ; θ 10, θ 20 ), j = 1, 2 jsou posloupnosti martingalových diferencí s konečným rozptylem (B3) 0 < 1 0 w(u)du < Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 13/ 22
Asymptotické rozdělení pro INARCH Theorem Platí-li (B1) (B3), pak S T konverguje v distribuci k 1 0 V 2 (u; θ 10, θ 20 )w(u)du, kde {V(u; θ 10 [, θ 20 ), u [0, 1]} je centrovaný Gaussovský ] proces s kovarianční strukturou E V q+1 (u 1 ; θ 10, θ 20 )V q+1 (u 2 ; θ 10, θ 20 ) pro u 1, u 2 [0, 1], kde V t(u; θ 1, θ 2 ) =u Y t exp{(θ 1 + θ 2 Y t 1 )(u 1)} + r 1 (u; θ 1, θ 2 )l 1 (Y t q; θ 1, θ 2 ) + r 2 (u; θ 1, θ 2 )l 2 (Y t q; θ 1, θ 2 ) a [ ] [ ] r 1 (u; θ 1, θ 2 ) = E e (θ 1+θ 2 Y 1 )(u 1) (u 1), r 2 (u; θ 1, θ 2 ) = E Y 1 e (θ 1+θ 2 Y 1 )(u 1) (u 1). parametrický bootstrap Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 14/ 22
Simulace test založený na parametrickém bootstrapu CLS odhady, w(u) = u a pro a = 0, 1, 2, 5 B = 500; empirická síla spočtená z 500 opakování T = 50, 100, 500 hladina testu H 0 : Poissonovský INAR(1) síla pro g ε negativně binomické g ε směs dvou Poissonových rozdělení g ε směs Poissonova a Diracovy míry v 0 Poissonovský INARCH(1) H 0 : Poissonovský INARCH(1) síla pro negativně binomický INARCH(1) Poissonovský INAR(1) Poissonovský INGARCH(1,1) Poissonovský INARCH(1) se změnou v hladině Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 15/ 22
Hladina testu H 0 : INAR(1) α T a 0.01 0.05 0.1 50 0 0.008 0.044 0.100 50 1 0.008 0.050 0.102 50 2 0.006 0.054 0.112 50 5 0.008 0.056 0.110 100 0 0.004 0.038 0.080 100 1 0.004 0.040 0.082 100 2 0.006 0.042 0.088 100 5 0.012 0.052 0.102 500 0 0.018 0.038 0.090 500 1 0.016 0.044 0.090 500 2 0.010 0.042 0.088 500 5 0.010 0.044 0.094 H 0 : INARCH(1) α T a 0.01 0.05 0.1 50 0 0.006 0.038 0.082 50 1 0.008 0.036 0.092 50 2 0.006 0.040 0.090 50 5 0.004 0.044 0.090 100 0 0.002 0.036 0.094 100 1 0.004 0.042 0.096 100 2 0.002 0.042 0.096 100 5 0.006 0.044 0.094 500 0 0.006 0.036 0.080 500 1 0.006 0.034 0.092 500 2 0.004 0.042 0.092 500 5 0.008 0.040 0.102 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 16/ 22
Síla testu: Negativně binomický INAR g ε je NB tak, že var ε t = θ(1 + θ/r) INAR H 1 : NB r = 2 INAR H 1 : NB r = 5 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 power 0.0 0.2 0.4 0.6 0.8 1.0 a=0 a=1 a=2 a=5 T=50 T=100 T=500 0.0 0.2 0.4 0.6 0.8 1.0 α 0.0 0.2 0.4 0.6 0.8 1.0 α Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 17/ 22
Síla testu: Směs Po a Diracovy míry g ε odpovídá ψd 0 + (1 ψ)po(λ) INAR H 1 : Dirac ψ = 0.1 INAR H 1 : Dirac ψ = 0.2 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 α α Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 18/ 22
Příklad British Columbia Workers Compensation Board: měsíční počty žádostí o invalidní dávky, Freeland (1998) Burn injuries Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Soft tissue injuries Time 1986 1988 1990 1992 1994 4 6 8 10 14 Cuts Time 1986 1988 1990 1992 1994 5 10 15 20 Dermatitis Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Dislocations Time 1986 1988 1990 1992 1994 0 1 2 3 4 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 19/ 22
Příklad pokrač. Lze tato data úspěšně popsat INAR(1) modelem? a Řada 0 1 2 5 10 1 0.653 0.652 0.698 0.771 0.862 2 0.561 0.596 0.579 0.662 0.665 3 0.020 0.002 0.001 0.000 0.000 4 0.270 0.270 0.295 0.386 0.506 5 0.444 0.486 0.579 0.661 0.749 pro řady 1,2,4,5 se model INAR(1) jeví jako adekvátní pro řadu 3 nelze INAR(1) použít Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 20/ 22
Závěrečné poznámky snadné rozšíření pro modely vyšších řádů INAR(p), INARCH(p), p > 1 a na obecnější INARCH simulace: test má dostatečnou sílu pro různé odchylky od Poissonova rozdělení i pro změnu struktury modelu hledání optimální váhové funkce Děkuji za pozornost Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 21/ 22
Literatura Příspěvek je založený na článku Data Hudecová, Š., Hušková, M., Meintenis, S.G. (2015): Tests for time series of counts based on the probability-generating function. Statistics 49(2), 316-337. Freeland R.K. (1998): Statistical Analysis of Discrete Time series with Application to the Analysis of Workers Compensation Claims Data (PhD thesis). Management Science Division, Faculty of Commerce and Business Administration, University of British Columbia. Zhu F. and Joe H. (2006) Modelling count data time series with Markov processes based on binomial thinning. J Time Series Anal. 27: 725 738. Modely pro diskrétní časové řady McKenzie E. (2003): Discrete variate time series. In Shanbhag and Rao (eds.): Handbook of Statistics 21: 573 606. Fokianos K. (2011): Some progress in count time series models. Statistics 45: 49 58. Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 22/ 22