Testování změn v binárnách autoregresních modelech Šárka Hudecová KPMS MFF UK ROBUST 2012 Němčičky 9. 14.9.2012 Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36
Uvažovaná situace Časová řada binárních veličin posloupnost {Y t }, kde Y t nabývá hodnot 0 nebo 1 výskyt nějaké události v čase denní výskyt srážek, ukazatel recese aj. Testování změn v binárnách autoregresních modelech Šárka Hudecová 2/ 36
Uvažovaná situace Časová řada binárních veličin posloupnost {Y t }, kde Y t nabývá hodnot 0 nebo 1 výskyt nějaké události v čase denní výskyt srážek, ukazatel recese aj. různé modely a přístupy k analýze snaha o analogii ARMA modelů více možností, komplikovanější binární autoregresní modely BAR časové řady řídící se zobecněným lineárním modelem Testování změn v binárnách autoregresních modelech Šárka Hudecová 2/ 36
Uvažovaná situace Časová řada binárních veličin posloupnost {Y t }, kde Y t nabývá hodnot 0 nebo 1 výskyt nějaké události v čase denní výskyt srážek, ukazatel recese aj. různé modely a přístupy k analýze snaha o analogii ARMA modelů více možností, komplikovanější binární autoregresní modely BAR časové řady řídící se zobecněným lineárním modelem možná změna v modelu v neznámém okamžiku změna v parametrech test, detekce změny Testování změn v binárnách autoregresních modelech Šárka Hudecová 2/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 3/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 4/ 36
Výskyt srážek denní výskyt srážek v oblasti Mokré louky v Jižních Čechách z období 1977-2011 (12 783 záznamů) domněnka, že v posledních letech nastala změna ve výskytu Testování změn v binárnách autoregresních modelech Šárka Hudecová 5/ 36
Výskyt srážek denní výskyt srážek v oblasti Mokré louky v Jižních Čechách z období 1977-2011 (12 783 záznamů) domněnka, že v posledních letech nastala změna ve výskytu standardní (historický) přístup Markovské řetězce, speciálně MŘ 1. řádu chceme-li brát v úvahu vysvětlující proměnné (měsíc, teplota apod.) BAR modely zajímá nás, zda došlo k nějaké změně Testování změn v binárnách autoregresních modelech Šárka Hudecová 5/ 36
Index recese USA čtvrtletní indikátor recese v USA z let 1855 2011 (628 záznamů) změna kolem roku 1945, tj. kolem 2. světové války 1.0 0.8 0.6 0.4 0.2 0.0 1850 1900 1950 2000 Testování změn v binárnách autoregresních modelech Šárka Hudecová 6/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 7/ 36
Binární autoregresní modely {Y t } binární časová řada, vysvětlující proměnné {X t, W t } informace známá do času t 1 F t 1 = σ{y t 1, Y t 2,..., X t 1, X t 2,..., W t, W t 1,... } model pro π t = P(Y t = 1 F t 1 ) = E[Y t F t 1 ]: kde logit[π t ] = β Z t 1, Z t 1 je q-dimenzionální vektor obsahující minulé hodnoty {Y t } a vysvětlujících proměnných {X t, W t } β je vektor neznámých parametrů Kedem, B. and Fokianos, K. (2002). Regression Models for Time Series Analysis. Wiley, New York. Testování změn v binárnách autoregresních modelech Šárka Hudecová 8/ 36
Binární autoregresní modely Příklad: BAR(p) bez vysvětlujících proměnných F t 1 = σ{y t 1, Y t 2,... } Z t 1 = (1, Y t 1,..., Y t p ) logit [π t ] = β 0 + β 1 Y t 1 +... β p Y t p Poznámka existují i jiné přístupy (modifikace) k modelování binárních (negaussovských) časových řad Testování změn v binárnách autoregresních modelech Šárka Hudecová 9/ 36
Odhad parametrů Odhad parametrů metodou partial maximum likelihood partial likelihood PL(β) = n [π t (β)] Y t [1 π t (β)] 1 Y t, t=1 odhad (MPLE) β je bod maxima PL(β), tj. řešení log PL(β) = 0, numerické řešení n Z t 1 [Y t π t (β)] = 0, t 1 odhad v praxi R funkce glm Testování změn v binárnách autoregresních modelech Šárka Hudecová 10/ 36
Vlastnosti odhad parametrů Za určitých předpokladů regularity platí 1 β je s.j. jediný pro dostatečně velké n, 2 β je konzistentní odhad β a n( β β) D N(0, G 1 (β)), n, kde G je limitní informační matice (nenáhodná) G n (β) n = 1 n n t=1 σt 2 Z t 1 Z t 1 G(β), n, s.j. Testování změn v binárnách autoregresních modelech Šárka Hudecová 11/ 36
Vlastnosti odhad parametrů Za určitých předpokladů regularity platí 1 β je s.j. jediný pro dostatečně velké n, 2 β je konzistentní odhad β a n( β β) D N(0, G 1 (β)), n, kde G je limitní informační matice (nenáhodná) G n (β) n = 1 n n t=1 σt 2 Z t 1 Z t 1 G(β), n, s.j. Testování hypotéz založeno na partial likelihood podíl věrohodností, Waldův test, skórový test Testování změn v binárnách autoregresních modelech Šárka Hudecová 11/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 12/ 36
Model se změnou data: n realizací (Y t, Y t 1,..., Y t p ) model se změnou { β0 + p j=1 logit(π t ) = β jy t j = β Z t 1, t = 1,..., m β0 + p j=1 β j Y t j = β Z t 1, t = m + 1,..., n, kde β β test, zda nastala změna, tj. H 0 : m = n proti H 1 : m < n Testování změn v binárnách autoregresních modelech Šárka Hudecová 13/ 36
Vliv změny v parametrech BAR(1) model Příklad: BAR(1) logit [π t ] = β 0 + β 1 Y t 1 {Y t } je Markovský řetězec 1.řádu s pstmi přechodů p i1 = 1 1 + e ( β 0 β 1 i), p i0 = 1 p i1, i = 0, 1, změna v β 0 implikuje změnu v p ij pro všechna i, j = 0, 1; změna v β 1 má vliv jen na p 11 a p 10 změna v β 0 nebo β 1 změna ve stacionárním rozdělení Testování změn v binárnách autoregresních modelech Šárka Hudecová 14/ 36
Detekce změn v GLM change-point v klasických lineárních modelech, ARMA modelech Csörgö, M. and Horváth, L. (1997). Limit Theorems in Change-Point Analysis. Wiley, New York. články prof. Huškové, doc. Práškové, prof. Antocha, prof. Jarůškové a další change-point v GLM Antoch, J., Gregoire, G., and Jarůšková, D. (2004). Detection of structural changes in generalized linear models. Stat. and Probab. Lett., 69:315 332. testová statistika maximum skórových statistik za H 0 asymptoticky Darling-Erdös typ limitního rozdělení Testování změn v binárnách autoregresních modelech Šárka Hudecová 15/ 36
Model se změnou v absolutním členu Budeme uvažovat model { β0 + p j=1 logit(π t ) = β jy t j, t m β0 + p j=1 β jy t j, t = m + 1,..., n, kde β 0 β 0, a test H 0 : m = n proti H 1 : m < n odvodíme test pro tuto situaci simulace lze úspěšně použít i v obecnější situaci (změna nejen v interceptu) Testování změn v binárnách autoregresních modelech Šárka Hudecová 16/ 36
Model se změnou v absolutním členu Budeme uvažovat model { β0 + p j=1 logit(π t ) = β jy t j, t m β0 + p j=1 β jy t j, t = m + 1,..., n, kde β 0 β 0, a test H 0 : m = n proti H 1 : m < n Odvození testové statistiky m = k známé test založený na skórové statistice c (k) n m neznámé za testovou statistiku T n vezmeme maximum c (k) n přes všechna možná k ukážeme, že asymptotické rozdělení T n stejné jako v GLM článek Antoch et al. (2004) Testování změn v binárnách autoregresních modelech Šárka Hudecová 16/ 36
Testová statistika Značení π t je odhad π t = P(Y t = 1 F t 1 ) za H 0, Ŝk = k t=1 (Y t π t ), [ k V k = σ t 2 t=1 t=1 σ 2 t Z t 1] ( n t=1 ) 1 [ ] σ t 2 Z t 1 Z t 1 σ t 2 Z t 1, kde Z t 1 = (1, Y t 1,..., Y t p ) a σ 2 t = π t (1 π t ) Testová statistika T n = max k 0 k n k 0 Ŝk Vk, kde k 0 je takové, že V k > 0 pro všechna k 0 < k < n k 0. Testování změn v binárnách autoregresních modelech Šárka Hudecová 17/ 36 t=1
Předpoklady (A1) Skutečná hodnota β leží v otevřené podmnožině R p+1. (A2) Vektor Z t 1 leží s.j. v nenáhodné kompaktní Λ R p+1 a n t=1 Z t 1Z t 1 > 0 s pravděpodobností 1. (A3) Existuje limitní informační matice G(β) > 0 taková, že G n (β) n = 1 n n t=1 σt 2 Z t 1 Z t 1 G(β), n, s.j. (A4) S pravděpodobností 1 platí 1 k ( 1 σt 2 Z t 1 Z t 1 k G = o log k t=1 1 n ( σt 2 Z t 1 Z t 1 n k G = o t=k+1 ) pro k, 1 log(n k) ), pro k, n k. Testování změn v binárnách autoregresních modelech Šárka Hudecová 18/ 36
Rozdělení testové statistiky Věta Za platnosti (A1) (A4) má za nulové hypotézy H 0 : m = n Ŝk testová statistika T n = asymptotické rozdělení Vk max k 0 k n k 0 ( P T n < log log log n 2 log log n + 2 2 log log n + t 1 2 log π ) e 2e t 2 log log n pro t R a n. Testování změn v binárnách autoregresních modelech Šárka Hudecová 19/ 36
Postup důkazu S k = k t 1 (Y t π t ) = k t=1 X t je martingal: martingalové diference {X t } omezené, sn 2 = n t=1 σ2 t splňuje sn 2 s.j. pro n, spec. sn 2 ( ) 1 n A = o s.j., log n kde A > 0 je (1,1) prvek matice G vlastnosti {S k } Ŝk Antoch et al. (2004): rozdělení T n = max 1 k n Vk asymptoticky stejné jako rozdělení max 1 k n n k(n k)a S k k n S n využije se vnoření {S n } do Wienerova procesu odvození rozdělení pomocí Brownova mostu Testování změn v binárnách autoregresních modelech Šárka Hudecová 20/ 36
Poznámky Ŝk jestliže T n = max 1 k n Vk > c α argmax odhad m T n test proti alternativě změny v absolutním členu simulace funguje dobře o proti složitější alternativě další možné testové statistiky n U n = max t=1 σ2 t k 0 <k<n k 0 k n Ŝk t=1 σ2 t t=k+1 σ2 t n Ŝk W n = max k 0 <k<n k 0 k(n k) 1 n n t=1 σ2 t výpočetně jednodušší simulace menší síla Testování změn v binárnách autoregresních modelech Šárka Hudecová 21/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 22/ 36
Simulace Chování T n za H 0 přesnost aproximace pro konečné n dodržování hladiny testu za H 1 závislost síly testu na různých parametrech změny síla proti obecnější alternativě (změna nejen v abs. členu) Testování změn v binárnách autoregresních modelech Šárka Hudecová 23/ 36
Simulace Chování T n za H 0 přesnost aproximace pro konečné n dodržování hladiny testu za H 1 závislost síly testu na různých parametrech změny síla proti obecnější alternativě (změna nejen v abs. členu) Výsledky pro BAR(1): logit(π t ) = pro BAR(p), p > 1, podobné { β 0 + β 1 Y t 1, t=1,...,m, β0 + β 1 Y t 1, t = m + 1,..., n. Testování změn v binárnách autoregresních modelech Šárka Hudecová 23/ 36
BAR(1) za H 0 t n = ( T n log log log n 2 log log(n) 2 ) 1 2 log log n + 2 log log(n) 2 log(π) 0.0 0.2 0.4 0.6 0.8 1.0 n=100 n=200 n=500 n=1000 2 0 2 4 6 volba β 0 = 2, β 1 = 2 hladina testu < 0.05 konzervativní test Testování změn v binárnách autoregresních modelech Šárka Hudecová 24/ 36 x
BAR(1) za H 1 data délky n, bod změny m = λ n β 0 = 2, β 1 = 2 změna na β 0 = β 0 + δ 0 δ 0 = 1 power 0.2 0.4 0.6 0.8 1.0 λ = 0.5 λ = 0.2 λ = 0.7 power 0.4 0.5 0.6 0.7 0.8 0.9 200 400 600 800 1000 n 0.2 0.4 0.6 0.8 λ (p 01, p 11 ) : (0.88, 0.50) (0.73, 0.27) Testování změn v binárnách autoregresních modelech Šárka Hudecová 25/ 36
BAR(1) za H 1 data délky n = 500, bod změny m = λ n β 0 = 2, β 1 = 2 změna na β 0 = β 0 + δ 0 power 0.0 0.2 0.4 0.6 0.8 λ = 0.5 λ = 0.2 1.0 0.5 0.0 0.5 1.0 δ 0 δ 0 = 0.75 (p 01, p 11 ) : (0.88, 0.50) (0.78, 0.32) Testování změn v binárnách autoregresních modelech Šárka Hudecová 26/ 36
BAR(1) se změnou v obou parametrech data délky n = 500, bod změny m = 1/2 n β 0 = 2, β 1 = 2 změna na β 0 = β 0 + δ 0 power 0.0 0.2 0.4 0.6 0.8 1.0 δ 1 = 1 δ 1 = 0 δ 1 = 1 power 0.0 0.2 0.4 0.6 0.8 1.0 δ 0 = 0.5 δ 0 = 0 δ 0 = 0.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 δ 0 δ 1 Testování změn v binárnách autoregresních modelech Šárka Hudecová 27/ 36
BAR(1) se změnou v obou parametrech data délky n = 500, bod změny m = 1/2 n β 0 = 2, β 1 = 2 změna na β 0 = β 0 + δ 0 1.0 0.5 0.0 1.0 0.5 0.0 delta0 0.5 1.0 0.0 0.5 1.0 1.5 delta1 2.0 Testování změn v binárnách autoregresních modelech Šárka Hudecová 27/ 36
BAR(1) se změnou v obou parametrech data délky n = 500, bod změny m = 1/2 n β 0 = 2, β 1 = 2 změna na β 0 = β 0 + δ 0 power 0.0 0.2 0.4 0.6 0.8 1.0 power p 01 3 2 1 0 1 δ 0 Testování změn v binárnách autoregresních modelech Šárka Hudecová 27/ 36
Obsah 1 Motivace 2 Binární autoregresní modely 3 Detekce změny 4 Simulace 5 Reálná data Testování změn v binárnách autoregresních modelech Šárka Hudecová 28/ 36
Výskyt srážek denní výskyt srážek 12 modelů pro každý měsíc zvlášt zahrnut vliv teploty T t logit(π t ) = β 0 + β 1 Y t 1 + β 2 T t test, zda došlo v modelu ke změně Testování změn v binárnách autoregresních modelech Šárka Hudecová 29/ 36
Výskyt srážek denní výskyt srážek 12 modelů pro každý měsíc zvlášt zahrnut vliv teploty T t logit(π t ) = β 0 + β 1 Y t 1 + β 2 T t test, zda došlo v modelu ke změně Výsledek: listopad (p = 0.0432), leden (p = 0.0529) ostatní nevýznamné Testování změn v binárnách autoregresních modelech Šárka Hudecová 29/ 36
Leden Listopad 3 (k) cn 2 3 (k) cn 2 1 1 0 0 1980 1990 2000 2010 k 1980 1990 2000 2010 k Testování změn v binárnách autoregresních modelech Šárka Hudecová 30/ 36
Recese USA čtvrtletní ukazatele recese v USA z let 1855 2011 BAR(3) model test a detekce změny Testování změn v binárnách autoregresních modelech Šárka Hudecová 31/ 36
Recese USA čtvrtletní ukazatele recese v USA z let 1855 2011 BAR(3) model test a detekce změny T n 4 c 3 (k) c n 2 1 0 1850 1900 1950 2000 maximum T n = 4.7, kritická hodnota c 0.05 = 3.7 zamítáme H 0 s asymptotickou p-hodnotou 0.007 Testování změn v binárnách autoregresních modelech Šárka Hudecová 31/ 36 k
Recese USA II. T n 4 c 3 (k) c n 2 1 0 1850 1900 1950 2000 k maximum dosaženo pro první čtvrtletí 1933 kritická hodnota překročena v celém období 1927 1946 výsledky jsou v souladu s očekáváním, že ke změně došlo v období kolem 2. světové války Testování změn v binárnách autoregresních modelech Šárka Hudecová 32/ 36
Recese USA III. 1.0 0.8 0.6 0.4 0.2 0.0 1850 1900 1950 2000 Výsledný odhadnutý model: { 1.52 + 21.16y t 1 2.96 10 9 y t 2 17.99y t 3, t = 4,..., 313, logit[ π t] = 2.80 + 21.54y t 1 + 1.32 10 8 y t 2 1.834y t 3, t = 314,..., 628. Testování změn v binárnách autoregresních modelech Šárka Hudecová 33/ 36
Závěr Shrnutí BAR modely pro binární časové řady testování změny Možné další kroky odvození testu proti obecnější alternativě (změna ve více parametrech) využití jiných přístupů (bootstrap,... ) navržení podobné procedury pro další GLM časové řady (Poisson,... ) Testování změn v binárnách autoregresních modelech Šárka Hudecová 34/ 36
Děkuji za pozornost! Testování změn v binárnách autoregresních modelech Šárka Hudecová 35/ 36
Literatura Antoch, J., Gregoire, G., and Jarůšková, D. (2004). Detection of structural changes in generalized linear models. Stat. and Probab. Lett., 69:315 332. Csörgö, M. and Horváth, L. (1997). Limit Theorems in Change-Point Analysis. Wiley, New York. Einmahl, U. and Mason, D. M. (1989). Darlin-Erdös theorems for martingales. J. Theoret. Probab., 2(4), 437 460. Hall, P. and Heyde, C. C. (1980). Martingale limit theory and its application. Probability and mathematical statistics. Academic Press. Kedem, B. and Fokianos, K. (2002). Regression Models for Time Series Analysis. Wiley, New York. Philipp, W. and Stout, W. (1986). Invariance principles for martingales and sums of independent random variables. Mathematische Zeitschrift, 192:253 264. Data recese USA: De Lucca, G. and Carfora, A. (2011). Predicting binary time series with a long memory structure: an application to U.S. recession time series. Available at http://www.smye2011.org/. Kauppi, H. and Saikkonen, P. (2008). Predicting U.S. recessions with dynamic binary response models. Rev. Econ. Stat., 90(4):777 791. Startz, R. (2008). Binomial autoregressive moving average models with an application to U.S. recession. J. Bus. Econom. Statist., 26:1 8. Testování změn v binárnách autoregresních modelech Šárka Hudecová 36/ 36