Testy dobré shody pro časové řady s diskrétními veličinami

Podobné dokumenty
Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Pravděpodobnost a statistika I KMA/K413

Charakterizace rozdělení

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Odhady Parametrů Lineární Regrese

Návrhy experimentů v neparametrické regresi

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Časové řady, typy trendových funkcí a odhady trendů

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Patrice Marek. Západočeská univerzita v Plzni. * Podpořeno z OPVK CZ.1.07/2.2.00/

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. Multidimensional estimators. Základní pojmy.

Vybraná rozdělení náhodné veličiny

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Časové řady, typy trendových funkcí a odhady trendů

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Téma 22. Ondřej Nývlt

LWS při heteroskedasticitě

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Klasická a robustní ortogonální regrese mezi složkami kompozice

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a statistika

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Q-diagramy. Jiří Michálek ÚTIA AVČR

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

NMAI059 Pravděpodobnost a statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

DRN: Kořeny funkce numericky

MATEMATICKÁ STATISTIKA - XP01MST

Intervalové Odhady Parametrů

Modely CARMA. 22. listopadu Matematicko fyzikální fakulta Univerzity Karlovy v Praze. Modely CARMA. Úvod. CARMA proces. Definice CARMA procesu

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

22 Základní vlastnosti distribucí

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

17. Posloupnosti a řady funkcí

1. (18 bod ) Náhodná veli ina X je po et rub p i 400 nezávislých hodech mincí. a) Pomocí ƒeby²evovy nerovnosti odhadn te pravd podobnost

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PRAVDĚPODOBNOST A STATISTIKA

y = 0, ,19716x.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

1 Posloupnosti a řady.

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Data Envelopment Analysis (Analýza obalu dat)

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Bootstrap - konfidenční intervaly a testy

Pravděpodobnost a statistika

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Úvod do analýzy časových řad

Diskrétní náhodná veličina

Univerzita Karlova v Praze procesy II. Zuzana. funkce

Pravděpodobnost a statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Robustní statistické metody

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

4EK211 Základy ekonometrie

MODELOVÁNÍ CHVOSTŮ TEORIE EXTRÉMNÍCH ODHADY PARETOVA INDEXU. Jan Dienstbier HODNOT. contact:

11. Číselné a mocninné řady

STATISTICKÉ PŘEJÍMKY SROVNÁVÁNÍM

KGG/STG Statistika pro geografy

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Lineární a logistická regrese

Design Experimentu a Statistika - AGA46E

AVDAT Klasický lineární model, metoda nejmenších

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

STP022 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA PŘÍKLADY LS 2005/2006

Modely stacionárních časových řad

Pojistná matematika 2 KMA/POM2E

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

ZÁklady teorie pravděpodobnosti

Univerzita Karlova v Praze Matematicko-fyzikální fakulta

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

M-estimators. Oct 19th Charles University in Prague, Faculty of Mathematics and Physics. M-estimators. Základní pojmy - připomenutí.

Modely selektivní interakce a jejich aplikace

Statistika II. Jiří Neubauer

Matematika 5 FSV UK, ZS Miroslav Zelený

Základy teorie pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

Odhad parametrů N(µ, σ 2 )

15. T e s t o v á n í h y p o t é z

7. Analýza rozptylu.

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

4EK211 Základy ekonometrie

maticeteorie 1. Matice A je typu 2 4, matice B je typu 4 3. Jakých rozměrů musí být matice X, aby se dala provést

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ROBUST 1 TESTY DOBRÉ SHODY PRO MODEL. Petr Novák. 1 Regrese v analýze spolehlivosti

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Transkript:

Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová, Marie Hušková a Simos G. Meintanis KPMS MFF UK Robust 2016 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 1/ 22

Motivace: Časová řada diskrétních veličin {Y t } t N časová řada nezáporných celočíselných veličin klasické ARMA modely nelze využít Burn injuries Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Cuts Time 1986 1988 1990 1992 1994 5 10 15 20 speciální modely: INAR, INARCH,... testy dobré shody (GOF) Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 2/ 22

1 Modely INAR a INARCH 2 Testová statistika 3 Asymptotické rozdělení 4 Simulace 5 Příklad Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 3/ 22

INAR(1) model klasická autoregrese: Y t = φ Y t 1 + ε t INAR(1) Y t = p Y t 1 + ε t, kde ε t jsou iid nezáporné, diskrétní, nezávislé na Y t 1, var ε t < a je operátor (Steutel-van Harn) Y t 1 p Y t 1 = U t,i, i=1 kde U t,i jsou Alt(p) nezávislé na Y t 1 a ε t, p (0, 1) stacionární, ergodický a absolutně regulární korelace cor (Y t, Y t k ) = p k rozdělení ε t rozdělení Y t Poissonovo (speciální postavení), negativně binomické, směs Poissonových rozdělení aj. testy dobré shody Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 4/ 22

INARCH(1) model I t = σ{y s, s t} informace do času t INARCH(1) Y t I t 1 Po(λ t ), λ t = r(y t 1, θ) Poissonovská lineární autoregrese λ t = θ 1 + Y t 1 θ 2 pro θ 1 > 0, θ 2 (0, 1) stacionární, ergodický korelace cor (Y t, Y t k ) = θ k 2 var Y t > EY t (overdispersion) negativně binomický INARCH... Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 5/ 22

Test dobré shody s modelem obecný tvar modelu Y t I t 1 F( ; I t 1, θ) data Y 1,..., Y T empirická pravděpodobnostní vytvořující funkce (PGF) X diskrétní g X (u) = Eu X, u [0, 1], pro Y 1,... Y T neparametrický odhad ĝ T,Y (u) = 1 T T t=1 u Yt idea: porovnáme ĝ T,Y (u) se (semiparametrickým) odhadem využívajícím strukturu modelu Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 6/ 22

Testová statistika pro INAR model H 0 : {Y t } se řídí modelem Y t = p Y t 1 + ε t, pro p (0, 1) a g ε G θ = {g ε (, θ); θ Θ} vytvořující funkce: g Y (u) =Eu Y t = E E[u Y t Y t 1 ] = E E[u Y t 1 i=1 U t,i +ε t Y t 1 ] = E[(1 + p(u 1)) Y t 1 ] g ε (u, θ) =g Y (1 + p(u 1)) g ε (u, θ) semiparametrický odhad ĝ T 0 (u) = ĝ T,Y (1 + p(u 1)) g ε (u, θ), kde p a θ jsou vhodné odhady a ĝ T,Y je neparametrický odhad g Y testová statistika S T = T 1 kde w(u) 0 je váhová funkce 0 (ĝt,y (u) ĝ T 0 (u) ) 2 w(u)du, Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 7/ 22

Testová statistika pro INARCH model H 0 : {Y t } se řídí modelem Y t I t 1 Po(λ t ), λ t = θ 1 + θ 2 Y t 1 pro (θ 1, θ 2 ) Θ = {(θ 1, θ 2 ) : θ 1 > 0, θ 2 (0, 1)} vytvořující funkce g Y (u) = Eu Yt = E E[u Yt Y t 1 ] = E[e (u 1)(θ 1+θ 2 Y t 1 ) ] = e θ1(u 1) ( ) g Y e (u 1)θ 2 semiparametrický odhad ĝ T 0 (u) = e θ 1 (u 1)ĝ T,Y (e θ 2 (u 1) ), kde ( θ 1, θ 2 ) je vhodný odhad testová statistika S T = T 1 0 (ĝt,y (u) ĝ T 0 (u) ) 2 w(u)du Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 8/ 22

Předpoklady pro INAR (A1) {Y t} se řídí INAR(1) za platnosti H 0 (A2) existuje g ε/ θ splňující pro u [0, 1] a θ θ 0 D 2 gε gε (u; θ) θ θ (u; θ 0) D 1 θ 0 θ v(u) a gε (u; θ) θ D 3v(u) pro D 1, D 2, D 3 > 0 a vhodnou funkci v( ). (A3) 0 < 1 0 w(u)du <, 1 0 w(u)v 2 (u)du < (A4) odhad ϑ T = ( p T, θ T ) splňuje T ( ϑt ϑ 0 ) = 1 T T l(y t q; ϑ 0 ) + o P (1), t=1+q kde Y t q = (Y t,..., Y t q), q 1 je pevné a l = (l 1, l 2 ), kde l j (Y t q; ϑ 0 ), j = 1, 2 jsou posloupnosti martingalových diferencí s konečným rozptylem Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 9/ 22

Asymptotické rozdělení pro INAR Věta Platí-li podmínky (A1) (A4), pak S T konverguje v distribuci k 1 0 Z 2 (u; p 0, θ 0 )w(u)du, kde {Z(u; p 0 [, θ 0 ), u [0, 1]} je centrovaný Gaussovský ] proces s kovarianční strukturou E Z q+1 (u 1 ; p 0, θ 0 )Z q+1 (u 2 ; p 0, θ 0 ) pro u 1, u 2 [0, 1], kde a Z t(u; p, θ) =u Y t (1 + p(u 1)) Y t 1 g ε(u; θ) + h 1 (u; p, θ)l 1 (Y t q; p, θ) + h 2 (u; p, θ)l 2 (Y t q; p, θ) h 1 (u; p, θ) = g Y (1 + p(u 1)) gε(u; θ) g ε(u; θ), h 2 (u; p, θ) = g Y (1+p(u 1)). p θ Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 10/ 22

Poznámky limitní rozdělení závisí na neznámých hodnotách konzistentní odhad kovarianční strutury parametrický bootstrap odhad ( p, θ) např. metodou nejmenších čtverců (CLS) platí (A4) váhová funkce w(u) = u a, a 0 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 11/ 22

Rozdělení za alternativy Alternativa g ε G θ Theorem Necht se {Y t } řídí INAR(1) modelem a necht platí (A3), ( p T, θ T ) P (p, θa ) a g ε (u; θ) je spojitá v θ pro všechna u [0, 1]. Pak pro T S T T P 1 0 [ g Y (1 + p(u 1))(g ε (u) g ε (u; θ A ))] 2w(u)du. konzistetní test alternativy porušení INAR struktury Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 12/ 22

Předpoklady pro INARCH (B1) {Y t } se řídí INARCH(1) za platnosti H 0 (B2) odhady θ 1T, θ 2T splňují T ( θjt θ j0 ) = 1 T T t=q+1 l j (Y t q ; θ 10, θ 20 ) + o P (1), j = 1, 2, kde q 1 je pevné a l j (Y t q ; θ 10, θ 20 ), j = 1, 2 jsou posloupnosti martingalových diferencí s konečným rozptylem (B3) 0 < 1 0 w(u)du < Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 13/ 22

Asymptotické rozdělení pro INARCH Theorem Platí-li (B1) (B3), pak S T konverguje v distribuci k 1 0 V 2 (u; θ 10, θ 20 )w(u)du, kde {V(u; θ 10 [, θ 20 ), u [0, 1]} je centrovaný Gaussovský ] proces s kovarianční strukturou E V q+1 (u 1 ; θ 10, θ 20 )V q+1 (u 2 ; θ 10, θ 20 ) pro u 1, u 2 [0, 1], kde V t(u; θ 1, θ 2 ) =u Y t exp{(θ 1 + θ 2 Y t 1 )(u 1)} + r 1 (u; θ 1, θ 2 )l 1 (Y t q; θ 1, θ 2 ) + r 2 (u; θ 1, θ 2 )l 2 (Y t q; θ 1, θ 2 ) a [ ] [ ] r 1 (u; θ 1, θ 2 ) = E e (θ 1+θ 2 Y 1 )(u 1) (u 1), r 2 (u; θ 1, θ 2 ) = E Y 1 e (θ 1+θ 2 Y 1 )(u 1) (u 1). parametrický bootstrap Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 14/ 22

Simulace test založený na parametrickém bootstrapu CLS odhady, w(u) = u a pro a = 0, 1, 2, 5 B = 500; empirická síla spočtená z 500 opakování T = 50, 100, 500 hladina testu H 0 : Poissonovský INAR(1) síla pro g ε negativně binomické g ε směs dvou Poissonových rozdělení g ε směs Poissonova a Diracovy míry v 0 Poissonovský INARCH(1) H 0 : Poissonovský INARCH(1) síla pro negativně binomický INARCH(1) Poissonovský INAR(1) Poissonovský INGARCH(1,1) Poissonovský INARCH(1) se změnou v hladině Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 15/ 22

Hladina testu H 0 : INAR(1) α T a 0.01 0.05 0.1 50 0 0.008 0.044 0.100 50 1 0.008 0.050 0.102 50 2 0.006 0.054 0.112 50 5 0.008 0.056 0.110 100 0 0.004 0.038 0.080 100 1 0.004 0.040 0.082 100 2 0.006 0.042 0.088 100 5 0.012 0.052 0.102 500 0 0.018 0.038 0.090 500 1 0.016 0.044 0.090 500 2 0.010 0.042 0.088 500 5 0.010 0.044 0.094 H 0 : INARCH(1) α T a 0.01 0.05 0.1 50 0 0.006 0.038 0.082 50 1 0.008 0.036 0.092 50 2 0.006 0.040 0.090 50 5 0.004 0.044 0.090 100 0 0.002 0.036 0.094 100 1 0.004 0.042 0.096 100 2 0.002 0.042 0.096 100 5 0.006 0.044 0.094 500 0 0.006 0.036 0.080 500 1 0.006 0.034 0.092 500 2 0.004 0.042 0.092 500 5 0.008 0.040 0.102 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 16/ 22

Síla testu: Negativně binomický INAR g ε je NB tak, že var ε t = θ(1 + θ/r) INAR H 1 : NB r = 2 INAR H 1 : NB r = 5 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 power 0.0 0.2 0.4 0.6 0.8 1.0 a=0 a=1 a=2 a=5 T=50 T=100 T=500 0.0 0.2 0.4 0.6 0.8 1.0 α 0.0 0.2 0.4 0.6 0.8 1.0 α Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 17/ 22

Síla testu: Směs Po a Diracovy míry g ε odpovídá ψd 0 + (1 ψ)po(λ) INAR H 1 : Dirac ψ = 0.1 INAR H 1 : Dirac ψ = 0.2 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 power 0.0 0.2 0.4 0.6 0.8 1.0 T=50 T=100 T=500 a=0 a=1 a=2 a=5 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 α α Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 18/ 22

Příklad British Columbia Workers Compensation Board: měsíční počty žádostí o invalidní dávky, Freeland (1998) Burn injuries Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Soft tissue injuries Time 1986 1988 1990 1992 1994 4 6 8 10 14 Cuts Time 1986 1988 1990 1992 1994 5 10 15 20 Dermatitis Time 1986 1988 1990 1992 1994 0.0 0.5 1.0 1.5 2.0 Dislocations Time 1986 1988 1990 1992 1994 0 1 2 3 4 Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 19/ 22

Příklad pokrač. Lze tato data úspěšně popsat INAR(1) modelem? a Řada 0 1 2 5 10 1 0.653 0.652 0.698 0.771 0.862 2 0.561 0.596 0.579 0.662 0.665 3 0.020 0.002 0.001 0.000 0.000 4 0.270 0.270 0.295 0.386 0.506 5 0.444 0.486 0.579 0.661 0.749 pro řady 1,2,4,5 se model INAR(1) jeví jako adekvátní pro řadu 3 nelze INAR(1) použít Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 20/ 22

Závěrečné poznámky snadné rozšíření pro modely vyšších řádů INAR(p), INARCH(p), p > 1 a na obecnější INARCH simulace: test má dostatečnou sílu pro různé odchylky od Poissonova rozdělení i pro změnu struktury modelu hledání optimální váhové funkce Děkuji za pozornost Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 21/ 22

Literatura Příspěvek je založený na článku Data Hudecová, Š., Hušková, M., Meintenis, S.G. (2015): Tests for time series of counts based on the probability-generating function. Statistics 49(2), 316-337. Freeland R.K. (1998): Statistical Analysis of Discrete Time series with Application to the Analysis of Workers Compensation Claims Data (PhD thesis). Management Science Division, Faculty of Commerce and Business Administration, University of British Columbia. Zhu F. and Joe H. (2006) Modelling count data time series with Markov processes based on binomial thinning. J Time Series Anal. 27: 725 738. Modely pro diskrétní časové řady McKenzie E. (2003): Discrete variate time series. In Shanbhag and Rao (eds.): Handbook of Statistics 21: 573 606. Fokianos K. (2011): Some progress in count time series models. Statistics 45: 49 58. Testy dobré shody pro časové řady s diskrétními veličinami Šárka Hudecová 22/ 22