ROUST 2004 c JČMF 2004 ČASOPROSTOROVÉ ODOVÉ PROCESY Viktor eneš, Michaela Prokešová Klíčová slova: Časoprostorové procesy, kótovaný bodový proces, věrohodnost, Coxovy procesy, podmíněná intenzita, metoda minimálního kontrastu. Abstrakt: Příspěvek uvádí základní přístupy k modelování náhodných bodovýchprocesůvčaseaprostoru.vprvníčástisepracujespojmempodmíněné intenzity v kontextu kótovaných časových procesů. Druhá část se zabývá dvojně stochastickými procesy, kde se porovnávají modely s různě definovanými řídícími poli. 1 Základní pojmy časoprostorových procesů Časoprostorové bodové procesy se užívají k modelování náhodných událostí v čase a prostoru(prostoru nejčastěji dvou- či tří- dimenzionálním). Oborů aplikací je mnoho, jmenujme např. epidemiologii výskyty nákazy v regionu, nukleární medicínu z radioaktivního zdroje implantovaného v orgánu se zachycují fotony na povrchu detektoru, seismologii epicentra zemětřesení v Zemi, životní prostředí- výskyt lesních požárů, nebo zemědělství růst plevele na poli, apod. O časoprostorových bodových procesech pojednávají monografie[12] a zejména[6], další časopisecké citace obsahuje přehledový článek[11]. V definici náhodného bodového procesu na podmnožině S Eukleidovského prostoru R d seoznačí Nsystémlokálněkonečnýchpodmnožin Savybavíse σ-algebrou N= { N;card( A)=m, m=0,1,2,..., A (S)},kde (.)značíborelovskou σ-algebrunapříslušnémnožině, (R k )= k.náhodný bodovýprocesjepotomnáhodnýelement X: (Ω, A, P) (N, N),kde zobrazení je definováno na obecném pravděpodobnostním prostoru. Současně X(A)značípočetbodů Xv A (S).Zabývejmesepojmemvěrohodnost realizace(x 1,..., x n )bodovéhoprocesu Xvomezenémnožině A S. Janossyhomíra J n (restrikcena A)mátvar J n (dx 1 dx n A) P(právě nbodůvapojednomvdx 1,...,dx n ) (v tomto přehledovém článku kvůli stručnosti stavíme na heuristických definicích, rigorozní postup lze najít např. v[6]. odový proces se nazývá regulární,existuje-lihustota j n míry J n vzhledemkµ n,kde µjedanáreferenční míra na S. Potom věrohodnost L A realizace(x 1,..., x n ) na A je L A (x 1,...,x n )=j n (x 1,..., x n A). Zajímá nás analytické vyjádření věrohodnosti. Uvažme nejprve Poissonův bodovýprocesva R d sfunkcíintenzity λ(x).zderealizace(x 1,..., x n ), má věrohodnost n ( ) L A = λ(x i )exp λ(x)dx. A i=1
18 Viktor eneš, Michaela Prokešová Provětšinujinýchprostorových(v R d )procesůjevyjádřenívěrohodnosti obtížné. Pročasovýbodovýproces X v R + vhodnýmpodmíněním σ-algebrou událostídočasu tdefinujemepodmíněnouintenzitu λ předpisem H t λ (t)dt E[X(dt) H t ]. Položme A=[0, T]auvažmerealizaci t 1 < t 2 < < t X(T) procesu Xna A, píšeme X(T)=X(A).Zdeobecněmávěrohodnosttvar L A (t 1,...,t X(T) )= X(T) i=1 λ (t i )exp ( T 0 λ (x)dx ). (1) Proto časová poloosa díky svému uspořádání podpoří modelování časoprostorového bodového procesu, technickým nástrojem je kótovaný bodový proces. Nechť(K, K )jeseparabilníúplnýmetrickýprostorkótsreferenčnímírou λ K. Kótovanýbodový procesvznikápřiřazenímkót k i K bodům x i S. Xjekótovanýbodovýproces {(x i, k i )}na S Kje-li X g = {(x i )} bodový proces na S. Časoprostorový proces je potom kótovaný bodový procesna R + R d.kótovanýbodovýproces Xna S Ksenazýváregulární, jestliže existuje Janossyho hustota j n (t 1,...,t n, k 1,..., k n )dt 1...dt n λ K (dk 1 )... λ K (dk n ) P( bodyvdt i skótamivdk i ). Proregulárníkótovanýbodovýproces Xna R + Ksedefinujepodmíněná intenzitajakonáhodnáfunkce λ (t, k) E[X(dt dk) H t ]. Realizace X na[0, T] Ktvaru(t 1, k 1 ),...,(t Xg(T), k Xg(T))mávěrohodnost L T = X g(t) i=1 λ (t i, k i )exp ( T 0 K λ (u, v)duλ K (dv) ). (2) Jedním ze základních modelů časoprostorových bodových procesů jsou samobudící se procesy. Dospějeme k nim tak, že nejprve popíšeme časový Hawkesůvprocesna S R + ([7]).Vtomtomodeluseuvažujídvatypy bodůa)stacionárnípoissonůvbodovýprocesimigrantůsintenzitou µ c,b) proexistujícíbody t i následnícitvořínezávislépoissonovybodovéprocesy smírouintenzity µ(a t i ),kde µ(s) <1asuppµ R +.Hustotu µvzhledem k Lebesgueově míře značíme též µ. Podmíněná intenzita Hawkesova procesu je lineární: λ (t)=µ c + µ(t t i ). 0<t i< t Tedy pro parametrický tvar hustoty µ se odhad parametrů modelu realizuje metodou maximální věrohodnosti užitím(1).
Časoprostorové bodové procesy 19 Ověření shody modelu s daty(viz[9]) je založeno na jiném základním principu nazývaném náhodná změna času(viz[14]). Volně řečeno, procházíme-li R + od0tak,ževčase tjerychlost 1 λ (t),potomokamžiky,kdy dosahujeme body procesu, tvoří stacionární Poissonův proces s jednotkovou intenzitou.tedypoodhadu λ následujeposouzenítransformovanérealizace známými metodami pro stacionární Poissonův proces. IntegrálzpodmíněnéintenzityΛ (t)= t 0 λ (u)dusenazývákompenzátorbodovéhoprocesu Xna R + aznámýjerozkladformulovanývnásledujícívětě. Xjeadaptovanýnafiltraci F= {F t, t R + }(rostoucísystém σ-algeber),jestliže X(t)je F t -měřitelnéprokaždé t. Věta1.1. Nechť Xjeadaptovanýnafiltraci Famáspojitoupodmíněnou intenzitu λ,pakproces M(t)=X(t) Λ (t) je F-martingal,t.j.prokaždé s > t >0 E[M(s) F t ]=M(t). Pro časoprostorové procesy formulujeme princip náhodné změny času přesně. Věta 1.2. Nechť X jekótovanýbodovýprocesna R + K spodmíněnou intenzitou λ (t, κ)kladnouna[0, ) Kazlevaspojitouvtλ K -s.j.,skompenzátorem Λ k(t)= t 0 λ (s, k)ds, splňujícímλ k (t) při t, λ K-s.j.Potompřináhodnýchzměnách času (t, k) (Λ k (t), k), je X transformován na kótovaný Poissonův proces s jednotkovou časovou intenzitouastacionárnímrozdělenímkóty λ K (.). Obecněplatí λ (t, k)=λ g (t)f (k t), kde f (k t)jepodmíněnáhustota kótyvčase tpřidaném H t a λ g jepodmíněnáintenzita X g.uprocesu snepredikovatelnýmikótami,kdyrozděleníkótyvx i nezávisínapolohách akótách {(x j, k j )},proněž x j < x i,je f (k t)=f(k t)nenáhodnáfunkce. Jako aplikaci časoprostorového bodového procesu uvádíme modelování výskytu zemětřesení podle[10] založené na ETAS modelu(epidemic-type aftershock sequence), což je zobecněný Hawkesův samobudící se proces. Výskyty zemětřesení jsou popsány kótovaným bodovým procesem s časovoudynamikouakótami(x, y, M),kde(x, y)jeprůmětepicentranazemský povrch a M síla zemětřesení. Jsou dány předpoklady: a) λ (t, x, y, M)=j(M)λ (t, x, y)pronějakoudeterministickoufunkci j,
20 Viktor eneš, Michaela Prokešová b) intenzita imigrantů je funkcí(x, y) c) následníci jsou nezávislí, jejich střední počet je κ(m), d) rozděleníčasuvětvenímáhustotupravděpodobnosti g(t τ),kde τje okamžik výskytu předchůdce, e) rozdělenísílyresp.polohyzávisínasílepředchůdce M ajehopoloze ξ, ηshustotami j(m M )resp. f(x ξ, y η M ) V zavedeném ETAS modelu je podmíněná intenzita λ (t, x, y)=µ(x, y)+ κ(m i )g(t t i )f(x x i, y y i M i ). i:t i<t Parametrická volba funkcí f a g umožňuje odhad parametrů modelu maximalizací věrohodnosti(2) a následně testování shody modelu s daty založené namyšlencezvěty1.2. 2 Časoprostorové Coxovy bodové procesy V další části představíme tři modely časoprostorových bodových procesů s aplikacemi zvláště v epidemiologii a ekologii. Všechny tři modely jsou Coxovy procesy, ovšem s různými typy řídících náhodných polí. Začněme tedy definicícoxovaprocesuobecněna R n. Definice2.1.uď {Z(s):s S}, S R n nezápornénáhodnépoletakové, žespravděpodobností1je s Z(s)lokálněintegrovatelnáfunkce. X nazveme Coxovým procesem řízeným polem Z(alternativně Coxovým procesem sřídícíintenzitou Z),pokudjepodmíněnérozdělení Xzapodmínky Z= z rovno rozdělení Poissonova procesu s funkcí intenzity z. Uvažujeme-liCoxůvprocesnaomezenémnožině S, <,potom je jeho hustota vzhledem ke standardnímu Poissonovu procesu dána vzorcem [ ( ) ] f(x)=e exp Z(s)ds Z(s), x N(S). (3) Explicitní vyjádření použité střední hodnoty obvykle není k dispozici a numerická aproximace by vyžadovala počítání mnohorozměrných integrálů velké dimenze. Protože je ale díky podmíněné struktuře Coxových procesů a obecným vlastnostem Poissonova procesu možné vyjádřit různé charakteristiky procesu X pomocí charakteristik použitého řídícího pole, máme k dispozici jednoduché momentové metody odhadu parametrů modelu. Přímo z definice Coxova procesu plyne, že pro míru intenzity procesu X platí Λ()= Z(s)ds, S, (4) nepodmíněná funkce intenzity je tedy rovna ρ(s) = EZ(s), a párová korelační funkce je dána vztahem s x g(s 1, s 2 )=E[Z(s 1 )Z(s 2 )]/[ρ(s 1 )ρ(s 2 )]. (5)
Časoprostorové bodové procesy 21 Obdobně se i další momentové míry a faktoriální momentové míry dají vyjádřit pomocí momentů náhodného pole Z. Další výhodou Coxových procesů je,žepřivhodnévolběmodeluprořídícípole Zmůžemezískatvelmiflexibilní popis časoprostorové kovarianční struktury pozorovaného procesu X, použitelný pro nejrůznější reálné aplikace. Dobře interpretovatelnou variantou Coxových procesů jsou takzvané log- GaussovskéCoxovyprocesy(LGC)prokteré Z(s)=exp(Y(s)),kde Y(s) je Gaussovské pole se střední hodnotou µ(s) = EZ(s) a kovarianční funkcí c(s 1, s 2 )=Cov(Z(s 1 ), Z(s 2 )).AbybylodpovídajícíCoxůvprocessprávně definován, je třeba splnit jistá kritéria na hladkost kovarianční funkce viz[8]. V modelu nepožadujeme stacionaritu procesu Y, ale předpokládáme-li translační invariantnost a izotropii kovarianční funkce c dostáváme velmi jednoduchévztahymezi µac(charakteristikamiprocesu Y)afunkcíintenzity ρ apárovoukorelačnífunkcí g(s 1, s 2 )=g( s 1 s 2 )procesu X g( s 1 s 2 ) = exp(c(s 1, s 2 )), (6) ρ(s) = exp(µ(s)+c(s, s)/2). (7) Odhady v LGC modelech se provádí metodou minimálního kontrastu, kdyodhadyparametrůparametrizujících µacatedyicelýlgcmodeljsou hodnoty argumentu minima integrovaných rozdílů mezi teoretickou hodnotou a neparametrickým odhadem ĝ funkce g a2 a 1 {(log ĝ(r)) b (log g(r)) b } 2 dr. (8) Logaritmusepoužívákvůlistabilizacirozptylu, a 1, a 2 a bjsouvolenékonstanty. Při použití Coxových procesů pro časoprostorové modelování se neužívá přístup pomocí kótovaných bodových procesů z první části našeho článku. Přímočarávolba(viz[3])jeuvažovatvdefinici1prostor S=[0, ) R n, kdeprvnírozměrodpovídáčasuanjevreálnýchaplikacíchrovno2nebo3. Nejprvevšakpopíšemejinýmodelz[5](obaužívajíLGCproces),kdejde oprostorovýcoxůvprocesměnícísevčasejakoprocesrození.data,naněž je model aplikován, jsou pozice rostlinek dvou různých druhů plevele na ječmenném poli pozorované v diskrétních časových okamžicích během několika týdnů po jeho přeorání. Tedy začínáme s prázdnou konfigurací a postupně námbodypřibývají.zde X i (t), t 0značíprostorovýprocesvR 2 závisející načase t,dvěmadruhůmpleveleodpovídá i=1,2.podmíněněnagaussovskémprocesu Y na R 2 jsou X i (t)nezávislépoissonovyprocesyrození, na S=[0, ) R 2 majímíruintenzity γ i ν i.předpokládáme,že γ i jsou absolutně spojité deterministické míry na[0, ) a ν i () = exp(y i (s))ds, 2 Y i = ωv+ σ i U i + m i, i=1,2,
22 Viktor eneš, Michaela Prokešová kde V, U 1, U 2 jsounezávislécentrovanégaussovsképrocesysjednotkovým rozptylemakorelačnímifunkcemi r, r 1, r 2.Tybylyvolenyizotropnívexponenciálnímtvaru r i (a)=exp( a/β i ).Parametrymodelu β, β 1, β 2, ω, σ 1 a σ 2 >0( prostorové parametry)seodhadujímetodouminimálníhokontrastuam i jedeterministickástředníhodnotaprostorovéhogaussovského procesu. Ověření odhadnutého modelu se provádí simulačními testy různých charakteristik jako třeba funkce prázdného prostoru F (viz[13]) či párové korelační funkce g. Právě předvedený LGC model je sice časoprostorový, ale díky součinovémutvaruintenzity γ i ν i anezávislostináhodnýchpolí Y i načaseječasoprostorová interakce a závislost dosti omezená. Větší flexibilitou se v tomto ohledu vyznačuje model z článku[3], který používá pro definici podmiňovací míry intenzity opravdu časoprostorový Gaussovský proces Y(t, s). Článek se zabývá epidemiologickou aplikací. Situace, kterou má daný Coxův proces modelovat, jsou výskyty určité nemoci v různých místech sledovaného regionu oznamované v diskrétních, ale vzhledem k rychlosti změny intenzity výskytu této nemoci velmi častých časových intervalech. Cílem je odhadnout z pozorovaných případů intenzitu rizika vzniku nemoci v daném čase a zvláště její lokální zvýšení. Coxův proces je v tomto případě vhodným modelem, protože jak bylo ukázáno v[1] existuje dualita mezi časoprostorovou nehomogenitou rizika a časoprostorovým shlukováním pozorovaného procesu jednotlivých případů onemocnění. Každý takový shluk případů tedy odpovídá lokálně zvýšené řídícíintenzitě Z(t, s)atasevmodelumusíměnitsdruženěvprostoruačase. Řídícípole Zjedánorovnicí Z(t, s)=λ(s)exp{y(t, s)}, (9) kde Y(t, s) je stacionární Gaussovský proces a λ(s) je deterministická funkce. Zde λ(s) popisuje změny v prostorové intenzitě ohrožené populace a Y(t, s) odpovídá riziku nakažení chorobou v čase t a místě s. Protože pozorování jsou prováděna v diskrétních časových okamžicích t 1,..., t n,jeřídícíintenzitaprostorovéhocoxovaprocesupřípadůzaznamenanýchmezičasy t 1 a t 2 rovna λ(s) t 2 t 1 exp{y(t, s)}dt, s R 2.Tatoveličina ovšem nedefinuje prostorový LGC proces a není známo její přesné rozdělení. Protosepropočetpřípadů X ti ()mezi t i 1 a t i v 2 připevném Y volí model Poissonova rozdělení X ti () Poisson [ (t i t i 1 ) ] exp{y(t i, s)}λ(s)ds, spoléhajícísenadostatečněmalérozdílymezičasy t i a t i 1.Zvýpočetních důvodů se diskretizuje proces Y také prostorově, rozdělením celého sledovanéhoúzemínavelkémnožstvíbuněk.vtaktoupravenémmodeluužjsoukdispozicijednoducháanalytickávyjádřeníprostorovýchintenzit ρ ti apárové korelační funkce g a opět je možno použít metodu minimálního kontrastu porovnáním s jejich neparametrickými odhady z dat.
Časoprostorové bodové procesy 23 Poslední model, který v tomto přehledu ukážeme, je poněkud složitější a používá jinou třídu Coxových procesů než předešlé dva. Jsou to takzvané G shot noise Coxovy procesy(gsnc) zavedené v[2]. uď {u j, w j } S [0, ), S mathcal k realizacepoissonovabodovéhoprocesuπna S [0, )smírouintenzitysoučinovéhotvaru ν κ,α,τ (A )=(κ(a)/γ(1 α)) w α 1 exp( τw)dw, A S, [0, ),kde α <1aτ 0jsouparametrys τ >0pro α 0aκje nezápornáanenulováradonovamírana S.Realizaci {u j, w j }jednoznačně odpovídá takzvaná G-míra m(a)= j w j δ uj (A), A S kde δznačídiracovumíruvbodě u j.řídícípoleg-shotnoisecoxovaprocesu X je pak definováno vzorcem Z(s)= j k(s, u j )w j, kde k(, u) je jádro(pro jednoduchost můžeme předpokládat, že k(, u) je hustotaspojiténáhodnéveličiny).pro α <0je {u j }Poissonůvprocessmírou intenzity τ α κ( )a{u j}jsounezávislénahodnotáchveličin w j,kteréjsou vzájemně nezávislé a mají všechny stejné Gamma rozdělení Γ( α, τ). Situace jesložitějšípro α 0,protožepakmámenekonečněmnohobodů {u j }ipro omezenou množinu S. V práci[4] byly GSNC procesy rozšířeny na časoprostorové GSNC procesy. Zde analyzovaná data byla stejná jako v[5], tedy vývoj růstu plevele, ale nyní byl každý druh analyzován zvlášť. Základní myšlenka časoprostorového rozšíření spočívá v definování rodiny G-měr m t, t 0na S,odpovídajícíchintenzitám ν κt,α,τs κ t (ds)=(t)ds, kde (t), t 0jekumulativnídistribučnífunkce,tak,žeirozdíly(m t+ t m t )jsoug-míryajsounezávisléna m t.rodinaodpovídajícíchintenzit Z t ( ) (s použitím jádra k(, u) nezávislého na čase t) pak určuje časoprostorový GSNC proces X na S [0, ). Takto definovaný proces má nezávislé přírůstky v čase, takže je možné interpretovat výsledný bodový vzorek jako součet podle času nezávislých prostorových GSNC procesů(připomeňme si, že toto neplatí pro LGC model, protože ten má nezávislé přírůstky v čase pouze podmíněně na řídící Gaussově intenzitě a součet dvou LGC procesů také není LGC proces.) Stejně jako v případě LGC procesů se i zde parametry odhadují metodou minimálního kontrastu z ρ a g a ověření odhadnutého modelu se provádí
24 Viktor eneš, Michaela Prokešová simulačními testy vybraných charakteristik. Co se týče simulování GSNC procesu na omezeném okně S, je třeba řešit problém okrajových efektů, a to způsobených jednak jádrovými funkcemi s neomezeným nosičem(k intenzitě GSNCprocesu Xpozorovanéhov Spřispívajíibody u j nacházejícísevelmi dalekood S),jednakpro α 0faktem,žecard({u j })=.Toseřešíjednak simulacípoissonovaprocesu {u j }navětšímokněnežje S,jednakoříznutím počtu {u j }dostatečněvelkoukonstantou.jsoukdispoziciiodhadytakto způsobené chyby v simulované řídící intenzitě, viz[2],[4]. Reference [1] artlett, M.(1964) Spectral analysis of two-dimensional point processes. iometrika51,299 311. [2] rix, A.(1999) Generalized gamma measures and shot-noise Cox processes. AdvancesinAppl.Probab.31,929 953. [3] rix, A. and Diggle, P. J.(2001) Spatiotemporal prediction for log-gaussian Coxprocesses.J.R.Stat.Soc.Ser.63,823 841. [4] rix, A. and Chadoeuf, J.(2002) Spatio-temporal modeling of weeds by shotnoise G Cox processes. iometrical Journal 44, 83 99. [5] rix,a.andmoller,j.(2001)space-timemultitypeloggaussiancoxprocesseswithaviewtomodellingweeds.scand.j.statist.28,471 488. [6] Daley D.J., Vere-Jones D.(2003) An Introduction to the Theory of Point Processes, Vol. I: Elementary Theory and Methods. Second Ed. Springer. [7] Hawkes A.G.(1971) Spectra of some self-exciting and mutually exciting point processes. iometrika 58, 83 90. [8] Moller J.; Syversveen, A. R.; Waagepetersen, R. P.(1998) Log Gaussian Cox processes. Scand. J. Statist. 25, 451 482. [9] Ogata Y.(1988) Statistical models for earthquake occurrences and residual analysisforpointprocesses.j.amer.statist.assoc.83,9 27. [10] Ogata Y.(1998) Space-time point process models for earthquake occurrences. Ann.Inst.Statist.Math.50,379 402. [11] Schoenberg F.P., rillinger D.R., Guttorp P.(2002) Point processes, spatialtemporal. In: Encyclopedia of Environmetrics, Ed. by El-Shaarawi A.H., PiegorschW.W.,Wiley,3,1573 1577. [12] Snyder D.L., Miller M.I.(1991) Random Point Processes in Time and Space. Wiley, New York. [13] Stoyan, D., Kendall, W. S., Mecke, J. Stochastic geometry and its applications. Chichester: Wiley. [14] Watanabe S.(1964) On discontinuous additive functionals and Levy measures ofamarkovprocess.japanesej.math.34,54 70. Poděkování: Tato práce vznikla za podpory grantů GAČR 201/03/0946 a MSM 113200008. Adresa: V.eneš, M.Prokešová, KPMS MFF UK, Sokolovská 83, 18675Praha8 E-mail: benesv@karlin.mff.cuni.cz, prokesov@karlin.mff.cuni.cz