ROBUST 2002, 163 177 c JČMF 2002 METODASEGMENTACEV CHANGE POINT PROBLÉMU MARTIN JANŽURA, JAN NIELSEN Abstract. The method of segmentation is used to solve the change-point problem. Rez mз. Metod segmentacii primenen k rexeni problemy detekcii razladki. 1. Úvod Obecně je úloha detekce změn formulována tak, že cílem je zjistit, zda v nějaké časové posloupnosti došlo ke změnám v pravděpodobnostním rozdělení, kterým se řídí pozorované veličiny. Máme tedy náhodné veličiny X 1,...,X N, kde vpřípadějejichnezávislosti předpokládáme,ževeličina X i mározdělení p i pro i=1,...,n.(uzávislýchveličinbychommuseliuvažovatrozdělenípodmíněná minulostí,tedy L(X i X i 1,..., X 1 )=p i (x i x i 1,...,x 1 )pro i=1,...,n).statistická úloha detekce změny je potom testování hypotézy H 0 : p 1 = =p N proti různě obecným alternativám(viz např. Csörgö a Horváth(1997) nebo Antoch, Hušková a Jarušková(1998)). Je přitom zřejmé, že zcela obecným a úplným řešením by bylo nalezení přímo posloupnosti p 1,...,p N. Takto obecnou úlohu však pochopitelně nelze řešit. Budeme tedy uvažovat některá zjednodušení. Předně nebudeme předpokládat zcela obecná rozdělení, ale vymezíme pevně danou konečnou množinu přípustných distribucí P= {p (a) } a A, kde A je konečná množina návěští ( štítků, jmen ). Posloupnost distribucí p 1,..., p N,kde p i Pprokaždé i=1,...,n,námtaktopřirozeněindukujeposloupnost návěští a N =(a 1,...,a N ) A N kdevždy p i = p (ai) pro i=1,...,n. Projednoduchostbudemepředpokládat p (a) >0provšechna a A.Můžeme nyní psát N L(X 1,..., X N a 1,..., a N )= p (ai) (x i ) 2000 Mathematics Subject Classification. 62M99 62P12. Klíčová slova. Segmentace, detekce struktuálních změn statistických modelů, statistický rozhodovací problém, metoda MAP, simulované žíhání, Metropolisnlv-Hastingsv algoritmus. Tato práce je podporována grantem GA ČR 201/00/1149. i=1
164 Martin Janžura, Jan Nielsen pronezávislápozorování(případně N i=1 p(ai) (x i x i 1,...,x 1 )prozávislá).totorozdělenípakbudemepovažovatzapodmíněnérozdělenívektoruveličin X 1,..., X N za podmínkyposloupnostinávěští a 1,..., a N. Navíc budeme předpokládat, že průběh změn v posloupnosti není libovolný, ale je ovlivněn nějakou vnitřní strukturou, a proto všechny posloupnosti nejsou nutně stejně možné, ale existuje nám známé apriorní rozdělení {P(a (N) )} an A (N), kdeopětprojednoduchost P >0. Tímtosepřímonabízířešitúlohunalezeníposloupnosti a N =(a 1,..., a N )na základědat x N =(x 1,..., x N ),vzniklýchpozorovánímposloupnosti X 1,...,X N, pomocí bayesovského přístupu. Vzhledem k tomu, že v typických situacích, které budeme mít na mysli, nebudou změny příliš časté a tudíž se posloupnosti návěští budou podle očekávání skládat z homogenních úseků(segmentů), metoda zvolená v tomto článku se podobá metodám segmentace(či klasifikace) známé např. v oblasti zpracování obrazu(viz Winkler(1995) pro přehled). V následující části navrhneme řešení v rámci obecného bayesovského rozhodovacího problému. 2. Bayesovské řešení statistického rozhodovacího problému Statistický rozhodovací problém je dán čtveřicí(viz např. Vajda(1987)) {Y, Q, D, Z}, kde Yjestavovýprostor, Q={q θ } θ Θ jeparametrickárodinapravděpodobnostních rozdělení, Djemnožinamožných rozhodnutí a Z=Θ D [0, ) je ztrátová funkce, kde Z(θ, d) vyjadřuje ztrátu, která nastane při rozhodnutí d, jestliže skutečná hodnota parametru je θ Θ. Provolbu dobrého rozhodnutípakmámekdispozicipozorování y Y,přičemž tuto volbu popisuje rozhodovací funkce δ: Y D. Kvalitu rozhodovací funkce posuzujeme podle ztráty Z(θ, δ)= Z(θ, δ(y))dq θ (y) spojené s touto rozhodovací funkcí.(necháme v těchto úvahách stranou otázku měřitelnoti jednotlivých zobrazení. Můžeme např. pro jednoduchost považovat všechny množiny za konečné.) Cílem úlohy je pak nalézt takovou rozhodovací funkci, která ztrátu v nějakém smyslu minimalizuje. Pokudpronějakourozhodovacífunkci δ s je Z(θ, δ s )=min Z(θ, δ) prokaždé θ Θ, δ jetato δ s stejnoměrněnejlepšímřešením.řešeníminimaxníjedánopodmínkou max Z(θ, δ m)=minmax Z(θ, δ). θ Θ δ θ Θ
Metodasegmentacev change point problému 165 My zde budeme předpokládat, že máme na prostoru Θ nějakou apriorní distribuci Q(θ).Potomjebayesovskýmřešenímtakovérozhodovacífunkce δ b,kteráminimalizuje očekávanou ztrátu Z(δ)= Z(θ, δ) dq(θ), tedy Označme nyní Z(δ b )=min Z(δ). δ Z(d y) = Z(θ, d) dq(θ y) (kdepřirozeně Q(θ y)= Q(θ;y) Q(y) = qθ (y) Q(θ) qτ (y)dq(τ) ). Tvrzení:Bayesovskéřešení δ b rozhodovacíhoprocesujedánopředpisem Z(δ b (y) y)=min d D Z(d y). Důkaz: Nechť δ je nějaká jiná rozhodovací funkce. Potom Z(δ b )= Z(δ b (y) y)dq(y) Z(δ(y) y) dq(y) = Z(δ). Uvažujmenyníspeciálnípřípad,kdymáme rozhodnout oparametru,tedyjej odhadnout. Potom Θ = D. Navíc se omezíme na speciální ztrátovou funkci 0 pokud θ=d Z(θ, d)= 1 jinak. Potom máme Z(d y)=1 Q(d y) aprotoje(podletvrzenínahoře)bayesovskéřešení δ b =ˆθdáno Q(ˆθ(y) y)=max θ Θ Q(θ y). Je to tedy odhad maximalizující aposteriorní pravděpodobnost(map), který je bayesovským řešením, neboť minimalizuje očekávanou ztrátu, danou zde pravděpodobností chyby Z(ˆθ)=Q(θ ˆθ(y)). 3. Řešení původní úlohy metodou MAP Budeme řešit úlohu zformulovanou v části 1 metodou MAP, tzn. pro daná data x N =(x 1,...,x N )budemehledattakovouposloupnost â N,kterámaximalizujeaposteriorní pravděpodobnost, tedy kde â N argmax an A N P(aN x N ) = argmax an A N P(aN ; x N )= P(a N ; x N )= = argmax an A Nlog P(aN ; x N ) N p (ai) (x i ) P(a N ). i=1 Protutoúlohudiskrétníoptimalizacevšakpronetriviálnírozdělení P(a N )anetriviální dimenzi dat N není k dispozici účinný deterministický algoritmus. Pro numerické řešení použijeme tedy algoritmus stochastický, založený na znáhodněném prohledávánímnožiny A N aznámýpodjménem simulovanéžíhání (viznapř.
166 Martin Janžura, Jan Nielsen Winkler(1995)) nebo Janžura(1990)). Ten je založený na následujících úvahách. Nechťmámenaléztmaximumfunkce F: A N R. Označme Q τ (a N )= eτf(an ) c(f,τ) proreálné τ,kde c(f, τ)= b N A N eτf(bn) jenormalizační konstanta. Zřejmě nyní platí kde Q (a N )= Q τ Q pro τ, 1 M 0 jinak. pro a N M=argmaxF Symbolem M označíme kardinalitu množiny. Můžeme nyní vyvozovat, že nalézt a N M znamenátosaméjakosimulovatsrozdělením Q,cožje skorojako simulovatsrozdělením Q τ prodostatečněveliké τ >0.Tovšakstáleještěneumíme, neboť nejsme schopni vyčíslit normalizační konstantu c(f, τ) pro příslušnou velikost množiny A N.Musímetedypokročitdále.ZteorieMarkovovýchřetězcůvíme,že pokud je R(τ)=(R(τ) a N b N) a N,b N A N nerozložitelná stochastická matice, která splňuje Q τ R(τ)=Q τ (kde Q τ chápemejakořádkovývektor),platí [R(τ)] n a N (0) Qτ ( ) pro n přilibovolnémpočátečním a N (0) AN. Odtudmůžemeopětvyvodit,žesimulovatsrozdělením Q τ je skorototéž jako simulovatsrozdělením[r(τ)] n a n přinějakémdostatečněvelkém n.apodstata (0) simulovaného žíhání je ve spojení obou těchto limitních vlastností. Věta:Nechť τ n (F)log n,potom [R(τ 1 ) R(τ 2 )... R(τ n )] a n (0) Q ( ) pro n. Důkaz: Např. Winkler(1995), Věta 5.2.1. Algoritmus nyní můžeme popsat takto: (1)zvolíme a N (0) (2)pro j=1,...,n STOP vybereme a N (j) srozdělením R(τ j) a N (j 1) (3)ponecháme a N (n STOP ). Taktozískané a N n STOP prodostatečněvelké n STOP považujemezavybrané skoro jako srozdělením Q atudížzařešeníúlohy. Jak ale zvolit stochastickou matici R(τ)? Jeden z návodů poskytuje metoda Metropolise Hastingse: Zvolmenerozložitelnoustochastickoumatici Radefinujme ) R(τ) a N b N = R a N b N min ( R(τ) an a N = 1 b N a N R(τ) an b N. 1, Qτ (b N ) R(τ) b N a N Q τ (a N ) R(τ) a N b N pro b N a N Jelikož0 R(τ) a N b N R a N b N,mámetaké b N a N R(τ) a N b N 1aprotojematice R(τ) stochastická.
Metodasegmentacev change point problému 167 Abychom zaručili nerozložitelnost, budeme navíc předpokládat, že R a N b N=0 právěkdyž Rb N a N=0. PotomzR(τ) an b N =0plyne R an bn =0anerozložitelnost R(τ)plyneznerozložitelnosti R.Tentododatečnýpředpokladjesnadnosplněnnapř.prosymetrické matice R. Nakonec ověříme invarianci. Můžeme psát Q τ (a N )R(τ) a N b N= ) min (Q τ (a N ) R a N b N, Qτ (b N ) R b N a N + a N a N b N + Q τ (b N ) 1 =Q τ (b N ) neboť také a N b N R(τ) b N a N Q τ (b N )R(τ) bn a N=min ( Q τ (b N ) R bn a N, Qτ (a N ) R an b N ). Tím jsme ukázali, že tato matice má potřebné vlastnosti a přitom na rozdělení Q τ závisípouzeprostřednictvímpodílů Q τ (b N ) Q τ (a N ) = eτ(f(bn ) F(a N )), které již neobsahují problémovou normalizační konstantu c(f, τ) a proto mohou být vyčísleny. Stochastickoumatici Rvolímesohledemnajednoduchostsimulace,zpravidla nezávisle a rovnoměrně,tj. R a N b N= 1 A N provšechna a N, b N A N. Nebo také můžeme v každém kroku měnit náhodně pouze jednu souřadnici, potom máme R a N b N= 1 N A pokudexistuje t {1,...,N}tak,že a s = b s prokaždé s t, R an bn=0 jinak. 1 (Zde nejprve náhodně vybereme souřadnici t s pravděpodobností N anovouhodnotu b t vyberemespravděpodobností 1 A.) Máme-litedyzvolenumatici R,probíhá j-týkroksimulacevedvoufázích: 1.:návrh:simulujeme ã N srozdělením R a N (j 1) 2.: přijetí: pokud Q τj (ã N ) RãN a N (j 1) j = Q τj (a N (j 1) ) R 1, a N (j 1)ãN dosadímepřímo a N j := ã N. Pokud j <1,učinímedalšínezávislousimulaciadosadíme a N (j) := ãn spravděpodobností j neboponecháme a N (j) := an (j 1) spravděpodobností 1 j.
168 Martin Janžura, Jan Nielsen Poznámka:Častosepostupujetakétímzpůsobem,žekonfiguraci a N A N pozměňujemepostupně posložkách (pojednéneboněkolikamálo)vnějakémdeterministickémpořadí.toznamená,žeprokaždé j=1,...,nmáme S j {1,...,N} tak, že R (j) a N b N =0 pokud b s a s pronějaké s / S j. Tedy opět např. R (j) a N b N = 1 A S j = 0 jinak. pokud a s = b s prokaždé s / S j. Tím ovšemkaždájednotlivá návrhová matice R (j) (a tudíž i od ní odvozená R(τ) (j) )nenínerozložitelnáamusímetedybrát R(τ)=R(τ) (1) R(τ) (N). Pokudpřitomplatí N j=1 S j= {1,..., N},jeužtatosoučinovámaticenerozložitelná. Tentopostupmátuvýhodu,žejekaždýjehodílčíkrokvelmirychleasnadno realizovatelný. 4. Implementace a příklady V naší úloze jsme použili Metropolisův Hastingsův algoritmus v modifikaci popsané vpoznámcevpředchozíčásti,kdyjsmebrali S j = {j 1, j, j+1}pro j=2,...,n 1. Abychom eliminovali směrový efekt při simulaci, měnili jsme periodicky směr času, brali jsme tedy vlastně R(τ)=R(τ) (1) R(τ) (N) R(τ) (N) R(τ) (1). Velmipodstatnýmparametremúlohyjevolbafunkce τ n (nazývanávterminologii simulovanéhožíháníjako ochlazovacíplán.)vzhledemkesvépomalérychlosti konvergencejelogaritmusvšeobecněpovažovánproreálnědosažitelné n STOP za příliš pomalý(viz např. Winkler(1995), Kapitola 6). Jde zde však třeba postupovat velmi opatrně, neboť volba příliš rychlé konvergence zavádí metodu okamžitě do nějakého lokálního extrému blízko počáteční konfigurace. Po určitých numerických experimentechsevnašempřípaděosvědčilobrát τ n =(1+10 l ) n,kdemůžeme zvolit l {3,4,5}.Potomzpravidlapostačuje n STOP =10 5. Metodu jsme aplikovali na simulovaná i reálná data. Vzhledem k tomu, že reálná data se týkala ročních průměrných teplot v Praze, pracovali jsme s podobným oborem hodnot i pro simulovaná data. Zvolili jsme a P(a N ) exp A={8,9,10,11} { α } N a i a i 1, cožznamená,žeapriornírozděleníjemarkovskéapro α >0jsoupreferoványblízké (nejvíce přímo totožné) hodnoty v sousedících bodech. To odpovídá méně četným améněvýznamnýmzměnám.dáleprokaždé i=1,...,nbylo p (a) i (x i )= 1 e 1 2σ 2(xi a)2, 2πσ takžejsmemělidatasnezávislýmgaussovskýmšumem.sdruženérozdělení L(X 1,......, X N )jetedydánotzv.skrytýmmarkovskýmmodelem(viznapř.macdonald i=2
Metodasegmentacev change point problému 169 a Zucchini(1997) pro podrobnou studii). Simulovaná data vznikla tak, že jsme nejprvesimulovaliposloupnost a N apotomji zašuměli. Prodanádata ˆx 1,...,ˆx N vedemetodamapnaúlohu [ N ] N min (ˆx i a i ) 2 +2γ a i a i 1 a N i=1 kde γ = σ 2 αjenyníjedinýmparametremúlohy,vyjadřujícímrelacimezi důvěryhodností data důvěryhodností informaceobsaženévsousedníchhodnotách. (Např. pokud je malý rozptyl v datech a malé závislosti mezi sousedy, dáváme větší váhu informaci v datech.) Za počáteční konfiguraci jsme volili vždy postupně dvě krajní možnosti, a to jednakkonfiguracizískanou zdat (tj.vyřešenímúlohypři γ=0),apotomkonfiguracikonstantní(tumůžemepovažovatzařešenípři γ= ).Pokudsepřitakto významně odlišných počátečních hodnotách řešení nelišila, mohli jsme to považovat za známku spolehlivosti výsledku. Samozřejmě,žeobecněbychomneznaliani správnou množinu Aaparametr γ (když už bychom připustili daný typ rozdělení). Proto jsme experimenty prováděli při různých volbách těchto parametrů. Reálnými daty byly průměrné roční teploty naměřené v pražském Klementinu od roku 1775(autoři děkují J. Antochovi za laskavé zapůjčení). Aplikovali jsme na ně stejný model jako na data simulovaná. i=2 5. Výsledky Výsledky uvádíme formou obrázků, kde slabá čára vždy značí průběh dat, silná výslednou konfiguraci a pro simulovaná data pak středně silná skoková čára znázorňujeprůběh správné konfigurace.vzhledemktomu,žejsmemělinamyslidetekci změn,volilijsmetutokonfiguraciseskokovýmprůběhem. Výsledkyuvádímeprotrojerůznádata.Nejprve(Obr.1 Obr.6)prodatasimulovanásrozptylem σ 2 =0,5(při α=5, A={8,9,10,11}),dalšísérie(Obr.7 Obr.12)obsahujevýsledkyprojinádatapřivětšímrozptylu σ 2 =1(stejné αaa) aposlednísérie(obr.13 Obr.18)setýkáreálnýchdatzKlementina.Prokaždádata uvádímeřešeníprovšechnykombinacevolbyparametru γ=1nebo γ=5amnožiny A=[8,11]spřesností0,1( Krok=0,1 ), A={8;8,5;9;9,5;10;10,5;11}( Krok =0,5 )a A={8;9;10;11}(Krok=1). 6. Závěry (1) Správná volba parametru γ je důležitá. Při malém γ = 1 řešení obvykle příliš sledujedata(svýjimkounaobr.5,kdepřisprávnězvolenémnožině Aje i takto malý parametr γ postačující, vedoucí ke stejnému řešení jako γ = 5 naobr.6).protoprodobrévýsledkybylotřebazpravidlapoužít γ=5. (2)Volbastavovémnožiny A(čili Kroku )takéovlivňujeřešenípodstatně. Vzhledem k principu metody, která preferuje stejné nebo blízké hodnoty, docházípřivětšístavovémnožině(tj.jemnějšíškále)k vyhlazení skokové funkce tvořící správnou konfiguraci. (3) Při správně zvolených parametrech funguje metoda dostatečně spolehlivě. (4) Výsledky pro klementinská data nejsou v rozporu s očekáváním a výstupy z jiných zpracování a poskytují zajímavé náhledy a interpretační možnosti. (5) Celkově je možné říci, že zejména pro reálná data poskytuje metoda i nástroj pro generování hypotéz, které mohou být dále zkoumány jinými postupy.
170 Martin Janžura, Jan Nielsen Obr.1Rozptyl=0,5,Gamma=1,Krok=0,1. Obr.2Rozptyl=0,5,Gamma=5,Krok=0,1. Obr.3Rozptyl=0,5,Gamma=1,Krok=0,5.
Metodasegmentacev change point problému 171 Obr.4Rozptyl=0,5,Gamma=5,Krok=0,5. Obr.5Rozptyl=0,5,Gamma=1,Krok=1,0. Obr.6Rozptyl=0,5,Gamma=5,Krok=1,0.
172 Martin Janžura, Jan Nielsen Obr.7Rozptyl=1,0,Gamma=1,Krok=0,1. Obr.8Rozptyl=1,0,Gamma=5,Krok=0,1. Obr.9Rozptyl=1,0,Gamma=1,Krok=0,5.
Metodasegmentacev change point problému 173 Obr.10Rozptyl=1,0,Gamma=5,Krok=0,5. Obr.11Rozptyl=1,0,Gamma=1,Krok=1,0. Obr.12Rozptyl=1,0,Gamma=5,Krok=1,0.
174 Martin Janžura, Jan Nielsen Obr.13Klementinum,Gamma=1,Krok=0,1. Obr.14Klementinum,Gamma=5,Krok=0,1. Obr.15Klementinum,Gamma=1,Krok=0,5.
Metodasegmentacev change point problému 175 Obr.16Klementinum,Gamma=5,Krok=0,5. Obr.17Klementinum,Gamma=1,Krok=1,0. Obr.18Klementinum,Gamma=5,Krok=1,0.
176 Martin Janžura, Jan Nielsen 7. Další zobecnění V předchozích částech jsme uvažovali pouze nezávislé veličiny lišící se střední hodnotou.nynísiukážeme,žemetodajedostatečněobecnáažezáležíjennanaší schopnosti zformulovat řešený problém v jejím rámci. i) Trend Uvažujmesystém,kterýsemůženacházetvesvoustavech,atovestavu stagnace nebo růstu. Stagnaci v čase i {1,...,N} vyjádříme tak, že EX i = EX i 1,arůsttak,že EX i = EX i 1 + c,kde c > 0jeznámá konstanta. Předpokládáme opět gaussovský šum a markovskou apriorní distribuci. Metoda MAP pak vede na min a N N ˆx i c i=1 i j=1 a j 2 + γ N a i a i 1 kde a N {0,1} N (a i =0znamenástagnaciaa i =1růst). ii) AR procesy Nyní předpokládejme, že pozorované veličiny tvoří gaussovskou autoregresní posloupnost, jejíž parametry se mohou měnit. Máme dán seznam modelů ( ) µ (a), {c (a) k }K k=1 { kde µ (a) jsoustředníhodnotya c (a) k } K i=2 a A dataˆx k+1,...,ˆx N,řešímeúlohu ( 2 N K min ˆx i µ (ai) c (ai) a N k ˆx i k) + γ i=1 k=1 k=1 autoregresníkoeficienty.máme-li N DIST(a i, a i 1 ) kde a N A N adist(, )jerelaceodvozenáodapriornídistribuce. Vtěchtoúloháchjsmestálepracovalise známou množinou A.Jednalosetedy, striktně vzato, o klasifikaci a ne o segmentaci. Z předpokladu gaussovského šumu a markovské apriorní distribuce můžeme však odvodit i účelovou funkci typu N [ (xi x i 1 ) 2 δ(a i, a i 1 )+γ (1 δ(a i, a i 1 )) ], kde i=2 δ(a, b)= 1 pro a=b, 0 jinak. Zde potom volíme pouze velikost množiny A, na konkrétních hodnotách jejich elementůnezáleží.paksejednáopravou nesupervizovanou segmentaci. Literatura [1] Antoch, J., Hušková, M. a Jarušková D.(1998): Change point problem po deseti letech. Sborník Robust 98, JČMF Praha, 1 42. [2] Csörgö, M. a Horváth, L.(1997): Limit Theorems in Change Point Analysis. Wiley. [3] Janžura, M.(1990): O jednom pravděpodobnostním algoritmu pro optimalizační úlohy. Sborník Robust 90, JČMF Praha, 84 88. i=2
Metodasegmentacev change point problému 177 [4] MacDonald, I. L. a Zucchicni, W. (1997): Hidden Markov and Other Models for Discrete valued Times Series. Chapman& Hall. [5] Vajda, I.(1987): Theory of Information and Statistical Decision (in Slovak). Alfa, Bratislava. [6] Winkler, G.(1995): Image Analysis, Random Fields and Dynamic Monte Carlo Methods. Springer. ÚstavteorieinformaceaautomatizaceAVČR,PodVodárenskouvěží4,18208Praha8