ROBUST 2004 c JČMF 2004 DETEKCE LINEÁRNÍHO TRENDU V ROZPTYLU NORMÁLNÍHO ROZDĚLENÍ Luboš Prchal Klíčováslova:Detekcezměnyvrozptylu,regresev a L 2 normě,radioaktivní záření. Abstrakt: Tento příspěvek je věnován detekci a odhadu dvou neznámých bodů změny, mezi nimiž se rozptyl nezávislých normálně rozdělených náhodných veličin lineárně mění z jedné konstantní úrovně na druhou. V první části je navržena vhodná testová statistika, v druhé části se pak věnujeme porovnání a L 2 odhadůbodůzměnyaparametrůrozptylu.postupjeilustrován na reálné analýze variability vertikálních profilů radioaktivního záření. 1 Úvod Studium problematiky detekce a odhadu měnícího se rozptylu normálně rozdělených náhodných veličin bylo motivováno praktickou potřebou analyzovat variabilitu měření vertikálních profilů radioaktivního záření. Tato data statistické veřejnosti představil na konferenci Robust 98 Hlubinka[2]. Připomeňme, že data se měří pomocí meteorologických balónů vypouštěných ze stanici v Praze-Libuši a stoupajících do výšky kolem 35-ti km, přičemž výsledkemměřeníjsoudvojice(x i, y i ),,...,n,představujícíprůměrnouintenzituzáření y i vnadmořskévýšce x i.typickývertikálníprofilgama radiace je znázorněn na obrázku 1. Obrázek 1: Typický průběh průměrného počtu gama částic v závislosti na nadmořské výšce. Hlubinka[2] podrobně diskutuje jak parametrický tak neparametrický přístupkmodelování trendu pomocíregresníhomodelu Y = m(x)+η,kde X a Y jsou náhodné veličiny odpovídající nadmořské výšce, resp. intenzitě radiace, m( ) představuje průměrnou radiaci a η náhodnou složku měření.
316 Luboš Prchal Nedostatky navrhovaného parametrického modelu založeného na derivaci tzv. Richardsovy růstové křivky jsou pak odstraněny jeho rozšířením podrobně popsaným v práci[3]. V tomto příspěvku se zaměříme na evidentně se měnící variabilitu měření radioaktivního záření. Odhad rozptylu radiace v závislosti na výšce σi 2=var[Y i X= x i ]založímenačtvercíchreziduí 2i = ( Y i m(x i ) ) 2.Jejich průběh proložený jádrovým odhadem n g K (x)= y ik ( x x i ) h n K( x x i ) (1) h s normálním jádrem a vyhlazovacím parametrem h zvoleným pomocí křížového ověřování(cross validation) je znázorněn na obrázku 2. Poznamenejme, že budeme-li dále mluvit o jádrové regresi, pak budeme mít na mysli neparametrický jádrový odhad(1). Obrázek2:Typickýprůběhčtvercůreziduí 2i proloženýjádrovouregresí s normálním jádrem a vyhlazovacím parametrem h = 2, 74. Proparametrickýpopischováníreziduí 2i sejakovhodnýjevílineární model ve tvaru =Dβ+ ε, kde =( 21,..., 2n ), β=(σ 2, δ 2 ) jevektorneznámýchreálnýchparametrů, σ, δ >0,aregresnímatice D= ( 1 d ) n 2 jedánavektoremsamých jedniček1 n 1 avektorem d=(d 1,..., d n ) definovanýmpředpisem d i =0,,...,s, = x i x s, x t x s i=s+1,...,t, =1, i=t+1,...,n. Uvědommesi,že βobecnězávisínaneznámýchbodechzměny x s, x t,adodejme, že s pomocí uvedeného regresního modelu odhadneme podmíněný rozptyl σi 2 jako σ i 2 = d i β,kde d ipředstavuje i týřádekmatice Da βje vhodný odhadneznámýchparametrů.
Detekce lineárního trendu v rozptylu normálního rozdělení 317 2 Testování modelu Podívejme se nyní, jak otestovat hypotézu o konstantním rozptylu proti alternativě, že existují dva body změny, v nichž se charakter rozptylu mění v duchu výše popsaného regresního modelu. Než se dostaneme k samotnému testování, dodejme, že v této části budemepředpokládatnormálnírozděleníanezávislostjednotlivýchměření Y i. Dálepředpokládejme,že sousedníměřenímajístejnýrozptyl,přesněji,že σ2j 1 2 = σ2 2j, j=1,...,ñ,kde ñ= n/2 jespodníceláčást n/2.uvědomme si,žeztohotopředpokladupřirozeněvyplývá,žebodyzměny satjsousudá čísla. Pracujeme tedy s náhodnými veličinami Y 2j 1 N ( m(x 2j 1 ), σ 2 2j 1), j=1,...,ñ, Y 2j N ( m(x 2j ), σ 2 2j 1), j=1,...,ñ, a chceme testovat hypotézu o konstantnosti jejich rozptylu, tj. proti alternativě H 1 : σ 2 i = σ2, x i {x 1, x 2,...,x n }, A 1 : x s, x t {x 1, x 2,..., x n }, x s < x t, σ 2 i = σ2, x i {x 1,...,x s }, = σ 2 + x i x s δ 2, x t x s x i {x s+1,...,x t }, = σ 2 + δ 2, x i {x t+1,...,x n }. Uvažme,žedíkynormálnímurozděleníveličin Y i majínáhodnéveličiny ( Y2j 1 m(x 2j 1 ) ) 2 ( + Y2j m(x 2j ) ) 2 V j =, j=1,...,ñ, 2 exponenciálnírozdělenísparametry ϑ j = σ 2 2j 1.Nahraďmeprotonelineární regresní model m(x) jeho odhadem m(x) a neznámý podmíněný rozptyl σ 2 2j 1 jehoparametrickýmodhademzaloženýmnalineárnímmodelu σ 2 2j 1 = β d 2j 1, j=1,...,ñ.definujmedálenáhodnéveličiny W j = ( Y2j 1 m(x 2j 1 ) ) 2 + ( Y2j m(x 2j ) ) 2 2 = 22j 1 + 22j 2, j=1,...,ñ, apředpokládejme,žeiveličiny W j majídíkynormálnímurozdělení Y i aodhadu m(x) metodou nejmenších čtverců exponenciální rozdělení, tentokrát sparametry θ j = σ 2 2j 1 = β d 2j 1. Pomocí právě popsané transformace jsme nejen přešli od normálně rozdělených Y i kvýběru W j Exp(θ j ), j=1,...,ñ,alesoučasněnašihypotézu H 1,resp.alternativuA 1,můžemeekvivalentněpřepsatjakohypotézuokonstantní hodnotě parametru exponenciálního rozdělení
318 Luboš Prchal proti alternativě H 2 : θ j = σ 2, j=1,...,ñ, A 2 : s, t {1,2,..., ñ}, 1 s < t ñ, θ j = σ 2, = σ 2 + x 2j 1 x 2es x 2 et x δ 2, 2es j=1,..., s, j= s+1,..., t, = σ 2 + δ 2, j= t+1,...,ñ, kde s= s/2 a t= t/2. Odvozenítestovéstatistiky T proúlohutestováníhypotézyh 2 protialternativěa 2 vycházíz[4]a[1]ajepodrobněpopsánov[3].natomtomístě jen uveďme, že ji můžeme vyjádřit vztahem en j=2 T= γ jw j Γ en j=1 W, j přičemžnormovacíkonstantaγakonstanty γ j majívtomtokonkrétním případě tvar Γ= 1 ñ en j=1 γ j a γ j = (j 1)(j 2) 2 + en j 1 et=j es=1 x 2j 1 x 2es x 2 et x. 2es Lzeukázat,žetestovástatistika T mázaplatnostihypotézyh 2 apři ñ asymptoticky normální rozdělení, a tudíž U= T E T var T má asymptoticky normované normální rozdělení N(0, 1), přičemž E T = 1 arozptylvar Tlzevyjádřitvztahem var T= ñ ñ+1 1+ en j=2 γ2 j ) 2 ( en j=2 γ j 1= ñ ñ+1 en j=2 γ2 j ( en ) 2 1 j=2 γ ñ+1. j Ze simulací ilustrujících rychlost konvergence rozdělení statistiky U k normálnímu rozdělení vyplývá, že asymptotických vlastností lze využít již při n=50,podrobnějiviz[3].vtompřípaděhypotézuh 2,resp.H 1,zamítáme nahladině αveprospěchalternativya 2,resp.A 1,jestliže U > u(1 α),kde u(α) je 100α%-ní kvantil normovaného normálního rozdělení. Připomeňme, žetestujemeprotijednostrannéalternativě zvětšení variabilityoδ 2 >0, aprotouvažujemepouze horní kvantil u(1 α). Při analýze variability radiace máme k dispozici výběry s rozsahy n 550, můžeme tedy bez obav užít asymptotického rozhodovacího pravidla, přičemž dleočekáváníhypotézuh 1 nahladině α=0,05jednoznačnězamítámepro všechna pozorování beta i gama částic.
Detekce lineárního trendu v rozptylu normálního rozdělení 319 3 Odhad modelu Vpředcházejícíchodstavcíchjsmeukázalijakotestovat adekvátnost uvažovanéhoregresníhomodelu =Dβ+ εazbývánámtedyodhadnoutjeho neznáméparametry;bodyzměny satasložkyrozptylu σ 2 a δ 2.Odhad parametrů provedeme ve dvou krocích. Nejprve pro pevné hodnoty s a t, 1 s < t n,odhadnemeparametry β(s, t)jako β(s, t)=argmin β R 2 n Ψ ( 2i d i β) =argmin β R 2 RS ( β(s, t) ), kdeψjevhodnězvolenáfunkce.vedruhémkrokuodhadnemebodyzměny s a ttak,abychomminimalizovaliztrátovoufunkcirs ( β(s, t) ),tedy {ŝ, t } = argmin RS ( β(s, ) t). s=1,...,n 1 t=s+1,...,n Tímtakédostanemevýslednýodhad βpomocí β ( ŝ, t ). Parametry lineárního modelu většinou odhadujeme metodou nejmenších čtverců(dálejen L 2 regrese).vnašempřípaděvšaknemámesplněnjedenze základních předpokladů klasického lineárního modelu, a sice homoskedasticitunáhodnésložky ε. Neblahývliv heteroskedasticitynáhodnésložkyna odhad parametrů β lze omezit užitím metody vážených nejmenších čtverců (WLS)sdiagonálnímaticívah W n n tvořenouprvky w ii =1/ τ 2 i,kde τ2 i jeodhadrozptyluvar ε i = τ 2 i.jakovhodný, nezávislý nametoděnejmenších čtverců se nabízí odhad pomocí již zmíněné jádrové regrese(1) ve tvaru τ 2 i = ( 2i ĝ K(x i ) ) 2.Svyužitíminformaceovariabilitěnáhodnésložky εdostáváme odhad neznámých parametrů β v podobě β WLS =(D WD) 1 D W. (2) Jako robustní alternativu k metodám nejmenších čtverců uveďme regresi v normě(dálejen regrese)odpovídajícíminimalizačníúloze n 2i d iβ. (3) min β R 2 Jednímzpřístupůkřešení regresejenumerickámetodaiteračněvážených nejmenších čtverců(iwls). Minimalizace úlohy(3) pomocí metody IWLS odpovídá řešení soustavy D W(β) =D W(β)Dβ, vzhledemkneznámýmparametrům β R 2,přičemžmaticevah W(β) n n jediagonálnísprvky w ii (β)definovanýmipředpisem sgn( 2i w ii (β)= d i β) 2i, 2i d iβ 0, (4) d iβ =0, 2i d iβ=0.
320 Luboš Prchal Jelikož váhy na rozdíl od metody WLS tentokrát závisejí na neznámých parametrech β, není možné pro odhad β užít přímo vztah(2), nýbrž je třeba přikročit k numerickému řešení. Metoda IWLS vychází z počátečního odhadu β (0),kterývjednotlivýchiteracíchpostupně vylepšuje předpisem ( ) 1 β (l+1) = D W(β (l) )D D W(β (l) ) (5) aždosplněnívhodnéhozastavovacíhopravidla.dodejme,že β (l) značí odhadparametrů βpo literacíchdlevztahu(5)aw ( β (l) ) jsouznáméváhy dánypředpisem(4)projižspočtenouhodnotu β (l).vjednotlivýchiteracích tedyznámematicivah W(β (l) ),aprotonásledujícíodhadparametrů β (l+1) získáme stejně jako u metody WLS vztahem(2). Druhýmpřístupemvedoucímknalezeníoptimálníhořešeníproblému regrese, pokud takové řešení existuje, je přeformulovat regresní úlohu(3) jako standardní minimalizační úlohu lineárního programování ve tvaru za podmínek min ǫ +, ǫ n ( ǫ + i + ǫ ) i d iβ+ ǫ + i ǫ i = 2i, ǫ + i, ǫ i 0,,...,n, σ 2, δ 2 0. K jejímu vyřešení pak lze užít standardních nástrojů obsažených v matematických a statistických programech, např. funkci linprog implementovanou v Optimization Toolbox programového vybavení Matlab, Release13. Dodejme, že zde prezentované výsledky jsou získány metodu IWLS s tím, že výrazně rychlejší numerické řešení se jen nepatrně liší od přesného řešení úlohy lineárního programování. Podrobněji je volba metody diskutována v práci[3]. 4 Porovnání metod Podívejme se nyní na získané odhady prezentovanými metodami jednak z pohleduodhadusložekvariability σ 2 a δ 2,jednakzpohledubodů,vekterých dochází k jejich změnám. Oodhadechbodůzměnyseobecnědáříci,žepoužití L 2 regresevede k odhadům pouze jednoho bodu změny, tedy na model se skokovou změnou vchovánírozptylu.tentotypickýrys L 2 regresejezpůsobenznačnoucitlivostí L 2 odhadůnavelké, odlehlé hodnotyreziduí.naprotitomu,užitím ztrátovéfunkcezískáme očekáváný odhadspostupnýmlineárnímrůstem variability σ 2 (x). Rozdílvchování L 2 a odhadůilustrujmenapozorovánígamačástic z10.října1995.průběhčtvercůreziduí 2i proložený L 2i odhademvariability je znázorněn na obrázku 3(levý graf). Na tomtéž obrázku 3 jsou kolečkem vyznačena dvě rezidua ve výšce asi 15 km, která způsobují skok
Detekce lineárního trendu v rozptylu normálního rozdělení 321 Obrázek 3: Čtverce reziduí proložené odhadnutým rozptylem metodou WLS (čárkovaně)a regresí(plnáčára).levýgrafznázorňujeodhadyzískanéze všech reziduí, pravý graf odhady po vynechání dvou zakroužkovaných odlehlých reziduí. v L 2 odhadu.napravémgrafuobrázku3,kterýodpovídástejnémupozorování, vynecháme-li dvě vyznačená rezidua, vidíme, že nově odhadnuté body změnymetodouwlsse přiblížily nezměněnému odhadu. Ačkoli nemáme a priori žádnou informaci o chování variability měření, zdáserozumnépřiklonitsekrobustnějším odhadům,vesměspodporujícím myšlenku lineární změny mezi dvěma konstantními hladinami rozptylu. Odhadybodůzměny x s a x t pomocí regresevíceodpovídajítakénaší původní představě o průběhu rozptylu založené na neparametrické jádrové regresi(1). Připomeňme,žeparametry σ 2 a δ 2 simůžemepředstavitjakorozptyl měřenívevýškáchdo x s,resp.nad x t.uvážíme-lidále,žejsmepřitestování předpokládalinormálnírozdělenídat,pakodhadneznámýchparametrů σ 2 a δ 2 regresív norměsezdábýtnevhodný.proodhadsamotnýchsložek rozptylu σ 2 a δ 2 bychomspíšemělivolitmetodunejmenšíchčtverců,resp. její váženou variantu WLS. Ve světle předcházejících úvah se jako optimální metoda pro odhad chovánívariabilityměřeníradiacejevíkombinace a L 2 přístupu.počítejme protonejprve odhadbodůzměnyobvyklýmdvoukrokovýmpostupem,tj. vprvnímkrokuodhadněmepropevnébodyzměny sat,1 s<t n, složky rozptylu vztahem ( ) β L1 (s, t)=argminrs L1 β(s, t) =argmin β R 2 β R 2 n 2i d iβ, anazákladěztrátovéfunkcers L1 ( β(s, t) ) pakvdruhémkrokuodhadněme body změny jako {s, t }= argmin RS L1 ( βl1 (s, t) ). s=1,...,n 1 t=s+1,...,n
322 Luboš Prchal Složky rozptylu následně odhadněme metodou vážených nejmenších čtverců β = β WLS (s, t )=(D s t WD s t ) 1 D s t W, kde D s t jeregresnímaticeodpovídajícípevnýmbodůzměny s=s a t=t. Maticevah W jediagonálnísprvky w ii =1/ τ 2 i,,...,n,přičemž τ2 i je odhadrozptylu 2i získanýpomocíjádrovéregrese τ2 i = ( 2i ĝ K(x i ) ) 2. Představenákombinace a L 2 metodsizachovávávýhodyrobustního odhadubodůzměny,přičemžoprotisamotné metodě věrněji odhaduje složky rozptylu. Odhad průběhu rozptylu měření získaný touto kombinovanou metodou je znázorněn na obrázku 4. Obrázek 4: Optimální odhad variability měření kombinovanou metodou. Reference [1] Gupta A.K., Ramanayake A.(2001). Change points with linear trend for the exponential distribution. J. Statist. Plann. Inference 93, 181 195. [2] Hlubinka D.(1998). Metody pro prokládání křivek s použitím na reálných datech. In ROBUST 98(Antoch J. a Dohnal G., eds.), JČMF, Praha, 55 75. [3] Prchal L.(2004). Neparametrické odhady pro analýzu funkcionálních dat. Diplomová práce, MFF UK, Praha. [4] Worsley K.J.(1986). Confidence regions and test for a change point in a sequence of exponential family random variables. Biometrika 73, 91 104. Poděkování: Autor děkuje prof. RNDr. Jaromíru Antochovi, CSc., za jeho nezištnou pomoc a neocenitelné rady v průběhu vzniku tohoto článku. Práce vznikla s podporou grantů GAČR 201/03/0945 a MSM 113200008. Adresa:L.Prchal,KPMSMFFUK,Sokolovská83,18675Praha8 E-mail: prchal@karlin.mff.cuni.cz