DVOUVÝBĚROVÉ PODMÍNĚNÉ POŘADOVÉ TESTY VANALÝZEPŘEŽITÍ

ROBUST 2000, 3 8 c JČMF 200 DVOUVÝBĚROVÉ ODMÍNĚNÉ OŘADOVÉ TESTY VANALÝZEŘEŽITÍ LENKA KOBLÍŽKOVÁ Abstrakt The preset paper deals with coditioal rak tests i survival aalysis for two sample problem with radomly cesored data Coditioal rak tests are exact permutatio tests uder ull hypothesis ofradomess ifequal cesorship is icluded (restricted ull hypothesis) Maily their asymptotic properties are studied uder this hypothesis Rezme V stat~e izuqats uslovye ragovye kriterii dl dvuhvyboroqoi$ problemy s cezurirovaiem i day ih asymptotiqeskie svoi$stva Úvod říspěvek pojedává o ěkterých pořadových testech shody rozděleí dvou cezorovaých výběrů, které se používají v aalýze přežití Je zaměře a testy podmíěé, které jsou založey a vlastostech podmíěého rozděleí příslušých statistik při pevé realizaci idikátorových veliči událostí sdružeého výběru Na základě permutací lze určit přesé hodoty kvatilů podmíěého rozděleí uvažovaých statistik Dostáváme tak exaktí testové kritérium Teto permutačí test vyžaduje rovost rozděleí dob do cezorováí obou uvažovaých výběrů Vážeé lograkové statistiky patří do třídy zobecěých lieárích pořadových statistik a lze a ě použít již vybudovaou teorii pořadových testů pro ecezorovaá data S ohledem a tuto skutečost je odvozeo limití chováí podmíěého rozděleí těchto statistik za platosti hypotézy áhodosti a rovosti rozděleí cezorováí (omezeé ulové hypotézy) V tomto případě podmíěé rozděleí ezávisí a podmíce a testovaou hypotézu pak zamítáme ebo ezamítáme a základě kvatilů ormovaého ormálího rozděleí N(0, ) 2 Formulace problému a jeho testováí ředpokládejme dvouvýběrový model áhodého cezorováí, kdet i,t i2,,t ii je áhodý výběr z ějakého rozděleí s absolutě spojitou distribučí fukcí F i, i =, 2 Nechť oba tyto výběry dob do selháí jsou a sobě ezávislé Nechť C i,c i2,,c ii je áhodý výběr z ějakého rozděleí s absolutě spojitou distribučí fukcí G i, i =, 2 Nechť oba tyto výběry dob do cezorováí jsou a sobě ezávislé Dále předpokládejme, že áhodé veličiy T ij, C ij jsou ezávislé a S i = F i je fukce přežití veliči T ij, j =, 2,, i,i=, 2 Skutečému pozorováí pak odpovídá áhodý vektor (X ij,δ ij ), j =, 2,, i, i =, 2, kde 2000 Mathematics Subject Classificatio rimary 62G0; Secodary 62N03 Klíčová slova ořadové testy, aalýza přežití, cezorovaá data Teto příspěvek vzikl za přispěí gratů GAČR 20/00/0769 a MSM 3200008

4 Leka Koblížková X ij =mi(t ij,c ij ), δ ij =, T ij C ij, X ij ecezorováo, 0, T ij >C ij, X ij cezorováo Ozačme X () =(X (),X (2),,X () ) vektor pořádkových statistik příslušý áhodému vektoru X =(X,X 2,,X ) =(X,,X,X 2,,X 2 2 ) aechť δ =(δ [],δ [2],,δ [] ) je vektor odpovídajících idikátorových veliči událostí, X (j) ecezorováo, δ [j] = 0, X (j) cezorováo Vzhledem k tomu, že distribučí fukce F, F 2, G, G 2 jsou absolutě spojité, astává jev X () <X (2) < <X () s pravděpodobostí jeda Ozačme Y ij počet objektů z i-té populace, které pozorujeme těsě před událostí včasex (j),tzy ij = i k= I(X ik X (j) ) oložme Y j = Y j + Y 2j = j + Nechť Z j = (0), jestliže áhodá veličia X (j), j =, 2,,, pochází z prvího (druhého) výběru oložme p j = Yj Y j a q j = p j pro j ředmětem zájmu je testovat platost omezeé ulové hypotézy (2) H0 : F = F 2 = F (ezámé), G = G 2 = G (ezámé) proti jedostraé alterativě stochastického uspořádáí (22) K : F (t) F 2 (t) pro t, F F 2 K testováí výše formulovaé hypotézy (2) proti alterativě (22) užíváme vážeou lograkovou statistiku T tvaru (viz [5], část 3, popř viz [3], část 2) (23) T = T ( Z, δ) = w (j) δ [j] (Z j p j ), kde w je ezáporá stochastická váhová fukce řitom se omezíme a váhy tvaru ( ) κ ( ) κ Yj j + (24) w (j) = w (X (j) )=Ŝρ (X (j) ) = Ŝρ (X (j) ) Ve vzorci (24) jsou koeficiety ρ, κ 0aŜ(X (j) ) začítzvkaplaův Meierův odhad (podroběji viz [], kapitola 3) fukce přežití S(t) těsě před okamžikem X (j), tj j ( ) δ [k] (25) Ŝ(X (j) )=, kde k + Ŝ ( X () ) = k= V praxi se běžě používají statistiky lograková (ρ = 0, κ = 0), reticeova Wilcoxoova (ρ =,κ =0)aGehaovova Wilcoxoova (ρ =0,κ =) ozámka 2 Volba vhodých vah je složitější problém a při jeho řešeí se využívá iformace o tom, z jakého rozděleí výběr pochází (podroběji viz [], oddíl 74) Ze vztahů (24) a (25) vyplývá, že váhová fukce w (j) závisí pouze a idikátorových veličiách δ [],δ [2],,δ [j ] a p j, q j = p j závisejí pouze a Z,Z 2,,Z j : (26) p j = Y j k= = I(X k X (j) ) = j k= Z k Y j j + j +

Dvouvýběrové podmíěé pořadové testy v aalýze přežití 5 Tedy statistika T defiovaá v (23) závisí pouze a vektoru Z =(Z,Z 2,,Z ) avektoru δ =(δ [],δ [2],,δ [] ) K myšlece podmíěých testů se dostáváme přes ásledující tvrzeí Tvrzeí 2 Za platosti omezeé ulové hypotézy H 0 jsou áhodé vektory δ a Z ezávislé a áhodý vektor Z má rozděleí jako áhodý výběr bez vraceí z populace obsahující jediček a 2 ul Důkaz Tvrzeí lze alézt v [5], str 765, lemma 3 odmíěý test je sestave ve dvou krocích: () Na základě pozorováí (x,δ o),,(x,δ o)určíme δ o =(δ[] o,δo [2],,δo [] ) (2) Spočteme hodotu statistiky T pro pozorovaá data podle vzorce (23) a užijeme rozhodovacího kritéria pro pevé δ o :, T ( z, δ o ) >c (α, δ o ), ϕ, δo( z) = γ(α, δ o ), T ( z, δ o )=c (α, δ o ), γ(α, δ o ) [0, ], 0, T ( z, δ o ) <c (α, δ o ), kde c (α, δ o )je( α)-kvatil podmíěého rozděleí L(T ( Z g, δ) δ = δ o ) řičemž Z g je áhodý vektor, který obsahuje právě jediček a 2 ul a abývá každé permutace jediček a 2 ul se stejou pravděpodobostí / ( ) Z tvrzeí 2 dostáváme, že za platosti H0 je L( Z) =L( Z g ) ři malých hodotách lze staovit podmíěé rozděleí pravděpodobostí statistiky T tak, že pro každou hodotu T = t staovíme počet permutací k t kí vedoucích, tz H0 (T = t δ = δ o )=k t / ( ) Odtud určíme kvatil c (α, δ o ) ozámka 22 odmíěý test ϕ, δo viz [2], str 42 45) patří mezi tzv testy permutačí (podroběji Výše zmíěý způsob výpočtu kvatilu c (α, δ o ) se stává velmi pracým pro větší rozsahy a 2, proto v praxi využíváme simulací, kdy provedeme áhodý výběr ze všech možých permutací o rozsahu m (m dostatečě velké) a určíme kvatil c (α, δ o ) z tohoto výběru Jiá možost je sestavit rozhodovací kritérium a základě limitího chováí podmíěého rozděleí L(T ( Z, δ) δ = δ o ) K tomu potřebujeme určit podmíěou středí hodotu a rozptyl statistiky T 2 odmíěá středí hodota a rozptyl statistiky ro ásledující výpočet je třeba si uvědomit toto: E(Z j Z,,Z j )=p j Stadardím výpočtem pak odvodíme (podroběji viz [4], str 3 32): (27) E(T δ) =0 s j, var(t δ) = w 2 (j) δ 2 j [j] ( ) j + = w 2 (j) δ [j] Ep j q j s j Je užitečé si uvědomit souvislost s pořadovými statistikami pro ecezorovaá data Statistiku T ( Z, δ o ) defiovaou vzorcem (23) lze upravit ásledově (28) T ( Z, δ) = w (j) δ [j] (Z j p j )= Z j a j,

6 Leka Koblížková kde skóry jsou určey vztahem (29) a j = w (j) δ [j] j δ [i] w (i) i +, i= Jedá se tedy o zobecěou lieárí pořadovou statistiku j =, 2,, ozámka 23 Výše defiovaé skóry a j závisejí a δ [],δ [2],,δ [j], a tudížjsou fukcí áhodého vektoru δ, cožkvůli zbytečě složitému začeí ebudeme explicitě vyjadřovat ro skóry typu (29) platí (viz [4], str 35) a j =0, (a j) 2 = w(j) 2 j ( ) (20) δ [j] = var(t δ) j + 2 3 Asymptotické vlastosti testu Tvrzeí 3 Nechť existuje limita lim i / = η i (0, ), i=, 2 ak za platosti omezeé ulové hypotézy H 0 skóry a j defiovaé v (29) s vahami tvaru (24) splňují podmíku (3) max j (a j )2 (a j )2 0, Důkaz Skóry a j defiovaé v (29) lze omezit s j: Odtud a z (20) obdržíme (32) 0 max j (a j )2 (a j )2 max j (a j) 2 ( k= 2 2 ) 2 = s 2 k s 2 (a j )2 = 2 s 2 var(t δ) řičemžužijeme vlastosti částečého součtu harmoické řady s = k= k avlastosti přirozeého logaritmu l() (viz [6], str 33 332, bod 6, a str 365 366, bod 7) l α () (33) lim β =0, α > 0, β>0, lim (s l()) = c, kde c =0, 57725665 je tzv Eulerova kostata Opakovaým použitím (33) dostaeme, že lim s 2 / =0 Tedy čitatel výrazu a pravé straě v (32) koverguje kulepro okud jmeovatel uvažovaého zlomku bude kovergovat v pravděpodobosti ke kladé kostatě pro, cožyí ověříme, podmíka (3) bude splěa Jiak řečeo, chceme, aby za H 0 platilo: (34) var(t δ) cost > 0, Ozačme V = 2 w2 (j) δ [j] p j q j rov s vahami tvaru (24) za H 0 platí (viz [5], oddíl 22, podroběji viz [], oddíl 72) (35) V σ 2,, ( ) /2 kde σ 2 je asymptotický rozptyl statistiky T 2 ro aše potřeby stačí, že se jedá o kladou kostatu

Dvouvýběrové podmíěé pořadové testy v aalýze přežití 7 Abychom ověřili (34), stačí dokázat tvrzeí, že za hypotézy H 0 ( ) 2 V var(t δ) 0,, (36) tj z (27) w 2 (j) δ [j] (p j q j Ep j q j ) 0,, 2 eboť z (35) vyplývá, že η η 2 σ 2 při Zvolme libovolě malé pevé ε (0, ) a využijme vlastost vah w (j) pro j, pak w 2 (j) δ [j] (p j q j Ep j q j ) j<ε p j q j Ep j q j <εsj j<ε j<ε Stejou erovost dostaeme i pro součet přes všecha j, ( ε) <j, poěvadž ho lze převést a předchozí případ úpravou k = j Z výše uvedeého vyplývá, že stačí vyšetřovat kovergeci podle pravděpodobosti pro součet přes všecha j splňující erovost ε j ( ε): w 2 (j) δ [j] (p j q j Ep j q j ) ε j ( ε) p j q j Ep j q j ε j ( ε) ( p j Ep j (p j +Ep j ) +varp j ) s j ε j ( ε) 2 V K dalšímu potřebujeme odhad rozptylu var p j, ε j ( ε), (viz [4], str 4): (37) 0 var p j 2 2 j + 2 2 ε + Vezmeme-li v úvahu, že (p j +Ep j ) s j pro j spolu s odhadem (37), pak w 2 [j] (p j q j Ep j q j ) ε j ( ε) max j Ep j + 2 ε j ( ε) 2 s j ε + řičemžvýraz a pravé straě bude kovergovat podle pravděpodobosti k ule pro, pokud (38) max j Ep j 0, ε j ( ε) Tuto zbývající vlastost dokážeme: ( ) ro p j, viz (26), platí p j = j+ Ĥ (X (j) ), kde Ĥ (x) je empirická distribučí fukce poslouposti áhodých veliči X,X 2,,X OzačmeĤ(x) empirickou distribučí fukci poslouposti áhodých veliči X,X 2,,X Dále echť H i začí distribučí fukci veliči X ij, j =, 2,, i, i =, 2 Za platosti H 0 je H (x) =H 2 (x) =H(x) pro x K odvozeí vlastosti (38) užijeme Glivekovu větu, tedy za platosti H0 (39) sup Ĥ (x) H(x) 0,, (30) sup Ĥ(x) H(x) 0,

8 Leka Koblížková Dále využijeme (3) j + η pro ε j ( ε) ε + ε Rozdíl p j Ep j upravíme přičteím a odečteím vhodých výrazů [ p j Ep j = j + Ĥ(X (j) ) ( H(X )] (j) ) + [ ( )] + H(X (j) ) Ĥ(X (j) ) + [ Ĥ(X (j) ) j + ] } Ep j Vzhledem k tomu, že Ep j = a Ĥ(X (j) )= j,máme [ ] p j Ep j = H(X (j) ) (j) )] j + Ĥ(X + [Ĥ (X (j) ) H(X (j) ) } Za platosti H0 lze áhodou veličiu max ε j ( ε) p j Ep j omezit s j ásledově: max p j Ep j ( sup Ĥ ε j ( ε) ε + (x) H(x) +sup Ĥ(x) H(x) + ) Z vlastostí (39), (30) a (3) plye vlastost (38) Tím jsme dokočili důkaz (36), a tedy i tvrzeí 3 Z tvrzeí 3 vyplývá, že za platosti omezeé ulové hypotézy H 0 stadardizovaá T statistika var(t,kdet je tvaru (28), má asymptoticky podmíěě při daém δ δ) ormovaé ormálí rozděleí N(0, ) (viz [2], str 94 95, dodatky 4 a 8), tj lim sup T x δ Φ(x) var(t δ) >ε =0, ε>0 T ozámka 3 Vzhledem k této vlastosti stadardizovaá statistika var(t δ) má i asymptoticky (epodmíěě) ormovaé ormálí rozděleí N(0, ) (viz [2], str 95, dodatek 5) Na základě získaých pozatků staovíme asymptotické kritérium podmíěého pořadového testu v případě velkých hodot a 2 :, T (var(t δ = ϕ, δo = δ o )) /2 >u α, zamítáme hypotézu H 0, 0, T (var(t δ = δ o )) /2 u α, ezamítáme hypotézu H 0, kde u α je ( α)-kvatil ormovaého ormálího rozděleí N(0, ) Literatura [] Flemig T R, Harrigto D (99): Coutig rocesses ad Survival Aalysis Joh Wiley & Sos, Ic, New York [2] Hájek J, Šidák Z (967): Theory ofrak Tests Academia, raha [3] Jasse A (99): Coditioal Rak Tests for Radomly Cesored Data The Aals of Statistics Vol 9, No 3, 434 456 [4] Koblížková L (2000): ořadové testy a odhady v aalýze přežití Diplomová práce MFF UK [5] Neuhaus G (993): Coditioal Rak Tests for the Two Sample roblem Uder Radom Cesorship The Aals of Statistics Vol 2, No 4, 760 779 [6] Rektorys K a spolupracovíci (995): řehled užité matematiky I rometheus, raha