DVOUVÝBĚROVÉ PODMÍNĚNÉ POŘADOVÉ TESTY VANALÝZEPŘEŽITÍ

Podobné dokumenty
jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Náhodný výběr 1. Náhodný výběr

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

12. N á h o d n ý v ý b ě r

Přednáška 7, 14. listopadu 2014

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

je číselná posloupnost. Pro všechna n položme s n = ak. Posloupnost

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

Intervalové odhady parametrů některých rozdělení.

Odhady parametrů 1. Odhady parametrů

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Pravděpodobnost a aplikovaná statistika

8. Analýza rozptylu.

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

V. Normální rozdělení

14. B o d o v é o d h a d y p a r a m e t r ů

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

4. B o d o v é o d h a d y p a r a m e t r ů

Pravděpodobnost a aplikovaná statistika

P. Girg. 23. listopadu 2012

MATEMATICKÁ INDUKCE. 1. Princip matematické indukce

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

6. Posloupnosti a jejich limity, řady

NEPARAMETRICKÉ METODY

Znegujte následující výroky a rozhodněte, jestli platí výrok, nebo jeho negace:

Spojitost a limita funkcí jedné reálné proměnné

ŘADY Jiří Bouchala a Petr Vodstrčil

ZS 2018/19 Po 10:40 T5

3. Lineární diferenciální rovnice úvod do teorie

n=0 a n, n=0 a n = ±. n=0 n=0 a n diverguje k ±, a píšeme n=0 n=0 b n = t. Pak je konvergentní i řada n=0 (a n + b n ) = s + t. n=0 k a n a platí n=0

Masarykova univerzita Přírodovědecká fakulta

Definice obecné mocniny

Správnost vztahu plyne z věty o rovnosti úhlů s rameny na sebe kolmými (obr. 13).

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Matematická analýza I

Posloupnosti a číselné řady. n + 1. n n n n. n n n. = lim. n2 sin n! lim. = 0, je lim. lim. lim. 1 + b + b b n) = 1 b

3. Charakteristiky a parametry náhodných veličin

Obsah. 1 Mocninné řady Definice a vlastnosti mocninných řad Rozvoj funkce do mocninné řady Aplikace mocninných řad...

Úloha III.S... limitní

Intervalové odhady parametrů

P2: Statistické zpracování dat

1. ZÁKLADY VEKTOROVÉ ALGEBRY 1.1. VEKTOROVÝ PROSTOR A JEHO BÁZE

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Mocninné řady - sbírka příkladů

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Kapitola 5 - Matice (nad tělesem)

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Kapitola 4 Euklidovské prostory

Deskriptivní statistika 1

Testování statistických hypotéz

NMAF061, ZS Zápočtová písemná práce skupina A 16. listopad dx

n=1 ( Re an ) 2 + ( Im a n ) 2 = 0 Im a n = Im a a n definujeme předpisem: n=1 N a n = a 1 + a a N. n=1

MATICOVÉ HRY MATICOVÝCH HER

Číselné charakteristiky náhodných veličin

1 Základní pojmy a vlastnosti

8. Zákony velkých čísel

PRAVDĚPODOBNOST A STATISTIKA. Náhodná proměnná vybraná rozdělení

Funkce. RNDr. Yvetta Bartáková. Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou

PoznÁmky k přednášce

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

(3n + 1) 3n Příklady pro samostatnou práci

5. Posloupnosti a řady

a logaritmickou funkci a goniometrické funkce. 6.1 Násobení řad. Podívejme se neprve na násobení mnohočlenů x = x x n a y = y y n.

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Pravděpodobnost a aplikovaná statistika

STEJNOMĚRNÁ KONVERGENCE POSLOUPNOSTI A ŘADY FUNKCÍ

PRAVDĚPODOBNOST A STATISTIKA

Generování dvojrozměrných rozdělení pomocí copulí

I. TAYLORŮV POLYNOM ( 1

Kapitola 1. Nekonečné číselné řady. Definice 1.1 Nechť {a n } n=1 je posloupnost reálných čísel. Symbol. a n nebo a 1 + a 2 + a

NMSA331 Matematická statistika 1

je konvergentní, právě když existuje číslo a R tak, že pro všechna přirozená <. Číslu a říkáme limita posloupnosti ( ) n n 1 n n n

Iterační metody řešení soustav lineárních rovnic

NMAF063 Matematika pro fyziky III Zkoušková písemná práce 17. ledna 2019

DERIVACE FUNKCÍ JEDNÉ REÁLNÉ PROM

Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Pavel Pejřimovský. Katedra pravděpodobnosti a matematické statistiky

n-rozměrné normální rozdělení pravděpodobnosti

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Úloha II.S... odhadnutelná

17. Statistické hypotézy parametrické testy

11. přednáška 16. prosince Úvod do komplexní analýzy.

1 Nekonečné řady s nezápornými členy

1 Uzavřená Gaussova rovina a její topologie

k(k + 1) = A k + B. s n = n 1 n + 1 = = 3. = ln 2 + ln. 2 + ln

Zimní semestr akademického roku 2015/ listopadu 2015

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Analýza a zpracování signálů. 3. Číselné řady, jejich vlastnosti a základní operace, náhodné signály

2. Náhodná veličina. je konečná nebo spočetná množina;

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Cvičení 1.1. Dokažte Bernoulliovu nerovnost (1 + x) n 1 + nx, n N, x 2. Platí tato nerovnost obecně pro všechna x R a n N?

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU

PRAVDĚPODOBNOST A STATISTIKA

Zformulujme PMI nyní přesně (v duchu výrokové logiky jiný kurz tohoto webu):

Transkript:

ROBUST 2000, 3 8 c JČMF 200 DVOUVÝBĚROVÉ ODMÍNĚNÉ OŘADOVÉ TESTY VANALÝZEŘEŽITÍ LENKA KOBLÍŽKOVÁ Abstrakt The preset paper deals with coditioal rak tests i survival aalysis for two sample problem with radomly cesored data Coditioal rak tests are exact permutatio tests uder ull hypothesis ofradomess ifequal cesorship is icluded (restricted ull hypothesis) Maily their asymptotic properties are studied uder this hypothesis Rezme V stat~e izuqats uslovye ragovye kriterii dl dvuhvyboroqoi$ problemy s cezurirovaiem i day ih asymptotiqeskie svoi$stva Úvod říspěvek pojedává o ěkterých pořadových testech shody rozděleí dvou cezorovaých výběrů, které se používají v aalýze přežití Je zaměře a testy podmíěé, které jsou založey a vlastostech podmíěého rozděleí příslušých statistik při pevé realizaci idikátorových veliči událostí sdružeého výběru Na základě permutací lze určit přesé hodoty kvatilů podmíěého rozděleí uvažovaých statistik Dostáváme tak exaktí testové kritérium Teto permutačí test vyžaduje rovost rozděleí dob do cezorováí obou uvažovaých výběrů Vážeé lograkové statistiky patří do třídy zobecěých lieárích pořadových statistik a lze a ě použít již vybudovaou teorii pořadových testů pro ecezorovaá data S ohledem a tuto skutečost je odvozeo limití chováí podmíěého rozděleí těchto statistik za platosti hypotézy áhodosti a rovosti rozděleí cezorováí (omezeé ulové hypotézy) V tomto případě podmíěé rozděleí ezávisí a podmíce a testovaou hypotézu pak zamítáme ebo ezamítáme a základě kvatilů ormovaého ormálího rozděleí N(0, ) 2 Formulace problému a jeho testováí ředpokládejme dvouvýběrový model áhodého cezorováí, kdet i,t i2,,t ii je áhodý výběr z ějakého rozděleí s absolutě spojitou distribučí fukcí F i, i =, 2 Nechť oba tyto výběry dob do selháí jsou a sobě ezávislé Nechť C i,c i2,,c ii je áhodý výběr z ějakého rozděleí s absolutě spojitou distribučí fukcí G i, i =, 2 Nechť oba tyto výběry dob do cezorováí jsou a sobě ezávislé Dále předpokládejme, že áhodé veličiy T ij, C ij jsou ezávislé a S i = F i je fukce přežití veliči T ij, j =, 2,, i,i=, 2 Skutečému pozorováí pak odpovídá áhodý vektor (X ij,δ ij ), j =, 2,, i, i =, 2, kde 2000 Mathematics Subject Classificatio rimary 62G0; Secodary 62N03 Klíčová slova ořadové testy, aalýza přežití, cezorovaá data Teto příspěvek vzikl za přispěí gratů GAČR 20/00/0769 a MSM 3200008

4 Leka Koblížková X ij =mi(t ij,c ij ), δ ij =, T ij C ij, X ij ecezorováo, 0, T ij >C ij, X ij cezorováo Ozačme X () =(X (),X (2),,X () ) vektor pořádkových statistik příslušý áhodému vektoru X =(X,X 2,,X ) =(X,,X,X 2,,X 2 2 ) aechť δ =(δ [],δ [2],,δ [] ) je vektor odpovídajících idikátorových veliči událostí, X (j) ecezorováo, δ [j] = 0, X (j) cezorováo Vzhledem k tomu, že distribučí fukce F, F 2, G, G 2 jsou absolutě spojité, astává jev X () <X (2) < <X () s pravděpodobostí jeda Ozačme Y ij počet objektů z i-té populace, které pozorujeme těsě před událostí včasex (j),tzy ij = i k= I(X ik X (j) ) oložme Y j = Y j + Y 2j = j + Nechť Z j = (0), jestliže áhodá veličia X (j), j =, 2,,, pochází z prvího (druhého) výběru oložme p j = Yj Y j a q j = p j pro j ředmětem zájmu je testovat platost omezeé ulové hypotézy (2) H0 : F = F 2 = F (ezámé), G = G 2 = G (ezámé) proti jedostraé alterativě stochastického uspořádáí (22) K : F (t) F 2 (t) pro t, F F 2 K testováí výše formulovaé hypotézy (2) proti alterativě (22) užíváme vážeou lograkovou statistiku T tvaru (viz [5], část 3, popř viz [3], část 2) (23) T = T ( Z, δ) = w (j) δ [j] (Z j p j ), kde w je ezáporá stochastická váhová fukce řitom se omezíme a váhy tvaru ( ) κ ( ) κ Yj j + (24) w (j) = w (X (j) )=Ŝρ (X (j) ) = Ŝρ (X (j) ) Ve vzorci (24) jsou koeficiety ρ, κ 0aŜ(X (j) ) začítzvkaplaův Meierův odhad (podroběji viz [], kapitola 3) fukce přežití S(t) těsě před okamžikem X (j), tj j ( ) δ [k] (25) Ŝ(X (j) )=, kde k + Ŝ ( X () ) = k= V praxi se běžě používají statistiky lograková (ρ = 0, κ = 0), reticeova Wilcoxoova (ρ =,κ =0)aGehaovova Wilcoxoova (ρ =0,κ =) ozámka 2 Volba vhodých vah je složitější problém a při jeho řešeí se využívá iformace o tom, z jakého rozděleí výběr pochází (podroběji viz [], oddíl 74) Ze vztahů (24) a (25) vyplývá, že váhová fukce w (j) závisí pouze a idikátorových veličiách δ [],δ [2],,δ [j ] a p j, q j = p j závisejí pouze a Z,Z 2,,Z j : (26) p j = Y j k= = I(X k X (j) ) = j k= Z k Y j j + j +

Dvouvýběrové podmíěé pořadové testy v aalýze přežití 5 Tedy statistika T defiovaá v (23) závisí pouze a vektoru Z =(Z,Z 2,,Z ) avektoru δ =(δ [],δ [2],,δ [] ) K myšlece podmíěých testů se dostáváme přes ásledující tvrzeí Tvrzeí 2 Za platosti omezeé ulové hypotézy H 0 jsou áhodé vektory δ a Z ezávislé a áhodý vektor Z má rozděleí jako áhodý výběr bez vraceí z populace obsahující jediček a 2 ul Důkaz Tvrzeí lze alézt v [5], str 765, lemma 3 odmíěý test je sestave ve dvou krocích: () Na základě pozorováí (x,δ o),,(x,δ o)určíme δ o =(δ[] o,δo [2],,δo [] ) (2) Spočteme hodotu statistiky T pro pozorovaá data podle vzorce (23) a užijeme rozhodovacího kritéria pro pevé δ o :, T ( z, δ o ) >c (α, δ o ), ϕ, δo( z) = γ(α, δ o ), T ( z, δ o )=c (α, δ o ), γ(α, δ o ) [0, ], 0, T ( z, δ o ) <c (α, δ o ), kde c (α, δ o )je( α)-kvatil podmíěého rozděleí L(T ( Z g, δ) δ = δ o ) řičemž Z g je áhodý vektor, který obsahuje právě jediček a 2 ul a abývá každé permutace jediček a 2 ul se stejou pravděpodobostí / ( ) Z tvrzeí 2 dostáváme, že za platosti H0 je L( Z) =L( Z g ) ři malých hodotách lze staovit podmíěé rozděleí pravděpodobostí statistiky T tak, že pro každou hodotu T = t staovíme počet permutací k t kí vedoucích, tz H0 (T = t δ = δ o )=k t / ( ) Odtud určíme kvatil c (α, δ o ) ozámka 22 odmíěý test ϕ, δo viz [2], str 42 45) patří mezi tzv testy permutačí (podroběji Výše zmíěý způsob výpočtu kvatilu c (α, δ o ) se stává velmi pracým pro větší rozsahy a 2, proto v praxi využíváme simulací, kdy provedeme áhodý výběr ze všech možých permutací o rozsahu m (m dostatečě velké) a určíme kvatil c (α, δ o ) z tohoto výběru Jiá možost je sestavit rozhodovací kritérium a základě limitího chováí podmíěého rozděleí L(T ( Z, δ) δ = δ o ) K tomu potřebujeme určit podmíěou středí hodotu a rozptyl statistiky T 2 odmíěá středí hodota a rozptyl statistiky ro ásledující výpočet je třeba si uvědomit toto: E(Z j Z,,Z j )=p j Stadardím výpočtem pak odvodíme (podroběji viz [4], str 3 32): (27) E(T δ) =0 s j, var(t δ) = w 2 (j) δ 2 j [j] ( ) j + = w 2 (j) δ [j] Ep j q j s j Je užitečé si uvědomit souvislost s pořadovými statistikami pro ecezorovaá data Statistiku T ( Z, δ o ) defiovaou vzorcem (23) lze upravit ásledově (28) T ( Z, δ) = w (j) δ [j] (Z j p j )= Z j a j,

6 Leka Koblížková kde skóry jsou určey vztahem (29) a j = w (j) δ [j] j δ [i] w (i) i +, i= Jedá se tedy o zobecěou lieárí pořadovou statistiku j =, 2,, ozámka 23 Výše defiovaé skóry a j závisejí a δ [],δ [2],,δ [j], a tudížjsou fukcí áhodého vektoru δ, cožkvůli zbytečě složitému začeí ebudeme explicitě vyjadřovat ro skóry typu (29) platí (viz [4], str 35) a j =0, (a j) 2 = w(j) 2 j ( ) (20) δ [j] = var(t δ) j + 2 3 Asymptotické vlastosti testu Tvrzeí 3 Nechť existuje limita lim i / = η i (0, ), i=, 2 ak za platosti omezeé ulové hypotézy H 0 skóry a j defiovaé v (29) s vahami tvaru (24) splňují podmíku (3) max j (a j )2 (a j )2 0, Důkaz Skóry a j defiovaé v (29) lze omezit s j: Odtud a z (20) obdržíme (32) 0 max j (a j )2 (a j )2 max j (a j) 2 ( k= 2 2 ) 2 = s 2 k s 2 (a j )2 = 2 s 2 var(t δ) řičemžužijeme vlastosti částečého součtu harmoické řady s = k= k avlastosti přirozeého logaritmu l() (viz [6], str 33 332, bod 6, a str 365 366, bod 7) l α () (33) lim β =0, α > 0, β>0, lim (s l()) = c, kde c =0, 57725665 je tzv Eulerova kostata Opakovaým použitím (33) dostaeme, že lim s 2 / =0 Tedy čitatel výrazu a pravé straě v (32) koverguje kulepro okud jmeovatel uvažovaého zlomku bude kovergovat v pravděpodobosti ke kladé kostatě pro, cožyí ověříme, podmíka (3) bude splěa Jiak řečeo, chceme, aby za H 0 platilo: (34) var(t δ) cost > 0, Ozačme V = 2 w2 (j) δ [j] p j q j rov s vahami tvaru (24) za H 0 platí (viz [5], oddíl 22, podroběji viz [], oddíl 72) (35) V σ 2,, ( ) /2 kde σ 2 je asymptotický rozptyl statistiky T 2 ro aše potřeby stačí, že se jedá o kladou kostatu

Dvouvýběrové podmíěé pořadové testy v aalýze přežití 7 Abychom ověřili (34), stačí dokázat tvrzeí, že za hypotézy H 0 ( ) 2 V var(t δ) 0,, (36) tj z (27) w 2 (j) δ [j] (p j q j Ep j q j ) 0,, 2 eboť z (35) vyplývá, že η η 2 σ 2 při Zvolme libovolě malé pevé ε (0, ) a využijme vlastost vah w (j) pro j, pak w 2 (j) δ [j] (p j q j Ep j q j ) j<ε p j q j Ep j q j <εsj j<ε j<ε Stejou erovost dostaeme i pro součet přes všecha j, ( ε) <j, poěvadž ho lze převést a předchozí případ úpravou k = j Z výše uvedeého vyplývá, že stačí vyšetřovat kovergeci podle pravděpodobosti pro součet přes všecha j splňující erovost ε j ( ε): w 2 (j) δ [j] (p j q j Ep j q j ) ε j ( ε) p j q j Ep j q j ε j ( ε) ( p j Ep j (p j +Ep j ) +varp j ) s j ε j ( ε) 2 V K dalšímu potřebujeme odhad rozptylu var p j, ε j ( ε), (viz [4], str 4): (37) 0 var p j 2 2 j + 2 2 ε + Vezmeme-li v úvahu, že (p j +Ep j ) s j pro j spolu s odhadem (37), pak w 2 [j] (p j q j Ep j q j ) ε j ( ε) max j Ep j + 2 ε j ( ε) 2 s j ε + řičemžvýraz a pravé straě bude kovergovat podle pravděpodobosti k ule pro, pokud (38) max j Ep j 0, ε j ( ε) Tuto zbývající vlastost dokážeme: ( ) ro p j, viz (26), platí p j = j+ Ĥ (X (j) ), kde Ĥ (x) je empirická distribučí fukce poslouposti áhodých veliči X,X 2,,X OzačmeĤ(x) empirickou distribučí fukci poslouposti áhodých veliči X,X 2,,X Dále echť H i začí distribučí fukci veliči X ij, j =, 2,, i, i =, 2 Za platosti H 0 je H (x) =H 2 (x) =H(x) pro x K odvozeí vlastosti (38) užijeme Glivekovu větu, tedy za platosti H0 (39) sup Ĥ (x) H(x) 0,, (30) sup Ĥ(x) H(x) 0,

8 Leka Koblížková Dále využijeme (3) j + η pro ε j ( ε) ε + ε Rozdíl p j Ep j upravíme přičteím a odečteím vhodých výrazů [ p j Ep j = j + Ĥ(X (j) ) ( H(X )] (j) ) + [ ( )] + H(X (j) ) Ĥ(X (j) ) + [ Ĥ(X (j) ) j + ] } Ep j Vzhledem k tomu, že Ep j = a Ĥ(X (j) )= j,máme [ ] p j Ep j = H(X (j) ) (j) )] j + Ĥ(X + [Ĥ (X (j) ) H(X (j) ) } Za platosti H0 lze áhodou veličiu max ε j ( ε) p j Ep j omezit s j ásledově: max p j Ep j ( sup Ĥ ε j ( ε) ε + (x) H(x) +sup Ĥ(x) H(x) + ) Z vlastostí (39), (30) a (3) plye vlastost (38) Tím jsme dokočili důkaz (36), a tedy i tvrzeí 3 Z tvrzeí 3 vyplývá, že za platosti omezeé ulové hypotézy H 0 stadardizovaá T statistika var(t,kdet je tvaru (28), má asymptoticky podmíěě při daém δ δ) ormovaé ormálí rozděleí N(0, ) (viz [2], str 94 95, dodatky 4 a 8), tj lim sup T x δ Φ(x) var(t δ) >ε =0, ε>0 T ozámka 3 Vzhledem k této vlastosti stadardizovaá statistika var(t δ) má i asymptoticky (epodmíěě) ormovaé ormálí rozděleí N(0, ) (viz [2], str 95, dodatek 5) Na základě získaých pozatků staovíme asymptotické kritérium podmíěého pořadového testu v případě velkých hodot a 2 :, T (var(t δ = ϕ, δo = δ o )) /2 >u α, zamítáme hypotézu H 0, 0, T (var(t δ = δ o )) /2 u α, ezamítáme hypotézu H 0, kde u α je ( α)-kvatil ormovaého ormálího rozděleí N(0, ) Literatura [] Flemig T R, Harrigto D (99): Coutig rocesses ad Survival Aalysis Joh Wiley & Sos, Ic, New York [2] Hájek J, Šidák Z (967): Theory ofrak Tests Academia, raha [3] Jasse A (99): Coditioal Rak Tests for Radomly Cesored Data The Aals of Statistics Vol 9, No 3, 434 456 [4] Koblížková L (2000): ořadové testy a odhady v aalýze přežití Diplomová práce MFF UK [5] Neuhaus G (993): Coditioal Rak Tests for the Two Sample roblem Uder Radom Cesorship The Aals of Statistics Vol 2, No 4, 760 779 [6] Rektorys K a spolupracovíci (995): řehled užité matematiky I rometheus, raha