ROBUST 2004 c JČMF 2004 INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH Lucie Belzová Klíčová slova: Pořadí, sekvenční pořadí, ův test. Abstrakt:Tématemčlánkujsou klasická asekvenčnípořadí.jsouzde uvedeny jejich definice, základní vlastnosti a vztah mezi nimi. Dále je ukazáno, že testové statistiky založené na pořadích resp. na sekvenčních pořadích (tj.vtestovéstatisticenahradíme klasické pořadísekvenčním)jsouzaurčitých předpokladů ekvivalentní. 1 Pořadí a sekvenční pořadí Nechť X 1,..., X n jsou nezávislé náhodné veličiny se spojitou distribuční funkcí F.Náhodnéveličiny X 1,..., X n uspořádámepodlevelikostianejmenší znichoznačíme X (1),druhounejmenší X (2) ažnejvětší X (n).platítedy X (1) X (2)... X (n). X (i) senazývá i-tápořádkovástatistika. Jestliženáhodnáveličina X i je j-tácodovelikostimeziveličinami X 1,..., X n,tj.(x i = X (j) ),pakpořadí R in tétoveličinyjerovnočíslu j.hodnota R in jetedyrovnapočtutěchveličin,kteréjsoumenšíneborovny X i. Dáledefinujemesekvenčnípořadí R ii náhodnéveličiny X i jakopořadí X i meziveličinami X 1,..., X i.barndorff-nielsen[1]dokázali,ženáhodné veličiny R 11, R 22,... R nn jsounezávisléaplatí P(R ii = r i )= 1 i, r,..., i;,...,n. Uvažujme lineární pořadovou statistiku následujícího tvaru: Rin T n = c in J n, (1) n+1 kde c 1n, c 2n,...c nn jsouznáméregresníkonstantyaj n ( i jsou skóry generované následujícím způsobem: i J n =EJ(U (i) ), n+1 n+1 )pro,...,n kde U (i) je i-tápořádkovástatistikaznnezávislýchrovnoměrněrozdělených náhodných veličin na intervalu(0, 1). Dále předpokládáme, že 1 0 J(u)du=0, (2)
10 Lucie Belzová a kde 0 < 1 0 J 2 (u)du=a< (3) c in =0. (4) Nyní uvažujme statistiku založenou na sekvenčních pořadích: Rii M n = (c in c i 1,n )J i, (5) i+1 c i 1,n = 1 i 1 c jn a c 0,n =0. i 1 j=1 Tedy M n jesoučtemnezávislýchnáhodnýchveličin. Mason[3] dokázal, že pokud platí max 1 i n c 2 in = o(1) (c jn c nn ) 2 j=1 jsoustatistiky T n a M n asymptotickyekvivaletnípodlekvadratickéhostředu, tj. platí Tn M n n E 0, (6) kde σ 2 n=vart n. σ 2 n 2 Dvouvýběrový ův test Nechť X 1,...,X m resp. Y 1,..., Y n jenáhodnývýběrzrozdělenísdistribuční funkcí Fresp. G. Dvouvýběrový ův test testuje hypotézu, že distribuční funkce F a Gjsoustejné,tj. H 0 : F = G,protialternativěposunutívpoloze,tzn. H 1 : G(x)=F(x ), 0. Veličiny X 1,...,X m, Y 1,...,Y n (tzv.sdruženývýběr)uspořádámevzestupněpodlevelikostiaoznačíme R in,,...n,(n= m+n)pořadí i-té veličiny ze sdruženého výběru. Pak ova statistika je rovna součtu pořadí druhého výběru, tedy W N = N i=m+1 Platí T N = W N provolbu J(u)=ua R in. (7) c in = 0,...,m = 1 i=m+1,...,n.
Inference založená na sekvenčních pořadích 11 Bohužel pro tuto skórovou funkci a tyto regresní konstanty neplatí podmínky(2) a(4), proto upravíme volbu následovně: J(u)=u 1 2 c in = n N,..., m i=m+1,...,n. = m N Potompořadovéstatistiky T N a M N jsourovny: T N = n N m RiN N+1 1 + m 2 N N i=m+1 RiN N+1 1 2 (8) M N = n N ( R 11 1 ) 2 + N i=m+1 m Rii i 1 i+1 1, (9) 2 protože c in c i 1,N = n N = 0 i=2,...,m i=m+1,...,n. = m i 1 3 Simulace 3.1 Normální rozdělení Uvažujmenáhodnévýběry X 1,..., X m zn(0,1)ay 1,..., Y m zn(,1),kde =0,0.25,0.5,0.75,1,1.5,2,2.5,3. Prorozsahyvýběrů m=15, n=20resp. m=n=50resp. m=n=100 arůznévelikostiposunutí( )bylyspočtenytestovéstatistiky T n (ova)am n ( sekvenčníova )aoběbylyporovnányskritickou hodnotu ova testu na hladině spolehlivosti α = 0.05. Pro každou kombinaci volby rozsahu a posunutí se provedlo 1000 simulací. procentuální zastoupení shodných rozhodnutí ova a ovasekvenčního testuprojednotlivésituace.jevidět,žesrostoucímirozsahy výběrů jsou rozhodnutí testů ve více případech stejná. Dále, jak bychom očekávali, počet shodných rozhodnutí roste s rostoucím posunutím od určité hodnoty posunutí p(závisí na rozsazích výběrů). A naopak, pokud posunutí jemezi0ap,početstejnýchrozhodnutíklesá. Pro m = 15, n = 20a = 0.75jsouvtabulce(Tab.2)avgrafu (Graf 2) uvedeny počty jednotlivých možností rozhodnutí obou testů.(tato kombinace parametrů měla nejméně shodných rozhodnutí 79,5%.) Pro ostatní kombinace parametrů je situace obdobná, tj. sekvenční test je slabší než ův.
12 Lucie Belzová m=15,n=20 m=n=50 m=n=100 0 95,0 98,3 98,4 0,25 92,6 94,9 94,6 0,5 88,0 93,5 98,3 0,75 79,5 97,4 100,0 1 84,8 100,0 100,0 1,5 97,3 100,0 100,0 2 99,8 100,0 100,0 2,5 100,0 100,0 100,0 3 100,0 100,0 100,0 Tabulka 1: Shodné rozhodnutí ova a Sekvenčního testu pro normální rozdělení(v procentech). Shodné rozhodnutí ova a Sekvenčního testu pro normální rozdělení (v procentech) procenta 100 95 90 85 80 75 0 0,25 0,5 0,75 1 1,5 2 2,5 3 posunutí m=15,n=20 m=n=50 m=n=100 Graf1 Sekvenční zamítl nezamítl zamítl 368 0 nezamítl 205 427 Tabulka2:Normálnírozdělení, m=15, n=20, =1,5.
Inference založená na sekvenčních pořadích 13 X1,...X15 ~ N(0,1), Y1,...Y20~N(0.75,1) Sekven ní nezamitl zamitl 205 368 427 zamitl nezamitl Graf2 3.2 Logistické rozdělení Vzhledem k tomu, že uv test je lokálně nejsilnejší pořadový test (viz[2]) pro logistické rozdělení, byla obdobná simulace provedena i pro logistické rozdělení L(a, b), které má hustotu f(x)= exp{ x a b } (1+exp{ x a b })2 x, a R, b >0. Analogicky jako u normálního rozdělení se nagerovaly náhodné výběry X 1,..., X m zl(0,1)ay 1,..., Y m zl(,1),kde =0,0.25,0.5,0.75,1, 1.5,2,2.5,3,3.5,4am=15, n=20resp. m=n=50resp. m=n=100. Výsledky jsou obdobné jako u normálního rozdělení. Dle tabulky(tab. 3) a grafu(graf 3) je patrné, že opět počet shodných rozhodnutí ova a sekvenčního testu roste s rozsahem výběrů a velikostí posunutí od určité hodnotyposunutí p.připevnýchrozsazíchakdyž 0, p,početstejných rozhodnutí klesá. Jako v případě normálního rozdělení i pro logistické rozdělení je zde uveden graf(graf 4) a tabulka(tab. 4) se zastoupením jednotlivých rozhodnutí obou testů pro kombinaci parametrů, u které bylo nejméně shodných rozhodnutí.tentokráttatosituacenastalaopětprorozsahyvýběrů m=15, n=20, ale velikost posunutí je větší a to 1,5. Pro ostatní kombinace parametrů je rozložení rozhodnutí obdobné,tedy opět můžeme prohlásit, že ův test je silnější než-li sekvenční.
14 Lucie Belzová m=15,n=20 m=n=50 m=n=100 0 95,6 98,5 98,8 0,25 94,4 96,0 97,5 0,5 93,6 94,1 95,2 0,75 87,1 91,1 96,3 1 86,1 94,5 99,3 1,5 84,0 99,4 100,0 2 88,8 100,0 100,0 2,5 96,7 100,0 100,0 3 98,8 100,0 100,0 3,5 99,6 100,0 100,0 4 100,0 100,0 100,0 Tabulka 3: Shodné rozhodnutí ova a Sekvenčního testu pro logistické rozdělení(v procentech). Shodné rozhodnutí ova a Sekvenčního testu pro logistické rozdělení (v procentech) 100 procenta 95 90 85 80 75 0 0,25 0,5 0,75 1 1,5 2 2,5 3 3,5 4 posunutí m=15,n=20 m=n=50 m=n=100 Graf3 Sekvenční zamítl nezamítl zamítl 515 0 nezamítl 160 325 Tabulka4:Logistickérozdělení, m=15, n=20, =1,5.
Inference založená na sekvenčních pořadích 15 X1,...X15 ~ L(0,1), Y1,...Y20~L(1.5,1) nezamitl 160 325 Sekven ní zamitl 515 zamitl nezamitl Graf4 4 Závěr Pro normální a logistické rozdělení jsme nevyvrátili platnost vztahu(6), tj. vtestovéstatistiky T n a M n jsouasymptotickyekvivaletnípodlekvadratického středu. Dále se ukázalo, že ův test je silnější než jeho sekvenční analogie. A za třetí čím větší posunutí u druhého výběru uvažujeme, tím více je shodných rozhodnutí uvažovaných testů. Reference [1] Barndorff-Nielsen O.(1963). On the limit behaviour of extreme order statistics. The Annals of Matematical Statistics 34, 992 1002. [2] Jurečková J.(1981). Pořadové testy. SPN Praha. [3]MasonDavidM.(1981).Ontheuseofastatisticbasedonsequentialranks to prove limit theorems for simple linear rank statistics. The Annals of Statistics9,424 436. Poděkování: Tato práce je podporována výzkumným záměrem MSM 113200008. Adresa:L.Belzová,KPMS,MFFUK,Sokolovská83,Praha8-Karlín E-mail: belzova@karlin.mff.cuni.cz