INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH

Podobné dokumenty
ROBUST Sborník prací 13. letní školy JČMF ROBUST 2004 uspořádané Jednotou českých matematiků a fyziků

Normální (Gaussovo) rozdělení

Regresní analýza 1. Regresní analýza

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Intervalové Odhady Parametrů

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

7. Analýza rozptylu.

15. T e s t o v á n í h y p o t é z

Příklady na testy hypotéz o parametrech normálního rozdělení

Statistika II. Jiří Neubauer

Pravděpodobnost a matematická statistika

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Téma 22. Ondřej Nývlt

Korelační a regresní analýza

15. T e s t o v á n í h y p o t é z

Charakterizace rozdělení

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

PRAVDĚPODOBNOST A STATISTIKA

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Normální rozložení a odvozená rozložení

Intervalové Odhady Parametrů II Testování Hypotéz

Matematická statistika Zimní semestr Testy o proporci

Vlastnosti odhadů ukazatelů způsobilosti

Zápočtová práce STATISTIKA I

AVDAT Mnohorozměrné metody, metody klasifikace

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Diagnostika regrese pomocí grafu 7krát jinak

Regresní a korelační analýza

Zápočtová písemka z Matematiky III (BA04) skupina A

5. T e s t o v á n í h y p o t é z

I. D i s k r é t n í r o z d ě l e n í

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Normální (Gaussovo) rozdělení

p(x) = P (X = x), x R,

AKM CVIČENÍ. Opakování maticové algebry. Mějme matice A, B regulární, potom : ( AB) = B A

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

17. Posloupnosti a řady funkcí

Regresní a korelační analýza

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Intervalová data a výpočet některých statistik

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

Regresní a korelační analýza

Regresní a korelační analýza

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Přijímací zkouška na navazující magisterské studium 2014

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

8. Normální rozdělení

ODHADY NÁVRATOVÝCH HODNOT

Pravděpodobnost a aplikovaná statistika

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Bayesovské metody. Mnohorozměrná analýza dat

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Návrh a vyhodnocení experimentu

MATEMATIKA III V PŘÍKLADECH

MATEMATICKÁ STATISTIKA - XP01MST

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Regresní a korelační analýza

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Náhodné vektory a matice

Kapitola 4: Průběh funkce 1/11

Jana Vránová, 3. lékařská fakulta UK

(5) Primitivní funkce

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Praktická statistika. Petr Ponížil Eva Kutálková

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Bodové a intervalové odhady parametrů v regresním modelu

Náhodné (statistické) chyby přímých měření

KVADRATICKÁ KALIBRACE

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Vlastnosti a modelování aditivního

Pravděpodobnost a statistika (BI-PST) Cvičení č. 7

TECHNICKÁ UNIVERZITA V LIBERCI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Transkript:

ROBUST 2004 c JČMF 2004 INFERENCE ZALOŽENÁ NA SEKVENČNÍCH POŘADÍCH Lucie Belzová Klíčová slova: Pořadí, sekvenční pořadí, ův test. Abstrakt:Tématemčlánkujsou klasická asekvenčnípořadí.jsouzde uvedeny jejich definice, základní vlastnosti a vztah mezi nimi. Dále je ukazáno, že testové statistiky založené na pořadích resp. na sekvenčních pořadích (tj.vtestovéstatisticenahradíme klasické pořadísekvenčním)jsouzaurčitých předpokladů ekvivalentní. 1 Pořadí a sekvenční pořadí Nechť X 1,..., X n jsou nezávislé náhodné veličiny se spojitou distribuční funkcí F.Náhodnéveličiny X 1,..., X n uspořádámepodlevelikostianejmenší znichoznačíme X (1),druhounejmenší X (2) ažnejvětší X (n).platítedy X (1) X (2)... X (n). X (i) senazývá i-tápořádkovástatistika. Jestliženáhodnáveličina X i je j-tácodovelikostimeziveličinami X 1,..., X n,tj.(x i = X (j) ),pakpořadí R in tétoveličinyjerovnočíslu j.hodnota R in jetedyrovnapočtutěchveličin,kteréjsoumenšíneborovny X i. Dáledefinujemesekvenčnípořadí R ii náhodnéveličiny X i jakopořadí X i meziveličinami X 1,..., X i.barndorff-nielsen[1]dokázali,ženáhodné veličiny R 11, R 22,... R nn jsounezávisléaplatí P(R ii = r i )= 1 i, r,..., i;,...,n. Uvažujme lineární pořadovou statistiku následujícího tvaru: Rin T n = c in J n, (1) n+1 kde c 1n, c 2n,...c nn jsouznáméregresníkonstantyaj n ( i jsou skóry generované následujícím způsobem: i J n =EJ(U (i) ), n+1 n+1 )pro,...,n kde U (i) je i-tápořádkovástatistikaznnezávislýchrovnoměrněrozdělených náhodných veličin na intervalu(0, 1). Dále předpokládáme, že 1 0 J(u)du=0, (2)

10 Lucie Belzová a kde 0 < 1 0 J 2 (u)du=a< (3) c in =0. (4) Nyní uvažujme statistiku založenou na sekvenčních pořadích: Rii M n = (c in c i 1,n )J i, (5) i+1 c i 1,n = 1 i 1 c jn a c 0,n =0. i 1 j=1 Tedy M n jesoučtemnezávislýchnáhodnýchveličin. Mason[3] dokázal, že pokud platí max 1 i n c 2 in = o(1) (c jn c nn ) 2 j=1 jsoustatistiky T n a M n asymptotickyekvivaletnípodlekvadratickéhostředu, tj. platí Tn M n n E 0, (6) kde σ 2 n=vart n. σ 2 n 2 Dvouvýběrový ův test Nechť X 1,...,X m resp. Y 1,..., Y n jenáhodnývýběrzrozdělenísdistribuční funkcí Fresp. G. Dvouvýběrový ův test testuje hypotézu, že distribuční funkce F a Gjsoustejné,tj. H 0 : F = G,protialternativěposunutívpoloze,tzn. H 1 : G(x)=F(x ), 0. Veličiny X 1,...,X m, Y 1,...,Y n (tzv.sdruženývýběr)uspořádámevzestupněpodlevelikostiaoznačíme R in,,...n,(n= m+n)pořadí i-té veličiny ze sdruženého výběru. Pak ova statistika je rovna součtu pořadí druhého výběru, tedy W N = N i=m+1 Platí T N = W N provolbu J(u)=ua R in. (7) c in = 0,...,m = 1 i=m+1,...,n.

Inference založená na sekvenčních pořadích 11 Bohužel pro tuto skórovou funkci a tyto regresní konstanty neplatí podmínky(2) a(4), proto upravíme volbu následovně: J(u)=u 1 2 c in = n N,..., m i=m+1,...,n. = m N Potompořadovéstatistiky T N a M N jsourovny: T N = n N m RiN N+1 1 + m 2 N N i=m+1 RiN N+1 1 2 (8) M N = n N ( R 11 1 ) 2 + N i=m+1 m Rii i 1 i+1 1, (9) 2 protože c in c i 1,N = n N = 0 i=2,...,m i=m+1,...,n. = m i 1 3 Simulace 3.1 Normální rozdělení Uvažujmenáhodnévýběry X 1,..., X m zn(0,1)ay 1,..., Y m zn(,1),kde =0,0.25,0.5,0.75,1,1.5,2,2.5,3. Prorozsahyvýběrů m=15, n=20resp. m=n=50resp. m=n=100 arůznévelikostiposunutí( )bylyspočtenytestovéstatistiky T n (ova)am n ( sekvenčníova )aoběbylyporovnányskritickou hodnotu ova testu na hladině spolehlivosti α = 0.05. Pro každou kombinaci volby rozsahu a posunutí se provedlo 1000 simulací. procentuální zastoupení shodných rozhodnutí ova a ovasekvenčního testuprojednotlivésituace.jevidět,žesrostoucímirozsahy výběrů jsou rozhodnutí testů ve více případech stejná. Dále, jak bychom očekávali, počet shodných rozhodnutí roste s rostoucím posunutím od určité hodnoty posunutí p(závisí na rozsazích výběrů). A naopak, pokud posunutí jemezi0ap,početstejnýchrozhodnutíklesá. Pro m = 15, n = 20a = 0.75jsouvtabulce(Tab.2)avgrafu (Graf 2) uvedeny počty jednotlivých možností rozhodnutí obou testů.(tato kombinace parametrů měla nejméně shodných rozhodnutí 79,5%.) Pro ostatní kombinace parametrů je situace obdobná, tj. sekvenční test je slabší než ův.

12 Lucie Belzová m=15,n=20 m=n=50 m=n=100 0 95,0 98,3 98,4 0,25 92,6 94,9 94,6 0,5 88,0 93,5 98,3 0,75 79,5 97,4 100,0 1 84,8 100,0 100,0 1,5 97,3 100,0 100,0 2 99,8 100,0 100,0 2,5 100,0 100,0 100,0 3 100,0 100,0 100,0 Tabulka 1: Shodné rozhodnutí ova a Sekvenčního testu pro normální rozdělení(v procentech). Shodné rozhodnutí ova a Sekvenčního testu pro normální rozdělení (v procentech) procenta 100 95 90 85 80 75 0 0,25 0,5 0,75 1 1,5 2 2,5 3 posunutí m=15,n=20 m=n=50 m=n=100 Graf1 Sekvenční zamítl nezamítl zamítl 368 0 nezamítl 205 427 Tabulka2:Normálnírozdělení, m=15, n=20, =1,5.

Inference založená na sekvenčních pořadích 13 X1,...X15 ~ N(0,1), Y1,...Y20~N(0.75,1) Sekven ní nezamitl zamitl 205 368 427 zamitl nezamitl Graf2 3.2 Logistické rozdělení Vzhledem k tomu, že uv test je lokálně nejsilnejší pořadový test (viz[2]) pro logistické rozdělení, byla obdobná simulace provedena i pro logistické rozdělení L(a, b), které má hustotu f(x)= exp{ x a b } (1+exp{ x a b })2 x, a R, b >0. Analogicky jako u normálního rozdělení se nagerovaly náhodné výběry X 1,..., X m zl(0,1)ay 1,..., Y m zl(,1),kde =0,0.25,0.5,0.75,1, 1.5,2,2.5,3,3.5,4am=15, n=20resp. m=n=50resp. m=n=100. Výsledky jsou obdobné jako u normálního rozdělení. Dle tabulky(tab. 3) a grafu(graf 3) je patrné, že opět počet shodných rozhodnutí ova a sekvenčního testu roste s rozsahem výběrů a velikostí posunutí od určité hodnotyposunutí p.připevnýchrozsazíchakdyž 0, p,početstejných rozhodnutí klesá. Jako v případě normálního rozdělení i pro logistické rozdělení je zde uveden graf(graf 4) a tabulka(tab. 4) se zastoupením jednotlivých rozhodnutí obou testů pro kombinaci parametrů, u které bylo nejméně shodných rozhodnutí.tentokráttatosituacenastalaopětprorozsahyvýběrů m=15, n=20, ale velikost posunutí je větší a to 1,5. Pro ostatní kombinace parametrů je rozložení rozhodnutí obdobné,tedy opět můžeme prohlásit, že ův test je silnější než-li sekvenční.

14 Lucie Belzová m=15,n=20 m=n=50 m=n=100 0 95,6 98,5 98,8 0,25 94,4 96,0 97,5 0,5 93,6 94,1 95,2 0,75 87,1 91,1 96,3 1 86,1 94,5 99,3 1,5 84,0 99,4 100,0 2 88,8 100,0 100,0 2,5 96,7 100,0 100,0 3 98,8 100,0 100,0 3,5 99,6 100,0 100,0 4 100,0 100,0 100,0 Tabulka 3: Shodné rozhodnutí ova a Sekvenčního testu pro logistické rozdělení(v procentech). Shodné rozhodnutí ova a Sekvenčního testu pro logistické rozdělení (v procentech) 100 procenta 95 90 85 80 75 0 0,25 0,5 0,75 1 1,5 2 2,5 3 3,5 4 posunutí m=15,n=20 m=n=50 m=n=100 Graf3 Sekvenční zamítl nezamítl zamítl 515 0 nezamítl 160 325 Tabulka4:Logistickérozdělení, m=15, n=20, =1,5.

Inference založená na sekvenčních pořadích 15 X1,...X15 ~ L(0,1), Y1,...Y20~L(1.5,1) nezamitl 160 325 Sekven ní zamitl 515 zamitl nezamitl Graf4 4 Závěr Pro normální a logistické rozdělení jsme nevyvrátili platnost vztahu(6), tj. vtestovéstatistiky T n a M n jsouasymptotickyekvivaletnípodlekvadratického středu. Dále se ukázalo, že ův test je silnější než jeho sekvenční analogie. A za třetí čím větší posunutí u druhého výběru uvažujeme, tím více je shodných rozhodnutí uvažovaných testů. Reference [1] Barndorff-Nielsen O.(1963). On the limit behaviour of extreme order statistics. The Annals of Matematical Statistics 34, 992 1002. [2] Jurečková J.(1981). Pořadové testy. SPN Praha. [3]MasonDavidM.(1981).Ontheuseofastatisticbasedonsequentialranks to prove limit theorems for simple linear rank statistics. The Annals of Statistics9,424 436. Poděkování: Tato práce je podporována výzkumným záměrem MSM 113200008. Adresa:L.Belzová,KPMS,MFFUK,Sokolovská83,Praha8-Karlín E-mail: belzova@karlin.mff.cuni.cz