jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Podobné dokumenty
Přijímací zkouška na navazující magisterské studium 2014

y = 0, ,19716x.

PRAVDĚPODOBNOST A STATISTIKA

Testování statistických hypotéz

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

8 Coxův model proporcionálních rizik I

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

12. cvičení z PST. 20. prosince 2017

Přijímací zkouška na navazující magisterské studium 2017

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

15. T e s t o v á n í h y p o t é z

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní analýza 1. Regresní analýza

15. T e s t o v á n í h y p o t é z

Ing. Michael Rost, Ph.D.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

KGG/STG Statistika pro geografy

Základy teorie odhadu parametrů bodový odhad

5. T e s t o v á n í h y p o t é z

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

7. Analýza rozptylu.

Jednofaktorová analýza rozptylu

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

5 Parametrické testy hypotéz

Pravděpodobnost a matematická statistika

Spolehlivost soustav

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Příklady na testy hypotéz o parametrech normálního rozdělení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

= = 2368

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Markovské metody pro modelování pravděpodobnosti

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

KVADRATICKÁ KALIBRACE

Odhad parametrů N(µ, σ 2 )

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Bodové a intervalové odhady parametrů v regresním modelu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Definice spojité náhodné veličiny zjednodušená verze

Testy. Pavel Provinský. 19. listopadu 2013

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

AVDAT Klasický lineární model, metoda nejmenších

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a statistika

Normální rozložení a odvozená rozložení

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Stručný úvod do testování statistických hypotéz

5. B o d o v é o d h a d y p a r a m e t r ů

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Přijímací zkouška na navazující magisterské studium 2015

3 Bodové odhady a jejich vlastnosti

Normální (Gaussovo) rozdělení

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Regresní a korelační analýza

Apriorní rozdělení. Jan Kracík.

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

12. prosince n pro n = n = 30 = S X

LINEÁRNÍ MODELY. Zdeňka Veselá

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ. Michal Friesl

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Odhad parametrů N(µ, σ 2 )

Testování statistických hypotéz

Jana Vránová, 3. lékařská fakulta UK

Statistická analýza jednorozměrných dat

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

INDUKTIVNÍ STATISTIKA

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

STATISTICKÉ TESTY VÝZNAMNOSTI

4ST201 STATISTIKA CVIČENÍ Č. 7

4 Parametrické odhady

STATISTICKÁ VAZBA. 1.1 Statistická vazba Charakteristiky statistické vazby dvou náhodných veličin Literatura 9

Odhady Parametrů Lineární Regrese

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Výběrové charakteristiky a jejich rozdělení

ÚVOD. Rozdělení slouží: K přesnému popisu pravděpodobnostního chování NV Střední hodnota, rozptyl, korelace atd.

Transkript:

Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment ideálně a nelze přitom využít cenzorování časem nebo poruchou, ale je potřeba vyjít z tzv provozních dat Podobně je tomu při sledování životnosti jedinců dané populace Protože jedinci často migrují, mohou se dostat mimo naši kontrolu dříve, než zjistíme, zda ke sledovanému rizikovému jevu došlo či nikoliv Např sledujeme-li soubor pacientů, kteří jsou po závažném onemocnění v septickém stavu a sledování provádíme s ohledem na jejich přežití, nemusíme přesně znát dobu trvání septického stavu Pacient může být během septického stavu převezen do jiného zařízení, kde již není pod naší kontrolou, případně dlouhodobé sledování pacienta pro potřeby dané studie musíme z časových důvodů předčasně ukončit apod V takových případech uvažujeme n statistických jednotek a u každé z nich pozorujeme bud náhodnou veličinu X, která udává dobu čekání na rizikový jev nebo náhodnou veličinu T, která udává dobu sledování pacienta Náhodná veličina T se nazývá časový cenzor Lze tedy každé statistické jednotce přiřadit hodnotu X nebo T podle toho, která z těchto hodnot je menší Formálně zapsáno může být výsledek sledování n dvojic (W 1, I 1 ), (W 2, I 2 ),, (W n, I n ), kde W j = min(x j, T j ), I j = 1, jestliže W j = X j, a tedy, j-té pozorování X je necenzorované a rizikový jev u j-té jednotky byl pozorován v čase X j, I j = 0, jestliže W j = T j, to znamená, že j-té pozorování X je cenzorováno v čase T = T j, tedy statistická jednotka j byla vyjmuta ze sledování dříve, než došlo k nastoupení rizikového jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina Při náhodném cenzorování předpokládáme, že doba čekání na rizikový jev X a časový cenzor T jsou nezávislé náhodné veličiny Rozdělení X popíšeme stejně jako dříve hustotou f(x) nebo distribuční funkcí F (x) a rozdělení časového cenzoru T popíšeme hustotou g(t) nebo distribuční funkcí G(t), přičemž obě tato rozdělení mohou záviset na neznámých parametrech, tedy F (x) = F (x, θ 1 ) a G(x) = G(x, θ 2 ) Vektor θ = (θ 1, θ 2 ) je pak vektor všech neznámých parametrů a pro jednoduchost budeme předpokládat, že vektory θ 1, θ 2 neobsahují společné parametry Za uvedených předpokladů je potom výsledkem pozorování n nezávislých dvojic (W j, I j ), j = 1, 2,, n Dříve než uvedeme věrohodnostní funkci, která odpovídá náhodnému cenzorování, zavedeme funkci H(w, i) pro w > 0 a i {0, 1} vztahem H(w, i) = P (W w, I = i) Z uvedených předpokladů pak plyne, že Odtud derivováním dostaneme funkci H(w, 1) = P (W j < w, I j = 1) = F (w) ah(w, 0) = P (W j w, I j = 0) = G(w) w 0 w 0 f(x)g(x)dx F (x)g(x)dx dh(w, 1) h(w, 1) = = f(w) f(w)g(w) = f(w) ( 1 G(w) ), w > 0 dw dh(w, 0) h(w, 0) = = g(w) F (w)g(w) = g(w) ( 1 F (w) ), w > 0 dw (1) Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ107/2200/280326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Zřejmě funkce h(w, i) odpovídá sdružené hustotě náhodných veličin W a I Odtud plyne, že věrohodnostní funkce výsledku experimentu (W 1, I 1 ),, (W n, I n ) při náhodném cenzorování je rovna n L(θ) = h(w j, I j ) (2) j=1 Poznamenejme ještě pro úplnost, že pro stručnost zápisu jsme v hustotách f, g, h a distribučních funkcích F, G, H explicitně nevyjádřili závislosti na parametrech θ 1, θ 2, θ Odhad parametru θ potom získáme maximalizací věrohodnostní funkce (2) nebo jednodušeji maximalizací logaritmické věrohodnostní funkce n l(θ) = lnl(θ) = ln h(w j, I j ) Protože na pořadí sčítanců ve vyjádření logaritmické věrohodnostní funkce l(θ) nezáleží, lze l(θ) zapsat ve tvaru l(θ) = j J 1 ln h(w j, 1) + j J 0 ln h(w j, 0), (3) kde J 1 {1, 2,, n} je množina statistických jednotek j, pro které je I j = 1, tj J 1 = {j : I j = 1} a J 0 {1, 2,, n} je množina statistických jednotek {j : I j = 0} Tedy J 1 odpovídá statistickým jednotkám, u nichž byl rizikový jev pozorován a J 0 odpovídá statistickým jednotkám, které byly cenzorovány a rizikový jev nebyl pozorován Když dosadíme za h(w j, 0) a h(w j, 1) ve vzorci (3) ze vzorce (1), dostaneme logaritmickou věrohodnostní funkci l(θ) ve tvaru l(θ) = ( ln f(w j ) ( 1 G(W j ) )) + ( ln g(w j ) ( 1 F (W j ) )) = j J 1 j J 0 = ( ln f(x (j) ) ( 1 G(X (j) ) )) + ( ln g(t j ) ( 1 F (T j ) )) = j J 1 j J 0 j=1 = j J 1 ln f(x (j) ) + j J 0 ln ( 1 F (T (j) ) ) + j J 0 ln g(t j ) + j J 1 ln ( 1 G(X (j) ) ) Dále vzhledem k předpokladu, že f a F závisí pouze na parametru θ 1 = (θ 11,, θ 1r1 ) a g a G pouze na parametru θ 2 = (θ 21,, θ 2r2 ), dostaneme logaritmicko věrohodnostní funkci l(θ) jako součet kde l(θ) = l 1 (θ 1 ) + l 2 (θ 2 ), l 1 (θ 1 ) = j J 1 ln f(x (j) ) + j J 0 ln ( 1 F (T j ) ), l 2 (θ 2 ) = j J 0 ln g(t j ) + j J 1 ln ( 1 G(X (j) ) ) Věrohodnostní rovnice pro odhad parametru θ 1 jsou l 1 θ 1i = 0, i = 1,, r 1 a věrohodnostní rovnice pro odhad θ 2 jsou l 2 θ 2i = 0, i = 1,, r 2 Jejich řešením dostaneme maximálně věrohodné odhady parametrů θ 1, θ 2 při náhodném cenzorování 2

12 Testovací statistiky v cenzorovaných výběrech Budeme vycházet z cenzorovaného náhodného výběru, který byl pořízen z pozorování n statistických jednotek Označíme J 0 množinu cenzorovaných jednotek a množinu J 1 množinu necenzorovaných statistických jednotek Ve speciálním případě, kdy pozorování nejsou cenzorována, je množina J 0 prázdná a jedná se o speciální případ modelu s cenzorováním Hustotu doby čekání na rizikový jev opět označíme f(x, θ), kde θ = (θ 1, θ r ) je r-rozměrný parametr V aplikacích je častá situace, kdy se zajímáme pouze o některé složky vektoru θ, budeme předpokládat, že jsou to parametry θ 1,, θ k, k r, a budeme je nazývat cílové parametry Ostatní parametry θ k+1,, θ r nejsou předmětem našeho zájmu, netýká se jich testovaná hypotéza a nazývají se rušivé parametry Například když pracujeme s normálním rozdělením N(µ, σ 2 ), je r = 2, θ = (µ, σ) a testovaná hypotéza se často týká jenom parametru θ 1 = µ (k = 1) a druhý parametr θ 2 = σ je rušivým parametrem Dále označíme θ C = (θ 1,, θ k ) vektor cílových parametrů a θ R = (θ k+1,, θ r ) vektor rušivých parametrů (rušivý vektorový parametr) Budeme uvažovat nulovou hypotézu H 0 : θ C = θ 0, kde θ 0 = (θ 01,, θ 0k ) je daný známý vektor V tomto označení lze psát θ = (θ C, θ R ) a při platnosti nulové hypotézy je θ = (θ 0, θ R ) Logaritmickou věrohodnostní funkci l(θ) pak můžeme po dosazení za θ psát ve tvaru l(θ) = l(θ C, θ R ) a za platnosti H 0 je l(θ) = l(θ 0, θ R ) (LR) Věrohodnostní poměr (z anglického likelihood ratio) ( LR = 2 l( θ C, θ R ) l(θ 0, θ ) R ), kde θ = ( θ C, θ R ) je maximálně věrohodný odhad parametru θ = (θ C, θ R ) a θ R je maximálně věrohodný odhad parametru θ R za platnosti nulové hypotézy θ C = θ 0 Tedy platí pro něj, že l(θ 0, θ R ) = max l(θ 0, θ R ) θ R a lze jej získat řešením věrohodnostních rovnic (W) Waldova statistika l(θ 0, θ R ) θ j = 0, j = k + 1,, r W = ( θ C θ 0 ) J 11 2 ( θ C, θ R )( θ C θ 0 ), kde matice J 11 2 (θ C, θ R ) závislá na parametru θ = (θ C, θ R ) se vypočte podle vzorce J 11 2 (θ C, θ R ) = J 11 J 12 J 1 22 J 21, přičemž matice J 11, J 12, J 21 jsou bloky tzv Fisherovy informační matice J = J(θ) = J(θ C, θ R ) definované pomocí logaritmické věrohodnostní funkce l(θ) = l(θ C, θ R ) vztahem ( ) ( ) J(θ) = J(θ C, θ R ) = E 2 l(θ) J11 (θ C, θ R ) J 12 (θ C, θ R ) θ i θ j J 21 (θ C, θ R ) J 22 (θ C, θ R ) = i=1,,r j=1,,r V uvedeném vztahu značí E střední hodnotu (logaritmická věrohodnostní funkce l(θ) závisí na náhodném výběru ) a bloky J 11, J 12, J 21 a J 22 matice J jsou postupně typu k k, k (r k), (r k) k a (r k) (r k) (LM) Skórová funkce (odpovídající test je založený na Lagrangeových multiplikátorech, nazývá se též Raův test) [ LM = U C (θ 0, θ ] [ R ) J 11 2 (θ 0, θ 1 R )] UC (θ 0, θ R ), kde U C (θ) = U C (θ C, θ R ) je prvních k složek tzv skórového vektoru U = U(θ C, θ R ) = l(θ) θ 1 l(θ) θ r = ( UC (θ C, θ R ) U R (θ C, θ R ) ) 3

Tedy vektor U C (θ C, θ R ) je k-rozměrný a vektor U R (θ C, θ R ) je (r k)-rozměrný Když jsou splněny podmínky regularity, mají všechny tři uvedené statistiky za platnosti nulové hypotézy H 0 asymptoticky Pearsonovo χ 2 rozdělení o k stupních volnosti H 0 pak zamítáme na hladině významnosti, když daná statistika překročí (1 α)-kvantil Pearsonovo rozdělení χ 2 (k) Příklady k procvičení 1 Je dán náhodný výběr X 1, X 2,, X n rozsahu n z exponenciální rozdělení Ex(λ) Stanovte testovací statistiky: 2 Je dán náhodný výběr X 1, X 2,, X n rozsahu n z exponenciální rozdělení Ex(λ) Za předpokladu, že tento náhodný výběr je cenzorovaný časem s časovým cenzorem T stanovte testovací statistiky: 3 Je dán náhodný výběr X 1, X 2,, X n rozsahu n z exponenciální rozdělení Ex(λ) Za předpokladu, že tento náhodný výběr je cenzorovaný poruchou počtem cenzorovaných jednotek m < n stanovte testovací statistiky: 4 Je dán náhodný výběr X 1, X 2,, X n rozsahu n z exponenciální rozdělení Ex(λ) Za předpokladu, že tento náhodný výběr je náhodně cenzorovaný a časový cenzor T má exponenciální rozdělení Ex(δ), stanovte testovací statistiky: 4

5 Řešte úlohy z příkladů 1 4, za předpokladu, že výběry jsou cenzorované zleva 5