Neparametrcké metody Přestože parametrcké metody zaujímají klíčovou úlohu ve statstcké analýze dat, je možné některé problémy řešt př neparametrckém přístupu. V této přednášce uvedeme neparametrcké odhady funkce spolehlvost (doplněk dstrbuční funkce do jednčky), pomocí kterých lze odhadnout momenty doby do poruchy a některé jné charakterstky. Nevýhodou všech neparametrckých odhadů je však nemožnost získat nformac o chování chvostů rozdělení. Na druhou stranu výhodou odhadů, které zde odvodíme, je možnost jejch sestrojení z poměrně dvokých dat. Tak můžeme vyřešt nejednu stuac, se kterou se v prax setkáme. Uvedené odhady se často používají nejen v teor spolehlvost, ale v klnckém výzkumu a pojšťovnctví, př analýze tabulek úmrtnost.
KAPLAN-MEERův odhad (angl. též product lmt estmate) Nechť X označuje náhodnou velčnu dobu do poruchy, R(x) odpovídající funkc spolehlvost, 0 = x 0 < x < < x k význačné časové okamžky a J = (x -, x ], =,, k. Předpokládejme, že experment je uspořádán tak, že v okamžku x 0 = 0 začneme pozorovat n dentckých prvků, a že údaje o průběhu expermentu můžeme zjšťovat pouze v časových okamžcích x,, x k. Získáme údaje jsou: n počet prvků neporouchaných a sledovaných do okamžku x - (okamžk x - v to nepočítaje), d počet poruch v ntervalu J, v počet prvků, které se ztratly ze sledování v ntervalu J, w počet prvků, které byly záměrně vyjmuty ze sledování =,, k. Položme n 0 = n, d 0 = v 0 = w 0 = 0. Pro t Î J můžeme hodnotu R(t) odhadnout pomocí - -
KAPLAN-MEERův odhad Tento odhad (někdy nazývaný odhadem založeným na redukovaném výběru) však gnoruje nformac obsaženou ve v a w. Myšlenka zahrnut tuto nformac je založena na následující pravděpodobnostní úvaze. Označme E = {X x }, p = P(E E - ), =,, k. Potom zřejmě platí ( ) = ( ) ( ) = = ( ) ( ) ( ) P E P E E P E... P E E P E E...P E k =Õ = k k k- k- k k- k- k-2 p ()
KAPLAN-MEERův odhad V případě, že v ntervalu J nedošlo ke ztrátám, a že žádné prvky nebyly vyjmuty ze sledování, můžeme p odhadnout pomocí velčny d /n. V případě, že v ntervalu J došlo ke ztrátám nebo záměrnému vyjmutí ze sledování, se předpokládá, že ztracené a vyjmuté prvky byly sledovány polovnu příslušného ntervalu. Potom počítáme s tzv. efektvním počtem prvků sledovaných v ntervalu J n n ( v w) = - + 2 (2) Za odhad podmíněných pravděpodobností p potom vezmeme p% d = - n Což spolu se () vede k odhadu funkce spolehlvost j Õ R( % t ) = p% x < t x j =,...,k- = j j+ (3) R( % t ) =, t< x (4)
KAPLAN-MEERův odhad Vychází z vyjádření (), ale za význačné okamžky bere přímo okamžky, kdy se prvek porouchal nebo byl vyjmut ze sledování. Podobně jako (4), an Kaplan-Meerův odhad nerozlšuje prvky, které se ztratly, a prvky, které byly vyjmuty ze sledování. Můžeme proto předpokládat, že data jsou náhodně cenzorována a výsledkem expermentu je n dvojc (W, ) (W n, n ) kde W j je okamžk poruchy resp. vyjmutí j-tého prvku ze sledování a j = resp. j = 0 podle toho, zda dříve došlo k poruše resp. vyjmutí. Předpokládejme, že ve výběru W,, W n nedošlo ke shodám, a utvořme uspořádaný náhodný výběr W () < < W (n). Nechť (j) je ndkátor odpovídající W (j), j =,, n. (Pozor, (),, (n) nejsou uspořádána!). Za význačné okamžky vezmeme W () < < W (n).označme nyní n počet prvků neporouchaných do okamžku W () (okamžk W () v to nepočítejte), d počet poruch v okamžku W ().
Potom za odhady podmíněných pravděpodobností p můžeme vzít Poznamenejme, že ˆp = n d ˆp = - =,...n n jestlže () = (5) ˆp, = jestlže () = 0 Kaplan-Meerův odhad funkce spolehlvost je potom ( ) Õ Rˆ t = ˆp t W, :W ( ) < t ( n ) ˆR ( t) = 0 t> W ( n ), (6) A prázdný součn defnujeme jako rovný jedné, tj. ( ) = ˆR t t W ( )
KAPLAN-MEERův odhad Alternatvní tvar Kaplan-Meerova odhadu je ( ) ( ) æ ö æ n- ö ˆR ( t) = Õ ç - = Õ ç t W ( n ), :W ( ) < tè n ø :W( ) < tè n- + ø ˆR ( t) = 0 t> W ( n ), (7) Reálná data mohou obsahovat shody. V takovém případě modfkujeme Kaplan-Meerův odhad následujícím způsobem. Nechť R označuje pořadí dvojc (W, ) v lexkografckém uspořádání posloupnost Potom modfkovaný Kaplan-Meerův odhad je ( ) ( ) æ ö æ n- R ö ˆR ( t) = Õ ç - = Õ ç t W ( n ), :W ( ) < tè n ø :W( ) < tè n- R + ø ˆR ( t) = 0 t> W ( n ), (8)
KAPLAN-MEERův odhad - příklad Uvažujme n = pozorování 9, 3, 3 +,8, 23, 28 +, 3, 34, 45 +, 48, 6 +. (Symbolem + označujeme podle úmluvy okamžky, ve kterých došlo k cenzorování.) Odpovídají pořadí R,, R jsou zřejmě, 2, 3, 4,,. Dále 3 = 6 = 9 = = 0, ostatní jsou rovna jedné. Kaplan-Meerův odhad je funkce schodovtá zleva spojtá, jejíž hodnoty se mění pouze v bodech W () s () = a v bodě W (n).
V našem případě máme pozorování: 9, 3, 3 +,8, 23, 28 +, 3, 34, 45 +, 48, 6 +. 稠 稠 稠 稠 æ n- R ö æ n- R ö æ 9 ö æ 8ö R( ) R( ).. 2 3 0 2 3 8 = 3 ç ç = 0 9ç ç = 0 82 è n- R2 + ø è n- R3 + ø è0ø è 9ø æ n- R ö æ 7ö R( ) R( ) ç. ç. è n- R4+ ø è 8ø 4 4 23 = 8 = 0 82 = 0 72 5 6 0 æ n- R ö æ 5 n- R ö 6 æ 6ö æ 5ö 3 = 23 ç ç = 0 72ç ç = 0 62 è n- R5 + ø è n- R6 + ø è 7ø è 6ø R( ) R( ).. a podobně
Jestlže tedy 9 < t 3, R(t)=R(6)=0.8, atd. je R(t)=R(3) = 0.9, jestlže 48 < t 6, pak Poznámka: Pro úplný výběr je Kaplan-Meerův odhad totožný s emprckou funkcí spolehlvost. Asymptotcké vlastnost Kaplan-Meerův odhadu v případě náhodného cenzorování jsou uvedeny v následující větě.
Věta. Asymptotcké rozdělení ˆR( t ) Nechť dstrbuční funkce F doby do poruchy X a dstrbuční funkce G časového cenzoru jsou spojté. Nechť t > 0 je takové, že R(t) = F(t) > 0. Potom t ( ( ) ( )) ( ) (( ( ))( ( ))) 2 ˆ æ - ö D 2 n R t -R t ¾¾ N ç 0,R t ò -F x - G x dp( X < x, = ) è 0 ø Bez důkazu. (9) Rozptyl aproxmujeme nejčastěj pomocí 2 ( ) = ˆ ( ) Var Rˆ t R t :W å ( ) < t ( ) ( n- )( n- + ) což je tzv. GREENWOODova formule.
GREENWOODova formule V prax je třeba nahradt rozptyl asymptotckého rozdělení ve větě. nějakým odhadem. Jeden z možných postupů je tento. Předně je patrné, že pravděpodobnost P(X < x, = ) je možné odhadnout pomocí relatvní četnost jako ꉈ ꉈ Takže ˆP jakožto funkce x má skoky velkost /n v bodech W s =. Dále H(x) = ( F(x))( G(x)) je dstrbuční funkce náhodné velčny W, takže H můžeme odhadnout pomocí obyčejné emprcké dstrbuční funkce založené na výběru W,, Wn: ꉈ ꉈ 稠 Vzhledem k chování ˆP potřebujeme znát odhady Ĥ pouze v bodech W ().
Místo ( Ĥ (x)) 2 v (9) použjeme symetrzovaný odhad Vzhledem k tomu, že ꖀꉈ je možné odhadnout rozptyl v (9) pomocí ꉈ 稠 ꖀꉈ ꉈ, z čehož ꖀꉈ ꖀꉈ ꖀꉈ ꉈ ꖀ 2 ( ) = ˆ ( ) Var Rˆ t R t ( ) å (0) :W ( ) < t ( n- )( n- + ) Poslední vzorec je v lteratuře znám jako GREENWOODova formule.