Martin Otava Parametrické regresní modely v analýze

Transkript

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Martin Otava Parametrické regresní modely v analýze přežití Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: Mgr. Arnošt Komárek, Ph.D. Studijní program: Obecná matematika 2008

2 V první řadě bych rád poděkoval vedoucímu práce Mgr. Arnoštu Komárkovi, Ph.D. za zapůjčení materiálů a především za velice vstřícný přístup, kdykoli jsem se na něj obrátil. Dále má díky patří všem, kteří mi umožnili v klidu pracovat, když to bylo třeba, a těm kteří mi jinak pomáhali, at už s tiskem, radami ohledně softwaru či korekturami. Prohlašuji, že jsem svou bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne Martin Otava 2

3 Obsah 1 Úvod Co je,,analýza přežití? Cenzorování Základní pojmy a značení Regrese Aplikace pro analýzu přežití Metoda nejmenších čtverců Metoda maximální věrohodnosti Normálně rozdělená chyba Cenzorování Výpočet a vlastnosti maximálně věrohodných odhadů Parametrické modely Rozdělení T - času do selhání Log-normální rozdělení Logistické rozdělení Log-logistické rozdělení Gumbelovo rozdělení Weibullovo rozdělení Vztahy jednotlivých rozdělení AFT model s normálně rozdělenou chybou Další parametrické modely Model s log-logistickým rozdělením Model s Weibullovým rozdělením Porovnávání modelů Závěr 33 3

4 Název práce: Parametrické regresní modely v analýze přežití Autor: Martin Otava Katedra (ústav): Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: Mgr. Arnošt Komárek, Ph.D. vedoucího: komarek@karlin.mff.cuni.cz Abstrakt: V předložené práci studujeme parametrické regresní modely v analýze přežití. Skrze pojem cenzorování se seznámíme s podstatou analýzy přežití a zavedeme si základní pojmy užívané v souvislosti s ní. Ukážeme si tvorbu vhodného regresního modelu a způsoby odhadů parametrů s důrazem na metodu maximální věrohodnosti společně s iteračními metodami pro její vyřešení. Vysvětlíme si význam náhodné chyby měření. Dle jejího rozdělení pak vytvoříme několik různých parametrických modelů pro odhad hustoty času do selhání. Srovnáme modely s neparametrickým odhadem, který nám pomůže určit, zda náš model odpovídá realitě. Celou práci bude provázet ilustrace na skutečných datech sloužící jako ukázka fungování metody v praxi. Klíčová slova: Analýza přežití, parametrické modely, cenzorování Title: Accelerated failure time models in survival analysis Author: Martin Otava Department: Department of Probability and Mathematical Statistics Supervisor: Mgr. Arnošt Komárek, Ph.D. Supervisor s address: komarek@karlin.mff.cuni.cz Abstract: In the present work we study accelerated failure time models in a survival analysis. Through a conception of a censorship we become acquainted with fundamentals of the survival analysis and we introduce elementary notions. We show methods of fitting suitable regression models and how to estimate parameters with an emphasis on the maximum likelihood method with iterative methods for its solution. We explain an importance of the random error. In accordance with its distribution we create several different parametric models to estimate the density of the failure time. We compare models with a nonparametric model, that help us to figure out that our model fit into reality. The work is complemented with an illustration on particular data. Its show us, how the methods work in practice. Keywords: Survival analysis, accelerated failure time models, censorship 4

5 Použité značení log přirozený logaritmus. náhodná veličina má asymptoticky rozdělení L n (β) sdružená hustota rozdělení v metodě maximální věrohodnosti l n (β) logaritmická věrohodnost φ a,b 2(c) hustota normálního rozdělení s parametry µ = a a 2 = b 2 v bodě c Φ a,b 2(c) distribuční funkce normálního rozdělení s parametry µ = a a 2 = b 2 v bodě c 5

6 Kapitola 1 Úvod 1.1 Co je,,analýza přežití? Název této statistické disciplíny je odvozen od případů její nejtypičtější aplikace: analýzy dat vypovídajících o tom, jak dlouho někdo nebo něco,,vydrží, nežli selže. Pomocí jejích metod můžeme ze sledovaných dat odhadovat dobu mezi daným počátkem a nějakou událostí. Velice názorné příklady nacházíme v medicíně: dobu přežití pacienta po náročné operaci, čas do smrti po přechodu nemoci do určitého stádia, na druhé straně okamžik vyléčení po nasazení léku či doba zotavení po lékařském zákroku. Spektrum využití metod analýzy přežití je ovšem mnohem širší, kromě již poukazované medicíny nalezneme podobné uplatnění v biologii či v technice (kde nás zajímá doba do poruchy přístroje), dále například v ekonomii nebo reklamě (doba do reakce subjektu na určitý podnět). Stěžejní veličinou, o kterou se zajímáme, je tedy čas, který budeme reprezentovat náhodnou veličinou T. Situace je ale mnohem složitější. Častější, než pouhá otázka předpovídání budoucích událostí na základě sesbíraných dat, je pro nás vypozorování způsobů, kterými bychom mohli situaci pozitivně či negativně ovlivnit. Základním úkolem analýzy přežití tedy je: Odhad rozdělení náhodné veličiny T. Ohodnocení vlivu vnějších faktorů na rozdělení T. Druhým bodem rozumíme rozlišení faktorů, které na veličinu vůbec mají vliv, popsání toho, jak silné toto působení je a porovnávání příčin, které vedly k odlišným výsledkům u různých skupin. Příklad 1.1 (Selhávání transplantovaných srdečních chlopní) Data, která nám budou sloužit jako ilustrace, pocházejí ze studie Meyns a kol. (2005) provedené na Katolické univerzitě v Leuvenu (Belgie) a její univezitní nemocnici Gasthuisberg. Byla získávána v letech 1989 až 2003 a!obsahují záznamy o 271 pacientech, kteří prodělali transplantaci srdeční chlopně. Otázka, na kterou studie hledala odpověd, souvisela s tím, které z níže uvedených 6

7 faktorů významně ovlivňují dobu T do selhání chlopně (přesněji do selhání z jiného důvodu, než je infekce, náhlá smrt pozorovaného atd.; nazvěme okolnosti, které nás zajímají,,,vhodné ). Odezvami v pozorováních budou: Čas do selhání (v letech). Selhání z,,vhodných důvodů (hodnoty 0,1 reprezentující ne/ano). Kandidáty na podstatné veličiny budou následující vysvětlující proměnné rozdělené do několika skupin: Charakteristiky pacientů věk (v letech), pohlaví (muž/žena). Popis diagnózy pozice chlopně (anatomická/neanatomická), Truncus (ne/ano), Ross (ne/ano). Vlastnosti chlopní velikost chlopně (milimetry), typ chlopně dárce (AH - aortální/ph - plicní). Imunologické faktory kompatibilní krevní skupina (ne/ano), krevní skupina příjemce (A/AB/B/0), Rh faktor příjemce (negativní/pozitivní), krevní skupina dárce (A/AB/B/0), Rh faktor dárce (negativní/pozitivní), teplý ischemický čas (v hodinách), studený ischemický čas (ve dnech). Čas do selhání je veličina, kterou budeme sledovat. Následující veličina nám ukazuje, zda jsou data konkrétního pacienta cenzorovaná nebo ne (bude vysvětleno níže). Ostatní veličiny představují faktory, jejichž vliv budeme posuzovat. Zajímá nás, zda bychom skrze ně mohli ovlivnit délku přežití chlopně. Pokud bychom například zjistili, že kompatibilita krevní skupiny výrazně prodlužuje dobu do selhání, můžeme tento poznatek uplatnit při příštích operacích a zvýšit tak pacientům šanci, že zákrok nebude nutné opakovat. 7

8 Věk pacienta by také mohl být podstatným při operaci. Výsledkem zpracování dat může být omezení, pro jaký věk již není transplantace bezpečná, nebo zda je stejně vhodná pro děti, jako pro dospělé. Na doplnění dodejme, že teplý ischemický čas znamená, jak dlouho trvalo, než byla chlopeň po vyjmutí z dárce umístěna do mrazícího boxu, a studený dobu, kterou v tomto stavu pobývala před operací. Zjištění, zda má jeden z těchto faktorů vliv na čas do selhání, by bylo velice užitečné. Umožňovalo by určit dobu, po které již není bezpečné uchovávanou chlopeň použít při operaci. Veličina Truncus specifikuje vlastnosti chlopně, je-li v nesprávné pozici. Pro chlopni v anatomicky správné pozici je tato veličina vždy nulová (resp.,,ne ). Veličina Ross funguje obdobně pro anatomicky správně umístěnou chlopeň. Vidíme tedy, že data nám poskytují dostatek zajímavých otázek, na které je potřeba kvalitně odpovědět. Abychom se o to mohli pokusit, nejprve vysvětlíme pojem cenzorování. 1.2 Cenzorování V ideálním případě bychom vůbec metody analýzy přežití použít nemuseli. Bylo by to tehdy, kdybychom znali,,okamžik selhání každého pozorovaného jedince. Už ze zamyšlení nad příklady z medicíny nám ovšem musí být jasné, že tomu tak v drtivé většině případů není. Vrat me se k transplantacím a představme si skupinu pacientů s novou srdeční chlopní. U pozorovaných budeme zaznamenávat okamžik selhání chlopně. Jak máme ale postupovat, pokud pozorovaný zemře aniž by chlopeň selhala (at už máme na mysli jinou biologickou příčinu jako například infekci, která vede k výměně chlopně, at už je funkční nebo ne, či například autohavárii)? Samozřejmě lákavou možností by bylo takového pacienta ze souboru vyškrtnout. Tím by se ovšem narušil celý systém získávání dat, nebot my víme, že dotyčný byl až do určité chvíle v pořádku. Bohužel netušíme, jak by se jeho zdravotní stav vyvíjel dál. Stejně tak se nám může stát, že pacient přestane chodit na naše pozorování kvůli tomu, že se přestěhoval do jiného města, nebo že už prostě nemá zájem. A nakonec, kdyby se nám všechny tyto nepříjemnosti vyhnuly, musíme jednoho dne pozorování ukončit, aby mohlo být vyhodnoceno. A nelze zaručit, že budeme mít dost času čekat, až selže chlopeň i poslednímu subjektu z naší skupiny. At už pozorujeme cokoli, podobné případy nás neminou a proto se s nimi musíme nějakým účinným a korektním způsobem vypořádat. Pojmem, který používáme pro popis takové situace, je cenzorování. Ve výše popsaném případě přesněji cenzorování zprava, kterým rozumíme informaci o tom, že subjekt přežil (fungoval atd.) do určitého okamžiku a o jeho dalším osudu nevíme nic. V následujícím textu se omezíme pouze na tento typ cenzorování, nebot je zdaleka nejčastějším (jen pro úplnost dodejme, že 8

9 dalšími často uvažovanými typy cenzorování jsou cenzorování zleva a intervalové). Abychom mohli korektně postupovat dál, budeme předpokládat cenzorování náhodné. Neformálně řečeno o náhodném cenzorování mluvíme tehdy, pokud pramení pouze z neočekávaných vnějších vlivů a nesouvisí s časem, který uplynul do sledované události. Tento předpoklad formalizujeme v dalším oddíle (z důvodu nutnosti předchozí definice některých pojmů). Nyní pouze uvedeme, že není splněn například v následující situaci: sledujeme dobu přežití po náročném zákroku a přestaneme pozorovat pacienty, jejichž stav se dostal na určitou hodnotu (resp. zlepšil na určitou hodnotu; pokud se ovšem opět zhorší, my už se o tom nedozvíme). S cenzorováním se budeme setkávat i nadále. O konkrétních mechanismech se budeme zmiňovat v příslušných částech práce, aby byly lépe zřejmé souvislosti, které jejich použití vyžadují. 1.3 Základní pojmy a značení V této sekci se seznámíme s několika pojmy, které jsou základní pro celou problematiku analýzy přežití. Přestože některé z nich budou potřeba v této práci pouze okrajově, pro pořádek je zde uvedeme. Prvním pojmem je funkce přežití. Považujme čas přežití t pro určitého jedince za hodnotu náhodné veličiny T. Pro jednoduchost se zde omezíme pouze na absolutně spojitá rozdělení času přežití. Necht F (t) = P(T < t) = P(T t) je distribuční funkce náhodné veličiny T (druhá rovnost plyne z absolutní spojitosti) a necht f(t) = d dt F (t) je příslušná hustota. Nás ovšem spíše zajímá, jaká je pravděpodobnost, že čas přežití jedince bude větší, než nějaká námi uvažovaná hodnota. Funkce přežití se proto zavádí takto: S(t) = P(T > t) = 1 F (t). Druhou důležitou funkcí je riziková funkce. Neformálně řečeno vyjadřuje pravděpodobnost, že jedinec selže v okamžiku t za podmínky, že do tohoto okamžiku přežil. Definována je následovně: P(t T < t + h T t) λ(t) = lim. h 0 + h Použitím vět o podmíněné pravděpodobnosti (dle práce Anděl, 2005, kapitola 3.5) dostáváme λ(t) = lim h 0 + F (t + h) F (t) h F (t).

10 První součinitel je derivací distribuční funkce a druhý z definice převrácenou hodnotou funkce přežití. Z čehož přímo získáváme vztah pro rizikovou funkci a funkci přežití: λ(t) = f(t) S(t). Vidíme tedy, že funkce přežití a riziková funkce jsou jen různými přístupy k problematice popisu rozdělení T, ovšem vzájemně si odpovídají. Nyní se opět vrátíme k cenzorování. Necht C je náhodná veličina o jejímž rozdělení obecně nic nevíme. Mechanismus cenzorování reprezentujeme zavedením další náhodné veličiny Z, kterou budeme pozorovat namísto T, a indikátoru δ, kde: Z = min(t, C), δ = I [Z=T ] = I [T C]. Veličina T nám tedy udává skutečnou dobu přežití a veličina C okamžik cenzorování. Pokud je δ nenulové, selhání skutečně nastalo, pokud nulové, pozorovali jsme hodnotu veličiny C, získali jsme tedy pouze cenzorovaný čas. Vrat me se nyní k formalizaci pojmu náhodného cenzorování. Ten je ekvivalentní platnosti rovnice: P(t T < t + h T t, C t) λ(t) = lim. (1.1) h 0 + h Na úplný závěr ukažme, co se stane, budeme-li předpokládat nezávislost veličin C a T. Pak platí P(t T < t + h T t, C t) lim h 0 + h = lim h 0 + P(t T < t + h T t) h = λ(t). Předpoklad pro náhodné cenzorování je tedy při nezávislosti C a T splněn vždy. 10

11 Kapitola 2 Regrese 2.1 Aplikace pro analýzu přežití Smyslem této práce je popsat metody vycházející z parametrických modelů regresní analýzy. Nejprve si tedy charakterizujme, co tyto pojmy vůbec znamenají. Mějme náhodnou veličinu Y a p vysvětlujících faktorů x 1,..., x p. Necht potom x = (1, x 1,..., x p ) T je vektor těchto faktorů rozšířený o jedničku (z důvodu zahrnutí absolutního členu). Přestože hodnoty x mohou být ve skutečnosti realizacemi náhodného vektoru X = (1, X 1,..., X p ), můžeme je v teorii regresní analýzy považovat za nenáhodná čísla, nebot v praktických případech jsou nám vždy známá (nebot právě tyto hodnoty používáme k popisu rozdělení Y, jak bude vysvětleno dále). Dále bud β = (β 0,..., β p ) T vektor reálných čísel. Následující rovnice je vyjádřením lineární regrese: Y = x T β + ε, kde ε je náhodná veličina s konstatní střední hodnotou. Veličina Y je tedy vyjádřena pomocí složek vektoru x, respektive jeho skalárním součinem s vektorem β. Přičtení ε vyjadřuje chybu, které se dopouštíme měřením hodnot Y. Bez této chyby by bylo možné závislost dopočítat metodami lineární algebry, nebot by se jednalo o soustavu rovnic o p + 1 neznámých. Neznámá (a především obecně různá) chyba u různých pokusů nám tento postup znemožňuje). Pokud je ε hodnotou náhodné veličiny s nějakým rozdělením, specifikovaným až na konečně mnoho parametrů (například N(0, 2 )) soustavu nazveme parametrickým modelem. V praxi z hodnot x 1 = (1, x 1,1,..., x 1,p ) T,..., x n = (1, x n,1,..., x n,p ) T, které známe, a hodnot y 1,..., y n, které jsme naměřili s neznámých chybami ε 1,..., ε n, odhadneme parametry β a následně i závislost střední hodnoty náhodné veličiny Y na faktorech x 1,..., x p. Jak bylo poznamenáno již na začátku, obor hodnot veličiny, kterou se snažíme popsat, je čas (i proto budeme zůstávat u označení T ). Je tedy jasné, 11

12 že bude nabývat pouze kladných hodnot. Vzhledem k tomu, že následující reprezentace je budována obecně, nemohli bychom takový výsledek zaručit, vzhledem k hodnotám x a ε. Jednoduchým a účinným řešením problému, jak převést kladné náhodné veličiny na reálné, je zlogaritmování. Z toho důvodu budeme v našem případě uvažovat regresní rovnici následujícím způsobem: log T = Y = x T β + ε. (2.1) Vzhledem k tomu, že x T β lze v jednotlivých případech považovat za konstantu (bereme-li x T jako nenáhodný vektor), specifikací rozdělení ε určíme jednoznačně rozdělení Y a tedy i T. Ze vztahu (2.1) dále plyne: T = exp(x T β) exp(ε), E T = exp(x T β) E exp(ε). (2.2) Dodejme, že model (2.1) je obvykle nazýván v anglicky psané literatuře jako,,accelerated failure time model - AFT model (např. viz Kalbfleisch a Prentice, 2002). 2.2 Metoda nejmenších čtverců Tato metoda je jedním ze základních postupů pro odhad parametru β. Pochází z přelomu 18. a 19. století, kdy ji pro použití v astronomii nezávisle na sobě popsali R. Adrain, A.-M. Legendre a C. F. Gauss. Ten o řadu let později položil základy pro její aplikaci v regresní analýze tak, jak si předvedeme vzápětí. Vycházíme opět z rovnice (2.1), kde x = (1, x 1,..., x p ) T je vektor vysvětlujících faktorů, β = (β 0,..., β p ) T je vektor reálných čísel a ε je náhodná veličina s konstantní střední hodnotou a rozptylem 2. Přejdeme k vektoru Y 1 Y n x T 1 Y =. = Xβ + ε; X =., kde x i = (1, x i,1,..., x i,p ), y i, i = 1,..., n, n N, jsou vektory n známých hodnot x a naměřené hodnoty náhodné veličiny Y. Model znázorňuje situaci, kdy provedeme n pokusů (při nichž známe hodnoty všech faktorů) a při každém změříme (nepřesně kvůli náhodné chybě ε) veličinu Y. Metoda nejmenších čtverců je potom definována jako řešení minimalizační úlohy x T n S(β 0,..., β p ) = n (y i x T i β) 2 = n p (y i β 0 x i,j β j ) 2 j=1 12

13 vzhledem k β 0,..., β p. Problém si můžeme představit, jako hledání takové (regresní) nadroviny, kde součet čtverců vzdáleností jednotlivých (naměřených) bodů od této nadroviny je minimální mezi všemi možnými nadrovinami (body tohoto (p + 2)-rozměrného prostoru jsou tvořeny dvojicemi [x i, y i ]). Hledání tohoto extrému provedeme vyjádřením parciálních derivací podle jednotlivých proměnných (resp. podle všech těchto proměnných). Obdržené výrazy položíme rovné nule a výpočtem soustavy rovnic získáme řešení β (povšimněme si, že nehledě na počet pozorování dostáváme soustavu p + 1 rovnic o p + 1 neznámých, tedy s jednoznačných řešením, pokud zůstane soustava regulární). Konkrétní výpočet (proveden maticově) vypadá následovně: S(β) = (y Xβ)(y Xβ) T, což platí, právě tehdy, když X T y = (X T X)β. Z toho (při h(x) = p + 1) vyplývá odhad pro β: Díky tomu, že β = (X T X) 1 (X T y). 2 S β β T S β = 2XT (y Xβ) = 0, = 2XT X je pozitivně semidefinitní matice (a funkce je tedy konvexní), je vždy řešení minimem. Dosazením výsledného odhadu β = (β 0,..., β p ) do vztahu (2.1) dostaneme regresní vyjádření Y. 2.3 Metoda maximální věrohodnosti Následující metoda pochází z 20. let minulého století z pera sira R.A. Fishera, nicméně její základy položil Daniel Bernoulli už ve století osmnáctém. Je v mnoha směrech nejlepším způsobem, jak odhadovat neznámé parametry. Její ideu lze popsat tak, že hledáme takový parametr na množině všech možných parametrů, který našim naměřeným hodnotám přiřadí největší možnou pravděpodobnost. Nyní si tento postup formalizujeme přesně. Máme veličinu Y, o níž předpokládáme absolutní spojitost. Víme tedy, že má nějakou distribuční funkci G(y) a hustotu g(y). Opět budeme vycházet z rovnice Y 1. = Xβ +.. (2.3) Y n 13 ε 1 ε n

14 Necht ε 1,..., ε n jsou nezávislé stejně rozdělené náhodné veličiny s hustotou h(e) a distribuční funkcí H(e). Dále g i (y; β) hustota a G i (y; β) distribuční funkce náhodné veličiny Y i = x T i β + ε i, i = 1,..., n a f i (t; β) hustota pro T i = log Y i. Potom maximálně věrohodným odhadem β budeme rozumět takové β, které je řešením maximalizační úlohy max L n(β) = max β β n g i (y i ; β) = n g i (y i ; β), kde y 1,..., y n jsou konkrétní naměřené hodnoty Y. Nyní si připomeňme, že rozdělení náhodné chyby ε jednoznačně určuje rozdělení Y = x T β + ε a tedy jde pouze o lineární transformaci mezi dvěma náhodnými veličinami. Potom dle vět o transformaci náhodných veličin (Anděl, 2005, kapitola 3.2) hustotu g i (y; β) vyjádříme rovností: g i (y; β) = h(y x T i β), y R, (2.4) což bychom další jednoduchou transformací mohli převést na f i (t; β) = g i (log t; β) 1 t = h(log t xt i β) 1, t > 0. (2.5) t Nám však bude nyní stačit pouze rovnice (2.4), ze které dosazením dostaneme: n n L n (β) = g i (y i ; β) = h(y i x T i β). Obdobně jako u metody nejmenších čtverců i zde budeme hledat extrémy věrohodnostní funkce pomocí parciálních derivací podle jednotlivých složek parametru β = (β 0,..., β p ). Obvykle se pro vyšetřování volí jiná funkce se stejným extrémem: l n (β) = log[l n (β)] = n log [ h(y i x T i β) ], kterou nazýváme logaritmická věrohodnost. Tento přístup ušetří spoustu úsilí při derivování i při následném výpočtu β ze soustavy rovnic, kterou opět dostaneme tak, že všechny parciální derivace položíme rovné nule. 2.4 Normálně rozdělená chyba V této sekci budeme uvažovat veličinu ε s n-rozměrným normálním rozdělením N n (0, 2 I). Ve skutečnosti následující platí pro normální rozdělení s libovolnou střední hodnotou, nicméně bez újmy na obecnosti (způsobené 14

15 jednoduchostí mechanismu znormování) můžeme operovat se střední hodnotou rovnou nule. Jednorozměrné normální rozdělení N(µ, 2 ) veličiny X je definováno hustotou: kde dále platí f(x) = [ 1 exp 2π 2 (x µ)2 2 2 E X = µ, var X = 2. ], (2.6) Zároveň víme, že Y = Xβ + ε a tedy (viz Anděl, 2005, kapitola 4.1) veličina Y má také n-rozměrné normální rozdělení N n (Xβ, 2 I). Pak Y i má jednorozměrné normální rozdělení N(x T β, 2 ) s hustotou: [ 1 g i (y; β) = exp (y ] xt i β) 2. 2π Nyní si ukážeme, jak bude v tomto případě vypadat metoda maximální věrohodnosti: n { [ 1 l n (β) = log exp (y ]} i x T i β) 2, 2π po úpravě logaritmů a sečtení dostaneme: l n (β) = n log( 2π) n log konečně derivací l n podle β j, j = 1,..., n: n (y i x T i β) 2, (2.7) l n (β) = 1 n β j 2 2 (y 2 i x i β T )(x i,j ). Vzhledem k tomu, že tento výraz pokládáme roven nule, nemá pro nás člen před sumou žádný význam a podmínka, kterou jsme obdrželi, je naprosto stejná, jako v případě metody nejmenších čtverců. Obdobně je tato skutečnost vidět již ze vztahu (2.7), nebot jeho maximalizace vzhledem k β odpovídá minimalizaci výrazu n (y i x T i β) 2, což je přesně definice metody nejmenších čtverců. Z toho tedy plyne, že pro odhady veličiny β je v tomto případě metoda nejmenších čtverců ekvivalentní metodě maximální věrohodnosti. I v případě, že nás bude zajímat odhad pomocí nejmenších čtverců, bude nám stačit spočítat maximálně věrohodný odhad, který umožňuje mnohem snažší zapojení cenzorování, které jsme doposud nechávali stranou. 15

16 2.5 Cenzorování Vrat me se zpět k obecnému modelu metody maximální věrohodnosti pro veličinu Y. Pro cenzorovanou veličinu při předpokladu náhodného cenzorování (1.1) dle práce Kalbfleisch a Prentice (2002) platí: L n (β) = n [g i (y i ; β)] δ i [1 G i (y i ; β)] 1 δ i. (2.8) Připomeňme, že δ je indikátorem, který udává, zda je veličina cenzorovaná nebo ne (pro cenzorovanou je nulový). Vidíme tedy, že pro pozorování, kdy jsme změřili skutečný čas přežití, se nic nemění. To, že pro cenzorované jako součinitel vystupuje funkce přežití, je (neformálně řečeno) ekvivalentní použití P(Y > y). Například pro normálně rozdělené chyby to bude výraz: L n (β) = n { [ 1 exp (y i x T i β) 2 2π { yi 1 V případech, kdy nelze vyřešit soustavu ln β j než dopočítávat řešení pomocí iterací. ]} δi [ 1 exp (a xt i β) 2 2π ] da} 1 δi. (2.9) = 0, j = 1,..., p, nezbývá nám, 2.6 Výpočet a vlastnosti maximálně věrohodných odhadů Označme si β (0) skutečnou hodnotu parametru β a zaved me následující funkce: l n(β) 2 l n(β) β l n(β) β0 2 β 0 β p U n (β) =., J n(β) =....., (2.10) 2 l n(β) β p β 0... l n(β) β p 2 l n(β) β 2 p kde J n (β) je Fisherova míra informace o parametru β. Potom pro n při splnění podmínek regularity (které v námi používaných modelech budou splněny vždy; plné znění vět viz Anděl, 2005, kapitola 7.6.5; kompletní důkaz viz Lehmann, 1983, kap. 6.4) platí: ( J n ( β ) 1 ( ) 2 n ) βn β (0) D N(0, I p+1 ), (2.11) ( ) 1 J n (β (0) 2 ) U n (β (0) D ) N(0, I p+1 ). (2.12) 16

17 Konvergence v distribuci ze vztahu (2.11) nám umožňuje přejít k testování hypotéz na konkrétní hodnoty β. Zvolíme si: H 0 : β = β (0), H 1 : β β (0). Dle práce Collett (2003) (nebo česky viz Anděl, 2005) pro následující kvadratickou formu (opět za předpokladů regularity) platí: nebot ( ) T βn β (0) J n ( β ( ) n ) βn β (0). χ 2 p+1, (. β n N p+1 β (0), J 1 n ( β ) n ). Tento test nazýváme Waldův na počest amerického (původem mad arského) matematika Abrahama Walda. Hypotézu H 0 zamítneme na hladině α, pokud ( ) T βn β (0) J n ( β ( ) n ) βn β (0) > χ 2 p+1(1 α). Obdobně je možné provádět testy o různých podvektorech vektoru β (až po jednorozměrný případ pro jednotlivé složky vektoru), kdy za matici J 1 n ( β n ) bereme vhodnou podmatici. Užitečným testem může být hypotéza β j = 0, tedy ověření, zda veličina Y na příslušném faktoru vůbec závisí. Důsledkem konvergence (2.12) je možnost použití iteračních metod pro výpočet β. Zde si ukážeme Newton-Raphsonovu metodu (známou jako,,newtonova metoda, i když právě verze Josepha Raphsona je ta, která se používá dodnes). Nejprve si zvolíme libovolnou (z příslušné množiny možných parametrů, označme např. ) Ω; bude se však jednat většinou o R p+1 ) hodnotu β (1). Dále funkci U (β (2) aproximujeme (pomocí Taylorova rozvoje U v bodě β (1) ) následujícím způsobem: ) ) ) ) U (β (2) U (β (1) J n (β (β (1) (2) β (1). Tuto funkci položíme rovnou nule; odtud máme: ) ) ) U (β (1) = J n (β (β (1) (2) β (1), neboli (při existenci příslušné inverze; postačující podmínkou je konkavita l n (β) na okolí β (1) ) )] 1 ) β (2) = [J n (β (1) U (β (1) + β (1). 17

18 Tímto způsobem iterujeme dále a dostaneme tak předpis: )] 1 ) β (k+1) = [J n (β (k) U (β (k) + β (k), β (1) Ω. (2.13) Jako zakončovací kritérium lze zvolit například rozdíl po sobě jdoucích vektorů β (k) a β (k+1) ve vhodné (např. eukleidovské) normě a iteraci přerušit, pokud se dostane pod námi pevně zvolenou hodnotu. Praktické je využití,,znormovaného tvaru: β (k) β (k+1) β (k) <, jinak bychom museli při volbě uvažovat, v jakých řádech se pohybujeme (neboli rozdíl β (k) a β (k+1) v jednotkách bude podstatný při hodnotách β (k) v desítkách, ale může být zanedbatelný ve statisících). Druhou možností je porovnávat hodnoty logaritmické věrohodnosti: ( ) ) l n β (k) l n (β (k+1) ( ) l n β (k) <. Oba postupy budou konvergovat ke skutečné hodnotě β (0). Alternativní možností ( ) může být Fisherova ( metoda (,,Fisher scoring ), která namísto J n β (1) používá E β (1) J n β ). (1) Tato metoda je rychlejší a přesnější, ovšem vyžaduje větší množství výpočtů. 18

19 Kapitola 3 Parametrické modely 3.1 Rozdělení T - času do selhání V této kapitole si připomeneme definice méně běžných rozdělení, kterých bude vzápětí třeba při tvorbě modelů. Naznačíme vztah mezi rozdělením veličiny T a Y = log T, který bude podrobně rozebrán v příslušném modelu. Použité parametrizace jsou převzaté z díla Collett (2003), budou tak korespondovat s parametrizacemi při konstrukci modelů v dalších částech práce Log-normální rozdělení Necht náhodná veličina X má logaritmicko normální rozdělení s parametry b > 0, m R. Potom ( ) 1 [log x m]2 f(x) = exp, x > 0 (3.1) 2π bx 2b 2 a platí E X = exp ) (m + b2, var X = (E X) [ 2 exp(b 2 ) 1 ] Logistické rozdělení Necht náhodná veličina X má logistické rozdělení s parametry a R a b > 0. Potom F (x) = exp { } x a b 1 + exp { }, f(x) = 1 exp { } x a b x a [ { b b 1 + exp x a }] 2 (3.2) b a platí: E X = a, var X = π2 3b 2. 19

20 Dosazením lze ověřit, že platí F (a + x) = 1 F (a x) a rozdělení náhodné veličiny je tedy souměrné podle bodu a Log-logistické rozdělení Necht náhodná veličina X má logaritmicko logistické rozdělení s parametry α > 0, γ > 0. Potom a platí F (x) = exp(α)xγ exp(α) γ xγ 1, f(x) = 1 + exp(α)xγ [1 + exp(α)x γ ] 2, x > 0 (3.3) E X = exp( α)π γ γ sin( π), γ > 1, γ ( var X = exp 2α ) ( ) 2π π 2 γ γ sin 2π γ γ 2 (sin π, γ > 2. γ ) Gumbelovo rozdělení Necht náhodná veličina X má Gumbelovo rozdělení s parametry µ 0, ν > 0. Potom [ ( )] x µ F (x) = 1 exp exp, ν f(x) = 1 [( ) ( )] x µ x µ ν exp exp (3.4) ν ν a platí E X = µ γν, γ = 0, , var X = ν2 π 2 6. Standardním Gumbelovým rozdělením rozumíme případ, kdy µ = 0 a ν = Weibullovo rozdělení Necht náhodná veličina X má Weibullovo rozdělení s parametry c > 0 a b > 0. Potom F (x) = 1 exp( cx p ), f(x) = c p x p 1 exp( cx p ), x > 0 (3.5) a platí ( ) [ ( ) p + 1 E X = Γ c 1p p + 2, var X = Γ p p přičemž Γ je Gamma funkce definovaná jako Γ(a) = 0 x a 1 e x dx, a > 0. ( )] p + 1 Γ 2 c 2 p, p Speciálním případem Weibullova rozdělení je pro p = 1 rozdělení exponenciální. 20

21 3.1.6 Vztahy jednotlivých rozdělení Platí (prozatím bez specifikace parametrů) následující: T log-normální Y = log T normální T log-logistické Y = log T logistické T Weibullovo Y = log T Gumbelovo Dodejme, že ze vztahu (2.4) víme, že rozdělení náhodných veličin Y a ε je stejného typu (ovšem s jinými parametry). Vztah mezi jednotlivými rozděleními si demonstrujeme na následujích grafech. Zde vidíme hustoty rozdělení, které jsou nenulové na celé reálné ose a používáme je pro náhodnou chybu ε. Parametrizace jsou vybrané tak, aby náhodná veličina měla nulovou střední hodnotu a jednotkový rozptyl. Konkrétně jde o hustotu rozdělení normálního (zelená barva, dle (2.6) s parametry µ = 0, 2 = 1), logistického (červená, dle (3.2) s parametry a = 0 a b = 3 γ ) a Gumbelova (modrá, dle (3.4) s parametry µ = 6 a ν = 6, kde π π π γ = 0, ). 21

22 Na tomto grafu srovnáváme hustoty rozdělení, které dostáváme pro náhodnou veličinu T. Parametrizace odpovídají případě, kdy tyto veličiny jsou získány jako logaritmus veličin z předchozího odstavce. Přesněji jde o hustotu rozdělení log-normálního (zelená, dle (3.1) s parametry m = 0 a b = 1), loglogistického (červená, dle (3.3) s parametry α = 0 a γ = π 3 ) a Weibullova (modrá, dle (3.5) s parametry c = exp( γ) a p = π 6, kde γ = 0, ). 3.2 AFT model s normálně rozdělenou chybou Logaritmickou věrohodnost pro model s normálně rozdělenou chybou obdržíme zlogaritmováním vztahu (2.9): l n (β) = n ( 1 δ i log exp 2π [ (y i x T i β) ]) + + (1 δ i ) log [ 1 Φ 0, 2(y i x T i β) ], kde Φ 0, 2(c) je příslušná distribuční funkce. Vztah budeme derivovat podle β a výslednou soustavu rovnic položíme rovnu nule. Dostáváme tedy: l n (β) n β = δ i (y i x T i β) 2 x i + (1 δ i ) φ 0, 2(y i x T i β) 1 Φ 0, 2(y i x T i β) x i. Pro tuto soustavu bohužel nelze nalézt explicitní řešení a nezbude nám tedy, než počítat odhady pomocí iteračních metod. K tomu budeme nejprve muset 22

23 vyjádřit druhou derivaci: 2 l n (β) β β T = n δ i 1 2 ( x ix T i ) + (1 δ i ) φ 0, 2(y i x T i β) y i x T i β 2 ( 1 Φ0, 2(y i x T i β) ) + φ 0, 2(y i x T i β) [1 Φ 0, 2(y i x T i β)]2 x i x T i. Nyní máme zdánlivě všechno připraveno pro použití Newton-Rhapsonovy metody, respektive iteračního postupu (2.13), kde β (1) jsou zvoleny libovolně a funkce jsou definovány jako v (2.10). Před samotným výpočtem se však musíme zmínit o ještě jedné komplikaci. Dosud jsme se vyhýbali chybovému rozptylu 2 a při výpočtech předpokládali, že ho známe. Tomu tak ovšem v praktických případech není a je třeba pro tento parametr také provést odhady. Pro chybovou směrodatnou odchylku požadujeme > 0. Abychom se vyhnuli problémům, které by nám odhadování za tohoto omezení mohlo způsobit, zavedeme si parametr λ = log (obdobně jako v případě náhodných veličin T a Y ). Parametr λ pak bude nabývat hodnot z celé reálné osy. Namísto l n (β) budeme uvažovat l n (β, λ) a budeme tyto parametry odhadovat současně, jakoby byl λ další složkou vektoru β. Provedeme parciální, položíme ji rovnu nule a tuto rovnici zahrneme do soustavy rovnic vzniklých derivováním podle jednotlivých složek vektoru β a další postup bude odpovídat postupům v kapitole 2. S ohledem na cíl této práce pro nás nebude důležité, jestli chybový rozptyl známe, nebo ho musíme odhadovat. Nebudeme se tímto problémem tedy více zabývat. derivaci ln(β,λ) λ Příklad 3.1 (Srdeční chlopně: výstupy modelu) Vrat me se k datům z Meyns a kol. (2005). Odhady budeme provádět výše popsanou metodou a vycházet z výše uvedeného rozdělení náhodné veličiny ε. Softwarovým prostředkem nám bude volně šiřitelný statistický program R - R Development Core Team (2008). Ve své práci Meyns a kol. (2005) rozdělují veličiny do několika metodologicky odlišných skupin. Podívejme se na model zahrnující charakteristiky chlopně (tj. velikost chlopně v mm a typ chlopně dárce: aortální nebo plicní). Pomocí balíků funkcí pro analýzu přežití programu R vytvoříme model pro normálně rozdělenou chybu (vnitřní výpočty probíhají právě pomocí Newton-Rhapsonových iterací). Obdržíme následující tabulku (podrobnou interpretaci provedeme později): 23

24 Veličina β Směrodatná chyba p hodnota Absolutní člen 0,0155 0,5205 0,976 Velikost chlopně 0,1451 0,0318 < 0,001 Typ chlopně dárce (PH vs. AH) 0,3900 0,2516 0,121 Dále získáme informaci, že odhadu bylo dosaženo po osmé Newton-Rhapsonově iteraci. Můžeme si všimnout, že každá z použitých veličin má jiné vlastnosti. První je spojitá a manipulace s ní probíhá v regresním modelu přirozeně. Druhá veličina je faktorová a pracujeme s ní odlišným způsobem. Řekněme, že veličina X nabývá a různých hodnot, které indexujeme přirozenými čísly. Potom si sestrojíme a 1 pomocných faktorových veličin X 2,..., X a, které definujeme následujícím způsobem: X i = 1, právě když pozorovaná hodnota veličiny X nabývá i-té hodnoty (a je nulová jinak). Pokud X nabývá první hodnoty, jsou všechny pomocné veličiny nulové, nabýva-li druhé, je nenulová pouze X 2, a tak dále. Při sestavování modelu pak použijeme pomocné veličiny X 2,..., X a, nikoliv původní veličinu X. Stejný postup můžeme aplikovat na spojitou veličinu, chceme-li ji rozdělit na několik skupin. Její definiční obor rozdělíme do několika intervalům, oindexujeme je přirozenými čísly a sledujeme stejný postup, jako v předchozím případě. Příklad 3.2 (Srdeční chlopně: dělení do skupin) V úvodním povídání o těchto datech jsme vznesli otázky týkající se rozhodování, kdy a za jakých podmínek operaci provádět. Ukažme si, jakou nalezneme odpověd pro věk pacienta. Pozorované pacienty si rozdělíme podle věku do tří skupin a následně provedeme konstrukci modelu pro pomocné veličiny X 2,..., X 3. Při předpokladu normálního rozdělení chyb dostaneme následující odhady funkce přežití: 24

25 Červená křivka přísluší dětem mladším než jeden rok (včetně), modrá pacientů mezi jedním a osmi lety (včetně) a konečně zelená všem starším osmi let. Vidíme, že pro mladé pacienty klesá funkce přežití mnohem rychleji. Výstupem je zjištění, že po určité době je pravděpodobnost selhání transplantované chlopně vyšší, čím je operovaný mladší (čím je to skutečně způsobeno si vysvětlíme v závěru práce). Zároveň vidíme, že pro pacienty ve věku nad osm let je funkce přežití velice,,dobrá v tom smyslu, že je dlouho blízká jedné a klesá zvolna. Již jsme si osvětlili, jak model vzniknul a co veličiny v něm znamenají. V příkladu jsme naznačili, jak se dívat na grafické znázornění. Nyní se vrátíme k číselným výstupům modelu a ukážeme si, jakým způsobem výsledky interpretovat. Opět bude třeba rozlišovat, zda mluvíme o spojité nebo faktorové veličině. Ve spojitém případě koeficient β j říká, o kolik se zvětší střední hodnota náhodné veličiny Y, zvětšíme-li hodnotu příslušné veličinu x j o jedničku (a ostatní vysvětlující proměnné zůstanou nezměněné). K času T s vektorem vysvětlujících proměnných x si zaved me čas T 1 s vektorem x 1, kde x = x 1 pro všechny složky až na j-tou, pro kterou platí x 1j = x j + 1. Využijeme 25

26 vztah (2.2) a dostaneme: E T 1 E T = exp(xt 1 β) exp(x T β) E exp(ε 1 ) E exp(ε) = exp(β j) nebot o chybových členech předpokládáme nezávislost a stejné rozdělení. Zvětšením veličiny x j o jedničku se tedy střední čas do selhání zvětší přibližně exp(β j ) krát. Pro faktorovou veličinu zapsanou ve tvaru,,e vs. F nám β j ukazuje, o kolik bude střední hodnota Y větší pro x j s hodnotou E oproti x j s hodnotou F. Další postup bude obdobný. Druhým podstatným výstupem jsou,,p-hodnoty, které nám slouží k posuzování, zda veličina X j ovlivňuje hodnotu náhodné veličiny Y natolik, abychom ji do modelu zahrnovali. P-hodnota je definována jako pravděpodobnost, s jakou testovací statistika nabude hodnot svědčících proti testované hypotéze více, než jsou hodnoty získané z dat (je tedy mezní hladinou, na které hypotézu zamítáme). Jeli námi vypočtená p-hodnota menší, než stanovaná hladina spolehlivosti α, zamítáme hypotézu na hladině α. Je-li p-hodnota větší, hypotézu zamítnout nemůžeme. Příklad 3.3 (Srdeční chlopně: interpretace výsledků) Z výše uvedených důvodů je tabulka z příkladu (3.1) ekvivalentní zápisu: Veličina β Směrodatná chyba p hodnota Absolutní člen 0,0155 0,5205 0,976 Velikost chlopně 0,1451 0,0318 < 0,001 Typ chlopně AH 0 Typ chlopně PH 0,3900 0,2516 0,121 Vidíme tedy, že za každý milimetr, o který se zvětší chlopeň, vzroste očekávaná doba do selhání přibližně exp(0,1451). = 1,16 krát. Dále u pacienta, kterému transplantujeme plicní chlopeň, můžeme očekávat čas do selhání chlopně přibližně exp(0,39). = 1,477 krát větší, než pro pacienta s aortální chlopní. Nyní se podíváme na jednotlivé p-hodnoty. V našem případě jsou vztaženy k Waldovu testu hypotézy, zda β j = 0. Zjistíme, že na hladině 5% zamítnout hypotézu o nulovosti koeficientu můžeme pouze pro veličinu Velikost chlopně, oproti tomu nemá dle našeho modelu veličina Typ chlopně na 5% hladině spolehlivosti statisticky významný vliv na dobu do selhání. Testovat nulovost absolutního členu pro nás nemá smysl, nebot se zde zajímáme pouze o závislost času do selhání na jednotlivých faktorových veličinách. 26

27 V příkladu jsme nalezli odpovědi na to, jak věk ovlivňuje očekávanou křivku přežití, což můžeme zužitkovat před zákrokem (například rozhodnout, zda ho provádět nebo ne). V praxi nás ovšem často zajímá také to, jak bude křivka vypadat pro konkrétního pacienta s konkrétní maticí X, u něhož jsme operaci provedli. K tomu by nám nejlépe posloužila znalost rozdělení (a zejména hustoty) veličiny T. Začněme od náhodné veličiny ε s rozdělením N(0, 2 I). Obecnou podobu transformace jsme si ukázali ve vztahu (2.5). V našem případě s normalitou tedy dostáváme hustotu: což upravíme dále na f(t) = 1 2π exp f(t) = 1 2πt exp ( (log t xt β) [ (log t xt β) ) 1 t, Srovnáním s (3.1) vidíme, že jde o hustotu log-normálního rozdělení s parametry m = x T β, b =. Z toho dále plyne, že ) E T = exp (x T β + 2 var T = (E T ) 2 [ exp( 2 ) 1 ]. 2 ]. Tímto postupem jsme si charakterizovali náhodnou veličinu T odpovídající času do selhání. Parametr bud známe nebo odhadneme společně s β pomocí metod regresní analýzy. Vypočítat pro dané X střední hodnotu, rozptyl a hustotu veličiny T pak není nic jiného, než pouhé dosazení do vzorců. Stejně tak pravděpodobnost přežití do času t spočteme přímo z hustoty, ze které případně můžeme sestrojit i funkci přežití. 3.3 Další parametrické modely Bohužel se ne ve všech případech můžeme spolehnout na normalitu chyby. Rozdělení veličiny ε je jedním z faktorů, ve kterých se různé parametrické modely liší. Zcela obecně se dá samozřejmě využít jakékoli rozdělení, my si však nyní přiblížíme pouze ta, která se nejčastěji používají v praxi. Ukážeme si, ze kterého rozdělení model vychází a připravíme logaritmickou věrohodnost. Dále bychom postupovali stejně jako v AFT modelu s normálně rozdělenou chybou. Bud bychom odhad parametrů ze soustavy rovnic dovedli vypočítat rovnou, nebo bychom přistoupili k iteračním metodám. Nakonec si vypočítáme hustotu náhodné veličiny T a ukážeme, jaké má rozdělení. 27

28 3.3.1 Model s log-logistickým rozdělením Začněme s náhodnou chybou ε, která má logistické rozdělení s hustotou (3.2) a parametry a = 0 a b = : h(z) = 1 exp ( ) z [ ( 1 + exp z 2. )] Dle vzorce (2.8) sestavíme L n (β): L n (β) = n 1 exp [ 1 + exp ( ) yi x T i β ( yi x T i β δ i exp )] exp ( ) yi x T i β ( yi x T i β ) 1 δ i, což zlogaritmováním a úpravami převedeme na logaritmickou věrohodnost: l n (β) = n ( δ i log 1 + y ) [ i x T i β (1 + δ i ) log 1 + exp ( yi x T i β )]. Pro výpočet hustoty T použijme vzorec (2.5). Dosazením dostaneme: ( ) f(t) = 1 log t x exp T β 1 [ ( )] 2 log t x 1 + exp T β t = ( ) = 1 t 1 exp xt β [ ( )] t 2 = 1 + t 1 exp xt β ( ) t exp xt β = [ ( )] 2, 1 + t 1 exp xt β což je z (3.3) hustota log-logistického rozdělení při parametrech α = xt β a γ = 1. Potom tedy platí: [ ] E T = exp(x T π β) sin(π), var T = 2π exp(2xt β) sin(2π) π2 2 sin 2. (π) Model s Weibullovým rozdělením Začněme s hustotou náhodné veličiny ε, která má Gumbelovo rozdělení s hustotou ve tvaru (3.4) s parametry µ = 0 a ν = : h(z) = 1 exp [ z exp ( z )]. 28

29 Stejně jako v předchozím případě i zde si vyjádříme l n (β) přes vyjádření L n (β) ze vzorce (2.8): L n (β) = n { [ ( )]} 1 exp yi x T i β yi x T δi i β exp { [ ( )]} yi x T 1 δi i β 1 1 exp exp. Po úpravách dostaneme: l n (β) = n ( δ i log 1 + y ) i x T i β exp ( yi x T i β Pomocí vzorce (2.5) opět získáme hustotu pro T : f(t) = 1 [ ( log t x T exp β log t x T β exp [ = 1 ( t exp log t x T β t exp(x T β) = 1 ( ) [ 1 ( t t exp t exp(x T β) exp(x T β) ( ) [ = exp xt β 1 t 1 1 exp exp ) ] 1 = ). )] 1 t = ) ] 1 = ( xt β Z (3.5) vidíme, ( že) jsme dostali hustotu Weibullova rozdělení při parametrech c = exp xt β a p = 1. Potom platí: E T = Γ(1+) exp(x T β), var T = exp(2x T β) [ Γ(1 + 2) Γ 2 (1 + ) ] Porovnávání modelů Představili jsme si několik různých modelů a nabízí se otázka, jak poznat, který z nich nejlépe odpovídá skutečnosti. Jednou z možností je provedení neparametrických odhadů, zanesení vypočtené funkce přežití do grafu s parametricky odhadnutým výsledkem a jejich porovnání. Použít můžeme například následující Kaplan-Meierův odhad (Kaplan a Meier, 1958) funkce přežití: Ŝ(t) = n i d i, n t i <t i kde n i je počet jedinců, kteří dosud neselhali, v čase t i a d i počet selhání v tomto čase (uvědomme si, že n i vznikne odečtením nejen těch, kteří selhali, ale také cenzorovaných). ) t 1 ]. 29

30 Příklad 3.4 (Srdeční chlopně: srovnání modelů) Vrat me se k příkladu (3.2), ale pro přehlednost si data rozdělme pouze do dvou věkových skupin (kdy dělícím bodem je deset let). Použijeme model s normálním rozdělením a do grafu zakreslíme funkce přežití (barevně) spolu s Kaplan-Meierovým odhadem (v černé barvě): Křivky víceméně kopírují průběh grafu a můžeme tedy diskuzi uzavřít s tím, že naše volba rozdělení nebyla zcela nevhodná. Nyní do grafu přidáme funkce přežití, které bychom dostali z jiných modelů (zelená pro chybu s normálním rozdělením, červená pro logistické a modrá pro Gumbelovo): 30

31 Vidíme, že různé modely nám dávají odlišné výsledky. Přestože modrá křivka je po desátém roce nejblíže Kaplan-Meierovu odhadu, žádná z funkcí přežití se neodchyluje tak významně, abychom museli na základě této neformální grafické analýzy použitý model zavrhnout. Pokud bychom chtěli najít nejlepší možnost, museli bychom použít sofistikovanější metody, než grafické porovnávání s Kaplan-Meierovým odhadem. 31

32 Kapitola 4 Závěr Obsah předchozích kapitol byl koncipován tak, aby čtenáře seznámil stručně s podstatou samotné analýzy přežití a ukázal, jakým způsobem funguje tvorba parametrických modelů. Pomocí metod kapitoly 2 a popisu tvorby modelů z kapitoly 3 je možné sestrojit funkční parametrický model pomocí regrese, tedy odhadnout neznámé parametry a z nich spočíst funkci přežití. Zejména příklady ve třetí kapitole pak umožňují správnou interpretaci modelu. Stále však práce zůstává svou povahou pouhým úvodem do problematiky. V praxi máme další typy cenzorování (zleva, intervalové) a,,ořezávání (truncation), případně cenzorování dat nemusí být náhodné. Je třeba dávat pozor na to, jak podíl cenzorovaných dat z celkového počtu ovlivňuje přesnost modelů. Nulovost parametrů lze vedle Waldovovy metody testovat například pomocí rozdílů hodnot logaritmické věrohodnosti nebo lze v celé problematice používat namísto hustot a funkcí přežití rizikové funkce. Porovnávání modelů pomocí reziduí by také vystačilo na několik kapitol. Vedle parametrických modelů se hojně využívají neparametrické odhady (zde jsme alespoň měli možnost vidět Kaplan-Meierovu metodu), či semiparametrické (např. Coxův model). Analýza přežití a její metody je velice široký pojem a takto krátká práce nemá vůbec šanci postihnout i jen náznakem všechna zajímavá zákoutí této problematiky. To samozřejmě ani nebylo jejím účelem, ovšem pokud by někoho zaujala tato pasáž matematické statistiky natolik, že by se o ní chtěl dozvědět něco více, rád bych upozornil na následující knihy. Matematicky mnohem komplexnější, ale zároveň náročnější je dílo Kalbfleisch a Prentice (2002), zkoumající podrobně matematické pozadí modelů. Oproti tomu Collett (2003) se více soustředí na konkrétní příklady a velký prostor věnuje samotnému plnění modelů daty a interpretaci výstupů. Obě knihy obsahují velké množství referencí na další autory a jejich kombinace umožní velice dobré zorientování se v základní problematice analýzy přežití. Příklad 4.1 (Srdeční chlopně: Shrnutí) Během přípravy práce i při její realizaci a tvorbě příkladů jsem čerpal spoustu poznatků ze studie Meyns a kol. (2005). Proto bych chtěl pro úplnost na závěr shrnout, k čemu tento výzkum v praxi vedl a jaké přinesl výsledky. 32

33 Studie použitím Kaplan-Meierových odhadů a především Coxových regresních modelů dospěla k závěru, že jedinými veličinami (z těch uvedených v příkladu (1.1)), které významně ovlivňují přežití chlopně, jsou věk, velikost chlopně a způsob implantace. K delšímu očekávanému času přežití vede vyšší věk, větší velikost chlopně a implantace v anatomicky správné pozici. Imunologické faktory jako kompatibilita krevních skupin neměly, stejně jako teplý a studený ischemický čas, téměř žádný vliv. Horší výsledky u mladších dětí souvisejí jednak s výkonnějším imunologickým systémem, který odmítne transplantovanou chlopeň spíše, než u staršího. Především je však tato skutečnost způsobena tím, že přestože tělo transplantovanou chlopeň přijme, tato dále neroste a u rychle se zvětšujícího srdce dítěte přestane stačit a musí být vyměněna. Stejné vysvětlení můžeme přisoudit i vlivu větší velikosti chlopně. Studie se zabývala také případem druhé transplantace, tedy situace, kdy první chlopeň selže a je znovu nahrazena. Doba do selhání byla u druhé chlopně výrazně delší než u první. Nicméně tento poznatek nemůžeme brát jako příliš směrodatný, nebot přímo souvisí s tím, že pacient při transplantaci druhé chlopně je výrazně starší, než při první operaci. Nejcennějším výstupem bylo zjištění, že současná metoda transplantací je stále velice spolehlivá (deset let do selhání u pacientů starších šestnácti let je pravděpodobné na 99%) a nemá smysl se ji pokoušet masově nahradit momentálně dostupnými alternativními metodami. Během psaní této práce jsem se seznámil s problematikou analýzy přežití, o které jsem do té doby nic nevěděl. Metody konstrukce AFT modelů mě přivedli k prohloubení znalostí v regresní analýze, rozšíření v metodě maximální věrohodnosti a praktickému vyzkoušení souvislostí mezi jednotlivými používanými rozděleními (spolu s tím, jak mezi sebou souvisejí jejich parametry). Pro zorientování se ve studii Meyns a kol. (2005) bylo nutné pochopit alespoň částečně medicínské souvislosti a při zpracovávání praktických modelů jsem si vyzkoušel spoustu věcí v programu R. Snad žádný z poznatků, o které mě práce obohatila, nevidím jako samoúčelný. Předpokládám, že většinu z nich hojně v budoucnu využiji, at už se budu analýzou přežití jako takovou zabývat nebo ne. Tímto jsem shrnul, co práce přinesla mně. Nepovažuji ji za zbytečnou ani z obecnějšího hlediska. Vzhledem k tomu, že česká literatura k tomuto tématu prakticky neexistuje a kvalitu materiálů na internetu (jak jsem měl možnost se přesvědčit při hledání několika podrobností) je obtížné posoudit, doufám, že by mohla má práce někomu, kdo se bude chtít seznámit s analýzou přežití, posloužit jako odrazový můstek, poskytnout úvodní informace a reference na kvalitní literaturu. 33

34 Literatura Anděl, J. (2005). Základy matematické statistiky. První vydání. Matfyzpress, Praha. ISBN Collett, D. (2003). Modelling Survival Data in Medical Research. Chapman & Hall/CRC, Boca Raton, Second edition. ISBN Kalbfleisch, J. D. a Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data. John Wiley & Sons, Chichester, Second edition. ISBN X. Kaplan, E. L. a Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, Lehmann, E. L. (1983). Theory of Point Estimation. John Wiley & Sons, New York. ISBN Meyns, B., Jashari, R., Gewillig, M., Mertens, L., Komárek, A., Lesaffre, E., Budts, W., a Daenen, W. (2005). Factors influencing the survival of cryopreserved homografts. The second homograft performs as well as the first. European Journal of Cardio-thoracic Surgery, 28, R Development Core Team (2008). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. URL 34