4 Parametrické odhady Předpokládané výstupy z výuky: 1. Student zná základní rozdělení pravděpodobnosti dat přežití 2. Student rozumí principu odhadu funkce přežití a rizikové funkce s využitím metody maximální věrohodnosti 3. Student je schopen sestrojit funkci věrohodnosti pro data o přežití 4. Student umí ověřit, zda data pochází z exponenciálního nebo Weibullova rozdělení pravděpodobnosti V kapitole 3 byly uvedeny hlavní neparametrické metody pro hodnocení dat o přežití, které jsou pro svou jednoduchost a obecnou aplikovatelnost široce používány. Vedle neparametrických metod však existuje i skupina metod parametrických, jejichž použití předpokládá konkrétní funkční vyjádření rozdělení pravděpodobnosti náhodné veličiny T. Tato kapitola uvádí hlavní rozdělení pravděpodobnosti používané v analýze přežití a způsob, jak odhadovat neznámé parametry vybraného rozdělení pomocí metody maximální věrohodnosti. 4.1 Hlavní rozdělení pravděpodobnosti v analýze přežití Použití neparametrických metod výrazně zjednodušuje průběh analýzy, neboť se nemusíme zabývat problémem, z jakého rozdělení pravděpodobnosti pozorované časy přežití pochází. Předpoklad konkrétního rozdělení pravděpodobnosti náhodné veličiny T je zvláště v analýze přežití silný a může být zrádný (pokud totiž není správný a neshoduje se s pozorovanými daty, výsledné odhady mohou být úplně mimo realitu), ale má i své výhody. Použití parametrického vyjádření distribuční funkce a potažmo funkce přežití nám v analýze přežití usnadňuje řadu kroků. Mezi hlavní výhody parametrických odhadů patří: 1. Jednodušší odhad kvantilů funkce přežití, zejména mediánu přežití a střední doby dožití, 2. Možnost vyjádření hlavních charakteristik náhodné veličiny T, tedy funkce přežití S(t), rizikové funkce h(t) a kumulativní rizikové funkce H(t) pomocí spojité funkce, 3. Přesnější odhad funkce přežití než s pomocí Kaplanova-Meierova odhadu, 4. Nižší variabilita, respektive standardní chyba, odhadů hlavních charakteristik náhodné veličiny T. V klasické statistice hraje hlavní roli normální rozdělení pravděpodobnosti, případně diskrétní rozdělení pravděpodobnosti, jako jsou binomické a Poissonovo. Tato rozdělení však v analýze přežití nenajdeme, diskrétní z toho důvodu, že předpokládáme spojitou náhodnou veličinu T, a normální rozdělení z důvodu, že časy přežití mají v klinických a biologických studiích kladně sešikmené rozdělení (to znamená, že většina osob má kratší či střední doby přežití a osob s delšími až extrémními časy přežití je relativně málo). Nejčastěji používaná rozdělení pravděpodobnosti v analýze přežití jsou následující: Exponenciální rozdělení, 1
Weibullovo rozdělení, Logaritmicko-normální rozdělení, Logaritmicko-logistické rozdělení. 4.1.1 Exponenciální rozdělení Exponenciální rozdělení (exponential distribution) je spojité rozdělení pravděpodobnosti, které popisuje délky časových intervalů mezi výskyty jednotlivých událostí tzv. Poissonova procesu (Poisson process), což znamená, že popisuje délku časových intervalů mezi jednotlivými událostmi, když se tyto události vyskytují vzájemně nezávisle a s konstantní intenzitou. Tuto intenzitu neboli míru rizika v čase popisuje jediný parametr exponenciálního rozdělení označovaný řeckým λ. Vysoká hodnota parametru λ odráží vysoké riziko výskytu sledované události v čase a krátké přežití, zatímco malá hodnota λ naznačuje opak. Když se náhodná veličina T řídí podle exponenciálního rozdělení s parametrem λ, jsou její hustota pravděpodobnosti, riziková funkce a funkce přežití dány vztahy,,. (4.1) Exponenciální rozdělení popisuje čistě náhodný výskyt sledovaných událostí, a proto je někdy označováno jako rozdělení bez paměti. To znamená, že čas od začátku sledování neovlivňuje riziko výskytu události v čase, což je vyjádřeno právě konstantní rizikovou funkcí. Ačkoli má exponenciální rozdělení řadu aplikací v technických vědách, jeho použití v řešení klinických experimentů je právě z důvodu konstantní a tudíž neflexibilní rizikové funkce omezené. 4.1.2 Weibullovo rozdělení Weibullovo rozdělení (Weibull distribution) pravděpodobnosti je zobecněním exponenciálního rozdělení, které navrhl Weibull [1] pro popis životnosti materiálů. Na rozdíl od exponenciálního Weibullovo rozdělení nepředpokládá konstantní riziko výskytu sledované události v čase, ale uvažuje monotónní rizikovou funkci (tedy s časem monotónně rostoucí nebo klesající funkci), z čehož plyne také jeho širší uplatnění v praxi. Toto rozdělení je popsáno pomocí dvou parametrů, γ a λ, kde parametr γ určuje tvar hustoty pravděpodobnosti Weibullova rozdělení a parametr λ škálu hodnot. Spojení Weibullova rozdělení s exponenciálním je následující: Platí-li, že náhodná veličina T umocněná na γ se řídí exponenciálním rozdělením s parametrem λ, pak T má Weibullovo rozdělení pravděpodobnosti s parametry γ a λ, tedy lze psát T ~ W(λ, γ). Pokud se náhodná veličina T řídí podle Weibullova rozdělení s parametry γ a λ, lze hustotu pravděpodobnosti, rizikovou funkci a funkci přežití popsat vztahy (4.2) 2
Ze vztahu (4.2) je vidět, že tvar rizikové funkce náhodné veličiny s Weibullovým rozdělením zásadním způsobem závisí na hodnotě parametru γ, a to takto: Pro γ < 1 je riziková funkce náhodné veličiny T monotónně klesající, Pro γ = 1 je riziková funkce náhodné veličiny T konstantní a tedy h(t) = λ, Pro γ > 1 je riziková funkce náhodné veličiny T monotónně rostoucí. Rizikovou funkci Weibullova rozdělení tedy není možné specifikovat jako zároveň klesající (např. pro nízké hodnoty veličiny T) a rostoucí (např. pro vysoké hodnoty veličiny T), i tak je toto rozdělení vhodné pro medicínský výzkum, např. pro modelování přežití pacientů s onkologickým onemocněním, u něhož riziko od okamžiku diagnózy s časem monotónně klesá (např. karcinom žaludku, plic), či roste (např. karcinom prsu, prostaty). 4.1.3 Logaritmicko-normální rozdělení O náhodné veličině T řekneme, že má logaritmicko-normální rozdělení (log-normal distribution) právě tehdy, když veličina Y, která je přirozeným logaritmem veličiny T, má normální rozdělení. A naopak, když veličina Y má normální rozdělení, pak náhodná veličina T = exp(y) má rozdělení logaritmicko-normální. Rozdělení náhodné veličiny T tedy jednoznačně souvisí s parametry normálního rozdělení, které označujeme µ a σ 2 a které mají význam střední hodnoty a rozptylu normálního rozdělení korespondující náhodné veličiny Y = ln(t). Hustota pravděpodobnosti, riziková funkce a funkce přežití veličiny T s logaritmickonormálním rozdělením jsou dány vztahy 1 2 1Φ ln, (4.3) kde Φ je distribuční funkce standardizovaného normálního rozdělení s parametry µ = 0 a σ 2 = 1. Z výše uvedeného je vidět, že riziková funkce a funkce přežití veličiny T nelze vyjádřit jednoduše, jako tomu bylo v případě exponenciálního a Weibullova rozdělení, což však nic nemění na jeho použitelnosti v analýze přežití. Naopak, riziková funkce logaritmickonormálního rozdělení má díky své definici specifický průběh, který není monotónní, ale zpočátku je rostoucí, následně dosahuje svého maxima a pro t klesá zpět k nule. Logaritmicko-normální rozdělení je tedy vhodné zejména v těch případech, kdy můžeme v období bezprostředně po zahájení sledování (diagnóza) očekávat nárůst rizika sledované události (např. po chirurgickém zákroku), které však po dosažení maximální hodnoty opět klesá (pacienti, kteří se zotaví ze srdečního selhání). Pomocí logaritmicko-normálního rozdělení lze však modelovat i monotónně klesající rizikovou funkci. 3
4.1.4 Logaritmicko-logistické rozdělení Logaritmicko-logistické rozdělení (log-logistic distribution) pravděpodobnosti lze chápat jako transformaci Weibullova rozdělení, které bylo definováno výše vztahy (4.2). Riziková funkce je rozšířena o člen 1/1 (jmenovatel), což umožňuje rizikové funkci větší flexibilitu, která na rozdíl od Weibullova rozdělení nemusí být monotónní. Funkce h(t) je tedy dána vztahem 1. (4.4) Logaritmicko-logistické rozdělení má velké uplatnění v ekonomii při modelování příjmů, ale stejně tak se uplatňuje i v modelování klinických dat, jmenovitě opět dat o přežívání onkologických pacientů. 4.2 Metoda maximální věrohodnosti Odhad neznámých parametrů uvažovaného rozdělení pravděpodobnosti, které jsou nezbytné pro odhady S(t) a h(t), je v analýze přežití založen na metodě maximální věrohodnosti (maximum likelihood estimation). Principem metody maximální věrohodnosti je najít odhad parametru θ (jmenovitě například parametru λ exponenciálního rozdělení), který maximalizuje pravděpodobnost, že pozorované hodnoty pocházejí z předpokládaného rozdělení. Jinými slovy se snažíme najít takovou hodnotu θ, pro niž je pravděpodobnost, že pozorované hodnoty pocházejí z předpokládaného rozdělení, maximální. Odhad se tedy snaží maximálně přizpůsobit pozorovaným časům přežití, což je logické, když připouštíme, že data představují jediný zdroj informací o neznámých parametrech. Sdružená hustota pravděpodobnosti odpovídající n realizacím náhodné veličiny T, tedy pozorovaným hodnotám t 1, t 2,, t n, má tvar:,,. (4.5) Hlavní myšlenkou metody maximální věrohodnosti je dívat se na sdruženou hustotu nikoliv jako na funkci t 1, t 2,, t n, ale jako na funkci vektoru parametrů θ (při pevně daných hodnotách t 1, t 2,, t n ), a vybrat ze všech možných hodnot θ takové, aby výraz (4.5) nabýval svého maxima. Pro tento účel zavádíme tzv. funkci věrohodnosti (likelihood function) ve tvaru,,,,. Je nutné si uvědomit, že na rozdíl od standardních dat má v přítomnosti cenzorování příspěvek cenzorovaných a kompletních pozorování k funkci věrohodnosti jiný tvar. Když je čas t i úplným pozorováním, pak příspěvek itého pacienta k věrohodnostní funkci lze vyjádřit jako f(t i ) = h(t i )S(t i ), což vyjadřuje pravděpodobnost, že se subjekt dožil času t i bez události a zároveň u něj v čase t i událost nastala. Když je čas t i cenzorovaný, pak příspěvek itého pacienta k věrohodnostní funkci lze zjednodušit pouze na f(t i ) = S(t i ), neboť jediné, co víme, je, že se subjekt bez události dožil času t i. Abychom mohli zohlednit při specifikaci věrohodnostní funkce cenzorování, je třeba pracovat s pozorovanými dvojicemi hodnot (t 1, d 1 ), (t 2, d 2 ),, (t n, d n ). Věrohodnostní funkce v přítomnosti cenzorování pak má tvar 4
,,,,,,. (4.6) Výpočetně je pro nás však výhodnější maximalizovat logaritmus funkce věrohodnosti (přirozený logaritmus je výhodný pro zjednodušení součinu na součet). Zavádíme tedy tzv. logaritmickou věrohodnostní funkci (log-likelihood function), kterou lze pomocí elementárních úprav vyjádřit ve tvaru,,,,,, ln ln ln ln ln. (4.7) Příklad 4.1. S využitím výše uvedeného postupu sestrojíme maximálně věrohodný odhad parametru λ exponenciálního rozdělení. Věrohodnostní funkce pro exponenciální rozdělení má tvar:,,,,. (4.8) Označíme-li celkový počet sledovaných událostí, pak můžeme logaritmus funkce věrohodnosti vyjádřit jako,,,, ln ln. (4.9) Maximálně věrohodný odhad pak získáme položením derivace tohoto výrazu podle λ rovno nule, což znamená,,,, 0. (4.10) Výsledným odhadem je pak relativně intuitivní vyjádření odpovídající celkovému počtu pozorovaných událostí, který vztáhneme na celkový pozorovaný osobo-čas v riziku, tedy na celkový součet časů, po něž byly hodnocené subjekty v riziku sledované události: 5
. (4.11) Příklad 4.2. Vhodnost rozdělení pravděpodobnosti popsaných v kapitole 4.1 na reálná data z klinické praxe demonstrujeme na dvou souborech pacientů s maligním onemocněním. Prvním souborem jsou pacienti s metastatickým karcinomem plic z registru TULUNG, kteří byli léčeni protinádorovou terapií. Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti náhodné veličiny T jsou pro tento soubor pacientů znázorněny spolu s neparametrickým Kaplanovým-Meierovým odhadem na obr. 4.1. Na obrázku je vidět, že logaritmicko-normální a logaritmicko-logistické rozdělení velmi pěkně vystihují pozorované hodnoty přežití s drobnými výjimkami, které však mohou být způsobeny způsobem sběru dat. Odhady pro exponenciální a Weibullovo rozdělení jsou méně přesné, neboť méně kopírují Kaplanův-Meierův odhad. Podíl žijících pacientů 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 Kaplanův Meierův odhad Exponenciální rozdělení Weibullovo rozdělení Logaritmicko normální rozdělení Logaritmicko logistické rozdělení 0.2 0.1 0.0 0 12 24 36 48 Čas (měsíce) Obr. 4.1 Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti pro soubor pacientů s metastatickým karcinomem plic, kteří byli léčeni protinádorovou terapií. 6
Druhým souborem jsou pacienti s chronickou myeloidní leukémií z registru CAMELIA, kteří podstoupili transplantaci krvetvorných buněk. Příslušné odhady funkce přežití jsou spolu s neparametrickým Kaplanovým-Meierovým odhadem znázorněny na obr. 4.2. Z výsledku vidíme, že žádné z uvažovaných rozdělení není na tato data úplně vhodné, neboť se nedokáže vypořádat s poměrně pozvolným klesáním funkce přežití, které je navíc kombinováno s náznakem asymptoty pro funkci přežití po 36. měsíci od transplantace. Funkci přežití, která po určité době od začátku sledování vykazuje asymptotu jinou než 0, je vždy lepší modelovat s pomocí tzv. modelů s podílem statisticky vyléčených pacientů, kterým se věnuje poslední kapitola těchto výukových materiálů. 1.0 0.9 0.8 Podíl žijících pacientů 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Kaplanův Meierův odhad Exponenciální rozdělení Weibullovo rozdělení Logaritmicko normální rozdělení Logaritmicko logistické rozdělení 0 12 24 36 48 60 72 Čas (měsíce) Obr. 4.2 Odhady funkce přežití sestrojené za předpokladu exponenciálního, Weibullova, logaritmicko-normálního a logaritmicko-logistického rozdělení pravděpodobnosti pro soubor pacientů s chronickou myeloidní leukémií, kteří podstoupili transplantaci krvetvorných buněk. 4.3 Ověření předpokladu exponenciálního a Weibullova rozdělení Pro použití parametrických modelů v hodnocení přežití je klíčovým prvkem ověření zvoleného rozdělení pravděpodobnosti. Tento krok samozřejmě není jednoduchý a může být do značné míry subjektivním, zvláště srovnáváme-li např. neparametrický Kaplanův-Meierův odhad s proloženou parametrickou křivkou. V případě exponenciálního a Weibullova rozdělení však existují jednoduchá pravidla pro ověření vhodnosti těchto rozdělení, vycházející z jejich definice. Hlavní vlastností exponenciálního rozdělení je konstantní riziková funkce v čase, což znamená, že v případě exponenciální náhodné veličiny T platí h(t) = λ. Z toho dle definičních vztahů mezi klíčovými funkcemi v analýze přežití plyne, že kumulativní riziková funkce je lineární funkcí času a tedy, že můžeme psát H(t) = λt. Splňují- 7
li tedy pozorované hodnoty veličiny T předpoklad exponenciálního rozdělení, neparametrický Nelsonův-Aalenův odhad kumulativní rizikové funkce by měl přibližně tvořit přímku. V případě Weibullova rozdělení vycházíme pro ověření jeho vhodnosti z vyjádření funkce přežití ve tvaru, (4.12) které lze pomocí dvojité logaritmické transformace upravit na vztah lnlnlnlnln. (4.13) Logaritmus kumulativní rizikové funkce veličiny T je tedy v případě vhodnosti Weibullova modelu lineárně závislý na logaritmu času. Předpoklad Weibullova rozdělení tedy můžeme jednoduše ověřit pomocí Kaplanova-Meierova odhadu, kdy znázorníme lnln proti ln. Použitá literatura: 1. Weibull W. A statistical distribution function of wide applicability. J. Appl. Mech.-Trans. ASME, 1951; 18 (3): 293 297. Doporučená literatura: 1. Marubini E, Valsecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 2. Klein JP, Moeschberger ML. Survival Analysis: Techniques for Censored and Truncated Data. 2003, Springer, New York. 8