2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student rozumí rozdílu mezi mediánem přežití, průměrným přežitím a dobou dožití Stejně jako v případě jiných náhodných veličin popisujeme pravděpodobnostní chování náhodné veličiny T, která u souboru hodnocených subjektů reprezentuje čas do výskytu sledované události, pomocí matematických funkcí a číselných charakteristik. Tato kapitola příslušné funkce a charakteristiky definuje a uvádí funkční vztahy mezi nimi. 2.1 Funkce přežití Čas přežití (survival time) neboli dobu do výskytu sledované události reprezentujeme nezápornou náhodnou veličinou T, která představuje buď skutečný čas přežití daného subjektu, nebo cenzorovaný čas přežití. Abychom rozlišili subjekty s cenzorovaným a skutečným časem přežití, zaznamenáváme data přežití pomocí náhodného vektoru (T, C), kde C je náhodná veličina představující indikátor cenzorování. Představuje-li T skutečnou dobu přežití, respektive dobu do výskytu sledované události, pak náhodná veličina C nabývá hodnoty 1. Pokud je naopak čas přežití T subjektu cenzorovaný a sledovanou událost u něj tedy nepozorujeme, pak náhodná veličina C nabývá hodnoty 0. Jelikož je T náhodná veličina, lze její pravděpodobnostní chování, tedy přiřazení pravděpodobnosti každému možnému výsledku T, popsat pomocí rozdělení pravděpodobnosti (survival distribution), respektive pomocí jedné z následujících funkcí [1]: 1. Distribuční funkce (distribution function), označme ji F(t), vyjadřuje pravděpodobnost, že číselná realizace náhodné veličiny T nepřekročí na reálné ose danou hodnotu t, což jinými slovy znamená, že čas přežití daného subjektu bude menší nebo roven hodnotě t. Tuto definici můžeme zapsat jako. (2.1) 2. Hustota pravděpodobnosti (density function) udává pravděpodobnost výskytu sledované události v čase t, respektive v daném časovém intervalu na reálné ose. Hustotu lze získat buď derivací distribuční funkce, tedy jako d/d, nebo ji lze definovat pomocí vztahu 1 lim. (2.2) 3. Funkce přežití (survival function), označme ji S(t), vyjadřuje pravděpodobnost, že se náhodná veličina T realizuje na reálné ose až za danou hodnotou t, což znamená, že čas přežití daného subjektu bude větší, než je zvolený čas t. Funkci přežití lze tedy zapsat jako 1
11. (2.3) Vzhledem k tomu, že se jedná o pravděpodobnost, tak funkce přežití nabývá pouze hodnot mezi 1 a 0 (častěji vyjadřováno jako 100 % a 0 %), kdy hodnotu 1 má funkce přežití v čase t = 0 a hodnotu 0 při výskytu poslední události, kdy t může být teoreticky libovolně velké číslo. Funkce přežití je vždy funkcí nerostoucí. Další důležitou charakteristikou dat přežití je tzv. riziková funkce (hazard function). Ta vyjadřuje intenzitu výskytu sledované události v čase t za podmínky, že subjekt přežil do času t, což můžeme zapsat následujícím způsobem 1 lim. (2.4) Riziková funkce jako okamžitá intenzita výskytu sledované události je velmi důležitou funkcí zejména v modelování přežití (viz kapitola 7), nicméně pro praktický popis dosahovaného přežití v souboru subjektů je praktická spíše její kumulativní varianta, tedy kumulativní riziková funkce (cumulative hazard function, integrated hazard). Jak již napovídá anglické označení, kumulativní riziko získáme integrací rizikové funkce podle času, což zapíšeme jako. (2.5) Kumulativní riziková funkce odpovídá celkovému riziku výskytu sledované události od začátku sledování až do času t. Vzhledem k tomu, že se jedná o riziko a nikoliv o pravděpodobnost, není funkce H(t) na rozdíl od funkce přežití S(t) shora omezena číslem 1. 2.2 Výpočetní vztahy Všechny výše definované funkce popisující pravděpodobnostní chování náhodné veličiny T jsou matematicky ekvivalentní, neboť při znalosti jedné z nich lze dopočítat ostatní [2]. Vzájemné výpočetní vztahy lze odvodit následující úvahou. Součástí definice rizikové funkce je podmíněná pravděpodobnost, respektive pravděpodobnost výskytu sledované události v intervalu t + t za podmínky, že k ní nedošlo do času t. Uvědomíme-li si, že lze pomocí věty o podmíněné pravděpodobnosti vyjádřit jako /, můžeme podmíněnou pravděpodobnost v definici rizikové funkce vyjádřit pomocí následujícího vztahu. (2.6) Podíváme-li se na definici distribuční funkce F(t) a funkce přežití S(t), můžeme vztah (2.6) přepsat jako 2
. (2.7) Když dosadíme vztah (2.7) do definice rizikové funkce dané vztahem (2.4), zjistíme, že výsledek odpovídá definici hustoty pravděpodobnosti náhodné veličiny T, kterou dělíme funkcí přežití. Výsledkem je tedy vztah rizikové funkce, funkce přežití a hustoty pravděpodobnosti náhodné veličiny T ve formě dané vztahem. (2.8) Tento vztah lze dále upravit aplikací pravidla pro derivaci složené funkce a pravidla pro derivaci přirozeného logaritmu, čímž získáme následující vztah d d ln. (2.9) Pokud tento výsledek dosadíme do definice kumulativní rizikové funkce dané vztahem (2.5), získáme vzorec dokumentující přímou souvislost funkce přežití a kumulativní rizikové funkce, který má tvar ln. (2.10) anebo jinak lze také psát exp. (2.11) Výpočetní vztahy pro funkce S(t), h(t) a H(t) jsou v praxi opravdu využívány. Často je některá z nich odhadnuta pomocí odpovídajícího statistického odhadu a zbylé jsou dopočítány. Praktickým příkladem aplikace výpočetních vztahů je Breslowův odhad funkce přežití definovaný v kapitole 3. 2.3 Další charakteristiky přežití Výše definovaný popis pravděpodobnostního chování náhodné veličiny T pomocí rizikové funkce, hustoty pravděpodobnosti a funkce přežití je sice úplný, ale trochu složitý a nepraktický. Často se tak kromě pravděpodobností přežití ve vybraných časových bodech používají pro popis pravděpodobnostního chování náhodné veličiny T číselné charakteristiky, které shrnují vlastnosti rozdělení pravděpodobnosti veličiny T do jednoho čísla, které je snadno interpretovatelné a lze s ním pracovat jednodušeji než s funkčním vyjádřením. Hlavními číselnými charakteristikami v analýze přežití jsou medián přežití a průměrná doba přežití. 3
2.3.1 Medián přežití Medián přežití (median survival time), označme ho t 0,5, je definován jako čas, ve kterém má funkce přežití hodnotu 0,5, tedy jako čas pro který platí S(t 0,5 ) = 0,5 [2]. Vzhledem k tomu, že rozdělení pravděpodobnosti náhodné veličiny T mají obecně kladnou šikmost (jsou kladně zešikmená), je logické, že medián přežití je většinou v analýze přežití preferován. V klinických studiích zaměřených na hodnocení přežití pacientů se dokonce výpočet mediánu přežití stal standardem, který je reportován jako hlavní výsledek. Obdobně jako medián přežití jsme schopni definovat i další kvantily rozdělení pravděpodobnosti náhodné veličiny T. Čas, který bude 100 p-procentním kvantilem náhodné veličiny T, označme ho t p, je definován jako čas, pro který platí, že S(t p ) = 1 p. Jako příklad lze uvést 25% a 75% kvantil času přežití, které jsou definovány jako časy t 0,25 a t 0,75, pro které platí, 0,75 a, 0,25. (2.12) 2.3.2 Průměrná doba přežití Průměrná doba přežití (mean survival time), označme ji µ, představuje střední hodnotu náhodné veličiny T [1]. Podle definice střední hodnoty platí. (2.13) Tento vztah lze dále upravit pomocí integrace metodou per partes, opět s využitím vztahu mezi hustotou pravděpodobnosti a funkcí přežití, na tvar, (2.14) což znamená, že průměrná doba přežití je jednoduše definována jako integrál z funkce přežití S(t) na intervalu od nuly do nekonečna. Aby byla střední hodnota náhodné veličiny T definovaná, předpokládáme, že platí 0. Jinak řečeno předpokládáme, že pravděpodobnost přežití bez výskytu sledované události jde s rostoucím časem k nule. Tento předpoklad je logický u studií, kde je sledovanou událostí například úmrtí nebo jiná událost jednoznačně spjatá se sledovanými subjekty. Existuje však řada událostí, které lze studovat pomocí analýzy přežití a které nutně v čase nemusí nastat. Jako příklad lze uvést čas do uzavření sňatku, čas do ukončení pracovního poměru, nebo čas do diagnózy konkrétního onemocnění. V těchto případech existuje nenulový podíl subjektů, označme ho, u nichž sledovanou událost nikdy nepozorujeme, což vede k tomu, že střední hodnota náhodné veličiny T není podle vztahu (2.14) definována. Abychom byli schopni střední hodnotu veličiny T odhadnout, využijeme k analýze podmíněnou pravděpodobnost, respektive podmíněnou hustotu a funkci přežití, u subjektů, u nichž alespoň někdy předpokládáme výskyt sledované události [3]. U této skupiny subjektů je totiž střední hodnota náhodné 4
veličiny T definována, navíc lze ukázat, že podmíněná hustota a funkce přežití jsou funkčně svázány s nepodmíněnými. Podmíněnou hustotu pravděpodobnosti lze vyjádřit jako 1, (2.15) zatímco podmíněná funkce přežití má tvar 1 (2.16) a platí pro ni, že pro jde k nule. Podmíněná funkce přežití tedy splňuje výše uvedený předpoklad, což znamená, že střední hodnotu náhodné veličiny T lze vypočítat. Je však třeba si uvědomit, že vypočtená střední hodnota se vztahuje pouze na skupinu subjektů, u nichž předpokládáme výskyt sledované události, například na osoby, u nichž bude v budoucnu diagnostikováno konkrétního onemocnění, nebo na osoby, které alespoň jednou v životě uzavřou sňatek. 2.3.3 Průměrná doba dožití Průměrná doba dožití (mean residual life) v čase t, označme ji µ t, je definována jako zbývající čas přežití ve chvíli, kdy víme, že čas přežití dosáhl alespoň hodnoty t [1]. Průměrnou dobu dožití lze tedy vyjádřit jako Problém k řešení:. (2.17) 1. Výše uvedené definice a výpočetní vztahy pracují s náhodnou veličinou T jako se spojitou náhodnou veličinou. Předpokládejme však, že T je diskrétní náhodná veličina, jejíž rozdělení pravděpodobnosti je popsáno pravděpodobnostní funkcí p(t). Odvoďte s pomocí pravděpodobnostní funkce veličiny T funkci přežití a rizikovou funkci. [Výsledek: ; Použitá literatura: ] 1. Klein JP, Moeschberger ML. Survival Analysis: Techniques for Censored and Truncated Data. 2003, Springer, New York. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London. 3. Rodríguez, G. Lecture Notes on Generalized Linear Models. 2007. Available at http://data.princeton.edu/wws509/notes/ Doporučená literatura: 5
1. Marubini E, Vasecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 6