2 Hlavní charakteristiky v analýze přežití

Podobné dokumenty
8 Coxův model proporcionálních rizik I

7 Regresní modely v analýze přežití

4 Parametrické odhady

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

I. D i s k r é t n í r o z d ě l e n í

7. Rozdělení pravděpodobnosti ve statistice

p(x) = P (X = x), x R,

8 Střední hodnota a rozptyl

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

MATEMATICKÁ STATISTIKA - XP01MST

Náhodná veličina a rozdělení pravděpodobnosti

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Definice spojité náhodné veličiny zjednodušená verze

Základy teorie pravděpodobnosti

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

NÁHODNÁ VELIČINA. 3. cvičení

Pojistná matematika. Úmrtnostní tabulky, komutační čísla a jejich použití. Silvie Kafková

Náhodné chyby přímých měření

Téma 22. Ondřej Nývlt

Náhodná veličina, rozdělení pravděpodobnosti a reálná data

Diskrétní náhodná veličina. November 12, 2008

Markovské metody pro modelování pravděpodobnosti

Matematika III. 4. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Řešení. Označme po řadě F (z) Odtud plyne, že

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Náhodný vektor a jeho charakteristiky

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Odhad parametrů N(µ, σ 2 )

Chyby měření 210DPSM

Výběrové charakteristiky a jejich rozdělení

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

Praktická statistika. Petr Ponížil Eva Kutálková

JAK MODELOVAT VÝSLEDKY

Náhodné (statistické) chyby přímých měření

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

PRAVDĚPODOBNOST A STATISTIKA

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Charakterizace rozdělení

Funkce a lineární funkce pro studijní obory

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Teorie pravěpodobnosti 1

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a statistika I KMA/K413

Soustavy lineárních diferenciálních rovnic I. řádu s konstantními koeficienty

Statistika II. Jiří Neubauer

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Cvičení 5. Přednášející: Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Přijímací zkouška na navazující magisterské studium 2017

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Teorie měření a regulace

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

1. Přednáška. Ing. Miroslav Šulai, MBA

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Základy počtu pravděpodobnosti a metod matematické statistiky

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Seznámíte se s pojmem primitivní funkce a neurčitý integrál funkce jedné proměnné.

Nekonečné číselné řady. January 21, 2015

Spolehlivost soustav

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Vzorová písemka č. 1 (rok 2015/2016) - řešení

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Analýza dat na PC I.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Poznámky k předmětu Aplikovaná statistika, 5.téma

Základy teorie pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

1 Linearní prostory nad komplexními čísly

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

1 Náhodný výběr a normální rozdělení 1.1 Teoretická a statistická pravděpodobnost

Náhodné signály. Honza Černocký, ÚPGM

Riemannův určitý integrál

Příklad 1. Řešení 1a. Řešení 1b. Řešení 1c ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 7

, 1. skupina (16:15-17:45) Jméno: se. Postup je třeba odůvodnit (okomentovat) nebo uvést výpočet. Výsledek bez uvedení jakéhokoliv

Odhady Parametrů Lineární Regrese

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Statistika I (KMI/PSTAT)

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

4. Aplikace matematiky v ekonomii

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Vypracoval: Mgr. Lukáš Bičík TENTO PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

Transkript:

2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student rozumí rozdílu mezi mediánem přežití, průměrným přežitím a dobou dožití Stejně jako v případě jiných náhodných veličin popisujeme pravděpodobnostní chování náhodné veličiny T, která u souboru hodnocených subjektů reprezentuje čas do výskytu sledované události, pomocí matematických funkcí a číselných charakteristik. Tato kapitola příslušné funkce a charakteristiky definuje a uvádí funkční vztahy mezi nimi. 2.1 Funkce přežití Čas přežití (survival time) neboli dobu do výskytu sledované události reprezentujeme nezápornou náhodnou veličinou T, která představuje buď skutečný čas přežití daného subjektu, nebo cenzorovaný čas přežití. Abychom rozlišili subjekty s cenzorovaným a skutečným časem přežití, zaznamenáváme data přežití pomocí náhodného vektoru (T, C), kde C je náhodná veličina představující indikátor cenzorování. Představuje-li T skutečnou dobu přežití, respektive dobu do výskytu sledované události, pak náhodná veličina C nabývá hodnoty 1. Pokud je naopak čas přežití T subjektu cenzorovaný a sledovanou událost u něj tedy nepozorujeme, pak náhodná veličina C nabývá hodnoty 0. Jelikož je T náhodná veličina, lze její pravděpodobnostní chování, tedy přiřazení pravděpodobnosti každému možnému výsledku T, popsat pomocí rozdělení pravděpodobnosti (survival distribution), respektive pomocí jedné z následujících funkcí [1]: 1. Distribuční funkce (distribution function), označme ji F(t), vyjadřuje pravděpodobnost, že číselná realizace náhodné veličiny T nepřekročí na reálné ose danou hodnotu t, což jinými slovy znamená, že čas přežití daného subjektu bude menší nebo roven hodnotě t. Tuto definici můžeme zapsat jako. (2.1) 2. Hustota pravděpodobnosti (density function) udává pravděpodobnost výskytu sledované události v čase t, respektive v daném časovém intervalu na reálné ose. Hustotu lze získat buď derivací distribuční funkce, tedy jako d/d, nebo ji lze definovat pomocí vztahu 1 lim. (2.2) 3. Funkce přežití (survival function), označme ji S(t), vyjadřuje pravděpodobnost, že se náhodná veličina T realizuje na reálné ose až za danou hodnotou t, což znamená, že čas přežití daného subjektu bude větší, než je zvolený čas t. Funkci přežití lze tedy zapsat jako 1

11. (2.3) Vzhledem k tomu, že se jedná o pravděpodobnost, tak funkce přežití nabývá pouze hodnot mezi 1 a 0 (častěji vyjadřováno jako 100 % a 0 %), kdy hodnotu 1 má funkce přežití v čase t = 0 a hodnotu 0 při výskytu poslední události, kdy t může být teoreticky libovolně velké číslo. Funkce přežití je vždy funkcí nerostoucí. Další důležitou charakteristikou dat přežití je tzv. riziková funkce (hazard function). Ta vyjadřuje intenzitu výskytu sledované události v čase t za podmínky, že subjekt přežil do času t, což můžeme zapsat následujícím způsobem 1 lim. (2.4) Riziková funkce jako okamžitá intenzita výskytu sledované události je velmi důležitou funkcí zejména v modelování přežití (viz kapitola 7), nicméně pro praktický popis dosahovaného přežití v souboru subjektů je praktická spíše její kumulativní varianta, tedy kumulativní riziková funkce (cumulative hazard function, integrated hazard). Jak již napovídá anglické označení, kumulativní riziko získáme integrací rizikové funkce podle času, což zapíšeme jako. (2.5) Kumulativní riziková funkce odpovídá celkovému riziku výskytu sledované události od začátku sledování až do času t. Vzhledem k tomu, že se jedná o riziko a nikoliv o pravděpodobnost, není funkce H(t) na rozdíl od funkce přežití S(t) shora omezena číslem 1. 2.2 Výpočetní vztahy Všechny výše definované funkce popisující pravděpodobnostní chování náhodné veličiny T jsou matematicky ekvivalentní, neboť při znalosti jedné z nich lze dopočítat ostatní [2]. Vzájemné výpočetní vztahy lze odvodit následující úvahou. Součástí definice rizikové funkce je podmíněná pravděpodobnost, respektive pravděpodobnost výskytu sledované události v intervalu t + t za podmínky, že k ní nedošlo do času t. Uvědomíme-li si, že lze pomocí věty o podmíněné pravděpodobnosti vyjádřit jako /, můžeme podmíněnou pravděpodobnost v definici rizikové funkce vyjádřit pomocí následujícího vztahu. (2.6) Podíváme-li se na definici distribuční funkce F(t) a funkce přežití S(t), můžeme vztah (2.6) přepsat jako 2

. (2.7) Když dosadíme vztah (2.7) do definice rizikové funkce dané vztahem (2.4), zjistíme, že výsledek odpovídá definici hustoty pravděpodobnosti náhodné veličiny T, kterou dělíme funkcí přežití. Výsledkem je tedy vztah rizikové funkce, funkce přežití a hustoty pravděpodobnosti náhodné veličiny T ve formě dané vztahem. (2.8) Tento vztah lze dále upravit aplikací pravidla pro derivaci složené funkce a pravidla pro derivaci přirozeného logaritmu, čímž získáme následující vztah d d ln. (2.9) Pokud tento výsledek dosadíme do definice kumulativní rizikové funkce dané vztahem (2.5), získáme vzorec dokumentující přímou souvislost funkce přežití a kumulativní rizikové funkce, který má tvar ln. (2.10) anebo jinak lze také psát exp. (2.11) Výpočetní vztahy pro funkce S(t), h(t) a H(t) jsou v praxi opravdu využívány. Často je některá z nich odhadnuta pomocí odpovídajícího statistického odhadu a zbylé jsou dopočítány. Praktickým příkladem aplikace výpočetních vztahů je Breslowův odhad funkce přežití definovaný v kapitole 3. 2.3 Další charakteristiky přežití Výše definovaný popis pravděpodobnostního chování náhodné veličiny T pomocí rizikové funkce, hustoty pravděpodobnosti a funkce přežití je sice úplný, ale trochu složitý a nepraktický. Často se tak kromě pravděpodobností přežití ve vybraných časových bodech používají pro popis pravděpodobnostního chování náhodné veličiny T číselné charakteristiky, které shrnují vlastnosti rozdělení pravděpodobnosti veličiny T do jednoho čísla, které je snadno interpretovatelné a lze s ním pracovat jednodušeji než s funkčním vyjádřením. Hlavními číselnými charakteristikami v analýze přežití jsou medián přežití a průměrná doba přežití. 3

2.3.1 Medián přežití Medián přežití (median survival time), označme ho t 0,5, je definován jako čas, ve kterém má funkce přežití hodnotu 0,5, tedy jako čas pro který platí S(t 0,5 ) = 0,5 [2]. Vzhledem k tomu, že rozdělení pravděpodobnosti náhodné veličiny T mají obecně kladnou šikmost (jsou kladně zešikmená), je logické, že medián přežití je většinou v analýze přežití preferován. V klinických studiích zaměřených na hodnocení přežití pacientů se dokonce výpočet mediánu přežití stal standardem, který je reportován jako hlavní výsledek. Obdobně jako medián přežití jsme schopni definovat i další kvantily rozdělení pravděpodobnosti náhodné veličiny T. Čas, který bude 100 p-procentním kvantilem náhodné veličiny T, označme ho t p, je definován jako čas, pro který platí, že S(t p ) = 1 p. Jako příklad lze uvést 25% a 75% kvantil času přežití, které jsou definovány jako časy t 0,25 a t 0,75, pro které platí, 0,75 a, 0,25. (2.12) 2.3.2 Průměrná doba přežití Průměrná doba přežití (mean survival time), označme ji µ, představuje střední hodnotu náhodné veličiny T [1]. Podle definice střední hodnoty platí. (2.13) Tento vztah lze dále upravit pomocí integrace metodou per partes, opět s využitím vztahu mezi hustotou pravděpodobnosti a funkcí přežití, na tvar, (2.14) což znamená, že průměrná doba přežití je jednoduše definována jako integrál z funkce přežití S(t) na intervalu od nuly do nekonečna. Aby byla střední hodnota náhodné veličiny T definovaná, předpokládáme, že platí 0. Jinak řečeno předpokládáme, že pravděpodobnost přežití bez výskytu sledované události jde s rostoucím časem k nule. Tento předpoklad je logický u studií, kde je sledovanou událostí například úmrtí nebo jiná událost jednoznačně spjatá se sledovanými subjekty. Existuje však řada událostí, které lze studovat pomocí analýzy přežití a které nutně v čase nemusí nastat. Jako příklad lze uvést čas do uzavření sňatku, čas do ukončení pracovního poměru, nebo čas do diagnózy konkrétního onemocnění. V těchto případech existuje nenulový podíl subjektů, označme ho, u nichž sledovanou událost nikdy nepozorujeme, což vede k tomu, že střední hodnota náhodné veličiny T není podle vztahu (2.14) definována. Abychom byli schopni střední hodnotu veličiny T odhadnout, využijeme k analýze podmíněnou pravděpodobnost, respektive podmíněnou hustotu a funkci přežití, u subjektů, u nichž alespoň někdy předpokládáme výskyt sledované události [3]. U této skupiny subjektů je totiž střední hodnota náhodné 4

veličiny T definována, navíc lze ukázat, že podmíněná hustota a funkce přežití jsou funkčně svázány s nepodmíněnými. Podmíněnou hustotu pravděpodobnosti lze vyjádřit jako 1, (2.15) zatímco podmíněná funkce přežití má tvar 1 (2.16) a platí pro ni, že pro jde k nule. Podmíněná funkce přežití tedy splňuje výše uvedený předpoklad, což znamená, že střední hodnotu náhodné veličiny T lze vypočítat. Je však třeba si uvědomit, že vypočtená střední hodnota se vztahuje pouze na skupinu subjektů, u nichž předpokládáme výskyt sledované události, například na osoby, u nichž bude v budoucnu diagnostikováno konkrétního onemocnění, nebo na osoby, které alespoň jednou v životě uzavřou sňatek. 2.3.3 Průměrná doba dožití Průměrná doba dožití (mean residual life) v čase t, označme ji µ t, je definována jako zbývající čas přežití ve chvíli, kdy víme, že čas přežití dosáhl alespoň hodnoty t [1]. Průměrnou dobu dožití lze tedy vyjádřit jako Problém k řešení:. (2.17) 1. Výše uvedené definice a výpočetní vztahy pracují s náhodnou veličinou T jako se spojitou náhodnou veličinou. Předpokládejme však, že T je diskrétní náhodná veličina, jejíž rozdělení pravděpodobnosti je popsáno pravděpodobnostní funkcí p(t). Odvoďte s pomocí pravděpodobnostní funkce veličiny T funkci přežití a rizikovou funkci. [Výsledek: ; Použitá literatura: ] 1. Klein JP, Moeschberger ML. Survival Analysis: Techniques for Censored and Truncated Data. 2003, Springer, New York. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London. 3. Rodríguez, G. Lecture Notes on Generalized Linear Models. 2007. Available at http://data.princeton.edu/wws509/notes/ Doporučená literatura: 5

1. Marubini E, Vasecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 6