7 Regresní modely v analýze přežití

Podobné dokumenty
8 Coxův model proporcionálních rizik I

2 Hlavní charakteristiky v analýze přežití

4 Parametrické odhady

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

AVDAT Klasický lineární model, metoda nejmenších

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

10. Předpovídání - aplikace regresní úlohy

AVDAT Nelineární regresní model

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Přijímací zkouška na navazující magisterské studium 2017

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Přijímací zkouška na navazující magisterské studium 2014

Regresní analýza 1. Regresní analýza

Statistická analýza jednorozměrných dat

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Odhady Parametrů Lineární Regrese

4EK211 Základy ekonometrie

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

KORELACE. Komentované řešení pomocí programu Statistica

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Jana Vránová, 3. lékařská fakulta, UK Praha

odpovídá jedna a jen jedna hodnota jiných

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

pravděpodobnosti, popisné statistiky

LINEÁRNÍ REGRESE. Lineární regresní model

VŠB Technická univerzita Ostrava

Regresní a korelační analýza

Téma 22. Ondřej Nývlt

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

Lineární a logistická regrese

4EK201 Matematické modelování. 11. Ekonometrie

STATISTIKA I Metodický list č. 1 Název tématického celku:

Regresní analýza. Eva Jarošová

Úvodem Dříve les než stromy 3 Operace s maticemi

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Neparametrické odhady podmíněné rizikové funkce

Jana Vránová, 3. lékařská fakulta UK

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

You created this PDF from an application that is not licensed to print to novapdf printer (

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

LINEÁRNÍ MODELY. Zdeňka Veselá

ROBUST 1 TESTY DOBRÉ SHODY PRO MODEL. Petr Novák. 1 Regrese v analýze spolehlivosti

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

3 Bodové odhady a jejich vlastnosti

Smíšené regresní modely a možnosti jejich využití. Karel Drápela

Přednáška IX. Analýza rozptylu (ANOVA)

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Analýza přežití Základy analýzy klinických dat: Analýza přežití

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika

Korelační a regresní analýza

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

4. Aplikace matematiky v ekonomii

Základní vlastnosti křivek

Vlastnosti odhadů ukazatelů způsobilosti

PRAVDĚPODOBNOST A STATISTIKA

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a aplikovaná statistika

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Jemný úvod do statistických metod v netržním oceňování

Statistická analýza jednorozměrných dat

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

Ing. Michael Rost, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

AVDAT Mnohorozměrné metody, metody klasifikace

PRAVDĚPODOBNOST A STATISTIKA

Chyby měření 210DPSM

Logaritmus, logaritmická funkce, log. Rovnice a nerovnice. 3 d) je roven číslu: c) -1 d) 0 e) 3 c) je roven číslu: b) -1 c) 0 d) 1 e)

Odhad spolehlivosti kolejových obvodů z nekompletních cenzorovaných dat

Kapacita jako náhodná veličina a její měření. Ing. Igor Mikolášek, Ing. Martin Bambušek Centrum dopravního výzkumu, v. v. i.

4EK211 Základy ekonometrie

Časové řady, typy trendových funkcí a odhady trendů

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

0.1 Úvod do matematické analýzy

KGG/STG Statistika pro geografy

Odhad parametrů N(µ, σ 2 )

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

dat Robust ledna 2018

analýzy dat v oboru Matematická biologie

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Transkript:

7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce 3. Student zná výhody a nevýhody neparametrických a parametrických modelů přežití 4. Student umí formulovat model proporcionálních rizik 5. Student umí formulovat model zrychleného času Regresní modelování obecně využívá statistickou metodiku pro hodnocení vztahu mezi vysvětlovanou proměnnou a vysvětlujícími proměnnými. V případě analýzy přežití je vysvětlovanou proměnnou čas do výskytu sledované události, který je ovšem z důvodu cenzorování problematický, protože v pozorovaných hodnotách se míchají kompletní a nekompletní údaje. Stejně jako pro popisnou analýzu a testování jednoduchých hypotéz o datech přežití tak musíme i pro regresní modelování časů přežití využít nestandardních postupů, které se liší od modelů používaných pro modelování dat bez cenzorovaných hodnot. Tato kapitola představuje úvod do problematiky regresních modelů v analýze přežití, další kapitoly se pak podrobněji věnují Coxovu modelu a nástrojům regresní diagnostiky. 7.1 Úvod Metodika analýzy přežití zahrnuje i vlastní modelovací postupy, které se umí vypořádat s cenzorovanými hodnotami, na něž standardní regresní modely nejsou použitelné. Nemámeli však v hodnoceném souboru cenzorované hodnoty, můžeme pro hodnocení dat přežití teoreticky použít i standardní modely. Prakticky je však standardní metodika statistických modelů nevhodná i z dalších důvodů, kterými jsou zejména tyto tři: Čas přežití může nabývat pouze kladných hodnot a má kladně sešikmené rozdělení pravděpodobnosti. V analýze přežití se používají specifická rozdělení pravděpodobnosti, která vykazují vlastnosti nevhodné pro standardní statistické modely (např. zobecněné lineární modely). Vzhledem k časové složce, kterou data přežití obsahují, nás často místo odhadu střední hodnoty zajímá odhad pravděpodobnosti přežití v daném časovém bodě. V analýze přežití často nemodelujeme přímo pozorované hodnoty, ale odpovídající rizikovou funkci. Regresní modely v analýze přežití jsou tak založeny na rizikové funkci, která lépe popisuje chování přežití sledované skupiny subjektů než hustota pravděpodobnosti. Předpokládejme tedy, že jsme v situaci, kdy chceme analyzovat a hlavně nějakým způsobem kvantifikovat vliv vysvětlující proměnné na přežití pacientů (obecně na dobu do sledované události). Jak to můžeme udělat? V zásadě bychom měli udělat tři kroky:

1. V první řadě bychom měli sestrojit Kaplanovy-Meierovy odhady pro jednotlivé skupiny, které nám poskytnou náhled na rozdílný nebo stejný průběh přežití srovnávaných skupin subjektů. Tento postup však umožňuje pouze vizualizaci a optické zhodnocení rozdílu mezi skupinami danými jednou proměnnou. Nic nekvantifikuje a navíc nebere v úvahu vliv dalších proměnných. 2. Dalším v pořadí je Mantelův-Haenszelův log-rank test, který umožňuje statistické zhodnocení rozdílu v přežití pomocí testové statistiky a s ní související p-hodnoty. Test ovšem také neposkytuje kvantifikaci pozorovaného rozdílu v přežití (např. efektu léčby) a nebere v úvahu více než jednu proměnnou. 3. Až použití regresního modelu nám umožňuje současně uvažovat vliv více proměnných a vzájemně tak adjustovat jejich vlivy. Zároveň nám umožňuje kvantifikaci statistické významnosti i velikosti rozdílu v přežití jednotlivých skupin (kvantifikace pozorovaného efektu). V analýze přežití existují dva hlavní modelovací přístupy umožňující vyjádřit vztah vysvětlujících proměnných a času do sledované události jako závisle proměnné a těmi jsou modely proporcionálních rizik (proportional hazards models), kde jsou vysvětlující proměnné vztaženy k rizikové funkci náhodné veličiny T, a tzv. modely zrychleného času (accelerated failure time models, AFT modely), kde jsou vysvětlující proměnné vztaženy k funkci (pravděpodobnosti) přežití. 7.2 Modely proporcionálních rizik Modely proporcionálních rizik jsou v současnosti nejpoužívanějšími modely v analýze přežití, což plyne zejména z jejich intuitivní interpretace a jednoduchosti použití. Regresní model proporcionálních rizik je vyjádřen pomocí rizikové funkce vztahem, exp exp, (7.1) kde index i označuje pacienty, je vektor vysvětlujících proměnných i-tého subjektu, je vektor regresních koeficientů příslušných jednotlivým proměnným a h 0 (t) je tzv. základní riziková funkce (baseline hazard function), která je společná všem pozorovaným subjektům. Výraz exp( ) vyjadřuje tzv. poměr rizik (hazard ratio, HR) daného subjektu vzhledem k subjektu se základním rizikem, který je definován pomocí vektoru vysvětlujících proměnných x i = 0. Vektorem x i = 0 tak většinou označujeme subjekty odpovídající referenční skupině pacientů. Obecně lze poměr rizik pro subjekty s vektory vysvětlujících proměnných x 1 a x 2 vyjádřit pomocí vztahu,, exp exp exp. (7.2) Ze vztahu (7.2) je vidět, že poměr rizik dvou subjektů je v modelu proporcionálních rizik nezávislý na čase, což představuje základní předpoklad této rodiny modelů. A ten je samozřejmě třeba v rámci analýzy vždy ověřit, aby reprezentace dat přežití pomocí modelu proporcionálních rizik byla validní. Ověřením tzv. proporcionality rizik (proportional hazards) se zabývá kapitola o metodách regresní diagnostiky.

Vztah (7.1) můžeme zjednodušit s použitím logaritmické transformace, někdy také říkáme, že rovnici linearizujeme. Aplikací přirozeného logaritmu na rovnici (7.1) získáme vztah ln, ln. (7.3) Předchozí vztahy (7.2) a (7.3) lze shrnout do tří předpokladů modelů proporcionálních rizik: 1. Vztah mezi vysvětlujícími proměnnými a přirozeným logaritmem rizikové funkce (ln, ) je lineární; 2. Nebereme-li v úvahu interakce jednotlivých proměnných, mají vysvětlující proměnné na škále ln, aditivní vliv; 3. Vliv vysvětlujících proměnných na rizikovou funkci je stejný v každém čase t. Podle charakteru základní rizikové funkce h 0 (t) rozdělujeme modely proporcionálních rizik na dvě skupiny: parametrické, kde h 0 (t) je specifikována s použitím konkrétního rozdělení pravděpodobnosti (a jeho parametrů), a semiparametrické, kde h 0 (t) není specifikována. Analyticky je možnost vynechat konkrétní specifikaci základní rizikové funkce výhodná, neboť ve většině reálných aplikací nemáme apriorní znalost o rozdělení pravděpodobnosti časů přežití. Nejznámějším semiparametrickým modelem proporcionálních rizik je Coxův model, kterému je věnována následující kapitola. 7.2.1 Parametrické modely proporcionálních rizik Pro parametrické modely proporcionálních rizik platí, že h 0 (t) má konkrétní vyjádření dané vybraným rozdělením pravděpodobnosti. Předpoklad konkrétního rozdělení je zároveň výhodou i nevýhodou těchto modelů. Znalost rozdělení, z něhož pocházejí pozorované hodnoty, nám umožňuje přesné odhady regresních koeficientů, špatný předpoklad však může vést k nevhodné reprezentaci dat modelem. Pro jednoduchost zde zmíníme pouze dva základní parametrické modely: exponenciální regresní model daný rovnicí, exp exp (7.4) a Weibullův regresní model definovaný vztahem, exp exp. (7.5) Odhad regresních koeficientů parametrického modelu,, 1,,, je založen na věrohodnostní funkci pro cenzorovaná data, která byla definována v kapitole Parametrické odhady. S použitím výše uvedeného značení se jedná o vztah,,,,,,, ln, ln,. (7.6)

Ze vztahů (7.4) a (7.5) jsou patrná omezení exponenciálního a Weibullova modelu. Prvním z nich je předpoklad konstantního základního rizika v čase u exponenciálního modelu, který je v případě klinických dat vzácný a každopádně je třeba ho ověřit. V případě Weibullova modelu pak rovnice připouští pouze monotónní základní rizikovou funkci (a z toho plynoucí monotónní rizikové funkce ve všech podskupinách definovaných vysvětlujícími proměnnými), což je někdy z hlediska flexibility popisu dat přežití nedostatečné. 7.2.2 Semiparametrické modely proporcionálních rizik Semiparametrický model proporcionálních rizik, jak už název napovídá, má jak parametrickou, tak i neparametrickou složku. Model je neparametrický v tom ohledu, že není nutné pomocí konkrétního rozdělení pravděpodobnosti specifikovat základní rizikovou funkci h 0 (t). Na druhé straně je však i parametrický, neboť uvažujeme parametry popisující vliv vysvětlujících proměnných na rizikovou funkci. Nejznámějším a nejpoužívanějším semiparametrickým modelem v analýze přežití je Coxův model, kterému jsou věnovány kapitoly 8 a 9. 7.3 Modely zrychleného času (Accelerated Failure Time, AFT) Regresní AFT model je vhodnou alternativou pro model proporcionálního rizika tehdy, když je předpoklad proporcionality rizik porušen. Jeho princip je založen na tom, že čas přežití i-tého subjektu, T i, je nezáporný, z čehož plyne, že můžeme modelovat jeho logaritmus. AFT model je tedy definován pomocí rovnice ln, (7.7) kde je reziduální člen s daným rozdělením pravděpodobnosti. Zvolíme-li si referenční skupinu pacientů, pro které je hodnota vektoru vysvětlujících proměnných x i = 0, dostaneme vyjádření jejích časů přežití jako exp. Funkci přežití S 0 (t), která odpovídá referenční skupině pacientů, nazýváme základní funkce přežití (baseline survival function). Nyní uvažujme vliv vektoru vysvětlujících proměnných x. Pokud ze vztahu (7.7) vyjádříme T s využitím referenčních dob přežití, T 0i, vidíme, že vysvětlující proměnná má vzhledem k času přežití multiplikativní efekt: exp exp exp. (7.8) Z toho plyne, že pravděpodobnost přežití i-tého subjektu s vektorem vysvětlujících proměnných x déle než do času t můžeme vyjádřit pomocí vztahu, exp exp exp. (7.9) Tento vztah lze interpretovat tak, že pravděpodobnost přežití pacienta s vektorem vysvětlujících proměnných x v čase t je rovna pravděpodobnosti přežití pacienta z referenční skupiny v čase /exp. V případě pacientů, kteří neodpovídají referenční skupině, tak

můžeme říci, že čas běží rychleji či pomaleji dle faktoru exp. Odhad regresních koeficientů v AFT modelu je opět založen na metodě maximální věrohodnosti. Problémy k řešení: 1. Vyjádřete derivaci logaritmu funkce věrohodnosti exponenciálního regresního modelu s jednou vysvětlující proměnnou (nabývající hodnot 0 a 1). Využijte parametrizaci h 0 = exp(β 0 ). (V řešení jsme označili d 1 a d 2 počty pozorovaných událostí a n 1 a n n 1 počty subjektů ve sledovaných skupinách) [Řešení: parciální derivace podle β 0 : exp exp ; parciální derivace podle β 1 : exp ] Doporučená literatura: 1. Marubini E, Valsecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London.