8 Coxův model proporcionálních rizik I

Transkript

1 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná princip odhadu regresních koeficientů Coxova modelu pomocí metody parciální věrohodnosti 4. Student zná metody pro neparametrický odhad základní rizikové funkce Coxův model proporcionálních rizik je jednoznačně nejpoužívanějším modelem v analýze přežití, což je dáno zejména jednoduchostí jeho použití a snadnou interpretací výstupů. Jednoduchá aplikovatelnost Coxova modelu je však dvojsečná, neboť v případě použití tohoto modelu na data nesplňující jeho předpoklady mohou být výsledky zkreslené a jejich interpretace zavádějící. Tato kapitola je věnována definici Coxova modelu, základní metodice odhadu regresních koeficientů a interpretaci výsledků. Ověření předpokladů a vhodnosti Coxova modelu na reálná data se věnuje kapitola 10 s názvem Regresní diagnostika. 8.1 Úvod Coxův model je jakožto model proporcionálních rizik definován pomocí rizikové funkce. Pro i-tého pacienta lze jeho rizikovou funkci se zahrnutím vlivu nezávislých vysvětlujících proměnných vyjádřit ve tvaru, exp exp, (8.1) kde p je počet zahrnutých vysvětlujících proměnných, jejichž hodnoty jsou pro i-tý subjekt zaznamenány ve vektoru. Vektor je pak vektor příslušných regresních koeficientů a funkce představuje základní rizikovou funkci společnou pro všechny subjekty. Základní rizikovou funkci sice uvažujeme jako funkci času, nicméně její přesná podoba není v modelu specifikována. Důvodem tohoto kroku, který je velmi výhodný, neboť nás zbavuje nutnosti přesně specifikovat charakter dat přežití, je speciální postup odhadu regresních koeficientů modelu, který je nezávislý na konkrétní podobě. Vliv vysvětlujících proměnných na riziko výskytu sledované události je vyjádřen prostřednictvím jednotlivých regresních koeficientů, 1,,, které udávají změnu v riziku výskytu sledované události spojenou se změnou hodnoty vysvětlující proměnné k. Přesněji řečeno představuje hodnotu, o kterou se zvýší přirozený logaritmus rizikové funkce, pokud se hodnota k-té proměnné zvýší o jednu jednotku za předpokladu, že ostatní vysvětlující proměnné se nezmění. Kladné znaménko regresního koeficientu znamená, že riziko sledované události je větší u pacienta s vyšší hodnotou odpovídající vysvětlující proměnné. Naopak záporný koeficient nám říká, že má daná vysvětlující proměnná s vyšší

2 hodnotou protektivní účinek, tzn. riziko výskytu sledované události je nižší. Vztah a rizikové funkce lze pomocí exponenciální transformace vyjádřit jako exp,,,, 1,,,,,,. (8.2) V případě binární proměnné nabývající hodnot 0 a 1 tato hodnota vyjadřuje, kolikrát větší riziko výskytu sledované události má riziková skupina subjektů proti skupině referenční (za předpokladu, že jsou obě skupiny srovnatelné s ohledem na ostatní faktory). 8.2 Odhad regresních koeficientů Coxova modelu Pro odhad regresních koeficientů modelu navrhl David Cox tzv. metodu parciální věrohodnosti (partial likelihood method), která spočívá v tom, že místo standardní funkce věrohodnosti je maximalizována tzv. parciální věrohodnostní funkce (partial likelihood function). Parciální funkce věrohodnosti není závislá na specifikaci a závisí pouze na vektoru regresních koeficientů. Odvození je následující: uvažujme soubor n subjektů s m pozorovanými událostmi (m n). Je-li vektor vysvětlujících proměnných i-tého subjektu x i konstantní v čase, pak lze podmíněnou pravděpodobnost, že k výskytu sledované události v čase t i došlo mezi všemi subjekty v riziku právě u i-tého subjektu, vyjádřit pomocí vztahu,, exp exp exp exp, (8.3) kde je indikátor toho, zda je j-tý pacient v riziku sledované události v čase t i, tedy 1 pokud, 0 pokud. Ve výše uvedeném vztahu pro jednoduchost předpokládáme, že v každém čase t i se vyskytla pouze jedna událost. Za předpokladu, že pozorované časy sledovaných událostí jsou navzájem nezávislé, můžeme parciální věrohodnostní funkci sestrojit jako součin jednotlivých komponent přes všechny pozorované časy t i, tedy jako exp exp. (8.4) Výpočetně je jednodušší pracovat se součtem než se součinem, proto se pro odhad regresních koeficientů používá maximalizace přirozeného logaritmu parciální věrohodnostní funkce, který můžeme vyjádřit jako ln ln exp. (8.5)

3 Subjekty s cenzorovanými časy přežití přispívají k parciální věrohodnostní funkci pouze jako součást skupiny v riziku; příslušný odhad vektoru regresních koeficientů,, pak již získáme maximalizací funkce, tedy položením příslušných derivací podle až rovno nule a vyřešením příslušného systému p rovnic o p neznámých parametrech Skórový vektor a informační matice V souvislosti s logaritmem parciální funkce věrohodnosti definujeme dvě charakteristiky, které se dále využívají s testování hypotéz o regresních koeficientech až. První z nich je tzv. skórový vektor (score vector) U(β), jehož k-tý člen U k (β) je definován jako suma prvních derivací l i, tedy příspěvků logaritmu parciální věrohodnosti v čase t i, podle β k, tedy vztahem. (8.6) Druhou charakteristikou je tzv. informační matice (information matrix) I(β), matice o rozměru p p, která na pozici (k,l) obsahuje jako prvky zápornou hodnotu odpovídající parciální derivace druhého řádu, tedy. Tato matice úzce souvisí s kovarianční maticí maximálně věrohodného odhadu vektoru regresních koeficientů β, var, neboť platí var. (8.7) Interval spolehlivosti pro poměr rizik Odhad vektoru regresních koeficientů,, můžeme jednoznačně propojit s interpretací výsledků modelu, tedy s poměrem rizik, který byl definován v předchozí kapitole. Bodový odhad poměru rizik,, dvou pacientů, označme je i a j, získáme dosazením odhadu vektoru regresních koeficientů do vztahu (7.2): exp. (8.8) Hodnotíme-li vliv pouze jediné vysvětlující proměnné, tedy k = 1, která je navíc binární a tudíž nabývá pouze hodnot 0 a 1, pak poměr rizik jednoduše vyjadřuje vztah exp. Následně můžeme pro poměr rizik zkonstruovat i 100(1 α)% interval spolehlivosti s využitím 1 2 kvantilu standardizovaného normálního rozdělení ve tvaru exp, (8.9) kde SE značí standardní chybu odhadu, kterou lze získat pomocí varianční matice var definované vztahem (8.7).

4 8.3 Testy o regresních koeficientech Chceme-li rozhodnout, zda vysvětlující proměnná má či nemá statisticky významný vliv na dobu do sledované události, musíme se zaměřit na hodnotu odpovídajícího regresního koeficientu. Ve chvíli, kdy je tento koeficient nulový, ze vztahu (8.8) automaticky plyne, že poměr rizik odpovídající dané proměnné je 1, což znamená, že přítomnost této proměnné u pacienta neovlivňuje riziko výskytu sledované události. Pro test hypotézy o tom, zda je či není regresní koeficient pro k-tou vysvětlující proměnnou statisticky významný, lze nulovou hypotézu a odpovídající alternativní hypotézu zapsat jako : 0 : 0, (8.10) čemuž analogicky pro poměr rizik odpovídá nulová a alternativní hypotéza ve tvaru : 1 a : 1. Jednou z možností, jak získat informaci o významu dané proměnné a potažmo regresního koeficientu, je sestrojení 100(1 α)% intervalu spolehlivosti pro odhad regresního koeficientu odpovídajícího k-té proměnné, který má tvar. (8.11) V případě, že tento interval spolehlivosti zahrnuje hodnotu 0, jedná se o indikátor platnosti nulové hypotézy, kterou (samozřejmě pomocí odpovídajícího testu) nejspíše nezamítneme. Hlavním způsobem, jak lze určit statistickou významnost regresního koeficientu, je využití jednoho ze tří testů, které bývají standardně implementovány v dostupných statistických software. Před definicí jednotlivých testů o β k si kvůli jednoduššímu značení přeuspořádejme odhadnutý vektor regresních koeficientů jako,. Zmíněné testy jsou následující: Test pomocí poměru věrohodností (likelihood ratio test): tento test vyhodnocuje rozdíl přirozených logaritmů parciálních věrohodnostních funkcí, které odpovídají alternativní a nulové hypotéze. Testová statistika je definována vztahem 2ln, ln0,. (8.12) V prvním výrazu tedy kalkulujeme parciální věrohodnost vektoru, který byl odhadnut i s koeficientem β k, v druhém výrazu pak kalkulujeme parciální věrohodnost vektoru s položením koeficientu β k = 0. Testová statistika Q LR má asymptoticky chí-kvadrát rozdělení pravděpodobnosti s jedním stupněm volnosti (obecně lze zároveň testovat r regresních koeficientů současně, pak by měla testová statistika chí-kvadrát rozdělení s r stupni volnosti). Waldův test (Wald test) je založen na maximálně věrohodném odhadu první komponenty odhadnutého vektoru koeficientu, tedy. Testová statistika, Q W, je dána poměrem odhadu koeficientu a odpovídající standardní chyby, kterou lze opět získat jako odmocninu prvku varianční matice var definované vztahem (8.7). Q W tedy definujeme vztahem. (8.13)

5 Testová statistika Q W má v tomto případě standardizované normální rozdělení, obecně však můžeme Waldův test použít i pro testování r regresních koeficientů současně. Pak by testová statistika Q W měla složitější vyjádření a měla by chí-kvadrát rozdělení s r stupni volnosti. Skórový test (score test) vyhodnocuje derivaci logaritmu parciální věrohodnosti za platnosti nulové hypotézy (β k = 0) s ohledem na odmocninu pozorované informace dané druhou derivací tohoto logaritmu (opět v bodě β k = 0). Testová statistika Q S má tedy tvar. (8.14) Stejně jako v případě Waldova testu, i statistika Q S má v tomto případě standardizované normální rozdělení. Po zobecnění na testování r regresních koeficientů zároveň by opět statistika Q S měla chí-kvadrát rozdělení s r stupni volnosti. 8.4 Breslowův odhad základní rizikové funkce Kromě hodnocení vztahu mezi přežitím a vysvětlujícími proměnnými pomocí poměru rizik nám Coxův model umožňuje také odhadovat pravděpodobnost přežití, respektive pravděpodobnost výskytu sledované události v čase. Tento odhad je možný na základě znalosti hodnot vysvětlujících proměnných konkrétního subjektu, musíme však specifikovat základní rizikovou funkci, která je třeba pro úplnou specifikaci vzorce (8.1). Odhad rizikové funkce v čase pro subjekt s vektorem vysvětlujících proměnných x i pak vypadá následovně:, exp exp, (8.15) kde,, jsou maximálně věrohodné odhady regresních koeficientů a je vybraný odhad základní rizikové funkce. Nejznámější neparametrická metoda pro odhad základní rizikové funkce (resp. základní kumulativní rizikové funkce) je tzv. Breslowův odhad (Breslow estimate of baseline hazard). Indexujeme-li pacienty a jejich hodnoty vysvětlujících proměnných x i, 1,,, pak Breslowův odhad základního rizika v čase je dán vztahem exp, (8.16) kde je počet událostí, které nastaly v čase, a je indikátor toho, zda je i-tý pacient v riziku sledované události v čase t j, tedy 1 pokud, 0 pokud. Počítáme-li jako časy přežití i časy cenzorované, pak Breslowův odhad základního rizika v čase nabývá nenulové hodnoty, je-li to čas výskytu sledované události, a v těch cenzorovaných je nulový. Ze vztahu (8.16) již můžeme odvodit vztah pro odhad základní kumulativní rizikové funkce

6 exp. (8.17) Odhad základní kumulativní rizikové funkce lze využít pro odhad základní funkce přežití S 0 (t), neboť platí exp. Odhad funkce přežití subjektu s vektorem vysvětlujících proměnných x i pak získáme pomocí vztahu,. (8.18) Doporučená literatura: 1. Marubini E, Valsecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London. 3. Hosmer DW, Lemeshow S, May S. Applied Survival Analysis: Regression Modeling of Time to Event Data, 2nd Edition. 2008, John Wiley & Sons, Chichester, United Kingdom.