8 Coxův model proporcionálních rizik I

Podobné dokumenty
7 Regresní modely v analýze přežití

2 Hlavní charakteristiky v analýze přežití

AVDAT Klasický lineární model, metoda nejmenších

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

4 Parametrické odhady

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

VŠB Technická univerzita Ostrava

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

4EK211 Základy ekonometrie

Jana Vránová, 3. lékařská fakulta, UK Praha

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Regresní analýza 1. Regresní analýza

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Odhad parametrů N(µ, σ 2 )

Regresní a korelační analýza

Přijímací zkouška na navazující magisterské studium 2017

4EK211 Základy ekonometrie

Testování statistických hypotéz

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

Jana Vránová, 3. lékařská fakulta UK

3 Bodové odhady a jejich vlastnosti

Klasická a robustní ortogonální regrese mezi složkami kompozice

Vlastnosti odhadů ukazatelů způsobilosti

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

15. T e s t o v á n í h y p o t é z

AVDAT Nelineární regresní model

15. T e s t o v á n í h y p o t é z

Ilustrační příklad odhadu LRM v SW Gretl

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Odhady Parametrů Lineární Regrese

Ing. Michael Rost, Ph.D.

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Bodové a intervalové odhady parametrů v regresním modelu

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

4EK211 Základy ekonometrie

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Přijímací zkouška na navazující magisterské studium 2014

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Stavový model a Kalmanův filtr

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Testování statistických hypotéz

Lineární a logistická regrese

VYSOKÁ ŠKOLA EKONOMICKÁ V PRAZE VYUŽITÍ LOGISTICKÉ REGRESE VE VÝZKUMU TRHU

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Pravděpodobnost a matematická statistika

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Cvičení 12: Binární logistická regrese

Úvodem Dříve les než stromy 3 Operace s maticemi

5. T e s t o v á n í h y p o t é z

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

KGG/STG Statistika pro geografy

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

LINEÁRNÍ REGRESE. Lineární regresní model

Tomáš Karel LS 2012/2013

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Regresní analýza. Eva Jarošová

Tomáš Karel LS 2012/2013

odpovídá jedna a jen jedna hodnota jiných

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

PRAVDĚPODOBNOST A STATISTIKA

Aplikovaná numerická matematika

pravděpodobnosti, popisné statistiky

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Přednáška X. Testování hypotéz o kvantitativních proměnných

Otázku, kterými body prochází větev implicitní funkce řeší následující věta.

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

PRAVDĚPODOBNOST A STATISTIKA

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Odhady - Sdružené rozdělení pravděpodobnosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testy. Pavel Provinský. 19. listopadu 2013

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování hypotéz o kvalitativních proměnných

Transkript:

8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná princip odhadu regresních koeficientů Coxova modelu pomocí metody parciální věrohodnosti 4. Student zná metody pro neparametrický odhad základní rizikové funkce Coxův model proporcionálních rizik je jednoznačně nejpoužívanějším modelem v analýze přežití, což je dáno zejména jednoduchostí jeho použití a snadnou interpretací výstupů. Jednoduchá aplikovatelnost Coxova modelu je však dvojsečná, neboť v případě použití tohoto modelu na data nesplňující jeho předpoklady mohou být výsledky zkreslené a jejich interpretace zavádějící. Tato kapitola je věnována definici Coxova modelu, základní metodice odhadu regresních koeficientů a interpretaci výsledků. Ověření předpokladů a vhodnosti Coxova modelu na reálná data se věnuje kapitola 10 s názvem Regresní diagnostika. 8.1 Úvod Coxův model je jakožto model proporcionálních rizik definován pomocí rizikové funkce. Pro i-tého pacienta lze jeho rizikovou funkci se zahrnutím vlivu nezávislých vysvětlujících proměnných vyjádřit ve tvaru, exp exp, (8.1) kde p je počet zahrnutých vysvětlujících proměnných, jejichž hodnoty jsou pro i-tý subjekt zaznamenány ve vektoru. Vektor je pak vektor příslušných regresních koeficientů a funkce představuje základní rizikovou funkci společnou pro všechny subjekty. Základní rizikovou funkci sice uvažujeme jako funkci času, nicméně její přesná podoba není v modelu specifikována. Důvodem tohoto kroku, který je velmi výhodný, neboť nás zbavuje nutnosti přesně specifikovat charakter dat přežití, je speciální postup odhadu regresních koeficientů modelu, který je nezávislý na konkrétní podobě. Vliv vysvětlujících proměnných na riziko výskytu sledované události je vyjádřen prostřednictvím jednotlivých regresních koeficientů, 1,,, které udávají změnu v riziku výskytu sledované události spojenou se změnou hodnoty vysvětlující proměnné k. Přesněji řečeno představuje hodnotu, o kterou se zvýší přirozený logaritmus rizikové funkce, pokud se hodnota k-té proměnné zvýší o jednu jednotku za předpokladu, že ostatní vysvětlující proměnné se nezmění. Kladné znaménko regresního koeficientu znamená, že riziko sledované události je větší u pacienta s vyšší hodnotou odpovídající vysvětlující proměnné. Naopak záporný koeficient nám říká, že má daná vysvětlující proměnná s vyšší

hodnotou protektivní účinek, tzn. riziko výskytu sledované události je nižší. Vztah a rizikové funkce lze pomocí exponenciální transformace vyjádřit jako exp,,,, 1,,,,,,. (8.2) V případě binární proměnné nabývající hodnot 0 a 1 tato hodnota vyjadřuje, kolikrát větší riziko výskytu sledované události má riziková skupina subjektů proti skupině referenční (za předpokladu, že jsou obě skupiny srovnatelné s ohledem na ostatní faktory). 8.2 Odhad regresních koeficientů Coxova modelu Pro odhad regresních koeficientů modelu navrhl David Cox tzv. metodu parciální věrohodnosti (partial likelihood method), která spočívá v tom, že místo standardní funkce věrohodnosti je maximalizována tzv. parciální věrohodnostní funkce (partial likelihood function). Parciální funkce věrohodnosti není závislá na specifikaci a závisí pouze na vektoru regresních koeficientů. Odvození je následující: uvažujme soubor n subjektů s m pozorovanými událostmi (m n). Je-li vektor vysvětlujících proměnných i-tého subjektu x i konstantní v čase, pak lze podmíněnou pravděpodobnost, že k výskytu sledované události v čase t i došlo mezi všemi subjekty v riziku právě u i-tého subjektu, vyjádřit pomocí vztahu,, exp exp exp exp, (8.3) kde je indikátor toho, zda je j-tý pacient v riziku sledované události v čase t i, tedy 1 pokud, 0 pokud. Ve výše uvedeném vztahu pro jednoduchost předpokládáme, že v každém čase t i se vyskytla pouze jedna událost. Za předpokladu, že pozorované časy sledovaných událostí jsou navzájem nezávislé, můžeme parciální věrohodnostní funkci sestrojit jako součin jednotlivých komponent přes všechny pozorované časy t i, tedy jako exp exp. (8.4) Výpočetně je jednodušší pracovat se součtem než se součinem, proto se pro odhad regresních koeficientů používá maximalizace přirozeného logaritmu parciální věrohodnostní funkce, který můžeme vyjádřit jako ln ln exp. (8.5)

Subjekty s cenzorovanými časy přežití přispívají k parciální věrohodnostní funkci pouze jako součást skupiny v riziku; příslušný odhad vektoru regresních koeficientů,, pak již získáme maximalizací funkce, tedy položením příslušných derivací podle až rovno nule a vyřešením příslušného systému p rovnic o p neznámých parametrech. 8.2.1 Skórový vektor a informační matice V souvislosti s logaritmem parciální funkce věrohodnosti definujeme dvě charakteristiky, které se dále využívají s testování hypotéz o regresních koeficientech až. První z nich je tzv. skórový vektor (score vector) U(β), jehož k-tý člen U k (β) je definován jako suma prvních derivací l i, tedy příspěvků logaritmu parciální věrohodnosti v čase t i, podle β k, tedy vztahem. (8.6) Druhou charakteristikou je tzv. informační matice (information matrix) I(β), matice o rozměru p p, která na pozici (k,l) obsahuje jako prvky zápornou hodnotu odpovídající parciální derivace druhého řádu, tedy. Tato matice úzce souvisí s kovarianční maticí maximálně věrohodného odhadu vektoru regresních koeficientů β, var, neboť platí var. (8.7) 8.2.2 Interval spolehlivosti pro poměr rizik Odhad vektoru regresních koeficientů,, můžeme jednoznačně propojit s interpretací výsledků modelu, tedy s poměrem rizik, který byl definován v předchozí kapitole. Bodový odhad poměru rizik,, dvou pacientů, označme je i a j, získáme dosazením odhadu vektoru regresních koeficientů do vztahu (7.2): exp. (8.8) Hodnotíme-li vliv pouze jediné vysvětlující proměnné, tedy k = 1, která je navíc binární a tudíž nabývá pouze hodnot 0 a 1, pak poměr rizik jednoduše vyjadřuje vztah exp. Následně můžeme pro poměr rizik zkonstruovat i 100(1 α)% interval spolehlivosti s využitím 1 2 kvantilu standardizovaného normálního rozdělení ve tvaru exp, (8.9) kde SE značí standardní chybu odhadu, kterou lze získat pomocí varianční matice var definované vztahem (8.7).

8.3 Testy o regresních koeficientech Chceme-li rozhodnout, zda vysvětlující proměnná má či nemá statisticky významný vliv na dobu do sledované události, musíme se zaměřit na hodnotu odpovídajícího regresního koeficientu. Ve chvíli, kdy je tento koeficient nulový, ze vztahu (8.8) automaticky plyne, že poměr rizik odpovídající dané proměnné je 1, což znamená, že přítomnost této proměnné u pacienta neovlivňuje riziko výskytu sledované události. Pro test hypotézy o tom, zda je či není regresní koeficient pro k-tou vysvětlující proměnnou statisticky významný, lze nulovou hypotézu a odpovídající alternativní hypotézu zapsat jako : 0 : 0, (8.10) čemuž analogicky pro poměr rizik odpovídá nulová a alternativní hypotéza ve tvaru : 1 a : 1. Jednou z možností, jak získat informaci o významu dané proměnné a potažmo regresního koeficientu, je sestrojení 100(1 α)% intervalu spolehlivosti pro odhad regresního koeficientu odpovídajícího k-té proměnné, který má tvar. (8.11) V případě, že tento interval spolehlivosti zahrnuje hodnotu 0, jedná se o indikátor platnosti nulové hypotézy, kterou (samozřejmě pomocí odpovídajícího testu) nejspíše nezamítneme. Hlavním způsobem, jak lze určit statistickou významnost regresního koeficientu, je využití jednoho ze tří testů, které bývají standardně implementovány v dostupných statistických software. Před definicí jednotlivých testů o β k si kvůli jednoduššímu značení přeuspořádejme odhadnutý vektor regresních koeficientů jako,. Zmíněné testy jsou následující: Test pomocí poměru věrohodností (likelihood ratio test): tento test vyhodnocuje rozdíl přirozených logaritmů parciálních věrohodnostních funkcí, které odpovídají alternativní a nulové hypotéze. Testová statistika je definována vztahem 2ln, ln0,. (8.12) V prvním výrazu tedy kalkulujeme parciální věrohodnost vektoru, který byl odhadnut i s koeficientem β k, v druhém výrazu pak kalkulujeme parciální věrohodnost vektoru s položením koeficientu β k = 0. Testová statistika Q LR má asymptoticky chí-kvadrát rozdělení pravděpodobnosti s jedním stupněm volnosti (obecně lze zároveň testovat r regresních koeficientů současně, pak by měla testová statistika chí-kvadrát rozdělení s r stupni volnosti). Waldův test (Wald test) je založen na maximálně věrohodném odhadu první komponenty odhadnutého vektoru koeficientu, tedy. Testová statistika, Q W, je dána poměrem odhadu koeficientu a odpovídající standardní chyby, kterou lze opět získat jako odmocninu prvku varianční matice var definované vztahem (8.7). Q W tedy definujeme vztahem. (8.13)

Testová statistika Q W má v tomto případě standardizované normální rozdělení, obecně však můžeme Waldův test použít i pro testování r regresních koeficientů současně. Pak by testová statistika Q W měla složitější vyjádření a měla by chí-kvadrát rozdělení s r stupni volnosti. Skórový test (score test) vyhodnocuje derivaci logaritmu parciální věrohodnosti za platnosti nulové hypotézy (β k = 0) s ohledem na odmocninu pozorované informace dané druhou derivací tohoto logaritmu (opět v bodě β k = 0). Testová statistika Q S má tedy tvar. (8.14) Stejně jako v případě Waldova testu, i statistika Q S má v tomto případě standardizované normální rozdělení. Po zobecnění na testování r regresních koeficientů zároveň by opět statistika Q S měla chí-kvadrát rozdělení s r stupni volnosti. 8.4 Breslowův odhad základní rizikové funkce Kromě hodnocení vztahu mezi přežitím a vysvětlujícími proměnnými pomocí poměru rizik nám Coxův model umožňuje také odhadovat pravděpodobnost přežití, respektive pravděpodobnost výskytu sledované události v čase. Tento odhad je možný na základě znalosti hodnot vysvětlujících proměnných konkrétního subjektu, musíme však specifikovat základní rizikovou funkci, která je třeba pro úplnou specifikaci vzorce (8.1). Odhad rizikové funkce v čase pro subjekt s vektorem vysvětlujících proměnných x i pak vypadá následovně:, exp exp, (8.15) kde,, jsou maximálně věrohodné odhady regresních koeficientů a je vybraný odhad základní rizikové funkce. Nejznámější neparametrická metoda pro odhad základní rizikové funkce (resp. základní kumulativní rizikové funkce) je tzv. Breslowův odhad (Breslow estimate of baseline hazard). Indexujeme-li pacienty a jejich hodnoty vysvětlujících proměnných x i, 1,,, pak Breslowův odhad základního rizika v čase je dán vztahem exp, (8.16) kde je počet událostí, které nastaly v čase, a je indikátor toho, zda je i-tý pacient v riziku sledované události v čase t j, tedy 1 pokud, 0 pokud. Počítáme-li jako časy přežití i časy cenzorované, pak Breslowův odhad základního rizika v čase nabývá nenulové hodnoty, je-li to čas výskytu sledované události, a v těch cenzorovaných je nulový. Ze vztahu (8.16) již můžeme odvodit vztah pro odhad základní kumulativní rizikové funkce

exp. (8.17) Odhad základní kumulativní rizikové funkce lze využít pro odhad základní funkce přežití S 0 (t), neboť platí exp. Odhad funkce přežití subjektu s vektorem vysvětlujících proměnných x i pak získáme pomocí vztahu,. (8.18) Doporučená literatura: 1. Marubini E, Valsecchi MG. Analysing Survival Data from Clinical Trials and Observational Studies. 1995, John Wiley & Sons, Chichester, United Kingdom. 2. Collet D. Modelling Survival Data in Medical Research. 2003, Chapman & Hall/CRC, London. 3. Hosmer DW, Lemeshow S, May S. Applied Survival Analysis: Regression Modeling of Time to Event Data, 2nd Edition. 2008, John Wiley & Sons, Chichester, United Kingdom.