Srovnatelnost skupin pacientů v observačních a klinických studiích Bakalářská práce



Podobné dokumenty
7 Regresní modely v analýze přežití

2 Hlavní charakteristiky v analýze přežití

8 Coxův model proporcionálních rizik I

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

VÝBĚR A JEHO REPREZENTATIVNOST

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

4 Parametrické odhady

Hodnocení a modelování populačních dat na příkladu epidemiologie vážných chorob: I. Analýza dat, princip predikcí.

Současné trendy v epidemiologii nádorů se zaměřením na Liberecký kraj

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

TULUNG - AVASTIN. Klinický registr pacientů s nemalobuněčným karcinomem plic. Stav registru k datu

CEBO: (Center for Evidence Based Oncology) Incidence Kostních příhod u nádorů prsu PROJEKT IKARUS. Neintervenční epidemiologická studie

Jednofaktorová analýza rozptylu

TULUNG - AVASTIN. Klinický registr pacientů s nemalobuněčným karcinomem plic. Stav registru k datu

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Jana Vránová, 3. lékařská fakulta, UK Praha

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Epidemiologické metody

Rozbor léčebné zátěže Thomayerovy nemocnice onkologickými pacienty a pilotní prezentace výsledků péče

Lékový registr ALIMTA

BRONCHOGENNÍ KARCINOM

KGG/STG Statistika pro geografy

Hodnocení populačního přežití pacientů diagnostikovaných s C20 v ČR Projekt Diagnóza C20 - vzdělávání, výzkum a lékařská praxe

CORECT - VECTIBIX. Klinický registr pacientů s metastatickým kolorektálním karcinomem. Stav registru k datu

Jana Vránová, 3. lékařská fakulta UK

Regresní a korelační analýza

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Epidemiologická onkologická data v ČR a jejich využití

Regresní a korelační analýza

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

AVDAT Klasický lineární model, metoda nejmenších

Počty pacientů v lékových registrech ČOS

TARCEVA klinický registr

analýzy dat v oboru Matematická biologie

Hodnocení segmentu centrové léčby z dat plátců zdravotní péče. Společné pracoviště ÚZIS ČR a IBA MU

TARCEVA klinický registr

Statistická teorie učení

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

10. Předpovídání - aplikace regresní úlohy

STATISTICKÉ ODHADY Odhady populačních charakteristik

Odhad parametrů N(µ, σ 2 )

Lékový registr ALIMTA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Oficiální výsledky Národního programu mamografického screeningu v roce 2016

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Léčebné predikce u karcinomu prsu pro rok 2013 chystané novinky

Odhady - Sdružené rozdělení pravděpodobnosti

Analýzy pro Kraj Vysočina

7. Rozdělení pravděpodobnosti ve statistice

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Analýzy pro Hlavní město Praha

Analýzy pro Zlínský kraj

Analýzy pro Plzeňský kraj

Analýzy pro Liberecký kraj

Analýzy pro Jihočeský kraj

Analýzy pro Středočeský kraj

Analýzy pro Olomoucký kraj

Analýzy pro Moravskoslezský kraj

R.A. Burger, 1 M.F. Brady, 2 J. Rhee, 3 M.A. Sovak, 3 H. Nguyen, 3 M.A. Bookman 4

ProGastrin-Releasing Peptide (ProGRP) u nemocných s malobuněčným karcinomem plic

Analýzy pro Karlovarský kraj

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Patologie a klasifikace karcinomu prostaty, Gleasonův systém. MUDr. Marek Grega. Ústav patologie a molekulární medicíny 2. LF UK a FN v Motole

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Úvod do analýzy rozptylu

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

NEMALOBUNĚČNÝ KARCINOM PLIC Nemalobuněčný karcinom (výskyt v %) Muži Ženy

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Hrudní chirurgie na Chirurgické klinice 1. LF a FTNsP a chirurgická léčba karcinomu plic

KOLOREKTÁLNÍ KARCINOM: VÝZVA PRO ZDRAVÝ ŽIVOTNÍ STYL, SCREENING A ORGANIZACI LÉČEBNÉ PÉČE

SPRÁVNÁ INTERPRETACE INDIKÁTORŮ KVALITY MAMOGRAFICKÉHO SCREENINGU. Májek, O., Svobodník, A., Klimeš, D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Registr Herceptin Karcinom prsu

Cvičení 12: Binární logistická regrese

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

CZ.1.07/1.5.00/

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

INDUKTIVNÍ STATISTIKA

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Mikromorfologická diagnostika bronchogenního karcinomu z pohledu pneumologické cytodiagnostiky

Nové predikce počtu pacientů

Biologická léčba karcinomu prsu. Prof. MUDr. Jitka Abrahámová, DrSc. Onkologická klinika 1.LF UK a TN KOC (NNB+VFN+TN)

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Normální (Gaussovo) rozdělení

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

AVDAT Nelineární regresní model

Induktivní statistika. z-skóry pravděpodobnost

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Analýza dat na PC I.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Registr Avastin Nemalobuněčný karcinom plic

Transkript:

MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA STUDIJNÍ PROGRAM: EXPERIMENTÁLNÍ BIOLOGIE Srovnatelnost skupin pacientů v observačních a klinických studiích Bakalářská práce Adéla Šenková VEDOUCÍ PRÁCE: RND RNDR. TOMÁŠ PAVLÍK, PH.D. BRNO 2013

Bibliografický záznam Autor: Název práce: Studijní program: Adéla Šenková Přírodovědecká fakulta, Masarykova univerzita Institut biostatistiky a analýz LF a PřF MU Centrum pro výzkum toxických látek v prostředí Srovnatelnost skupin pacientů v observačních a klinických studiích Experimentální biologie Studijní obor: Matematická biologie Vedoucí práce: RNDr. Tomáš Pavlík, Ph.D. Akademický rok: 2012/2013 Počet stran: 44 Klíčová slova: Analýza přežití; Observační studie; Cenzorování; Kaplanův-Meierův odhad funkce přežití; Coxův regresní model

Bibliographic Entry Author: Title of Thesis: Degree programme: Adéla Šenková Faculty of Science, Masaryk University Institute of Biostatistics and Analyses MU Research Centre for Toxic Compounds in the Environment Comparability of patient groups in observational and clinical studies Experimental Biology Field of Study: Computational Biology Supervisor: RNDr. Tomáš Pavlík, Ph.D. Academic Year: 2012/2013 Number of Pages: 44 Keyword: Survival analysis; Observational study; Censoring; Kaplan-Meier estimator; Cox regression model

Abstrakt Tato bakalářská práce se věnuje srovnatelnosti skupin pacientů v observačních a klinických studiích, neboť právě srovnatelnost skupin je zásadní pro korektní interpretaci výsledků. V observačních studiích, na rozdíl od klinických studií, není prováděna randomizace, tedy náhodné rozdělení pacientů do skupin, a proto mohou mít pacienti léčení různými postupy různé charakteristiky. Následné srovnání výsledků jejich léčby pomocí jednoduchých statistických metod může být zavádějící. Cílem této bakalářské práce je aplikace jednoduchých statistických metod a modelů na data z Národního onkologického registru a zjištění, zda jsou analýzy prováděné pomocí hodnocení přežití podle jedné proměnné reprezentativní a jejich výsledky srovnatelné nebo ne. K dosažení tohoto cíle používám Kaplanův-Meierův odhad funkce přežití a Coxův regresní model. Abstract This thesis is focused on comparability of patient groups in observational and clinical studies because comparability is essential for correct interpretation of study result. Unlike clinical studies, randomization cannot be used in observational studies that can lead to different characteristic in patients treated with different procedures. Thus, the comparison of treatment results with simple statistical methods may lead to confounding and bias. The aim of this thesis is to apply simple statistical methods and models on data from the Czech National Cancer Registry and to present, whether results gained from simple analysis with one variable are sufficient and comparable or not. The Kaplan-Meier estimator and Cox regression model were used to claim this aim.

Poděkování Na tomto místě bych chtěla poděkovat vedoucímu mé práce panu RNDr. Tomáši Pavlíkovi, Ph.D. za cenné rady při vypracovávání práce. Dále také děkuji všem, kteří mi umožnili studium na vysoké škole a byli mi v jeho průběhu oporou. Prohlášení Prohlašuji, že jsem svoji bakalářskou práci vypracovala samostatně s využitím informačních zdrojů, které jsou v práci citovány. Brno 21. května 2013 Adéla Šenková

Obsah 1. Úvod... 10 2. Klinické a observační studie... 11 2.1 Kohortová studie... 11 2.2 Studie případů a kontrol... 11 2.3 Průřezová studie... 12 3. Analýza přežití... 13 3.1 Cenzorování... 13 3.2 Funkce přežití... 14 3.3 Riziková funkce... 15 4. Kaplanův-Meierův odhad funkce přežití... 16 5. Coxův regresní model... 18 5.1 Věrohodnostní funkce... 19 5.2 Částečná věrohodnost... 20 5.3 Interpretace modelu... 21 5.4 Odhad základního rizika a pravděpodobnosti přežití... 22 6. Propensity skóre... 23 6.1 Logistická regrese... 23 7. Instrumentální proměnná... 25 8. Karcinom plic... 27 9. Aplikace na data... 33 9.1 Alimta... 34 9.1.1 Kaplanův-Meierův odhad... 34 9.1.2 Coxův model... 35 9.2 Tarceva... 38 9.2.1 Kaplanův-Meierův odhad... 38 9.2.2 Coxův model... 39 9.3 Diskuze... 41 10. Závěr... 43 11. Seznam literatury... 44 11.1 Internetové zdroje... 44 9

1. Úvod Klinické a observační studie jsou základem medicíny založené na důkazech. Podstatou medicíny založené na důkazech je moderní lékařské rozhodování, které spojuje nejlepší poznatky z klinického výzkumu, dále klinické zkušenosti lékaře a očekávání pacienta. Při vyhodnocení výsledků klinického výzkumu je většinou naším cílem srovnání dvou a více skupin pacientů, přičemž srovnatelnost srovnávaných skupin je považována za klíčovou, nicméně ne vždy je jí v dané studii věnována dostatečná pozornost. Hlavním cílem této práce je ověřit, zda jsou srovnávané skupiny pacientů stran hodnocení přežití srovnatelné nebo ne. Následným cílem je ukázat, zda jsou analýzy přežití prováděné pomocí hodnocení dle jedné proměnné reprezentativní nebo zdaje pohled na přežití dle jedné proměnné je nekorektní. V této práci používám jako zástupce jednorozměrné analýzy Kaplanův-Meierův odhad funkce přežití a dále Coxův regresní model, jakožto ukázku vícerozměrné analýzy. K aplikaci výše uvedených metod byla vybrána onkologická diagnóza karcinomu plic, což je jedno z nejčastějších onkologických onemocnění v České republice. Data použitá pro zpracování této práce pochází z Národního onkologického registru ČR a ke zpracování byla poskytnuta v anonymizované podobě Institutem biostatistiky a analýz. 10

2. Klinické a observační studie V medicíně rozlišujeme dva základní typy studií observační a klinické studie. V klinické studii výzkumník zjišťuje efekt expozice pomocí náhodného přiřazení experimentální a standardní léčby vybranému vzorku studijních subjektů. V observační studii může výzkumník pouze pozorovat efekt expozice, neovlivňuje její přiřazování studijním subjektům. Proto jsou observační studie mnohem více náchylné k problémům týkajícím se metodologických postupů. Existuje několik důvodů, proč nejsou všechny studie prováděny jako klinické. Základním problémem je zajištění etické stránky experimentů s humánními subjekty. Ty mohou být prováděny pouze za dodržení tří podmínek: 1. Všechny léčebné postupy jsou neškodné nebo pacientům přináší prospěch. 2. Standardní léčba daného onemocnění neexistuje a subjekty souhlasí s randomizací. 3. Výzkumník má možnost kontrolovat průběh randomizace a průběh dané léčebné metody. Pokud tyto podmínky nejsou splněny, považujeme léčbu za neetickou a upřednostňujeme observační studii. Dalším důvodem k použití observační studie je velká časová i finanční náročnost klinických studií. V observačních studiích se používají tři základní typy experimentů kohortové studie (kohort design), studie případů a kontrol (case-control design) a průřezové studie (cross sectional design). Kohortové a průřezové studie jsou prospektivní studie. To znamená, že data sbíráme průběžně se sledováním pacienta, nedíváme se zpět do zdravotnické dokumentace. Naproti tomu studie případů a kontrol je retrospektivní studie, kde vycházíme od onemocnění a vracíme se nazpět k jeho příčině, sledujeme zde předchozí výskyt potenciálních rizikových faktorů. 2.1 Kohortová studie V kohortové studii jsou vymezeny skupiny osob, takzvané kohorty. Ty jsou vymezovány na základě faktoru, o kterém se předpokládá, že by mohl souviset se sledovaným onemocněním. Zpravidla jsou definovány dvě skupiny, exponovaná a neexponovaná, která hraje roli skupiny kontrolní. V době zahájení studie nesmí být žádný hodnocený subjekt nakažen sledovanou nemocí. Obě kohorty jsou následně sledovány po určitou dobu a je porovnáván výskyt sledovaného onemocnění v obou skupinách. Existují dva typy kohortové studie uzavřená a otevřená. V uzavřené studii se zjistí konkrétní počet účastníků, kteří jsou v určitých časových intervalech sledováni a to až do stanoveného data ukončení studie. U otevřené studie je populace dynamická, lidé do studie přicházejí a odcházejí. 2.2 Studie případů a kontrol V této studii je porovnávána skupina případů, což je skupina osob se sledovaným onemocněním, se skupinou jedinců, kteří danou nemoc v době provádění studie nemají, s takzvanými kontrolami. Následně je sledován výskyt potenciálních rizikových faktorů pro danou nemoc v minulosti u obou skupin. Určení obou skupin, případů i kontrol, musí být provedeno precizně, například na základě histologického vyšetření. Je třeba také identifikovat další faktory, jako je například věk, které ovlivní výběr jedinců do skupiny. Nejobtížnější částí studie případů a kontrol je výběr kontrol. Cílem je vybrat jedince tak, 11

aby byli co nejvíce podobni případům až na skutečnost, že nejsou nakaženi sledovaným onemocněním. 2.3 Průřezová studie Tato studie sleduje výskyt onemocnění a výskyt rizikových faktorů ke stejnému časovému okamžiku. Průřezová studie nám umožňuje odhadnout procento nemocných a také procento osob s rizikovým faktorem. Dovoluje nám testovat vztah mezi výskytem rizikových faktorů a výskytem nemoci, avšak zpravidla bez možnosti určit, zda expozice předcházela nemoci či naopak. Je vhodná ke studiu časově nezávislých expozic, jako jsou genetické znaky či krevní skupiny. Výsledky asociační analýzy mezi expozicí a onemocněním u časově nezávislých expozic mohou být totiž interpretovány jako příčinné souvislosti. 12

3. Analýza přežití Analýza přežití se používá k popisu dat, která se týkají času přežití, čili času od vstupní události (počáteční bod) do výskytu sledované události (koncový bod), a jejich následné analýze. Vstupní událost může být například vstup jedince do studie, začátek léčby, narození, či začátek onemocnění. Za koncový bod považujeme například úmrtí jedince, návrat příznaků nemoci nebo uzdravení pacienta. Jako čas přežití budeme označovat dobu od vstupu jedince do studie do jeho úmrtí. 3.1 Cenzorování Na data přežití lze aplikovat mnoho analytických metod, ale pouze za předpokladu, že se sledovaná událost objeví u všech jedinců. Na konci sledování je však obvyklé, že se událost u několika lidí nevyskytla, a proto je skutečný čas přežití neznámý. Tento fenomén se nazývá cenzorování a může vzniknout následujícími způsoby: (a) do času uzavření studie se u pacienta neprojevila sledovaná událost, (b) pacient byl v průběhu studie ztracen ze sledování, (c) u pacienta se vyskytla jiná událost, která zabránila dalšímu sledování. Událost u jedince může nastat až po konci sledovaného období. Tato situace se nazývá cenzorování zprava. Cenzorování se může také objevit, pokud sledujeme přítomnost určitého stavu, u kterého nevíme, kdy začal. Toto nazýváme cenzorování zleva. Jako příklad vezmeme studii, která zkoumá návrat příznaků rakoviny po operativním odstranění primárního tumoru. Pacienti byli vyšetřeni tři měsíce po operaci. Data těch, u nichž již došlo k návratu onemocnění, jsou cenzorována zleva, protože skutečný čas do návratu nemoci byl kratší než ony tři měsíce. Dalším typem cenzorování je intervalové cenzorování. Jedinec je sledován jen v určitých okamžicích a ne v průběhu celé studie. Událost proto může nastat mezi jednotlivými kontrolami. Příkladem je sledování příznaků nemoci u pacientů při pravidelných lékařských prohlídkách. Při pozitivním nálezů může lékař konstatovat, že k projevu došlo někdy v období od poslední prohlídky, což mohlo být hned den po ní, ale také až v den pozitivního nálezu. Příklad cenzorování je uveden na obrázku 1. Vidíme zde studii, které se zúčastnili 4 pacienti. Písmeno A znamená, že pacient je v době ukončení studie naživu, D že zemřel a písmeno L značí, že pacient byl ztracen ze sledování. Cenzorování zprava vidíme u pacientů 1, 3 a 4. Pacienti 1 a 4 jsou na konci studie stále naživu, čili sledovaná událost (zde úmrtí) u nich do konce studie nenastala. Pacient 3 byl v průběhu studie ztracen ze sledování, proto neznáme jeho stav na konci studie. Nakonec máme pacienta 2, u kterého se vyskytla pozorovaná událost v době studie. Jedná se tedy o necenzorovaný čas přežití. V praxi se nejčastěji vyskytuje cenzorování zprava, proto nadále budeme popisovat metody hodnocení dat cenzorovaných zprava. 13

Obrázek 1: Příklad cenzorování 3.2 Funkce přežití Čas přežití jedince reprezentuje náhodná veličina T. Jelikož se jedná o čas, může nabývat pouze nezáporných hodnot. Písmenem t pak označíme konkrétní hodnotu náhodné veličiny T. Funkce přežití, standardně označovaná jako S(t), představuje pravděpodobnost, že jedinec přežije od času zahájení sledování do daného času t. Uvažujeme nezápornou náhodnou veličinu T spojitého typu představující dobu do výskytu události. Její distribuční funkce je definována jako ( )= ( < ) (3.1) a udává pravděpodobnost, že doba přežití jedince je menší než t, neboli pravděpodobnost, že jedinec v čase t už nežije (vyskytla se u něho sledovaná událost). Hustota pravděpodobnosti náhodné veličiny T, f(t), je pak definována jako ( )= ( ). (3.2) Funkce přežití udává pravděpodobnost, že doba přežití jedince je větší nebo rovna t, a je definována vztahem ( )= ( )=1 ( ). (3.3) Funkce přežití tedy udává pravděpodobnost, že jedinec bude v čase t naživu. Obecněji udává pravděpodobnost, že se v intervalu (0, t) sledovaná událost nevyskytne. Při spojitém rozdělení náhodné veličiny T je funkce přežití S(t) spojitá a ryze klesající. Vztah hustoty a funkce přežití lze popsat jako ( )= ( ). (3.4) 14

3.3 Riziková funkce Je-li distribuční funkce spojitá funkce s hustotou f(t), lze definovat rizikovou funkci h(t). Riziková funkce nám udává, jak se v čase mění míra rizika, že dojde ke sledované události. Jinak řečeno jde o okamžitou míru výskytu sledované události. S pomocí rizikové funkce tedy můžeme hodnotit, ve kterém časovém intervalu je riziko nastání události největší a ve kterém nejmenší. Vztah mezi funkcí přežití a rizikovou funkcí vypadá následovně h( )= log ( ). (3.5) Pointou vztahů mezi hustotou, funkcí přežití a rizikovou funkcí je, že pokud známe jednu z nich, lze zbývající jednoznačně dopočítat. Místo rizikové funkce se často používá tzv. kumulativní riziková funkce, kterou značíme H(t). Je definována jako ( )= h( ) = log ( ). (3.6) 15

4. Kaplanův-Meierův odhad funkce přežití Základním krokem v analýze dat popisujících dobu přežití je jejich prezentace, ať už grafická či numerická. K tomu slouží zejména metody pro odhad funkce přežití. Data mohou být popsána například neparametrickými metodami, které nevyžadují znalost pravděpodobnostního rozložení doby přežití. Mezi tyto metody patří také Kaplanův- Meierův odhad funkce přežití, což je neparametrická metoda, která poskytuje odhad funkce přežití v každém časovém úseku, ve kterém došlo ke sledované události. K sestrojení Kaplanova-Meierova odhadu funkce přežití nejprve rozdělíme dobu sledování do časových intervalů. Každý z těchto intervalů obsahuje alespoň jedno úmrtí, přičemž se čas úmrtí bere jako začátek jednotlivých intervalů. Obecně předpokládejme, že máme n jedinců, u kterých sledujeme časy přežití, které označíme jako t 1, t 2,, t n. Může se zde vyskytnout několik jedinců se stejnou dobou přežití, popřípadě u některých pozorování mohlo nastat cenzorování zprava. Předpokládejme tedy, že existuje r různých časů úmrtí mezi těmito jedinci, kde r je menši nebo rovno n. Doby přežití uspořádáme vzestupně, j-tý čas úmrtí označíme jako t j pro j = 1, 2,, r a dostáváme r uspořádaných časů úmrtí, t 1 < t 2 < < t r. Počet jedinců, kteří jsou naživu před časem t j, označíme n j pro j = 1, 2,, r. Počet jedinců, kteří zemřou v čase t j označíme d j pro j = 1, 2,, r. Máme tedy n j jedinců, kteří jsou naživu před časem t j, a d j úmrtí v čase t j. Pravděpodobnost, že jedinec zemře v daném časovém intervalu, lze odhadnout výrazem. (4.1) Odpovídající pravděpodobnost, že jedinec daný interval přežije, lze odhadnout jako. (4.2) Pravděpodobnost přežití v čase t j, tedy S(t j ), lze vypočítat pomocí pravděpodobnosti přežití v čase t j 1 a S(t j 1) následovně = 1. (4.3) Grafem funkce přežití odhadnuté Kaplanovou-Meierovou metodou je schodovitá funkce, kde mezi každými dvěma sousedními časy úmrtí je funkce konstantní a v jednotlivých časech úmrtí funkce klesá. 16

Tabulka 1: Data pro výpočet Kaplanova-Meierova odhadu funkce přežití Počet Čas přežití pacientů v Počet úmrtí Počet Kaplanova-Meierova funkce (týdny) cenzorování přežití, S(t) riziku 2 10 1 0 1*(1-1/10) = 0,9 3* 9 0 1 S(2)*(1-0/9) = 0,9 5 8 1 0 S(3)*(1-1/8) = 0,7875 7 7 1 0 S(5)*(1-1/7) = 0,675 9 6 1 0 S(7)*(1-1/6) = 0,5625 10* 5 0 1 S(9)*(1-0/5) = 0,5625 12 4 1 0 S(10)*(1-1/4) = 0,421875 14* 3 0 1 S(12)*(1-0/3) = 0,421875 15 2 1 0 S(14)*(1-1/2) = 0,2109375 18* 1 0 1 S(15)*(1-0/1) = 0,2109375 Tabulka 1 obsahuje záznam o deseti pacientech. V prvním sloupečku je uveden čas přežití v týdnech, kde cenzorované časy jsou označeny hvězdičkou. Počet pacientů, kteří jsou naživu těsně před časem události, je uveden v druhém sloupci. Například počet pacientů naživu těsně před časem 2 je 10 pacientů. Pravděpodobnost úmrtí pacienta v čase 2 je 1/10. Takže pravděpodobnost, že pacient do této doby přežije je 1 (1/10). Tyto údaje nám již dovolují provést Kaplanův-Meierův odhad funkce přežití, který je uveden v posledním sloupci. Graf této funkce je zobrazen na obrázku 2. Obrázek 2: Kaplanův-Meierův odhad funkce přežití 1,0 Funkce přežívání Ukončené Cenzorované 0,9 0,8 0,7 Podíl žijících pacientů 0,6 0,5 0,4 0,3 0,2 0,1 0,0 0 2 4 6 8 10 12 14 16 18 Čas přežívání (týdny) 17

5. Coxův regresní model V roce 1972 Cox představil regresní model, který se dnes široce používá v analýze cenzorovaných dat o přežití. Pokud se model používá k analýze pacientů v klinické studii, dovoluje nám odhadnout efekt léčby v přítomnosti dalších proměnných. Regrese se používá k vyjádření vztahu mezi dvěma či více proměnnými. Zjišťujeme vztah mezi závislými proměnnými (např. výška dětí) na základě vysvětlující proměnné (např. věk dítěte). Pokud máme více než jednu vysvětlující proměnnou (např. výška otce), používá se metoda násobné regrese. Coxova metoda je podobná vícenásobné regresi, ale závislou proměnnou je riziková funkce. Coxův model je statistická metoda, pomocí které zjišťujeme vztah mezi přežitím pacienta a různými vysvětlujícími proměnnými. Poskytuje nám odhad efektu sledované proměnné na přežití po adjustaci na další vysvětlující proměnné. Výsledný model z Coxovy regresní analýzy lze sumarizovat rovnicí pro riziko výskytu sledované události v čase jako funkci vysvětlujících proměnných. Při interpretaci Coxova modelu hrají roli regresní koeficienty modelu. Pozitivní regresní koeficient odpovídající vysvětlující proměnné znamená, že riziko je v přítomnosti této proměnné větší, a proto je prognóza horší. Negativní regresní koeficient znamená lepší prognózu pro pacienta s výskytem dané proměnné. Nechť N je počet jedinců ve studii. Coxův model předpokládá, že riziková funkce pro výskyt sledované události pro jedince i s vektorem proměnných x i = (x 1i, x 2i,, x ki ) je ve tvaru (, )= ( ) exp( ), (5.1) pro i = 1,, N (Marubini a Valsecchi, 1995), kde λ 0 (t) je základní riziková funkce a koeficienty β jsou regresní koeficienty. Předpokládáme, že proměnné jsou v čase konstantní, což můžeme, pokud za proměnné považujeme léčbu, pohlaví či věk. Pomocí dvou výrazů ověříme, že riziko (5.1) závisí na čase i na proměnných: první výraz, λ 0 (t), je pouze funkce času, která je ponechána libovolná, ale stejná pro všechny subjekty; druhým výrazem je lineární prediktor, který závisí na proměnných jedince jen přes vektory β regresních koeficientů. Coxův model není plně parametrický, protože není zcela specifikována forma λ 0 (t). Tento model je ale semiparametrický, protože pracuje s parametry ve formě regresních koeficientů. Jednou ze základních vlastností Coxova modelu je, že poměr rizik není závislý na λ 0 (t): (, ) (, ) = ( ) exp( ) ( ) exp( ) =exp ( ). (5.2) To je důvod, proč se model (5.1) označuje jako regresní model proporcionálního rizika. Předpokládá, že riziko výskytu sledované události jakýchkoliv dvou jedinců je v čase proporcionální, což je dáno tím, že poměr (5.2) nezávisí na čase. Předpoklad proporcionálního rizika by měl být v případě použití Coxova modelu otestován. 18

Předpoklad proporcionálního rizika otestujeme nejjednodušeji tak, že porovnáváme dvě skupiny bez ostatních proměnných. Nejjednodušší zkouškou je vykreslit si dohromady Kaplanovy-Meierovy křivky. Předpoklad proporcionálního rizika je porušen, pokud se tyto křivky překříží. Pro malé soubory dat, kde může být velké množství chyb spojených s křivkou přežití, je možné, že se křivky budou křížit, i když splňují předpoklad proporcionálního rizika. Více sofistikovaná metoda pro ověření proporcionality je založená na komplementárním log-log grafu. Touto metodou získáme graf, kde proti sobě stojí logaritmus negativního logaritmu odhadované funkce přežití a logaritmus času přežití. Pokud je riziko proporcionální v rámci skupin, dostaneme paralelní křivky. Pokud vztah (5.1) převedeme na logaritmický, získáme ln (, ) ln (, )= ( ). (5.3) To nám ukazuje, že model předpokládá konstantní rozdíl mezi logaritmy rizik. Pokud v (5.2) vezmeme dva jedince, kteří mají vektor proměnných x a 0, poměr jejich rizik je (, ) (, ) = ( )exp ( ) =exp( ). ( ) (5.4) To nám ukazuje, že λ 0 (t) může být brána jako riziková funkce jedince, který má všechny proměnné rovné nule. Z tohoto důvodu je λ 0 (t) označována jako základní riziko (Marubini a Valsecchi, 1995). Druhým předpokladem Coxova modelu (5.1) je, že nezávislé proměnné ovlivňují riziko multiplikativním způsobem, jak je ukázáno v (5.2) a (5.4), nebo ekvivalentně, že nezávislé proměnné ovlivňují logaritmus rizika aditivním způsobem, ukázáno v (5.3). Cox dále navrhl metodu pro odhad koeficientů β, která je nezávislá na λ 0 (t). Tato metoda je založena na formulaci tzv. částečné věrohodnosti. 5.1 Věrohodnostní funkce Metoda maximální věrohodnosti je statistická metoda, která se používá pro odhad parametrů na základě pozorovaných dat. Nechť X je náhodná veličina, x = (x 1,, x n ) jsou její realizace a f(x, θ) je hustota pravděpodobnosti, kde θ je neznámý parametr. Pak funkci (, )= (,,, )= (, ) (5.5) nazýváme věrohodnostní funkce. Věrohodnostní funkce vyjadřuje, jak moc je pravděpodobné, že pozorovaná data pocházejí z rozdělení s hustotou f(x,θ) (Aldrich, 1997). Při použití metody maximální věrohodnosti pro odhad θ hledáme maximum věrohodnostní funkce L(x, θ) vzhledem k θ. Pomocí metody maximální věrohodnosti se snažíme najít hodnotu parametru, pro kterou nabývá věrohodnostní rovnice svého maxima. Při hledání tohoto maxima se častěji pracuje s logaritmem věrohodnostní funkce 19

log (, )=log (,,, )= log (, ). (5.6) Jestliže pro všechny možné hodnoty parametru θ existuje hodnota taková, že platí, (, ), (5.7) nazýváme maximálně věrohodným odhadem. Abychom mohli použít věrohodnostní funkci v analýze cenzorovaných dat přežití, musíme ji upravit. Je vhodné použít dvojici proměnných (t i, c i ), kde c je indikátor cenzorování a t doba přežití. Máme dva typy pacientů. Ty, u nichž je doba přežití úplná a ty, u nichž došlo k cenzorování. V prvním případě, kdy c i = 1, bude věrohodnostní funkce obsahovat pravděpodobnost výskytu sledované události tak, jak je uvedeno výše. Ve druhém případě, kdy c i = 0, vyjádříme věrohodnostní funkci pomocí hodnoty funkce přežití. Obecný tvar věrohodnostní funkce pro cenzorovaná data tedy je (, ),,(, ), = (, ) (, ), (5.8) kde θ je parametr zvoleného rozdělení pravděpodobnosti. 5.2 Částečná věrohodnost Předpokládejme, že máme datový soubor s n pozorováními a k odlišnými časy událostí. Nejprve tyto časy setřídíme, čímž dostaneme t 1 < t 2 < < t k, kde t i označuje čas selhání pro i-tého jedince. Pro cenzorovaná pozorování definujeme δ i, které bude rovno 0 pro případy cenzorované zprava a 1 pro necenzorované případy. Funkci částečné věrohodnosti získáme z podmíněné pravděpodobnosti selhání v čase t i, která je dána počtem případů v riziku selhání v čase t i. Ptáme se tedy, jaká je pravděpodobnost, že se událost objevila u i-tého jedince z rizikového vzorku o velikosti n, za podmínky, že událost nastala. Definujeme R(t i ) jako počet případů v riziku v čase t i, což je náš rizikový soubor. Potom pravděpodobnost, že j-tý případ selže v čase T i je dán = ( ) = ( ), (5.9) kde suma ve jmenovateli je součet přes všechny jedince v rizikovém souboru. Když vezmeme výsledek podmíněné pravděpodobnosti v (5.9), získáme tím funkci částečné věrohodnosti = ( ) (5.10) 20

s korespondující log-věrohodnostní funkcí log = log. ( ) (5.11) Maximalizováním log-věrohodnosti v (5.11) můžeme získat odhad koeficientů β. 5.3 Interpretace modelu Výsledný model z Coxovy regresní analýzy představuje rovnici pro riziko jako funkci vysvětlujících proměnných. Tabulka 2: Data pro Coxův regresní model Proměnná Regresní Standardní p- 95% IS pro poměr Poměr rizik koeficient chyba hodnota rizik Dolní Horní Věk 0.004 0.004 0.359 1.004 0.996 1.012 Pohlaví (0 = žena, -0.312 0.110 0.005 0.732 0.590 0.909 1 = muž) Histologie 0.001 Histologie (1) -0.033 0.234 0.887 0.967 0.612 1.530 Histologie (2) 0.446 0.204 0.029 1.562 1.048 2.330 Histologie (3) 0.569 0.154 0.001 1.766 1.306 2.387 Skupina (0 = kontrolní, 1 = léčená) -0.090 0.180 0.404 0.914 0.740 1.129 Výsledky Coxova modelu jsou ukázány v tabulce 2. Zajímá nás statistická významnost. Pokud interval spolehlivosti zahrnuje jedničku, výsledek není statisticky významný a p-hodnota přesáhne hodnotu 0,05. Statisticky nevýznamné proměnné bereme, jakoby neměly vliv na riziko. Pozitivní znaménko u regresního koeficientu znamená, že pro subjekty s větší hodnotou této proměnné je riziko větší, a proto prognóza horší. Z tabulky 2 vidíme, že histologie (2) a (3) jsou spojené s horším přežitím, zatímco mužské pohlaví je asociováno s lepším přežitím. Individuální regresní koeficient je interpretovatelný velmi jednoduše. Poznamenejme, že pacienti buď byli léčeni (zakódováno jako 1) nebo ne (zakódováno jako 0). Poměr rizik pro léčenou skupinu se vypočítá jako exp (-0,090) = 0,914. To znamená, že riziko pro léčené pacienty je o 9% nižší než pro referenční skupinu, tedy neléčené pacienty. Mezi přežitím nepředpokládáme rozdíl z toho důvodu, že p-hodnota 0,404 není statisticky významná a 95% interval spolehlivosti pro poměr rizik zahrnuje 1. Na závěr tedy řekneme, že neexistuje průkazný rozdíl v celkovém přežití mezi léčenými pacienty a těmi v kontrolní skupině. 21

5.4 Odhad základního rizika a pravděpodobnosti přežití Popis odhadnuté pravděpodobnosti přežití se často používá k prezentaci výsledků studie. Při použití Coxova modelu máme odhad regresních koeficientů. Dále ale potřebujeme odhadnout funkci základního rizika λ 0 (t), nebo ekvivalentně funkci kumulativního rizika Λ 0 (t). K odhadu Λ 0 (t) lze použít vztah navržený Breslowem (1974). Na základě předpokladu, že riziková funkce je konstantní mezi každým párem po sobě následujících pozorovaných časů přežití, Breslow odvodil maximálně věrohodný odhad Λ 0 (t). Dále předpokládal, že cenzorovaná pozorování, která se objeví mezi časy t (j) a t (j+1), jsou cenzorována v t (j) a t 0 = 0 je bráno jako počátek pozorování. Odhad λ 0 (t) v intervalu (t (j-1), t (j) ] je dán vztahem =, h exp ( ) (5.12) kde h j = t (j) t (j-1) je časový interval mezi dvěma po sobě následujícími časy přežití. Výraz pro je poměr mezi počtem událostí a váženým počtem člověko-časových jednotek v riziku sledované události, kde každý jedinec v souboru R j přispívá vahou exp (βx j ) pro časový interval h j. Hrubý odhad Λ 0 (t (j) ) Λ 0 (t (j-1) ) je h j. Sečtením takových hodnot přes všechny t (j) t získáme Breslowův odhad kumulativní základní rizikové funkce v čase t ( )=. exp ( ) ( ) (5.13) Odhad kumulativního základního rizika je schodovitá funkce (Marubini a Valsecchi, 1995). 22

6. Propensity skóre V roce 1938 Rosenbaum a Rubin definovali tzv. propensity skóre, což je podmíněná pravděpodobnost přiřazení určitého druhu léčby pacientovi na základě pozorovaných proměnných. Propensity skóre lze vnímat jako metodu vážení, protože v závislosti na něm je rozdělení základních měřených proměnných podobné mezi léčenými a neléčenými subjekty. To znamená, že v souboru subjektů se stejným propensity skóre bude rozdělení pozorovaných proměnných stejné mezi léčenými a neléčenými subjekty. Propensity skóre je metoda s cílem eliminovat zkreslení, což je hlavní problém u nerandomizovaných, zejména observačních studií. V observačních studiích se rozdělení proměnných mezi léčenými skupinami značně liší a metody založené na propensity skóre mají za cíl eliminovat tyto rozdíly. Tato metoda poskytuje jednoduchý výstup, který shrne všechny informace z vysvětlujících proměnných jako je vážnost choroby nebo úmrtnost. Předpokladem analýzy propensity skóre je, že můžeme provést objektivní porovnání výsledků léčby mezi subjekty s podobnými propensity skóre. Propensity skóre může být odhadnuto pro každý subjekt pomocí modelu logistické regrese, kde je léčba označena jako závislá proměnná. Při výpočtu je nejprve každému pacientovi přiděleno propensity skóre. Faktory, které pravděpodobně ovlivňují pouze výběr léčby, ale ne výsledek, by v odhadu propensity skóre neměly být zahrnuty. Metodicky lze použít čtyři postupy: 1. stratifikace, která rozdělí pacienty do homogenních podskupin na základě jejich propensity skóre; 2. párování, které v základě spáruje pacienty se stejným nebo skoro stejným propensity skóre v rámci léčebných ramen; 3. adjustace proměnných, kde je propensity skóre zahrnuto jako další proměnná, která se přidává k léčbě v regresním modelu; 4. přidělování vah, které přidělí pacientům různé váhy na základě jejich propensity skóre. Cílem všech těchto přístupů je vytvořit co nejpodobnější vzorky léčených a neléčených pacientů. 6.1 Logistická regrese Logistická regrese je metoda zabývající se problematikou odhadu pravděpodobnosti určitého jevu (závisle proměnné) na základě známých skutečností (nezávisle proměnné), které mohou ovlivnit výskyt jevu. Zjišťujeme závislost mezi dichotomickou veličinou Y, která nabývá hodnoty 0, pokud jev nenastal, nebo hodnoty 1, pokud jev nastal a v nejjednodušším případě jednou nezávislou veličinou X. Nechť p(x) značí podmíněnou pravděpodobnost výskytu sledovaného jevu při dané hodnotě veličiny X = x: (Zvárová a kol., 2003). ( =1 = )= ( ) (6.1) ( =0 = )=1 ( ) (6.2) 23