MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA Diplomová práce Brno 2018 Roberta Velichová
MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA STUDIJNÍ PROGRAM: EXPERIMENTÁLNÍ BIOLOGIE MODEL PRO PREDIKCI PROGRESE U MNOHOČETNÉHO MYELOMU Diplomová práce Roberta Velichová VEDOUCÍ PRÁCE: MGR. LUCIE BROŽOVÁ BRNO 2018
Bibliografický záznam Autorka: Bc. Roberta Velichová Přírodovědecká fakulta, Masarykova univerzita Institut biostatistiky a analýz Lékařské fakulty MU Centrum pro výzkum toxických látek v prostředí Název práce: Model pro predikci progrese u mnohočetného myelomu Studijní program: Studijní obor: Vedoucí práce: Experimentální biologie Matematická biologie Mgr. Lucie Brožová Akademický rok: 2017/2018 Počet stran: Klíčová slova: IX +?? + I Mnohočetný myelom; Joint frailty model; závislé pozorování; rekurentní události; kompetitivní události; analýza přežití pacientů
Bibliografický záznam Autorka: Bc. Roberta Velichová Prírodovedecká fakulta, Masarykova univerzita Inštitút bioštatistiky a analýz Lekárskej fakulty MU Centrum pre výskum toxických látok v prostredí Názov práce: Model predikcie progresie mnohopočetného myelómu Študijný program: Študijný odbor: Vedúca práce: Experimentálna biológia Matematická biológia Mgr. Lucie Brožová Akademický rok: 2017/2018 Počet strán: Kľúčové slová: IX +?? + I Mnohopočetný myelóm; Joint frailty model; závislé pozorovania; rekurentné udalosti; kompetitívne udalosti; analýza prežívania pacientov
Bibliographic Entry Author: Title of Thesis: Degree programme: Field of Study: Supervisor: Bc. Roberta Velichová Faculty of Science, Masaryk University Institute of Biostatistics and Analyses at the Faculty of Medicine MU Research Centre for Toxic Compounds in the Environment Model for prediction of progression in patients with multiple myeloma Experimental Biology Computational (Mathematical) Biology Mgr. Lucie Brožová Academic Year: 2017/2018 Number of Pages: Keyword: IX +?? + I Multiple myeloma; Joint frailty model; dependent observations; recurrent events; competitive events; survival analysis of patients
Abstrakt V této diplomové práci se věnujeme onemocnění mnohočetný myelom, jeho procesu progrese a léčbě. V rámci teoretické části práce jsou definovány základní charakteristiky pro diagnostiku mnohočetného myelomu a taktéž jsou uvedeny základní parametry, které jsou klíčové z hlediska průběhu onemocnění. V další části se věnujeme statistickým metodám, které dokážou pracovat s opakujícími se událostmi v čase a se dvěma různými událostmi v čase. Součástí praktické části práce je popis dat z registru monoklonálních gamapatií a výběr významných parametrů z hlediska průběhu onemocnění. Následně je aplikovaný proces odhadu chybějících hodnot parametrů a vytvořený výsledný Joint frailty model. Výsledky modelu slouží pro klasifikaci pacientů do čtyřech rizikových skupin zvlášť pro dvě události: relaps/progrese a úmrtí. Na závěr je přítomnost těchto rizikových skupin verifikována na testovacím souboru. Abstrakt V tejto diplomovej práci sa venujeme ochoreniu mnohopočetný myelóm, jeho procesu progresie a liečbe. V rámci teoretickej časti práce sú definované základné charakteristiky pre diagnostikovanie mnohopočetného myelómu a takisto sú uvedené základné parametre, ktoré sú kľúčové z hľadiska priebehu ochorenia. V ďalšej časti sa venujeme štatistickým metódam, ktoré dokážu pracovať s opakujúcimi sa udalosťami v čase a s dvomi rôznymi udalosťami v čase. Súčasťou praktickej časti práce je opis dát z registra monoklonálnych gamapatií a výber významných parametrov z hľadiska priebehu ochorenia. Následne je aplikovaný proces odhadu chýbajúcich hodnôt parametrov a vytvorený výsledný Joint frailty model. Výsledky modelu slúžia pre klasifikovanie pacientov do štyroch rizikových skupín zvlášť pre dve udalosti: relaps/progresia a úmrtie. Na záver je prítomnosť týchto rizikových skupín verifikovaná na testovacom súbore. Abstract In this diploma thesis we study a disease multiple myeloma, a process of its progression and a treatment of this disease. In the theoretical part of the thesis we define basic characteristics for the diagnosis of multiple myeloma and also parameters important for the course of the disease. In the next part we study statistical methods, which are able to process recurrent events in time and two different events in time. The practical part of the thesis includes a description of data from the register of monoclonal gammopathy and a selection of important parameters for the course of the disease. Afterwards, a process of estimation of missing values is applied and the final Joint frailty model is computed. Results of the model are used for a classification of patients into four risk groups specifically for two events: relaps/progression and death. In conclusion, presence of these risk groups is verified on a validation data set.
Poďakovanie Na tomto mieste by som chcela poďakovať vedúcej práce Mgr. Lucii Brožovej za cenné rady, ochotu a čas, ktorý mi venovala počas tvorby práce. Takisto by som sa rada poďakovala RNDr. Jiřímu Jarkovskému, Ph.D. za odborné konzultácie a cenné rady. Poďakovanie patrí aj Českej myelómovej skupine za poskytnutie dát a všetkým nemocničným centrám, ktoré sa zberu dát zúčastňujú. Veľmi ďakujem mojim rodičom za podporu a pomoc počas celého štúdia. Ďakujem aj mojim súrodencom a blízkym. V neposlednom rade patrí obrovské poďakovanie môjmu manželovi za pomoc vo všetkých oblastiach počas písania práce a počas celého štúdia. Prohlášení Prohlašuji, že jsem svoji diplomovou práci vypracovala samostatně s využitím informačních zdrojů, které jsou v práci citovány. Brno xx. prosince 2017 Jméno Příjmení
Institut biostatistiky a analýz spolupracuje na organizačním zajištění výuky studijního oboru Matematická biologie s Lékařskou a Přírodovědeckou fakultou Masarykovy univerzity a s Centrem pro výzkum toxických látek v prostředí Přírodovědecké fakulty MU.
Obsah OBSAH...1 ÚVOD...3 1. MNOHOPOČETNÝ MYELÓM...4 1.1. DIAGNOSTIKA...6 1.1.1. Molekulárna podstata...7 1.2. DEFINÍCIE ŠTÁDIÍ...9 1.2.1. Durie-Salmon skóre...9 1.2.2. Skóre podľa ECOG... 10 1.2.3. ISS skóre... 10 1.2.1. R-ISS skóre... 11 1.2.2. Skóre podľa IMWG... 11 1.3. LIEČBA... 12 2. METÓDY SPRACOVANIA... 15 2.1. SHARED FRAILTY MODEL... 15 2.2. JOINT FRAILTY MODEL... 16 2.2.1. Voľba rizikových funkcií modelu... 17 3. OPIS DÁTOVÉHO SÚBORU... 19 3.1. ČISTENIE DÁTOVÉHO SÚBORU... 20 3.2. ČASOVÁ ŠTRUKTÚRA DÁT... 23 4. PRÍPRAVA DÁT... 27 4.1. POUŽITÉ HARDVÉRY A SOFTVÉRY... 27 4.1.1. Hardvéry... 27 4.1.2. Softvéry... 27 4.2. ŠTRUKTÚRA DÁT VSTUPUJÚCICH DO MODELU... 28 4.3. VÝBER PARAMETROV... 29 4.4. VYČISTENIE DÁTOVÉHO SÚBORU OD CHÝBAJÚCICH HODNÔT... 33 4.5. ODHAD CHÝBAJÚCICH HODNÔT... 33 1
5. TVORBA MODELU A VÝSLEDKY... 38 5.1. ROZDELENIE DÁTOVÉHO SÚBORU... 38 5.2. IMPLEMENTÁCIA MODELU... 39 5.2.1. Parametre modelu... 40 5.3. JEDNOROZMERNÝ JOINT FRAILTY MODEL... 40 5.3.1. Porovnanie výsledkov s Coxovým regresným modelom... 41 5.4. VIACROZMERNÝ JOINT FRAILTY MODEL... 42 5.4.1. Demografické ukazovatele... 42 5.4.2. Klinické parametre... 43 5.4.3. Poskytnutá liečba... 43 5.5. RIZIKOVOSŤ PACIENTOV... 45 5.5.1. Rizikové skupiny... 46 5.6. VALIDÁCIA MODELU... 49 5.7. POROVNANIE VÝSLEDKOV Z TESTOVACIEHO A TRÉNOVACIEHO SÚBORU... 54 6. DISKUSIA... 56 ZÁVER... 57 ZOZNAM LITERATÚRY... 58 ZOZNAM INTERNETOVÝCH ZDROJOV... 63 ZOZNAM TABULIEK... 64 ZOZNAM OBRÁZKOV... 64 ZOZNAM SKRATIEK... 65 PRÍLOHY 2
Úvod Mnohopočetný myelóm je ojedinelé nádorové ochorenie, ktoré je doposiaľ nevyliečiteľné. Liečba sa sústreďuje iba na potlačenie ochorenia, avšak po nejakom čase sa pacientom opäť ochorenie vracia (relaps) prípadne priamo zhoršuje (progresia) a znova je cieľom dosiahnuť jeho potlačenie. Cieľom diplomovej práce je opis diagnostiky a priebehu ochorenia mnohopočetný myelóm, stanoviť rizikové faktory a proces jeho progresie s opätovnými návratmi. Následne, na základe prehľadu štatistických metód modelujúcich predikciu opakujúcich sa udalostí v čase, vytvoriť model predikcie pravdepodobnosti relapsu/progresie a úmrtia. Súčasťou praktickej časti práce je aj základný opis dát z registra monoklonálnych gamapatií. Práca sa sústreďuje aj na výber parametrov, ktoré sú asociované s úspešnosťou liečby či rizikom relapsu/progresie a úmrtia. V 1. kapitole sa venujeme základnému opisu ochorenia mnohopočetný myelóm, klinickým parametrom, na základe ktorých je pacientom diagnostikovaný a priebehu liečby. V 2. kapitole sa venujeme štatistickým metódam, ktoré modelujú opakujúce sa udalosti v čase a metódam, ktoré dokážu modelovať dve kompetitívne udalosti v čase rekurentné udalosti a terminálnu udalosť. Praktická časť začína 3. kapitolou, kde podrobne analyzujeme dátový súbor z registra monoklonálnych gamapatií a takisto sa venujeme procesu jeho čistenia. V rámci 4. kapitoly aplikujeme algoritmus odhadu chýbajúcich hodnôt v dátach a takisto stanovíme rizikové faktory, ktoré budeme v modeli hodnotiť. 5. kapitola podrobne opisuje tvorbu výsledného Joint frailty modelu, vytvorenie rizikového skóre pre pacientov a definíciu novovytvorených rizikových skupín. V závere kapitoly je model validovaný na testovacom súbore. V poslednej kapitole diskusii je predstavená praktická aplikácia modelu pre výpočet rizikovej skupiny fiktívneho pacienta. Výsledkom práce je model predikcie pravdepodobnosti relapsu/progresie ochorenia, či úmrtia pri zahájení novej línie liečby so zohľadnením klinických ukazovateľov pacientov a predošlého priebehu ochorenia. Na základe zostaveného modelu sme vytvorili rizikové skupiny pacientov, ktorých prítomnosť je otestovaná na nezávislom dátovom súbore. 3
1. Mnohopočetný myelóm Mnohopočetný myelóm alebo aj symptomatický mnohopočetný myelóm ( Multiple Myeloma ) (MM) sa zaraďuje medzi ochorenia, ktoré sa označujú ako monoklonálne gamapatie. Monoklonálne gamapatie sú skupinou veľmi heterogénnych ochorení, ktoré spôsobujú malígnu 1 transformáciu normálnych plazmatických buniek (Morgan et al., 2012). Dochádza k ich nekontrolovanej proliferácii (množeniu) a akumulácii (zhlukovaniu) v kostnej dreni, kde narúšajú produkciu normálnych krvných buniek. Obrázok č. 1 porovnáva histológiu zdravej a postihnutej kostnej drene. Zdravá kostná dreň Kostná dreň pri diagnóze MM Obrázok č. 1: Zdravá a postihnutá kostná dreň MM (URL 1) Plazmatické bunky sú finálnym vývojovým štádiom B lymfocytov (typ bielych krviniek), a ich hlavnou funkciou je produkcia protilátok proti cudzorodým látkam a toxínom (Adam et al., 2014). Pri diagnóze MM sú však tieto bunky abnormálne, čo zapríčiňuje produkciu monoklonálneho imunoglobulínu (M-Ig, paraproteín, M-proteín), ktorý sa dá detegovať v krvi alebo v moči (Šálek, 2008). Monoklonálny znamená, že je získaný z jednej klonálnej populácie plazmatických buniek (klonálne plazmocyty), ktorá produkuje rovnaký typ protilátky. Štrukturálne normálny imunoglobulín (Ig) sa skladá z malých podjednotiek, ktoré predstavujú ťažké a ľahké reťazce. Existuje päť typov ťažkých reťazcov (IgG, IgA, IgM, IgD, IgE) a dva typy ľahkých reťazcov kappa (κ) a lambda (λ). Množstvo reťazcov kappa sa pre zdravého človeka pohybuje od 3,3 do 19,4 mg/l (miligram na liter) a množstvo reťazcov lambda od 5,7 do 26,3 mg/l (Šumná et al., 2006). Pokiaľ nie sú ľahké reťazce viazané na ťažké, nazývajú sa voľné ľahké reťazce, ktoré sa nachádzajú v krvnom sére človeka a sú dôležitým indikátorom ochorenia. K posúdeniu závažnosti ochorenia je teda potrebné spraviť aj analýzu voľných ľahkých reťazcov imunoglobulínu. Hodnoty voľných ľahkých reťazcov FLC z anglického Free Light Chains sa najčastejšie vyjadrujú v pomere kappa/lambda a jeho hodnoty by sa v norme pre pacientov mali pohybovať v rozmedzí od 0,26 do 1,65 (Di Noto et al., 2014). Hodnoty mimo normu poukazujú na zvýšené riziko malígnej transformácie (URL 2). 1 zhubnosť nádorového tkaniva 4
Hodnoty ťažkých reťazcov by sa mali u dospelého človeka bez diagnózy MM pohybovať pre IgG pod 35 g/l (gram na liter) a pre IgA pod 20 g/l (Šálek, 2008). β 2 -mikroglobulín je homologický s ťažkými reťazcami M-proteínu a vyskytuje sa najmä na povrchu plazmatických buniek. Pri rozpade týchto buniek sa vylučuje do krvnej plazmy. Pri diagnóze MM sa teda vylučuje vo zvýšenej forme a jeho vysoká koncentrácia predstavuje zvýšené riziko pre pacientov. Normálne hodnoty v sére sa pohybujú v rozmedzí 1,0 2,4 mg/l a v moči 0 400 µg/l (mikrogram na liter) (Di Noto et al., 2014). Pri diagnóze mnohopočetného myelómu sa takisto stanovuje aj hladina CRP (C-reaktívny proteín), ktorého zvýšené množstvo oproti normálu (30 40 mg/l) signalizuje, že v tele prebieha zápal. Vysoké hodnoty množstva celkového proteínu v organizme môžu reflektovať, že sa v tele pacienta nachádza myelóm. Dôležitým faktorom je takisto množstvo albumínov (proteín krvnej plazmy) a trombocytov (krvné doštičky). Pri zhoršovaní ochorenia klesá množstvo albumínov oproti normálnemu stavu 35 53 g/l a takisto klesá aj množstvo trombocytov ktorých je normálne množstvo v rozmedzí 150 400 10⁹/l (Di Noto et al., 2014). Doplnkovým markerom pre hodnotenie zmeny stavu pacienta je takisto množstvo laktátdehydrogenázy LDH (Valík et al., 2008). Význam tohto parametra je informatívny pri posúdení medzi dvomi časovo odlíšenými odbermi, pričom jeho zvyšujúca sa hodnota indikuje progresiu ochorenia. U pacientov s mnohopočetným myelómom je významným faktorom aj prítomnosť extramedulárneho myelómu. Extramedulárny myelóm (EMM z anglického extramedullary multiple myeloma ) sa môže vyskytovať v akýchkoľvek mäkkých tkanivách a u pacientov dochádza aj k viacerým výskytom extramedulárnych ložisiek z plazmatických buniek mimo kostnú dreň. Medzi najčastejšie lokality patria koža, pečeň, obličky a centrálna nervová sústava (Bladé et al., 2012). Mnohopočetný myelóm je vo väčšine prípadov dôsledkom progresie menej závažných štádií monoklonálnych gamapatií (KYLE et al., 2011). Monoklonálne gamapatie, ktoré sú prekanceróznymi štádiami MM sa delia na monoklonálnu gamapatiu nejasného významu MGUS ( Monoclonal Gammopathy of Undetermined Significance ) a asymptomatický mnohopočetný myelóm SMM ( Smouldering (asymptomatic) Multiple Myeloma ). Tabuľka č. 1 znázorňuje diagnostické kritériá pre jednotlivé štádiá MGUS, SMM a MM. MGUS je najmenej rizikové štádium a naopak MM je zase najrizikovejšie štádium, ktoré je ako jediné liečené (KYLE et al., 2011). Tabuľka č. 1: Diagnostické kritériá (Rajkumar et al., 2014) MGUS SMM MM prítomnosť monoklonálneho proteínu < 30 g/l prítomnosť monoklonálneho proteínu > 30 g/l prítomnosť monoklonálneho proteínu > 30 g/l a alebo alebo počet klonálnych plazmocytov v dreni < 10 % počet klonálnych plazmocytov v dreni 10 60 % počet klonálnych plazmocytov v dreni > 10 % a a a nie je prítomné poškodenie organizmu nie je prítomné poškodenie organizmu je prítomné poškodenie organizmu 5
Medzi klinické rizikové faktory progresie prekanceróznych štádií do MM patria: zvýšená koncentrácia M-Ig v sére abnormálne hodnoty FLC plazmatické bunky o vysoké percento infiltrácie kostnej drene o nízky pomer fenotypovo 2 normálnych a abnormálnych v kostnej dreni zvýšené množstvo vápniku znížené množstvo erytrocytov, hemoglobínu (anémia) znížené množstvo trombocytov (krvácavé prejavy) znížené množstvo leukocytov (náchylnosť k infekciám) (Klincová et al. 2011) 1.1. Diagnostika Pacientovi je MM diagnostikovaný, pokiaľ počet klonálnych plazmocytov v kostnej dreni presiahne 10 %, monoklonálneho proteínu je v sére viac ako 30 g/l a sú prítomné zjavné poškodenia organizmu (Goodman et al., 2003). Najčastejšie toto ochorenie vzniká progresiou z prekanceróznych štádií MGUS alebo SMM. Ochorenie postihuje najmä starších pacientov, ale prostredníctvom nových liekov a transplantácie kostnej drene im dnes vieme zabezpečiť dlhšie prežívanie. Medzi najčastejšie príznaky MM patria hyperkalcémia zvýšené množstvo vápniku (> 2,75 mmol/l milimol na liter), pokles funkcie obličiek (zvýšené množstvo kreatinínu 3 > 177 µmol/l mikromol na liter), anémia znížené množstvo hemoglobínu (< 10 g/dl gram na deciliter), poškodenie kostí (lytické kostné ložiská rakovinové nádory). Tieto príznaky sa označujú aj pod skratkou CRAB z anglického Calcium, Renal insufficiency, Anemia, Bone lesions (Goodman et al., 2003). Diagnostika prebieha buď prostredníctvom krvných testov, vyšetrením kostnej drene, alebo röntgenom zasiahnutých kostí. Príklad röntgenovej snímky zasiahnutej kosti pacienta pri diagnóze MM zobrazuje Obrázok č. 2. Obrázok č. 2: Röntgenová snímka stavcov pacienta s MM (URL 3) Pri diagnóze ochorenia je nasadená liečba v primoterapii, pričom cieľom je dosiahnuť remisiu ochorenia, a to čo najdlhšiu. Remisia je návrat k pôvodnému fungovaniu pacienta 2 vonkajšie znaky a vlastnosti 3 látka slúžiaca ako zdroj energie pre svaly; využíva sa na stanovenie množstva odpadových látok v moči 6
pred vypuknutím ochorenia. Jedná sa vlastne o dosiahnutie bezpríznakového obdobia. Predpokladá sa však, že ochorenie je stále prítomné, ale bez zjavných symptómov. Avšak po nejakej dobe sa následne môže ochorenie pacientovi opäť vrátiť relaps/progresia a vtedy je zahájená ďalšia línia liečby. Relaps ochorenia je nová aktivita ochorenia po liečbe u pacientov, pri ktorých bola predchádzajúcou liečbou dosiahnutá kompletná remisia ochorenia. Progresia ochorenia znamená novú aktivitu ochorenia po liečbe v prípade, že maximálna liečebná odpoveď bola horšia než kompletná remisia, ale lepšia než minimálna liečebná odpoveď. Ako progresiu označujeme aj stav, vyžadujúci liečbu skôr neliečenej asymptomatickej formy ochorenia (URL 4). Proces remisie a opätovného prepuknutia ochorenia sa môže aj niekoľko krát opakovať ako ilustruje Obrázok č. 3. Obrázok č. 3: Priebeh ochorenia MM (upravené z URL 4) Medián prežitia pacientov s MM je 4 až 5 rokov od diagnózy, pričom muži majú horšie prežívanie oproti ženám (Demitrovičová et al., 2013). Incidencia mnohopočetného myelómu v Českej republike za rok 2012 je 200 žien a 226 mužov. Vo vekovej kategórii 75 79 rokov je incidencia tejto choroby 15,57 na 100 000 obyvateľov celosvetovo. U mladých ľudí vo veku 20 40 rokov sa ochorenie vyskytuje len výnimočne. Prevalencia po piatich rokoch od stanovenia diagnózy v Českej republike za rok 2012 je 360 (ženy) a 425 (muži) (URL 5). 1.1.1. Molekulárna podstata U pacientov s mnohopočetným myelómom bolo preukázané, že má na priebeh ochorenia vysoký vplyv genetický faktor, konkrétne hyperdiploidný aj non-hyperdiploidný stav (Smadja et al., 1998). Spojitosť genetických faktorov s progresiou ochorenia boli skúmané a preukázané takisto vo Velichová, 2015. Hyperdiploidný stav je taký, kedy u jedinca dochádza k zmnoženiu viacerých chromozómov. Non-hyperdiploidný variant zahŕňa pacientov s hypodiploidným stavom (menej než 44 chromozómov), pseudodiploidným stavom (45 až 46 chromozómov) a tetraploidným stavom (viac než 75 chromozómov) (Fonseca et al., 2003). Ako najčastejšie sa u pacientov MM javia trizómie nepárnych chromozómov 3, 5, 7, 9, 11, 15, 17, 21. Hyperdiploidný stav sa vyskytuje v 35 50 % prípadov a vykazuje nízke percento výskytu štrukturálnych aberácií (odchýlka v štruktúre chromozómu). Výskyt prestavieb v lokuse 4 IgH (úsek molekuly DNA obsahujúcej daný gén) je menší ako 30 %. Je spojený s lepšou prognózou (Smadja et al., 1998). Naopak non-hyperdiploidný stav sa vyskytuje priemerne v 40 50 % prípadov. Častejšie sú prítomné monozómie a delécie 4 presný úsek molekuly DNA (chromozómu) obsahujúci gén 7
chromozómov 8, 13, 14, 22, X a výskyt prestavieb v lokuse IgH je okolo 70 % (Smadja et al., 1998). Delécie (straty): 13q14 gén RB1 Incidencia je okolo 40 60 %. Gén RB1 je tumor supresorový gén, ktorého produkt prb reguluje priebeh bunkového cyklu. Vo väčšine prípadov je prítomná monozómia celého chromozómu 13 (90 95 %), zatiaľ čo v ostatných prípadoch je detegovaná iba delécia v regióne 13q14 (Zojer et al., 2000). 1p32 Delécia v tejto oblasti je asociovaná so zhoršenou prognózou a progresiou ochorenia, ktorú ovplyvňuje strata expresie dvoch tumor supresorových génov CDKN2C a BAC RP11-278J17, ktorých lokusy sa nachádzajú v tejto oblasti (Leone et al., 2008). 17p13 gén TP53 Tumor supresorový gén TP53 je najčastejšie mutovaným génom pri malígnych ochoreniach. Zmeny v DNA sekvencii asociované s kancerogenézou 5 majú charakter mutácií vedúcich k zámene aminokyseliny v štruktúre proteínu p53. Tieto substitúcie umožňujú bunkám získavať vlastnosti vedúce k nádorovému ochoreniu (Leroy et al., 2013). Inzercia (zisk): 1q21 gén CKS1B Incidencia sa pohybuje okolo 40 %. Zvýšená expresia génu CKS1B môže spôsobovať prechod bunky z G1 fázy do S fázy bunkového cyklu, a tým bunkám poskytujú proliferačnú výhodu, ktorá prispieva k ich nádorovému fenotypu (Demchenko et al., 2010). Translokácia (premiestnenie): 14q32 gén IgH Lokus IgH obsahuje najmenej tri zosilňovače transkripcie, ktoré regulujú transkripciu tohto génu. V dôsledku reciprokej translokácie sú zosilňovače premiestnené na obidva postihnuté chromozómy a ovplyvňujú transkripciu prítomných onkogénov (Bergsagel et al., 1996). Tabuľka č. 2 znázorňuje najčastejšie translokácie oblasti 14q32 detegované v štádiu MM. Tabuľka č. 2: Najčastejšie translokácie v MM (Neben et al. 2012), (Fonseca et al., 2003) Translokácia t(11;14)(q13;q32) t(4;14)(p16;q32) t(14;16)(q32;q23) t(6;14)(p21;q32) Výskyt 20 % 10 15 % 5 % 4 5 % Zasiahnuté gény CCND1, MYEOV FGFR3, MMSET WWOX,MAF CCND3 5 proces zmien, ktoré vedú k premene zdravej bunky na bunku nádorovú 8
Vplyv na prognózu neutrálny nepriaznivý nepriaznivý skôr nepriaznivý 1.2. Definície štádií Pacientov, ktorým bol diagnostikovaný MM je potrebné stanoviť štádium mieru závažnosti ochorenia, aby im mohla byť poskytnutá adekvátna liečba. Existuje niekoľko rôznych klasifikácií. Najstarší typ klasifikácie ochorenia je podľa Durieho-Salmona založený na klinických ukazovateľoch. ECOG ( Eastern Cooperative Oncology Group ) zase všeobecne opisuje kvalitu života pacienta. Agresivitu ochorenia opisuje ISS ( International Staging System ). Medzi najnovšie skórovacie systémy patrí R-ISS ( Revised International Staging System ), ktorý je rozšírením ISS skórovania. Pomerne novým skórovacím systémom, ktorý hodnotí viaceré aspekty stavu pacienta je skóre podľa IMWG ( International Myeloma Working Group ). Všetky definície štádií podľa spomenutých skórovacích systémov sú podrobnejšie opísané v tejto kapitole nižšie. 1.2.1. Durie-Salmon skóre Skórovací systém podľa Durie a Salmon, 1975 rozdeľuje štádium ochorenia do základných 3 skupín a následne na ďalšie 2 subštádia. Prehľad definície štádií ukazuje Tabuľka č. 3. Durie-Salmon skórovanie je jedným z prvých definícií štádií mnohopočetného myelómu a v dnešnej dobe sa používa už iba v minimálnej miere. Avšak napriek tomu sa aj v súčasnosti pri zahájeniach línií liečob pacientov skóre uvádza. Tabuľka č. 3: Definícia štádií podľa Durie-Salmon skóre (Durie a Salmon, 1975) Štádium I II III A B Definícia koncentrácia hemoglobínu > 100 g/l a koncentrácia vápnika < 3 mmol/l a (bez lytického ložiska alebo normálna kostná štruktúra) a (koncentrácia monoklonálneho imunoglobulínu IgG < 50 g/l alebo koncentrácia monoklonálneho imunoglobulínu IgA < 30 g/l alebo exkrécia ľahkých reťazcov v moči < 4 g za 24 hodín) nie sú splnené podmienky ani prvého ani tretieho štádia (koncentrácia hemoglobínu < 85 g/l alebo koncentrácia vápnika > 3 mmol/l alebo pokročilé postihnutie skeletu s aspoň 3 lytickými ložiskami alebo zlomeniny) a (koncentrácia monoklonálneho imunoglobulínu IgG > 70 g/l alebo koncentrácia monoklonálneho imunoglobulínu IgA > 50 g/l alebo exkrécia ľahkých reťazcov v moči > 12 g za 24 hodín) Subklasifikácia koncentrácia kreatinínu < 177 µmol/l koncentrácia kreatinínu > 177 µmol/l alebo poškodenie funkcie obličiek 9
1.2.2. Skóre podľa ECOG Hodnotenie ECOG je založené na celkovej fyzickej aktivite postihnutého. Škála začína nulou, kde má pacient plnú fyzickú aktivitu bez akéhokoľvek obmedzenia. Hodnoty vychádzajú z Karnofského indexu, kde plná fyzická aktivita bez obmedzenia predstavuje 100 % a postupným zhoršovaním kondície po 10 % sa dostávame k 0 %, čo predstavuje úmrtie (Karnofsky a Burchenal, 1949). Presnú definíciu štádií podľa ECOG uvádza Tabuľka č. 4. Tabuľka č. 4: Definícia štádií podľa ECOG skóre (Karnofsky a Burchenal, 1949) Štádium 0 1 2 Definícia plno aktívny, schopný všetkých bežných aktivít bez obmedzenia alebo stav rovnaký ako pred príchodom ochorenia obmedzenie fyzicky náročných aktivít a schopný ľahšej práce (domáce práce, kancelárska práca) a iba ambulantná liečba 6 mimo lôžko viac než polovicu dňa a schopný starostlivosti o seba a neschopný práce a iba ambulantná liečba 3 na lôžku viac než polovicu dňa a pri starostlivosti o seba nutná pomoc 4 počas celého dňa na lôžku a výrazná potreba pomoci 5 úmrtie 1.2.3. ISS skóre Štádium ISS 1 je pacientovi diagnostikované pokiaľ je množstvo β 2 -mikroglobulínu menej ako 3,5 mg/dl (miligram na deciliter) a množstvo albumínov je aspoň 3,5 g/dl (gram na deciliter). Štádium 3 je diagnostikované pokiaľ je množstvo β 2 -mikroglobulínu 5,5 mg/l alebo viac. Štádium 2 je určené v prípade, že hodnoty nevyhovujú ani jednej z predchádzajúcich možností (Greipp et al., 2005). Tabuľka č. 5 znázorňuje prehľad definície štádií podľa ISS skóre. Tabuľka č. 5: Definícia štádií podľa ISS skóre (Greipp et al., 2005) Štádium Definícia 1 koncentrácia β 2 -mikroglobulínu < 3,5 mg/dl a koncentrácia albumínov 3,5 g/dl 2 ani štádium ISS 1 a ani štádium ISS 2 3 β 2 -mikroglobulínu 5,5 mg/l 6 liečba bez vyčlenenia pacienta z pôvodného prostredia 10
1.2.1. R-ISS skóre Skóre R-ISS je novým rozšírením predchádzajúceho ISS skóre. Štádium R-ISS I je diagnostikované, pokiaľ pacient spĺňa podmienky ISS I (množstvo β 2 -mikroglobulínu < 3,5 mg/dl a množstvo albumínov 3,5 g/dl) a súčasne pacient nie je rizikový z hľadiska genetiky (pacient je rizikový z hľadiska genetiky pokiaľ má abnormality: deléciu del(17p) alebo translokáciu t(4;14) alebo translokáciu t(14;16)), a súčasne je hladina LDH nižšia alebo rovná predchádzajúcim meraniam pacienta, prípadne štandardným hodnotám zisteným v laboratóriu. Štádium R-ISS III je zase diagnostikované pokiaľ pacient spĺňa podmienky štádia ISS 3 (množstvo β 2 -mikroglobulínu 5,5 mg/l) a súčasne je rizikový z hľadiska genetiky alebo má zvýšené hodnoty LDH. Štádium R-ISS II je určené v prípade, že hodnoty nevyhovujú ani jednej z predchádzajúcich možností (Palumbo et al., 2015a). Tabuľka č. 6 obsahuje prehľadovú definíciu štádií podľa R-ISS skóre. Tabuľka č. 6: Definícia štádií podľa R-ISS skóre (Palumbo et al., 2015a) Štádium 1 Definícia ISS štádium I a bez del(17p) a bez t(4;14) a bez t(14;16) a LDH predchádzajúcemu meraniu 2 ani štádium R-ISS 1 a ani štádium R-ISS 2 3 ISS štádium III a (del(17p) alebo t(4;14) alebo t(14;16) alebo LDH > predchádzajúcemu meraniu 1.2.2. Skóre podľa IMWG IMWG vyvinula robustný systém skórovania, frailty skóre alebo skóre krehkosti pre pacientov myelómu v rozsahu od 0 do 5. Skóre je založené na veku pacienta, komorbiditách pacienta (pridružený výskyt viacerých ťažkostí) a kognitívnej a fyzickej kondícii pacienta (Palumbo et al., 2015b). Kalkulačka so všetkými položkami pre výpočet hodnoty tohto skóre je verejne dostupná na URL 6. Výpočet spočíva na hodnotách troch ďalších subskóre. Prvým je Charlsonovo komorbiditné skóre, ktoré predpovedá 10-ročné prežívanie pacienta prostredníctvom zhodnotenia jeho klinického stavu (AIDS, cerebrovaskulárne ochorenie, chronické obštrukčné pľúcne ochorenie, zlyhanie srdca, ochorenie väzivového tkaniva, demencia, hemiparéza čiastočné ochrnutie, leukémia, malígny lymfóm, infarkt myokardu, ochorenie periférnych ciev, žalúdočné vredy, cukrovka, ochorenie pečene, ochorenie obličiek, malígny nádor) (Charlson et al., 1987). Ďalším skóre vstupujúcim do výpočtu je BADL ( Basic Activities of Daily Living ), ktoré hodnotí vykonávanie bežných denných aktivít človeka ako schopnosť samostatného kúpania sa, obliekania, návštevy toalety, pohybu, kontinencie, stravovania sa (Wallace et al., 2007). Posledným skóre vstupujúcim do výpočtu je IADL ( Instrumental Activities of Daily Living ), ktoré hodnotí vykonávanie obťažnejších denných aktivít ako schopnosť telefonovať, nakupovať, pripravovať stravu, vykonávať domáce práce, prať, 11
transportovať sa, zodpovednosť za užívanie liekov a spravovanie financií (Lawton, 1971). Prostredníctvom týchto troch skórovacích systémov tak získame výsledné zlúčené skóre pacienta. Základné tri kategórie IMWG skóre rozdeľujú pacientov do skupín: fit teda jadrný skóre 0, inter-mediate fitness teda stredné fitnes (zdatnosť jedinca) skóre 1. Vyššie skóre spadá do kategórie frail teda krehký. Skóre slúži najmä na predikciu úmrtnosti a rizika toxicity liečby u starších pacientov. Na základe hodnôt skóre sa následne môže rozhodovať o nastavení ďalšej liečby pacientov (Palumbo et al., 2015b). Tabuľka č. 7 zhŕňa definíciu štádií podľa IMWG skóre. Tabuľka č. 7: Definícia štádií podľa IMWG skóre (Palumbo et al., 2015b) Štádium fit jadrný inter-mediate fitness stredné fitnes frail krehký Definícia IMWG skóre 0 (podľa Charlsonovho komorbiditného skóre a BADL a IADL) IMWG skóre 1 (podľa Charlsonovho komorbiditného skóre a BADL a IADL) IMWG skóre 2 (podľa Charlsonovho komorbiditného skóre a BADL a IADL) 1.3. Liečba Liečba MM spočíva v dvoch smeroch: protinádorová liečba, ktorá sa snaží zničiť čo najväčšie množstvo nádorových buniek a podporná terapia, ktorej cieľom je liečba príznakov (napríklad bránenie odvápňovaniu kostí alebo lieky proti bolesti). Protinádorová liečba môže byť rádioterapia teda ožarovanie nádoru, alebo chemoterapia teda vpravovanie liečiv do organizmu. Liečivami môžu byť antibiotiká (usmrcovanie mikroorganizmov), virostatiká (účinok proti vírusom), antipyretiká (zníženie horúčky) alebo cytostatiká (liečba nádorov). Avšak iba cytostatiká sú lieky, ktoré zasahujú priamo do cyklu bunečného delenia a zabraňujú tak ďalšiemu množeniu abnormálnych buniek. Liečba mnohopočetného myelómu prebieha použitím cytostatík ako napríklad Lenalidomid, Bortezomib, Talidomid, Karfilzomib, Pomalidomid, Ixazomib, Daratumumab, Dexametazón, Prednison, Cyklofosfamid, Melfalán, Doxorubicín, Idarubicín, Vinkristín, Etoposid, Bendamustín a ďalšie. Pri liečbe vysokými dávkami liekov dochádza k zničeniu veľkého počtu zdravých buniek, a môže dôjsť k poškodeniu kostnej drene. Jednotlivé druhy liečby (chemoterapia a rádioterapia) sa môžu kombinovať, ale keďže pri obidvoch dochádza k zasiahnutiu veľkého množstva zdravých buniek, objavujú sa vedľajšie účinky liečby ako nefunkčnosť krvotvorby anémia, infekcie, poškodenie slizníc, bolesti, nechutenstvo. Dôležitým liečebným postupom je aj transplantácia kostnej drene, ktorá sa aplikuje predovšetkým v prvých fázach liečenia, avšak môže sa aplikovať aj opakovane. Pokiaľ to zdravotný stav pacienta umožňuje, je pacientom vždy poskytnutá transplantácia, pretože výrazne zlepšuje prežívanie pacientov. Avšak v niektorých prípadoch, ako napríklad starším pacientom alebo pacientom s nepriaznivými prognostickými charakteristikami, transplantácia kvôli riziku komplikácie nemôže byť poskytnutá. V poslednom kroku je indikovaná 12
rehabilitácia, teda podporné cvičenie určené na pozitívne ovplyvnenie stavu kostí a svalstva (Adam et al., 2014). Základným princípom liečby cytostatikami je aplikácia indukčného režimu, ktorý sa môže podávať vnútro žilne alebo mimo žilne. Indukčný režim je kombinácia účinných liekov, pričom v kombinácii môžu byť jedno až štyri liečivá. Pri výbere indukčného režimu je dôležité prihliadnuť na prognostické faktory. Zavedeným liečebným postupom je aj konsolidácia, teda zvýšenie hĺbky odpovedi pacienta, a následne udržiavacia liečba, ktorá má viesť k dlhodobej kontrole ochorenia. Pri pacientoch bez transplantácie je za najúčinnejší režim považovaná kombinácia BMP (Bortezomib, Melfalan, Prednison). Výhodou Bortezomibu je rýchly nástup účinku. Dostupnou alternatívou sú režimy s Talidomidom s mierne menšou účinnosťou, avšak s nižšími požiadavkami na spoluprácu pacienta (perorálny režim s relatívne nízkou hematologickou toxicitou). Dôležité je takisto definovať krehkých pacientov ( frailty patients ). Táto krehkosť je daná biologickým vekom, komorbiditami a celkovým klinickým stavom pacienta ako je definované v kapitole 1.2.2. Pre netransplantovaných krehkých pacientov sú odporučené nízko dávkované režimy s cieľom kontroly ochorenia. Pre ďalšie línie terapie môžeme zvoliť podľa typu relapsu iné liečivo (prevažne väčšina prípadov) alebo opakovať predchádzajúcu liečbu. Voľbu ovplyvňuje aj znášanlivosť úvodnej liečby (refraktilita), rozvoj prípadných dlhodobých nežiadúcich účinkov a takisto faktor cena/prínos. Pri súčasne dostupnom spektre liekov a liečebných postupov, avšak pri vedomí toho, že stále u väčšiny pacientov dochádza nevyhnutne k relapsu choroby, je potrebné už od začiatku plánovať celú liečbu a stratégiu aspoň troch liečebných línií. Kvôli často sa vyskytujúcim relapsom aj po dosiahnutí výborných liečebných výsledkov došlo k zavedeniu udržiavacej terapie pacientov. Aplikovanými liečivami je najčastejšie Talidomid alebo Lenalidomid (Kumar et al., 2017). Pri aplikovaní liečby je dôležité zaznamenať aj reakciu pacienta, aby sa dala vyhodnotiť úspešnosť poskytnutej liečby. Hodnotí sa teda liečebná odpoveď pacienta, a to prostredníctvom maximálnej dosiahnutej liečebnej odpovede počas liečby a finálnej liečebnej odpovede po ukončení liečby pacienta. Tabuľka č. 8 zobrazuje definície liečebných odpovedí pacientov podľa klinických ukazovateľov (AIHW, 2012). Pričom rozlišujeme 7 rôznych kategórií liečebnej odpovede stanovených na základe klinických ukazovateľov pacienta. Za najlepšiu liečebnú odpoveď sa považuje scr a naopak za najhoršiu zase PG, kedy už hovoríme o opätovnom návrate ochorenia. 13
Tabuľka č. 8: Typy liečebnej odpovede podľa klinických ukazovateľov Skratka Vysvetlenie Klinické ukazovatele scr stringent Complete Response kritéria CR a normálne hodnoty FLC a bez klonálnych plazmocytov CR Complete Response bez M-proteínu v krvi a < 5 % klonálnych plazmocytov VGPR Very Good Partial Response aspoň 90 % zníženie množstva M-proteínu v krvi PR MR Partial Remission Minimal Response aspoň 50 % zníženie množstva M-proteínu v krvi a viac ako 90 % zníženie množstva ľahkých reťazcov 25 % až 29 % zníženie množstva M-proteínu v krvi a 50 % až 89 % zníženie množstva ľahkých reťazcov SD Stable Disease menej ako 25 % zníženie M-proteínu v krvi PG ProGression rovnaké alebo zhoršené ukazovatele Takisto je dôležitým faktorom aj doba, počas ktorej bol pacient z hľadiska ochorenia v nezmenenom stave. Na toto zhodnotenie slúžia liečebné intervaly. Medzi základné hodnotené časové obdobia z hľadiska zmeny stavu pacienta zapríčinením ochorenia patria: OS Overall survival teda celkové prežívanie: čas od zahájenia liečby prípadne od diagnózy ochorenia do úmrtia alebo posledného sledovania pacienta TTP Time To Progression teda čas do progresie: čas od zahájenia liečby do progresie alebo posledného sledovania pacienta PFS Progression Free Survival teda prežívanie bez progresie: čas od zahájenia liečby do progresie alebo úmrtia alebo posledného sledovania pacienta DOR Duration Of Response teda doba do odpovede na liečbu: čas od zahájenia liečby do pacientovej odpovede na liečbu TTNT Time To Next Treatment teda čas do nasledujúcej liečby: čas od zahájenia jednej liečby do zahájenia ďalšej liečby alebo posledného sledovania pacienta Pričom pokiaľ je časový interval spočítaný ako rozdiel dátumu zahájenia línie liečby prípadne diagnózy ochorenia a dátumu posledného sledovania pacienta, hovoríme o cenzorovaných pacientoch, pretože u nich nenastala sledovaná udalosť (Kumar et al., 2017). 14
2. Metódy spracovania Dátový súbor, s ktorým pracujeme v rámci diplomovej práce obsahuje závislé pozorovania s rekurentnými udalosťami (udalosti opakujúce sa v čase). Pacientovi je diagnostikované ochorenie MM a následne je zahájená prvá línia liečby. Avšak po dosiahnutí remisie v prvej línie liečby sa ochorenie môže vrátiť, kedy je zahájená nová línia liečby, čo už predstavuje rekurentnú udalosť. Jeden pacient má teda v dátovom súbore viacero záznamov, a teda dáta nie sú nezávislé. Pre modelovanie korelovaných dát prežívania existujú Frailty modely. Princípom týchto modelov je, že pracujú s efektom náchylnosti predstavujúcim náhodný vplyv, ktorý nie je zachytený v dátach. Modely sú rozšírením Coxovho regresného modelu (Hanagal, 2015). Coxov regresný model proporcionálnych rizík, je model, ktorý pomocou príslušných charakteristík pacientov odhadne strednú hodnotu očakávanej doby prežitia u nového pacienta. 2.1. Shared frailty model Shared frailty modely alebo modely so zdieľanou náchylnosťou sa využívajú v prípadoch, kedy sú jednotlivé pozorovania roztriedené do skupín. Príkladom takejto skupiny sú opakujúce sa udalosti u pacienta, napríklad práve opätovné navrátenie ochorenia. Línia liečby (n-tá) predstavuje jednu skupinu, ktorá sa skladá zo všetkých pozorovaní pacientov, ktorí sa nachádzajú v príslušnej n-tej línii liečby. Predpokladom modelu je, že všetky pozorovania toho istého pacienta majú rovnakú náchylnosť. Pre i-tého pacienta (i = 1,..., G) a j-tú opakujúcu sa udalosť (j = 1,..., n i ) označme T ij čas do rekurentnej udalosti, C ij čas cenzorovania pacientov sprava a L ij čas začatia sledovania pacientov zľava. Pozorovanie Y ij je rovné minimu z hodnôt T ij a C ij a indikátor cenzorovania je. Čas opakujúcich sa udalostí pri tomto modeli môže byť orezaný zľava (už prebehla rekurencia pred časom štúdie) a takisto sprava cenzorovaný (pacient vypadol zo štúdie, napríklad úmrtie). Základná riziková funkcia 7 má tvar: (2.1), kde je základná riziková funkcia vychádzajúca z Coxovho regresného modelu, je vektor pozorovaní, β je vektor regresných koeficientov 8, je náhodný efekt prislúchajúci i-tej udalosti a t je čas (Rondeau et al., 2012). Náhodné efekty sú nezávislo na sebe rovnako rozložené z gamma rozdelenia so strednou hodnotou 1 a rozptylom. Potom je marginálna logaritmická vierohodnostná funkcia 9 modelu v tvare: 7 funkcia opisujúca rizikovosť subjektu z hľadiska nastátia udalosti 8 vyjadruje o koľko merných jednotiek sa zmení závislé premenná pri zmene nezávislej premennej o jednu mernú jednotku 9 výpočtová prediktívna funkcia modelu zostavená na základe pozorovaných parametrov 15
(2.2), kde = ( ), kumulatívna základná riziková funkcia je a počet rekurentných udalostí je (Klein, 1992). 2.2. Joint frailty model Pozorovania opakujúcich sa udalostí v čase môžu byť ukončené stratením zo sledovania, ukončením štúdie alebo úmrtím. Avšak terminálna udalosť úmrtie býva veľmi často korelovaná s opakujúcimi sa udalosťami v čase, a preto uvažovanie o úmrtí ako o neinformatívnom cenzorovaní nie je správne. Joint frailty model alebo model so združenou náchylnosťou umožňuje sledovať spojenie týchto dvoch udalostí (opakujúcej sa a terminálnej) v čase. Modeluje teda súčasne dva modely prežívania s tým, že úmrtie považuje za informatívne pozorovanie, respektíve kompetitívnu udalosť k rekurentnej udalosti (Rondeau et al., 2006). Uvažujme spoločnú zložku náchylnosti pre obidve udalosti predstavujúcu heterogenitu v dátach nepozorovateľnú zložku z dát. Opäť predpokladajme, že náhodné efekty sú nezávisle na sebe rovnako rozložené z gamma rozdelenia so strednou hodnotou 1 a rozptylom. Náchylnosť pre rekurentnú udalosť je a pre terminálnu udalosť je. Parametre a predstavujú závislosť náhodných efektov medzi procesom rekurentných udalostí T ij a terminálnym procesom. Pokiaľ je hodnota nulová, znamená to, že závislosť náhodných efektov T ij a je plne vysvetliteľná pozorovanými parametrami. Pokiaľ je nulová znamená to, že T ij a sú nezávislé a parameter je neinterpretovateľný. Keď sú však obidva parametre nenulové, potom predstavuje koreláciu medzi opakujúcimi sa udalosťami a terminálnou udalosťou pacienta. Pokiaľ je = 1, tak náhodný efekt je pre obidve udalosti rovnaký a pokiaľ je > 0, tak sú udalosti kladne korelované (Rondeau et al., 2016). To znamená, že efekt nepozorovateľný v dátach zosilňuje alebo zoslabuje riziko relapsu/progresie aj úmrtia. Závislosť medzi rekurentnými udalosťami však nevieme určiť (Mazroui et al., 2012). Pre j-tú udalosť (j = 1,..., n i ) i-tého pacienta (i = 1,..., G) označme T ij čas do rekurentnej udalosti, C i čas cenzorovania pacientov sprava, L i čas začatia sledovania pacientov zľava a D i čas do úmrtia. Pozorovanie Y ij je rovné minimu z hodnôt T ij, C i a D i, pričom indikátor cenzorovania je. Čas posledného sledovania je = min (C i, D i ) a modelu je v tvare: je indikátor úrmtia. Potom systém základných rizikových funkcií (2.3) 16
, kde (respektíve ) je základná riziková funkcia rekurentných udalostí (terminálnej udalosti), β 1 (respektíve β 2 ) sú regresné koeficienty asociované s pozorovaniami (respektíve ) a. Teda marginálna logaritmická vierohodnostná funkcia modelu je v tvare: (2.4), kde = ( ) pričom β = (β 1, β 2 ), a. Kumulatívna základná riziková funkcia je pre rekurentné udalosti a pre i-tého pacienta (Rondeau et al., 2012). 2.2.1. Voľba rizikových funkcií modelu pre terminálnu udalosť, respektíve je celkový počet rekurentných udalostí Joint frailty model pracuje s dvomi rizikovými funkciami, ktorých implementáciu v softvéri R budeme v rámci diplomovej práce používať. Model nám umožňuje pracovať s jedným alebo dvomi náhodnými efektami, ktoré odzrkadľujú náchylnosť pacientov nepozorovanú v dátach. Keďže liečba poskytnutá pacientom môže mať iný vplyv na riziko vzniku ďalšej rekurentnej udalosti ako na riziko úmrtia, budeme pracovať s dvomi náchylnosťami v rovniciach (Mazroui et al., 2012). Označme náchylnosť u i ako určujúcu závislosť medzi rekurentnými udalosťami a náchylnosť v i ako určujúcu závislosť medzi rekurentnými udalosťami a terminálnou udalosťou. Obdive tieto náchylnosti sú nezávislé a majú gama rozloženie podľa (2.5) (Mazroui et al., 2012): E(v i ) = E(u i ) = 1, var(v i ) = θ, var(u i ) = η (2.5), potom pre rekurentné udalosti pracujeme s rizikovou funkciou: (2.6) a pre terminálnu udalosť pracujeme s rizikovou funkciou: 17
(2.7), kde u i a v i sú náchylnosti i-tého pacienta, a sú základné rizikové funkcie vychádzajúce z Coxovho regresného modelu (Gellar et al., 2015), β 1 a β 2 sú regresné koeficienty a je vektor charakteristík i-tého pacienta v j-tej udalosti ( je vektor charakteristík pre i-tého pacienta v terminálnej udalosti). Rozptyl eta (η) predstavuje závislosť medzi rekurentnými udalosťami a rozptyl theta (θ) predstavuje závislosť medzi rekurentnými udalosťami a terminálnom udalosťou (úmrtím). Vysoké hodnoty η znamenajú, že rekurentné udalosti sú na sebe závislé. Naopak hodnoty blízke nule znamenajú, že tu nie je závislosť medzi rekurentnými udalosťami. Rovnako pre rozptyl θ znamená jeho vysoká hodnota koreláciu medzi rekurentnými udalosťami a terminálnou udalosťou a nulová hodnota značí že tu neexistuje závislosť medzi rekurenciami a terminálnou udalosťou (Król et al., 2017). Pokiaľ nebudeme pracovať s časom uplynulým od začiatku sledovania pacienta do zahájenia príslušnej línie a s časom uplynulým od začiatku sledovania pacienta do konca príslušnej línie, ale iba s časom medzi jednotlivými udalosťami, budú rizikové funkcie v tvare: úmrtie rekurentná udalosť (2.8), kde čas t predstavujúci čas od nastátia rekurentnej udalosti je nahradený časom predstavujúcim dobu od predchádzajúcej udalosti. Označme ako počet rekurentných udalostí pre i z intervalu (0, t], i = 1,, G. Je zrejmé, že kvôli cenzorovaniu nemôžeme pozorovať, ale pozorujeme iba, čo predstavuje pozorovaný počet rekurentných udalostí. teda predstavuje počet pozorovaných rekurentných udalostí do času t (mimo čas t). Finálne je čas nastátia poslednej pozorovanej rekurentnej udalosti pred časom t. Všimnime si tiež, že náchylnosti, vektory charakteristík a čas S ij = T ij T i(j - 1) sú na sebe nezávislé, pričom T i0 = 0 (Mazroui et al., 2012). Na základe týchto poznatkov môžeme konštatovať, že modelu pracujúcemu iba so sledovaním nezáleží na poradí línií ale iba ich dĺžke. Naopak výsledky modelu pracujúceho s časovom známkou môžeme naviac interpretovať tak, že nenulové hodnoty rozptylu η predstavujú, že čas medzi dvomi za sebou idúcimi rekurentnými udalosťami (relapsami/progresiami) závisí na čase medzi predchádzajúcimi rekurentnými udalosťami. Toto pozorovanie pri modeli iba s časom medzi rekurentnými udalosťami nie je možné usúdiť (Duchateau et al., 2003). Rizikové funkcie Joint frailty modelu sú odhadnuté prostredníctvom aproximácie polynomiálnymi funkciami, pričom ideálnym výsledkom je hladký priebeh týchto rizikových funkcií. 18
3. Opis dátového súboru Dátový súbor pochádza z registra monoklonálnych gamapatií (RMG) (URL 7). Tento register vznikol zásluhou Českej myelómovej skupiny CMG ( Czech Myeloma Group ) (Obrázok č. 4). Obrázok č. 4: Logo Českej myelómovej skupiny V rámci analýzy pracujeme s údajmi pochádzajúcimi zo zdravotných centier v Českej republike. Obrázok č. 5 znázorňuje zastúpenie pacientov zo 16 zúčastnených centier v dátovom súbore. Najviac pacientov bolo liečených vo Fakultnej nemocnici v Brne, potom v Prahe, Hradci Králové a Olomouci. Obrázok č. 5: Počet pacientov podľa centier Údaje obsahujú liečebné línie pacientov s rekurentnými udalosťami ochorenia mnohopočetného myelómu starších ako 18 rokov. Udalosť predstavuje zahájenie línie liečby pacienta s diagnózou MM. Pacientovi sa mohlo toto ochorenie viackrát vrátiť a jednotlivé línie liečby predstavujú rekurencie. Jedna línia liečby predstavuje jeden riadok v dátovom 19
súbore a keďže sa jeden pacient môže vyskytovať vo viacerých riadkoch (línie liečby) dáta nie sú nezávislé (Obrázok č. 6). Cieľom je pracovať s dátovým súborom na úrovni pacienta a nie na úrovni línie liečby. To znamená zohľadniť závislosť jednotlivých pozorovaní. Pacient Primoterapia 2. línia 3. línia n. línia Obrázok č. 6: Štruktúra dát Základné parametre v dátach sú demografické ukazovatele ako dátum narodenia, pohlavie a takisto genetické vyšetrenie pacientov. Ďalej sú v dátach klinické ukazovatele a to najprv získané pri diagnóze (tieto údaje sú rovnaké v každej liečebnej línii pacienta), a potom tieto isté klinické parametre získané pri zahájení príslušnej línie liečby (hodnoty sú v rámci línií liečob jedného pacienta unikátne) ako napríklad množstvo trombocytov, albumínov, hemoglobínu a mnohé ďalšie. Takisto je uvedené štádium ochorenia podľa troch rôznych klasifikácií (Durie-Salmon, ECOG, ISS). Ďalšími parametrami sú údaje o poskytnutej liečbe. Medzi najdôležitejšie patria druh podaného liečiva (Lenalidomid, Bortezomib, Talidomid, Imnovid, Karfilzomib, Dexamethason, Prednison, Bendamustin, Ixazomib,...), liečebný režim (špecifikuje kombinácie liečiv) a poskytnutie transplantácie. Takisto v dátach nechýba uvedená liečebná odpoveď na poskytnutú liečbu a toxicita liečby. V poslednom bode sú v dátach časové údaje dôležité z hľadiska sledovania pacientov a to okrem už spomenutého dátumu narodenia, dátum diagnózy, dátum zahájenia a ukončenia línie liečby, dátum genetického vyšetrenia, dátum poskytnutia transplantácie pokiaľ bola aplikovaná, dátum parciálnej a maximálnej odpovede na liečbu, dátum poslednej kontroly, dátum relapsu/progresie a prípadne dátum úmrtia. Dokopy teda skrátený export dát, s ktorým pracujeme v rámci diplomovej práce obsahuje 193 premenných, pričom podrobný opis všetkých parametrov je na stránke URL 8. 3.1. Čistenie dátového súboru Pôvodný dátový súbor obsahoval celkom 12 189 liečob, ktoré predstavovali 5 111 pacientov. V prvom bode čistenia údajov sme vyradili všetky duplicitné údaje (úplne zhodné riadky). V ďalšom bode sme sa zamerali na chýbajúce údaje bezprostredne dôležité pre vytvorenie modelu predikcie rizika relapsu/progresie a úmrtia a teda sme museli vyradiť 670 pacientov, ktorým chýbal dátum zahájenia a typ liečby. Následne sme vyradili pacientov, ktorí mali chybnú časovú sekvenciu dátumov, ako napríklad dátum zahájenia liečby skôr ako dátum diagnózy, alebo rozdiel dátumu narodenia a zahájenia liečby nižší ako 18 rokov. Museli sme takisto vyradiť nevalidované dáta, a to sú tie, ktoré sú staršie ako z mája 2007 (v tomto období boli zavedené aj nové lieky, ktoré môžu byť významným faktorom v dĺžke 20
prežívania pacientov). Nevalidované dáta predstavujú aj tie zo slovenských centier, kde nie je zaručená kvalita dát. Posledným bodom čistenia súboru údajov je vyradenie línií liečob, kde nie je uvedené ich poradie, a takisto vyradenie posledných línií, ktorých dĺžka je nulová (aktuálne zahájené línie liečby v čase exportu dát). Informácia, že nová línia bola zahájená je v predchádzajúcej línii liečby, takže by nám tieto línie nepriniesli novú informáciu. Z dátového súboru sme vyradili aj pacientov, ktorým chýbala línia liečby (napr. pacient mal v dátach uvedenú iba 1. a 3. líniu liečby), pretože u nich nevieme koľko línií liečby naozaj podstúpili a či sú dáta k jednotlivým líniám liečby zadané správne. Na záver v kapitole 4.4 vyradíme z dátového súboru pacientov s vyplnenosťou kľúčových parametrov menej ako 50 % z dôvodu imputácie chýbajúcich hodnôt. Po základnom vyčistení dátového súboru sme museli zvážiť, či pacientov, ktorí majú iba jednu líniu liečby primoterapiu v dátach ponechať, alebo vyradiť. Cieľom diplomovej práce je vytvorenie modelu predikcie pravdepodobnosti relapsu/progresie ochorenia, či úmrtia pri zahájení novej línie liečby so zohľadnením klinických ukazovateľov pacientov a predošlého priebehu ochorenia. Na základe výsledkov modelu by teda nemalo byť stanovené riziko pre pacientov, ktorí nemali žiadnu rekurenciu, pretože títo pacienti nemajú žiadnu históriu ochorenia. Pre túto skupinu by bol z hľadiska interpretácie výsledkov vhodnejší jednorozmerný model, prípadne model zostavený iba z primoterapií pacientov, a nie Joint frailty model, ktorý je vytvorený v rámci práce. Keďže výsledky modelu by sme nemali interpretovať pre pacientov iba s primoterapiou, vzniká otázka, či by sme týchto pacientov iba s primoterapiou vôbec mali zahrnúť do modelu. Pacienti, ktorí zomreli v primoterapii ovplyvňujú rizikovú funkciu úmrtia, ale takmer vôbec nezasahujú do rizikovej funkcie rekurencií. Existujú pacienti, ktorí zomreli v primoterapii, a títo môžu mať nejakú štatisticky významnú spoločnú charakteristiku oproti tým, ktorí primoterapiu prekonali. Existencia takejto charakteristiky by mohla výrazne ovplyvniť model, aj v prípade, že by nebola pozorovateľná v dátach. Samozrejme rovnaká charakteristika môže zohrať úlohu aj pri prekonaní druhej, tretej, až n-tej línie. Ideálne by teda bolo vytvoriť zvlášť model pre riziko každej n-tej rekurencie a úmrtia so zahrnutím iba pacientov, ktorí mali práve príslušný počet línií. Avšak to už by bolo na hrane efektívnosti a možnosti dátového súboru. Rozdiel medzi pacientami, ktorí prekonali, a ktorí neprekonali rekurenciu môže byť intuitívne výraznejší, a hlavne je takýchto pacientov najviac. Preto je vhodné zvážiť zahrnutie týchto pacientov v ďalšej analýze. Počet všetkých pacientov je 2 965, z toho 1 560 (52,6 %) je takých, ktorí majú iba primoterapiu. Pri prevedení na línie liečby, je počet všetkých línií 5 654 a línií iba pacientov v primoterapii 1 560 (27,6 %) tieto hodnoty sú už priaznivejšie, ale podstatné je, že model pracuje na úrovni pacienta, nie línie. Najdôležitejší údaj z hľadiska ovplyvnenia výsledkov modelu je počet pacientov, ktorí zomreli v primoterapii, teda nedošlo a ani nedôjde k žiadnej rekurencii, a to je 532 pacientov (34,1 % z počtu pacientov, ktorí majú iba primoterapiu). Možným riešením by mohlo byť vyradenie iba pacientov, ktorí zomreli v primoterapii, ale tento postup by bol zavádzajúci, keďže nevieme či u pacientov, ktorí nezomreli v primoterapii ešte dôjde k rekurencii, alebo či ešte nenastane úmrtie v rámci primoterapie, lebo liečba je zatiaľ iba krátka a nie je ukončená. 21
Takisto by sme mohli zvoliť cestu výpočtu rizika zvlášť pre relaps/progresiu a úmrtie. Avšak v tomto prípade by sme nemohli hodnotiť vzťah medzi udalosťami a ani to, ktorá udalosť je rizikovejšia. Vyskúšaním aplikácie jednoduchého Joint frailty modelu zisťujeme, že výsledky modelov sa líšia. Jednorozmerný Joint frailty model vytvorený zvlášť pre dátový súbor so zahrnutím a bez zahrnutia pacientov iba s primoterapiou zobrazuje graficky Obrázok č. 7. Vysvetľujúcou premennou modelu je binárna premenná poskytnutie transplantácie s referenčnou skupinou bez poskytnutia. Získaný parameter modelu theta, ktorý predstavuje závislosť medzi rekurenciami je významnejší v modeli bez zahrnutia pacientov s primoterapiou. Takisto riziko úmrtia je vyššie v modeli so zahrnutím aj pacientov v primoterapii, ale aj riziko rekurencie je mierne vyššie z dôvodu prepojenia rizikových funkcií parametrom theta. V závere je teda zrejmé, že rozdiel medzi rizikom úmrtia a rekurencie je väčší pri zahrnutí pacientov v primoterapii, čo bol presne očakávaný výsledok. Úmrtie je rizikovejšie kvôli pacientom zomrelým už v primoterapii. Z grafickej interpretácie príkladu (Obrázok č. 7) môžeme vidieť, že základná funkcia prežívania má bez zahrnutia pacientov v primoterapii hladký priebeh pre obdive udalosti a krivky sa nekrížia. Zatiaľ čo pri zahrnutí týchto pacientov je riziko úmrtia zo začiatku väčšie ako riziko rekurencie toto predstavuje práve nemalé množstvo pacientov, ktorí zomreli v primoterapii, a následne sa krivky obrátia a priebeh rizika úmrtia je už lineárny s nejasným ubiehaním na konci, lebo je veľmi ovplyvnený skokom zo začiatku. V závere teda môžeme konštatovať, že vyradenie záleží na tom, či je cieľom modelovať priebeh ochorenia ako celok so všetkými možnosťami, ktoré prináša, alebo sa zameriame na pacientov, ktorí prekonajú prvý príchod ochorenia a opakovane sa im vrátilo. V rámci tejto práce sme pacientov iba s primoterapiou v dátach ponechali, pretože nechceme vyradiť cieľovú skupinu pacientov z hľadiska ochorenia práve pacienti v primoterapii majú najvyššiu šancu na úspešné potlačenie ochorenia na dlhú dobu. Zodpovedá to aj klinickej intuícii. Takisto by sme prišli o nemalé množstvo cenzorovaných dát, ktoré sú z hľadiska analýzy prežívania podstatnou súčasťou modelu. Prežívanie bez udalosti 100 % 80 % 60 % 40 % 20 % 0 % Bez pacientov iba s primoterapiou rekurencia úmrtie 0 20 40 60 80 100 Čas (mesiace) Prežívanie bez udalosti 100 % 80 % 60 % 40 % 20 % 0 % S pacientami iba s primoterapiou rekurencia úmrtie 0 20 40 60 80 100 Čas (mesiace) Obrázok č. 7: Jednorozmerný Joint frailty model pre transplantáciu 22
Finálne nám v dátovom súbore ostalo 5 654 liečob, ktoré predstavujú 2 965 pacientov. Priemerný počet línií na pacienta sú 3. Sumarizovaný priebeh vyradenia línií liečob predstavuje Obrázok č. 8. Obrázok č. 8: Čistenie dátového súboru 3.2. Časová štruktúra dát Pre predstavu časovej štruktúry dát uveďme fiktívny príklad pacienta, ktorý obsahuje situácie, ktoré v dátach môžu nastať (Obrázok č. 9). Na základe klinických parametrov a genetického vyšetrenie je pacientovi diagnostikovaný mnohopočetný myelóm. Po krátkej dobe je zahájená liečba v primoterapii (1. línia liečby), ktorá je po prebehnutí liečby ukončená, avšak ako zobrazuje Obrázok č. 9, nie vždy je tento dátum ukončenia liečby v dátach uvedený. Dátum zahájenia liečby je však uvedený vždy, lebo na základe jeho prítomnosti prebehlo čistenie dát. Po nejakej dobe môže následne dôjsť k relapsu/progresii ochorenia, ale tento údaj je opäť často chýbajúci v dátovom súbore. Línií liečby môže byť niekoľko (v dátach maximálne 12). Pri poslednej zaznamenanej línie liečby mohlo, ale nemuselo dôjsť k úmrtiu. V ďalšom bode je potrebné vybrať dobu sledovania pacienta, s ktorou pracuje model pre predikciu relapsu/progresie. Dátumy, ktoré sú dôležité z hľadiska sledovania môžeme rozdeliť na tie, ktoré pracujú s priebehom ochorenia (diagnóza a relapsy/progresie) a na tie, ktoré pracujú s priebehom liečby (zahájenia a ukončenia liečob). Pri vytvorení modelu sme teda uvažovali o 3 rôznych spôsoboch hodnotenia: 23
1. od diagnózy do relapsov/progresií 2. od zahájenia do ukončenia línie liečby 3. od zahájenia jednej línie liečby do zahájenia ďalšej V prvom a druhom spôsobe dochádza k problému mnohých chýbajúcich hodnôt. Museli by sme takúto hodnotu nahradiť dátumom zahájenia ďalšej línie liečby, čím by sme dospeli k nejednotnosti v dátach. Aj keď sa môže zdať, že prvý spôsob najlepšie odzrkadľuje priebeh ochorenia, a teda by bol najvhodnejší pre predikciu rizika relapsu/progresie musíme zvážiť aj to, že liečba je s relapsom/progresiou priamo asociovaná a podmienená. Preto je tretí spôsob hodnotenia sledovania dostatočný. Takisto odber klinických parametrov, ktoré vstupujú do modelu prebieha bezprostredne pred zahájením línie liečby, takže hodnoty najlepšie korešpondujú práve s týmto dátumom. V druhom spôsobe výpočtu sledovania zase oproti prvému pracujeme s priebehom liečby. Problém okrem chýbajúcich hodnôt nastáva aj v tom, že by v dátach existovalo časové obdobie, ktoré by vôbec nebolo v sledovaní (od ukončenia jednej do zahájenia ďalšej liečby). Po vyradení tohto obdobia (výpočtu sledovania podľa 2. spôsobu) z časovej línie by sme teda skrátili prežitie fiktívneho pacienta (Obrázok č. 9) od diagnózy do úmrtia o čas medzi ukončeniami liečby a zahájeniami liečby. Kvôli týmto dôvodom sa ako najreprezentatívnejší ako z hľadiska priebehu ochorenia, tak aj z hľadiska liečby pacienta javí 3. spôsob výpočtu sledovania, s ktorým budeme v diplomovej práci ďalej pracovať. Obrázok č. 9: Priebeh ochorenia fiktívneho pacienta Pre úplne pochopenie časovej štruktúry dát si predstavme aj to, ako dáta vznikajú. Povedzme, že pacient má nejakú liečbu, ktorá v istý časový bod skončí, odvtedy chodí iba na kontroly a to znamená, že sa vo všetkých predchádzajúcich líniách vrátane tejto prepisuje premenná udávajúca dátum posledného hodnotenia stavu pacienta. Rozdiel dátumu stanovenia diagnózy a tohoto dátumu teda predstavuje celkové prežívanie pacienta od prvého príchodu ochorenia. V Kaplanovom-Meierovom grafe (Obrázok č. 10) je zobrazená pravdepodobnosť úmrtia v čase od dátumu diagnózy. Os x predstavuje čas so začiatkom pri diagnostikovaní a os y predstavuje percentuálne zastúpenie pacientov, ktorí sa dožili príslušného času (Ragab et al., 2016). Pacienti sa dožívajú priemerne 58,6 mesiacov a medián prežívania pacientov je 54,5 mesiacov. 24
Obrázok č. 10: Kaplan-Meirov odhad rizikovej funkcie prežívania pacientov od diagnózy Po nejakej dobe však môže dôjsť k relapsu/progresii, a vtedy sa do poslednej liečby zapíše dátum relapsu/progresie. Následne dochádza k zahájeniu novej línie liečby, avšak tento čas sa môže líšiť medzi pacientami. Niekedy dochádza k zahájeniu novej línie liečby bezprostredne po ukončení predchádzajúcej liečby z dôvodu nedostatočnej odpovedi na liečbu. Pri vytváraní modelu však tento jav budeme takisto interpretovať ako udalosť relaps/progresia. Pre kontrolu sme ako jeden z parametrov modelu uvažovali premennú obsahujúcu informáciu o dôvode zahájenia liečby s kategóriami práve relaps/progresia a nedostatočná odpoveď. Obrázok č. 11 zobrazuje zastúpenie počtu línií pacientov vo finálnom dátovom súbore. Môžeme si všimnúť, že najväčší počet pacientov má záznam iba v primoterapii, zatiaľ čo s rastúcim počtom línií klesá počet pacientov. Tento trend v dátach je očakávaný, takisto ako fakt, že v primoterapii nastáva úmrtie pri najmenšom podiele pacientov, zatiaľ čo pri ostatných líniách postupne podiel úmrtí stúpa. V tretej a vyššej línií nastáva úmrtie u viac ako 50 percent pacientov. So vzrastajúcim počtom línií teda stúpa percentuálne množstvo úmrtí. 25
Obrázok č. 11: Počet záznamov v líniách 26
4. Príprava dát Pre vytvorenie modelu predikcie rizika relapsu/progresie a úmrtia sme si zvolili Joint frailty model. Tento model totiž ponúka možnosť použiť dve rozdielne rizikové funkcie, a to jednu pre opakujúce sa udalosti a jednu pre úmrtie. V našom prípade bude opakujúca sa udalosť predstavovať prechodné stavy relaps/progresiu a terminálna udalosť bude predstavovať koncový stav, teda úmrtie. Maximálny počet rekurentných udalostí v dátach je dvanásť a minimálny dve (Obrázok č. 12). Obrázok č. 12: Štruktúra modelu 4.1. Použité hardvéry a softvéry Výpočet Joint frailty modelov je časovo aj výkonnostne pomerne náročný proces, a preto je súčasťou výsledkov nielen použitý softvér, ale aj špecifikácia výpočtových strojov, na ktorých boli jednotlivé výsledky získané. 4.1.1. Hardvéry Všetky základné výpočty a nenáročné Joint frailty modely sme spracovali na výpočtovom stroji so špecifikáciou: CPU Intel Core i5-4210 @ 1,70 GHz 2,40 GHz; RAM 8 GB. Výpočtovo náročné Joint frailty modely sme spracovali pomocou vzdialeného prístupu na stroji so špecifikáciou: CPU Intel Xeon E312xx (Sandy bridge) @ 2,59 GHz; RAM 24 GB. 4.1.2. Softvéry Pre čistenie a prípravu dát sme použili softvér SPSS, 2015, IBM Corporation and its licensors 1989 verzie 23.0.0.0. Softvér je platený. Na imputáciu chýbajúcich hodnôt a pre výpočet Joint frailty modelov sme použili softvér R, 2014, The R Foundation for Statistical Computing verzie 3.2.2 voľne dostupného na www.r-project.org. Výsledné súbory boli formátované v Excel editor Microsoft Office, 2016, 2012 Microsoft corporation verzie 16.0.6965.2092. Softvér je platený s voľne dostupnými alternatívami. 27
4.2. Štruktúra dát vstupujúcich do modelu Na to, aby sme mohli aplikovať Joint frailty model, musíme dáta najprv previesť do príslušnej formy, ktorú je najlepšie predstaviť na ukáže fiktívnych dát. Ukážku fiktívnych dát zobrazuje Tabuľka č. 9. Dáta obsahujú dvoch pacientov, pričom prvý má tri línie liečby a druhý dve. Relaps/progresia nastala vždy vo všetkých líniách okrem poslednej (bola zahájená ďalšia línia liečby, ktorá je s udalosťou asociovaná). Úmrtie mohlo nastať iba v poslednej línii, ale nemuselo. Premenná sledovanie predstavuje čas v mesiacoch od zahájenia jednej línie liečby do zahájenia ďalšej. V tabuľke nasledujú premenné začiatok a koniec, ktoré predstavujú časovú známku. Začiatok v primoterapii je vždy nula, pretože nepracujeme s dátami, kde by relaps/progresia nastala ešte pred vstupom do štúdie. Koniec potom predstavuje hodnotu začiatku zväčšenú o dĺžku sledovania. V ďalšej línii liečby sa koniec predchádzajúcej stáva začiatkom nasledujúcej. Ďalšie parametre v dátach sú jednotlivé charakteristiky na základe ktorých budeme určovať predikcie rizika. Tabuľka č. 9: Ukážka štruktúry dát vstupujúcich do výpočtu Joint frailty modelu Pacient Línia liečby Relaps/ progresia Sledovanie (mesiace) Začiatok (mesiac) Koniec (mesiac) Úmrtie Charakteristika (napr. štádium) ID_1 1. áno 32 0 32 nie ID_1 2. áno 20 32 52 nie I ID_1 3. nie 11 52 63 áno II ID_2 1. áno 25 0 25 nie I ID_2 2. nie 15 25 40 nie III Joint frailty model môžeme zostaviť pomocou dvoch prístupov: 1. Prostredníctvom času medzi rekurentnými udalosťami (sledovanie). V tomto prípade hypotéza znie: Čas medzi jednotlivými udalosťami sa mení na základe vstupných parametrov. 2. Prostredníctvom času vstupu do štúdie (= 0) alebo času poslednej udalosti, a času nasledujúcej udalosti (začiatok koniec). V tomto prípade hypotéza znie: Riziko vzniku udalosti sa mení na základe vstupných parametrov. Obidva tieto prístupy majú svoje výhody a nevýhody. Model pracujúci s časom medzi rekurentnými udalosťami dokáže pracovať aj s chýbajúcimi hodnotami charakteristík. Vyplýva to z toho, že nepracuje s poradím línií ale iba s dĺžkou ich trvania. Pokiaľ je teda vo vysvetľujúcej charakteristike chýbajúca hodnota, líniu liečby vyradí a pracuje bez nej. Model pracujúci s časovou sekvenciou berie do úvahy poradie línií a teda bez chýbajúcich údajov charakteristík nie je možné ho vytvoriť. Dáta, ktoré vstupujú do modelu nesmú obsahovať chýbajúce hodnoty, avšak vynechanie línie (okrem primoterapie) nie je problémom pokiaľ je zachovaná časová známka. Je však ale aj časovo náročnejší na výpočet (Rondeau et al., 2012). 28
Voľná interpretácia výsledkov modelov je, že pri prvom modeli riešime otázku, či sa mení čas medzi jednotlivými udalosťami avšak bez ohľadu na trend, zatiaľ čo druhý model rieši otázku, či sa čas medzi udalosťami skracuje alebo predlžuje. Keďže v našom prípade chceme interpretovať riziko vzniku udalosti a chceme skúmať aj trend, budeme pracovať s druhým variantom modelu. 4.3. Výber parametrov Čas odberov a získania hodnôt jednotlivých parametrov zobrazuje Obrázok č. 13. Klinické parametre sú pacientovi odobraté pred zahájením liečby. V rámci času liečby je stanovený režim liečby a to, či bude poskytnutá transplantácia. Po ukončení liečby je vyhodnotená liečebná odpoveď a stanovená toxicita liečby. Časový okamžik, v ktorom sa nachádzame je zahájenie novej línie liečby. Potrebujeme predikovať riziko nastátia nasledujúcej udalosti či už relapsu/progresie alebo úmrtia pričom dĺžku jednotlivých udalostí hodnotíme ako čas od zahájenia jednej línie liečby do zahájenia nasledujúcej línie liečby. Predikciu rizika vyhodnotíme z výsledkov finálneho modelu, a to tak, že okrem parametrov pri diagnóze a parametrov nemenných v rámci línií zahrnieme aj aktuálne klinické parametre, liečebný režim a poskytnutie transplantácie v súčasnej a predchádzajúcej línie liečby, liečebnú odpoveď a toxicitu z predchádzajúcej línie liečby. V rámci liečby však môže dôjsť k zmene v závislosti na tom ako pacient reaguje. Pokiaľ sa objavia závažné nežiadúce účinky, môže dôjsť k zmene režimu alebo pri zhoršení celkového stavu pacienta transplantácia nemusí prebehnúť. Riziko vzniku ďalšej udalosti pre aktuálnu líniu liečby bude preto interpretované podľa najnovších údajov, teda najprv podľa plánovanej liečby, a keď dôjde k zmene, prepočíta sa aj interpretácia modelu tak, aby predikovala riziko udalosti podľa najaktuálnejších hodnôt parametrov. Pri transplantácii sa bude uvažovať riziko bez transplantácie až do doby pokiaľ pacient transplantáciu nepodstúpi. Takýto postup interpretácie modelu je korektný, pretože keď nastane čas (n+1). udalosti už bude liečba z predchádzajúcej línie (n-tej) ukončená, takže môžeme zahrnúť režim liečby, ktorý síce ešte v okamžiku hodnotenia neprebehol celý, ale v čase udalosti, ktorú predikujeme už áno. V prípade, že by existoval druh liečby, ktorý je taký významný, že po jeho aplikácii nenastane ďalšia rekurencia, prípadne naopak, nastane úmrtie, tak by sme ho bez zahrnutia aktuálnej liečby do výpočtu modelu neobjavili. Navrhnuté zostavenie modelu môže pomôcť pri rozhodovaní, aký režim zvoliť, alebo či poskytnúť transplantáciu. Jednoducho sa porovná riziko pre všetky zvažované možnosti liečby a zvolí sa tá s najmenšou rizikovosťou. Problém však môže nastať v tom, že druh liečiva a aj poskytnutie transplantácie je pacientovi stanovené na základe jeho kondície. To znamená, že pacient v zlom stave nemôže podstúpiť transplantáciu. Otázkou teda ostáva, či dobré prežívanie v danej línii skutočne zabezpečila transplantácia alebo je to iba dôsledok toho, že iba pacienti v dobrej kondícii, u ktorých je vyššia pravdepodobnosť dobrého prežívania, transplantáciu podstúpili. Podobná situácia nastáva pri výbere liečiva, kde napr. Talidomid a Pomalidomid oproti ostatným liečivám sú predpísané pacientom v horšej zdravotnej kondícii. Do modelu však zahŕňame liečebnú odpoveď a toxicitu liečby aj z predchádzajúcej liečby a to z toho dôvodu, že predliečenosť môže byť z hľadiska rizika progresie/relapsu 29
kriticky dôležitý parameter (Palumbo et al., 2006). Pri interpretácii modelu tak môžeme rozlíšiť dvoch pacientov, ktorí majú aktuálne síce rovnaké klinické parametre a aktuálnu liečbu, ale ich rizikovosť bude rozdielna práve z dôvodu rôznej predliečenosti. Obrázok č. 13: Čas odberu parametrov Na základe poznatkov o rizikových faktoroch priebehu ochorenia mnohopočetného myelómu z kapitoly č. 1 sme vybrali parametre, ktoré budeme v modeli hodnotiť. Vybrané parametre ako aj ich vyplnenosť v dátovom súbore znázorňuje Tabuľka č. 10. Premenné sú buď spojité (jednotka v zátvorkách), kategoriálne alebo binárne. V prvej časti sú základné klinické parametre hodnotiace stav pacienta najprv pri diagnóze, a potom pri zahájení príslušnej línie liečby. Štádium ochorenia podľa ECOG nadobúda hodnoty 1 až 4. Binárna premenná extramedulárne ložisko hovorí o prítomnosti alebo neprítomnosti týchto ložisiek. Osteolytické postihnutie je premenná vyhodnotená pomocou röntgenu kostí, a má 3 kategórie podľa miery postihnutia, teda množstva osteolytických ložisiek: bez osteolytických ložisiek, 1 2 ložiská a viac ako 2 ložiská. Ťažké reťazce M-proteínu sú rozdelené do 4 kategórií: IgG, IgA, bez ťažkých reťazcov a kategória ostatné, do ktorej patria: IgD, IgM, biklonálne, triklonálne a nesekrečné ťažké reťazce. Ľahké reťazce M-proteínu nadobúdajú kategórie kappa, lambda alebo oboje. Ordinálna premenná Cytológia kostnej drene má 3 kategórie, kde prvá predstavuje postihnutie kostnej drene pacienta menej ako 10 %, druhá kategória 10 20 % a tretia viac ako 20 %. Medzi významné parametre sme zaradili aj finálnu liečebnú odpoveď z predchádzajúcej liečby. Premennú sme binarizovali na dve hodnoty a to podľa toho, či bola dosiahnutá aspoň parciálna remisia ochorenia. Pri primoterapiách sme vytvorili novú hodnotu premennej, pretože prvé línie liečby nemali predchádzajúcu liečbu, a teda tu nemohla byť história liečebnej odpovede. Takisto pri toxicite predchádzajúcej liečby sme vytvorili unikátnu kategóriu pre primoterapie. Toxicita liečby v našich dátach nadobúda okrem kategórie pre prvú liečbu ďalšie 3 kategórie, a to toxicita stupňa 0 a 1, stupňa 2 a stupňa 3 a 4. Pričom vždy uvažujeme najvyšší dosiahnutý stupeň, z 13-tich rôznych toxicít: trombocytopénia (znížené množstvo trombocytov) pred a po liečbe, neuropatia pred a po liečbe, anémia, neutropenia (poruchy periférnych nervov), únava a slabosť, infekčné 30
komplikácie, nechutenstvo, zvracanie, hnačka, zápcha, trombóza či embólia (krvné zrazeniny). V modeli budeme takisto uvažovať parametre hodnotiace nielen predchádzajúcu ale aj aktuálnu líniu liečby a to konkrétne binárnu premennú poskytnutie/neposkytnutie transplantácie a podaný režim. Kategórie režimu sú liečba Bortezomibom bez kombinácie s inými novými liečivami, liečba Lenalidomidom bez iných nových liekov, liečba Talidomidom bez iných nových liekov, liečba inými novými liekmi alebo ich kombináciami a liečba bez použitia nových liekov. Ako nové lieky označujeme Bortezomib, Lenalidomid, Talidomid, Karfilzomib, Imnovid a Ixazomib. Tieto lieky sa v Českej republike začali používať od mája 2007 (URL 8). Do analýzy sme takisto zaradili parameter dôvod zahájenia liečby s kategóriami relaps/progresia a nedostatočná odpoveď ako je uvedené v kapitole 3.2. Do hodnotenia zahrnieme aj parameter čas od diagnózy do zahájenia línie liečby, ktorý sa tiež môže javiť ako významný prediktor rovnako ako premennú línia liečby, ktorá nadobúda hodnoty 1 až 12. Tabuľka č. 10 farebne vyznačuje premenné, ktoré majú viac ako 50 % chýbajúcich dát. Preto môžeme konštatovať, že genetické vyšetrenie má oproti ostatným veľmi zlú vyplnenosť. Doplnenie chýbajúcich hodnôt genetických abnormalít by teda bolo iba ťažko interpretovateľné. Ďalej v modeli genetiku pacientov uvažovať nebudeme. 31
Tabuľka č. 10: Štatistika vyplnenosti parametrov z registra RMG Počet chýbajúcich hodnôt Línia liečby (N = 5 654) (% z počtu pacientov v línii) 1. (N = 2 965) 2. (N = 1 406) 3. (N = 714) 4. (N = 332) 5. (N = 236) Základné parametre pri diagnóze Vek (roky) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Hemoglobín (g/l) 28 (0,9 %) 21 (1,5 %) 9 (1,3 %) 5 (1,5 %) 1 (0,4 %) Trombocyty (10 e 9 /l) 43 (1,4 %) 31 (2,2 %) 15 (2,1 %) 6 (1,8 %) 2 (0,8 %) Vápnik (mmol/l) 57 (1,9 %) 37 (2,6 %) 19 (2,7 %) 7 (2,1 %) 3 (1,3 %) Albumíny (g/l) 96 (3,2 %) 58 (4,1 %) 26 (3,6 %) 9 (2,7 %) 3 (1,3 %) Kreatinín (µmol/l) 43 (1,4 %) 31 (2,2 %) 14 (2,0 %) 6 (1,8 %) 3 (1,3 %) β2 mikroglobulín (mg/l) 258 (8,7 %) 134 (9,5 %) 63 (8,8 %) 28 (8,4 %) 8 (3,4 %) Laktátdehydrogenáza (µkat/l) 259 (8,7 %) 133 (9,5 %) 66 (9,2 %) 26 (7,8 %) 15 (6,4 %) C-reaktívny proteín (mg/l) 158 (5,3 %) 91 (6,5 %) 52 (7,3 %) 25 (7,5 %) 26 (11,0 %) M-proteín (g/l) 123 (4,1 %) 47 (3,3 %) 14 (2,0 %) 5 (1,5 %) 1 (0,4 %) ECOG štádium 85 (2,9 %) 34 (2,4 %) 17 (2,4 %) 6 (1,8 %) 2 (0,8 %) Extramedulárne ložisko 48 (1,6 %) 13 (0,9 %) 4 (0,6 %) 2 (0,6 %) 1 (0,4 %) Osteolytické postihnutie 319 (10,8 %) 113 (8,0 %) 34 (4,8 %) 16 (4,8 %) 12 (5,1 %) Ťažké reťazce 12 (0,4 %) 3 (0,2 %) 1 (0,1 %) 0 (0,0 %) 0 (0,0 %) Ľahké reťazce 54 (1,8 %) 28 (2,0 %) 14 (2,0 %) 4 (1,2 %) 4 (1,7 %) Cytológia kostnej drene (%) 213 (7,2 %) 93 (6,6 %) 50 (7,0 %) 24 (7,2 %) 10 (4,2 %) Základné parametre pri zahájení línie liečby Vek (roky) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Hemoglobín (g/l) 693 (23,4 %) 203 (14,4 %) 173 (24,2 %) 124 (37,3 %) 111 (47,0 %) Trombocyty (10 e 9 /l) 698 (23,5 %) 203 (14,4 %) 173 (24,2 %) 124 (37,3 %) 111 (47,0 %) Vápnik (mmol/l) 705 (23,8 %) 216 (15,4 %) 181 (25,4 %) 127 (38,3 %) 111 (47,0 %) Albumíny (g/l) 737 (24,8 %) 295 (21,0 %) 231 (32,4 %) 139 (41,9 %) 116 (49,2 %) Kreatinín (µmol/l) 698 (23,5 %) 210 (14,9 %) 173 (24,2 %) 124 (37,3 %) 111 (47,0 %) β2 mikroglobulín (mg/l) 861 (29,0 %) 457 (32,5 %) 314 (44,0 %) 168 (50,6 %) 136 (57,6 %) Laktátdehydrogenáza (µkat/l) 857 (28,9 %) 368 (26,2 %) 262 (36,7 %) 150 (45,2 %) 122 (51,7 %) C-reaktívny proteín (mg/l) 763 (25,7 %) 327 (23,3 %) 228 (31,9 %) 142 (42,8 %) 117 (49,6 %) M-proteín (g/l) 209 (7,0 %) 254 (18,1 %) 194 (27,2 %) 132 (39,8 %) 115 (48,7 %) ECOG štádium 763 (25,7 %) 246 (17,5 %) 198 (27,7 %) 132 (39,8 %) 119 (50,4 %) Extramedulárne ložisko 717 (24,2 %) 34 (2,4 %) 18 (2,5 %) 7 (2,1 %) 4 (1,7 %) Osteolytické postihnutie 978 (33,0 %) 579 (41,2 %) 373 (52,2 %) 220 (66,3 %) 186 (78,8 %) Ťažké reťazce 688 (23,2 %) 198 (14,1 %) 174 (24,4 %) 124 (37,3 %) 112 (47,5 %) Ľahké reťazce 721 (24,3 %) 221 (15,7 %) 181 (25,4 %) 126 (38,0 %) 114 (48,3 %) Cytológia kostnej drene (%) 874 (29,5 %) 765 (54,4 %) 459 (64,3 %) 259 (78,0 %) 209 (88,6 %) Parametre hodnotiace predchádzajúcu líniu liečby Liečebná odpoveď 0 (0,0 %) 86 (6,1 %) 10 (1,4 %) 5 (1,5 %) 6 (2,5 %) Toxicita liečby 0 (0,0 %) 384 (27,3 %) 77 (10,8 %) 67 (20,2 %) 81 (34,3 %) Poskytnutie transplantácie 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Liečebný režim 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Parametre hodnotiace aktuálnu líniu liečby Línia liečby 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Poskytnutie transplantácie 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Liečebný režim 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Dôvod zahájenia liečby 0 (0,0 %) 19 (1,4 %) 12 (1,7 %) 5 (1,5 %) 4 (1,7 %) Ostatné parametre Pohlavie 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Čas od diagnózy do zahájenia línie liečby (mesiace) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) 0 (0,0 %) Genetické vyšetrenie Translokácia t(4;14) 2298 (77,5 %) 1052 (74,8 %) 522 (73,1 %) 243 (73,2 %) 170 (72,0 %) Translokácia t(14;16) 2618 (88,3 %) 1244 (88,5 %) 630 (88,2 %) 298 (89,8 %) 218 (92,4 %) Translokácia t(11;14) 2576 (86,9 %) 1220 (86,8 %) 623 (87,3 %) 287 (86,4 %) 200 (84,7 %) Translokácia t(6;14) 2835 (95,6 %) 1357 (96,5 %) 697 (97,6 %) 324 (97,6 %) 230 (97,5 %) Delécia (13) (q14) 1726 (58,2 %) 791 (56,3 %) 383 (53,6 %) 179 (53,9 %) 112 (47,5 %) Delécia (17) (p13) 1898 (64,0 %) 900 (64,0 %) 450 (63,0 %) 208 (62,7 %) 141 (59,7 %) Inzercia 1q21 1733 (58,4 %) 788 (56,0 %) 387 (54,2 %) 176 (53,0 %) 115 (48,7 %) Hyperdiploidia 1969 (66,4 %) 923 (65,6 %) 452 (63,3 %) 204 (61,4 %) 141 (59,7 %) 32
4.4. Vyčistenie dátového súboru od chýbajúcich hodnôt Model, ktorý pracuje s poradím línií liečob nemôže pracovať s parametrami, pri ktorých chýba hodnota parametru. Pri vyradení všetkých takýchto liečob by sme však prišli o cenné informácie z hľadiska postupu liečby pacientov. Preto sme sa rozhodli najprv dátový súbor vhodne upraviť, a to imputáciou niektorých chýbajúcich hodnôt. V prvom rade je potrebné vyradiť línie liečby, ktoré majú príliš nízku vyplnenosť, kde by imputácie neboli dobre interpretovateľné. V ďalšom bode je možné implementovať chýbajúce hodnoty v líniách pri ktorých sú dobre odhadnuteľné. Kritérium pre vyradenie línie liečby s nedostatočnou vyplenosťou sme si stanovili ako minimálny počet vyplnených parametrov 20 z celkových 40 (50,0 %). V prípade, že by nedostatočne vyplnená bola primoterapia, vyradíme celého pacienta, pretože model s ktorým pracujeme nevie pracovať so zľava orezanými dátami, a teda potrebujeme dostatočne vyplnenú prvú líniu liečby. Pokiaľ by posledná línia bola nedostatočne vyplnená, predĺžime trvanie predposlednej línie o jej dĺžku sledovania. Takisto, pokiaľ by nastalo úmrtie v poslednej línii, tak pridáme aj túto informáciu do predposlednej línie. Týmto postupom prídeme teda o jednu rekurentnú udalosť. Pokiaľ by nedostatočne vyplnená línia bola uprostred, teda by sa nejednalo ani o prvú ani o poslednú líniu pacienta, tak líniu vyradíme a časové známka ostatných línii ostane zachovaná. Dáta by v takomto prípade obsahovali časové obdobia, ktoré sú bez informácií o niektorých líniách liečby pacienta, ale nezmeníme týmto postupom celkové prežívanie pacientov. Takisto sme museli 10 extrémne odľahlých hodnôt v parametroch: Vápnik, Albumín, β2 mikroglobulín a M-proteín nahradiť za chýbajúcu hodnotu pred samotnou imputáciou. Pri aplikovaní pravidla zisťujeme, že počet línií, ktoré nespĺňajú vopred stanovené pravidlo vyplnenosti aspoň 20 z 40 parametrov je 44. Z toho 31 línií predstavuje primoterapiu, takže musíme vyradiť aj všetky ostatné línie týchto pacientov (ďalších 43 línií). Zvyšných 13 línií, ktoré nemajú dostatočnú vyplnenosť a nepredstavujú primoterapiu sú však všetko línie tých istých pacientov, ktorí majú nedostatočnú vyplnenosť primoterapie. Vo výsledku teda zisťujeme, že z dátového súboru nemusíme vyradiť žiadnu líniu uprostred, a ani nemusíme zlučovať posledné a predposledné línie. Na základe kritéria sme teda vo finále vyradili 74 línií liečby (31 pacientov). Finálny dátový súbor obsahuje 5 654 línií liečob, čo predstavuje 2 965 pacientov. 4.5. Odhad chýbajúcich hodnôt Imputácia chýbajúcich hodnôt môže byť aplikovaná iba v prípade, že chýbajúce pozorovania v dátach chýbajú náhodne. Teda to, že hodnota chýba, nie je závislé na žiadnom ďalšom faktore nepozorovanom v dátach (Donders et al., 2006). Príkladom závislých chýbajúcich hodnôt (MNAR Missing Not At Random ) môže byť pozorovanie premennej hmotnosť respondenta. Pacienti s vyššou hmotnosťou majú väčšiu tendenciu neuviesť hodnotu, a teda tieto chýbajúce údaje sú informatívne mohli by sme zvažovať hypotézu, že pokiaľ hodnota chýba, bude mať pacient nadváhu. Avšak tento 33
fakt nemôžeme bez intuície z dát zistiť, pokiaľ všetci respondenti s vyššou hmotnosťou údaj nebudú mať vyplnený, takže takéto dáta nemôžeme imputovať. Predstavme si dáta, kde máme hodnoty inteligenčného kvocientu respondentov s niekoľkými chýbajúcimi hodnotami, a takisto je súčasťou dát informácia o pohlaví a veku. Takúto skupinu chýbajúcich dát môžeme považovať za chýbajúce úplne náhodne (MCAR Missing Completely At Random ), ktoré sa nedajú vysvetliť ostatnými charakteristikami v dátach. Pohlavie ani vek pravdepodobne nebude rozhodujúci faktor, ktorý by súvisel s prítomnosťou alebo neprítomnosťou hodnoty inteligenčného kvocientu respondenta. Dáta, ktoré má zmysel imputovať by teda nemali byť ani závislé ani chýbajúce úplne náhodne. Uvažujme respondentov, ktorých sa pýtame na dosiahnuté vzdelanie, roky praxe a plat, pričom pri hodnotách platu sa vyskytujú chýbajúce hodnoty. Môžeme predpokladať, že respondenti s vyšším vzdelaním a viac rokmi praxe budú mať aj vyšší plat. Chýbajúce hodnoty síce nie sú informatívne, ale predpokladáme, že sú vysvetliteľné ostatnými charakteristikami respondenta (MAR Missing At Random ). Na tomto princípe pracuje implementácia chýbajúcich hodnôt (Buuren a Groothuis-Oudshoorn, 2011), ktorá pomocou nechýbajúcich charakteristík pacienta imputuje chýbajúce hodnoty daného parametru. Pre odhad chýbajúcich hodnôt sme použili softvér R, konkrétne sme pracovali s balíčkom Mice (Buuren et al., 2015), a pre vytvorenie grafických výstupov sme pracovali s balíkom Lattice (Sarkar, 2008). Princípom implementácie chýbajúcich hodnôt je regresná analýza, ktorá na základe ostatných charakteristík pacienta vyhodnotí najpravdepodobnejšiu hodnotu chýbajúcej premennej (Buuren a Groothuis-Oudshoorn 2011). Pre binárne premenné sme aplikovali metódu LogReg, ktorá je založená na Bayesiánskej logistickej regresii. Pre spojité premenné sme aplikovali metódu PMM (z anglického Predictive Mean Matching ), ktorá je založená na predikovaní priemerom. Pre kategoriálne, ordinálne premenné sme použili metódu PolyReg, ktorá pracuje na princípe Bayesiánskej polytomickej regresii a pre kategoriálne, ale neordinálne premenné sme použili metódu PolR, ktorej princípom je Bayesiánska polytomická regresia proporcionálnych rizík (Buuren et al., 2015). Odhad chýbajúcich hodnôt je založený na myšlienke, že každý subjekt v dátach je náhodne vybratý jedinec z populácie, ktorého je možné nahradiť novým jedincom, ktorý bude takisto náhodne vybratý z tej istej populácie ako pôvodný jedinec. Imputáciou chýbajúcich hodnôt teda vytvoríme nového jedinca, ktorého údaje budú dostatočne reprezentatívne na to, aby takisto patril do tej istej populácie odkiaľ pochádza jedinec s chýbajúcimi hodnotami (Donders et al., 2006). Výsledky imputácií zobrazuje Príloha č. 1. Počet iterácií algoritmu sme nastavili na hodnotu 50 a vytvorili sme 5 rôznych imputácií. Hárok Metóda obsahuje údaje o tom, ktoré premenné sme imputovali a akou metódou. Kvalitu získaných výsledkov môžeme zhodnotiť jednoduchým porovnaním frekvenčným charakteristík. Pri spojitých premenných sme porovnali minimum, 5. percentil, medián, priemer, 95. percentil a maximum. Výsledky v prílohe znázorňuje hárok Spojité premenné. Hodnoty charakteristík sú v jednotlivých imputáciach veľmi podobné pôvodným dátam, takže môžeme predpokladať, že sme vytvorili dostatočne reprezentatívne vzorky. Pre kategoriálne premenné sa zase pozrieme na to, či sa pomerovo nezmenilo zastúpenie jednotlivých kategórií. Hárok Kategoriálne 34
premenné obsahuje zhrnuté výsledky pre všetky imputácie. Z výsledkov pozorujeme, že imputácie si sú navzájom takisto veľmi podobné a dobre odzrkadľujú pôvodné dáta. Ďalším nástrojom pre rozhodnutie o kvalite imputácii je graf zobrazujúci hustotu rozloženia 10 náhodnej veličiny (nejedná sa o matematickú definíciu hustoty pravdepodobnosti náhodnej veličiny pre spojité premenné, ale iba o bezjednotkovú mieru zastúpenia jednotlivých hodnôt premenných). Obrázok č. 14 znázorňuje výsledok pre spojitú premennú Vápnik pri diagnóze a kategoriálnu premennú Osteolytické postihnutie pri zahájení línie liečby. Na osi x sú hodnoty príslušnej premennej a na osi y hustota rozloženia. V grafe sú znázornené výsledky 5 imputácií spolu s rozložením pôvodných dát. Ideálnym výsledkom teda je, že rozloženie imputovaných dát zodpovedá rozloženiu pôvodných dát. Výsledky pre všetky premenné sú uvedené v hárku s názvom Grafy rozloženia a môžeme konštatovať, že imputácie sú dostatočne reprezentatívne. pôvodné dáta imputácie pôvodné dáta imputácie Obrázok č. 14: Hustota rozloženia Okrem grafu hustoty rozloženia sa pozrime aj na prekrytie jednotlivých imputovaných hodnôt s pôvodnými dátami. Takýto graf zobrazuje Obrázok č. 15 pre spojitú premennú Vápnik, kategoriálnu premennú ECOG štádium a takisto kategoriálnu premennú Dôvod zahájenia liečby. Všetky výsledky sú uvedené v hárku Grafy prekrytia údajov. V nultej kolónke sú zobrazené hodnoty z pôvodného súboru a postupne v 1 až 5 je zobrazené ich prekrytie s jednotlivými imputáciami. Na osi x je zobrazená podmienená pravdepodobnosť: p(x) = P(M = 1 X = x) (4.1), kde X je vektor charakteristík identifikujúcich skupiny podobných pacientov, x je konkrétna hodnota u príslušného pacienta a M je binárna premenná identifikujúca, či daná premenná chýba alebo nie. Os y predstavuje hodnoty príslušnej imputovanej premennej. Z obrázku vidíme, že pri premennej Vápnik sa imputované hodnoty pomerne dobre prekrývajú s pôvodnými hodnotami, a predpokladáme, že sa jedná o dáta MAR. Avšak pri štádiu ECOG vidíme, že imputované hodnoty sa neprekrývajú v pravej časti grafu 10 zobrazenie, ktoré každému elementárnemu javu priraďuje určité reálne číslo, ktoré charakterizuje mieru zastúpenia tohoto javu 35
s pôvodnými dátami. Príčinou by mohlo byť, že dáta sú MCAR, a teda že v dátach neexistuje súbor premenných, ktoré by dostatočne vysvetľovali túto premennú a imputované sú náhodne. Z dôvodu demonštrácie výsledkov imputácie premenných chýbajúcich nenáhodne, teda MNAR, sme skúsili pre ukážku imputovať premennú Dôvod zahájenia liečby aj pre primoterapiu. Dôvod zahájenia liečby je vyplnený iba pre opakujúce sa línie liečby, pretože obsahuje iba kategórie z dôvodu relapsu/progresie ochorenia alebo nedostatočnej odpovede na predchádzajúcu liečbu. Keďže primoterapia je prvá línia liečby pacienta bez histórie ochorenia, nemohla tu byť vyplnená žiadna z týchto dvoch hodnôt. Napriek tomu, že vo vysvetľujúcich premenných je premenná Línia liečby, ktorá presne identifikuje skupinu línií liečob (primoterapie), ktoré všetky mali chýbajúcu hodnotu pri Dôvode zahájenia liečby, nedokážeme usúdiť, ktorú kategóriu máme imputovať. Dôvodom je fakt, že v dátach nemáme ani jeden údaj pri línii liečby s primoterapiou, ktorá by mala priradenú nejakú hodnotu v premennej Dôvod zahájenia liečby. Preto sú kategórie priradené náhodne do oboch možností zelený obdĺžnik na obrázku. Tento problém je v našom prípade jednoducho riešiteľný pridaním novej kategórie Primoterapia, avšak jav môže nastať pri komplikovanejších a nespozorovateľných dátach, na ktorých odhalenie je nápomocná aj táto grafická interpretácia. pôvodné dáta imputácie Obrázok č. 15: Prekrytie údajov Obrázok č. 16 znázorňuje štandardizovaný priemer a smerodajnú odchýlku (SD) pre imputované hodnoty parametrov všetkých pacientov v jednotlivých 5 imputáciách, postupne vo všetkých 50 iteráciách. Aby sme dosiahli požadovanú konvergenciu modelu, musia si jednotlivé reťazce náhodne vymieňať miesta a nemali by sme tu pozorovať žiadny 36
trend jedného reťazca. Znamenalo by to, že sa v každej imputácii implementovala iná, ale stále rovnaká, rastúca alebo klesajúca hodnota. Vytvorené imputácie by teda nepredstavovali vzorky z tej istej populácie. Konvergenciu môžeme definovať tak, že rozptyl priemeru (respektíve smerodajnej odchýlky) medzi reťazcami nie je väčší ako rozptyl každého reťazca samostatne. Všetky výsledky sú uvedené v prílohe na hárku Grafy priemer a SD a môžeme konštatovať, že výsledky sú dostatočne reprezentatívne aj na základe tohto zhodnotenia kvality imputácií. priemer smerodajná odchýlka iterácie iterácie Obrázok č. 16: Priemer a smerodajná odchýlka imputácií Ďalším problémom ku ktorému sa dostávame je, že parametre pri diagnóze musia byť v každej línii pacienta rovnaké. Pri imputáciách sme použili parameter identifikačné číslo pacienta, ktoré by malo modelu napovedať, že nechýbajúce hodnoty pri diagnóze sú vo všetkých líniách liečby toho istého pacienta zhodné. Avšak napriek tomu, nie všetky hodnoty pri diagnóze v líniách liečby jedného pacienta sa implementovali rovnako. Preto sme ako hodnotu pri diagnóze pri spojitých a kategoriálnych ordinálnych premenných použili medián, pričom pokiaľ vyšiel na rozmedzí dvoch kategórií, uvažujeme závažnejšiu kategóriu. Pri kategoriálnych neordinálnych premenných, presnejšie ťažké a ľahké reťazce, sme pacientom, ktorí mali rozdielne imputované hodnoty v jednotlivých líniách liečby priradili kategóriu, ktorá sa imputovala v primoterapii, pretože údaje z tejto línie liečby sú časovo najbližšie a teda aj najpodobnejšie údajom pri diagnóze. Vo výsledkoch si môžeme všimnúť, že pri toxicite liečby sa imputovala aj kategória primoterapia, ako finálny dátový súbor sme zvolili imputáciu č. 4, kde sa táto kategória imputovala iba 4 líniám liečby. Pre tieto línie liečby sme zvolili kategóriu toxicity liečby stupňa 0 1. Hárok Finálny súbor obsahuje základné štatistiky všetkých charakteristík finálneho súboru, s ktorým budeme ďalej pracovať pri tvorbe Joint frailty modelu. 37