VŠB - Techncká unverzta Ostrava Fakulta elektrotechnky a nformatky Katedra aplkované matematky Dplomová práce 204 Mchal Běloch
VŠB - Techncká unverzta Ostrava Fakulta elektrotechnky a nformatky Katedra aplkované matematky Vybrané statstcké nástroe pro verfkac logstckých regresních modelů Advanced statstcal tools for verfcaton of the logstc regresson models 204 Mchal Běloch - 2 -
- 3 -
Zadání dplomové práce Student: Studní program: Studní obor: Bc. Mchal Běloch N2647 Informační a komunkační technologe 03T03 Výpočetní matematka Téma: Vybrané statstcké nástroe pro verfkac logstckých regresních modelů. Advanced statstcal tools for verfcaton of the logstc regresson models. Zásady pro vypracování: Logstcká regrese e zvláštní zeména tím, že vysvětlovaná proměnná e zde bnární dskrétní proměnná. Nečastě e logstcká regrese využívána pro účely zpracování lékařských dat. Cílem této práce e vytvoření matematckého aparátu (zeména eho PC mplementace) pro posouzení vhodnost buď předpokládaných nebo nově generovaných logstckých regresních modelů. Postup práce:. Studum základů logstcké regresní analýzy. 2. Předběžné posouzení logstckého modelu pomocí lneární a exponencální analýzy, algortmzace. 3. Studum statstckých testů pro posouzení vhodnost modelů v logstcké regres. 4. Algortmcké zpracování a počítačová mplementace vybraných testů této kategore. 5. Provedení a vyhodnocení těchto testů na vzorku lékařských dat dle nstrukcí vedoucího práce. Seznam doporučené odborné lteratury:. Hosmer D.W., Lemeshow S., Appled Logstc Regresson, Wley 2000, ISBN 0-47- 35632-8. 2. Hebák P., Hustopecký J., Malá I., Vícerozměrné statstcké metody (2), INFORATORIUM 2005, ISBN 80-7333-036-9. - 4 -
Prohlašu, že sem tuto dplomovou prác vypracoval samostatně. Uvedl sem všechny lterární prameny a publkace, ze kterých sem čerpal. V Ostravě dne 07. května 204... - 5 -
Rád bych zde poděkoval svému vedoucímu prof. Ing. Radmu Bršov, Csc. za poskytnutá data, lteraturu a odbornou pomoc a rovněž své rodně a přátelům za snahu pochopt vše, co dělám. - 6 -
Abstrakt První část této práce se zabývá tvorbou logstckých regresních modelů za účelem zhodnocení morbdty pacentů s rakovnou kolorekta. Druhá část se zaměřue na metody verfkace logstckých regresních modelů a ech algortmzac v programovacím azyce R. Klíčová slova exponencální analýza, lneární analýza, logstcká regrese, morbdta, R, verfkace modelu Abstract Frst part of ths work talks about logstc regresson and ts use n evaluaton of morbdty of colorectal cancer patents. Second part focuses on verfcaton methods for logstc regresson and creaton of algorthms n R programmng language. Keywords exponental analyss, lnear analyss, logstc regresson, morbdty, R, model verfcaton - 7 -
Seznam použtých symbolů a zkratek FNO MMV POSSUM Fakultní nemocnce Ostrava Poruba Metoda maxmální věrohodnost Physologcal and Operatve Severty Score for the enumeraton of Mortalty and Morbdty
Seznam obrázků obr. : Výstup algortmu pro exponencální analýzu v R... 34 obr. 2: Koláčový graf pro rozložení pohlaví datového souboru... 36 obr. 3: Koláčový graf pro způsob operace... 37 obr. 4: Krabcový graf zachycuící věkové rozložení pacentů... 37 obr. 5: Výskyt komplkací v závslost na FS a OS u pacentů operovaných laparoskopcky... 43 obr. 6: Výskyt komplkací v závslost na FS a OS u pacentů operovaných otevřenou metodou... 43-9 -
Seznam tabulek tab. : Možnost př testování hypotéz... 6 tab. 2: Rozhodování na základě p-value... 6 tab. 3: Tabulka lneární analýzy... 24 tab. 4: Vzorek dat... 25 tab. 5: Příklad lneární analýzy pro vzorek dat... 25 tab. 6: Příklad exponencální analýzy pro vzorek dat... 27 tab. 7: Příklad vylepšené exponencální analýzy pro vzorek dat... 29 tab. 8: Rozložení velčn pro danou metodku... 38 tab. 9: Získání operačního skóre... 38 tab. 0: Získání fyzologckého skóre... 39 tab. : Lneární analýza pro pacenty operované laparoskopcky... 40 tab. 2: Lneární analýza pro pacenty operované otevřenou metodou... 40 tab. 3: Exponencální analýza pro pacenty operované laparoskopcky... 4 tab. 4: Exponencální analýza pro pacenty operované otevřenou metodou... 4 tab. 5: P-value pro ednotlvé testy... 42 tab. 6: Lneární analýza pro pacenty operované laparoskopcky... 45 tab. 7: Exponencální analýza pro pacenty operované laparoskopcky... 45 tab. 8: Vylepšená exponencální analýza pro pacenty operované laparoskopcky... 46 tab. 9: P-value pro ednotlvé testy... 46 tab. 20: Lneární analýza pro pacenty operované otevřenou metodou... 47 tab. 2: Exponencální analýza pro pacenty operované otevřenou metodou... 47 tab. 22: Vylepšená exponencální analýza pro pacenty operované otevřenou metodou.. 48 tab. 23: P-value pro ednotlvé testy... 48-0 -
Obsah. Úvod... 3 2. Logstcká regrese... 4 2.. Testování hypotéz... 4 2... Testové krtérum... 5 2..2. Chyba I. a II. druhu... 5 2..3. Čstý test významnost... 6 2.2. Metoda maxmální věrohodnost... 6 2.3. Jednorozměrná logstcká regrese... 7 2.3.. Testování významnost koefcentů... 9 2.4. Vícerozměrná logstcká regrese... 2 2.4.. Testování významnost koefcentů... 22 3. Verfkace modelu... 23 3.. Lneární analýza... 23 3.2. Exponencální analýza... 25 3.3. Vylepšená exponencální analýza... 28 3.4. Pearsonova statstka a devance... 29 3.5. Hosmer Lemeshowy testy... 3 4. Pops algortmů... 33 4.. R... 33 4.2. Požadavky na vstup... 33 4.3. Lneární a exponencální analýza... 34 4.4. Funkce vraceící p-value... 35 5. Zpracování dodaných dat... 36 5.. Datový soubor... 36 5... Operační a fyzologcké skóre, model POSSUM... 38 5.2. Aplkace známých modelů... 39 5.3. Vytvoření nového modelu... 42 5.4. Verfkace nového modelu... 44 5.4.. Verfkace modelu pro laparoskopckou operac... 45 5.4.2. Verfkace modelu pro otevřenou operac... 47 - -
6. Závěr... 49 7. Lteratura a reference... 50-2 -
Úvod. Úvod Rakovna kolon a rekta, obvykle souhrnně označována ako rakovna kolorekta, patří do pětce nečastěších rakovnových onemocnění ak u nás, tak ve světě. Z tohoto důvodu e tomuto typu rakovny věnována vysoká pozornost většny lékařských zařízení. Obrovský pokrok medcíny na přelomu tsícletí vedl k vyvnutí léčebných postupů, které umožňuí úspěšnou léčbu této zákeřné choroby. Jednou takovou metodou e laparoskopcká operace. Tato moderní operační metoda s postupně získala značnou oblbu hlavně proto, že přnáší nemenší zátěž pro organsmus pacenta. V případě operací nás v konečném důsledku zaímaí dvě hodnoty: mortalta a morbdta. Z hledska mortalty e obvykle sledována časná mortalta, obvykle do třcet dnů od provedení operace. Sledování morbdty e obvykle komplkovaněší. Komplkací, které se mohou vyskytnout, e šroké spektrum a ne vždy musí být přímo způsobeny chrurgckým zásahem. Zřemě z tohoto důvodu se procentuální výskyt komplkací u provedených operací vyskytue v rozmezí od 4 % až po 26 %. Pro lékaře by byl velm užtečný nástro, který by byl schopen určt rzko výskytu komplkací. Mnoho lékařských pracovšť se touto problematkou zabývá a ž došlo k vytvoření mnoha skórovacích systémů. Jedním z takovýchto systémů e POSSUM (Physologcal and Operatve Severty Score for the enumeraton of Mortalty and Morbdty). Tento model byl vytvořen ž v roce 99 a e využíván neen pro odhad rzk u operací kolorekta, ale u ných typů zákroků, a e honě aplkován zeména ve Velké Brtán. - 3 -
Logstcká regrese 2. Logstcká regrese Logstcká regrese e dnes velce populární metoda. Přes skromné počátky v epdemologckém výzkumu se postupně dostala do dalších odvětví a v současnost se s ní můžeme setkat v bomedcíně, ekonomce, krmnalstce, ekolog a socolog. V této kaptole nadefnueme ednorozměrnou logstckou regres, kterou pak dále rozšíříme na vícerozměrnou verz. Rovněž se zde zaměříme na testování významnost ednotlvých koefcentů. Protože budeme dále používat testování hypotéz a metodu maxmální věrohodnost, nadefnueme nedříve tyto pomy. 2.. Testování hypotéz Statstckou hypotézou rozumíme výrok o rozdělení pozorované náhodné velčny. Tato hypotéza může poednávat o parametrech rozdělení náhodné velčny nebo o vlastnostech náhodné velčny. Test statstcké hypotézy mplkue rozhodovací proces, kdy na základě výběrového souboru rozhodueme o nezamítnutí nulové hypotézy, nebo o zamítnutí nulové hypotézy ve prospěch alternatvní hypotézy. Nulová hypotéza H 0 vyadřue nulovost sledovaného efektu. Obvykle e vyádřena rovností mez testovaným parametrem θ a eho očekávanou hodnotou θ 0. H : θ = θ 0 0 Alternatvní hypotéza H A e nám vybraná tak, aby popírala tvrzení dané nulové hypotézy. To nám tedy dává celkem čtyř možnost ak zformulovat alternatvní hypotézu. ) ) ) ) H : θ = θ A 2 H : θ θ A 3 H : θ < θ A 0 0 4 H : θ > θ A 0-4 -
Logstcká regrese 2... Testové krtérum Obor hodnot testovaného parametru θ se dělí na dvě dsunktní množny. První e obor přetí V pro testovanou hypotézu H 0, druhý se nazývá krtcký obor W pro zamítnutí hypotézy H 0. Tento krtcký obor stanovueme tak, aby pravděpodobnost výskytu pozorované hodnoty testovaného parametru θ v něm byla velm malá. Hranc mez krtckým oborem a oborem přetí nazýváme krtcká hodnota testu t krt. Padne-l pozorovaná hodnota testovaného parametru θ do oboru přetí V, nulovou hypotézu H 0 nezamítáme. Padne-l do krtckého oboru W, pak nulovou hypotézu H 0 zamítáme ve prospěch alternatvy H A. Krtcký obor W lze popsat pomocí krtckého oboru W* testového krtéra T ( X ). Testové krtérum T ( X ) e výběrová charakterstka, která má vztah k nulové hypotéze H 0. Za předpokladu platnost nulové hypotézy H 0 známe rozdělení tohoto krtéra. Následně padne-l pozorovaná hodnota testového krtéra T ( X ) do krtckého oboru W*, zamítáme nulovou hypotézu H 0. V opačném případě H 0 nezamítáme. 2..2. Chyba I. a II. druhu Př testování hypotéz mohou nastat čtyř různé případy. Ke správnému rozhodnutí dospěeme tehdy, platí-l nulová hypotéza a my nezamítáme, nebo platí alternatvní hypotéza a my nulovou hypotézu zamítneme. V prvním případě hovoříme o spolehlvost testu a značíme α. Výhodou e, že s tuto hladnu určueme sam, a e nám tedy předem známa. Hodnotu α obvykle volíme 0,05, což nám dává spolehlvost 95%. Ve druhém případě hovoříme o síle testu, značíme β. Chyb se dopouštíme v případě zamítnutí nulové hypotézy tehdy, e-l ve skutečnost platná. Tuto chybu nazýváme chyba I. druhu, dopouštíme se í s pravděpodobností α a nazýváme hladna významnost. Chybou II. druhu značíme rozhodnutí, kdy nulovou hypotézu nezamítáme přesto, že ve skutečnost platí alternatva. Této chyby se dopouštíme s pravděpodobností β. Žádná z těchto chyb nelze zcela elmnovat, proto se snažíme postupovat tak, abychom se dopouštěl co nemenší chyby. Bohužel pokud snížíme β, zvyšueme zároveň hladnu významnost a naopak. Musíme tedy naít deální poměr těchto chyb. Spolehlvost testu s volíme sam. Sílu testu můžeme zvýšt volbou vhodné testovací metody. Nelepším způsobem, ak snížt β e ale zvýšení rozsahu našeho výběrového souboru. V tomto případě snžueme chybu II. druhu, anž bychom zvyšoval chybu I. druhu. - 5 -
Logstcká regrese Naše zštění Nezamítáme H 0 Zamítáme H 0 Skutečnost Platí H 0 Neplatí H 0 Správně -α: spolehlvost testu Chyba II. druhu β Chyba I. druhu α: hladna významnost Správně -β: síla testu tab. : Možnost př testování hypotéz 2..3. Čstý test významnost Př testování hypotéz můžeme využít dvou přístupů. Prvním e klascký test, který e však v moderních aplkacích nahrazen druhým přístupem, čstým testem významnost. U klasckého testu e součástí vstupu hladna významnost α, zatímco u čstého testu tuto hodnotu a pror znát nemusíme. Postup př čstém testu významnost e: ) Formulace H 0 a H A 2) Volba testového krtéra T ( X ) 3) Výpočet pozorované hodnoty x obs testové statstky T ( X ) 4) Výpočet p-value 5) Rozhodnutí na základě p-value P-value e číselná hodnota, která nám říká, aká e nenžší hladna významnost, na které můžeme nulovou hypotézu H 0 zamítnout, a zároveň nevyšší hladna významnost, na níž se už nulová hypotéza H 0 nezamítá. S klesaící hodnotou p-value roste výpověď náhodného výběru prot nulové hypotéze H 0. K rozhodování tedy využíváme následuící schéma: P-value Rozhodnutí < α Zamítnutí H 0 ve prospěch H A > α Nezamítnutí H 0 tab. 2: Rozhodování na základě p-value 2.2. Metoda maxmální věrohodnost MMV e ednoduchá metoda používaná pro konstrukc odhadů neznámých parametrů známých rozdělení pravděpodobnost. Př MMV maxmalzueme věrohodnostní funkc, která představue sdruženou hustotu pravděpodobnost daného náhodného výběru, chápanou ako funkc neznámých parametrů. Odhady získané touto metodou se obvykle vyznačuí dobrým statstckým vlastnostm. - 6 -
Logstcká regrese Nechť ( t t ) e náhodný výběr z rozdělení s hustotou ( ; ),..., T n parametr. Snažíme se naít tzv. věrohodnostní funkc danou a z ní získat ˆΘ tak, aby ( t t ) n L t,..., t ; f t ; f t ;... f t ; f t ; f t Θ, kde Θ e neznámý ( Θ ) = ( Θ) ( Θ) ( Θ ) = ( Θ) n 2 n = ˆ ˆ,..., n Θ = Θ bylo co nelepším odhadem pro Θ. Pravá strana rovnce e sdružená hustota pravděpodobnost n-nezávslých proměnných ( t,..., t n ) se steným rozdělením. Věrohodnostní funkce L e funkcí neznámého parametru Θ, který e odhadován. Metoda maxmální věrohodnost e založena na nalezení takové hodnoty Θ, aby hodnota věrohodnostní funkce L byla maxmální. Praktcké aplkace ukázaly, že e výhodněší maxmalzovat funkc ln L. Maxmálně věrohodným odhadem parametru Θ nazveme hodnotu parametru získanou z této rovnce: ( ) ln L t,..., t n ; Θ = Θ 0. Pokud e hledaných parametrů více, přede výše uvedená rovnce na soustavu rovnc ( tn p ) ln L t,..., ; Θ,..., Θ = 0 pro =,2,..., p a eím vyřešením získáme hledané parametry Θ Θ, Θ2,..., Θ p. 2.3. Jednorozměrná logstcká regrese Cílem modelování e vždy nalézt model, který nelépe popsue zdroová data a ech vztah ke konkrétní vysvětlované velčně. V logstcké regres e vysvětlovaná (závslá, outcome) velčna bnární, nečastě nabývaící hodnot 0 a, ev nenastal, nebo nastal. Měme vzorek n nezávslých dvoc (, ) x y, =, 2,..., n, kde y označue bnární závslou proměnnou a x e hodnota nezávslé proměnné pro -tý obekt. Model pro logstckou regres vypadá následovně: π ( x) β0 + βx e = β0 + βx. + e V logstcké regres navíc využíváme tzv. logtovou transformac, která e defnována: - 7 -
Logstcká regrese ( ) g x ( x) ( x) π = ln = β0 + βx. π Tato transformace má řadu příemných vlastností, které sdílí s lneární regresí. Logt g ( x ) e lneární ve svých parametrech, může být spotý a v závslost na rozsahu x může nabývat hodnot od až po +. Pro naplnění logstckého modelu potřebueme znát hodnoty parametrů β0, β. Pro ech nalezení se v případě logstcké regrese používá metoda maxmální věrohodnost. Pokud Y nabývá hodnot 0 a, dává výraz pro π ( x) podmíněnou pravděpodobnost P( Y = x). Odtud snadno plyne, že výraz π ( x) dává pravděpodobnost P( Y = 0 x). Tedy pro dvoce ( x, y ), kde y =, e přínos k věrohodnostní funkc ( ) y =, e přínos π ( x ) kde 0. Tento fakt můžeme ednoduše zapsat do vztahu y ( x ) π ( x ) y π. x π a pro dvoce, Protože předpokládáme nezávslost ednotlvých dvoc, dostaneme fnální věrohodnostní funkc ako součn výše uvedeného výrazu: n y. y ( β, β ) = π ( ) π ( ) l 0 x x = Pro maxmalzac použeme funkc: y ( β, β ) ln ( β, β ) ln π ( ) π ( ) L l x x n = = = 0 0 = n n β0 + βx β0 + βx e e = y ln π ( x ) + ( y ) ln π ( x ) = y ln ( y ) ln β0 + βx + = β0 + βx = = + e + e n y= β0 + βx β0 + βx ( ) ( ) ( ) = y β0 + βx ln + e y ln + e = y n y x e β β. = 0 + x ( β0 β ) ln ( ) = + + - 8 -
Logstcká regrese Posledním krokem pro získání maxmálních věrohodných odhadů pomocí MMV e sestavení věrohodnostních rovnc a ech vyřešení. K tomu potřebueme příslušné parcální dervace podle hledaných parametrů β0, β : ( β, β ) n β0 + βx L n 0 e = y y π ( x β ) 0 + βx = β0 = e + = ( β, β ) n β + β x n L 0 x e = = 0 β = e + = 0 x y x x y π ( x β + β ). Příslušná soustava věrohodnostních rovnc e: n = n = ( x ) y π = 0 ( ) x y π x = 0 Obdržel sme nelneární soustavu dvou rovnc o dvou neznámých. K vyřešení této soustavy se obvykle používaí terační metody, které sou zpravdla ž mplementovány v příslušných statstckých balíčcích. My se těmto metodam zabývat nebudeme. Po vyřešení této soustavy dostaneme maxmálně věrohodný odhad β ( β, β ). =, který budeme značt ˆβ. Obdobně maxmálně věrohodný odhad π ( x ) bude značen ˆ ( x ) 0 π. 2.3.. Testování významnost koefcentů Jakmle obdržíme odhad koefcentů, zaměří se naše pozornost na ednotlvé proměnné v modelu. To obvykle zahrnue formulac a testování statstcké hypotézy za účelem zštění, zda-l nezávslé proměnné v modelu maí významný vlv na vysvětlovanou proměnnou. Jeden z přístupů k testovaní významnost koefcentů klade otázku, řekne-l nám model, který obsahue danou proměnnou, o vysvětlované proměnné více než model, který tuto proměnnou neobsahue. Tuto otázku zodpovíme porovnáním pozorovaných hodnot závslé proměnné s dvěma predkovaným hodnotam z modelu s a bez proměnné, která nás zaímá. Pokud e předpovídaná proměnná v stém smyslu lepší nebo přesněší v modelu obsahuícím zkoumanou proměnnou než v modelu, který tuto proměnnou neobsahue, považueme tuto proměnnou za významnou. - 9 -
Logstcká regrese Metodkou tedy bude porovnání pozorovaných hodnot závslé proměnné s predkovaným hodnotam, které získáme z modelu obsahuící zkoumanou proměnnou, s modelem, který tuto proměnnou neobsahue. V logstcké regres e toto porovnání založeno na logartmcké věrohodnostní funkc (, ) L β β. Konceptuálně uvažueme o pozorovaných 0 hodnotách závslé proměnné ako o predkovaných hodnotách saturovaného modelu. Saturovaným modelem pak rozumíme model, který obsahue tolk parametrů β, kolk e v souboru pozorování. Toto porovnání pak zachycue tento vztah: věrohodnost naplňovaného modelu D = 2ln věrohodnost saturovaného modelu Hodnota uvntř závorek se nazývá věrohodnostní poměr. Použtím záporného dvonásobku logartmu obdržíme hodnotu se známým rozdělením vhodným pro testování hypotéz. Dosazením obdržíme: ( x ) ˆ π ˆ π D = 2 y ln + y ln ( x ) n ( ) = y y Statstce D se říká devance. Navíc věrohodnost saturovaného modelu e rovna, což ˆ y přímo plyne z defnce saturovaného modelu, kde ( x ) n = y y ( y ) y π = a pro věrohodnost platí =. Vztah pro devanc D tedy můžeme zednodušt: D = 2ln [ věrohodnost naplňovaného modelu ]. Pro zhodnocení významnost nezávslé proměnné porovnáme hodnotu devance D s a bez nezávslé proměnné v rovnc. Změnu v D pak vyádříme: [ model bez proměnné] [ model s proměnnou ] G = D D. Věrohodnost saturovaného modelu e obsažena v obou hodnotách D ve zmíněném rozdílu, proto můžeme vztah pro G zavést následovně: věrohodnost bez proměnné G = 2ln věrohodnost s proměnnou. - 20 -
Logstcká regrese Pro specální případ edné nezávslé proměnné se dá ukázat, že v případě absence proměnné v modelu e maxmálně věrohodný odhad β 0 roven ln n n, kde n = y, n ( y ) a predkovaná hodnota e konstantní = 0 n = 0 n. V tomto případě pro G platí: n n n0 n n0 n n G = 2ln = n y y ˆ π ( x ) ˆ π ( x ) = ( ) ( ) ˆ π ( ) [ ] = 2 y ln ˆ π x + y ln x 2 n ln n + n0 ln n0 n ln n Pokud testueme hypotézu 0 s edním stupněm volnost). β =, pak G χ 2 ( ) ( G má ch-kvadrát rozdělení Pokud používáme něaký statstcký software, e v něm obvykle stá forma testu významnost koefcentů mplementována a ako výstup obdržíme p-value. V případě programu Statgraphcs testueme hypotézu: H 0 : Výpověď testovaného parametru není dostatečně významná a daný parametr můžeme z modelu vynechat H A : Výpověď testovaného parametru e statstcky významná a měl by být ponechán Rozhodnutí pak učníme na základě obdržené p-value v souladu s postupem př čstém testu významnost. 2.4. Vícerozměrná logstcká regrese Měme p nezávslých proměnných vektorově zapsaných x ( x, x2,..., x p ) podmíněnou pravděpodobnost, že výstup nastal P( Y x) π ( x) logstckého regresního modelu má tvar: ( ) β0 β β2 2... β p p =. Označme = =. Logt vícerozměrného g x = + x + x + + x. Příslušný model logstcké regrese e pak ve tvaru: - 2 -
Logstcká regrese ( ) g x e π ( x) = g( x). + e Předpokládeme, že máme vzorek n nezávslých pozorování (, ) x y, =, 2,..., n. Steně ako v ednorozměrném případě potřebueme pro naplnění regresního modelu získat odhady vektoru β ( β0, β, β2,..., β p ) =. I ve vícerozměrném případě k ech získání využeme metodu maxmální věrohodnost. Věrohodnostní funkce bude v podstatě dentcká ako v ednorozměrném případě, edným rozdílem e nepatrně rozdílná defnce π ( x). Po dervování log věrohodnostní funkce vzhledem k p + parametrům obdržíme soustavu p + věrohodnostních rovnc, která vypadá následovně: n = n = ( ) ( x ) y π = 0 x y π x = 0, =, 2,..., p Řešení této soustavy e opět numercké povahy a příslušná metodologe e ž zabudována ve statstckých balíčcích. Označme řešení této soustavy ˆβ, získané hodnoty z modelu pro logstckou regres ˆ ( x ) π. 2.4.. Testování významnost koefcentů Steně ako v ednorozměrné logstcké regres e prvním krokem po naplnění modelu zvážení významnost ednotlvých proměnných. Test věrohodnostního poměru pro celkovou významnost p koefcentů pro nezávslé proměnné modelu e prováděn naprosto steně a e založen na hodnotě G ako v ednorozměrném případě. V tomto případě hledané hodnoty ˆ π obsahuí vektor s p + parametry ˆβ. Stanovíme-l nulovou hypotézu tak, že p hodnot koefcentů zakřvení v modelu sou nulové, má G ch-kvadrát rozdělení s p stupn 2 volnost: G χ ( p). - 22 -
Verfkace modelu 3. Verfkace modelu V předchozí kaptole sme vytvořl regresní model a rozhodl sme o tom, které proměnné sou statstcky významné. V této část se zaměříme, ak dobře model popsue vysvětlovanou proměnnou. Nedříve se podíváme na lneární a exponencální analýzu. Tyto metody nám dávaí zběžný pohled na to, ak dobře model predkue, anž bychom se musel zabývat testováním hypotéz. Použtí těchto metod bylo navrženo v [9]. Druhou skupnou budou verfkační metody, kde ž přkročíme k testování hypotéz, a tedy výpověď těchto metod bude slněší. V této kaptole předpokládáme, že logstcký regresní model ( x) k dspozc, tedy pro logtovou funkc ( ) 0... p p parametrů β0, β,..., β p. ( ) g x e π = máme g( x) + e g x = β + β x + + β x známe hodnotu všech 3.. Lneární analýza Lneární analýza e ednoduchá metoda, eíž výstup se dá neednoduše charakterzovat následuící tabulkou: Procentuální skupna [%] Počet pozorování ve skupně Počet výskytů sledovaného znaku ve skupně <0 n 0 9 n 2 2 20 29 n 3 3 30 39 n 4 4 40 49 n 5 5 Předpovídaný počet výskytů sledovaného znaku ve skupně = 0, 045* v p n = 0,45* v p2 n2 = 0, 245* v p3 n3 = 0,345* v p4 n4 = 0, 445* v p5 n5 Poměr sledovaných znaků ku předpovídaným znakům v p v p 2 2 v p 3 v p 3 4 4 v5 p 5-23 -
Verfkace modelu 50 59 n 6 6 60 69 n 7 7 70 79 n 8 8 80 89 n 9 9 >89 n 0 0 Celkem 0 n = n = = 0,545* v p6 n6 = 0, 645* v p7 n7 = 0, 745* v p8 n8 = 0,845* v p9 n9 = 0,945* v p0 n0 0 v = v = 0 p = p = v p 6 6 v p 7 7 v p 8 v p 8 9 v p 9 0 0 v p tab. 3: Tabulka lneární analýzy První sloupec e pevně dán. Hodnoty ve druhém sloupc obdržíme tak, že dosadíme do modelu ( x) e ( ) g x π = hodnoty vysvětluících proměnných x + ( x, x2,..., x p ) ( ) - 24 - = a podle g x e získaného výsledku zvedneme počítadlo n v příslušném řádku. Pokud navíc tato konkrétní realzace náhodného vektoru měla přítomný znak vysvětlované proměnné, zvedneme počítadlo ve třetím sloupc. V pátém sloupc nás zaímá poměr počtu skutečných výskytů a počtu predkovaného výskytu. Ideálně bychom s přál, aby na každém řádku bylo číslo blízké ednčce, tedy skutečnost se shodue s předpovědí. Číslo větší než edna značí optmstcký model, kdy výskyt vysvětlované proměnné e ve skutečnost vyšší, než náš model předpovídá. Hodnoty menší než edna pak značí pesmstcký model, kdy model předpovídá větší výskyt vysvětlované proměnné, než e skutečnost (předpokládáme, že přítomnost znaku u vysvětlované proměnné e negatvum, např. morbdta, mortalta atd.). Příklad: Měme danou logt funkc g ( x) =,434 + 0,025* FS + 0,054* OS a vzorek dat s vysvětlovanou proměnnou Pooperační komplkace: Fyzologcké skore FS Operační skore OS Pooperační komplkace 2 0 24 5 0 39 5 20 50 8 0 0 39 20 0 0 40 7 0 44 23 8 39 5 3 0 4 π ( x)*00
Verfkace modelu 9 7 0 49 4 9 0 35 tab. 4: Vzorek dat Tabulka pro lneární analýzu bude vypadat následovně: Skupna [%] Počet pozorování Počet komplkací Predkovaný počet komplkací Poměr komplkací ku předpovídaný <0 0 0 0 0 9 0 0 0 20 29 0 N 30 39 4 40 49 4 0 2 0 50 59 60 69 0 0 0 70 79 0 0 0 80 89 0 0 0 >89 0 0 0 Celkem 0 3 4 0,75 tab. 5: Příklad lneární analýzy pro vzorek dat Z příkladu vdíme, že v lneární analýze může nastat problém pro dělení nulou. V tomto případě budeme brát výraz 0 0 = a číslo 0 = N. 0 3.2. Exponencální analýza Podobně ako u lneární analýzy se u exponencální analýzy snažíme vytvořt procentuální skupny a porovnat počty výskytů vysvětlované proměnné s predkovaným hodnotam. Jednotlvá pozorování rozdělíme do skupn podle vypočtené hodnoty π ( x) na základě ednotlvých realzací vysvětluících proměnných, vyádřených v procentech. Analýza se provádí od skupny 90 00 a postupně zvětšueme nterval po 0 procentech (80 00, 70 00 atd.) až do doby, kdy bude vyhovovat podmínce, aby předpovídaný počet pacentů měl vzrůstaící tendenc (byl stený) vzhledem k předchozí skupně. Analýza e prováděna zdola nahoru. Jestlže dode k porušení podmínky, analýza zdola nahoru se zastaví a skupna, u které došlo k porušení podmínky, se do analýzy nepočítá. Pokračue se dále analýzou shora dolů. Pro tuto analýzu e důležtá poslední skupna analýzy zdola dolů, u které nedošlo - 25 -
Verfkace modelu k porušení podmínky. Jeí dolní hrance bude určovat horní hranc skupn u analýzy shora dolů. Předpovídaný počet dostaneme následuícím způsobem: předpověď = počet ve skupně*dolní hrance skupny/00 Příklad: Použeme data z předchozího příkladu. Začínáme shora: Skupna [%] Rozšíříme nterval: Počet pozorování Počet komplkací Predkovaný počet komplkací 90 00 0 0 0 Skupna [%] Počet pozorování Počet komplkací Predkovaný počet komplkací 80 00 0 0 0 90 00 0 0 0 Takto pokračueme dále až obdržíme: Skupna [%] Počet pozorování Počet komplkací Predkovaný počet komplkací 20 00 0 3 2 30 00 9 2 3 40 00 5 2 50 00 60 00 0 0 0 70 00 0 0 0 80 00 0 0 0 90 00 0 0 0 Vdíme, že u ntervalu 20 00 došlo k porušení podmínky. Predkovaný počet komplkací e 2, avšak v předchozí skupně 30 00 e predkovaný počet komplkací 3. Interval 20 00 tedy do analýzy nebudeme počítat a začneme s novou horní mezí ntervalu 30: Skupna [%] Počet pozorování Počet komplkací Predkovaný počet komplkací 20 30 0 30 00 9 2 3-26 -
Verfkace modelu 40 00 5 2 50 00 60 00 0 0 0 70 00 0 0 0 80 00 0 0 0 90 00 0 0 0 Opět pokračueme steným způsobem, až obdržíme: Skupna [%] Počet pozorování Počet komplkací - 27 - Predkovaný počet komplkací 0 30 0 0 30 0 20 30 0 30 00 9 2 3 40 00 5 2 50 00 60 00 0 0 0 70 00 0 0 0 80 00 0 0 0 90 00 0 0 0 Fnální tabulka exponencální analýzy vypadá následovně: Skupna [%] Počet pozorování Počet komplkací Predkovaný počet komplkací Poměr komplkací ku předpovídaný 0 30 0 N 0 30 0 N 20 30 0 N 30 00 9 2 3 0,66 40 00 5 2 0,5 50 00 60 00 0 0 0 70 00 0 0 0 80 00 0 0 0 90 00 0 0 0 Celkem 0 3 3 tab. 6: Příklad exponencální analýzy pro vzorek dat Nepraktckou vlastností exponencální analýzy e nutnost několkerého přepočtu v případě porušení podmínky. Navíc se tento bod přepočtu lší soubor od souboru. Navíc e neasné, ak přstupovat k analýze ednotlvých podskupn. Pokud bychom například chtěl zstt poměr ve skupně 20 40, nemůžeme ednoduše sečíst hodnoty ve skupnách 20 30 a 30 40, protože zde došlo k přepočtu a pásmo 30 40 rovněž nemůžeme nezávsle
Verfkace modelu analyzovat vůč pásmu 30 00. Druhým problémem e nutnost počítání a přepočítávání ednotek v daném pásmu. Jednotka, která e v oblast 90 00 e započítána pro 80 00, 70 00 až po 30 00, zatímco ná ednotka s pravděpodobností 35% e započtena ednou en v pásmu 30 00. I přes tyto nedostatky a přes velm omezený datový soubor vdíme, že v celkovém součtu exponencální analýza predkovala trošku lépe, než lneární. 3.3. Vylepšená exponencální analýza U exponencální analýzy sme predkované hodnoty dostal takto: předpověď = počet ve skupně*dolní hrance skupny/00. Jedná se však o odhad, který nemusí dostatečně popsovat chování modelu. Alternatvou e použít větu o úplné pravděpodobnost pro výpočet predkované hodnoty. Označme x modelem predkovaný počet komplkací ve skupně ( a, b ), která obsahue n pacentů a P( A ) pravděpodobnost, že náhodně vybraný pacent ze skupny ( a, b ) bude mít komplkace. Potom x = np( A). Jestlže se ve skupně (, ) - 28 - a b vyskytlo r různých pravděpodobností komplkací p, p2,..., p r a n e počet pacentů s pravděpodobností komplkace p, pak můžeme psát n x = n p = p n r r n = =. Pokud provedeme přeznačení a každému -tému pacentov ze skupny ( a, b ) přřadíme pravděpodobnost komplkace dostaneme: n x = p Počet predkovaných komplkací v dané skupně pacentů tedy určíme ako součet pravděpodobností komplkací ednotlvých pacentů této skupny. Příklad: Na předchozí příklad exponencální analýzy aplkueme vylepšenou exponencální analýzu: Skupna [%] Počet pozorování = Počet komplkací Predkovaný počet komplkací Poměr komplkací ku předpovídaný 0 30 0 N 0 30 0 N 20 30 0,24 (0,2) N 30 00 9 2 3,76 (2,7) 0,53 40 00 5 2,24 (2) 0,44 p, pak
Verfkace modelu 50 00 () 60 00 0 0 0 70 00 0 0 0 80 00 0 0 0 90 00 0 0 0 Celkem 0 3 3 tab. 7: Příklad vylepšené exponencální analýzy pro vzorek dat V tabulce e uveden předpovídaný počet komplkací pomocí věty o úplné pravděpodobnost, v závorce sou hodnoty z původní analýzy. I když na tomto příkladu vypadá vylepšená exponencální analýza ako horší, musíme brát na vědomí extrémně nízký počet použtých dat. Data nebyla vybrána pro rozhodnutí nevhodněšího postupu, ale pro lustrac vytváření ednotlvých analýz. 3.4. Pearsonova statstka a devance V textu se dále obeví poem kovarační schéma. Tímto rozumíme ednoznačnou kombnac hodnot všech vysvětluích proměnných. Máme-l dvě vysvětluící proměnné kódované { 0, } a { 0, },bude kovarační schéma vypadat takto: {( ) ( ) ( ) ( )} Dále označíme J ako počet unkátních pozorovaných hodnot x = ( x, x2,..., x p ). Pokud 0,0, 0,,,0,,. některé subekty maí stené hodnoty x, platí J < n. Počet subektů s x = x označíme ako m pro =, 2,..., J. Je zřemé, že J m = n. Obvykle předpokládáme, že J n = očekáváme přítomnost alespoň edné spoté vysvětluící proměnné v modelu., elkož V logstcké regres e více způsobů, ak měřt rozdíl mez pozorovaným a vypočteným hodnotam. Pro zdůraznění, že vypočtené hodnoty sou v logstcké regres počítány pro každé kovarační schéma, označíme -té kovarační schéma ako y ˆ, kde a ˆ ( ) g x rozumíme odhadnutý logt. yˆ = m ˆ π = m gˆ ( x ) e ( ) + e gˆ x Pro konkrétní kovarační schéma e Pearsonovo resduum defnováno ako: - 29 -
Verfkace modelu ( ˆ, π ) r y = ( y ˆ m π ) m ˆ ( ˆ π π ). Statstka založená na těchto resduích se nazývá Pearsonova chí-kvadrát statstka: (, ˆ ) 2 J 2 Χ = r y π. = Provádíme tedy součet resduí přes všechna kovarační schémata, která se nám vyskytuí v datech. Resdua devance defnueme: y m y d ( y, ˆ π ) = ± 2 y ln + ( m y ) ln m ˆ π m ( ˆ π ) znaménko před odmocnnou e shodné se znaménkem výrazu ( y ˆ m π ) schéma, kde by nastal případ, že y = 0 : ( ˆ ) ( ˆ, π = 2m ln π ) d y,. Pro kovarační a pro případ, že y = m : ( ˆ ) ( ˆ, π 2m ln π ) d y =. Součtová statstka založena na resduích devancí e devance J = (, ˆ ) 2 D = d y π. V případě, že J 3.3.. = n, se edná o stenou hodnotu, aká byla vyádřena pro devanc v kaptole - 30 -
Verfkace modelu Rozdělení statstky předpokladech, e chí-kvadrát s J ( p ) 2 Χ a D za předpokladu, že získaný model e korektní ve všech + stupn volnost. Pokud však J n, vzrůstá počet parametrů steně rychle ako velkost souboru. Proto e p-value vypočtená pro tyto dvě 2 statstky v případě J n použtím rozdělení χ ( J p ) nesprávná. Jedním způsobem, ak se tomuto chybnému výpočtu vyhnout, e zavést určté seskupování. Na tom sou založeny testy v následuící kaptole. 3.5. Hosmer Lemeshowy testy Hosmer a Lemeshow v [] a [2] navrhl seskupování založené na hodnotách odhadnutých pravděpodobností. Předpokládeme J = n. Budeme předpokládat, že n sloupců odpovídá n hodnotám odhadnutých pravděpodobností, kde první sloupec náleží nemenší hodnotě a n-tý sloupec nevětší hodnotě. Byly navrženy dvě seskupovací stratege. V první rozdělíme tabulku podle percentlů odhadnutých pravděpodobností a v druhé rozdělíme podle pevných hodnot odhadnutých pravděpodobností. V první metodě př použtí deset skupn bude první skupna obsahovat n = n /0 subektů s nemenší hodnotou odhadnuté pravděpodobnost a poslední n 0 = n /0 subektů s nevyšší hodnotou odhadnuté pravděpodobnost. U druhé metody s volbou desít skupn dostaneme hranční body s hodnotam k /0, k =, 2,...,9, kde každá skupna obsahue hodnoty odhadnutých pravděpodobností mez dvěma hrančním body, tedy první skupna obsahue subekty, pro které e odhadnutá pravděpodobnost menší nebo rovna 0,, druhá hodnoty mez 0, a 0,2 a poslední obsahue hodnoty vyšší než 0,9. Pro řádky s y = dostaneme odhady očekávaných hodnot ako sumu odhadnutých pravděpodobností přes všechny subekty skupny. Pro řádky s y = 0 dostaneme odhad očekávaných hodnot součtem edna mnus odhadnutá pravděpodobnost pro všechny subekty ve skupně. Ať už použeme seskupování podle první č druhé metody, dostaneme statstku Ĉ pro Hosmer Lemeshowův test dobré shody výpočtem Pearsonovy chí-kvadrát statstky z tabulky g 2 pozorovaných a odhadnutých četností. Pro výpočet použeme vzorec: Cˆ = g 2 ( ok n kπ k ) n π ( π ), k = k k k - 3 -
Verfkace modelu kde n k e celkový počet subektů v k-té skupně, c k značí počet kovaračních schémat v k-tém declu, o k c k = y a π = = k c k = m ˆ π n aproxmováno chí-kvadrát rozdělením s 2 k. Rozdělení testové statstky pro Ĉ e dobře 2 g stupn volnost, C ˆ χ ( g 2 ). Podle [3] e doporučené používat seskupovací metodu založenou na percentlech 2 odhadovaných pravděpodobností z důvodu větší podobnost s ( g 2) χ. Rovněž se doporučue používat deset skupn g = 0. Tyto skupny se pak nazývaí decly rzk. V [4] autoř doporučuí k výše uvedené metodě použít metodu normální aproxmace dstrbuce Pearsonovy chí-kvadrát statstky poprvé popsané Osem a Roekem v [5]. Postup e následuící:. Získání a uložení vypočtených hodnot modelu ˆ π, =, 2,..., J. 2. Vytvoření proměnné v ˆ ( ˆ m π π ) 3. Vytvoření proměnné c =, =, 2,..., J. 2 ˆ π =, =, 2,..., J. v 4. Vypočtení Pearsonovy chí-kvadrát statstky ( y ˆ ) 2 m π J 2 Χ =. 5. Provedení vážené lneární regrese c na kovarátech modelu x s váham v. Odtud dostaneme resduální součet čtverců a označíme e RSS. 6. Vypočtení opravy pro rozptyl J A = 2 J. = m 2 Χ J + p + 7. Vypočtení statstky z =. A + RSS 8. Vypočtení oboustranné p-value z normovaného normálního rozdělení. = v Výše uvedené testy nám poskytly metodku, ak získat p-value. Tato obdržená hodnota nám umožní provést rozhodnutí pro takto stanovené hypotézy: H 0 : Nám získaný model dobře popsue naše data H A : Náš model popsue data špatně a e třeba vytvořt ný model přdáním č odebráním nezávslých proměnných, případně získáním většího množství dat - 32 -
Pops algortmů 4. Pops algortmů V této kaptole budou popsány vytvořené algortmy, konkrétně ech požadovaný vstup a nterpretace ech výstupů. 4.. R Všechny funkce byly napsány v programovacím azyce a prostředí R. Jedná se o rozšíření komerčního produktu S, které e ovšem mplementováno pod svobodnou lcencí. Tento azyk e hlavně využívaný pro statstckou analýzu a rovněž obsahue funkce pro grafcké zobrazení těchto dat. V základní podobě e R v podstatě příkazový řádek, exstuí ovšem rozšíření přdávaící grafcké rozhraní (např. R Studo). Oblba tohota azyka vede eho obsažení v ných, někdy komerčních, aplkacích, akým sou SPSS a Open Offce. Popularta tohoto azyka e především dána možností vytvářet balíčky obsahuící funkce a procedury, které nesou v základní verz obsaženy. Tyto balíčky e možné stáhnout rovnou v základním rozhraní. Další výhodou R e možnost propoení s azyky C, C++, Java, nebo Python. x64. Všechny dále zmíněné funkce byly napsány ve verz R 3.0.2 (203-09-25) pro Wndows 4.2. Požadavky na vstup Všechny dále zmíněné funkce maí mnmálně dvě vstupní hodnoty. Datový soubor a vektor parametrů logstcké regrese β. R natvně nepodporue čtení dat z excelovského souboru.xls, má ovšem zabudovanou funkc pro čtení souborů s příponou.csv a MS Excel převod do tohoto formátu přímo umožňue. Pro načtení.csv souboru do R se pak používá funkce data=read.csv( nazev_souboru.csv,header=t,sep= ; ). Parametr header e bnární a má hodnotu T, pokud otevíraný soubor obsahue první řádek s popsky sloupců, nak má hodnotu F. Parametr sep e pro oddělovač, který v.csv souboru oddělue ednotlvé sloupce. MS Excel př převodu z.xls na.csv používá ako oddělovač středník ;, př použtí ných metod e nutno - 33 -
Pops algortmů brát na tuto položku zřetel. Samotný datový soubor pak musí obsahovat všechny nezávslé (vysvětluící) proměnné a ako poslední sloupec závslou (vysvětlovanou) proměnnou. Parametry logstcké regrese β musí být na vstup přvedeny v podobě vektoru, neednoduše příkazem beta=c( β,, β n, β 0 ). Pořadí ednotlvých koefcentů musí být stené ako pořadí ednotlvých sloupců v datovém souboru, absolutní člen e uváděn ako poslední. 4.3. Lneární a exponencální analýza Funkce, pro získání lneární a exponencální analýzy sou tř. Pro lneární analýzu e to lnan.r, pro exponencální analýzu expan.r a pro vylepšenou exponencální analýzu enhexpan.r. Použtím příkazu source danou funkc načteme a pak můžeme zavolat. Hlavčky těchto funkcí: lnan=functon(betas,datas) expan=functon(betas,datas) enhexpan=functon(betas,datas) Všechny tř maí stené vstupní parametry. První e vektor koefcentů β a druhým sou načtená data. Výstupem e pak tabulka, která e vdět na obrázku obr.. obr. : Výstup algortmu pro exponencální analýzu v R - 34 -
Pops algortmů 4.4. Funkce vraceící p-value Funkce, které vrací p-value, sou celkem čtyř a to pearson.r používaící Pearsonovu statstku, resdev.r založená na výpočtu resduí devance, osro.r používaící metodku navrženou Osem a Roekem a hoslem.r podle postupu Hosmera a Lemeshowa. Hlavčky těchto funkcí: pearson=functon(betas,datas,prntcov=false) resdev=functon(betas,datas,prntcov=false) OsRo=functon(betas,datas,prntcov=FALSE) HosLem=functon(betas,datas,prntcov=FALSE,groups=0) První vstupní parametr e opět pro hodnoty β, druhý pro vstupní data. Třetí parametr prntcov volaný s hodnotou TRUE způsobí vypsání kovaračních schémat vstupních dat. Čtvrtý parametr u funkce HosLem slouží k volbě počtu skupn. Všechny tyto funkce vrací hodnotu p-value tak, ak e popsáno v teoretcké část u ednotlvých metodk. - 35 -
Zpracování dodaných dat 5. Zpracování dodaných dat V této kaptole využeme všech teoretckých poznatků získaných v předchozích kaptolách. Použeme příslušný software pro získání modelů pro dostupná data a využeme vytvořených funkcí pro zhodnocení těchto modelů. 5.. Datový soubor K otestování našch algortmů nám byl poskytnut datový soubor z FNO. Tento soubor obsahue údae o operovaných pacentech s dagnózou rakovny kolon a rekta. Rozsah dodaného souboru čnl 666 pacentů, avšak čtyř záznamy musely být ze souboru vyřazeny kvůl chyběícím údaům. Tyto údae byly sbírány postupně v letech 200 2006. Základní charakterstky souboru zachycuí následuící grafy. Pohlaví 290; 44% 372; 56% muž žena obr. 2: Koláčový graf pro rozložení pohlaví datového souboru Z grafu e patrný vyšší počet pacentů mužského pohlaví. Tento nepoměr však pro nás neznamená žádné komplkace, skórovací systém pohlaví pacenta nezohledňue a tato nformace e zde uvedena pouze pro lepší lustrac dodaného souboru. - 36 -
Zpracování dodaných dat Metodka 358; 54% 304; 46% otevřeně laparoskopcky obr. 3: Koláčový graf pro způsob operace Operační metodka e pro nás důležtý úda. Model budeme vytvářet zvlášť pro pacenty operované laparoskopcky a zvlášť pro pacenty operované otevřenou metodou. Z grafu e patrné poměrně rovnoměrné rozložení obou skupn. obr. 4: Krabcový graf zachycuící věkové rozložení pacentů Na posledním grafu e zobrazeno věkové rozmezí pacentů. Nemenší věk e 7 let, nevětší 97. Průměrný věk v souboru e 63,4 let, medán 64 let. Hodnota prvního resp. třetího kvartlu e 57, resp. 73 let a směrodatná odchylka má hodnotu 3 let. - 37 -
Zpracování dodaných dat Pohlaví Komplkace Věk Laparoskopcky Otevřeně Mužů 24 58 Žen 44 46 Vyskytly 5 24 Nevyskytly 207 80 Mnmum 8 7 Maxmum 97 9 Průměr 62,3 64, Směrodatná odchylka 3,2 2,7 Medán 64 65 První kvartl 57 56,5 Třetí kvartl 7 74 tab. 8: Rozložení velčn pro danou metodku Protože budeme hledat modely odděleně pro laparoskopcké a otevřené operace, e rozdělení základních velčn rozepsáno v tabulce. 5... Operační a fyzologcké skóre, model POSSUM Jž v úvodu byl zmíněn model POSSUM, který slouží pro odhad výskytu komplkací u pacentů s rakovnou kolorekta. Na počátku stude bylo 62 rzkových faktorů, které se postupně zredukovaly na 8 nezávslých faktorů. Tyto faktory se dále dělí na 2 faktorů popsuících fyzologcký stav pacenta před operací a 6 faktorů samotného chrurgckého výkonu. Tyto dílčí faktory sou oceněny hodnotam,2,4 nebo 8, poté sou tyto hodnoty sečteny a výsledek e označený ako fyzologcké skóre pro 2 faktorů fyzologckého stavu pacenta a operační skóre pro 6 faktorů operačního zákroku. Následuící dvě tabulky převzaté z [6] a [7] popsuí získání těchto hodnot. Operační skóre Závažnost a rozsah operačního výkonu Vícečetné operace (v posledních 30 dnech) Celková ztráta krve (ml) Kontamnace pertoneální dutny Přítomnost malgnty Naléhavost operace Skóre 2 4 8 malý střední velký komplexní, rozsáhlý 2 > 2 00 0-500 50-999 000 žádná mnmální (serózní) lokálně hns žádná en prmární poztvní uzlny elektvní naléhavá, e možná příprava > 2hod, operace do 24 hod od přetí volný střevní obsah, hns, krev vzdálené metastázy naléhavá, výkon e nutný do méně než 2 hod tab. 9: Získání operačního skóre - 38 -
Zpracování dodaných dat Fyzologcké skóre Skóre 2 4 8 Věk (roky) 60 6-70 7 duretka, dgoxn, Kardální příznaky sterody, perferní bez terape otoky, selhávání angny warfarn, pectors nebo hypertenze Rentgen srdce a plc Resprační příznaky Rentgen plc Systolcký krevní tlak (mm Hg) Tepová frekvence (mnutová) Glasgow coma score bez dušnost 0-30 50-80 Hemoglobn (g/l) 30-60 Leukocyty (.0 2 /l) 4-0 Urea v séru (mmol/l) Natrum v séru (mmol/l) Kalum v séru (mmol/l) Elektrokardogram námahová dušnost hranční kardomegale hranční dušnost (edno patro) zvýšený ugulární tlak kardomegale kldová dušnost, ( 30/mn) mírná střední CHOPCH CHOPCH 3-70 7 89 00-09 90-99 8-00 2 0-20 40-49 39 fbroza nebo konsoldace 5 2-4 9-8 5-29 00-4 99 6-70 7-80 8 0,-20,0 20, 3,-4,0 3,0 7,5 7,6-0 0,- 5,0 5, 36 3-35 26-30 25 3,5-5,0 normální 3,2-3,4 2,9-3, 2,8 5,-5,3 5,4-5,9 6,0 fbrlace síní (60-90/mn) tab. 0: Získání fyzologckého skóre ný abnormální rytmus, 5 extrasystol /mn, Q vlny nebo změny ST/T vlny Aplkací logstcké regrese bylo rzko výskytu komplkace R vyádřeno vztahem R ln 5, 9 0,6 FS 0,9 OS R = + +, kde FS značí fyzologcké skóre a OS operační skóre. 5.2. Aplkace známých modelů Než vytvoříme model štý na míru našm datům, zkusíme na tato data aplkovat ž vytvořené modely. Prvním bude v předchozí kaptole zmíněný model POSSUM, druhým bude - 39 -
Zpracování dodaných dat model popsaný v [3]. Druhý model e ve tvaru R ln 2, 75257 0, 08564 FS 0, 0654 OS R = + +. Nedříve aplkueme algortmy pro lneární, exponencální a vylepšenou exponencální analýzu popsané v kaptole 4.3. Lneární analýza POSSUM Druhý model Skupna [%] Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr <0 2 0 0 0 0 0 0-9 28 44 9 2,32 0 0 0 20-29 72 32 8,78 2 45 30,5 30-39 56 26 9,37 39 60 48,25 40-49 28 2 2 65 33 29,4 50-59 9 0 0 25 9 4 0,64 60-69 7 8 0,73 4 3 0,33 70-79 0 6 7 0,86 4 3 3 80-89 3 0 3 0 0 0 0 90-00 4 3 4 0,75 0 0 0 0-00 358 5 04,45 358 5 27,9 tab. : Lneární analýza pro pacenty operované laparoskopcky Lneární analýza POSSUM Druhý model Skupna [%] Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr <0 4 0 0 0 0-9 86 3 2 2,58 0 0 0 20-29 62 24 5,6 82 26 20,3 30-39 56 22 9,6 5 44 40, 40-49 24 5,36 74 39 33,8 50-59 30 5 6 0,94 25 0 4 0,7 60-69 4 7 9 0,78 6 3 4 0,75 70-79 4 6 0 0,6 2 2 2 80-89 4 3 3 0 0 0 90-00 0 0 0 0 0 0 0-00 304 24 96,29 304 24 2, tab. 2: Lneární analýza pro pacenty operované otevřenou metodou Tabulky lneární analýzy nám ukazuí, že model POSSUM není moc vhodný pro předpověď komplkací. Pro oba soubory e předpovídaný počet komplkací výrazně nžší, než skutečný. Pro druhý model máme obdobnou stuac, ovšem rozdíl není natolk výrazný. - 40 -
Zpracování dodaných dat Skupna [%] Exponencální analýza POSSUM Druhý model Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr 0-20 49 54 5 3,6 0 0 0 0-20 28 44 3 3,38 0 0 0 20-00 209 97 42 2,3 358 5 72 2, 30-00 37 65 4,58 237 06 7,49 40-00 8 39 32,22 98 46 39,8 50-00 52 26 26 33 3 6 0,8 60-00 34 7 20 0,85 8 4 5 0,8 70-00 7 9 2 0,75 4 3 3 80-00 7 3 6 0,5 0 0 0 90-00 4 3 4 0,75 0 0 0 0-00 358 5 57 2,65 358 5 72 2, tab. 3: Exponencální analýza pro pacenty operované laparoskopcky Skupna [%] POSSUM Pacentů Komplkací Předpověď Poměr Exponencální analýza Skupna [%] Druhý model Pacentů Komplkací Předpověď Poměr 0-30 62 56 24 2,33 0-0 0 0 0 0-30 48 55 5 3,67 0-20 0 0 0 20-30 62 24 2 2 20-30 82 26 6,62 30-00 42 68 43,58 30-00 222 98 67,46 40-00 86 46 34,35 40-00 07 54 43,25 50-00 6 30 30 50-00 33 5 6 0,94 60-00 32 6 9 0,84 60-00 8 5 5 70-00 8 9 3 0,69 70-00 2 2 2 80-00 4 3 3 80-00 0 0 0 90-00 0 0 0 90-00 0 0 0 0-00 304 24 67,85 0-00 304 24 79,57 tab. 4: Exponencální analýza pro pacenty operované otevřenou metodou Stuace u exponencální analýzy e obdobná ako v případě lneární analýzy. V tomto případě e předpověď ž výrazně horší, než-l e skutečnost. Ve srovnání modelu POSSUM a modelu, který byl vytvořen na geografcky obdobných datech, aká máme k dspozc, vychází druhý model ako výhodněší. Tabulka pro vylepšenou exponencální analýzu uvedena nebude, elkož dvě předchozí metody hovoří výrazně prot modelům. Přece en se ale edná o slabší metody, proto eště bude uvedena tabulka obsahuící p-value, které získáme pomocí metod uvedených v kaptole 4.4. - 4 -
Zpracování dodaných dat POSSUM Druhý model Laparoskopcky Otevřeně Laparoskopcky Otevřeně Resdua devancí 0,00002334 0,0000005 0,0000058 0,0000067 Pearsonův test 0,000372 0,00000379 0,558699 0,0792259 Hosmer-Lemeshow 0 0 0 0,00063562 Osus-Roek 0,02273075 0,00003586 0,2409096 0,0090937 tab. 5: P-value pro ednotlvé testy V tab. 5 vdíme p-value pro ednotlvé typy testů. Zatímco model POSSUM můžeme zamítnout ako vhodný pro všechny provedené testy, druhý model se ukazue ako poměrně vhodný pro použtí na datech získaných z laparoskopckých operací. Vdíme, že dva testy vykazuí hodnoty blízké nule, ovšem další dva (Pearsonův a Osus-Roek) maí přesvědčvé hodnoty pro použtí modelu. Pro použtí tohoto modelu hovoří výsledek lneární analýzy, avšak exponencální analýza neudává přesvědčvý výsledek. Rovněž počet kovaračních schémat u obou skupn operovaných pacentů e výrazně menší než celkový počet dat, měl bychom proto brát hodnoty prvních dvou testů ako významněší. Použtí druhého modelu pro pacenty operované laparoskopcky tedy nemůžeme ednoznačně doporučt, ale an zamítnout. 5.3. Vytvoření nového modelu Protože předchozí modely nepřnesly uspokový výsledek, pokusíme se o vytvoření nových modelů pro pacenty, kteří podstoupl zákrok laparoskopcky, a pro pacenty, kteří podstoupl otevřený zákrok. U obou těchto skupn známe fyzologcké skóre a operační skóre, tyto dvě hodnoty budou sloužt ako nezávslé proměnné, a nformac o výskytu morbdty, která bude sloužt ako závslá (vysvětlovaná) proměnná. Hledaný model bude tedy R ve tvaru ln 0 FS 2 OS R = β + β + β. - 42 -
Zpracování dodaných dat obr. 5: Výskyt komplkací v závslost na FS a OS u pacentů operovaných laparoskopcky obr. 6: Výskyt komplkací v závslost na FS a OS u pacentů operovaných otevřenou metodou Použtím statstckého softwaru Statgraphcs dostaneme modely: - 43 -
Zpracování dodaných dat R ln, 0439 0, 00698 FS 0, 0628 OS R = + pro laparoskopcký zákrok R ln 2, 382 0, 06869 FS 0, 06832 OS R = + + pro otevřený zákrok. Dále se podíváme na významnost ednotlvých koefcentů. Využeme test věrohodnostního poměru, který e ve Statgraphcu mplementován. Koefcent 2 χ Stupně volnost p-value FS 0,0580942 0,8095 OS 5,52265 0,088 Pro pacenty, kteří byl operován laparoskopcky, vdíme, že na hladně významnost 95% můžeme považovat koefcent u fyzologckého skóre FS za nulový. Až budeme provádět verfkac modelu, vyzkoušíme model, který tuto proměnnou obsahue, a model, který ne. Koefcent 2 χ Stupně volnost p-value FS 5,467 0,094 OS 5,577 0,0232 U pacentů operovaných otevřenou metodou můžeme prohlást, že na hladně významnost 95% považueme oba koefcenty ako významné. 5.4. Verfkace nového modelu Využeme nám vytvořené algortmy pro ověření vhodnost nově vygenerovaných modelů. Pro laparoskopcky operované pacenty budeme uvažovat model obsahuící velčnu FS a model bez této proměnné. - 44 -
Zpracování dodaných dat 5.4.. Verfkace modelu pro laparoskopckou operac Lneární analýza Model s FS Model bez FS Skupna [%] Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr <0 0 0 0 0 0 0 0-9 0 0 0 0 0 0 20-29 0 0 0 0 0 0 30-39 66 65 57,4 30 53 45,8 40-49 53 63 68 0,93 56 60 69 0,87 50-59 36 2 20,05 69 36 38 0,95 60-69 3 2 2 3 2 2 70-79 0 0 0 0 0 0 80-89 0 0 0 0 0 0 90-00 0 0 0 0 0 0 0-00 358 5 47,03 358 5 54 0,98 tab. 6: Lneární analýza pro pacenty operované laparoskopcky Podle lneární analýzy náš model predkue velce dobře. Absence fyzologckého skóre má za následek drobného zvýšení počtu predkovaných komplkací, což ale z praktckého hledska není na škodu. Skupna [%] Exponencální analýza Model s FS Model bez FS Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr 0-30 0 0 0 0 0 0 0-30 0 0 0 0 0 0 20-30 0 0 0 0 0 0 30-00 358 5 07,4 358 5 07,4 40-00 92 86 77,2 228 98 9,08 50-00 39 23 20,5 72 38 36,06 60-00 3 2 2 3 2 2 70-00 0 0 0 0 0 0 80-00 0 0 0 0 0 0 90-00 0 0 0 0 0 0 0-00 358 5 07,4 358 5 07,4 tab. 7: Exponencální analýza pro pacenty operované laparoskopcky Exponencální analýza vykazue horší předpověď, komplkací určue výrazně méně, než nastalo. Rozdíl mez modelem obsahuícím fyzologcké skóre a modelem bez ně e téměř nulový. - 45 -
Zpracování dodaných dat Skupna [%] Vylepšená exponencální analýza Model s FS Model bez FS Pacentů Komplkací Předpověď Poměr Pacentů Komplkací Předpověď Poměr 0-00 358 5 5 358 5 60 0,94 0-00 358 5 5 358 5 60 0,94 20-00 358 5 5 358 5 60 0,94 30-00 358 5 5 358 5 60 0,94 40-00 92 86 89 0,97 228 98 09 0,9 50-00 39 23 2, 72 38 39 0,97 60-00 3 2 2 3 2 2 70-00 0 0 0 0 0 0 80-00 0 0 0 0 0 0 90-00 0 0 0 0 0 0 0-00 358 5 5 358 5 60 0,94 tab. 8: Vylepšená exponencální analýza pro pacenty operované laparoskopcky Vylepšená exponencální analýza ukazue téměř přesnou shodu skutečných a predkovaných hodnot. Vynechání fyzologckého skóre z modelu má za následek drobné zvýšení předpovídaných komplkací. Model s FS Model bez FS Resdua devancí 0 0 Pearsonův test 0,063 0,00507 Hosmer-Lemeshow 0 0 Osus-Roek 0,0000356 0,0000002 tab. 9: P-value pro ednotlvé testy Ve skupně laparoskopcky operovaných pacentů máme celkem 358 záznamů, kovaračních schémat e 9. Pro tento model tedy neplatí J n a e vhodné používat spíše test na resdua devancí a Pearsonův test. Pokud se podíváme na test modelu, u kterého vyřadíme parametr fyzologckého skóre, vdíme, že oba testy shodně zamítaí vhodnost tohoto modelu. V případě, kdy fyzologcké skóre zahrneme, test na resdua model opět zamítá, ovšem hodnota Pearsonova testu na hladně významnost 99% model nezamítá, pro hladnu významnost 95% ale k zamítnutí ž dochází. Nacházíme se tedy v nerozhodné oblast. Výsledky lneární a exponencální analýzy rovněž poukazuí na vhodnost navrhovaného modelu. Protože náš model má za úkol pomoc lékařům př předpovídání operačních komplkací a v tomto případě očekáváme vyšší kvaltu modelu, e rozumné rozšířt datový soubor a vytvořt nový model na základě většího množství nformací. - 46 -