VŠB Techcká uverzta Ostrava Fakulta elektrotechky a formatky DISKRIMINAČNÍ ANALÝZA JAKO NÁSTROJ PRO HODNOCENÍ CHIRURGICKÝCH RIZIK Dzertačí práce Studjí obor: Školtel: Doktoradka: Výpočetí a aplkovaá matematka Prof. Ig. Radm Brš CSc. Marcela Rabasová Ostrava 22
2 Marcela Rabasová VŠB Techcká Uverzta Ostrava 22
Bblografcká detfkace Jméo a příjmeí autora: Marcela Rabasová Název dzertačí práce: Dskrmačí aalýza jako ástroj pro hodoceí chrurgckých rzk Doctoral thess ttle: Dscrmat aalyss as a tool for surgcal rsks assessmet Studjí program: P87 - Iformatka komukačí techologe a aplkovaá matematka Studjí obor: 3V36 - Výpočetí a aplkovaá matematka Školtel: prof. Ig. Radm Brš CSc. Rok obhajoby: 22 Klíčová slova: kolorektálí chrurge dskrmačí aalýza predkčí modely aalýza přežtí skórovací systémy Keywords: colorectal surgery dscrmat aalyss predcto models survval aalyss score systems 3
4
Poděkováí Ráda bych tímto poděkovala svému školtel prof. Ig. Radmu Bršov CSc. za odboré vedeí eocetelou podporu a za rady a péč které m věoval během celého mého doktoradského studa. Mé poděkováí přísluší rověž MUDr. Lubomíru Martíkov Ph.D. z Fakultí emocce Ostrava za posykutá data a za ceé poděty a kozultace. V eposledí řadě pak děkuj své rodě za trpělvost a podporu během studa. Prohlášeí doktoradky Prohlašuj že jsem tuto prác vypracovala sama pod odborým vedeím prof. Ig. Radma Brše CSc. a že jsem uvedla všechy použté zdroje a lteraturu. Datum: 25.5.22 Podps: 5
6
Obsah: Abstrakt... 9 Abstract... Úvod.... Cíle dzertačí práce... 2 2 Obecé aspekty kolorektálí chrurge... 5 2. Laparoskopcká chrurge... 5 2.2 Porováí laparoskopcké chrurge s otevřeou... 6 3 Skórovací systémy v chrurgcké prax... 9 3. Skórovací systém POSSUM... 9 3.2 Tedečí skóre... 2 4 Aalýza přežíváí... 23 4.. Doba přežtí... 23 4.2. Cezorováí... 23 4.3. Fukce přežtí... 25 4.4. Hazardí fukce... 26 4.5. Kapla-Meerův odhad fukce přežtí... 27 4.6. Log-rak test Breslowův test... 28 5 Dskrmačí aalýza... 3 5. Deskrptví dskrmačí aalýza... 3 5.2 Predkčí dskrmačí aalýza... 34 5.2. Statstcké rozhodovací fukce... 35 5.2.2 Metody predkčí dskrmačí aalýzy... 36 5.2.2. Logstcká regrese... 36 5.2.2.2 Normálí dskrmačí aalýza... 4 5.2.2.3 Směs ormálích rozděleí... 45 5.2.2.4 Souvslost mez jedotlvým modely... 47 5.2.3 Vyhodoceí účost dskrmace... 47 6 Statstcké vyhodoceí aalyzovaého datového souboru... 49 6. Pops datového souboru... 49 6.2 Predkce morbdty kolorektálích operací pomocí rekalbrovaého modelu POSSUM... 5 6.2. Struktura datového souboru... 5 6.2.2 Výsledky aalýzy... 5 6.2.3 Shrutí... 52 6.3 Užtí dskrmačí aalýzy k alezeí rzkových faktorů koverze a k vytvořeí modelu pro její predkc... 53 7
6.3. Úprava datového souboru před aalýzou... 53 6.3.2 Nalezeí rzkových faktorů koverze metodou FDA... 54 6.3.3 Vytvořeí statstckého modelu pro predkc koverze... 56 6.3.3. Model logstcké regrese... 56 6.3.3.2 Model ormálí dskrmačí aalýzy... 58 6.3.3.3 Aplkace tedečích skóre... 59 6.3.4 Shrutí... 6 6.4 Porováí dlouhodobého přežíváí otevřeých a laparoskopckých operací kolorekta 62 6.4. Pops aalyzovaého souboru... 63 6.4.2 Vyhodoceí výsledků operací v oblast kolo... 63 6.4.3 Vyhodoceí výsledků operací v oblast rekta... 67 6.4.4 Shrutí... 7 7 Závěr... 7 Cocluso... 73 Lteratura a odkazy... 75 Odborá čost doktoradky... 8 8
Abstrakt Tato dzertačí práce se zabývá aalýzou výsledků kolorektálích operací které byly v letech 2-29 provedey ve Fakultí emocc Ostrava. Jako hlaví ástroj pro statstcké vyhodoceí těchto medcíských dat byly použty metody dskrmačí aalýzy. Práce se věuje jak podrobému popsu těchto metod tak jejch použtí v těchto kokrétích případech: predkce pooperačích komplkací (morbdty u otevřeé operačí techky predkce koverze u laparoskopcké operačí techky alezeí rzkových faktorů koverze porováí otevřeé a laparoskopcké operačí techky z hledska dlouhodobého přežíváí. Práce je čleěa do devít kaptol. Prví kaptola přáší stručé obezámeí s cíl dzertačí práce a s řešeou problematkou z medcíského a statstckého hledska. Druhá kaptola se věuje podrobějšímu popsu operačích techk používaých v kolorektálí chrurg a jejch obecému srováí. Kaptola 3 představuje prcp skórovacích systémů které slouží k zajštěí objektvty výsledků v eradomzovaých lékařských studích. Detalě pak byl popsá skórovací systém POSSUM a systém tedečích skóre které byly použty v této prác. Náplí čtvrté kaptoly je pops základích prcpů aalýzy přežíváí zejméa pak Kapla-Meerovy metody která byla použta pro porováí doby přežíváí laparoskopckých a otevřeých operací kolorekta. Kaptola 5 je uceleým přehledem ejčastěj používaých dskrmačích metod - metody ormálí dskrmčačí aalýzy logstcké regrese a směs ormálích rozděleí. Výsledky aalýz které byly provedey a zdrojových datech aplkací zmíěých metod jsou uvedey v Kaptole 6. Kaptola 7 pak přáší závěrečé shrutí. 9
Abstract Ths doctoral thess deals wth a aalyss of colorectal operatos results. These operatos were carred out at the Faculty Hosptal Ostrava from 2 to 29. Dscrmat aalyss methods were used as the ma tool for statstcal assessmet of the medcal data. The thess s dedcated to a detaled descrpto of these methods as well as to ther use the followg cases: predcto of postoperatve complcatos (morbdty wth ope operato techque predcto of coverso of laparoscopc to ope colorectal surgery detfyg mportat rsk factors assocated wth coverso comparso of ope ad laparoscopc operato techques wth the vew of log-term survval. Ths work s dvded to e chapters. The frst chapter provdes a bref troducto to the goals of the thess ad to problems beg vestgated from medcal ad statstcal pot of vew. The secod chapter s amed at a detaled descrpto of the operato techques that are used colorectal surgery ad at ther comparso geeral. Chapter 3 presets the prcples of scorg systems that are used o-radomzed medcal studes to esure objectvty of the results. Scorg system POSSUM ad propesty score system whch were used ths work were descrbed detal. The cotet of the fourth chapter s a descrpto of the ma prcples of survval aalyss partcularly the Kapla-Meer method whch was used to compare survval tmes of laparoscopc ad ope colorectal surgery. Chapter 5 s a comprehesve overvew of the most frequetly used dscrmat methods - ormal dscrmat aalyss logstc regresso ad mxtures of multvarate ormal dstrbutos. Dscrmat aalyss methods were appled to the source data fle ad the results of the aalyses are performed Chapter 6. Chapter 7 brgs the fal summary.
Úvod Aalýza medcíských dat je frekvetovaý problém jehož řešeí je často velm áročé. Zpracovávaý datový soubor bývá zdrojem moha většou skrytých formací které lze získat je př správé aplkac moderích statstckých postupů a za úzké spolupráce s lékař. Získaé výsledky pak mohou výrazě přspět k optmalzac léčby a sížeí rzk ejrůzějších komplkací a přspět tak ke zlepšeí kvalty žvota ldského jedce. Tato práce se věuje statstckému vyhodoceí dat pocházejících z chrurgcké klky Fakultí emocce Ostrava. Jedá se o údaje 75 pacetů kteří zde v letech 2-29 podstoupl operac v oblast kolorekta. Kolorektálí chrurge je oblast chrurge zabývající se chorobam tlustého střeva (colo a koečíku (rectum. Výzamou část těchto oemocěí tvoří kolorektálí karcom (v aalyzovaém souboru bylo pacetů s touto dagózou celkem 967 což čí 82% je meší část zaujímají begí oemocěí. Chrurgcké zákroky v oblast kolorekta se v současost provádí dvěma způsoby - otevřeě ebo laparoskopcky. Každá z těchto metod má své výhody evýhody a jejch porováí bývá častým předmětem lékařských studí. Laparoskopcká chrurge je obecě spojováa s meším operačím stresem lepším pooperačím průběhem rychlejší rekovalescecí meším výskytem ěkterých pooperačích komplkací a lepším kosmetckým efektem. Exstují však rzka která s sebou tato metoda přáší jako apříklad egatví vlv kapopertoea (aplěí duty břší oxdem uhlčtým extrémího polohováí ěkterých pacetů a možého prodloužeí operačího času. Další komplkace mohou astat v souvslost s kokrétí dagózou ebo s dvduálím rzky jedotlvých pacetů a také kvůl případé koverz což je změa jž započatého laparoskopckého výkou a otevřeý. Podle ěkterých studí je totž koverze spojováa s horším dlouhodobým výsledky zejméa co se týče dlouhodobého přežíváí. Zmíěá rzka pak mohou u ěkterých predspoovaých ebo předoperačě oslabeých pacetů převážt potecálí výhody laparoskopckých techk a to zejméa u rozsáhlejších výkoů. Je zřejmé že sahou chrurgů je vybrat pro kokrétího paceta podstupujícího kolorektálí operac takovou operačí metodu u které se dají předpokládat co ejlepší výsledky. K tomuto rozhodováí může apomoc apříklad porováí výsledků a úspěšost jedotlvých operačích techk v mulost. Další pomůckou mohou být ovovaé predkčí modely které pro kokrétího paceta určí rzko pooperačí morbdty resp. koverze a také zjštěí které faktory tuto morbdtu resp. koverz ovlvňují.
Ve většě současých prací zaměřeých a chrurg kolorekta je laparoskopcká operačí techka vyhodocováa jako lepší ež otevřeá ve smyslu přízvějšího pooperačího průběhu žší pooperačí morbdty a žší ebo stejé mortalty. Získaé výsledky však vychází pouze ze zkušeostí jedotlvých ceter specalzovaých a laparoskopckou chrurg a jejch zobecěí je problematcké eboť se v ch odráží specfčost těchto pracovšť operovaých skup pacetů. Spolehlvost ejrůzějších predkčích modelů tak může být v růzých oblastech světa růzá měí se přejmeším v závslost a úrov zdravotí péče a zdravotího stavu populace ale také podle specfcké skupy pacetů a které je model aplková. Nezbytou podmíkou užtí těchto výsledků je tedy kotuálí akumulace dat ověřováí spolehlvost jedotlvých systémů a jejch aktualzace spojeá s evetuálí remodelací č rekalbrací matematckých modelů. Jako optmálí ástroj pro řešeí zmíěých problémů se jeví dskrmačí aalýza. Jedá se o vícerozměrou statstckou metodu která se používá v případě kdy je zpracovávaý soubor čleě do dvou ebo více skup přčemž vlastost každé jedotky souboru jsou popsáy hodotam ěkolka ezávslých velč. Dskrmačí aalýza má dvě základí fukce. Umožňuje jedak vyhodott jakou mají sledovaé velčy schopost odlšt od sebe jedotky jedotlvých skup (tzv. deskrptví dskrmačí aalýza a také sestavt klasfkačí pravdlo pro zařazeí jedotek s ezámou skupovou příslušostí (tzv. predkčí dskrmačí aalýza. Dskrmačí aalýza je des jž běžou součástí lékařských studí zaměřeých a porováí výsledků dvou ebo více léčebých metod a predkc možých komplkací a a alezeí rzkových faktorů které mají a tyto komplkace vlv.. Cíle dzertačí práce Hlavím cílem této dzertačí práce je aplkace vyspělých statstckých metod jako je dskrmačí aalýza a aktuálí lékařská data v souvslost s vyhodoceím a omezeím operačích rzk a ežádoucích pooperačích komplkací což kokrétě představuje:. zvládutí počítačové mplemetace moderích dskrmačích metod a jejch použtí pro účely vyhodoceí operačích rzk v kotextu se dvěma typy kolorektálích operací 2. rekalbrace modelu POSSUM pro predkc morbdty otevřeých operací kolorekta 2
3. vytvořeí statstckého modelu pro predkc koverze laparoskopckých operací kolorekta 4. alezeí a statstcké vyhodoceí rzkových faktorů koverze 5. porováí dlouhodobého přežíváí otevřeých a laparoskopckých operací kolorekta. Dalším cílem práce je vytvořeí uceleého přehledu ejčastěj používaých dskrmačích metod včetě vyjádřeí souvslostí mez m. Řešea bude rověž otázka volby ejvhodějšího modelu pro daou datovou stuac. 3
4
2 Obecé aspekty kolorektálí chrurge Chrurgcké zákroky v oblast tlustého střeva a koečíku lze obecě provádět otevřeou (klasckou ebo laparoskopckou (mvazví techkou. Př porováváí jejch výsledků se můžeme řídt růzým hledsky. Patří sem apříklad výskyt pooperačích komplkací (morbdta úmrtost (mortalta délka přežíváí ale mohou ás zajímat ěkteré méě závažé aspekty jako je apříklad kosmetcký efekt ebo délka hosptalzace. Jelkož však v chrurg kolorekta převažují výkoy pro malgí oemocěí ejpodstatější zde budou výsledky týkající se samotého přežíváí jeho délky a kvalty. 2. Laparoskopcká chrurge U laparoskopckých výkoů edochází k otevřeí břší duty klasckým řezem je ěkolka otvory se pomocí trokarů do duty břší zavedou ástroje zdroj světla a kamera spojeá s televzí obrazovkou a vdeem. Operatér sleduje televzí obrazovku a pomocí ástrojů které ovládá mmo břší dutu provádí příslušý výko (vz Obrázek 2.. Dokoalý peroperačí přehled v dutě břší je zajště jejím umělým aplěím oxdem uhlčtým (tzv. kapopertoeem. Ply zaváděý suflátorem adzvedává břší stěu a vytváří místo pro volý pohyb laparoskopckých ástrojů. Obrázek 2.. Laparoskopcká operace v oblast duty břší (Zdroj: [] Prví zprávy o laparoskopcké chrurg pochází z počátku 2.století. V roce 9 provedl ěmecký tersta Georg Kellg prví edoskopcké vyšetřeí duty břší u psa [2] a švédský chrurg Has Chrsta Jacobeus publkoval svou prví zprávu o vyšetřeí duty břší paceta pomocí přímo zavedeého cystoskopu [3]. V raém období byla dagostcká 5
terapeutcká laparoskope s výborým výsledky využíváa zejméa v oblast gyekologe. Většího rozmachu však mvazví chrurge dozala až v 8. letech kdy Kurt Semm [4] provedl v roce 98 prví laparoskopckou appedektom (chrurgcké odstraěí slepého střeva a Phllp Mouret [5] v roce 987 laparoskopckou cholecystektom (chrurgcké odstraěí žlučíku. Prvím českým chrurgy kteří provedl laparoskopckou cholecystektom byl v září 99 chrurgové v Českých Budějovcích [6] a v lstopadu 99 chrurgové v Ostravě [7]. Počátek 9. let je pak charakterzová razatím ástupem mvazvích techk ve všech oblastech chrurge kolorektálí chrurg evyjímaje. 2.2 Porováí laparoskopcké chrurge s otevřeou Obecě je mvazví chrurge spojováa s meším operačím stresem a přízvějším pooperačím průběhem což v prax zameá žší spotřebu aalgetk rychlejší rekovalescec a kratší dobu hosptalzace a tím žší fačí áklady ve srováí s otevřeou chrurgí. V ěkterých případech hraje ezaedbatelou rol lepší kosmetcký efekt. Na druhé straě exstuje celá řada egatvích faktorů které s sebou použtí laparoskopckých techk přáší. Jsou to apříklad možé komplkace př zakládáí kapopertoea a zaváděí prvího trokaru kdy exstuje rzko poraěí velkých cév a dutých orgáů rzka kapopertoea samotého vlv extrémího polohováí pacetů u ěkterých typů operačích výkoů ebo také možé prodloužeí operačího času. V případě kolorektálí chrurge je ve většě současých prací laparoskopcká operačí techka vyhodocováa jako lepší ež otevřeá ve smyslu přízvějšího pooperačího průběhu žší pooperačí morbdty a žší ebo stejé mortalty vz apř. [8-2]. Z ežádoucích aspektů laparoskope stojí za zmíku možé egatví důsledky kapopertoea popsaé v [3-7]. Některé stude [8-] rověž uvádí delší operačí časy laparoskopckých operací ve srováí s operacem otevřeým což je sce výzamý rzkový faktor cméě v žádé z těchto studí ebyla u laparoskopckých operací prokázáa statstcky výzamě vyšší morbdta ebo mortalta ež u operací otevřeých. V eposledí řadě je třeba zmít rzko koverze která většou zameá delší operačí čas větší kreví ztrátu častější pooperačí komplkace a delší dobu hosptalzace jak uvádí apř. ([8] [9]. Někteří autoř přpsují kovertovaým operacím horší přežíváí ([] [8] [2] [2]. Odhaleí rzkových faktorů koverze a pečlvý výběr pacetů vhodých pro laparoskopckou kolorektálí chrurg pak může vést k dalšímu zlepšeí výsledků této operačí metody. Př porováváí výsledků jedotlvých operačích techk a př modelováí rzk chrurgckých pacetů achází šroké uplatěí dskrmačí metody. Jsou a ch založey četé skórovací systémy které se používají zejméa v eradomzovaých lékařských 6
studích k zajštěí objektvty a spolehlvost závěrů. Patří sem apříklad skórovací systém POSSUM (Physologcal ad Operatve Severty Score for eumerato of Mortalty ad morbdty [22] a systém tzv. tedečích skóre (propesty scores [23] které byly vyvuty kocem mulého století a od té doby se rozšířly apříč celým spektrem lékařských studí. Na použtí dskrmačích metod je rověž založe apříklad matematcký model predkce koverze pro pacety operovaé laparoskopcky v oblast kolorekta který byl vypracová a ověře Tekksem a kol. [24]. V této dzeratčí prác byly dskrmačí metody použty pro rekalbrac zmíěého modelu POSSUM dále př porováí dlouhodobého přežíváí laparoskopckých a otevřeých operací kolorekta a také př tvorbě predkčího modelu pro predkc koverze kolorektálích operací a př určováí jejch rzkových faktorů. 7
8
3 Skórovací systémy v chrurgcké prax Krátkodobé výsledky růzých operačích techk jsou v lteratuře často uváděy formou procetuálě vyjádřeé morbdty a mortalty. Porováí takovýchto výsledků u růzých operačích techk ebo mez jedotlvým pracovšt evet. chrurgy však může být zavádějící protože ezohledňuje případou odlšost porovávaých souborů v celé řadě důležtých charakterstk (tzv. case mx. Nemůžeme apříklad o léčbě která je lékař upředostňováa u pacetů s pokročlým stádem oemocěí tvrdt že je horší ež léčba já používaá zejméa v raých stádích tohoto oemocěí je proto že vykazuje vyšší procetuálí morbdtu. Jedou z možostí jak objektvě porovat morbdtu a časou mortaltu je hodott výsledky v souvslost s dvduálím rzky jedotlvých pacetů. Srováí skutečé morbdty (mortalty a morbdty (mortalty predkovaé sofstkovaým matematckým modelem který zohledňuje rzkové faktory jedotlvých pacetů pak může být fukčím ástrojem pro objektví hodoceí a porováí dosažeých výsledků. Předpokladem tohoto přístupu je robustí a verfkovaý matematcký model využívající fukčí skórovací systémy. Skórovací systémy v chrurg uslují o kvatfkac rzk chrurgckých pacetů. Jedá se zejméa o staoveí pravděpodobost výskytu komplkací - morbdty u kokrétího paceta. Tyto systémy vychází z růzých charakterstk odrážejících závažost oemocěí a operačího výkou a celkový zdravotí stav paceta. Skóre vztahující se k dvduálímu pacetu určuje jeho dvduálí progózu. Získaý výsledek tak může ovlvt rozhodováí o rozsahu vyšetřeí způsobu a agresvtě léčby rozsahu výkou a předoperačí přípravě a podílet se takto a racoalzac ákladů. Mez ejpraktčtější a ejrozšířeější skórovací systémy používaé v běžé chrurgcké prax patří systém POSSUM a tedečí skóre. 3. Skórovací systém POSSUM Skórovací systém POSSUM vzkl z potřeby jedoduchého skórovacího systému který by byl použtelý apříč celým spektrem chrurgckých výkoů. Byl vyvut Copeladem a kol. [22] počátkem 9. let mulého století. Původě sloužl jako ástroj pro porováí výsledků mez jedotlvým sttucem [25] ale jeho použtí bylo pozděj rozšířeo a porováí výsledků jedotlvých chrurgů ([26] [27] a operačích techk ([2] [28]. Na začátku bylo do stude zahruto 62 rzkových faktorů pooperačí morbdty a 9
mortalty z chž bylo dskrmačí aalýzou vybráo pouze 8 ejvýzamějších avzájem ezávslých faktorů a to 2 faktorů souvsejících s fyzologckým stavem paceta před operací (věk kardálí přízaky respračí přízaky systolcký kreví tlak tepová frekvece Glasgow coma score hemoglob leukocyty urea v séru atrum v séru kalum v séru EKG a 6 rzkových faktorů chrurgckého výkou (závažost a rozsah operačího výkou vícečeté operace v posledích 3 dech kreví ztráta kotamace pertoeálí duty přítomost malgty aléhavost operace. Každému z těchto faktorů které výzamě ovlvňují pooperačí morbdtu a mortaltu jsou přřazey hodoty 2 4 ebo 8 podle stupě rzkovost (vz Tabulka 3. a Tabulka 3.2. Součtem hodot prvích 2 faktorů se získá tzv. fyzologcké skóre (physologcal score PS paceta součet hodot zbývajících 6 faktorů tvoří tzv. operačí skóre (operatve score OS paceta. Logstckou regresí pak bylo vyjádřeo rzko morbdty R ásledově: R l 59 + 6. PS + 9. OS (3. R kde PS je fyzologcké skóre a OS operačí skóre paceta. Parametry fyzologckého skóre se vztahují k okamžku přjetí paceta ebo k okamžku bezprostředě před operací operačí skóre je doplěo po zákroku. Potřebá data jsou lehce dostupá a ve většě případů je lze získat retrospektvě. Vypočteá hodota - predkovaá morbdta pak může být porováa se skutečou. POSSUM ezahruje takové faktory jako apř. rozdíly mez jedotlvým chrurgy ebo aestezology ale je právě jedím z cílů tohoto systému a tyto rozdíly poukázat. Tabulka 3.. Operačí skóre OPERAČNÍ SKÓRE Závažost a rozsah operačího výkou Vícečeté operace (v posledích 3 dech Celková ztráta krve (ml Kotamace pertoeálí duty Přítomost malgty Naléhavost operace Skóre 2 4 8 malý středí velký komplexí rozsáhlý 2 > 2-5 5-999 žádá žádá elektví mmálí (serózí je prmárí lokálě hs poztví uzly aléhavá je možá příprava > 2hod operace do 24 hod od přjetí volý střeví obsah hs krev vzdáleé metastázy aléhavá výko je utý do méě ež 2 hod 2
Tabulka 3.2. Fyzologcké skóre FYZIOLOGICKÉ Skóre SKÓRE 2 4 8 Věk (roky 6 6-7 7 Kardálí přízaky bez selháváí duretka dgox sterody terape agy pectors ebo hyperteze perferí otoky warfar zvýšeý jugulárí tlak Retge srdce a hračí kardomegale plc kardomegale Respračí přízaky bez dušost ámahová dušost hračí dušost kldová dušost ( 3/m (jedo patro Retge plc mírá CHOPCH středí CHOPCH fbroza ebo kosoldace Systolcký kreví -3 3-7 7 89 tlak (mm Hg -9 9-99 Tepová frekvece 5-8 8- -2 2 (mutová 4-49 39 Glasgow coma 5 2-4 9-8 score Hemoglob (g/l 3-6 5-29 -4 99 6-7 7-8 8 Leukocyty (. 2 /l 4- -2 2 3-4 3 Urea v séru 75 76- - 5 5 (mmol/l Natrum v séru 36 3-35 26-3 25 (mmol/l Kalum v séru 35-5 32-34 29-3 28 (mmol/l 5-53 54-59 6 Elektrokardogram ormálí fbrlace síí (6-9/m jý abormálí rytmus 5 extrasystol /m Q vly ebo změy ST/T vly 3.2 Tedečí skóre Tedečí skóre byly představey Rosebaumem a Rubem [23] v roce 983 a v posledích desetletích se rozšířly apříč celým spektrem lékařských studí. Podrobým popsem jejch výpočtu a použtí se zabývá apříklad Adama a kol. ve své prác z roku 26 [29]. Tedečí skóre achází v medcíských aplkacích uplatěí zejméa v stuacích kdy porováváme výsledky dvou ebo více léčebých postupů v eradomzovaých studích. 2
Jedá se o stude kde pacetům eí urče léčebý postup áhodě a které v prax převažují jak z etckých tak z praktckých důvodů. Je apříklad zřejmé že pacet podstupující kolorektálí operac který je mladý jak zdravý a jeho oemocěí je v počátečím stádu bude operová laparoskopcky mohem pravděpodoběj ež pacet v pokročlém věku s pokročlým stádem téhož oemocěí pro kterého bude vhodější otevřeá operačí techka. Může se tak stát že ve skupě pacetů léčeých metodou A je větší podíl rzkových pacetů ež je tomu u metody B a př porováí výsledků těchto metod z hledska pooperačí morbdty (komplkací mortalty (úmrtost ebo pooperačího přežíváí bychom a teto fakt měl brát zřetel. Jedou z možostí jak vyřešt problém esourodost porovávaých skup pacetů je přřadt každému pacetu tzv. tedečí skóre které vysthuje pravděpodobost (tedec toho že pacet bude léče kokrétí metodou. Tato pravděpodobost může závset a moha faktorech jako jsou apříklad věk pohlaví dagóza komorbdta počet předchozích operací a podobě. K výpočtu tedečích skóre se používá logstcká regrese. Zmíěé faktory které mohou ovlvt výběr léčebé metody mají přtom fukc ezávslých proměých léčebá metoda samotá představuje závslou proměou. Každému pacetu je vytvořeým logstckým modelem vypočtea pravděpodobost že bude léče kokrétí metodou (jeho tedečí skóre a z původího eradomzovaého výběru se provede výběr užší ve kterém jsou zastoupe pouze t pacet kteří mají v druhé skupě vhodý protějšek - paceta se stejým skóre. To zameá že pacet léčeý metodou A je porovává s pacetem který měl stejou šac být léče metodou A ale ve skutečost byl léče metodou B. Aplkace tedečích skóre tak zajstí alespoň jstý stupeň radomzace a elmuje vlv přdružeých faktorů a výsledky aalýzy. 22
4 Aalýza přežíváí Cílem této kaptoly je představt základí prcpy metody která ám umoží porovat dobu přežíváí laparoskopckých a otevřeých operací kolorekta. Aalýza přežíváí (survval aalyss je soubor statstckých metod určeých k aalýze dat kde hlavím předmětem ašeho zájmu je doba do výskytu určté událost. Problém aalyzovat čas do výskytu ějaké událost se objevuje velce často a to eje v oblast medcíy ale v moha jých odvětvích ldské čost jako je apříklad bologe epdemologe ekoome socologe žeýrství a mohé další. Statstcký aparát prezetovaý v této kaptole lze aplkovat ve všech zmíěých případech aše pozorost se však soustředí převážě a jeho využtí v oblast medcíské. Počátky aalýzy přežíváí spadají do 7. století a jsou spojey se zpracováím demografckých tabulek. Většího rozmachu se tato metoda dočkala ve století dvacátém zejméa po skočeí 2. světové války. Její prcpy jsou detalě popsáy apříklad v ([3] [3] [32] my se zaměříme pouze a stručý pops základích pojmů a postupů vedoucích k porováí doby přežíváí dvou růzých operačích techk. 4.. Doba přežtí Jelkož ve svých počátcích se aalýza přežíváí oretovala převážě a odhad očekávaé doby do výskytu událost kterou bylo úmrtí paceta vžl se pro tuto dobu ázev doba přežtí. Teto ázev se přtom užívá v případech kdy předmětem ašeho zájmu je doba do výskytu jé událost ež je úmrtí. V případě paceta to může být apříklad doba do propukutí choroby výskytu fekce relapsu a podobě ale emusí to být je událost která je vímáa egatvě může se jedat apříklad o dobu do začátku působeí podaého léku. (V techcké prax to pak může být apříklad doba do poruchy přístroje ebo ějaké součástky. V tomto případě se místo pojmu aalýza přežíváí užívá spíše ozačeí teore spolehlvost. Pro áhodou velču určující dobu přežtí budeme používat ozačeí T. 4.2. Cezorováí Lékařské stude zabývající se aalýzou přežíváí jsou v prax většou ukočey dříve ežl u všech subjektů (pacetů sledovaá událost astae. Exstují rověž pacet kteří stud z ejrůzějších důvodů opustí ještě před jejím ukočeím. Tyto pacety ale echceme 23
ze stude vyřadt protože o přáší o zkoumaé době do astoupeí událost ceou formac. Jestlže tedy u ostatích pacetů máme k dspozc dobu do výskytu sledovaé událost u těchto pacetů zazameáme dobu po kterou setrval ve stud až by u ch sledovaá událost astala a tato pozorováí ozačíme jako cezorovaá. Obecě je zvykem o cezorováí hovořt tehdy jsou-l údaje o době do výskytu událost ekompletí. Výše popsaá stuace odpovídá tzv. cezorováí zprava které se v medcíských studích vyskytuje ejčastěj. V prax se pak setkáváme celkem se třem typy cezorováí:. Cezorováí zprava (rght cesorg astává v případě kdy k eúplost formace o době do výskytu událost dochází a pravé straě časového tervalu. To zameá že pozorováí objektu zače v předem defovaém čase a je ukočeo dříve ež sledovaá událost vůbec astae. Je-l apříklad předmětem ašeho zájmu doba do úmrtí paceta po prodělaé operac může se stát že se ěkteří pacet ze stude vytratí ještě před jejím ukočeím (apříklad se odstěhují ebo v době ukočeí stude zůstávají stále ažvu. U takových pacetů pak máme k dspozc pouze datum posledí kotroly a které ještě žl skutečou délku jejch přežíváí však ezáme. 2. Cezorováí zleva (left cesorg astává v případě kdy k eúplost formace o době do výskytu událost dochází a levé straě časového tervalu to zameá že sledovaá událost astala ještě před zahájeím expermetu. Například u HIV fkovaé osoby pozorováí začíá až po prvím poztvím testu avšak přesou dobu apadeí vrem ezáme. 3. Itervalové cezorováí (terval cesorg je kombací obou předchozích typů. Zde dochází k eúplost formace o době do výskytu událost a obou straách časového tervalu. Typckým příkladem může být stuace kdy u drogově závslých pacetů sledujeme v jaké době po absolvováí léčby u ch dochází k recdvě. Jestlže jsou tto pacet kotrolová v pravdelých tříměsíčích tervalech a recdva je zjštěa až a čtvrté kotrole zameá to že doba kdy začal pacet zovu užívat drogy je ěkde mez 9. a 2. měsícem. Jelkož se v aší stud vyskytují pouze data cezorovaá zprava omezíme se v dalším výkladu pouze a teto typ cezorováí. 24
4.3. Fukce přežtí V medcíských studích jsou u aalýzy přežíváí hlavím předmětem zájmu formace o době přežtí. Může ás apříklad zajímat zda exstují výzamé rozdíly v době přežíváí mez dvěma č více skupam pacetů (apř. mužů a že ebo mez skupam pacetů léčeých růzým metodam. Dále můžeme zkoumat závslost doby přežtí a určtých proměých jakým jsou apř. věk paceta dávka podaého léku a podobě. Všechy tyto formace lze získat pokud se ám podaří odhadout rozděleí áhodé velčy T určující dobu přežtí. K popsu pravděpodobostího rozděleí áhodé velčy T o které předpokládáme že je spojtá slouží její dstrbučí fukce F defovaá vztahem F( t P( T t a hustota pravděpodobost f pro kterou platí f ( t F ( t. V aalýze přežíváí se pro pops doby přežtí zavádí ještě tzv. fukce přežtí (survval fucto kterou začíme S a defujeme ásledově: S ( t F( t P( T > t. Hodota této fukce v bodě t tedy určuje pravděpodobost že doba přežtí T přesáhe hodotu t. Fukce přežtí je defovaá a tervale a kterém je spojtá a erostoucí přčemž S ( a lm S( t. Její graf azývaý též křvka přežtí má typcký průběh t který je zázorě a Obrázku 4.. Obrázek 4.. Křvka přežtí V prax však odhadujeme fukc přežtí z reálých dat kde áhodá velča T má dskrétí charakter. Odhadem křvky přežtí pak eí křvka hladká ýbrž křvka s charakterstckým schodovým tvarem jak ukazuje příklad a Obrázku 4.2. 25
S ˆ ( t Obrázek 4.2. Odhad křvky přežtí 4.4. Hazardí fukce Další důležtou charakterstkou užívaou v aalýze přežíváí je hazardí fukce (hazard fucto která bývá v české lteratuře ěkdy azýváa také rzkem resp. rzkovou fukcí. Tato fukce je defováa předpsem P( t T < t + t T t h( t lm t t. (4. Z defce je patré že hodota hazardí fukce v kokrétím čase t představuje podmíěou pravděpodobost toho že sledovaá událost (apř. úmrtí astae v časovém tervale t t + za předpokladu že do okamžku t tato událost ještě eastala přčemž tato t pravděpodobost je vztažea k ekoečě malé hodotě rzko" výskytu sledovaé událost v čase t. t. Jde tedy o jakés "okamžté Vztah mez hazardí fukcí h a fukcí přežtí S lze odvodt pomocí zámého vzorce pro výpočet podmíěé pravděpodobost: P( A B P( A B. P( B Dosazeím tohoto vzorce do (4. dostáváme P( t T < t + t F( t + t F( t F ( t S ( t h( t lm lm t t. P( T t t t. S( t S( t S( t mez fukcem h a S tedy paltí ásledující vztahy: h ( t (l S( t t h( u du ( t e. S Fukce H defovaá jako 26
H ( t t h( u du se azývá kumulatví hazardí fukce (cumulatve hazard fucto a fukc přežtí lze pomocí této fukce vyjádřt jako H ( t S( t e. 4.5. Kapla-Meerův odhad fukce přežtí Mez ejzámější eparametrcké metody pro výpočet odhadu fukce přežtí patří tzv. Kapla-Meerova metoda ([3] [32]. Pro její odvozeí zaveďme ásledující ozačeí: t < t 2 < t 3 <... - cezorovaé ecezorovaé doby do výskytu událost t - začátek stude t k - koec stude d - počet ecezorovaých výskytů událost v čase t... k c - počet cezorovaých výskytů událost v čase t... k - počet objektů setrvávajících ve stud v čase t t t... k - počet objektů a začátku stude. ( Zřejmě platí že d c - - d - - c -. Fukce přežtí S je defováa vztahem S ( t P( T > t. Hodotu této fukce v okamžku t lze z reálých dat odhadout pomocí podmíěé pravděpodobost jako P T t P( T > t T > t P( T t. ( > > P ( T > t ( ( 2 > 2 Přepíšeme-l podle stejého pravdla dostáváme P T > t P T > t T > t P( T > t T > t P( T t a aalogcky můžeme pokračovat až do obdržeí vztahu P( T > t P( T > t T > t P( T > t T > t2... P( T > t (4.2 s jehož pomocí jž vypočteme pravděpodobost P T > t sado eboť P ( ( T > t T > t... k d a P ( T > t jelkož pacety kteří by byl v čase t jž po smrt do stude logcky ezařazujeme. Vztah (4.2 tedy můžeme zapsat jako j d j P( T > t... k j j a pro Kapla-Meerův odhad fukce přežtí dostáváme vzorec d S ˆ ( t t t t. (4.3 k t t 27
Kapla-Meerova křvka přežtí má pak typcký schodový graf (vz Obrázek 4.2 jelkož v každém tervalu t... k má kostatí průběh s hodotou P T > t. t + Z grafu lze tedy vyčíst pravděpodobost přežtí v každém časovém okamžku t t t. ( k Rozptyl odhadu Ŝ daého vzorcem (4.3 počítáme ejčastěj podle vzorce 2 d ( ( Var ˆ Sˆ( t Sˆ( t ( d zámého pod ázvem Greewoodova formule. t t Chceme-l porovat dvě skupy pacetů podrobujících se dvěma růzým léčebým metodám z hledska přežtí začíáme většou vzuálím porováím křvek přežtí sestrojeých pro obě skupy. Větší mezery mez křvkam ve vertkálím směru zameají že pro daý časový okamžk má jeda skupa výrazě větší podíl přežvších pacetů ež druhá. Bude-l křvka příslušá prví skupě ležet téměř celá ad druhou jak je zázorěo a Obrázku 4.3. lze předpokládat že prví léčebá metoda přáší z hledska přežíváí lepší výsledky. Je-l teto rozdíl statstcky výzamý však musíme ověřt pomocí vhodého statstckého testu mez které patří apříklad log-rak test ěkdy též azývaý Matel- Coxův test ([3] [33] [34] ebo zobecěý Wlcoxoův test zámý pod ázvem Breslowův test ([3] [35] [36]. S ( t S ( 2 t Obrázek 4.3. Odhady křvek přežtí pro dvě skupy 4.6. Log-rak test Breslowův test Exstuje celá řada eparametrckých testů které umožňují porováí dvou skup reprezetujících dva ezávslé výběry s daty cezorovaým zprava z hledska délky přežíváí. K ejzámějším a ejčastěj používaým patří log-rak test a Breslowův test. 28
Testové statstky obou těchto testů vychází z kotgečí tabulky tvaru: Tabulka 4.. Tabulka pro testováí shody křvek přežtí pro dvě skupy Počet objektů: Skupa Skupa Celkem Necezorovaých D d d Cezorovaých d d - d V rzku kde d - počet ecezorovaých výskytů událost v čase t... k ve skupě d - počet ecezorovaých výskytů událost v čase t... k ve skupě - počet objektů skupy setrvávajících ve stud v čase t t t... k ( ( t t - počet objektů skupy setrvávajících ve stud v čase t... k - počet všech objektů setrvávajících ve stud v čase t t t... k. ( Nechť dále t < t 2 <... < t m začí ecezorovaé doby do výskytu událost u obou skup seřazeé vzestupě. Nulová hypotéza že křvky přežtí v obou skupách se elší je u obou testů testováa pomocí statstky kde Q m w ( d m d eˆ 2 eˆ w vˆ je odhad očekávaého počtu výskytů událost v čase t ve skupě d ( d v ˆ 2 ( 2 je odhad rozptylu d a w jsou váhy jejchž hodoty jsou u každého testu jé. Breslowův test počítá s hodotam vah w a klade tak větší důraz a rozdíly mez křvkam přežtí a začátku sledovaého časového tervalu a rozdíl od log rak testu u kterého w. V obou případech má testová statstka Q rozděleí chí-kvadrát s jedím stupěm volost a to za předpokladu že platí ulová hypotéza výskyt cezorováí ezávsí a skupové příslušost a rozsahu výběru je dostatečě velký. 29
3
5 Dskrmačí aalýza Dskrmačí aalýza (dscrmat aalyss DA ([37] [38] [39] [4] je statstcká metoda sloužící k vyhodocováí vícerozměrých dat. Předpokládejme že vícerozměrý áhodý výběr o rozsahu se (stejě jako základí soubor ze kterého pochází rozpadá do H skup a že každá jedotka souboru je charakterzováa hodotam p áhodých velč. Příslušost jedotlvých pozorováí ke skupě echť určuje hodota alteratví č vícehodotové omálí proměé kterou azýváme třídícím krtérem. Jestlže se prokáže (apř. aalýzou rozptylu že mají sledovaé áhodé velčy v jedotlvých skupách prokazatelě odlšou úroveň může ás zajímat akolk tyto velčy ovlvňují příslušost jedotky ke skupě. Dskrmačí aalýzu lze tedy použít jako vícerozměrý popsý ástroj pro vyjádřeí rozdílů mez skupam s ohledem a vektor p áhodých velč. Je-l cílem ašch zájmů právě toto odlšeí (separace jedotlvých skup hovoříme o tzv. deskrptví dskrmačí aalýze (descrptve dscrmat aalyss DDA. Alteratvím použtím dskrmačí aalýzy je klasfkace objektů ezámého původu do dvou ebo ěkolka možých skup. Klasfkačí krtérum pro zařazeí ezámých objektů do skup je přtom fukce původích proměých odhadutá a základě výběrového souboru jedotek u chž většou záme příslušost ke skupám. Zde hovoříme o tzv. predkčí dskrmačí aalýze (predctve dscrmat aalyss PDA. 5. Deskrptví dskrmačí aalýza Nejzámější metodou deskrptví dskrmačí aalýzy je tzv. kaocká dskrmačí aalýza [37] jejímž autorem je aglcký statstk bolog a geetk R. A. Fsher (89-962. Po svém tvůrc je ěkdy také azýváa Fsherova dskrmačí aalýza (Fsher dscrmat aalyss FDA. Prcpy této metody lze rověž použít pro predkčí účely. Uvažujme áhodý výběr s rozsahem který je čleě do H skup s rozsahy h h... H. Nechť každý objekt souboru je charakterzová p-rozměrým áhodým vektorem X (X X p T jehož realzací je vektor pozorováí x (x... x p T. Ozačme x (x h... vektor p hodot áhodých velč X X p zjštěých u -té jedotky (-té jedotky v h-té skupě x x... vektor výběrových průměrů h x x... vektor výběrových průměrů v h-té skupě. h h h Pak celkovou varabltu T vtroskupovou varabltu E a mezskupovou varabltu B 3
původích proměých vyjádříme ásledově: H h T T ( x x( x x h H h h h T E ( x x ( x x H h h h h h h T T B ( x x( x x ( x x( x x. h h h Zjevě platí T E + B a pro lbovolou leárí kombac Y b T x původích proměých X X p kde b T (b b p je vektor parametrů určíme míru její mezskupové resp. vtroskupové varablty jako Q ( b T Bb resp. Q ( Y b T Eb. B Y E H h h h h Cílem dskrmačí aalýzy jak j ve 3. letech mulého století formuloval R. A. Fsher je ajít takovou leárí kombac původích p proměých která by ejlépe ze všech separovala uvažovaé skupy v tom smyslu že její vtroskupová varablta bude co ejmeší a mezskupová varablta co ejvětší. Pro alezeí takovéto velčy je uté maxmalzovat tzv. Fsherovo dskrmačí krtérum: T QB ( Y b Bb F. (5. T Q ( Y b Eb E Př hledáí maxma položíme parcálí dervace F podle složek b vektoru b rovy ule čímž dostaeme soustavu rovc s matcovým vyjádřeím ( BE λ I b která má etrválí řešeí pokud BE λi. (5.2 Tato charakterstcká rovce má r řešeí kterým jsou charakterstcká čísla λ λ r matce BE - (λ > > λ r. Charakterstcký vektor b který odpovídá ejvětšímu z ch λ maxmalzuje dskrmačí krtérum F. Jelkož charakterstcká rovce (5.2 eurčuje vektor b jedozačě (staovuje pouze poměr mez jeho prvky můžeme určt jeho kokrétí hodoty tak aby byla avíc splěa podmíka b T Eb H. (5.3 To zaručí že vtroskupovou varabltu velčy Y b T x bude vyjadřovat jedotkový rozptyl a krtérum (5. budeme moc zapsat jako F b T Bb H tudíž charakterstcké číslo λ bude vyjadřovat míru mezskupové varablty velčy Y. 32
Leárí kombace Y b T x se azývá prví dskrmat (ebo taky prví kaocká proměá. Je-l H 2 stačí teto dskrmat pro vyjádřeí celkové varablty původích p proměých. V případě více skup je třeba použít další charakterstcké vektory b 2 b r příslušé charakterstckým číslům λ 2 λ r. Získaé kaocké proměé Y j b j T x j 2 r jejchž maxmálí počet je dá výrazem r m (p H- jsou vzájemě ezávslé a lze jm vyjádřt celkovou varabltu p původích proměých. Uvažujme j-tou kaockou proměou Y j b T j x a -tou jedotku v h-té skupě které T přísluší p-rozměrý vektor hodot x ( x... x. Výraz kde y c jh j c j p k + b p k jk x b k jk x h hk T h hp b j x (5.4 se azývá j-té dskrmačí skóre této jedotky. Průměré hodoty jedotlvých dskrmatů ve skupách tzv. skupové cetrody jsou dáy vzorcem: y jh c j + p k b jk x hk. Ty lze použít pro klasfkac jedotek do H skup tak že se jedotka s ezámou příslušostí zařadí do té skupy ke které má ejblíž ve smyslu vzdáleost od skupového cetrodu. Zahreme-l do výpočtu prvích s dskrmatů a ozačíme-l j-té dskrmačí skóre zařazovaé jedotky y j j s určíme vzdáleost této jedotky od h-té skupy jako d 2 h s j 2 ( y y. j jh Které dskrmaty je užtečé př klasfkac použít a které lze vyechat ám pomáhá určt test o shodě vektorů středích hodot v H skupách založeý a Wlksově statstce Λ E / E+B která má v případě r 2 rozděleí F jak lze použít Bartlettovu aproxmac kdy velča V c( l Λ (5.5 kde c ( p + H / 2 má přblžě chí-kvadrát rozděleí s p ( H stup volost. Jelkož platí Λ lze (5.5 upravt a tvar r j ( + λ j r V [ ( p + H / 2] l( + λ j který umožňuje testovat výzamost jedotlvých dskrmatů. Nulová hypotéza že se vektory výběrových průměrů ve skupách elší je totž ekvvaletí tvrzeí že λ λ r. Zamíteme-l tuto hypotézu zameá to že aspoň jedo charakterstcké číslo a sce λ j 33
je eulové a tedy aspoň prví kaocká proměá Y je výzamá. Výzamost druhé kaocké proměé pak zjstíme testováím hypotézy λ 2 λ r pomocí statstky r V [ ( p + H / 2] l( + λ j 2 která má přblžě chí-kvadrát rozděleí s ( p ( H stup volost. Její zamítutí potvrzuje výzamost kaocké proměé Y 2 a př testováí výzamost dalších kaockých proměých pokračujeme aalogcky. j Chceme-l určt vlv k-té původí proměé X k a j-tou kaockou proměou Y j b T j x (a tím její vlv a separac jedotlvých skup můžeme vyjít z koefcetů b jk které vyjadřují míru tohoto vlvu za předpokladu že ostatí původí proměé jsou kostatí. Normováí těchto koefcetů podle vzorce: b j Fb H j (5.6 kde F začí dagoálí matc s odmocam dagoálích prvků matce E umožňuje porovávat výzam jedotlvých původích proměých pro daý dskrmat. Stejou fukc plí korelačí koefcety mez kaockou proměou a původím proměým určeé vzorcem: a j F Eb j H. (5.7 V obou případech platí že větší absolutí hodota daého koefcetu zameá větší výzam příslušé proměé pro dskrmac. Zaméko korelačího koefcetu rověž udává zda s rostoucím hodotam původí proměé kaocká proměá roste (kladý koefcet ebo klesá (záporý koefcet. 5.2 Predkčí dskrmačí aalýza Hlavím cílem predkčí dskrmačí aalýzy je zařazeí objektů ezámého původu do předem vymezeých skup. Děje se tak prostředctvím rozhodovacího pravdla k jehož sestaveí slouží skupa testovacích objektů. Jsou to objekty u kterých záme hodoty ěkolka charakterstckých velč a ěkdy také jejch příslušost ke skupám. Na základě těchto údajů lze sestavt dskrmačí krtérum ěkolka způsoby z chž ejzámější jsou metody logstcké regrese ormálí dskrmačí aalýzy a směs ormálích rozděleí. Předpokládejme stuac kdy máme k dspozc testovacích objektů s p aměřeým zaky z chž každý patří do jedé ze dvou skup. (Teore klasfkace objektů do více ež dvou skup je přílš obsáhlá a jelkož v této prác ebyla pro aalýzu dat použta ebudeme se zde jejímu popsu věovat. Nechť aměřeé zaky jsou u jedotlvých objektů 34
reprezetováy p-rozměrým áhodým vektory X X a příslušost -tého objektu k daé skupě echť je vyjádřea hodotou áhodé velčy Y která abývá hodot ebo podle toho do které skupy objekt áleží. U ového objektu který chceme zařadt a základě vytvořeého rozhodovacího pravdla echť jsou aměřeé zaky reprezetováy p- rozměrým áhodým vektorem X a příslušost ke skupě áhodou velčou Y. 5.2. Statstcké rozhodovací fukce K alezeí optmálího rozhodovacího pravdla je využto bayesovského přístupu. Nezámým parametrem o jehož hodotě chceme rozhodout je zde áhodá velča Y s oborem hodot {} která má pravděpodobostí fukc q(y. Rozhodutí bude prováděo a základě hodoty p-rozměrého áhodého vektoru X jež má hustotu r(x. Nechť r( x y p je podmíěá hustota X za podmíky Y y δ: R {} rozhodovací fukce a D moža p všech rozhodovacích fukcí δ: R {}. Ztrátovou fukc zavedeme jako: rzkovou fukc: bayesovské rzko: pokud Y δ ( X L ( Y δ ( X jak [ L( Y δ ( Y ] R( Y δ E X L( Y δ ( x r( x ydx ρ ( δ ER( Y δ a optmálí rozhodovací fukc: * δ arg m ρ( δ. δ D y p R R( y δ q( y Pro rzkovou fukc pak můžeme odvodt ásledující vztah: [ L( Y δ ( X Y ] L( Y ( x r( x dx R( δ δ E p { x: δ ( x } { x: δ ( x } L ( r( x dx + { x: δ ( x } { x: δ ( x } Pro bayesovské rzko potom dostáváme: r( x dx P( δ ( x Y R L( r( x dx r( x dx P( δ ( x Y. ρ ( δ ER( Y δ R( δ P( Y + R( δ P( Y 35
P( δ ( X Y P( Y + P( δ ( X Y P( Y P( δ ( X Y + P( δ ( X Y z čehož je patré že bayesovské rzko můžeme terpretovat jako pravděpodobost špatého rozhodutí o hodotě Y. 5.2.2 Metody predkčí dskrmačí aalýzy 5.2.2. Logstcká regrese Defce modelu Model logstcké regrese sloužící k účelům dskrmace (logt model byl popsá apř. v ([4] [42] [43]. Předpokládejme že Y Y jsou ezávslé alteratví áhodé velčy jejchž podmíěá pravděpodobost lze vyjádřt ve tvaru: e P( Y X x β e P( Y X x β e β + β x T T + β x + T + β x + pro kde X je p-dmezoálí áhodý vektor x jeho realzace a (β β T T je ezámý (p+-dmezoálí vektor parametrů. Jeho hodoty odhademe a základě zámých hodot X a Y u testovacích objektů čímž dostaeme odhad fukce π(x kde T β+ β x e π ( x P( Y X x T. (5.8 β+ β x e + Rozhodovací fukc pak sestavíme podle pravdel popsaých v Kaptole 5.2.. Pokud δ (x j potom π ( x j E[ L( Y δ ( X X x] L( δ ( x P( Y X x π ( x j m E[ L( Y δ ( X X x] m{ π ( x π ( x} δ D a optmálí rozhodovací fukce má tedy tvar δ ( x arg m E[ L( Y δ ( X X x] δ D arg m L( j j P( Y j j j X x arg max P( Y j X x. To zameá že objekt u kterého ezáme příslušost ke skupě a jemuž přísluší vektor pozorováí x pro který platí π ( x π ( x (tj. β + β T x zařadíme do prví skupy ostatí do ulté. Pokud π(x - π(x můžeme 36
přtom objekt zařadt lbovolě až by se zvýšla pravděpodobost chybé klasfkace. Místo ezámých parametrů β β v prax musíme použít jejch odhady ˆ β βˆ které získáme metodou maxmálí věrohodost. Odhady parametrů modelu Př odhadech ezámých parametrů β β logstckého modelu maxmalzujeme sdružeou podmíěou hustotu vektoru Y (Y Y T za podmíky X X. Tato fukce má tvar: f y y β (... ( ( ( β y x x π x π x. Logartmcká věrohodostí fukce je pak rova l Y Y T T ( β β l π ( X ( π ( X [ Y ( β + β X l( + exp( β + β X a její dervace kde ] δl δ ( β β T T X [ X] M M T X T T [ X] Y [ X] π ( β β Y π ( X Y M π ( β β M. Y π ( X Odhad ( ˆ β βˆ T tedy ajdeme jako řešeí soustavy věrohodostích rovc s matcovým vyjádřeím [ X T ] Y [ X T ] π ( β β (5.9 která se řeší teračě. Pokud pro hodost matce [ X] platí h( [ X] p + jsou takto získaé odhady ˆ β βˆ maxmálě věrohodým odhady β β. Ověřováí předpokladů modelu Hosmerův-Lemeshovůw test Model logstcké regrese sce eklade žádé podmíky a rozděleí áhodých vektorů X X ale předpokládá velm specfcký tvar pravděpodobost P(Y X x (vz 5.8 což vyžaduje ověřeí vhodým statstckým testem apř. Hosmerovým-Lemeshowovým [42]. 37
Nechť je počet testovacích objektů a I počet růzých hodot x x I které a těchto objektech abývají áhodé vektory X X. Přezačme hodoty Y Y vyjadřující příslušost jedotlvých objektů ke skupám a Y j I j m kde m je počet objektů kterým přísluší hodota x. Ozačme dále Pomocí odhadů pravděpodobostí I m Y j j I m Y j j m Y Y j j ˆ β βˆ ( I. získaých řešeím rovce (5.9 spočítáme odhady logstckých e ˆ π ( x ˆ π ˆ β e ˆ + ˆT β β x + ˆT β x a z věrohodostích rovc vyplývá že I m ˆ π I m ˆ ( π. I + Dobrou shodu modelu s reálým daty pak lze testovat Pearsoovým chí-kvadrát testem který je založe a porováí kotgečích tabulek s očekávaým (teoretckým a pozorovaým (emprckým četostm jak je vdíme íže. Tabulka 5.. Tabulka s očekávaým četostm X Y x x I m ˆπ miπˆ I m ˆ m ˆ π ( π I ( I m m I Tabulka 5.2. Tabulka s pozorovaým četostm X Y x x I Y I m Y I Y I m m I Y m 38
Shodu dat v tabulkách s pozorovaým a teoretckým četostm lze testovat pomocí Pearsoovy testové statstky chí-kvadrát: I 2 2 ( Y m ˆ π χ + m ˆ π I ( m Y m m ( ˆ π ( ˆ π 2 I 2 ( Y m ˆ π m ˆ π ( ˆ π která má př platost hypotézy H : Platí logstcký model přblžě chí-kvadrát rozděleí s I (p + stup volost. Teto test však zde eí vhodý eboť vektory X X bývají často spojté a s rostoucím rozsahem výběru roste počet možých kombací jejch hodot. Vylepšeí Pearsoova chí-kvadrát testu přáší Hosmerův-Lemeshowův test který je založe a seskupeí ěkterých sloupců uvedeých kotgečích tabulek podle ásledujícího pravdla. Zvolme g < počet požadovaých sloupců kotgečí tabulky a uspořádejme pozorováí tak aby platlo ˆ π ˆ π 2... ˆ π I. Do prvího sloupce zařadíme přblžě / g pozorováí Y... Y m... Y '... Y ' m kterým přísluší ejmeší hodoty πˆ... ' do druhého přblžě zařadíme pozorováí / g ásledujících pozorováí až do posledího g-tého sloupce t... Y t m... Y t I... Y I m s ejvětším odhadutým pravděpodobost- I m ' Y g πˆ t... I kde k t ' + a '... ' ozačují počty růzých hodot vektorů X k g X v jedotlvých sloupcích. Sažíme se přtom o to aby v každém sloupc bylo přblžě stejě tz. přblžě m... m g / g pozorováí. Nechť t t k j j ' k g a echť jsou počty pozorováí v jedotlvých sloupcích. Pak teoretcké a emprcké četost v ové kotgečí tabulce vypočteme podle vzorců: - teoretcká četost pro řádek Y a k-tý sloupec: t k c k m ˆ π k g tk + - teoretcká četost pro řádek Y a k-tý sloupec: m k c k t k tk + m ( ˆ π k g - emprcká četost pro řádek Y a k-tý sloupec: t m k o k Y tk + j j k g - emprcká četost pro řádek Y a k-tý sloupec: m k o k t m k tk + j ( Y k g. j Zavedeme-l pro odhad pravděpodobost P Y X { x t +... xt } ozačeí π k tedy π k tk c m ˆ π k g m m k tk + mají ové kotgečí tabulky tvar: k k ( k k k 39
Tabulka 5.3. Tabulka s očekávaým četostm upraveá pro Hosmerův-Lemeshovůw test X Y.sloupec g-tý sloupec m π mgπ g m m π ( π m g ( g m g Tabulka 5.4. Tabulka s pozorovaým četostm upraveá pro Hosmerův-Lemeshovůw test X Y.sloupec g-tý sloupec o o g m m o o m g m g g K ověřeí shody dat s modelem logstcké regrese se pak použje testová statstka g 2 ok mk k Cˆ ( π m π ( π k k k k která má př platost hypotézy H : Platí logstcký model přblžě chí-kvadrát rozděleí s g 2 stup volost. Podle [42] lze v případě platost H rozděleí statstky Ĉ dobře aproxmovat rozděleím chí-kvadrát s g 2 stup volost v stuac kdy I. Je však doporučováo volt g 6 jak je tato statstka málo ctlvá a rozdíly mez teoretckým a emprckým četostm. 5.2.2.2 Normálí dskrmačí aalýza Defce modelu Metody ormálí dskrmačí aalýzy (ormal dscrmat aalyss NDA jsou popsáy apř. v ([37] [38] [39] [4] [43]. Mějme ezávslé áhodé velčy Y Y s alteratvím rozděleím pro které platí: P ( λ ( Y a posloupost ezávslých p-rozměrých áhodých vektorů X X které mají v h-té skupě p-rozměré ormálí rozděleí N p ( µ h Σ se středí hodotou µ h h a stejou kovaračí matcí Σ. Nezámé parametry λ µ aσ opět odhademe a základě µ 4
zámých hodot X a Y u testovacích objektů a pro alezeí optmálí dskrmačí fukce použjeme bayesovského přístupu stejě jako u modelu logstcké regrese. Nechť q začí aprorí hustotu velčy Y (tz. q ( λ q( λ a g hustotu rozděleí N p ( µ Σ. Potom pro aposterorí pravděpodobost příslušost ke skupě platí podle Bayesovy věty ásledující vztah: P( Y X x g ( x q(. g ( x q( k k [ L( Y ( X X x] k Pro δ (x j pak dostáváme g ( x q( j E δ m E[ L( Y δ ( X X δ D a optmálí rozhodovací fukc určíme jako j L( δ ( x P( Y X x gk ( x q( k k g j x] m j k ( x q( k j g ( x q( k g j ( x q( j δ ( x arg m arg max g ( q( j j x. j j g ( x q( k k k Objekt kterému přísluší vektor pozorováí x tedy zařadíme do prví skupy platí-l g x q( g ( x (. ( q Dosazeím vzorců pro hustoty pravděpodobost vícerozměrého ormálího rozděleí a logartmováím lze teto vztah upravt a tvar T T T T x Σ µ + l λ µ Σ µ x Σ µ µ Σ µ + l( λ. 2 2 Výraz a levé (resp. pravé straě této erovost se azývá leárí dskrmačí fukce pro prví (resp. ultou skupu. Př jejch odvozováí jsme vycházel z předpokladu vícerozměré ormalty a shody kovaračích matc v obou skupách. Oba předpoklady je uté ověřt vhodým statstckým testy. Neí-l splě předpoklad vícerozměré ormalty doporučuje se pro dskrmac použít logstckou regres. Je-l porušea pouze homoskedastcta používá se tzv. kvadratcká dskrmačí fukce. Nezámý objekt je v tomto případě klasfková do prví skupy jestlže platí T T T T x Σ + + l l λ + x x Σµ Σ x Σ x x Σµ + lσ l( λ 2 2 kde Σ Σ začí kovaračí matce v jedotlvých skupách. Výraz a levé (resp. pravé straě této erovost se azývá kvadratcká dskrmačí fukce pro prví (resp. ultou skupu. U obou klasfkačích pravdel přtom platí že pokud se hodoty dskrmačích fukcí pro obě skupy rovají lze objekt zařadt do lbovolé skupy až by se zvýšla hodota bayesovské rzkové fukce. 4
42 Odhady parametrů modelu Př odhadech ezámých parametrů Σ µ µ a λ modelu leárí dskrmačí aalýzy metodou maxmálí věrohodost vycházíme ze sdružeé hustoty vektoru ( T X T X Y Y T. Sdružeá hustota ( T X Y T má přtom tvar: y ( ( y ( x x f y Y P f kde ( ( x x g f λ ( ( x x g f λ a g (x je hustota rozděleí ( N Σ µ p. Můžeme tedy psát y y g g f ] ( [( ] ( [ y ( x x x λ λ a pro sdružeou hustotu vektoru ( T X T X Y Y T platí y y g g y y f ] ( [( ] ( [...... ( Σ µ µ x x x x λ λ λ : : ( ( ( ( y y y y g g x x λ λ. Logartmcká věrohodostí fukce je pak rova : : ( ( ( ( l ( y y Y Y g g X X Σ µ µ λ λ λ l + + + l 2 l 2 2 l( ( l Σ p Y Y π λ λ + + T T Y Y ] ( ( ( 2 [ ] ( ( 2 [ µ X Σ µ X µ X Σ µ X a její dervace ( ( λ λ δλ δ Y Y l ( µ X Σ µ Y δ δl ( ( µ X Σ µ Y δ δl T T Y Y ( ( ( 2 ( ( 2 2 µ X µ X µ X µ X Σ δσ δl. Pro kořey věrohodostích rovc pak platí: Y ˆλ : ˆ Y Y Y Y X X µ