Logstcký regresní model a jné zobecněné lneární modely (VJ REGMOD-5) Základní nformace Př studu ředchozích výukových jednotek vás jž jstě naadlo, že výsledek (závsle roměnná) nemusí být vždy sojtý. Proměnné, které nás zajímají jak v běžném žvotě (sthnu vlak? udělám úsěšně zkoušku?) tak v řírodních vědách (je organsmus naadený araztem? uzdraví se acent?) mohou často nabývat jen jedné ze dvou hodnot: ano nebo ne. Nástroj, který by byl schoen ředovědět ze známých redktorů bnární výsledek, by tak byl velce užtečný. Tímto nástrojem může být logstcká regrese. V této výukové jednotce s vysvětlíme, co je logstcká regrese a jak rncy, které znáte z ředchozích výukových jednotek, ulatníme ř rác s ní. Logstcká regrese je říkladem zobecněného lneárního modelu. Na úvod této výukové jednotky s tedy řomeneme ředoklady obyčejných lneárních modelů a vysvětlíme, v čem řesně mohou zobecněné lneární modely omoc. V závěru této výukové jednotky s ak ukážeme ještě jeden říklad zobecněného lneárního modelu: Possonovu regres. Ta nám umožní modelovat výsledek, který nabývá nezáorných celých hodnot tycky se tak modelují očty (acentů, buněk aod.). U studentů se ředokládá znalost ředchozích výukových jednotek, tedy zejména znalost defnce a raktcké ráce s vícenásobným lneárním regresním modelem. Výstuy z výuky konkrétní výukové jednotky Po rostudování učebního textu této výukové jednotky student defnují velčny ro měření vztahu/účnku: oměr rzk a oměr šancí oíší základní rnc metody maxmální věrohodnost vysvětlí řínos zobecněných lneárních modelů ve srovnání s obecným lneárním modely defnují logstcký regresní model využjí logstcký model v regresní analýze nterretují výsledky logstckého regresního modelu osoudí slnění ředokladů logstckého regresního modelu využjí analýzu devance ro analýzu výsledků regresního modelu defnují Possonův regresní model využíjí Possonův model v regresní analýze nterretují výsledky Possonova regresního modelu osoudí slnění ředokladů Possonova regresního modelu vysvětlí ojem nadměrný roztyl (overdserson) zohlední nadměrný roztyl v regresní analýze
. Vztah dvou bnárních roměnných měření účnku Jak bylo řečeno v úvodu, klíčovým cílem této výukové jednotky je seznámt čtenáře s modelováním bnárních výsledků (mohou nabývat hodnoty ano/ne). Klíčovou velčnou, která nám omůže kvantfkovat vlv konkrétních redktorů na takový výsledek je tzv. oměr šancí (odds rato). S defncí oměru šancí se seznámíte v této výukové jednotce: Bostatstka ro matematckou bolog > Asocace ve čtyřolní tabulce. Proč oužíváme zobecněné lneární modely? Přomeňme s součást klasckého lneárního modelu, které znáte z ředchozích výukových jednotek. Předokládáme, že hodnoty závsle roměnné (Y ) lze ř modelování rozdělt na systematckou a náhodnou část (rezdua): Y β + β j X j + ε,,..., n ε ~ N (, σ ) (5.) j Rezdua jsou tedy v obyčejném regresním modelu normálně rozdělená. Zobecněné lneární modely nám umožní modelovat výsledek rozdělený bnomcky (to je říad roměnné ano/ne), ossonovsky (to je říad očtů) nebo jnak, okud bude rozdělení z tzv. třídy exonencálních rozdělení (dalším říkladem je normální rozdělení mohu rozradt, že lneární regrese, o které jsme mluvl doosud, je tedy také secálním říadem zobecněného lneárního modelu). Pro systematckou část ve vztahu 5. zavedeme ojem lneární redktor (obvykle značíme řeckým ísmenem η čt éta). η β + β X S lneárním redktorem jsme samozřejmě racoval doosud ředokládal jsme, že mez lneárním redktorem a modelovanou střední hodnotou (EY µ ) je rovnost. j µ η V rámc zobecněných lneárních modelů jž tento ředoklad není nutný. Můžeme ředokládat, že lneární redktor ředstavuje transformovanou střední hodnotu (tzv. lnkovací funkcí f) f ( µ ) η U říkladů zobecněných lneárních modelů ukázaných v této výukové jednotce s ukážeme tycky oužívané lnkovací funkce, teoretcky ale můžeme oužít jnou ryze monotónní dferencovatelnou funkc. Zájemce o odrobnou defnc zobecněného lneárního modelu odkazuj na výukovou jednotku Statstcké modelování - Zobecněné lneární modely. U obyčejných lneárních modelů bylo možné odhady získat jednoduše analytcky metodou nejmenších čtverců. Daní za flexbltu zobecněných lneárních modelů je složtější výočet odhadů regresních koefcentů. Ty se nyní získávají metodou maxmální věrohodnost (maxmum lkelhood method). Blžší vysvětlení této metody naleznete ve výukové jednotce: j j
Bostatstka ro matematckou bolog > Bodové a ntervalové odhady > Metoda maxmální věrohodnost 3. Logstcký regresní model 3.. Defnce logstckého regresního modelu Cílem logstckého regresního modelu je modelování náhodného výběru roměnných s bnárním výsledkem. Rozdělení takového výsledku je možné osat bnomckým rozdělením. Bnomcké rozdělení je dskrétní rozdělení, které osuje očet výskytů sledované událost (ve formě nastala/nenastala) v sér n nezávslých exermentů, kdy v každém exermentu je stejná ravděodobnost výskytu událost π. Bnomcké rozdělení má následující ravděodobnostní funkc: n k P( Y k) k π ( π ) Známe-l arametr π, ak odle očtu exermentů známe střední hodnotu a roztyl E ( Y ) nπ D ( Y ) nπ ( π ) Abychom logstcký regresní model nadefnoval, uvažujme jeden z nezávslých exermentů (jedno ozorování). Výsledek tohoto exermentu je rozdělený alternatvně (nabývající hodnoty s ravděodobností π, jnak nabývá hodnoty ): Y ~ A( π ),..., n n k Srovnejme lneární regres (vlevo) s logstckou regresí (vravo) µ β + β x +... + β x,..., n modelujeme sojtý výsledek hodnota arametru (střední hodnoty) je rovna lneárnímu redktoru logt( π ) β + βx +... + β x,..., n modelujeme nastání náhodného jevu hodnota arametru (střední hodnoty) je rovna transformovanému redktoru hodnota lneárního redktoru odovídá střední hodnotě transformované lnkovací funkcí logt Proč ale vůbec tuto lnkovací funkc oužíváme? Pokud bychom lnkovací funkc neoužl (tedy oužl jako lnkovací funkc denttu, tak jako v lneární regres), ak bychom jako hodnotu ravděodobnost dostával různá reálná čísla. Neochybně ale nechceme jako modelovanou ravděodobnost čísla menší než nebo větší než. Uvažujme tedy zmíněnou funkc logt:
logt( ) a její nverz (někteří autoř j označují jako ext ): ln ex( η) logt ( η) ext( η) + ex( η) Za komlkovaným vztahy se skrývají velm užtečné vlastnost této funkce. Ukažme s je na následujících grafech (obr. 5.). Podíváme-l se na ravý obrázek, vdíme, že zatímco lneární redktor může nabývat lbovolných hodnot na reálné ose, transformace ext nám zajstí, že výsledek bude v oboru hodnot od nuly do jedné (asymtoty jsou oravdu v a ). logt() log(x/( - x)) -4-4 ext(η) ex(x)/( + ex(x))...4.6.8....4.6.8. x -4-4 η x Obr. 5. Lnkovací funkce a její nverze (ext) v logstckém regresním modelu
3.. Interretace koefcentů logstckého regresního modelu Použtí funkce logt vede k další říjemné vlastnost lneární regrese: regresní koefcenty lze o transformac řrozeným logartmem nterretovat jako oměry šancí. Představme s dvě ozorování, nař. acenty, kteří mohou trět okročlým adenomovým olyy, řednádorovým ale snadno léčtelným onemocněním tlustého střeva. Pomocí logstckého modelu bychom chtěl ředovědět ravděodobnost výskytu této choroby, a tak třeba dooručt reventvní vyšetření acentům s vysokou ravděodobností adenomového olyu. V tomto jednoduchém říadě modelujme ravděodobnost ro muže (roměnná x ) a ženy (roměnná x ): Subjekt (muž, x ) logt( ) β logt( ) β ln β ex( β ) + x β Subjekt (žena, x ) logt( ) β logt( ln ) β + β β + β + x β ex( β + β ) Poměr šancí (odds rato) na výskyt adenomového olyu ro ženu ve srovnání s mužem je tedy: OR,) ex( β + β) ex( β)ex( β) ex( β ) ex( β ) ex( β ) ( ex(odhad regresního koefcentu) tedy ředstavuje oměr šancí na danou událost v souvslost s daným redktorem. Bnární redktor jsme s rávě ukázal. V říadě sojtého redktoru latí, že s každou jednotkou roste šance na danou událost násobkem ex(odhad regresního koefcentu). Tedy nař. s rostoucím věkem roste šance (a obdobně ravděodobnost, rzko) na výskyt adenomového olyu. 3.3. Ověření srávnost logstckého regresního modelu Pro ověření srávnost logstckého regresního modelu je vhodné ověřt celkovou shodu modelu s ozorováním (overall goodness of ft) a také rovést analýzu rezduí stejně jako u lneárních modelů. Zatímco u lneárního modelu lze grafcky znázornt celkovou shodu modelu s ozorováním oměrně jednoduše, stuace je u logstcké regrese komlkována tím, že výsledek je bnární. Problém a nastíněný rnc řešení je ukázán na obrázku 5.. Celkovou shodu modelu s ozorováním lze formálně testovat (nař. s využtím Hosmer-Lemeshow testu [] nebo testu založeného na nearametrckých jádrových odhadech []).
Pravděodobnost výskytu Prob(CHD) schemcké choroby...4.6.8. 3 4 Sotřeba Tobacco tabáku [kg] Obr. 5. Znázornění shody modelu (sojtá čára) s ozorovaným výsledky (kolečka). Informatvnější obrázek dostáváme ř rozdělení sledovaného souboru na 8 částí (odle červených čárkovaných čar) a sočítání odílu (odhadu ravděodobnost) nastání jevu v rámc těchto odskun (symboly damantu). Rovněž u analýzy rezduí můžeme vyjít z rnců ukázaných v ředchozích výukových jednotkách. Konkrétní velčny rezdua se ale od lneárního modelu lší. V následující tabulce naleznete defnc běžně oužívaných rezduí ro logstcký model: Pearsonova rezdua y ˆ π r ˆ π ( ˆ π ) Devanční rezdua d d ln( ˆ π ) ro y j j ln( ˆ π ) ro y j j Vedle analýzy rezduí, která nám umožňuje najít odlehlé hodnoty, je vhodné rozkoumat u ozorování Cookovu vzdálenost, která nás uozorní na vlvná ozorování.
3.4. Řešený raktcký říklad: Rzkové faktory srdeční choroby V této stud využívající datový soubor [heartdsease] se snažíme určt rzkové faktory schemcké choroby srdeční. Naměřená data jsou ze stude říadů a kontrol z Jhoafrcké reublky, u acentů a zdravých kontrolních subjektů byla zjšťována sotřeba tabáku (kumulatvní v kg), hladna cholesterolu, rodnná anamnéza a další faktory. V tomto jednoduchém říkladu určíme oměr šancí sojený s vyšší sotřebou tabáku. Nejrve načteme datový soubor. heartdsease <- read.table("heartdsease.txt", headertrue,se",") Syntaxe říkazu ro odhad arametrů logstckého modelu je velce odobná jako u obyčejného lneárního modelu. Místo funkce lm()oužjeme funkc glm(), která odhaduje arametry zobecněných lneárních modelů. Této funkc musíme secfkovat rozdělení výsledku (argument famly) a také říadně lnkovací funkc. Výsledek uložíme do roměnné model a zobrazíme funkcí summary(). model <- glm(chd ~ tobacco, famly bnomal(lnk logt ), data heartdsease) summary(model) Tato funkce nám mmo jné zobrazuje hodnoty odhadů regresních koefcentů. Coeffcents: Estmate Std. Error z value Pr(> z ) (Intercet) -.8943.39-8.557 < e-6 *** tobacco.457.476 5.866 4.46e-9 *** --- Sgnf. codes: ***. **. *.5.. (Dserson arameter for bnomal famly taken to be ) Nesmíme zaomenout, že abychom mohl regresní koefcenty nterretovat jako oměry šancí, musíme oužít exonencální transformac. ex(coef(model)[]) tobacco.5635 Náš jednoduchý říklad otvrzuje, že řírůstek kg ve sotřebě tabáku statstcky významně zvyšuje šanc na schemckou chorobu srdeční o 5%.
4. Analýza devance Ve výukové jednotce jsme se seznáml s analýzou roztylu a jejím významem ro orovnávání různých lneárních regresních modelů. O tento nástroj u zobecněných lneárních modelů neřcházíme. Je však otřeba defnovat novou statstku, která bere v úvahu odhad arametrů modelu metodou maxmální věrohodnost. Touto statstkou je tzv. devance, která je dvojnásobkem rozdílu mez logartmem věrohodnost maxmálního modelu (značíme l ( y; y), tedy takový hyotetcký model, u kterého modelové arametry a vstuní data slývají, jeho věrohodnost je největší možná) a logartmem věrohodnost zkoumaného modelu (značíme l ( µ ˆ; y),s omezeným očtem arametrů, jež jsou odhadovány metodou maxmální věrohodnost). D [ l( y; y) l(ˆ; µ y)] Uvažujme modelovací říklad s n ozorováním. Výsledky se snažíme modelovat omocí redktorů s využtím určtého očtu arametrů. Samozřejmě latí, že čím více arametrů oužjeme, tím blíže se s redkcem dostaneme ke skutečným ozorováním. Zavedeme s tedy následující ojmy: Model s n arametry MAXIMÁLNÍ MODEL veškerá varablta do systematcké složky Model s k arametry ZKOUMANÝ MODEL když vyloučíme některý redktor (m < k arametrů) SUBMODEL Model s arametrem (konstantou růměrem) NULOVÝ MODEL veškerá varablta do náhodné složky Nyní můžeme odobně jako v analýze roztylu formálně testovat, zda se od sebe modely ve svých redkčních schonostech statstcky významně lší. Statstka rozdíl devancí ředstavuje testové krtérum ro rozdíl mez zkoumaným modelem a jeho submodelem: D [ l( ˆ; y) l( µ ˆ ; y)] µ SUB Je-l D > χ -α(k-m), kde χ -α ředstavuje kvantl chí-kvadrát rozdělení, m je očet odhadovaných arametrů submodelu a k je očet arametrů zkoumaného modelu, ak je submodel nevhodný řehnaně zjednodušující. Pro orentační test, zda ve zkoumaném modelu nechybí významný redktor modelu, můžeme testovat, zda se od sebe lší zkoumaný a maxmální model. V tom říadě jako testové krtérum oužjeme tzv. rezduální devanc a očet stuňů volnost ro kvantl chí-kvadrát rozdělení je dán rozdílem mez očtem ozorování (tedy očtem arametrů maxmálního modelu) a očtem arametrů zkoumaného modelu. Pro orentační test, zda náš zkoumaný model vůbec vysvětluje nějakou varabltu ve srovnání s rostou konstantou, můžeme testovat, zda se od sebe lší zkoumaný a nulový model. V tom říadě jako testové krtérum oužjeme rozdíl rezduální a nulové devance (obě tyto statstky uvádí software R ve standardním výstuu) a očet stuňů volnost ro kvantl chí-kvadrát rozdělení je dán očtem arametrů zkoumaného modelu zmenšeným o. Uvedené vztahy jsou grafcky znázorněny na obrázku 5.3.
VĚROHODNOST Maxmální model Zkoumaný model Submodel Nulový model POČET PARAMETRŮ n k m DEVIANCE SUBMODEL TESTY REZIDUÁLNÍ k-m n-k NULOVÁ mnus REZIDUÁLNÍ k- Obr. 5.3 Znázornění využtí devance k testování významnost rozdílů mez vnořeným zobecněným lneárním modely Akakeovo nformační krtérum Pokud se snažíme zvolt nejleší statstcký model vysvětlující daná data, devance (res. věrohodnost) nemůže být jedným krtérem. Je jasné, že okud bychom modely seřadl odle devance, nejleší bude rávě maxmální model, který je ale z raktckého hledska neoužtelný. An vložení všech vysvětlujících roměnných, které máme v našem datovém souboru k dsozc, nemusí být nejleším řešením v mnulé výukové jednotce jsme zmňoval roblém řeučení modelu. Jako nástroj ro jednoduchý ředvýběr zobecněných lneárních modelů se často využívá Akakeovo nformační krtérum (AIC). Součástí tohoto krtéra je vedle logartmu věrohodnost (l) očet arametrů zkoumaného modelu (k). AIC l(ˆ; µ y) + k Čím je hodnota AIC menší, tím ovažujeme model za leší. Zahrnutím k (očtu arametrů) AIC enalzuje modely s vysokým očtem oužtých arametrů a tak zamezuje řeučení statstckého modelu.
5. Possonův regresní model 5.. Defnce Possonova regresního modelu Cílem Possonova regresního modelu je modelování roměnných s ossonovsky rozděleným výsledkem. Possonovo rozdělení je dskrétní rozdělení, které osuje očet výskytů sledované událost na danou jednotku (času, lochy, objemu), když se tyto událost vyskytují vzájemně nezávsle s konstantní ntenztou (jedný arametr λ). Possonovo rozdělení má tuto ravděodobnostní funkc: y λ λ e P( Y y), y y! Střední hodnota a roztyl jsou dány jedným arametrem λ. EY λ, DY Abychom Possonův regresní model nadefnoval, uvažujme jedno ozorování (nař. jedna Petrho mska, na které očítáme buňky, jeden rok, kdy zaznamenáváme acenty nově dagnostkované s nádorovým onemocněním). Toto ozorování je rozděleno ossonovsky:,..., n λ Y ~ Po( λ ) Srovnejme lneární regres (vlevo) s Possonovou regresí (vravo) µ β + β x +... + β x,..., n modelujeme sojtý výsledek hodnota arametru (střední hodnoty) je rovna lneárním redktoru ln( λ ) β + βx +... + β x,..., n modelujeme ossonovský výsledek hodnota arametru (střední hodnoty) je rovna transformovanému redktoru: hodnota lneárního redktoru odovídá střední hodnotě transformované řrozeným logartmem Stejně jako u logstcké regrese oužíváme lnkovací funkc, která nám omáhá modelovat omocí lneárního redktoru (který nabývá různých hodnot na reálné ose) výsledek, který by měl být určtě oztvní. Takovou funkcí je řrozený logartmus (obr. 5.4).
ln(m) log(x) - - ex(η) ex(x) 4 6 4 6 8 m x - - η x Obr. 5.4 Lnkovací funkce v Possonově regresním modelu 5.. Interretace koefcentů logstckého regresního modelu Použtí řrozeného logartmu vede k užtečné nterretac regresních koefcentů Possonova modelu. Představme s dvě oulace, z nchž jedna žje ve znečštěné oblast. Pomocí Possonova regresního modelu bychom chtěl odhadnout vlv tohoto znečštění na nemocnost. Uvažujme tedy oulac žjící v oblast bez znečštění (roměnná x ) a oulac žjící ve znečštěné oblast (roměnná x ): Poulace (bez znečštění, x ) ln( m ) β + x β ln( m ) β m ex( β ) Poulace (znečštění, x ) ln( m ) β + x β ln( m m ) β + β ex( β + β ) Poměr rzk (rsk rato) ro oulac ve srovnání s oulací je tedy: m ex( β + β) ex( β)ex( β) RR (,) ex( β) m ex( β ) ex( β ) ex(odhad regresního koefcentu) tedy ředstavuje oměr rzk dané choroby v souvslost s daným redktorem. Bnární redktor jsme s rávě ukázal. V říadě sojtého redktoru latí, že s každou jednotkou roste rzko na danou událost násobkem ex(odhad regresního koefcentu). Tedy nař. s rostoucí koncentrací nějakého měřeného karcnogenu v tné vodě roste rzko sledovaného onemocnění.
5.3. Ověření srávnost Possonova regresního modelu Pro ověření srávnost Possonova regresního modelu latí rncy zmíněné u lneární regrese a nástroje zmíněné u logstcké regrese u Possonovy regrese využíváme nař. Pearsonových nebo devančních rezduí, konkrétní defnce je ale odlšná. 6. Nadměrný roztyl overdserson V této výukové jednotce jsme se věnoval Possonově a logstcké regres. U obou těchto rozdělení latí, že střední hodnota a roztyl solu evně souvsejí: v Possonově rozdělení latí je l střední hodnota,5, je roztyl rovněž,5 (návštěv na urgentním říjmu, moučných červů v objemu mouky,...) v Bnomckém rozdělení latí je l střední hodnota,5, je roztyl,75 (za ředokladu, že racujeme se třem exermenty, tedy v stuac, kdy nař. odhadujeme očet chlaců mez třem otomky) Problém je, že se v rax dostáváme často do stuace, kdy rozdělení výsledku zcela neodovídá těm modelovým. Důvodem je jstá korelace mez výsledky, která je v rozoru s ředoklady obou zmíněných rozdělení. Může se to naříklad stát v stuac, kdy jsou v datech nějaké zřejmé shluky (naříklad různé nemocnce, lékař, laboratoře, řístroje) v rámc kterých solu výsledky korelují více než naříč shluky. Na nadměrný roztyl nás může uozornt vysoká rezduální devance, a tedy značná významnost říslušného statstckého testu. Řešením může být řdání dalšího redktoru (okud jej máme naměřen). V rámc defnce modelu ro odhad arametrů je to možné řešt uvolněním ředokladů o vztahu mez střední hodnotou a roztylem. V tomto říadě odhadujeme zvlášť tzv. dserzní arametr (je to vlastně analoge odhadu roztylu z lneárního statstckého modelu). Naříklad v software R je možné uvolnt ředoklady rostřednctvím nastavení argumentu famlyquasbnomal nebo famlyquasosson.
Problémy k řešení. Logstcký model oskytnul odhad oměru šancí (odds rato) 6 ro danou nemoc ro osoby s rzkovým faktorem ve srovnání s běžnou oulací. Jaká je ravděodobnost výskytu onemocnění mez osobam s rzkovým faktorem, víme-l, že v běžné oulac touto chorobu trí každý átý jednec?. Vyzkoušejte s samostatně řešený raktcký říklad z katoly 3.4. Jaký může být roblém se zjštěným oměrem šancí ro sojtou roměnnou tobacco? [6%] [není zaručeno, že nárůst šance (rzka) schemcké choroby srdeční roste lneárně, ověřte ředoklad omocí analýzy rezduí, vyzkoušejte funkc scatter.smooth()] 3. Převeďte roměnnou tobacco na kategorální (kuřák/nekuřák). Jaký je oměr šancí (na výskyt schemcké choroby srdeční) ro kuřáky ve srovnání s nekuřáky? [oměr šancí je 4,] 4. V mnulé výukové jednotce jsme hovořl o zavádějících faktorech. Potencální zavádějícím faktorem by v naší úloze mohl být naříklad věk. Přdejte tedy věk mez vysvětlující roměnné a odhadněte znovu oměr šancí (nyní adjustovaný na věk) ro kuřáky ve srovnání s nekuřáky. [oměr šancí je,5, věk je v modelu významným redktorem výsledku] 5. Sestavte vztah, který by redkoval ravděodobnost výskytu schemcké choroby srdeční dle věku a kategore sotřeby tabáku (kuřák/nekuřák) [ ext(-4,3 +,59 věk +,97(okud je subjekt kuřák) )] Lteratura Použtá lteratura [] Hosmer, D.W., Lemeshow, S.: Aled Logstc Regresson. Wley, Hoboken (4). [] Le Cesse, S., Van Houwelngen, J. C.: A goodness-of-ft test for bnary regresson models, based on smoothng methods. Bometrcs 47: 67-8 (99). Použté datové soubory [heartdsease] dostuný z htt://statweb.stanford.edu/~tbs/elemstatlearn/