Praktcké otázky víceásobé leárí regrese (VJ REGOD-3) Základí formace V rámc této výukové jedotky se sezámíme s ěkterým problémy specfckým pro víceásobé regresí modely. Vysvětlíme s, co je terakce mez predktory a jak ám zavedeí terakce pomáhá překoat omezující předpoklad adtvty účku jedotlvých predktorů. V dalším výkladu se sezámíme s problematkou multkolearty a chybějících dat. U studetů se předpokládá zalost defce leárích regresích modelů a práce s růzým datovým typy př kostrukc matce pláu leárího regresího modelu. Výstupy z výuky kokrétí výukové jedotky Po prostudováí učebího tetu této výukové jedotky studet defují terakc predktorů v regresím modelu vysvětlí pojem multkolearta odhalí multkoleartu v datovém souboru řeší problém multkolearty v přípravě dat pro regresí model řeší problém chybějících dat v přípravě dat pro regresí model
. Iterakce proměých Jako jede ze základích předpokladů leárích statstckých modelů jsme uváděl adtvtu. To zameá, že změa hodoty ěkterého z predktorů bude mít vždy stejý úček a výsledek, bez ohledu a hodoty ostatích proměých. V pra ovšem může být takový předpoklad erealstcký a omezující. Regresí modely poskytují ástroj, jak lze teto předpoklad praktcky obejít. Tímto ástrojem je zavedeí terakčího výrazu do matce pláu regresího modelu.. Iterakce kategorálí a spojté proměé Příklad. Hodotíme soubor s daty o typech automoblů a jejch charakterstkách [automoble]. Zkoumaým výsledkem je spotřeba vozu (uvedeá v ltrech a km). Zajímá ás, jak se vyvíjí spotřeba s ohledem a hmotost automoblu (v lbrách, spojtý predktor) a zem původu automoblu (amercký automobl vs. zahračí automobl, kategorálí predktor). Do víceásobého regresího modelu zahreme právě tyto dva predktory (zem původu jako dkátorovou proměou s hodotou pro zahračí vozy). Pozorovaá data a predkce tímto regresím modelem je zázorěa a obrázku 3.. Spotřeba [l/ km] 6 8 4 6 8 Amercká auta predkce pozorováí Zahračí auta predkce pozorováí 3 4 Hmotost [lb] Obr. 3. Závslost spotřeby a hmotost a zem původu auta: adtví model Z tohoto regresího modelu vyplývá, že spotřeba arůstá s každou lbrou o,3 l/ km. Dále je zřetelé, že pro lbovolou hmotost vozu očekáváme, že zahračí auto spotřebuje o,79 l/ km více. Z těchto formací vyplývá, a je to zřejmé z obrázku, že jedotlvé regresí přímky pro amercká a zahračí auta jsou v adtvím modelu vzájemě rovoběžé. Podívejme se yí a matc pláu a odpovídající regresí rovc (pro jedotlvá pozorováí deovaá,...,):
Rovce 3.: Pro amercká zahračí auta platí, že a lbru hmotost roste spotřeba o hodotu. Odlšost v obou regresích rovcích je pouze v koefcetu, který odpovídá rozdílu absolutích čleů obou rovc. Absolutí čle je tedy pro amercká auta, avšak ( ) pro auta zahračí. Sestavme yí fleblější model, který přpouští odlšé skloy obou regresích přímek pro růzé země původu automoblu. Toho dosáheme velm jedoduše přdáme terakčí čle do matce pláu. Te je velm jedoduše tvoře součem hodot ve sloupcích matce pláu odpovídajícím hmotost aut a dkátoru zahračích vozů. Dostáváme tedy čtvrtý sloupec, který má hodoty hmotost v řádcích odpovídajícím amerckým vozům a uly ve sloupcích odpovídajícím zahračím vozům. Sado odvodíme, že yí uvažujeme sklo regresí přímky pro amercká auta a ( 3 ) pro auta zahračí. Rovce 3.: Tato změa se promíte do grafckého zázorěí regresích přímek (obrázek 3.). Vdíme, že zatímco spotřeba aut s hmotostí okolo lber se mez amerckým a zahračím výrazě elší, s rostoucí hmotostí se rozdíl mez auty zvýrazňuje. Amercká auta Zahračí auta E E a lbru hmotost poroste o a lbru hmotost poroste o 3 amercká zahračí Amercká auta Zahračí auta E 3 3 ) ( E E a lbru hmotost poroste o a lbru hmotost poroste o 3
Spotřeba [l/ km] 6 8 4 6 8 Amercká auta predkce pozorováí Zahračí auta predkce pozorováí 3 4 Hmotost [lb] Obr. 3. Závslost spotřeby a hmotost a zem původu auta: model s terakcí. Iterakce dvou kategorálích proměých Iteragovat spolu mohou eje proměá kategorálí s proměou spojtou, ale rověž dvě proměé kategorálí. Teto vztah a výzam koefcetů v takovém regresím modelu s osvětlíme a příkladu. Příklad. Uvažuje vzorek mužů z jhoafrcké epdemologcké stude zazameaé v datovém souboru [heartdsease]. Výsledkovou proměou je zde systolcký kreví tlak (v mlmetrech rtuťového sloupce, mm Hg), tuto proměou se sažíme vysvětlt krevím hodotam ízkodeztího lpoproteu (LDL). Jako další faktor, který ovlvňuje hodoty krevího tlaku je uvažová věk paceta. Tabulka 3. uvádí průměré hodoty výsledkové proměé s ohledem a dvě vysvětlující proměé. Tabulka 3. pak uvádí vztahy pro predkovaé hodoty krevího tlaku pro adtví regresí model zahrující věk (regresí koefcet ) a vysoký LDL cholesterol (regresí koefcet ). Tabulka 3. Průměré hodoty krevího tlaku (v mm Hg) dle věku a hodoty ízkodeztího lpoproteu (LDL) ladší (< 5 let) Starší ( 5 let) Nízký LDL (< 3 mmol/l) Vysoký LDL ( 3 mmol/l) Rozdíl 8 33 5 36 48
Tabulka 3. Predkovaé hodoty krevího tlaku (v mm Hg) dle věku a hodoty ízkodeztího lpoproteu (LDL) Nízký LDL (< 3 mmol/l) Vysoký LDL ( 3 mmol/l) Rozdíl ladší (< 5 let) Starší ( 5 let) Tomuto regresímu modelu odpovídá ásledující vztah pro výsledkovou proměou: Je zřejmé, že v tomto adtvím modelu se předpokládá, že vlv vysokého LDL se elší dle věku. V pra to ovšem emusí být pravda a může být příosé modelovat terakc obou zmíěých kategorálích proměých. Vztah pro výsledkovou proměou v takto formulovaém regresím modelu je zde: V tabulce 3.3 jsou pak uvedeé predkovaé hodoty krevího tlaku pro regresí model s terakcí. Nyí jž formulace modelu přpouští rozdílý efekt LDL dle věku a model tedy umožňuje popsat slější efekt u starších osob, který azačovala prohlídka průměrých hodot ve zkoumaých datech. mladší ízké LDL starší ízké LDL mladší vysoké LDL starší vysoké LDL 3 mladší ízké LDL starší ízké LDL mladší vysoké LDL starší vysoké LDL
Tabulka 3.3 Predkovaé hodoty krevího tlaku (v mm Hg) dle věku a hodoty ízkodeztího lpoproteu (LDL) ladší (< 5 let) Starší ( 5 let) Nízký LDL (< 3 mmol/l) Vysoký LDL ( 3 mmol/l) Rozdíl 3 3. ultkolearta Síla víceásobé leárí regrese je v možost zjstt samostatý vlv jedotlvých predktorů a výsledek. V pra se ale můžeme setkat se stuací, kdy to eí možé. Problém astae, když jsou dvě proměé velm slě korelováy. Pak eí možé přílš dobře určt ezávslý vlv jedé z proměých a výsledek. Tomuto jevu říkáme multkolearta. Vzklý problém s ukážeme a etrémím příkladu. Představme s, že se sažíme sestavt model pro predkc tělesé výšky (třeba pro účel mputace proměých, vz další kaptola). Pokud bychom měl v datovém souboru tělesou hmotost v klogramech lbrách ( lb je přblžě,45 kg), roztržtému statstkov by se mohlo stát, že do modelu zahre obě tyto proměé. Co by se stalo? Ukážeme s ejprve, jak by regresí přímky vypadaly pro dva modely závslost tělesé výšky a hmotost, ejprve v kg a poté v lbrách. Použjeme data účastíků epdemologcké stude GUSTO-I [gusto]. Výška [cm] 4 6 8 Výška [cm] 4 6 8 4 6 8 4 8 5 5 3 35 4 Hmotost [kg] Hmotost [lb] Výška 47 HmotostKg,3 Výška 47 HmotostLb,4 Data v obou -y grafech vypadají aprosto stejě (až a měřítko osy ). Podobá bude tedy samozřejmě regresí rovce (až a sklo přímky, který se lší právě ásobeím převodí kostatou). Spočítejme, jak by mohly vypadat odhady regresích koefcetů:
model s oběma predktory. možost: model s klogramy. možost: model s lbram změíme jedotku a použjeme původí odhad Výška HmotostKg HmotostLb Výška 47 HmotostKg,3 HmotostLb Výška 47 HmotostKg HmotostLb,4 Výška (HmotostLb,45) HmotostLb Výška HmotostLb (,45 ) Z toho však plye, že optmálí model je kterýkolv, pro jehož koefcety a platí,45,4. A takových je ekoečě moho, odhad parametrů leárího modelu tedy samozřejmě selže. V pra, pokud euděláme podobou chybu, proměé takto dokoale korelovaé ejsou. Setkáme se však s proměým, jejchž korelace je vysoká. V takovém případě emusí být možé správě určt příspěvek jedotlvých proměých k celkovému efektu a model tedy selže ve své základí fukc. Abychom se těmto problémům vyhul, musíme s rzko multkolearty uvědomovat a umět teto jev v ašem datovém souboru pozat. Nejjedodušším ástrojem je určeí matce korelačích koefcetů. Z í můžeme zjstt, které proměé spolu vysoce korelují (korelačí koefcet v absolutí hodotě blízký ). Užtečá může být rověž matce korelačích koefcetů mez odhady regresích koefcetů. Ta se běžě ve výsledcích euvádí, programy pro regresí aalýzu j však umí zobrazt. Teto jedoduchý postup má jede zásadí problém: multkolearta emusí zameat korelac je mez dvěma proměým, ale rověž stuac, kdy se dá jeda z proměých odvodt jako leárí kombace ěkolka jých proměých). Řešeím je použít místo korelačího koefcetu tzv. varace flato factor (faktor zvětšeí rozptylu, VIF). Teto ukazatel měří, akolk je rozptyl odhadovaých regresích koefcetů zvětše ve srováí se stuací, kdy by predktory byly vzájemě ezávslé []. VIF r r je koefcet mohoásobé korelace (odmoca koefcetu determace regresího modelu pro závslost tohoto predktoru a ostatích predktorech). Jako oretačí pravdlo lze říc, že hodoty VIF > 4 mohou být problematcké, hodoty > mohou závažě ovlvt výsledky modelováí []. V modelu bychom samozřejmě závažě korelovaé predktory eměl echávat. Vyloučt lze z aalýzy ejlépe proměé obsahující chybějící data, proměé obecě hůře měřtelé, ebo z jých důvodů méě důvěryhodé. Řešeím může být také vytvořeí a/ebo proměé z korelovaých kategorálích proměých, případě kombace predktorů do jedého skóre (typckým případem je vytvořeí deu tělesé hmotost z korelovaých proměých výška a tělesá hmotost).
3. Chybějící data Chybějící data představují problém v růzých typech statstckých aalýz. U víceásobých regresích modelů se však teto problém prohlubuje, protože pracujeme ajedou s moha proměým a pokud u daého pozorováí chybí kterýkolv údaj, můžeme o celé pozorováí pro aalýzu přjít. eší počet pozorováí samozřejmě sžuje přesost odhadů a sílu statstckých testů (schopost zamítout ulovou hypotézu), ale vylučováí pozorováí z tohoto důvodu může vést ke zkresleí výsledků. Rzko zkresleí souvsí s mechasmem, který způsobuje chybějící data [3]: Data chybějící zcela áhodě (ssg completely at radom, CAR) Žádý systematcký rozdíl mez (ám epozorovaým) chybějícím hodotam a pozorovaým hodotam. Například výpadek pozorováí hodot systolckého krevího tlaku z důvodu poruchy tlakoměru. Data chybějící áhodě (ssg at radom, CAR) Systematcký rozdíl mez chybějícím a pozorovaým hodotam je vysvětltelý pozorovaým hodotam jé proměé. Například chybějící hodoty krevího tlaku budou žší ež pozorovaé, pokud se mladí ldé edostaví a ávštěvu lékaře k provedeí měřeí. Pokud aměříme věk pacetů, bude možé tuto chybu opravt. Data chybějící eáhodě (ssg ot at radom, NAR) Systematcký rozdíl mez chybějícím a pozorovaým hodotam eí vysvětltelý a pozorovaým hodotam jé proměé. 3.. ožost zpracováí souboru s chybějícím daty Základí metody práce s chybějícím daty jsou ásledující []:. Smazat celá pozorováí obsahující chybějící data Tato možost je samozřejmě ejjedodušší a často automatcky využívaá př prováděí regresí aalýzy v růzých softwarových ástrojích. Jak však bylo uvedeo, př jejím použtí eje ztrácíme sílu statstckých testů, ale můžeme do výsledků zaést zkresleí, pokud data echybějí zcela áhodě. Je tedy vhodé zkust porovat (s ohledem a ostatí predktory ebo výsledek) pozorováí s chybějícím údaj s těm ostatím, abychom zjstl, zda je možé předpokládat zcela áhodý výskyt chybějících dat.. Považovat chybějící údaj za zvláští kategor daé proměé Tato stratege umožňuje poechat pozorováí v aalýze bez potřeby zavedeí (zpravdla velm slých) předpokladů o potecálí hodotě chybějících proměých. 3. Sažt se získat chybějící údaje U klíčových proměých se může vyplatt věovat dodatečé úslí doplěí těchto údajů. V moha stuacích (apř. když příslušé měřeí vůbec eproběhlo) to samozřejmě emusí být možé. 4. Vypustt proměou s chybějícím daty V ěkterých stuacích (zejméa když máme v datovém souboru ěkolk vysoce korelovaých proměých, které tedy esou podobou formac) může být výhodé vypustt z aalýzy celou
(vysvětlující) proměou. V případě, že tato proměá ese klíčovou formac k vysvětleí výsledkové proměé (je apř. součástí zavádějících efektů ebo terakcí), mohl bychom aopak jejím vypuštěím zavést do výsledků závažé zkresleí. 5. Odhadout chybějící hodoty Nejjedodušší strategí tohoto typu je ahradt chybějící hodoty průměrem ebo medáem dostupých hodot daé proměé. Předpokladem tohoto postupu je samozřejmě mechasmus CAR, tedy data chybějící zcela áhodě. Pokud data chybějí áhodě, lze dále použít dosazeí průměru specfckého pro jedotlvé podskupy daého souboru (pro chybějící hodoty měsíčího příjmu u vysokoškoláků dosadíme průměrý měsíčí příjem u vysokoškoláků v ašem souboru). Sofstkovaější přístup tohoto typu je pak vytvořt přímo regresí model, který odhade hodoty chybějící proměé z ostatích echybějících predktorů. Společým egatvem všech těchto metod je však zaedbáí přrozeé varablty a tedy evyhutelé podhodoceí směrodatých chyb odhadutých koefcetů. Řešeím může být užtí kompleější techky víceásobé mputace (multple mputato [3]), její pops však přesahuje rámec tohoto tetu.
Problémy k řešeí. Jak lze přrozeě terpretovat odhad regresího koefcetu v rovc 3.? Jak by bylo třeba trasformovat vstupí proměé, aby odhad koefcetu představoval odhad spotřeby pro (amercké) auto s průměrou hmotostí v daém souboru?. Předpokládejme ásledující výstup fukce regresího modelu (dle rovce 3.) v sofware R: Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept).458.955749.374.79 weght.36468.388.439 <e-6 *** foregforeg -.54834.3795655 -.44.66 weght:foregforeg.978.9755.3.3 --- Sgf. codes: ***. **. *.5.. Vypočítejte, jak se lší spotřeba mez amerckým a zahračím vozem s hmotostí lb. Jak se lší spotřeba mez amerckým a zahračím vozem s hmotostí 3 lb? 3. Uveďte, jak v regresím modelu odhalíte multkoleartu. [,9 l/ km;,9 l/ km] Lteratura Použtá lteratura [] Vttghof, E., Shbosk, S.C., Gldde, D.V., cculloch, C.E.: Regresso ethods Bostatstcs. Lear, Logstc, Survval, ad Repeated easures odels. Sprger, New ork (5) [] Katz,.H.: ultvarable Aalyss. A Practcal Gude for Clcas. Cambrdge Uversty Press, Cambrdge (6) [3] Stere, J.A., Whte, I.R., Carl, J.B., Spratt,., Roysto, P., Keward,.G., Wood, A.., Carpeter, J. R.: ultple mputato for mssg data epdemologcal ad clcal research: potetal ad ptfalls. BJ: Brtsh edcal Joural 338:b393 (9) Použté datové soubory [automoble] dostupý z http://www.stata-press.com/data/ [gusto] dostupý z http://www.clcalpredctomodels.org/ [heartdsease] dostupý z http://statweb.staford.edu/~tbs/elemstatlear/