Jana Vránová, 3. lékařská fakulta, UK Praha
Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně a epidemiologii Vysvětlovaná proměnná představuje Přítomnost nebo nepřítomnost nemoci Pacient zemřel nebo žije Příklad: Riziko vzniku srdeční choroby: Závisle proměnná: srdeční onemocnění vzniklo (1), nevzniklo (0), Nezávislé proměnné (ovlivňující faktory) : věk, váha, krevní tlak, hladina cholesterolu, kouření, RA
Úzce souvisí s diskriminační analýzou Je alternativní metodou klasifikace, když nejsou splněny podmínky vícerozměrného normálního modelu (proměnné vstupní i výstupní nesplňují podmínky normality) Libovolná kombinace diskrétních a spojitých proměnných Libovolné kategorické proměnné Vyžaduje znalost obou závisle proměnné i nezávisle proměnných
Logistický model odhaluje, zda nezávisle proměnné ovlivňující faktory, prediktory rozlišují dostatečně dobře mezi jednotlivými třídami, které tvoří závislá proměnná Slouží pro predikci vzniku určitého jevu Dokáže říct, která z daných vstupních proměnných je nejvíce ovlivňující
ZÁVISLE PROMĚNNÁ Binární logistická regrese: Binární závislá proměnná, nabývající pouze dvou možných hodnot přítomnost, absence; muž, žena Ordinální logistická regrese: Ordinální závislá proměnná, nebývající vícero možných stavů stoupajícího charakteru silný nesouhlas, nesouhlas, souhlas, silný souhlas Nominální logistická proměnná: Nominální závislé proměnná nabývající tří a vícero stavů radioterapie, chemoterapie, imunoterapie, hypertermie NEZÁVISLE PROMĚNNÉ: Spojité prediktory Kategorické faktory
Předpokládejme, že binární závislá proměnná Y nabývá hodnot 0 a 1 1: jev J nastal 0: jev J nenastal Zajímá nás, zda lze klasifikovat případy do těchto dvou tříd (0, 1) na základě skupiny nezávislých proměnných Místo toho abychom se snažili predikovat libovolně zvolené hodnoty nezávisle proměnných, sloužící k označení dvou kategorií binární závislé proměnné, zaměříme se na problém predikce pravděpodobnosti, že případ patří do jedné z kategorií. Známe li totiž P(Y=1), známe i P(Y=0), protože platí: P(Y=0) = 1 P(Y=1)
pokračování Předpokládejme, že ( ) 1 1 PY= 1 = α + β X+... + β X K K Narážíme na numerické problémy: Pravděpodobnost je číslo, které leží mezi 0 a 1 Daná rovnice nemusí tuto podmínku splňovat
pokračování Řešení: 1. Změna pravděpodobnosti na šanci Šance, že nastal jev J se rovná podílu pravděpodobnosti, že Y=1 a pravděpodobnosti, že Y 1 ( = 1) = ( = 1) 1 ( = 1) šance Y P Y P Y Šance nemá žádnou pevnou maximální hodnotu, ale její minimální hodnota je rovna 0 2. Provedeme ještě další transformaci přirozený logaritmus šance, tato proměnná se nazývá logit a je definovaná vztahem ( Y) = P( Y = ) P( Y = ) Hodnoty logitu se pohybují od mínus do plus nekonečna, použijeme li tedy logit(y) jako závislou proměnnou, zbavíme se problémů, které jsme měli v případě pravděpodobnosti a šance { } logit ln 1 1 1
pokračování Regresní rovnice bude mít tvar: logit ( Y) = α + β1x1+... + βkxk Logit můžeme převést zpět na šanci: ( 1) exp logit ( ) exp ( α β1 1... βk K) exp( α) exp ( β X )... exp( β X ) šance Y = = Y = + X + + X = 1 1 K K Od šance se dostaneme zpět k pravděpodobnosti: P ( Y = 1) = šance( Y = 1) 1+ šance( Y = 1) = ( α + β X + + β X ) + ( α + β X + + β X ) exp... 1 exp... 1 1 K K 1 1 K K
pokračování Pravděpodobnost, šance a logit jsou tři druhy vyjádření téhož, v tom smyslu, že jsou navzájem mezi sebou převoditelné Pro interpretaci jsou snadněji pochopitelné, a proto vhodnější pravděpodobnosti a šance než logity RIZIKO!!! Velmi často ve skutečnosti interpretujeme šance ale mluvíme o pravděpodobnostech Šance a pravděpodobnost není totéž!
Pokud je nezávisle proměnná nominální, tj. mezi kategoriemi neexistují žádné relace (přičemž počet kategorií je M), nahradíme tuto proměnnou M 1 novými kontrastními proměnnými Vytvoříme M 1 indikátorových proměnných Vynechaná kategorie se nazývá referenční Označíme li M 1 nových proměnných D N1, D N2,, D N,M 1 pro rovnici modelu dostáváme vztah: M 1 logit ( Y) = α + β X +... + β X + β X 1 1 K 1 K 1 Ki Ki i= 1
Pokud má ordinální proměnná dostatečný počet kategorií alespoň 7, můžeme s ní pracovat jako s proměnnou spojitou Vždy ovšem můžeme použít výše popsaný způsob vytvoření nových proměnných Pokud je proměnná dichotomická opět si můžeme vybrat, zda budeme s touto proměnnou zacházet jako se spojitou nebo zda pro ni vytvoříme novou proměnnou Hosmer a Lemeshow doporučují, aby kategorie všech dichotomických proměnných byly kódovány 0 a 1 a aby se s těmito proměnnými pracovalo jako se spojitými.
2LL ( 2 log likelihood) test rozdílu mezi nalezeným logistickým regresním modelem a modelem, který obsahuje pouze absolutní člen má χ 2 rozdělení Nulová hypotéza H 0 : Všechny regresní koeficienty jsou nulové. Alternativní H A : Všechny regresní koeficienty nejsou nulové. Při 2 stupních volnosti. Pokud vypočtená hladina významnosti je menší než 0,05, nulovou hypotézu zamítáme a přijímáme alternativní hypotézu, že aspoň jeden z regresních koeficientů β i je různý od nuly.
Test významnosti jednotlivých koeficientů Statistická významnost nulové hypotézy pro jednotlivé odhady regresních koeficientů Waldova statistika má χ 2 rozdělení s 1 stupněm volnosti. Pro kategorické proměnné má o 1 stupeň volnosti méně, než je počet kategorií Pokud je hladina významnosti p menší α = 0,05, je uvedený regresní koeficient statisticky významný
Test dobré shody má opět χ 2 rozdělení Testuje těsnost proložení logistickým modelem Nulová hypotéza H 0 : Naměřené hodnoty a hodnoty predikované modelem jsou stejné. Zde tedy potřebujeme naopak, aby hodnota χ 2 byla malá a p větší než 0,05, abychom nulovou hypotézu neodmítli Naopak velká hodnota χ 2 a malá hodnota spočtené hladiny významnosti indikují, že proložení není dobré
Porovnává pozorované a modelem predikované zařazení do tříd výstupní proměnné a stanovuje celkové procento správně klasifikovaných případů Stanovení predikčních a klasifikačních vlastností modelu se liší od statistické významnosti, protože je možné získat výsledky statisticky významné, které ale nemusí přiřazovat jednotlivé objekty do jedné ze dvou tříd správně a mít tím pádem praktický smysl pro klasifikaci
Testuje predikční schopnosti logistického modelu Maximální plocha pod křivkou je 1 nebo 100% Numerická hodnota velikosti této plochy bude blízká 1, když predikce modelu je výtečná Pokud se rovná 0,5 = kvalita jako při házení mincí Z klasifikační tabulky jsme dále určili: Sensitivitu Specificitu PPV a NPV Přesnost logistického modelu
Příklad: Mějme 55 pacientů různé rasy. Naším cílem bude vyhodnotit jaké je riziko vzniku hypertenze s hodnotou systolického tlaku TK > 180 mmhg při následujících ovlivňujících proměnných: Výstupní proměnná: hodnota systolického tlaku: 1 systolický tlak > 180 mmhg 0 systolický tlak 180 mmhg Nezávislé proměnné (ovlivňující): Věk (spojitá proměnná) Rasa (kategorická proměnná) Kouření (kategorická proměnná)
Pro kategorické proměnné musíme nadefinovat referenční kategorii: Rasa: Referenční: 1 = Číňané vs. (2 = Indiáni, 3 = Malajci, 4 = ostatní) Kouření: Referenční: 0 = nekuřák vs. (1 = kuřák) Vstupní rozložení případů vidíme v následující tabulce
VSTUPNÍ NAMĚŘENÁ DATA: > 180 mmhg Počet % Platné % Kumulativní % Platná Ne 40 72,7 72,7 72,7 data Ano 15 27,3 27,3 100,0 Celkem 55 100,0 100,0
Nagelkerke R 2 : pokračování Krok 2log likelihood Cox and Snell R 2 Nagelkerke R 2 1 40,819 0,349 0,506 Nagelkerkeovo R 2 nám říká, že 50% variability modelu je vysvětleno našim modelem Hosmer Lemeshowův test dobré shody: Krok χ 2 df Hladina významnosti p 1 5,869 7 0,555
Proměnné v modelu: pokračování proměnná β S.E. Wald df p Exp(β) +95% 95% Krok Věk 0,209 0,063 11,007 1 0,001 1,233 1,089 1,395 1 Kuřák (1) 2,292 0,986 5,401 1 0,020 9,896 1,432 68,386 Rasa 1,627 3 0,653 Rasa(2) 0,640 1,009 0,402 1 0,526 1,896 0,263 13,696 Rasa (3) 1,303 1,136 1,316 1 0,251 3,681 0,397 34,101 Rasa (4) 0,097 1,230 0,006 1 0,937 0,908 0,081 10,113 Intercept 14,462 4,005 13,041 1 0,000 0,000 Waldova statistika definuje statistickou významnost proměnných věk a kouření Sloupeček Exp(β) nám dává hodnoty Odds Ratio (poměr šancí): Věk (spojitá proměnná) 1,233 při zestárnutí o 1 rok, se zvýší šance, že budeme mít systolický tlak >180 mmhg o 23,3% Kouření (kategorická proměnná) pokud kouříme zvýši se šance, že budeme mít systolický tlak >180 mmhg 9,9 krát
Klasifikační tabulka: pokračování Krok 1 Pozorované hodnoty Predikované hodnoty 180 >180 Správně klasifikováno 180 38 2 95,0% >180 6 9 60,0% Celkem 85,5% Sensitivita, specificita, přesnost modelu, PPV a NPV: Sensitivita = 915= 60% Specificita = 38 40 = 95% Accuracy = 47 55 = 85,5% PPV NPV = 911= 81,8% = 38 44 = 86,4%
pokračování Pokud máme nového pacienta, můžeme použít náš logistický model pro predikci, zda jeho systolický tlak dosáhne hodnoty vyšší než 180 mmhg z = 14,462 + 0,209* Age+ 2, 292*Smoker(1) + 0,640* Race(1) P + 1,303* Race(2) 0, 097* Race(3) 1 = 1 + e ( 180) z Příklad: Pacient1: 45letý nekuřák, Číňan Smoker(1) = 0, Race(1) = Race(2) = Race(3) = 0 z = 14,462 + 0,209*45 = 5,057 e z = 157,1 a P( > 180) = 0,006 Pacient2: 65letý kuřák, Indián Smoker(1) = 1, Race(1) = 1, Race(2) = Race(3) = 0 z = 14,462 + 0,209*65 + 2,292*1 + 0,64*1 = 2,055 e z = 0,128 a P( > 180) = 0,89
pokračování Plocha pod křivkou: AUC = 0,878 predikční schopnost modelu je 88%
děkuji za pozornost