Jana Vránová, 3. lékařská fakulta, UK Praha

Transkript

1 Jana Vránová, 3. lékařská fakulta, UK Praha

2 Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně a epidemiologii Vysvětlovaná proměnná představuje Přítomnost nebo nepřítomnost nemoci Pacient zemřel nebo žije Příklad: Riziko vzniku srdeční choroby: Závisle proměnná: srdeční onemocnění vzniklo (1), nevzniklo (0), Nezávislé proměnné (ovlivňující faktory) : věk, váha, krevní tlak, hladina cholesterolu, kouření, RA

3 Úzce souvisí s diskriminační analýzou Je alternativní metodou klasifikace, když nejsou splněny podmínky vícerozměrného normálního modelu (proměnné vstupní i výstupní nesplňují podmínky normality) Libovolná kombinace diskrétních a spojitých proměnných Libovolné kategorické proměnné Vyžaduje znalost obou závisle proměnné i nezávisle proměnných

4 Logistický model odhaluje, zda nezávisle proměnné ovlivňující faktory, prediktory rozlišují dostatečně dobře mezi jednotlivými třídami, které tvoří závislá proměnná Slouží pro predikci vzniku určitého jevu Dokáže říct, která z daných vstupních proměnných je nejvíce ovlivňující

5 ZÁVISLE PROMĚNNÁ Binární logistická regrese: Binární závislá proměnná, nabývající pouze dvou možných hodnot přítomnost, absence; muž, žena Ordinální logistická regrese: Ordinální závislá proměnná, nebývající vícero možných stavů stoupajícího charakteru silný nesouhlas, nesouhlas, souhlas, silný souhlas Nominální logistická proměnná: Nominální závislé proměnná nabývající tří a vícero stavů radioterapie, chemoterapie, imunoterapie, hypertermie NEZÁVISLE PROMĚNNÉ: Spojité prediktory Kategorické faktory

6 Předpokládejme, že binární závislá proměnná Y nabývá hodnot 0 a 1 1: jev J nastal 0: jev J nenastal Zajímá nás, zda lze klasifikovat případy do těchto dvou tříd (0, 1) na základě skupiny nezávislých proměnných Místo toho abychom se snažili predikovat libovolně zvolené hodnoty nezávisle proměnných, sloužící k označení dvou kategorií binární závislé proměnné, zaměříme se na problém predikce pravděpodobnosti, že případ patří do jedné z kategorií. Známe li totiž P(Y=1), známe i P(Y=0), protože platí: P(Y=0) = 1 P(Y=1)

7 pokračování Předpokládejme, že ( ) 1 1 PY= 1 = α + β X β X K K Narážíme na numerické problémy: Pravděpodobnost je číslo, které leží mezi 0 a 1 Daná rovnice nemusí tuto podmínku splňovat

8 pokračování Řešení: 1. Změna pravděpodobnosti na šanci Šance, že nastal jev J se rovná podílu pravděpodobnosti, že Y=1 a pravděpodobnosti, že Y 1 ( = 1) = ( = 1) 1 ( = 1) šance Y P Y P Y Šance nemá žádnou pevnou maximální hodnotu, ale její minimální hodnota je rovna 0 2. Provedeme ještě další transformaci přirozený logaritmus šance, tato proměnná se nazývá logit a je definovaná vztahem ( Y) = P( Y = ) P( Y = ) Hodnoty logitu se pohybují od mínus do plus nekonečna, použijeme li tedy logit(y) jako závislou proměnnou, zbavíme se problémů, které jsme měli v případě pravděpodobnosti a šance { } logit ln 1 1 1

9 pokračování Regresní rovnice bude mít tvar: logit ( Y) = α + β1x βkxk Logit můžeme převést zpět na šanci: ( 1) exp logit ( ) exp ( α β βk K) exp( α) exp ( β X )... exp( β X ) šance Y = = Y = + X + + X = 1 1 K K Od šance se dostaneme zpět k pravděpodobnosti: P ( Y = 1) = šance( Y = 1) 1+ šance( Y = 1) = ( α + β X + + β X ) + ( α + β X + + β X ) exp... 1 exp K K 1 1 K K

10 pokračování Pravděpodobnost, šance a logit jsou tři druhy vyjádření téhož, v tom smyslu, že jsou navzájem mezi sebou převoditelné Pro interpretaci jsou snadněji pochopitelné, a proto vhodnější pravděpodobnosti a šance než logity RIZIKO!!! Velmi často ve skutečnosti interpretujeme šance ale mluvíme o pravděpodobnostech Šance a pravděpodobnost není totéž!

11 Pokud je nezávisle proměnná nominální, tj. mezi kategoriemi neexistují žádné relace (přičemž počet kategorií je M), nahradíme tuto proměnnou M 1 novými kontrastními proměnnými Vytvoříme M 1 indikátorových proměnných Vynechaná kategorie se nazývá referenční Označíme li M 1 nových proměnných D N1, D N2,, D N,M 1 pro rovnici modelu dostáváme vztah: M 1 logit ( Y) = α + β X β X + β X 1 1 K 1 K 1 Ki Ki i= 1

12 Pokud má ordinální proměnná dostatečný počet kategorií alespoň 7, můžeme s ní pracovat jako s proměnnou spojitou Vždy ovšem můžeme použít výše popsaný způsob vytvoření nových proměnných Pokud je proměnná dichotomická opět si můžeme vybrat, zda budeme s touto proměnnou zacházet jako se spojitou nebo zda pro ni vytvoříme novou proměnnou Hosmer a Lemeshow doporučují, aby kategorie všech dichotomických proměnných byly kódovány 0 a 1 a aby se s těmito proměnnými pracovalo jako se spojitými.

13

14 2LL ( 2 log likelihood) test rozdílu mezi nalezeným logistickým regresním modelem a modelem, který obsahuje pouze absolutní člen má χ 2 rozdělení Nulová hypotéza H 0 : Všechny regresní koeficienty jsou nulové. Alternativní H A : Všechny regresní koeficienty nejsou nulové. Při 2 stupních volnosti. Pokud vypočtená hladina významnosti je menší než 0,05, nulovou hypotézu zamítáme a přijímáme alternativní hypotézu, že aspoň jeden z regresních koeficientů β i je různý od nuly.

15 Test významnosti jednotlivých koeficientů Statistická významnost nulové hypotézy pro jednotlivé odhady regresních koeficientů Waldova statistika má χ 2 rozdělení s 1 stupněm volnosti. Pro kategorické proměnné má o 1 stupeň volnosti méně, než je počet kategorií Pokud je hladina významnosti p menší α = 0,05, je uvedený regresní koeficient statisticky významný

16 Test dobré shody má opět χ 2 rozdělení Testuje těsnost proložení logistickým modelem Nulová hypotéza H 0 : Naměřené hodnoty a hodnoty predikované modelem jsou stejné. Zde tedy potřebujeme naopak, aby hodnota χ 2 byla malá a p větší než 0,05, abychom nulovou hypotézu neodmítli Naopak velká hodnota χ 2 a malá hodnota spočtené hladiny významnosti indikují, že proložení není dobré

17 Porovnává pozorované a modelem predikované zařazení do tříd výstupní proměnné a stanovuje celkové procento správně klasifikovaných případů Stanovení predikčních a klasifikačních vlastností modelu se liší od statistické významnosti, protože je možné získat výsledky statisticky významné, které ale nemusí přiřazovat jednotlivé objekty do jedné ze dvou tříd správně a mít tím pádem praktický smysl pro klasifikaci

18 Testuje predikční schopnosti logistického modelu Maximální plocha pod křivkou je 1 nebo 100% Numerická hodnota velikosti této plochy bude blízká 1, když predikce modelu je výtečná Pokud se rovná 0,5 = kvalita jako při házení mincí Z klasifikační tabulky jsme dále určili: Sensitivitu Specificitu PPV a NPV Přesnost logistického modelu

19

20 Příklad: Mějme 55 pacientů různé rasy. Naším cílem bude vyhodnotit jaké je riziko vzniku hypertenze s hodnotou systolického tlaku TK > 180 mmhg při následujících ovlivňujících proměnných: Výstupní proměnná: hodnota systolického tlaku: 1 systolický tlak > 180 mmhg 0 systolický tlak 180 mmhg Nezávislé proměnné (ovlivňující): Věk (spojitá proměnná) Rasa (kategorická proměnná) Kouření (kategorická proměnná)

21 Pro kategorické proměnné musíme nadefinovat referenční kategorii: Rasa: Referenční: 1 = Číňané vs. (2 = Indiáni, 3 = Malajci, 4 = ostatní) Kouření: Referenční: 0 = nekuřák vs. (1 = kuřák) Vstupní rozložení případů vidíme v následující tabulce

22 VSTUPNÍ NAMĚŘENÁ DATA: > 180 mmhg Počet % Platné % Kumulativní % Platná Ne 40 72,7 72,7 72,7 data Ano 15 27,3 27,3 100,0 Celkem ,0 100,0

23 Nagelkerke R 2 : pokračování Krok 2log likelihood Cox and Snell R 2 Nagelkerke R ,819 0,349 0,506 Nagelkerkeovo R 2 nám říká, že 50% variability modelu je vysvětleno našim modelem Hosmer Lemeshowův test dobré shody: Krok χ 2 df Hladina významnosti p 1 5, ,555

24 Proměnné v modelu: pokračování proměnná β S.E. Wald df p Exp(β) +95% 95% Krok Věk 0,209 0,063 11, ,001 1,233 1,089 1,395 1 Kuřák (1) 2,292 0,986 5, ,020 9,896 1,432 68,386 Rasa 1, ,653 Rasa(2) 0,640 1,009 0, ,526 1,896 0,263 13,696 Rasa (3) 1,303 1,136 1, ,251 3,681 0,397 34,101 Rasa (4) 0,097 1,230 0, ,937 0,908 0,081 10,113 Intercept 14,462 4,005 13, ,000 0,000 Waldova statistika definuje statistickou významnost proměnných věk a kouření Sloupeček Exp(β) nám dává hodnoty Odds Ratio (poměr šancí): Věk (spojitá proměnná) 1,233 při zestárnutí o 1 rok, se zvýší šance, že budeme mít systolický tlak >180 mmhg o 23,3% Kouření (kategorická proměnná) pokud kouříme zvýši se šance, že budeme mít systolický tlak >180 mmhg 9,9 krát

25 Klasifikační tabulka: pokračování Krok 1 Pozorované hodnoty Predikované hodnoty 180 >180 Správně klasifikováno ,0% > ,0% Celkem 85,5% Sensitivita, specificita, přesnost modelu, PPV a NPV: Sensitivita = 915= 60% Specificita = = 95% Accuracy = = 85,5% PPV NPV = 911= 81,8% = = 86,4%

26 pokračování Pokud máme nového pacienta, můžeme použít náš logistický model pro predikci, zda jeho systolický tlak dosáhne hodnoty vyšší než 180 mmhg z = 14, ,209* Age+ 2, 292*Smoker(1) + 0,640* Race(1) P + 1,303* Race(2) 0, 097* Race(3) 1 = 1 + e ( 180) z Příklad: Pacient1: 45letý nekuřák, Číňan Smoker(1) = 0, Race(1) = Race(2) = Race(3) = 0 z = 14, ,209*45 = 5,057 e z = 157,1 a P( > 180) = 0,006 Pacient2: 65letý kuřák, Indián Smoker(1) = 1, Race(1) = 1, Race(2) = Race(3) = 0 z = 14, ,209*65 + 2,292*1 + 0,64*1 = 2,055 e z = 0,128 a P( > 180) = 0,89

27 pokračování Plocha pod křivkou: AUC = 0,878 predikční schopnost modelu je 88%

28 děkuji za pozornost