Jana Vránová, 3. lékařská fakulta, UK Praha

Podobné dokumenty
Cvičení 12: Binární logistická regrese

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Regresní a korelační analýza

Jana Vránová, 3. lékařská fakulta UK

8 Coxův model proporcionálních rizik I

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Regresní a korelační analýza

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Aplikovaná statistika v R - cvičení 3

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PRAVDĚPODOBNOST A STATISTIKA

METODOLOGICKÁ RUBRIKA

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

Regresní a korelační analýza

12. cvičení z PST. 20. prosince 2017

INDUKTIVNÍ STATISTIKA

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Regresní a korelační analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

KGG/STG Statistika pro geografy

= = 2368

4EK211 Základy ekonometrie

Téma 9: Vícenásobná regrese

Jednofaktorová analýza rozptylu

Počítačová analýza vícerozměrných dat v oborech přírodních, technických a společenských věd

PRAVDĚPODOBNOST A STATISTIKA

Normální (Gaussovo) rozdělení

Statistika (KMI/PSTAT)

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Lineární a logistická regrese

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Odhad parametrů N(µ, σ 2 )

Charakteristika datového souboru

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Ranní úvahy o statistice

Lineární regrese. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Bodové a intervalové odhady parametrů v regresním modelu

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

Jednofaktorová analýza rozptylu

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistická analýza jednorozměrných dat

Technická univerzita v Liberci

Kontingenční tabulky, korelační koeficienty

Přednáška X. Testování hypotéz o kvantitativních proměnných

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Aplikovaná statistika v R - cvičení 2

5EN306 Aplikované kvantitativní metody I

Normální (Gaussovo) rozdělení

Regresní analýza. Eva Jarošová

Statistické testování hypotéz II

Regresní analýza 1. Regresní analýza

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Odhad parametrů N(µ, σ 2 )

Korelační a regresní analýza

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

7 Regresní modely v analýze přežití

Diskriminační analýza hodnocení rozdílů mezi 2 nebo více skupinami objektů charakterizovanými více znaky

Testování statistických hypotéz

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Hodnocení klasifikátoru Test nezávislosti. 14. prosinec Rozvoj aplikačního potenciálu (RAPlus) CZ.1.07/2.4.00/

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Ilustrační příklad odhadu LRM v SW Gretl

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

AVDAT Klasický lineární model, metoda nejmenších

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Transkript:

Jana Vránová, 3. lékařská fakulta, UK Praha

Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně a epidemiologii Vysvětlovaná proměnná představuje Přítomnost nebo nepřítomnost nemoci Pacient zemřel nebo žije Příklad: Riziko vzniku srdeční choroby: Závisle proměnná: srdeční onemocnění vzniklo (1), nevzniklo (0), Nezávislé proměnné (ovlivňující faktory) : věk, váha, krevní tlak, hladina cholesterolu, kouření, RA

Úzce souvisí s diskriminační analýzou Je alternativní metodou klasifikace, když nejsou splněny podmínky vícerozměrného normálního modelu (proměnné vstupní i výstupní nesplňují podmínky normality) Libovolná kombinace diskrétních a spojitých proměnných Libovolné kategorické proměnné Vyžaduje znalost obou závisle proměnné i nezávisle proměnných

Logistický model odhaluje, zda nezávisle proměnné ovlivňující faktory, prediktory rozlišují dostatečně dobře mezi jednotlivými třídami, které tvoří závislá proměnná Slouží pro predikci vzniku určitého jevu Dokáže říct, která z daných vstupních proměnných je nejvíce ovlivňující

ZÁVISLE PROMĚNNÁ Binární logistická regrese: Binární závislá proměnná, nabývající pouze dvou možných hodnot přítomnost, absence; muž, žena Ordinální logistická regrese: Ordinální závislá proměnná, nebývající vícero možných stavů stoupajícího charakteru silný nesouhlas, nesouhlas, souhlas, silný souhlas Nominální logistická proměnná: Nominální závislé proměnná nabývající tří a vícero stavů radioterapie, chemoterapie, imunoterapie, hypertermie NEZÁVISLE PROMĚNNÉ: Spojité prediktory Kategorické faktory

Předpokládejme, že binární závislá proměnná Y nabývá hodnot 0 a 1 1: jev J nastal 0: jev J nenastal Zajímá nás, zda lze klasifikovat případy do těchto dvou tříd (0, 1) na základě skupiny nezávislých proměnných Místo toho abychom se snažili predikovat libovolně zvolené hodnoty nezávisle proměnných, sloužící k označení dvou kategorií binární závislé proměnné, zaměříme se na problém predikce pravděpodobnosti, že případ patří do jedné z kategorií. Známe li totiž P(Y=1), známe i P(Y=0), protože platí: P(Y=0) = 1 P(Y=1)

pokračování Předpokládejme, že ( ) 1 1 PY= 1 = α + β X+... + β X K K Narážíme na numerické problémy: Pravděpodobnost je číslo, které leží mezi 0 a 1 Daná rovnice nemusí tuto podmínku splňovat

pokračování Řešení: 1. Změna pravděpodobnosti na šanci Šance, že nastal jev J se rovná podílu pravděpodobnosti, že Y=1 a pravděpodobnosti, že Y 1 ( = 1) = ( = 1) 1 ( = 1) šance Y P Y P Y Šance nemá žádnou pevnou maximální hodnotu, ale její minimální hodnota je rovna 0 2. Provedeme ještě další transformaci přirozený logaritmus šance, tato proměnná se nazývá logit a je definovaná vztahem ( Y) = P( Y = ) P( Y = ) Hodnoty logitu se pohybují od mínus do plus nekonečna, použijeme li tedy logit(y) jako závislou proměnnou, zbavíme se problémů, které jsme měli v případě pravděpodobnosti a šance { } logit ln 1 1 1

pokračování Regresní rovnice bude mít tvar: logit ( Y) = α + β1x1+... + βkxk Logit můžeme převést zpět na šanci: ( 1) exp logit ( ) exp ( α β1 1... βk K) exp( α) exp ( β X )... exp( β X ) šance Y = = Y = + X + + X = 1 1 K K Od šance se dostaneme zpět k pravděpodobnosti: P ( Y = 1) = šance( Y = 1) 1+ šance( Y = 1) = ( α + β X + + β X ) + ( α + β X + + β X ) exp... 1 exp... 1 1 K K 1 1 K K

pokračování Pravděpodobnost, šance a logit jsou tři druhy vyjádření téhož, v tom smyslu, že jsou navzájem mezi sebou převoditelné Pro interpretaci jsou snadněji pochopitelné, a proto vhodnější pravděpodobnosti a šance než logity RIZIKO!!! Velmi často ve skutečnosti interpretujeme šance ale mluvíme o pravděpodobnostech Šance a pravděpodobnost není totéž!

Pokud je nezávisle proměnná nominální, tj. mezi kategoriemi neexistují žádné relace (přičemž počet kategorií je M), nahradíme tuto proměnnou M 1 novými kontrastními proměnnými Vytvoříme M 1 indikátorových proměnných Vynechaná kategorie se nazývá referenční Označíme li M 1 nových proměnných D N1, D N2,, D N,M 1 pro rovnici modelu dostáváme vztah: M 1 logit ( Y) = α + β X +... + β X + β X 1 1 K 1 K 1 Ki Ki i= 1

Pokud má ordinální proměnná dostatečný počet kategorií alespoň 7, můžeme s ní pracovat jako s proměnnou spojitou Vždy ovšem můžeme použít výše popsaný způsob vytvoření nových proměnných Pokud je proměnná dichotomická opět si můžeme vybrat, zda budeme s touto proměnnou zacházet jako se spojitou nebo zda pro ni vytvoříme novou proměnnou Hosmer a Lemeshow doporučují, aby kategorie všech dichotomických proměnných byly kódovány 0 a 1 a aby se s těmito proměnnými pracovalo jako se spojitými.

2LL ( 2 log likelihood) test rozdílu mezi nalezeným logistickým regresním modelem a modelem, který obsahuje pouze absolutní člen má χ 2 rozdělení Nulová hypotéza H 0 : Všechny regresní koeficienty jsou nulové. Alternativní H A : Všechny regresní koeficienty nejsou nulové. Při 2 stupních volnosti. Pokud vypočtená hladina významnosti je menší než 0,05, nulovou hypotézu zamítáme a přijímáme alternativní hypotézu, že aspoň jeden z regresních koeficientů β i je různý od nuly.

Test významnosti jednotlivých koeficientů Statistická významnost nulové hypotézy pro jednotlivé odhady regresních koeficientů Waldova statistika má χ 2 rozdělení s 1 stupněm volnosti. Pro kategorické proměnné má o 1 stupeň volnosti méně, než je počet kategorií Pokud je hladina významnosti p menší α = 0,05, je uvedený regresní koeficient statisticky významný

Test dobré shody má opět χ 2 rozdělení Testuje těsnost proložení logistickým modelem Nulová hypotéza H 0 : Naměřené hodnoty a hodnoty predikované modelem jsou stejné. Zde tedy potřebujeme naopak, aby hodnota χ 2 byla malá a p větší než 0,05, abychom nulovou hypotézu neodmítli Naopak velká hodnota χ 2 a malá hodnota spočtené hladiny významnosti indikují, že proložení není dobré

Porovnává pozorované a modelem predikované zařazení do tříd výstupní proměnné a stanovuje celkové procento správně klasifikovaných případů Stanovení predikčních a klasifikačních vlastností modelu se liší od statistické významnosti, protože je možné získat výsledky statisticky významné, které ale nemusí přiřazovat jednotlivé objekty do jedné ze dvou tříd správně a mít tím pádem praktický smysl pro klasifikaci

Testuje predikční schopnosti logistického modelu Maximální plocha pod křivkou je 1 nebo 100% Numerická hodnota velikosti této plochy bude blízká 1, když predikce modelu je výtečná Pokud se rovná 0,5 = kvalita jako při házení mincí Z klasifikační tabulky jsme dále určili: Sensitivitu Specificitu PPV a NPV Přesnost logistického modelu

Příklad: Mějme 55 pacientů různé rasy. Naším cílem bude vyhodnotit jaké je riziko vzniku hypertenze s hodnotou systolického tlaku TK > 180 mmhg při následujících ovlivňujících proměnných: Výstupní proměnná: hodnota systolického tlaku: 1 systolický tlak > 180 mmhg 0 systolický tlak 180 mmhg Nezávislé proměnné (ovlivňující): Věk (spojitá proměnná) Rasa (kategorická proměnná) Kouření (kategorická proměnná)

Pro kategorické proměnné musíme nadefinovat referenční kategorii: Rasa: Referenční: 1 = Číňané vs. (2 = Indiáni, 3 = Malajci, 4 = ostatní) Kouření: Referenční: 0 = nekuřák vs. (1 = kuřák) Vstupní rozložení případů vidíme v následující tabulce

VSTUPNÍ NAMĚŘENÁ DATA: > 180 mmhg Počet % Platné % Kumulativní % Platná Ne 40 72,7 72,7 72,7 data Ano 15 27,3 27,3 100,0 Celkem 55 100,0 100,0

Nagelkerke R 2 : pokračování Krok 2log likelihood Cox and Snell R 2 Nagelkerke R 2 1 40,819 0,349 0,506 Nagelkerkeovo R 2 nám říká, že 50% variability modelu je vysvětleno našim modelem Hosmer Lemeshowův test dobré shody: Krok χ 2 df Hladina významnosti p 1 5,869 7 0,555

Proměnné v modelu: pokračování proměnná β S.E. Wald df p Exp(β) +95% 95% Krok Věk 0,209 0,063 11,007 1 0,001 1,233 1,089 1,395 1 Kuřák (1) 2,292 0,986 5,401 1 0,020 9,896 1,432 68,386 Rasa 1,627 3 0,653 Rasa(2) 0,640 1,009 0,402 1 0,526 1,896 0,263 13,696 Rasa (3) 1,303 1,136 1,316 1 0,251 3,681 0,397 34,101 Rasa (4) 0,097 1,230 0,006 1 0,937 0,908 0,081 10,113 Intercept 14,462 4,005 13,041 1 0,000 0,000 Waldova statistika definuje statistickou významnost proměnných věk a kouření Sloupeček Exp(β) nám dává hodnoty Odds Ratio (poměr šancí): Věk (spojitá proměnná) 1,233 při zestárnutí o 1 rok, se zvýší šance, že budeme mít systolický tlak >180 mmhg o 23,3% Kouření (kategorická proměnná) pokud kouříme zvýši se šance, že budeme mít systolický tlak >180 mmhg 9,9 krát

Klasifikační tabulka: pokračování Krok 1 Pozorované hodnoty Predikované hodnoty 180 >180 Správně klasifikováno 180 38 2 95,0% >180 6 9 60,0% Celkem 85,5% Sensitivita, specificita, přesnost modelu, PPV a NPV: Sensitivita = 915= 60% Specificita = 38 40 = 95% Accuracy = 47 55 = 85,5% PPV NPV = 911= 81,8% = 38 44 = 86,4%

pokračování Pokud máme nového pacienta, můžeme použít náš logistický model pro predikci, zda jeho systolický tlak dosáhne hodnoty vyšší než 180 mmhg z = 14,462 + 0,209* Age+ 2, 292*Smoker(1) + 0,640* Race(1) P + 1,303* Race(2) 0, 097* Race(3) 1 = 1 + e ( 180) z Příklad: Pacient1: 45letý nekuřák, Číňan Smoker(1) = 0, Race(1) = Race(2) = Race(3) = 0 z = 14,462 + 0,209*45 = 5,057 e z = 157,1 a P( > 180) = 0,006 Pacient2: 65letý kuřák, Indián Smoker(1) = 1, Race(1) = 1, Race(2) = Race(3) = 0 z = 14,462 + 0,209*65 + 2,292*1 + 0,64*1 = 2,055 e z = 0,128 a P( > 180) = 0,89

pokračování Plocha pod křivkou: AUC = 0,878 predikční schopnost modelu je 88%

děkuji za pozornost