Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1



Podobné dokumenty
Lineární regrese. Komentované řešení pomocí MS Excel

Zobecněná analýza rozptylu, více faktorů a proměnných

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Inovace bakalářského studijního oboru Aplikovaná chemie

Kalibrace a limity její přesnosti

Neuronové časové řady (ANN-TS)

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Plánování experimentu

Porovnání dvou výběrů

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tvorba nelineárních regresních

Tabulka 1 Příklad dat pro kalibraci

Odhad parametrů N(µ, σ 2 )

Téma 9: Vícenásobná regrese

Korelační a regresní analýza

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

TVORBA LINEÁRNÍCH REGRESNÍCH MODELŮ PŘI ANALÝZE DAT. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Simulace. Simulace dat. Parametry

Statistická analýza jednorozměrných dat

Tvorba nelineárních regresních modelů v analýze dat

UNIVERZITA PARDUBICE

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Plánované experimenty - Návrh

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Cvičení 12: Binární logistická regrese

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

6. Lineární regresní modely

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Regresní analýza 1. Regresní analýza

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

AVDAT Klasický lineární model, metoda nejmenších

UNIVERZITA PARDUBICE

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Analýza dat na PC I.

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba nelineárních regresních modelů v analýze dat. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

Modul Základní statistika

Jana Vránová, 3. lékařská fakulta, UK Praha

Popisná statistika. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Regresní a korelační analýza

Charakteristika datového souboru

INDUKTIVNÍ STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

KALIBRACE A LIMITY JEJÍ PŘESNOSTI 2015

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Semestrální práce. 2. semestr

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Regresní a korelační analýza

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

6. Lineární regresní modely

6. Lineární regresní modely

Úvodem Dříve les než stromy 3 Operace s maticemi

Diagnostika regrese pomocí grafu 7krát jinak

Tvorba lineárních regresních modelů při analýze dat

Regresní a korelační analýza

Kalibrace a limity její přesnosti

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

S E M E S T R Á L N Í

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Semestrální práce. 2. semestr

Statistická analýza jednorozměrných dat

Lineární a logistická regrese

Úloha 1: Lineární kalibrace

Tvorba nelineárních regresních modelů v analýze dat

Ilustrační příklad odhadu LRM v SW Gretl

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kubický spline. Obrázek 1 Proložení dat nezávislými kubickými polynomy bez požadavku spojitosti. T h T 2

UNIVERZITA PARDUBICE

Bodové a intervalové odhady parametrů v regresním modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Příloha č. 1 Grafy a protokoly výstupy z adstatu

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

6. Lineární regresní modely

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Odhad parametrů N(µ, σ 2 )

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Charakterizace rozdělení

2.2 Kalibrace a limity její p esnosti

http: //meloun.upce.cz,

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Transkript:

Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu < 0, 1 >. Poměry představují podíl pozitivních výsledků v případě více opakovaných měření při téže hodnotě nezávisle proměnné x. Počet měření by měl přitom být pro každý poměr přibližně stejný. Logistická regrese se používá při modelování pravděpodobnosti nějakého v závislosti na hodnotě spojité proměnné. Předpokládá se, že náhodná proměnná má binomické rozdělení s parametrem π, který odpovídá pravděpodobnosti výsledku 1 a mění se monotónně s hodnotou nezávisle proměnné. Výsledný model je právě odhadem tohoto parametru v závislosti na x. Použití logistického modelu je velmi široké a zahrnuje řadu velmi rozdílných oborů. Typickými aplikacemi jsou v technologii odhad rizika selhání či poruchy za určitých podmínek, ve finančnictví predikce bonity klienta (např. rizika nesplácení úvěru) v závislosti na ekonomických ukazatelích, v biologii a ekologii pravděpodobnost úhynu organismu v závislosti na koncentraci toxických látek, v marketingu pravděpodobnost přechodu klienta ke konkurenci, v lékařství a farmacii modelování účinnosti léků a podobně. Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu neboli po úpravě x log 1 exp x 1 exp x x x x., Výraz log ( π(x) / (1 π(x)) ) se nazývá logit. Hodnoty α a jsou regresní koeficienty a k jejich odhadu a, b je použita iterativní metoda nejmenších čtverců. Touto metodou se získají maximálně věrohodné odhady α a. Logistický regresní model lze vyjádřit sigmoidální křivkou π(x) vyjadřující odhad závislosti pravděpodobnosti výskytu sledovaného jevu v závislosti na x. Tento model lze pak využít pro predikci pravděpodobnosti nebo rizika při nastavených hodnotách x. Nezávisle proměnná x může přitom být i vícerozměrná, x = (x 1,..., x m ). Odpovídající model má pak tvar analogický lineární regresi. exp 1x1 2x2... mxm x. 1 exp x x... x 1 1 2 2 m m Obrázek 1 Logistický regresní model pro 1 proměnnou x

Obrázek 2 Ilustrační ukázka 3D logistického modelu se 2 proměnnými Pomocí stanoveného modelu lze pak predikovat (předpovědět) pravděpodobnost nastání jevu při nových hodnotách nezávisle proměnných. Data a parametry Data musí zahrnovat jeden nebo více sloupců nezávisle proměnné a jeden sloupec závisle proměnné. Nezávisle proměnné, neboli prediktory mohou nabývat libovolných číselných hodnot. Binární závisle proměnná musí mít hodnoty 0 nebo 1, které odpovídají výskytu či nevýskytu sledovaného jevu (zlomení, porucha, úhyn, ztráta klienta, apod.). Přitom nezáleží na volbě, zda budeme výskyt označovat jedničkou a nevýskyt nulou, nebo naopak. Binární proměnná odpovídá případu, kdy pro danou hodnotu prediktoru máme pouze jediný výsledek typu ano-ne, viz Obrázek 3. Poměrná, neboli frekvenční závisle proměnná odpovídá případu, kdy pro danou hodnotu prediktoru x provedeme p testů a máme tedy p výsledků z nichž r je pozitivních a p r negativních. Do sloupce závisle proměnné pak můžeme zapsat poměr r/p, případně (p r)/p, viz Obrázek 4. Nezávisle proměnná může být vícerozměrná tedy ve více sloupcích, Obrázek 5. Obrázek 3 Data s binární závisle proměnnou

Obrázek 4 Data s poměrovou závisle proměnnou (poměr výskytů z 10 pokusných jednotek) Obrázek 5 Data s více nezávisle proměnnými a binární závisle proměnnou Obrázek 6 Logistický model pro binární data Obrázek 7 Logistický model pro poměrná data Obrázek 8 Dialogový panel modulu logistická regrese V dialogovém panelu logistické regrese zvolíme jednu nebo více závisle proměnných X a jednu nezávisle proměnnou Y. Máme-li hodnoty nezávisle proměnné, pro něž chceme zjistit odpovídající odezvu, tedy pravděpodobnost nastání jevu, označíme příslušné sloupce v poli X pro predikci. Počet nezávisle proměnných a proměnných pro predikci musí být stejný.

Protokol Počet dat Nezávisle proměnné Závisle proměnná Počet iterací Max věrohodnost Odhady parametrů Parametr Odhad Sm. odch p-hodnota Tabulka predikce Index Název závisle proměnné Predikce Spodní mez Horní mez Počet platných datových řádků Seznam nezávisle proměnných Název závisle proměnné Počet iterací výpočetního algoritmu při výpočtu parametrů metodou maximální věrohodnosti Přirozený logaritmus maximální dosažené věrohodnosti. Vypočítané hodnoty parametrů logistického modelu Název parametru u nezávisle proměnné, Abs je absolutní člen Odhad parametru Směrodatná odchylka parametru udává hladinu významnosti, při níž je statistická významnost parametru právě zamítnuta Tabulka hodnot pravděpodobnosti predikovaných logistickým modelem pro zadané hodnoty nezávisle proměnné Pořadové číslo Seznam nezávisle proměnných Pravděpodobnost pozitivní odezvy predikovaná modelem Spodní mez predikce při zadané hladině významnosti Horní mez predikce při zadané hladině významnosti Grafy Průběh regresní závislosti s vyznačeným pásem spolehlivosti modelu a s naměřenými daty. Tento graf se zobrazí pouze při jediné nezávisle proměnné x. Pás spolehlivosti (spodní a horní červená křivka) vyznačuje pro každou hodnotu nezávisle proměnné interval. v němž lze očekávat na zadané hladině spolehlivosti 1 (obvykle 0.95, tedy 95%), že v něm leží skutečná pravděpodobnost nastání jevu y = 1. Graf pozorované odezvy y versus predikovaná pravděpodobnost. V případě dobrého proložení se soustřeďují body v grafu poblíž hodnot (0, 0) a (1, 1). Graf prostých reziduí, tj. vzdáleností dat od logistické křivky. Tato rezidua mají jinou povahu, než rezidua v lineární nebo nelineární regresi. Nemohou mít normální rozdělení a jejich hodnoty jsou vždy mezi -1 a 1.

Transformovaná Pearsonova rezidua jsou srovnatelná s klasickými rezidui např. v lineární regresi. Mají normované normální rozdělení N(μ = 0, σ 2 = 1) a lze jich použít pro diagnostiku vybočujících měření. Transformovaná Pearsonova rezidua jsou srovnatelná s klasickými rezidui např. v lineární regresi. Mají normované normální rozdělení N(μ = 0, σ 2 = 1) a lze jich použít pro diagnostiku vybočujících měření. Pokud je pořadí dat neuspořádané podle predikrotu, může tento graf lépe prezentovat rozdělení reziduí, než graf předchozí. QQ-graf transformovaných reziduí je účinným diagnostickým nástrojem pro posouzení normality reziduí. Body, které se výrazně odchylují od přímky jsou podezřelé odlehlé body a je vhodné ověřit jejich validitu. V ideálním případě leží body přibližně na vyznačené přímce.