Lineární a logistická regrese

Podobné dokumenty
Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

RNDr. Martin Branda, Ph.D.

Aplikovaná statistika v R - cvičení 3

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

Cvičení 12: Binární logistická regrese

odpovídá jedna a jen jedna hodnota jiných

Testování hypotéz o parametrech regresního modelu

AVDAT Klasický lineární model, metoda nejmenších

Bodové a intervalové odhady parametrů v regresním modelu

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Matematické přístupy k pojištění automobilů. Silvie Kafková září 2013, Podlesí

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Inovace bakalářského studijního oboru Aplikovaná chemie

7. Analýza rozptylu.

PRAVDĚPODOBNOST A STATISTIKA

Odhady Parametrů Lineární Regrese

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

UNIVERZITA PARDUBICE

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení Seminář z aktuárských věd. Slides by LATEX.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Plánování experimentu

AVDAT Geometrie metody nejmenších čtverců

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

AVDAT Nelineární regresní model

Úvodem Dříve les než stromy 3 Operace s maticemi

8 Coxův model proporcionálních rizik I

Statistická analýza jednorozměrných dat

Jana Vránová, 3. lékařská fakulta, UK Praha

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PRAVDĚPODOBNOST A STATISTIKA

Regresní analýza. Eva Jarošová

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Intervalová data a výpočet některých statistik

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Korelační a regresní analýza

LINEÁRNÍ MODELY. Zdeňka Veselá

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

AVDAT Mnohorozměrné metody, metody klasifikace

Aplikace T -prostorů při modelování kompozičních časových řad

Měření závislosti statistických dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Semestrální práce. 3.3 Tvorba nelineárních regresních modelů v analýze dat

Regresní a korelační analýza

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Regresní analýza 1. Regresní analýza

Přednáška IX. Analýza rozptylu (ANOVA)

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pojem endogenity a exogenity

4EK211 Základy ekonometrie

7 Regresní modely v analýze přežití

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pokročilé neparametrické metody. Klára Kubošová

LWS při heteroskedasticitě

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

5EN306 Aplikované kvantitativní metody I

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Ekonometrie. Jiří Neubauer

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie

Statistika II. Jiří Neubauer

Technická univerzita v Liberci

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Statistická analýza jednorozměrných dat

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty

4EK211 Základy ekonometrie

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Aplikovaná statistika v R - cvičení 2

Bodové a intervalové odhady parametrů v regresním modelu

Zobecněná analýza rozptylu, více faktorů a proměnných

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

INDUKTIVNÍ STATISTIKA

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

4EK211 Základy ekonometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Interpolace, aproximace

http: //meloun.upce.cz,

6. Lineární regresní modely

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Transkript:

Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky 2012 MBranda (KPMS MFF UK) Regrese 2012 1 / 33

Obsah 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 2 / 33

Obsah Data 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 3 / 33

Data Data Závisle proměnná (odezva): Y = (Y 1,, Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,, X im ) X 11, X 1m X = X n1, X nm Předpokládáme, že matice má plnou sloupcovou hodnost Kvantitativní proměnné - např věk, počet aktivních smluv, počet najetých kilometrů, Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např pohlaví, region (kraj, okres), Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru MBranda (KPMS MFF UK) Regrese 2012 4 / 33

Data Data Závisle proměnná (odezva): Y = (Y 1,, Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,, X im ) X 11, X 1m X = X n1, X nm Předpokládáme, že matice má plnou sloupcovou hodnost Kvantitativní proměnné - např věk, počet aktivních smluv, počet najetých kilometrů, Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např pohlaví, region (kraj, okres), Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru MBranda (KPMS MFF UK) Regrese 2012 4 / 33

Předpoklady Data Rozdělení Y i závisí na x i Pozorování (Y i, x i ) jsou nezávislá Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat MBranda (KPMS MFF UK) Regrese 2012 5 / 33

Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 0 muž 1 205 321 44 1 žena 20 893 35 0 žena 580 51 MBranda (KPMS MFF UK) Regrese 2012 6 / 33

Data Bez absolutního členu Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města 2 0 1 0 1 0 21 0 0 1 1 0 0 44 1 1 0 0 1 0 35 0 1 0 0 0 1 51 MBranda (KPMS MFF UK) Regrese 2012 7 / 33

Data S absolutním členem Data Y Počet škod Absčlen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 0 1 0 1 0 44 1 1 1 0 1 35 0 1 1 0 0 51 X MBranda (KPMS MFF UK) Regrese 2012 8 / 33

Obsah Lineární regrese 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 9 / 33

Lineární regrese Model Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,, n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl) Maticový zápis Y = Xβ + ɛ, kde β = (β 1,, β m ) a ɛ = (ε 1,, ε n ) MBranda (KPMS MFF UK) Regrese 2012 10 / 33

Lineární regrese Model Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,, n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl) Maticový zápis Y = Xβ + ɛ, kde β = (β 1,, β m ) a ɛ = (ε 1,, ε n ) MBranda (KPMS MFF UK) Regrese 2012 10 / 33

Lineární regrese Odhad parametrů Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y) Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y MBranda (KPMS MFF UK) Regrese 2012 11 / 33

Lineární regrese Odhad parametrů Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y) Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y MBranda (KPMS MFF UK) Regrese 2012 11 / 33

Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33

Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33

Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33

Obsah Logistická regrese 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 13 / 33

Logistická regrese Srovnání regresních modelů Lineární regrese Logistická regrese Rozdělení: Y N(µ, σ 2 ) Y ALT (p) Závislost: E[Y ] = x β E[Y ] = 1/(1 + exp{ x β)}) Rozpyl: vary = σ 2 vary = p(1 p) MBranda (KPMS MFF UK) Regrese 2012 14 / 33

Logistická regrese Logistická regrese EY i = p i = = = e x i β 1 + e x i β e m j=1 X ij β j 1 + e m j=1 X ij β j 1 1 + e m j=1 X ij β j MBranda (KPMS MFF UK) Regrese 2012 15 / 33

Logistická regrese Logistická regrese e θ 1+e θ 08 06 04 02 MBranda (KPMS MFF UK) Regrese 2012 16 / 33

Logistická regrese Regresní model stornovosti Logistická regrese Model pravděpodobnosti storna smlouvy (odchodu ke konkurenci) v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) velikosti místa bydliště (region): 4 kategorie (nad 500 000, nad 50 000, nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) stáří pojistníka spojité (veks): 18-75 let MBranda (KPMS MFF UK) Regrese 2012 17 / 33

Logistická regrese Kritéria pro hodnocení dobré shody Logistická regrese Kritérium DF Hodnota Hodnota/DF Deviance 5E4 568020249 11363 Scaled Deviance 5E4 568020249 11363 Pearsonuv Chí-kvad 5E4 499693190 09996 Scaled Pearson X2 5E4 499693190 09996 Log verohodnost -284010124 MBranda (KPMS MFF UK) Regrese 2012 18 / 33

Logistická regrese Analýza odhadů parametrů Logistická regrese Par DF Odhad Stand Waldovy Chí-kv Pr > ChíKv chyba meze intrv spol Intercept 1-16157 00429-16998 -15316 141700 <0001 TS 1 1-03326 00323-03959 -02692 10590 <0001 TS 2 1-02814 00322-03445 -02183 7636 <0001 TS 3 1-02248 00320-02874 -01622 4951 <0001 TS 4 1-00711 00314-01326 -00095 512 00237 TS 5 0 00000 00000 00000 00000 region 1 1 04820 00290 04252 05389 27576 <0001 region 2 1 02633 00296 02053 03214 7906 <0001 region 3 1 01272 00300 00683 01860 1796 <0001 region 4 0 00000 00000 00000 00000 pohlavi 1 1 05584 00206 05180 05989 73175 <0001 pohlavi 2 0 00000 00000 00000 00000 veks 1 00058 00006 00046 00071 8236 <0001 Škála 0 10000 00000 10000 10000 MBranda (KPMS MFF UK) Regrese 2012 19 / 33

Logistická regrese Šance, interpretace parametrů Logistická regrese Šance p i 1 p i = exp{x iβ} = exp{ m X ij β j } j=1 Pokud zvýšíme regresor j o jednotku X i j + 1, potom pro šanci platí p i m m = exp X 1 p i ij β j + (X + i j 1)β j = exp X ij β j exp{β j }, j=1,j j j=1 tj e β j vyjadřuje změnu šance při zvýšení příslušného regresoru o jednotku MBranda (KPMS MFF UK) Regrese 2012 20 / 33

Logistická regrese Logistická regrese Predikovaná hodnota (pravděpodobnost) TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muž), veks = 22 let η = 1, 6157 + 0 + 0 + 0 + 22 00058 = 1, 4881 µ = exp{ 1, 4881} = 0, 1842 1 + exp{ 1, 4881} MBranda (KPMS MFF UK) Regrese 2012 21 / 33

Logistická regrese Statistiky LR pro analýzu typu 1 Logistická regrese Zdroj Deviance DF Chí-kvadrát Pr > ChíKv Intercept 580877242 TS 579379201 4 14980 <0001 region 576268576 3 31106 <0001 pohlavi 568845504 1 74231 <0001 veks 568020249 1 8253 <0001 Postupné přidávání regresorů (záleží na pořadí v zadání) MBranda (KPMS MFF UK) Regrese 2012 22 / 33

Logistická regrese Statistiky LR pro analýzu typu 3 Logistická regrese Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 15402 <0001 region 3 30914 <0001 pohlavi 1 74364 <0001 veks 1 8253 <0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí) MBranda (KPMS MFF UK) Regrese 2012 23 / 33

ROC křivka Logistická regrese MBranda (KPMS MFF UK) Regrese 2012 24 / 33

ROC křivka Receiver Operating Characteristic Logistická regrese ROC křivka slouží k posouzení kvality modelu a nastavení prahové hodnoty Na svislé ose grafu je relativní četnost skutečně pozitivních případů TP, tedy pravděpodobnost, že jako správný bude vyhodnocen pozitivní případ: Sensitivity = TP/(TP+FN) Na vodorovné ose je relativní četnost falešně pozitivních případů FP, tedy pravděpodobnost, že jako správný bude vyhodnocen negativní případ: 1-Specificity = FP/(TN+FP) skutečnost/predikce 1 0 1 TP FP 0 FN TN True (T), False (F), Positive (P), Negative (N) MBranda (KPMS MFF UK) Regrese 2012 25 / 33

Obsah Reference 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 26 / 33

Reference Reference M Denuit, X Maréchal, S Pitrebois, J-F Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems John Wiley & Sons, Chichester, 2007 P de Jong, G Z Heller: Generalized Linear Models for Insurance Data Cambridge University Press 2008 P McCullagh, JA Nelder: Generalized Linear Models 2nd Ed Chapman and Hall, London, 1989 K Zvára: Regrese Matfyzpress, Praha, 2008 Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc Mgr Michal Kulich, PhD SAS/STAT 93: User s Guide MBranda (KPMS MFF UK) Regrese 2012 27 / 33

Reference Děkuji za pozornost e-mail: branda@karlinmffcunicz homepage: http://artaxkarlinmffcunicz/ branm1am MBranda (KPMS MFF UK) Regrese 2012 28 / 33