Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky 2012 MBranda (KPMS MFF UK) Regrese 2012 1 / 33
Obsah 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 2 / 33
Obsah Data 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 3 / 33
Data Data Závisle proměnná (odezva): Y = (Y 1,, Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,, X im ) X 11, X 1m X = X n1, X nm Předpokládáme, že matice má plnou sloupcovou hodnost Kvantitativní proměnné - např věk, počet aktivních smluv, počet najetých kilometrů, Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např pohlaví, region (kraj, okres), Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru MBranda (KPMS MFF UK) Regrese 2012 4 / 33
Data Data Závisle proměnná (odezva): Y = (Y 1,, Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,, X im ) X 11, X 1m X = X n1, X nm Předpokládáme, že matice má plnou sloupcovou hodnost Kvantitativní proměnné - např věk, počet aktivních smluv, počet najetých kilometrů, Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např pohlaví, region (kraj, okres), Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru MBranda (KPMS MFF UK) Regrese 2012 4 / 33
Předpoklady Data Rozdělení Y i závisí na x i Pozorování (Y i, x i ) jsou nezávislá Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat MBranda (KPMS MFF UK) Regrese 2012 5 / 33
Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 0 muž 1 205 321 44 1 žena 20 893 35 0 žena 580 51 MBranda (KPMS MFF UK) Regrese 2012 6 / 33
Data Bez absolutního členu Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města 2 0 1 0 1 0 21 0 0 1 1 0 0 44 1 1 0 0 1 0 35 0 1 0 0 0 1 51 MBranda (KPMS MFF UK) Regrese 2012 7 / 33
Data S absolutním členem Data Y Počet škod Absčlen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 0 1 0 1 0 44 1 1 1 0 1 35 0 1 1 0 0 51 X MBranda (KPMS MFF UK) Regrese 2012 8 / 33
Obsah Lineární regrese 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 9 / 33
Lineární regrese Model Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,, n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl) Maticový zápis Y = Xβ + ɛ, kde β = (β 1,, β m ) a ɛ = (ε 1,, ε n ) MBranda (KPMS MFF UK) Regrese 2012 10 / 33
Lineární regrese Model Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,, n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl) Maticový zápis Y = Xβ + ɛ, kde β = (β 1,, β m ) a ɛ = (ε 1,, ε n ) MBranda (KPMS MFF UK) Regrese 2012 10 / 33
Lineární regrese Odhad parametrů Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y) Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y MBranda (KPMS MFF UK) Regrese 2012 11 / 33
Lineární regrese Odhad parametrů Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y) Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y MBranda (KPMS MFF UK) Regrese 2012 11 / 33
Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33
Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33
Lineární regrese Odhady Lineární regrese Odhad parametrů je nestranný, tj E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1 Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ) MBranda (KPMS MFF UK) Regrese 2012 12 / 33
Obsah Logistická regrese 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 13 / 33
Logistická regrese Srovnání regresních modelů Lineární regrese Logistická regrese Rozdělení: Y N(µ, σ 2 ) Y ALT (p) Závislost: E[Y ] = x β E[Y ] = 1/(1 + exp{ x β)}) Rozpyl: vary = σ 2 vary = p(1 p) MBranda (KPMS MFF UK) Regrese 2012 14 / 33
Logistická regrese Logistická regrese EY i = p i = = = e x i β 1 + e x i β e m j=1 X ij β j 1 + e m j=1 X ij β j 1 1 + e m j=1 X ij β j MBranda (KPMS MFF UK) Regrese 2012 15 / 33
Logistická regrese Logistická regrese e θ 1+e θ 08 06 04 02 MBranda (KPMS MFF UK) Regrese 2012 16 / 33
Logistická regrese Regresní model stornovosti Logistická regrese Model pravděpodobnosti storna smlouvy (odchodu ke konkurenci) v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) velikosti místa bydliště (region): 4 kategorie (nad 500 000, nad 50 000, nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) stáří pojistníka spojité (veks): 18-75 let MBranda (KPMS MFF UK) Regrese 2012 17 / 33
Logistická regrese Kritéria pro hodnocení dobré shody Logistická regrese Kritérium DF Hodnota Hodnota/DF Deviance 5E4 568020249 11363 Scaled Deviance 5E4 568020249 11363 Pearsonuv Chí-kvad 5E4 499693190 09996 Scaled Pearson X2 5E4 499693190 09996 Log verohodnost -284010124 MBranda (KPMS MFF UK) Regrese 2012 18 / 33
Logistická regrese Analýza odhadů parametrů Logistická regrese Par DF Odhad Stand Waldovy Chí-kv Pr > ChíKv chyba meze intrv spol Intercept 1-16157 00429-16998 -15316 141700 <0001 TS 1 1-03326 00323-03959 -02692 10590 <0001 TS 2 1-02814 00322-03445 -02183 7636 <0001 TS 3 1-02248 00320-02874 -01622 4951 <0001 TS 4 1-00711 00314-01326 -00095 512 00237 TS 5 0 00000 00000 00000 00000 region 1 1 04820 00290 04252 05389 27576 <0001 region 2 1 02633 00296 02053 03214 7906 <0001 region 3 1 01272 00300 00683 01860 1796 <0001 region 4 0 00000 00000 00000 00000 pohlavi 1 1 05584 00206 05180 05989 73175 <0001 pohlavi 2 0 00000 00000 00000 00000 veks 1 00058 00006 00046 00071 8236 <0001 Škála 0 10000 00000 10000 10000 MBranda (KPMS MFF UK) Regrese 2012 19 / 33
Logistická regrese Šance, interpretace parametrů Logistická regrese Šance p i 1 p i = exp{x iβ} = exp{ m X ij β j } j=1 Pokud zvýšíme regresor j o jednotku X i j + 1, potom pro šanci platí p i m m = exp X 1 p i ij β j + (X + i j 1)β j = exp X ij β j exp{β j }, j=1,j j j=1 tj e β j vyjadřuje změnu šance při zvýšení příslušného regresoru o jednotku MBranda (KPMS MFF UK) Regrese 2012 20 / 33
Logistická regrese Logistická regrese Predikovaná hodnota (pravděpodobnost) TS = 5 (nad 2500 ccm), region = 4 (do 5000), pohlavi = 2 (muž), veks = 22 let η = 1, 6157 + 0 + 0 + 0 + 22 00058 = 1, 4881 µ = exp{ 1, 4881} = 0, 1842 1 + exp{ 1, 4881} MBranda (KPMS MFF UK) Regrese 2012 21 / 33
Logistická regrese Statistiky LR pro analýzu typu 1 Logistická regrese Zdroj Deviance DF Chí-kvadrát Pr > ChíKv Intercept 580877242 TS 579379201 4 14980 <0001 region 576268576 3 31106 <0001 pohlavi 568845504 1 74231 <0001 veks 568020249 1 8253 <0001 Postupné přidávání regresorů (záleží na pořadí v zadání) MBranda (KPMS MFF UK) Regrese 2012 22 / 33
Logistická regrese Statistiky LR pro analýzu typu 3 Logistická regrese Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 15402 <0001 region 3 30914 <0001 pohlavi 1 74364 <0001 veks 1 8253 <0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí) MBranda (KPMS MFF UK) Regrese 2012 23 / 33
ROC křivka Logistická regrese MBranda (KPMS MFF UK) Regrese 2012 24 / 33
ROC křivka Receiver Operating Characteristic Logistická regrese ROC křivka slouží k posouzení kvality modelu a nastavení prahové hodnoty Na svislé ose grafu je relativní četnost skutečně pozitivních případů TP, tedy pravděpodobnost, že jako správný bude vyhodnocen pozitivní případ: Sensitivity = TP/(TP+FN) Na vodorovné ose je relativní četnost falešně pozitivních případů FP, tedy pravděpodobnost, že jako správný bude vyhodnocen negativní případ: 1-Specificity = FP/(TN+FP) skutečnost/predikce 1 0 1 TP FP 0 FN TN True (T), False (F), Positive (P), Negative (N) MBranda (KPMS MFF UK) Regrese 2012 25 / 33
Obsah Reference 1 Data 2 Lineární regrese 3 Logistická regrese 4 Reference MBranda (KPMS MFF UK) Regrese 2012 26 / 33
Reference Reference M Denuit, X Maréchal, S Pitrebois, J-F Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems John Wiley & Sons, Chichester, 2007 P de Jong, G Z Heller: Generalized Linear Models for Insurance Data Cambridge University Press 2008 P McCullagh, JA Nelder: Generalized Linear Models 2nd Ed Chapman and Hall, London, 1989 K Zvára: Regrese Matfyzpress, Praha, 2008 Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc Mgr Michal Kulich, PhD SAS/STAT 93: User s Guide MBranda (KPMS MFF UK) Regrese 2012 27 / 33
Reference Děkuji za pozornost e-mail: branda@karlinmffcunicz homepage: http://artaxkarlinmffcunicz/ branm1am MBranda (KPMS MFF UK) Regrese 2012 28 / 33