Zobecněné lineární modely v pojišťovnictví Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Seminář z aktuárských věd 2012 M.Branda (KPMS MFF UK) GLM 2012 1 / 125
http://artax.karlin.mff.cuni.cz/ branm1am M.Branda (KPMS MFF UK) GLM 2012 2 / 125
Obsah 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 3 / 125
Obsah Úvod 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 4 / 125
Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125
Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125
Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125
Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125
Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125
Software Úvod SAS: GENMOD Statistica: Generalized Linear Models (GLZ) IBM SPSS: GENLIN (ne GLM!!!) Mathematica: GeneralizedLinearModelFit R: glm... M.Branda (KPMS MFF UK) GLM 2012 6 / 125
Reference Úvod M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, 2007. P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, 1989. P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press 2008. K. Zvára: Regrese. Matfyzpress, Praha, 2008. Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) GLM 2012 7 / 125
Data-mining Úvod Data-mining (Datamining, Data mining) - získávání netriviálních skrytých a potenciálně užitečných informací z dat. M.Branda (KPMS MFF UK) GLM 2012 8 / 125
Obsah Data a lineární regrese 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 9 / 125
Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM 2012 10 / 125
Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM 2012 10 / 125
Předpoklady Data a lineární regrese Data Rozdělení Y i závisí na x i. Pozorování (Y i, x i ) jsou nezávislá. Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat. M.Branda (KPMS MFF UK) GLM 2012 11 / 125
Data a lineární regrese Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 0 muž 1 205 321 44 1 žena 20 893 35 0 žena 580 51....... M.Branda (KPMS MFF UK) GLM 2012 12 / 125
Data Bez absolutního členu Data a lineární regrese Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města 2 0 1 0 1 0 21 0 0 1 1 0 0 44 1 1 0 0 1 0 35 0 1 0 0 0 1 51.......... M.Branda (KPMS MFF UK) GLM 2012 13 / 125
Data S absolutním členem Data a lineární regrese Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 0 1 0 1 0 44 1 1 1 0 1 35 0 1 1 0 0 51... X...... M.Branda (KPMS MFF UK) GLM 2012 14 / 125
Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 1 0 1 0 44 1 1 0 1 0 1 1 51... X...... M.Branda (KPMS MFF UK) GLM 2012 15 / 125
Data a lineární regrese Data - chybějící hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 muž 1 205 321 44 1 20 893 0 žena 51....... M.Branda (KPMS MFF UK) GLM 2012 16 / 125
Data a lineární regrese Data - chybné hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21-1 muž 1 205 321 44 1 žež 20 893 138 0 žena - 112 51....... M.Branda (KPMS MFF UK) GLM 2012 17 / 125
Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM 2012 18 / 125
Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM 2012 18 / 125
Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá missing (v letech) města města 2 1 0 0 1 0 21 1 0 1 0 0 44 1 1 1 0 1 0 38.43 0 1 1 0 0 1 51.... X... M.Branda (KPMS MFF UK) GLM 2012 19 / 125
Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM 2012 20 / 125
Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM 2012 20 / 125
Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM 2012 21 / 125
Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM 2012 21 / 125
Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125
Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125
Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125
Lineární regrese Aitkenův model Data a lineární regrese Vážené nejmenší čtverce Nechť var ɛ = Wσ 2, kde W je obecná pozitivně definitní matice, tj. chyby nemusí být nezávislé se stejným rozptylem. Pomocí rozkladu W 1 = C T C, kde C je regulární odmocninová matice přepíšeme model CY = CXβ + Cɛ odpovídá předešlému modelu lineární regrese s nezávislými chybami. M.Branda (KPMS MFF UK) GLM 2012 23 / 125
Lineární regrese Vážené nejmenší čtverce Data a lineární regrese Vážené nejmenší čtverce Odhad β je v tomto případě řešením soustavy normálních rovnic X T W 1 Xβ = X T W 1 Y. Tedy dostaneme odhad parametrů ˆβ = (X T W 1 X) 1 X T W 1 Y, kde ˆβ (β, σ 2 (X T W 1 X) 1 ). (Další odhady získáme analogicky.) M.Branda (KPMS MFF UK) GLM 2012 24 / 125
Obsah Zobecněné lineární modely 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 25 / 125
Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125
Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125
Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125
Zobecněné lineární modely Srovnání regresních modelů Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 27 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM 2012 28 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM 2012 28 / 125
Zobecněné lineární modely Pozor na parametrizaci Rodina exponenciálních rozdělení V literatuře se objevují běžně různé parametrizace, pro známé funkce a, b, c, resp. c, a neznámé parametry θ, φ: { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ) a(φ) nebo nebo { } yθ b(θ) f (y; θ, ϕ) = exp + c(y, ϕ) ϕ { } yθ b(θ) f (y; θ, φ) = exp c(y, φ). a(φ) Poslední parametrizaci nebudeme využívat. M.Branda (KPMS MFF UK) GLM 2012 29 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Pro náhodnou veličinu Y patřící do rodiny exponenciálních rozdělení platí: Je-li b dvakrát spojitě diferencovatelná, potom E[Y ] = b (θ), var(y ) = a(φ)b (θ) = ϕb (θ). Pomocí rozptylové funkce V (µ) = b [(b ) 1 (µ)] můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) = ϕv (µ). M.Branda (KPMS MFF UK) GLM 2012 30 / 125
Střední hodnota Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro parciální derivaci platí f (y; θ, φ) θ = f (y; θ, φ) y b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) f (y; θ, φ) 0 = dy θ = f (y; θ, φ)dy θ = EY b (θ). a(φ) M.Branda (KPMS MFF UK) GLM 2012 31 / 125
Rozptyl Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro druhou parciální derivaci platí 2 f (y; θ, φ) θ 2 = f (y; θ, φ) ( y b (θ) a(φ) ) 2 b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) 2 f (y; θ, φ) 0 = θ 2 dy = 2 θ 2 f (y; θ, φ)dy = E[(Y b (θ)) 2 ] (a(φ)) 2 b (θ) a(φ). M.Branda (KPMS MFF UK) GLM 2012 32 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM 2012 33 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM 2012 33 / 125
Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM 2012 34 / 125
Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM 2012 34 / 125
Normální rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení N(0,1), N(0,2), N(0,4) 0.4 0.3 0.2 0.1 15 M.Branda (KPMS MFF UK) GLM 2012 35 / 125
Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM 2012 36 / 125
Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM 2012 36 / 125
Gamma rozdělení Parametrizace v SASu Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(µ, ν): Pro 0 < y < f (y; µ, ν) = 1 Γ(ν)y ( ) yν ν { exp yν }, µ µ kde a = ν/µ a p = ν, ϕ = ν 1, var(y ) = µ 2 /ν M.Branda (KPMS MFF UK) GLM 2012 37 / 125
Gamma rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Gamma(2,2), Gamma(4,2), Gamma(6,2) 0.15 0.10 0.05 M.Branda (KPMS MFF UK) GLM 2012 38 / 125
Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM 2012 39 / 125
Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM 2012 39 / 125
Zobecněné lineární modely Inverzní Gaussovo rozdělení Hustoty Rodina exponenciálních rozdělení IG(5,1), IG(5,5), IG(5,30) 0.5 0.4 0.3 0.2 0.1 M.Branda (KPMS MFF UK) GLM 2012 40 / 125
Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM 2012 41 / 125
Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM 2012 41 / 125
Poissonovo rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Po(3), Po(10), Po(20) 0.20 0.15 0.10 0.05 M.Branda (KPMS MFF UK) GLM 2012 42 / 125
Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM 2012 43 / 125
Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM 2012 43 / 125
Zobecněné lineární modely Rodina exponenciálních rozdělení e θ 1+e θ 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 44 / 125
Přehled rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ 1 1 1 µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM 2012 45 / 125
Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 46 / 125
Linkové funkce Zobecněné lineární modely Rodina exponenciálních rozdělení identita: g(µ) = µ logaritmus: g(µ) = log(µ) logit: g(µ) = log(µ/(1 µ)) probit: g(µ) = Φ 1 (µ), kde Φ je distribuční funkce standardního normálního rozdělení log-log: g(µ) = log( log(µ)) komplementární log-log: g(µ) = log( log(1 µ)) mocninný: g(µ) = µ p pro p 0 (pro p = 0 logaritmický) M.Branda (KPMS MFF UK) GLM 2012 47 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 48 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Probit (červená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 49 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 50 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 51 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Log-log (zelená čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 52 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná), log-log (zelená čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 53 / 125
Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená), kompl. (oranžová), log-log (zelená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 54 / 125
Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 55 / 125
Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM 2012 56 / 125
Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM 2012 56 / 125
Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy Zobecněné lineární modely 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ) ϕ pro známé funkce b, c a neznámé parametry θ i, ϕ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (5) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (4) E[Y i ] = µ i = g 1 (η i ). (6) M.Branda (KPMS MFF UK) GLM 2012 57 / 125
Zobecněné lineární modely Srovnání regresních modelů Zobecněné lineární modely Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 58 / 125
Zobecněné lineární modely Zobecněné lineární modely Přehled rozdělení exponenciální rodiny Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ 1 1 1 µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM 2012 59 / 125
Parametrizace Zobecněné lineární modely Zobecněné lineární modely η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) Kanonický link splňuje g(µ) = θ, tedy musí platit g(µ) = (b ) 1 (µ) a také g (µ) = 1 V (µ). M.Branda (KPMS MFF UK) GLM 2012 60 / 125
Offset Zobecněné lineární modely Zobecněné lineární modely Offset Člen v lineárním prediktoru s pevně daným koeficientem. Korekce modelu s ohledem na expozici v riziku (počet rizik, délka platnosti smlouvy). Například pro expozici n i i tého řádku a logaritmický link položíme η i = ln n i + x iβ. (7) M.Branda (KPMS MFF UK) GLM 2012 61 / 125
Váhy pozorování Zobecněné lineární modely Zobecněné lineární modely Při zahrnutí apriorních vah pozorování w platí E[Y ] = b (θ), var(y ) = a(φ)b (θ) w = ϕb (θ) w. Pomocí rozptylové funkce můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) w = ϕv (µ) w. Využití: Modelování průměrné výše škody (w = počet škod) nebo škodní frekvence (w = délka expozice). M.Branda (KPMS MFF UK) GLM 2012 62 / 125
Odhad parametrů Metoda maximální věrohodnosti Zobecněné lineární modely Odhad parametrů Y i f (y; θ i, ϕ), kde hustota závisí na prediktorech skrze vztah θ i = (b ) 1 (g 1 (x iβ)). Věrohodnostní funkce L(Y; β, ϕ) = a logaritmická věrohodnostní funkce n f (Y i ; θ i, ϕ) i=1 l(y; β, ϕ) = = n log(f (Y i ; θ i, ϕ)) i=1 n i=1 Y i θ i b(θ i ) ϕ + c(y i, ϕ). M.Branda (KPMS MFF UK) GLM 2012 63 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů l β j = n i=1 f θ i θ i µ i µ i η i η i β j = n i=1 (Y i µ i )X ij g (µ i )ϕv (µ i ), kde f = Y i b (θ i ) = Y i µ i, θ i ϕ ϕ θ i 1 = µ i b (θ i ) = 1 V (µ i ), µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 64 / 125
Parametrizace Zobecněné lineární modely Odhad parametrů η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) M.Branda (KPMS MFF UK) GLM 2012 65 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Často se využívá následující tvar l β j = n i=1 l µ i µ i β j = n i=1 (Y i µ i ) ϕv (µ i ) ( µi β j ). M.Branda (KPMS MFF UK) GLM 2012 66 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Definujeme-li váhy pak w(µ i ) = 1 [g (µ i )] 2 V (µ i ), l β j = 1 ϕ Taylorův rozvoj prvního řádu n w(µ i )g (µ i )(Y i µ i )X ij = 0 i=1 g(y i ) g(µ i ) + g (µ i )(Y i µ i ) g(y i ) x iβ g (µ i )(Y i µ i ) n w(µ i )g(y i )X ij i=1 n w(µ i )x iβx ij i=1 M.Branda (KPMS MFF UK) GLM 2012 67 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Maticový zápis Odhad parametrů Nechť W = diag{([g (µ i )] 2 V (µ i )) 1 }, G = diag{g (µ i )}, potom můžeme přepsat rovnost parciálních derivací 0 kde můžeme využít Taylorův rozvoj a přepsat rovnost přibližně jako X WG(Y µ) = 0, G(Y µ) g(y) Xβ (X WX)β X Wg(Y). Dostaneme tak odhad parametrů splňující ˆβ = (X ŴX) 1 X ŴẐ, kde Ẑ bývá nazýváno linearizovaná odezva. M.Branda (KPMS MFF UK) GLM 2012 68 / 125
Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM 2012 69 / 125,
Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM 2012 69 / 125,
Zobecněné lineární modely Derivace věrohodnostní funkce Kanonický link Pro kanonický link dochází ke zjednodušení tedy w(µ i ) = Odhad parametrů 1 [g (µ i )] 2 V (µ i ) = V (µ i) = 1 g (µ i ), l β j = 1 ϕ což můžeme přepsat maticově n (Y i µ i )X ij = 0, i=1 X (Y µ) = 0. nebo po složkách n Y i X ij = i=1 n µ i X ij = i=1 n g 1 (x iβ)x ij. i=1 M.Branda (KPMS MFF UK) GLM 2012 70 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 71 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 71 / 125
Zobecněné lineární modely Derivace věrohodnostní funkce Hessova matice Odhad parametrů Definujeme-li diagonální matici { 1 V = diag (g (µ i )) 2 ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V } (µ i ) (g (µ i )) 3 ϕ(v (µ i )) 2 můžeme Hessovu matici zapsat ve tvaru (odpovídající empirické informační matici) H = X VX. M.Branda (KPMS MFF UK) GLM 2012 72 / 125
Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM 2012 73 / 125
Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM 2012 73 / 125
Konfidenční interval Zobecněné lineární modely Odhad parametrů Konfidenční intervaly jsou založeny na asymptotické normalitě odhadu parametrů n( ˆβ β) d N(0, ϕ(x WX) 1 ): g(y l ) = x ˆβ z ˆϕx (X ŴX) 1 x, g(y u ) = x ˆβ + z ˆϕx (X ŴX) 1 x, kde z je příslušný kvantil standardního normálního rozdělení a x je vektor regresorů. M.Branda (KPMS MFF UK) GLM 2012 74 / 125
Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM 2012 75 / 125
Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM 2012 75 / 125
Kvalita modelu Saturovaný model Zobecněné lineární modely Odhad parametrů Saturovaný model = počet parametrů je roven počtu pozorování 2 a platí ˆµ i = Y i, ˆθ i = (b ) 1 (Y i ). Věrohodnost saturovaného modelu = největší dosažitelná věrohodnost pro daná data l (Y) = n i=1 Y i ˆθ i b(ˆθ i ) ϕ + c(y i, ϕ) 2 Obecně pro model neplatí vlastnosti ML odhadů. M.Branda (KPMS MFF UK) GLM 2012 76 / 125
Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM 2012 77 / 125
Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM 2012 77 / 125
Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM 2012 78 / 125
Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM 2012 78 / 125
Zobecněné lineární modely Odhad disperzního parametru Odhad parametrů Vhodné vlastnosti má Pearsonův odhad ve tvaru ˆϕ = 1 n m n i=1 (Y i ˆµ i ) 2, V (ˆµ i ) kdy za vĺıdných předpokladů ˆϕ P ϕ. Využívá se taky odhad založený na devianci ˆϕ = D(Y, ˆβ) n m. M.Branda (KPMS MFF UK) GLM 2012 79 / 125
Zobecněné lineární modely Akaikeho informační kritérium Odhad parametrů Akaikeho informační kritérium slouží pro porovnání modelů AIC = 2(l(Y; ˆβ, ˆϕ) m). Preferujeme model s minimální hodnotou AIC. M.Branda (KPMS MFF UK) GLM 2012 80 / 125
Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM 2012 81 / 125
Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM 2012 81 / 125
Obsah Příklady zobecněných lineárních modelů 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 82 / 125
Data Příklady zobecněných lineárních modelů 50 000 smluv povinného ručení (pojištění odpovědnosti z provozu motorového vozidla) Simulovaná dle mírně upravených reálných charakteristik Závisle proměnné: počet a výše škod za poslední rok, příznak storna Nezávisle proměnné: tarifní skupina dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka spojité (veks): 18-75 let stáří pojistníka (vek): 3 kategorie (18-30, 30-65, 65 a více) velikosti místa bydliště (region): 4 kategorie (nad 500 000, nad 50 000, nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM 2012 83 / 125
Příklady zobecněných lineárních modelů Postup konstrukce zobecněného lineárního modelu 1 Vyberte rozdělení 2 Vyberte link 3 Vyberte nezávisle proměnné 4 Odhadněte parametry 5 Posuďte kvalitu modelu 6 Iterujte od vhodného kroku M.Branda (KPMS MFF UK) GLM 2012 84 / 125
Příklady zobecněných lineárních modelů Lineární regrese Závisle proměnná: spojitá Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Využití (v pojišťovnictví):? M.Branda (KPMS MFF UK) GLM 2012 85 / 125
Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (log-lineární model) Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM 2012 86 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Regresní model počtu pojistných událostí Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM 2012 87 / 125
Syntax v SASu Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí M.Branda (KPMS MFF UK) GLM 2012 88 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 18582.5892 0.3717 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 50208.1517 1.0043 Log verohodnost -12571.1203 M.Branda (KPMS MFF UK) GLM 2012 89 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 1.0000 0.0000 1.0000 1.0000 M.Branda (KPMS MFF UK) GLM 2012 90 / 125
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, 9646 + 0, 5700 0, 2278 = 2, 6224 µ = exp{ 2, 9646 + 0, 5700 0, 2278} = exp{ 2, 6224} = 0, 0516 1, 7683 0, 7963 = 0, 0726. Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) GLM 2012 91 / 125
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, 9646 + 0, 5700 0, 2278 = 2, 6224 µ = exp{ 2, 9646 + 0, 5700 0, 2278} = exp{ 2, 6224} = 0, 0516 1, 7683 0, 7963 = 0, 0726. Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) GLM 2012 91 / 125
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) GLM 2012 92 / 125
Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) GLM 2012 92 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS 18822.1599 vek 18627.2006 2 194.96 <.0001 pohlavi 18582.5892 1 44.61 <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM 2012 93 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 34.98 <.0001 vek 2 194.41 <.0001 pohlavi 1 44.61 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM 2012 94 / 125
Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125
Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125
Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125
Příklady zobecněných lineárních modelů Poissonův model s E var Overdispersed Poissonův model Regresní model počtu pojistných událostí Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i O Po(λ i, ϕ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ (0, ) Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM 2012 96 / 125
Příklady zobecněných lineárních modelů Kvazi-věrohodnost Quasi-likelihood Regresní model počtu pojistných událostí Parciální derivace ql β j = n i=1 Y i µ i ϕv (µ i ) ( ) µi β j odpovídají kvazi-(logaritmické-)věrohodnostní funkci pro obecnou rozptylovou funkci V a disperzní parametr ϕ ql = n i=1 µi Y i Y i t ϕv (t) dt. Využívá se i pro binomické, resp. alternativní rozdělení. M.Branda (KPMS MFF UK) GLM 2012 97 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 49992.0000 1.0000 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 135072.9917 2.7019 Log verohodnos -33819.5845 M.Branda (KPMS MFF UK) GLM 2012 98 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 0.6097 0.0000 0.6097 0.6097 M.Branda (KPMS MFF UK) GLM 2012 99 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Odchylka DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS 18822.1599 vek 18627.2006 2 49992 262.25 <.0001 524.49 <.0001 pohlavi 18582.5892 1 49992 120.02 <.0001 120.02 <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM 2012 100 / 125
Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS 4 49992 23.53 <.0001 94.11 <.0001 vek 2 49992 261.51 <.0001 523.02 <.0001 pohlavi 1 49992 120.02 <.0001 120.02 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM 2012 101 / 125
Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (overdispersed, interakce) Kritéria pro hodnocení dobré shody Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18572.7871 0.3715 Scaled Deviance 5E4 49990.0000 1.0000 Pearsonuv Chí-kvad 5E4 50268.9172 1.0056 Scaled Pearson X2 5E4 135302.4272 2.7066 Log verohodnos -33822.8881 M.Branda (KPMS MFF UK) GLM 2012 102 / 125