Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Transkript

1 Zobecněné lineární modely v pojišťovnictví Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Seminář z aktuárských věd 2012 M.Branda (KPMS MFF UK) GLM / 125

2 branm1am M.Branda (KPMS MFF UK) GLM / 125

3 Obsah 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

4 Obsah Úvod 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

5 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

10 Software Úvod SAS: GENMOD Statistica: Generalized Linear Models (GLZ) IBM SPSS: GENLIN (ne GLM!!!) Mathematica: GeneralizedLinearModelFit R: glm... M.Branda (KPMS MFF UK) GLM / 125

11 Reference Úvod M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press K. Zvára: Regrese. Matfyzpress, Praha, Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) GLM / 125

12 Data-mining Úvod Data-mining (Datamining, Data mining) - získávání netriviálních skrytých a potenciálně užitečných informací z dat. M.Branda (KPMS MFF UK) GLM / 125

13 Obsah Data a lineární regrese 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

14 Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM / 125

15 Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM / 125

16 Předpoklady Data a lineární regrese Data Rozdělení Y i závisí na x i. Pozorování (Y i, x i ) jsou nezávislá. Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat. M.Branda (KPMS MFF UK) GLM / 125

17 Data a lineární regrese Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žena žena M.Branda (KPMS MFF UK) GLM / 125

18 Data Bez absolutního členu Data a lineární regrese Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města M.Branda (KPMS MFF UK) GLM / 125

19 Data S absolutním členem Data a lineární regrese Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města X M.Branda (KPMS MFF UK) GLM / 125

20 Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města X M.Branda (KPMS MFF UK) GLM / 125

21 Data a lineární regrese Data - chybějící hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žena M.Branda (KPMS MFF UK) GLM / 125

22 Data a lineární regrese Data - chybné hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žež žena M.Branda (KPMS MFF UK) GLM / 125

23 Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM / 125

24 Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM / 125

25 Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá missing (v letech) města města X... M.Branda (KPMS MFF UK) GLM / 125

26 Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM / 125

27 Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM / 125

28 Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM / 125

29 Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM / 125

30 Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM / 125

33 Lineární regrese Aitkenův model Data a lineární regrese Vážené nejmenší čtverce Nechť var ɛ = Wσ 2, kde W je obecná pozitivně definitní matice, tj. chyby nemusí být nezávislé se stejným rozptylem. Pomocí rozkladu W 1 = C T C, kde C je regulární odmocninová matice přepíšeme model CY = CXβ + Cɛ odpovídá předešlému modelu lineární regrese s nezávislými chybami. M.Branda (KPMS MFF UK) GLM / 125

34 Lineární regrese Vážené nejmenší čtverce Data a lineární regrese Vážené nejmenší čtverce Odhad β je v tomto případě řešením soustavy normálních rovnic X T W 1 Xβ = X T W 1 Y. Tedy dostaneme odhad parametrů ˆβ = (X T W 1 X) 1 X T W 1 Y, kde ˆβ (β, σ 2 (X T W 1 X) 1 ). (Další odhady získáme analogicky.) M.Branda (KPMS MFF UK) GLM / 125

35 Obsah Zobecněné lineární modely 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

36 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM / 125

39 Zobecněné lineární modely Srovnání regresních modelů Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

40 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM / 125

41 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM / 125

42 Zobecněné lineární modely Pozor na parametrizaci Rodina exponenciálních rozdělení V literatuře se objevují běžně různé parametrizace, pro známé funkce a, b, c, resp. c, a neznámé parametry θ, φ: { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ) a(φ) nebo nebo { } yθ b(θ) f (y; θ, ϕ) = exp + c(y, ϕ) ϕ { } yθ b(θ) f (y; θ, φ) = exp c(y, φ). a(φ) Poslední parametrizaci nebudeme využívat. M.Branda (KPMS MFF UK) GLM / 125

43 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Pro náhodnou veličinu Y patřící do rodiny exponenciálních rozdělení platí: Je-li b dvakrát spojitě diferencovatelná, potom E[Y ] = b (θ), var(y ) = a(φ)b (θ) = ϕb (θ). Pomocí rozptylové funkce V (µ) = b [(b ) 1 (µ)] můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) = ϕv (µ). M.Branda (KPMS MFF UK) GLM / 125

44 Střední hodnota Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro parciální derivaci platí f (y; θ, φ) θ = f (y; θ, φ) y b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) f (y; θ, φ) 0 = dy θ = f (y; θ, φ)dy θ = EY b (θ). a(φ) M.Branda (KPMS MFF UK) GLM / 125

45 Rozptyl Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro druhou parciální derivaci platí 2 f (y; θ, φ) θ 2 = f (y; θ, φ) ( y b (θ) a(φ) ) 2 b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) 2 f (y; θ, φ) 0 = θ 2 dy = 2 θ 2 f (y; θ, φ)dy = E[(Y b (θ)) 2 ] (a(φ)) 2 b (θ) a(φ). M.Branda (KPMS MFF UK) GLM / 125

46 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM / 125

47 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM / 125

48 Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM / 125

49 Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM / 125

50 Normální rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení N(0,1), N(0,2), N(0,4) M.Branda (KPMS MFF UK) GLM / 125

51 Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM / 125

52 Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM / 125

53 Gamma rozdělení Parametrizace v SASu Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(µ, ν): Pro 0 < y < f (y; µ, ν) = 1 Γ(ν)y ( ) yν ν { exp yν }, µ µ kde a = ν/µ a p = ν, ϕ = ν 1, var(y ) = µ 2 /ν M.Branda (KPMS MFF UK) GLM / 125

54 Gamma rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Gamma(2,2), Gamma(4,2), Gamma(6,2) M.Branda (KPMS MFF UK) GLM / 125

55 Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM / 125

56 Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM / 125

57 Zobecněné lineární modely Inverzní Gaussovo rozdělení Hustoty Rodina exponenciálních rozdělení IG(5,1), IG(5,5), IG(5,30) M.Branda (KPMS MFF UK) GLM / 125

58 Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM / 125

59 Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM / 125

60 Poissonovo rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Po(3), Po(10), Po(20) M.Branda (KPMS MFF UK) GLM / 125

61 Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM / 125

62 Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM / 125

63 Zobecněné lineární modely Rodina exponenciálních rozdělení e θ 1+e θ M.Branda (KPMS MFF UK) GLM / 125

64 Přehled rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM / 125

65 Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

66 Linkové funkce Zobecněné lineární modely Rodina exponenciálních rozdělení identita: g(µ) = µ logaritmus: g(µ) = log(µ) logit: g(µ) = log(µ/(1 µ)) probit: g(µ) = Φ 1 (µ), kde Φ je distribuční funkce standardního normálního rozdělení log-log: g(µ) = log( log(µ)) komplementární log-log: g(µ) = log( log(1 µ)) mocninný: g(µ) = µ p pro p 0 (pro p = 0 logaritmický) M.Branda (KPMS MFF UK) GLM / 125

67 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá) M.Branda (KPMS MFF UK) GLM / 125

68 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Probit (červená) M.Branda (KPMS MFF UK) GLM / 125

69 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená) M.Branda (KPMS MFF UK) GLM / 125

70 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

71 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Log-log (zelená čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

72 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná), log-log (zelená čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

73 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená), kompl. (oranžová), log-log (zelená) M.Branda (KPMS MFF UK) GLM / 125

74 Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

75 Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM / 125

76 Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM / 125

77 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy Zobecněné lineární modely 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ) ϕ pro známé funkce b, c a neznámé parametry θ i, ϕ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (5) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (4) E[Y i ] = µ i = g 1 (η i ). (6) M.Branda (KPMS MFF UK) GLM / 125

78 Zobecněné lineární modely Srovnání regresních modelů Zobecněné lineární modely Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

79 Zobecněné lineární modely Zobecněné lineární modely Přehled rozdělení exponenciální rodiny Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM / 125

80 Parametrizace Zobecněné lineární modely Zobecněné lineární modely η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) Kanonický link splňuje g(µ) = θ, tedy musí platit g(µ) = (b ) 1 (µ) a také g (µ) = 1 V (µ). M.Branda (KPMS MFF UK) GLM / 125

81 Offset Zobecněné lineární modely Zobecněné lineární modely Offset Člen v lineárním prediktoru s pevně daným koeficientem. Korekce modelu s ohledem na expozici v riziku (počet rizik, délka platnosti smlouvy). Například pro expozici n i i tého řádku a logaritmický link položíme η i = ln n i + x iβ. (7) M.Branda (KPMS MFF UK) GLM / 125

82 Váhy pozorování Zobecněné lineární modely Zobecněné lineární modely Při zahrnutí apriorních vah pozorování w platí E[Y ] = b (θ), var(y ) = a(φ)b (θ) w = ϕb (θ) w. Pomocí rozptylové funkce můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) w = ϕv (µ) w. Využití: Modelování průměrné výše škody (w = počet škod) nebo škodní frekvence (w = délka expozice). M.Branda (KPMS MFF UK) GLM / 125

83 Odhad parametrů Metoda maximální věrohodnosti Zobecněné lineární modely Odhad parametrů Y i f (y; θ i, ϕ), kde hustota závisí na prediktorech skrze vztah θ i = (b ) 1 (g 1 (x iβ)). Věrohodnostní funkce L(Y; β, ϕ) = a logaritmická věrohodnostní funkce n f (Y i ; θ i, ϕ) i=1 l(y; β, ϕ) = = n log(f (Y i ; θ i, ϕ)) i=1 n i=1 Y i θ i b(θ i ) ϕ + c(y i, ϕ). M.Branda (KPMS MFF UK) GLM / 125

84 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů l β j = n i=1 f θ i θ i µ i µ i η i η i β j = n i=1 (Y i µ i )X ij g (µ i )ϕv (µ i ), kde f = Y i b (θ i ) = Y i µ i, θ i ϕ ϕ θ i 1 = µ i b (θ i ) = 1 V (µ i ), µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

85 Parametrizace Zobecněné lineární modely Odhad parametrů η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) M.Branda (KPMS MFF UK) GLM / 125

86 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Často se využívá následující tvar l β j = n i=1 l µ i µ i β j = n i=1 (Y i µ i ) ϕv (µ i ) ( µi β j ). M.Branda (KPMS MFF UK) GLM / 125

87 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Definujeme-li váhy pak w(µ i ) = 1 [g (µ i )] 2 V (µ i ), l β j = 1 ϕ Taylorův rozvoj prvního řádu n w(µ i )g (µ i )(Y i µ i )X ij = 0 i=1 g(y i ) g(µ i ) + g (µ i )(Y i µ i ) g(y i ) x iβ g (µ i )(Y i µ i ) n w(µ i )g(y i )X ij i=1 n w(µ i )x iβx ij i=1 M.Branda (KPMS MFF UK) GLM / 125

88 Zobecněné lineární modely Derivace věrohodnostní funkce Maticový zápis Odhad parametrů Nechť W = diag{([g (µ i )] 2 V (µ i )) 1 }, G = diag{g (µ i )}, potom můžeme přepsat rovnost parciálních derivací 0 kde můžeme využít Taylorův rozvoj a přepsat rovnost přibližně jako X WG(Y µ) = 0, G(Y µ) g(y) Xβ (X WX)β X Wg(Y). Dostaneme tak odhad parametrů splňující ˆβ = (X ŴX) 1 X ŴẐ, kde Ẑ bývá nazýváno linearizovaná odezva. M.Branda (KPMS MFF UK) GLM / 125

89 Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM / 125,

90 Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM / 125,

91 Zobecněné lineární modely Derivace věrohodnostní funkce Kanonický link Pro kanonický link dochází ke zjednodušení tedy w(µ i ) = Odhad parametrů 1 [g (µ i )] 2 V (µ i ) = V (µ i) = 1 g (µ i ), l β j = 1 ϕ což můžeme přepsat maticově n (Y i µ i )X ij = 0, i=1 X (Y µ) = 0. nebo po složkách n Y i X ij = i=1 n µ i X ij = i=1 n g 1 (x iβ)x ij. i=1 M.Branda (KPMS MFF UK) GLM / 125

92 Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

93 Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

94 Zobecněné lineární modely Derivace věrohodnostní funkce Hessova matice Odhad parametrů Definujeme-li diagonální matici { 1 V = diag (g (µ i )) 2 ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V } (µ i ) (g (µ i )) 3 ϕ(v (µ i )) 2 můžeme Hessovu matici zapsat ve tvaru (odpovídající empirické informační matici) H = X VX. M.Branda (KPMS MFF UK) GLM / 125

95 Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM / 125

96 Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM / 125

97 Konfidenční interval Zobecněné lineární modely Odhad parametrů Konfidenční intervaly jsou založeny na asymptotické normalitě odhadu parametrů n( ˆβ β) d N(0, ϕ(x WX) 1 ): g(y l ) = x ˆβ z ˆϕx (X ŴX) 1 x, g(y u ) = x ˆβ + z ˆϕx (X ŴX) 1 x, kde z je příslušný kvantil standardního normálního rozdělení a x je vektor regresorů. M.Branda (KPMS MFF UK) GLM / 125

98 Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM / 125

99 Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM / 125

100 Kvalita modelu Saturovaný model Zobecněné lineární modely Odhad parametrů Saturovaný model = počet parametrů je roven počtu pozorování 2 a platí ˆµ i = Y i, ˆθ i = (b ) 1 (Y i ). Věrohodnost saturovaného modelu = největší dosažitelná věrohodnost pro daná data l (Y) = n i=1 Y i ˆθ i b(ˆθ i ) ϕ + c(y i, ϕ) 2 Obecně pro model neplatí vlastnosti ML odhadů. M.Branda (KPMS MFF UK) GLM / 125

101 Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM / 125

102 Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM / 125

103 Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM / 125

104 Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM / 125

105 Zobecněné lineární modely Odhad disperzního parametru Odhad parametrů Vhodné vlastnosti má Pearsonův odhad ve tvaru ˆϕ = 1 n m n i=1 (Y i ˆµ i ) 2, V (ˆµ i ) kdy za vĺıdných předpokladů ˆϕ P ϕ. Využívá se taky odhad založený na devianci ˆϕ = D(Y, ˆβ) n m. M.Branda (KPMS MFF UK) GLM / 125

106 Zobecněné lineární modely Akaikeho informační kritérium Odhad parametrů Akaikeho informační kritérium slouží pro porovnání modelů AIC = 2(l(Y; ˆβ, ˆϕ) m). Preferujeme model s minimální hodnotou AIC. M.Branda (KPMS MFF UK) GLM / 125

107 Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM / 125

108 Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM / 125

109 Obsah Příklady zobecněných lineárních modelů 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

110 Data Příklady zobecněných lineárních modelů smluv povinného ručení (pojištění odpovědnosti z provozu motorového vozidla) Simulovaná dle mírně upravených reálných charakteristik Závisle proměnné: počet a výše škod za poslední rok, příznak storna Nezávisle proměnné: tarifní skupina dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka spojité (veks): let stáří pojistníka (vek): 3 kategorie (18-30, 30-65, 65 a více) velikosti místa bydliště (region): 4 kategorie (nad , nad , nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM / 125

111 Příklady zobecněných lineárních modelů Postup konstrukce zobecněného lineárního modelu 1 Vyberte rozdělení 2 Vyberte link 3 Vyberte nezávisle proměnné 4 Odhadněte parametry 5 Posuďte kvalitu modelu 6 Iterujte od vhodného kroku M.Branda (KPMS MFF UK) GLM / 125

112 Příklady zobecněných lineárních modelů Lineární regrese Závisle proměnná: spojitá Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Využití (v pojišťovnictví):? M.Branda (KPMS MFF UK) GLM / 125

113 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (log-lineární model) Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM / 125

114 Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Regresní model počtu pojistných událostí Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM / 125

115 Syntax v SASu Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí M.Branda (KPMS MFF UK) GLM / 125

116 Příklady zobecněných lineárních modelů Poissonovská regrese Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnost M.Branda (KPMS MFF UK) GLM / 125

117 Příklady zobecněných lineárních modelů Poissonovská regrese Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int TS <.0001 TS <.0001 TS <.0001 TS <.0001 TS <.0001 vek <.0001 vek <.0001 vek pohlavi <.0001 pohlavi Škála M.Branda (KPMS MFF UK) GLM / 125

118 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, , , 2278 = 2, 6224 µ = exp{ 2, , , 2278} = exp{ 2, 6224} = 0, , , 7963 = 0, Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, P(Y = 4) = 1, M.Branda (KPMS MFF UK) GLM / 125

119 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, , , 2278 = 2, 6224 µ = exp{ 2, , , 2278} = exp{ 2, 6224} = 0, , , 7963 = 0, Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, P(Y = 4) = 1, M.Branda (KPMS MFF UK) GLM / 125

120 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 3946 µ = exp{ 2, , } = exp{ 2, 3946} = 0, , = 0, TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 1584 µ = exp{ 2, , } = exp{ 2, 1584} = 0, , = 0, M.Branda (KPMS MFF UK) GLM / 125

121 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 3946 µ = exp{ 2, , } = exp{ 2, 3946} = 0, , = 0, TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 1584 µ = exp{ 2, , } = exp{ 2, 1584} = 0, , = 0, M.Branda (KPMS MFF UK) GLM / 125

122 Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS vek <.0001 pohlavi <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM / 125

123 Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF Chí-kvadrát Pr > ChíKv TS <.0001 vek <.0001 pohlavi <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM / 125

124 Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM / 125

127 Příklady zobecněných lineárních modelů Poissonův model s E var Overdispersed Poissonův model Regresní model počtu pojistných událostí Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i O Po(λ i, ϕ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ (0, ) Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM / 125

128 Příklady zobecněných lineárních modelů Kvazi-věrohodnost Quasi-likelihood Regresní model počtu pojistných událostí Parciální derivace ql β j = n i=1 Y i µ i ϕv (µ i ) ( ) µi β j odpovídají kvazi-(logaritmické-)věrohodnostní funkci pro obecnou rozptylovou funkci V a disperzní parametr ϕ ql = n i=1 µi Y i Y i t ϕv (t) dt. Využívá se i pro binomické, resp. alternativní rozdělení. M.Branda (KPMS MFF UK) GLM / 125

129 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnos M.Branda (KPMS MFF UK) GLM / 125

130 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int TS <.0001 TS <.0001 TS <.0001 TS <.0001 TS <.0001 vek <.0001 vek <.0001 vek pohlavi <.0001 pohlavi Škála M.Branda (KPMS MFF UK) GLM / 125

131 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Odchylka DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS vek < <.0001 pohlavi < <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM / 125

132 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS < <.0001 vek < <.0001 pohlavi < <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM / 125

133 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (overdispersed, interakce) Kritéria pro hodnocení dobré shody Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnos M.Branda (KPMS MFF UK) GLM / 125

Zobrazit více