1/30 31.3.2006 Seminář z aktuárských věd Slides by LATEX Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení
2/30 Obsah 1 Zobecněné lineární modely (GLZ 1 ) Obecný lineární model (GLM) Rozdělení exponenciálního typu MLE Testování hypotéz Příklady 2 Použití v povinném ručení BMS Sazby Komplexní model 3 Poznámky k software 1 Zkratka používaná SW StatSoft Statistica
Modelování 3/30 Model Vysvětlovaná proměnná = systematická složka + stochastická složka y 1,..., y n pozorování vysvětlované proměnné y i je realizací náhodné veličiny Y i Obecný lineární model Y i N(µ i, σ 2 ) µ i = x iβ p vysvětlujích proměnných β = (β 1,..., β p ) i té pozorování x i = (x i1,..., x ip )
Modelování 4/30 Zobecněný lineární model Obecný model zobecníme ve dvou krocích: (µ i je nadále střední hodnotou n. v. Y i a β jsou vysvětlující parametry) ❶ Stochastickou složku: Y i má rozdělení exponenciálního typu ❷ Systematickou složku: lineární vztah mezi vysvětlujícími proměnnými a vysvětlujícími parametry η i = x iβ spojovací funkce (link) mezi střední hodnotou µ i a lineární složkou η i g(µ i ) = η i (ryze monotónní, se spoj. druhou derivací) Model může obsahovat jak spojité tak kategoriální vysvětlující proměnné
5/30 Rozdělení exponenciálního typu Obecná forma f(y, θ) = exp (d(θ)e(y) + g(θ) + h(y)) Přirozená forma ( yθ b(θ) f(y, θ, ϕ) = exp a(ϕ) ) + c(y, ϕ) d(θ) = θ a e(y) = y, navíc parametr ϕ θ je přirozený (kanonický) parametr ϕ je rozptylový (disperzní) parametr
Rozdělení exponenciálního typu 6/30 Disperzní funkce a(ϕ): Používá se konstantní rovna ϕ nebo ve tvaru a i (ϕ) = ϕ/w i Kumulantová funkce b(θ): se spojitou druhou derivaci κ r = b (r) (θ)a(ϕ) r 1 E [Y ] = b (θ) = µ Var [Y ] = b (θ)a(ϕ) = V (µ)a(ϕ) κ(1) je střední hodnota a κ(2), κ(3) další dva centrální momenty Rozdělení je plně určeno vztahem mezi E [Y ] a Var Y. V (µ) = 1 Normální V (µ) = µ 2 Gamma V (µ) = µ Poissonovo V (µ) = µ 3 Inverzní Gaussovo Doplňková funkce c(y, ϕ) normuje hustotu
Rozdělení exponenciálního typu 7/30 Měření tailu Míra rizika (hazard rate) na intervalu pevné šířky w h w (y) = F (y+w) F (y) 1 F (y) Interpretace: Uvažujme vrstvu w xs y. h w (y) = P(y<Y y+w) P(Y >y)) h w je prst., že škoda nepřesáhne y + w, pokud už přesáhla y. Vysoká hodnota h w znamená, že škoda nad y vyčerpá tuto vrstvu jen s malou prstí. = lehký tail. Pro většinu aplikací v pojišťovnictví uvažujeme klesající míru rizika. h w (y) 0 pro y. Normální a Poissonovo mají limitu 1 Negativně binomické, Gamma a Inverzní Gaussovo jdou ke konstantě mezi 0 a 1 Logaritmicko normální jde k nule, ale není z exp. rodiny s hustotou v přirozeném tvaru Exp. rodina rozdělení je méně vhodná pro odvětví s těžším tailem. transformace logaritmem a pak GLM není totéž jako GLZ s logaritmickou linkovací funkcí je rozdíl mezi transformací y i a transformací střední hodnoty
8/30 Odhad β metodou maximální věrohodnosti Logaritmická věrohodnostní funkce n ( Yi θ i b(θ) l(β) = a(ϕ) Derivace l β = n i=1 i=1 l θ i θ i µ i µ i η i η i β = i=1 ) + c(y i, ϕ) n 1 a i (ϕ) (Y 1 i µ i ) V (µ i )g (µ i ) x i = 0 Kanonický link: spojovací funkce je inverzní funkcí k b, potom můžeme zjednodušit na soustavu nelineárních rovnic n (Y i µ i )x i = 0 i=1 Řeší se různými iteračními metodami
MLE β 9/30 Iteračně vážená metoda nejmenších čtverců (IWLS, IRLS) ˆβ je předchozí odhad β, dopočteme ˆη i = x i ˆβ a ˆµ i = g 1 (ˆη i ) spočteme pracovní závislou proměnnou z i = ˆη i + (y i ˆµ i ) dη i dµ i vypočteme iteraci vah (začínáme s w i ze vztahu a i (ϕ) = ϕ/w i ) w new i nakonec dostaneme nový odhad β = w i /[b (θ i )( dη i dµ i ) 2 ] ˆβ = (X W X) 1 XW z Jako výchozí aproximace se volí ˆµ i = y i
10/30 Míry dobré shody Plný (saturovaný) model maximalizuje věrhodnostní funkci (l ) V saturovaném modelu máme ˆµ i = y i a ˆθ i = (b ) 1 (y i ) škálovatelná deviance (log věr. fce modelu vs. její max hodnota) ( ) n D (ˆβ) = 2 l 1 ( l(ˆβ) = 2 y i (ˆθ i a i (ϕ) ˆθ ) ( )) b(ˆθ i ) b(ˆθ) deviance (při a i (ϕ) = ϕ/w i ) n D(ˆβ) = D (ˆβ)ϕ = 2 Pearsonovo χ 2 i=1 i=1 ( w i y i (ˆθ i ˆθ ) ( )) b(ˆθ i ) b(ˆθ) (pozorování vs. odhadem jejich střední hod. v modelu) n χ 2 (y i ˆµ i ) 2 = V (ˆµ i ) i=1
Míry dobré shody 11/30 Testování podmodelu Označme β odhad β v podmodelu s p < p parametry l(ˆβ) l( β) = D (ˆβ) D ( β) = D( ˆβ) D ( β) ϕ as χ 2 q, kde q = p p je rozdíl v počtu parametrů, při známém ϕ Waldův test I(β) = X W X/ϕ ˆβ as N p (β, (X W X) 1 ϕ) Testy podmnožin β jsou založeny na příslušných marginálních rozděleních konzistentní statistika pro odhad parametru ϕ ˆϕ = D(ˆβ) n p
12/30 Příklady GLZ Obecný lineární model, Normální rozdělení, identita Log lineární model, Poissonovo rozdělení, logaritmus Gamma regrese, Gamma rozdělení, reciprocita Logistický model, Binomické rozdělení, logitová funkce Další rozdělení: Inverzní Gaussovo Negativně binomické overdispersed Poissonovo rozdělení Logaritmicko normální NE, jen v obecné formě Další modely: probitový model, log log model
Příklady GLZ 13/30 Obecný lineární model Normální rozdělení Y i N(µ i, σ 2 ): f(y i ) = 1 2πσ 2 exp Přirozený parametr θ i = µ i a rozptylová funkce V (µ i ) = 1 ( (y i µ i ) 2 2σ 2 ) a(ϕ) = ϕ = σ 2 b(θ i ) = µ 2 /2 c(y i, ϕ) = y2 2σ 2 1 2 log(2πσ2 ) kanonický link: µ i = η i IWLS: z i = η i + (y i µ i ) = y i ˆβ = (X X) 1 X y výsledek v prvním kroku deviance je reziduální součet čtverců D = ϕd = n (y i ˆµ i ) 2 i=1
Příklady GLZ 14/30 Log lineární model Poissonovo rozdělení Y i P o(µ i ): f(y i ) = e µ iµ y i i y i! Přirozený parametr θ i = log µ i a rozptylová funkce V (µ i ) = µ i a(ϕ) = ϕ = 1 b(θ i ) = e θ i c(y i, ϕ) = log(y i!) kanonický link: η i = log(µ i ) IWLS: z i = η i + (y i µ i )/µ i a iterované váhy w i = µ i deviance Y i P o( µ i ) D = 2 n i=1 D = 2 ( y i log y ) i (y i ˆµ i ) ˆµ i n i=1 ( y i log y ) i ˆµ i
15/30 Použití GLZ v povinném ručení BMS Sazby Komplexní model
16/30 Model v povinném ručení Y je modelovaná kvantita (výše škody, agregace, počet), závisí na X = {X 1, X 2,...}, apriorní tarifní proměnné - grupování rizik Z = {Z 1, Z 2,...}, neznámé proměnné Rizikové faktory pojistníka jsou Ω = X Z. Pojistné E [Y Ω] Nese pojistník Nese pojistitel Riziko E [Y Ω] Y E [Y Ω] Střední hodnota EY 0 Rozptyl Var [E [Y Ω]] E [Var [Y Ω]] Předchozí situace je čistě teoretická, neboť neznáme Z. Riziko E [Y X] Y E [Y X] Střední hodnota E [Y ] 0 Rozptyl Var [E [Y X]] E [Var [Y X]]
Model v povinném ručení 17/30 Aposteriorní sazbování Minulá škodní zkušenosti o riziku Y, označme Y Ω a (X, Y ) s stávají porovnatelné, jak čas běží Potom máme pojistné E [Y X, Y ] Možnosti konstrukce modelu: 1 Uvažujeme klasifikaci rizika a BMS odděleně 2 Uvažujeme komplexní model klasifikující riziko a zahrnující BMS Příklad: Španělská pojišťovna 4 x 3 tříd
Oddělené modely 18/30 Systém bonus-malus (BMS) Riziko i je reprezentováno (Θ i, K i1, K i2,...) Počty škod v čase K ij Θ i = θ P o(θ) a podmíněně nezávislé Θ i Γ(a, τ) (K ij má nepodmíněné rozdělení negativně binomické) Označme K i (t) = t K ij j=1 Uvažujme jednotkovou očekávanou výši škody Apriori bez historie je požadováno pojistné E [Θ i ] Pojistné určíme minimalizací E [L(θ i Ψ(k i1,..., k it ))] L(x) = x 2 W q t+1 = a(1 ρ τ q) + k i (t) ρ t q L(x) = exp( cx) Wt+1 e = a(1 ρ τ e(c)) + k i (t) ρ t e (c) kde ρ q = t a ρ τ+t e(c) = t log ( ) 1 + c c τ+t
Oddělené modely BMS 19/30 L(x) = x 2 W q t+1 = a(1 ρ τ q) + k i (t) ρ t q L(x) = exp( cx) Wt+1 e = a(1 ρ τ e(c)) + k i (t) ρ t e (c) ρ q = t ρ τ+t e (c) = t log ( ) 1 + c c τ+t ρ e (c) ρ q a W e t+1 W q t+1 při c 0 ρ e (c) 0 pro c, proto W e t+1 a/τ Pojistné rizika i, které je v roce t zařazeno v třídě I i (t) P q,e t+1(k i (t), t) = BP Ii (t+1)bmf q,e t+1(k i (t), t), BMF q (k i (t), t) = W q t+1 E[Θ] i BMF e (k i (t), t) = W q t+1 E[Θ] i = a+k i (t) τ τ+t a = 1 t c log ( 1 + c τ+t ) + log ( 1 + c τ+t ) ki (t) τ c a
Oddělené modely BMS 20/30 Výsledky: BMS - odhady v Negativně binomickém rozdělení â = 0.8665 a ˆτ = 3.9097 k n k ˆn k n k ˆn k 0 122 628 122 713-85 1 21 686 21 656 30 2 4 014 4 116-102 3 832 801 31 4 224 158 66 5 68 31 37 6 17 6 11 7 7 1 6 8 7 0 7 9 0 0 0
Oddělené modely apriorní sazby 21/30 Pozorované ŠF Věk Výkon 35 35 < 49 50 53 0.1866 0.1572 0.1283 53 < 75 0.2685 0.2279 0.1986 75 < 118 0.2992 0.2526 0.2386 118 0.3217 0.2846 0.2483 Kategorické proměnné pro věk J 2, J 3 a pro výkon L 2, L 3, L 4 Každá třída je reprezentována vektorem x i = (1, j 2, j 3, l 2, l 3, l 4 ) Parametry β = (ɛ, γ 2, γ 3, δ 2, δ 3, δ 4 ) Log lineární model, Poissonovo rozdělení, logaritmický link
Oddělené modely apriorní sazby 22/30 Výsledky: Parametr Odhad sm. odch. ɛ -1.7219 0.0198 γ 2-0.1634 0.0147 γ 3-0.2800 0.0149 δ 2 0.3987 0.0185 δ 3 0.5324 0.0189 δ 4 0.6150 0.0236 Věk Výkon 35 35 < 49 50 53 0.1787 0.1518 0.1351 53 < 75 0.2663 0.2262 0.2013 75 < 118 0.3044 0.2585 0.2300 118 0.3306 0.2808 0.2498
23/30
24/30
25/30 Komplexní model Nechť je K it P o(λ Ii (t)) počet škod rizika i v roce t, kde I i (t) je příslušný index třídy a λ Ii (t) jsou jejich ŠF Rozptyl pozorování je však větší než střední hodnota, předpoklad Poissona není korektní Raději předpokládáme K it P o(λ Ii (t)θ i ), kde Θ i Γ(α, α) Potom K it I i (t) má negativně binomické rozdělení ( ) ( ) k ( α + k 1 λii(t) α P (K it = k I i (t)) = k α + λ Ii(t) α + λ Ii(t) Θ i K i1 = k i1,..., K it = k it Γ(α + k i (t), α + λ i (t)) Parametr α odhadneme metodou maximální věrohodnosti { 12 k max (i) ( ) ( ) k ( ) } α nik α + k 1 λii(t) α L(α) = k α + λ Ii(t) α + λ Ii(t) i=1 k=0 ) α
Komplexní model 26/30 Pojistné Relativní výše bunusu malusu P q,e t+1 = λ Ii (t+1)bmf q,e t+1(k i (t), λ i (t)) BMF q,e t+1(k i (t), t) = (1 ρ q,e ) + ρ q,e k i (t) λ i (t) Váhy pro kvadratickou a exponenciální ztrátovou funkci ( ) ρ q = λ i (t) α+λ i ρ (t) e (c) = λ i (t) log 1 + c c α+λ i (t) Nerovnosti a konvergence stejně jako v oddělených modelech ρ e (c) ρ q ρ e (c) ρ q pro c 0 a tedy Pt+1(k e i, λ i (t)) Pt+1(k q i, λ i (t)) ρ e (c) 0 pro c, proto Pt+1(k e i, λ i (t)) λ Ii (t), to znamená, že všechna rizika jedné třídy platí stejné pojistné, tj. nemáme BMS
27/30
28/30
29/30 Poznámky k SW Statistica sigma parametrizace { 1, 1} váhy pozorování konstrukce modelu Statistica ukázka
30/30 Literatura L. Bermúdez, M. Denuit & J. Dhaene (2001) Exponential bonus-malus systems integrating a priori risk classification. Journal of Actuarial Practice 9, 84-112. Děkuji za pozornost