1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení. 31.3.2006 Seminář z aktuárských věd. Slides by LATEX.

Podobné dokumenty
Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Základy teorie odhadu parametrů bodový odhad

Matematické přístupy k pojištění automobilů. Silvie Kafková září 2013, Podlesí

Lineární a logistická regrese

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

oddělení Inteligentní Datové Analýzy (IDA)

AVDAT Klasický lineární model, metoda nejmenších

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

odpovídá jedna a jen jedna hodnota jiných

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

3 Bodové odhady a jejich vlastnosti

AVDAT Nelineární regresní model

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

LWS při heteroskedasticitě

7 Regresní modely v analýze přežití

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Tomáš Karel LS 2012/2013

5. B o d o v é o d h a d y p a r a m e t r ů

Odhady Parametrů Lineární Regrese

AVDAT Mnohorozměrné metody, metody klasifikace

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

7. Analýza rozptylu.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

LINEÁRNÍ REGRESE. Lineární regresní model

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

Pravděpodobnost a statistika I KMA/K413

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Apriorní rozdělení. Jan Kracík.

KGG/STG Statistika pro geografy

Přijímací zkouška na navazující magisterské studium 2017

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Odhady - Sdružené rozdělení pravděpodobnosti

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Testování hypotéz o parametrech regresního modelu

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pravděpodobnost a aplikovaná statistika

Regresní a korelační analýza

4. Aplikace matematiky v ekonomii

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

DIPLOMOVÁ PRÁCE. Aplikovaná logistická regrese

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

12. cvičení z PST. 20. prosince 2017

Poznámky k předmětu Aplikovaná statistika, 11. téma

8 Coxův model proporcionálních rizik I

Regresní a korelační analýza

Testování hypotéz o parametrech regresního modelu

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

PRAVDĚPODOBNOST A STATISTIKA

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Bodové a intervalové odhady parametrů v regresním modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Bc. Marika Stroukalová

Odhad parametrů N(µ, σ 2 )

Statistika II. Jiří Neubauer

Téma 22. Ondřej Nývlt

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

STATISTICKÁ KLASIFIKACE POMOCÍ ZOBECNĚNÝCH

Cvičení 12: Binární logistická regrese

Bodové a intervalové odhady parametrů v regresním modelu

Jana Vránová, 3. lékařská fakulta UK

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

4 Parametrické odhady

Charakterizace rozdělení

Maximálně věrohodné odhady v časových řadách

velkou variabilitou: underdispersion, overdispersion)

Regresní analýza. Eva Jarošová

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

Regresní analýza 1. Regresní analýza

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Intervalové Odhady Parametrů

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Odhad parametrů N(µ, σ 2 )

Přijímací zkouška na navazující magisterské studium 2014

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

4EK211 Základy ekonometrie

RNDr. Martin Branda, Ph.D.

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Modely selektivní interakce a jejich aplikace

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Implementace Bayesova kasifikátoru

Měření závislosti statistických dat

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

6.1 Normální (Gaussovo) rozdělení

15. T e s t o v á n í h y p o t é z

Statistická analýza jednorozměrných dat

Transkript:

1/30 31.3.2006 Seminář z aktuárských věd Slides by LATEX Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení

2/30 Obsah 1 Zobecněné lineární modely (GLZ 1 ) Obecný lineární model (GLM) Rozdělení exponenciálního typu MLE Testování hypotéz Příklady 2 Použití v povinném ručení BMS Sazby Komplexní model 3 Poznámky k software 1 Zkratka používaná SW StatSoft Statistica

Modelování 3/30 Model Vysvětlovaná proměnná = systematická složka + stochastická složka y 1,..., y n pozorování vysvětlované proměnné y i je realizací náhodné veličiny Y i Obecný lineární model Y i N(µ i, σ 2 ) µ i = x iβ p vysvětlujích proměnných β = (β 1,..., β p ) i té pozorování x i = (x i1,..., x ip )

Modelování 4/30 Zobecněný lineární model Obecný model zobecníme ve dvou krocích: (µ i je nadále střední hodnotou n. v. Y i a β jsou vysvětlující parametry) ❶ Stochastickou složku: Y i má rozdělení exponenciálního typu ❷ Systematickou složku: lineární vztah mezi vysvětlujícími proměnnými a vysvětlujícími parametry η i = x iβ spojovací funkce (link) mezi střední hodnotou µ i a lineární složkou η i g(µ i ) = η i (ryze monotónní, se spoj. druhou derivací) Model může obsahovat jak spojité tak kategoriální vysvětlující proměnné

5/30 Rozdělení exponenciálního typu Obecná forma f(y, θ) = exp (d(θ)e(y) + g(θ) + h(y)) Přirozená forma ( yθ b(θ) f(y, θ, ϕ) = exp a(ϕ) ) + c(y, ϕ) d(θ) = θ a e(y) = y, navíc parametr ϕ θ je přirozený (kanonický) parametr ϕ je rozptylový (disperzní) parametr

Rozdělení exponenciálního typu 6/30 Disperzní funkce a(ϕ): Používá se konstantní rovna ϕ nebo ve tvaru a i (ϕ) = ϕ/w i Kumulantová funkce b(θ): se spojitou druhou derivaci κ r = b (r) (θ)a(ϕ) r 1 E [Y ] = b (θ) = µ Var [Y ] = b (θ)a(ϕ) = V (µ)a(ϕ) κ(1) je střední hodnota a κ(2), κ(3) další dva centrální momenty Rozdělení je plně určeno vztahem mezi E [Y ] a Var Y. V (µ) = 1 Normální V (µ) = µ 2 Gamma V (µ) = µ Poissonovo V (µ) = µ 3 Inverzní Gaussovo Doplňková funkce c(y, ϕ) normuje hustotu

Rozdělení exponenciálního typu 7/30 Měření tailu Míra rizika (hazard rate) na intervalu pevné šířky w h w (y) = F (y+w) F (y) 1 F (y) Interpretace: Uvažujme vrstvu w xs y. h w (y) = P(y<Y y+w) P(Y >y)) h w je prst., že škoda nepřesáhne y + w, pokud už přesáhla y. Vysoká hodnota h w znamená, že škoda nad y vyčerpá tuto vrstvu jen s malou prstí. = lehký tail. Pro většinu aplikací v pojišťovnictví uvažujeme klesající míru rizika. h w (y) 0 pro y. Normální a Poissonovo mají limitu 1 Negativně binomické, Gamma a Inverzní Gaussovo jdou ke konstantě mezi 0 a 1 Logaritmicko normální jde k nule, ale není z exp. rodiny s hustotou v přirozeném tvaru Exp. rodina rozdělení je méně vhodná pro odvětví s těžším tailem. transformace logaritmem a pak GLM není totéž jako GLZ s logaritmickou linkovací funkcí je rozdíl mezi transformací y i a transformací střední hodnoty

8/30 Odhad β metodou maximální věrohodnosti Logaritmická věrohodnostní funkce n ( Yi θ i b(θ) l(β) = a(ϕ) Derivace l β = n i=1 i=1 l θ i θ i µ i µ i η i η i β = i=1 ) + c(y i, ϕ) n 1 a i (ϕ) (Y 1 i µ i ) V (µ i )g (µ i ) x i = 0 Kanonický link: spojovací funkce je inverzní funkcí k b, potom můžeme zjednodušit na soustavu nelineárních rovnic n (Y i µ i )x i = 0 i=1 Řeší se různými iteračními metodami

MLE β 9/30 Iteračně vážená metoda nejmenších čtverců (IWLS, IRLS) ˆβ je předchozí odhad β, dopočteme ˆη i = x i ˆβ a ˆµ i = g 1 (ˆη i ) spočteme pracovní závislou proměnnou z i = ˆη i + (y i ˆµ i ) dη i dµ i vypočteme iteraci vah (začínáme s w i ze vztahu a i (ϕ) = ϕ/w i ) w new i nakonec dostaneme nový odhad β = w i /[b (θ i )( dη i dµ i ) 2 ] ˆβ = (X W X) 1 XW z Jako výchozí aproximace se volí ˆµ i = y i

10/30 Míry dobré shody Plný (saturovaný) model maximalizuje věrhodnostní funkci (l ) V saturovaném modelu máme ˆµ i = y i a ˆθ i = (b ) 1 (y i ) škálovatelná deviance (log věr. fce modelu vs. její max hodnota) ( ) n D (ˆβ) = 2 l 1 ( l(ˆβ) = 2 y i (ˆθ i a i (ϕ) ˆθ ) ( )) b(ˆθ i ) b(ˆθ) deviance (při a i (ϕ) = ϕ/w i ) n D(ˆβ) = D (ˆβ)ϕ = 2 Pearsonovo χ 2 i=1 i=1 ( w i y i (ˆθ i ˆθ ) ( )) b(ˆθ i ) b(ˆθ) (pozorování vs. odhadem jejich střední hod. v modelu) n χ 2 (y i ˆµ i ) 2 = V (ˆµ i ) i=1

Míry dobré shody 11/30 Testování podmodelu Označme β odhad β v podmodelu s p < p parametry l(ˆβ) l( β) = D (ˆβ) D ( β) = D( ˆβ) D ( β) ϕ as χ 2 q, kde q = p p je rozdíl v počtu parametrů, při známém ϕ Waldův test I(β) = X W X/ϕ ˆβ as N p (β, (X W X) 1 ϕ) Testy podmnožin β jsou založeny na příslušných marginálních rozděleních konzistentní statistika pro odhad parametru ϕ ˆϕ = D(ˆβ) n p

12/30 Příklady GLZ Obecný lineární model, Normální rozdělení, identita Log lineární model, Poissonovo rozdělení, logaritmus Gamma regrese, Gamma rozdělení, reciprocita Logistický model, Binomické rozdělení, logitová funkce Další rozdělení: Inverzní Gaussovo Negativně binomické overdispersed Poissonovo rozdělení Logaritmicko normální NE, jen v obecné formě Další modely: probitový model, log log model

Příklady GLZ 13/30 Obecný lineární model Normální rozdělení Y i N(µ i, σ 2 ): f(y i ) = 1 2πσ 2 exp Přirozený parametr θ i = µ i a rozptylová funkce V (µ i ) = 1 ( (y i µ i ) 2 2σ 2 ) a(ϕ) = ϕ = σ 2 b(θ i ) = µ 2 /2 c(y i, ϕ) = y2 2σ 2 1 2 log(2πσ2 ) kanonický link: µ i = η i IWLS: z i = η i + (y i µ i ) = y i ˆβ = (X X) 1 X y výsledek v prvním kroku deviance je reziduální součet čtverců D = ϕd = n (y i ˆµ i ) 2 i=1

Příklady GLZ 14/30 Log lineární model Poissonovo rozdělení Y i P o(µ i ): f(y i ) = e µ iµ y i i y i! Přirozený parametr θ i = log µ i a rozptylová funkce V (µ i ) = µ i a(ϕ) = ϕ = 1 b(θ i ) = e θ i c(y i, ϕ) = log(y i!) kanonický link: η i = log(µ i ) IWLS: z i = η i + (y i µ i )/µ i a iterované váhy w i = µ i deviance Y i P o( µ i ) D = 2 n i=1 D = 2 ( y i log y ) i (y i ˆµ i ) ˆµ i n i=1 ( y i log y ) i ˆµ i

15/30 Použití GLZ v povinném ručení BMS Sazby Komplexní model

16/30 Model v povinném ručení Y je modelovaná kvantita (výše škody, agregace, počet), závisí na X = {X 1, X 2,...}, apriorní tarifní proměnné - grupování rizik Z = {Z 1, Z 2,...}, neznámé proměnné Rizikové faktory pojistníka jsou Ω = X Z. Pojistné E [Y Ω] Nese pojistník Nese pojistitel Riziko E [Y Ω] Y E [Y Ω] Střední hodnota EY 0 Rozptyl Var [E [Y Ω]] E [Var [Y Ω]] Předchozí situace je čistě teoretická, neboť neznáme Z. Riziko E [Y X] Y E [Y X] Střední hodnota E [Y ] 0 Rozptyl Var [E [Y X]] E [Var [Y X]]

Model v povinném ručení 17/30 Aposteriorní sazbování Minulá škodní zkušenosti o riziku Y, označme Y Ω a (X, Y ) s stávají porovnatelné, jak čas běží Potom máme pojistné E [Y X, Y ] Možnosti konstrukce modelu: 1 Uvažujeme klasifikaci rizika a BMS odděleně 2 Uvažujeme komplexní model klasifikující riziko a zahrnující BMS Příklad: Španělská pojišťovna 4 x 3 tříd

Oddělené modely 18/30 Systém bonus-malus (BMS) Riziko i je reprezentováno (Θ i, K i1, K i2,...) Počty škod v čase K ij Θ i = θ P o(θ) a podmíněně nezávislé Θ i Γ(a, τ) (K ij má nepodmíněné rozdělení negativně binomické) Označme K i (t) = t K ij j=1 Uvažujme jednotkovou očekávanou výši škody Apriori bez historie je požadováno pojistné E [Θ i ] Pojistné určíme minimalizací E [L(θ i Ψ(k i1,..., k it ))] L(x) = x 2 W q t+1 = a(1 ρ τ q) + k i (t) ρ t q L(x) = exp( cx) Wt+1 e = a(1 ρ τ e(c)) + k i (t) ρ t e (c) kde ρ q = t a ρ τ+t e(c) = t log ( ) 1 + c c τ+t

Oddělené modely BMS 19/30 L(x) = x 2 W q t+1 = a(1 ρ τ q) + k i (t) ρ t q L(x) = exp( cx) Wt+1 e = a(1 ρ τ e(c)) + k i (t) ρ t e (c) ρ q = t ρ τ+t e (c) = t log ( ) 1 + c c τ+t ρ e (c) ρ q a W e t+1 W q t+1 při c 0 ρ e (c) 0 pro c, proto W e t+1 a/τ Pojistné rizika i, které je v roce t zařazeno v třídě I i (t) P q,e t+1(k i (t), t) = BP Ii (t+1)bmf q,e t+1(k i (t), t), BMF q (k i (t), t) = W q t+1 E[Θ] i BMF e (k i (t), t) = W q t+1 E[Θ] i = a+k i (t) τ τ+t a = 1 t c log ( 1 + c τ+t ) + log ( 1 + c τ+t ) ki (t) τ c a

Oddělené modely BMS 20/30 Výsledky: BMS - odhady v Negativně binomickém rozdělení â = 0.8665 a ˆτ = 3.9097 k n k ˆn k n k ˆn k 0 122 628 122 713-85 1 21 686 21 656 30 2 4 014 4 116-102 3 832 801 31 4 224 158 66 5 68 31 37 6 17 6 11 7 7 1 6 8 7 0 7 9 0 0 0

Oddělené modely apriorní sazby 21/30 Pozorované ŠF Věk Výkon 35 35 < 49 50 53 0.1866 0.1572 0.1283 53 < 75 0.2685 0.2279 0.1986 75 < 118 0.2992 0.2526 0.2386 118 0.3217 0.2846 0.2483 Kategorické proměnné pro věk J 2, J 3 a pro výkon L 2, L 3, L 4 Každá třída je reprezentována vektorem x i = (1, j 2, j 3, l 2, l 3, l 4 ) Parametry β = (ɛ, γ 2, γ 3, δ 2, δ 3, δ 4 ) Log lineární model, Poissonovo rozdělení, logaritmický link

Oddělené modely apriorní sazby 22/30 Výsledky: Parametr Odhad sm. odch. ɛ -1.7219 0.0198 γ 2-0.1634 0.0147 γ 3-0.2800 0.0149 δ 2 0.3987 0.0185 δ 3 0.5324 0.0189 δ 4 0.6150 0.0236 Věk Výkon 35 35 < 49 50 53 0.1787 0.1518 0.1351 53 < 75 0.2663 0.2262 0.2013 75 < 118 0.3044 0.2585 0.2300 118 0.3306 0.2808 0.2498

23/30

24/30

25/30 Komplexní model Nechť je K it P o(λ Ii (t)) počet škod rizika i v roce t, kde I i (t) je příslušný index třídy a λ Ii (t) jsou jejich ŠF Rozptyl pozorování je však větší než střední hodnota, předpoklad Poissona není korektní Raději předpokládáme K it P o(λ Ii (t)θ i ), kde Θ i Γ(α, α) Potom K it I i (t) má negativně binomické rozdělení ( ) ( ) k ( α + k 1 λii(t) α P (K it = k I i (t)) = k α + λ Ii(t) α + λ Ii(t) Θ i K i1 = k i1,..., K it = k it Γ(α + k i (t), α + λ i (t)) Parametr α odhadneme metodou maximální věrohodnosti { 12 k max (i) ( ) ( ) k ( ) } α nik α + k 1 λii(t) α L(α) = k α + λ Ii(t) α + λ Ii(t) i=1 k=0 ) α

Komplexní model 26/30 Pojistné Relativní výše bunusu malusu P q,e t+1 = λ Ii (t+1)bmf q,e t+1(k i (t), λ i (t)) BMF q,e t+1(k i (t), t) = (1 ρ q,e ) + ρ q,e k i (t) λ i (t) Váhy pro kvadratickou a exponenciální ztrátovou funkci ( ) ρ q = λ i (t) α+λ i ρ (t) e (c) = λ i (t) log 1 + c c α+λ i (t) Nerovnosti a konvergence stejně jako v oddělených modelech ρ e (c) ρ q ρ e (c) ρ q pro c 0 a tedy Pt+1(k e i, λ i (t)) Pt+1(k q i, λ i (t)) ρ e (c) 0 pro c, proto Pt+1(k e i, λ i (t)) λ Ii (t), to znamená, že všechna rizika jedné třídy platí stejné pojistné, tj. nemáme BMS

27/30

28/30

29/30 Poznámky k SW Statistica sigma parametrizace { 1, 1} váhy pozorování konstrukce modelu Statistica ukázka

30/30 Literatura L. Bermúdez, M. Denuit & J. Dhaene (2001) Exponential bonus-malus systems integrating a priori risk classification. Journal of Actuarial Practice 9, 84-112. Děkuji za pozornost