Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Podobné dokumenty
Lineární a logistická regrese

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení Seminář z aktuárských věd. Slides by LATEX.

RNDr. Martin Branda, Ph.D.

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

AVDAT Klasický lineární model, metoda nejmenších

Testování hypotéz o parametrech regresního modelu

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

Testování hypotéz o parametrech regresního modelu

odpovídá jedna a jen jedna hodnota jiných

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Základy teorie odhadu parametrů bodový odhad

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

7. Analýza rozptylu.

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Odhady Parametrů Lineární Regrese

8 Coxův model proporcionálních rizik I

Matematické přístupy k pojištění automobilů. Silvie Kafková září 2013, Podlesí

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Úvodem Dříve les než stromy 3 Operace s maticemi

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Aplikovaná statistika v R - cvičení 3

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Cvičení 12: Binární logistická regrese

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

LWS při heteroskedasticitě

Regresní analýza 1. Regresní analýza

AVDAT Nelineární regresní model

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

y = 0, ,19716x.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Bodové a intervalové odhady parametrů v regresním modelu

7 Regresní modely v analýze přežití

MATEMATICKÁ STATISTIKA

Tomáš Karel LS 2012/2013

Odhad parametrů N(µ, σ 2 )

STATISTICKÁ KLASIFIKACE POMOCÍ ZOBECNĚNÝCH

KVADRATICKÁ KALIBRACE

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Přijímací zkouška na navazující magisterské studium 2014

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Téma 22. Ondřej Nývlt

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Základy lineární regrese

Statistika II. Jiří Neubauer

5. B o d o v é o d h a d y p a r a m e t r ů

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

15. T e s t o v á n í h y p o t é z

AVDAT Mnohorozměrné metody, metody klasifikace

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Apriorní rozdělení. Jan Kracík.

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ. Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková

Odhad parametrů N(µ, σ 2 )

Inovace bakalářského studijního oboru Aplikovaná chemie

DIPLOMOVÁ PRÁCE. Aplikovaná logistická regrese

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

oddělení Inteligentní Datové Analýzy (IDA)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pojem endogenity a exogenity

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Radka Picková Transformace náhodných veličin

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

15. T e s t o v á n í h y p o t é z

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

3 Bodové odhady a jejich vlastnosti

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

PRAVDĚPODOBNOST A STATISTIKA

Charakterizace rozdělení

Pravděpodobnost a aplikovaná statistika

Bootstrap - konfidenční intervaly a testy

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Přijímací zkouška na navazující magisterské studium 2017

Vlastnosti odhadů ukazatelů způsobilosti

Kontingenční tabulky, korelační koeficienty

Testování statistických hypotéz

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

UNIVERZITA PALACKÉHO V OLOMOUCI. s aplikací ve výzkumu HIV

Definice spojité náhodné veličiny zjednodušená verze

5. T e s t o v á n í h y p o t é z

UNIVERZITA PARDUBICE

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Transkript:

Zobecněné lineární modely v pojišťovnictví Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Seminář z aktuárských věd 2012 M.Branda (KPMS MFF UK) GLM 2012 1 / 125

http://artax.karlin.mff.cuni.cz/ branm1am M.Branda (KPMS MFF UK) GLM 2012 2 / 125

Obsah 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 3 / 125

Obsah Úvod 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 4 / 125

Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125

Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125

Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125

Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125

Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM 2012 5 / 125

Software Úvod SAS: GENMOD Statistica: Generalized Linear Models (GLZ) IBM SPSS: GENLIN (ne GLM!!!) Mathematica: GeneralizedLinearModelFit R: glm... M.Branda (KPMS MFF UK) GLM 2012 6 / 125

Reference Úvod M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, 2007. P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, 1989. P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press 2008. K. Zvára: Regrese. Matfyzpress, Praha, 2008. Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) GLM 2012 7 / 125

Data-mining Úvod Data-mining (Datamining, Data mining) - získávání netriviálních skrytých a potenciálně užitečných informací z dat. M.Branda (KPMS MFF UK) GLM 2012 8 / 125

Obsah Data a lineární regrese 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 9 / 125

Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM 2012 10 / 125

Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM 2012 10 / 125

Předpoklady Data a lineární regrese Data Rozdělení Y i závisí na x i. Pozorování (Y i, x i ) jsou nezávislá. Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat. M.Branda (KPMS MFF UK) GLM 2012 11 / 125

Data a lineární regrese Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 0 muž 1 205 321 44 1 žena 20 893 35 0 žena 580 51....... M.Branda (KPMS MFF UK) GLM 2012 12 / 125

Data Bez absolutního členu Data a lineární regrese Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města 2 0 1 0 1 0 21 0 0 1 1 0 0 44 1 1 0 0 1 0 35 0 1 0 0 0 1 51.......... M.Branda (KPMS MFF UK) GLM 2012 13 / 125

Data S absolutním členem Data a lineární regrese Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 0 1 0 1 0 44 1 1 1 0 1 35 0 1 1 0 0 51... X...... M.Branda (KPMS MFF UK) GLM 2012 14 / 125

Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města 2 1 0 0 1 21 1 0 1 0 44 1 1 0 1 0 1 1 51... X...... M.Branda (KPMS MFF UK) GLM 2012 15 / 125

Data a lineární regrese Data - chybějící hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21 muž 1 205 321 44 1 20 893 0 žena 51....... M.Branda (KPMS MFF UK) GLM 2012 16 / 125

Data a lineární regrese Data - chybné hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž 15 423 21-1 muž 1 205 321 44 1 žež 20 893 138 0 žena - 112 51....... M.Branda (KPMS MFF UK) GLM 2012 17 / 125

Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM 2012 18 / 125

Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM 2012 18 / 125

Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá missing (v letech) města města 2 1 0 0 1 0 21 1 0 1 0 0 44 1 1 1 0 1 0 38.43 0 1 1 0 0 1 51.... X... M.Branda (KPMS MFF UK) GLM 2012 19 / 125

Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM 2012 20 / 125

Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM 2012 20 / 125

Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM 2012 21 / 125

Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM 2012 21 / 125

Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125

Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125

Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM 2012 22 / 125

Lineární regrese Aitkenův model Data a lineární regrese Vážené nejmenší čtverce Nechť var ɛ = Wσ 2, kde W je obecná pozitivně definitní matice, tj. chyby nemusí být nezávislé se stejným rozptylem. Pomocí rozkladu W 1 = C T C, kde C je regulární odmocninová matice přepíšeme model CY = CXβ + Cɛ odpovídá předešlému modelu lineární regrese s nezávislými chybami. M.Branda (KPMS MFF UK) GLM 2012 23 / 125

Lineární regrese Vážené nejmenší čtverce Data a lineární regrese Vážené nejmenší čtverce Odhad β je v tomto případě řešením soustavy normálních rovnic X T W 1 Xβ = X T W 1 Y. Tedy dostaneme odhad parametrů ˆβ = (X T W 1 X) 1 X T W 1 Y, kde ˆβ (β, σ 2 (X T W 1 X) 1 ). (Další odhady získáme analogicky.) M.Branda (KPMS MFF UK) GLM 2012 24 / 125

Obsah Zobecněné lineární modely 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 25 / 125

Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125

Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125

Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM 2012 26 / 125

Zobecněné lineární modely Srovnání regresních modelů Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 27 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM 2012 28 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM 2012 28 / 125

Zobecněné lineární modely Pozor na parametrizaci Rodina exponenciálních rozdělení V literatuře se objevují běžně různé parametrizace, pro známé funkce a, b, c, resp. c, a neznámé parametry θ, φ: { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ) a(φ) nebo nebo { } yθ b(θ) f (y; θ, ϕ) = exp + c(y, ϕ) ϕ { } yθ b(θ) f (y; θ, φ) = exp c(y, φ). a(φ) Poslední parametrizaci nebudeme využívat. M.Branda (KPMS MFF UK) GLM 2012 29 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Pro náhodnou veličinu Y patřící do rodiny exponenciálních rozdělení platí: Je-li b dvakrát spojitě diferencovatelná, potom E[Y ] = b (θ), var(y ) = a(φ)b (θ) = ϕb (θ). Pomocí rozptylové funkce V (µ) = b [(b ) 1 (µ)] můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) = ϕv (µ). M.Branda (KPMS MFF UK) GLM 2012 30 / 125

Střední hodnota Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro parciální derivaci platí f (y; θ, φ) θ = f (y; θ, φ) y b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) f (y; θ, φ) 0 = dy θ = f (y; θ, φ)dy θ = EY b (θ). a(φ) M.Branda (KPMS MFF UK) GLM 2012 31 / 125

Rozptyl Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro druhou parciální derivaci platí 2 f (y; θ, φ) θ 2 = f (y; θ, φ) ( y b (θ) a(φ) ) 2 b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) 2 f (y; θ, φ) 0 = θ 2 dy = 2 θ 2 f (y; θ, φ)dy = E[(Y b (θ)) 2 ] (a(φ)) 2 b (θ) a(φ). M.Branda (KPMS MFF UK) GLM 2012 32 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM 2012 33 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM 2012 33 / 125

Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM 2012 34 / 125

Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ 2 1 2 log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM 2012 34 / 125

Normální rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení N(0,1), N(0,2), N(0,4) 0.4 0.3 0.2 0.1 15 M.Branda (KPMS MFF UK) GLM 2012 35 / 125

Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM 2012 36 / 125

Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM 2012 36 / 125

Gamma rozdělení Parametrizace v SASu Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(µ, ν): Pro 0 < y < f (y; µ, ν) = 1 Γ(ν)y ( ) yν ν { exp yν }, µ µ kde a = ν/µ a p = ν, ϕ = ν 1, var(y ) = µ 2 /ν M.Branda (KPMS MFF UK) GLM 2012 37 / 125

Gamma rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Gamma(2,2), Gamma(4,2), Gamma(6,2) 0.15 0.10 0.05 M.Branda (KPMS MFF UK) GLM 2012 38 / 125

Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM 2012 39 / 125

Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y + 1 2 log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y + 1 2 log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM 2012 39 / 125

Zobecněné lineární modely Inverzní Gaussovo rozdělení Hustoty Rodina exponenciálních rozdělení IG(5,1), IG(5,5), IG(5,30) 0.5 0.4 0.3 0.2 0.1 M.Branda (KPMS MFF UK) GLM 2012 40 / 125

Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM 2012 41 / 125

Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM 2012 41 / 125

Poissonovo rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Po(3), Po(10), Po(20) 0.20 0.15 0.10 0.05 M.Branda (KPMS MFF UK) GLM 2012 42 / 125

Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM 2012 43 / 125

Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM 2012 43 / 125

Zobecněné lineární modely Rodina exponenciálních rozdělení e θ 1+e θ 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 44 / 125

Přehled rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ 1 1 1 µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM 2012 45 / 125

Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 46 / 125

Linkové funkce Zobecněné lineární modely Rodina exponenciálních rozdělení identita: g(µ) = µ logaritmus: g(µ) = log(µ) logit: g(µ) = log(µ/(1 µ)) probit: g(µ) = Φ 1 (µ), kde Φ je distribuční funkce standardního normálního rozdělení log-log: g(µ) = log( log(µ)) komplementární log-log: g(µ) = log( log(1 µ)) mocninný: g(µ) = µ p pro p 0 (pro p = 0 logaritmický) M.Branda (KPMS MFF UK) GLM 2012 47 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 48 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Probit (červená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 49 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 50 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 51 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Log-log (zelená čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 52 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná), log-log (zelená čárkovaná) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 53 / 125

Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená), kompl. (oranžová), log-log (zelená) 0.8 0.6 0.4 0.2 M.Branda (KPMS MFF UK) GLM 2012 54 / 125

Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 55 / 125

Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM 2012 56 / 125

Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM 2012 56 / 125

Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy Zobecněné lineární modely 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ) ϕ pro známé funkce b, c a neznámé parametry θ i, ϕ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (5) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (4) E[Y i ] = µ i = g 1 (η i ). (6) M.Branda (KPMS MFF UK) GLM 2012 57 / 125

Zobecněné lineární modely Srovnání regresních modelů Zobecněné lineární modely Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM 2012 58 / 125

Zobecněné lineární modely Zobecněné lineární modely Přehled rozdělení exponenciální rodiny Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ 1 1 1 µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM 2012 59 / 125

Parametrizace Zobecněné lineární modely Zobecněné lineární modely η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) Kanonický link splňuje g(µ) = θ, tedy musí platit g(µ) = (b ) 1 (µ) a také g (µ) = 1 V (µ). M.Branda (KPMS MFF UK) GLM 2012 60 / 125

Offset Zobecněné lineární modely Zobecněné lineární modely Offset Člen v lineárním prediktoru s pevně daným koeficientem. Korekce modelu s ohledem na expozici v riziku (počet rizik, délka platnosti smlouvy). Například pro expozici n i i tého řádku a logaritmický link položíme η i = ln n i + x iβ. (7) M.Branda (KPMS MFF UK) GLM 2012 61 / 125

Váhy pozorování Zobecněné lineární modely Zobecněné lineární modely Při zahrnutí apriorních vah pozorování w platí E[Y ] = b (θ), var(y ) = a(φ)b (θ) w = ϕb (θ) w. Pomocí rozptylové funkce můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) w = ϕv (µ) w. Využití: Modelování průměrné výše škody (w = počet škod) nebo škodní frekvence (w = délka expozice). M.Branda (KPMS MFF UK) GLM 2012 62 / 125

Odhad parametrů Metoda maximální věrohodnosti Zobecněné lineární modely Odhad parametrů Y i f (y; θ i, ϕ), kde hustota závisí na prediktorech skrze vztah θ i = (b ) 1 (g 1 (x iβ)). Věrohodnostní funkce L(Y; β, ϕ) = a logaritmická věrohodnostní funkce n f (Y i ; θ i, ϕ) i=1 l(y; β, ϕ) = = n log(f (Y i ; θ i, ϕ)) i=1 n i=1 Y i θ i b(θ i ) ϕ + c(y i, ϕ). M.Branda (KPMS MFF UK) GLM 2012 63 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů l β j = n i=1 f θ i θ i µ i µ i η i η i β j = n i=1 (Y i µ i )X ij g (µ i )ϕv (µ i ), kde f = Y i b (θ i ) = Y i µ i, θ i ϕ ϕ θ i 1 = µ i b (θ i ) = 1 V (µ i ), µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 64 / 125

Parametrizace Zobecněné lineární modely Odhad parametrů η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) M.Branda (KPMS MFF UK) GLM 2012 65 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Často se využívá následující tvar l β j = n i=1 l µ i µ i β j = n i=1 (Y i µ i ) ϕv (µ i ) ( µi β j ). M.Branda (KPMS MFF UK) GLM 2012 66 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Definujeme-li váhy pak w(µ i ) = 1 [g (µ i )] 2 V (µ i ), l β j = 1 ϕ Taylorův rozvoj prvního řádu n w(µ i )g (µ i )(Y i µ i )X ij = 0 i=1 g(y i ) g(µ i ) + g (µ i )(Y i µ i ) g(y i ) x iβ g (µ i )(Y i µ i ) n w(µ i )g(y i )X ij i=1 n w(µ i )x iβx ij i=1 M.Branda (KPMS MFF UK) GLM 2012 67 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Maticový zápis Odhad parametrů Nechť W = diag{([g (µ i )] 2 V (µ i )) 1 }, G = diag{g (µ i )}, potom můžeme přepsat rovnost parciálních derivací 0 kde můžeme využít Taylorův rozvoj a přepsat rovnost přibližně jako X WG(Y µ) = 0, G(Y µ) g(y) Xβ (X WX)β X Wg(Y). Dostaneme tak odhad parametrů splňující ˆβ = (X ŴX) 1 X ŴẐ, kde Ẑ bývá nazýváno linearizovaná odezva. M.Branda (KPMS MFF UK) GLM 2012 68 / 125

Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM 2012 69 / 125,

Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM 2012 69 / 125,

Zobecněné lineární modely Derivace věrohodnostní funkce Kanonický link Pro kanonický link dochází ke zjednodušení tedy w(µ i ) = Odhad parametrů 1 [g (µ i )] 2 V (µ i ) = V (µ i) = 1 g (µ i ), l β j = 1 ϕ což můžeme přepsat maticově n (Y i µ i )X ij = 0, i=1 X (Y µ) = 0. nebo po složkách n Y i X ij = i=1 n µ i X ij = i=1 n g 1 (x iβ)x ij. i=1 M.Branda (KPMS MFF UK) GLM 2012 70 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 71 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM 2012 71 / 125

Zobecněné lineární modely Derivace věrohodnostní funkce Hessova matice Odhad parametrů Definujeme-li diagonální matici { 1 V = diag (g (µ i )) 2 ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V } (µ i ) (g (µ i )) 3 ϕ(v (µ i )) 2 můžeme Hessovu matici zapsat ve tvaru (odpovídající empirické informační matici) H = X VX. M.Branda (KPMS MFF UK) GLM 2012 72 / 125

Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM 2012 73 / 125

Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM 2012 73 / 125

Konfidenční interval Zobecněné lineární modely Odhad parametrů Konfidenční intervaly jsou založeny na asymptotické normalitě odhadu parametrů n( ˆβ β) d N(0, ϕ(x WX) 1 ): g(y l ) = x ˆβ z ˆϕx (X ŴX) 1 x, g(y u ) = x ˆβ + z ˆϕx (X ŴX) 1 x, kde z je příslušný kvantil standardního normálního rozdělení a x je vektor regresorů. M.Branda (KPMS MFF UK) GLM 2012 74 / 125

Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM 2012 75 / 125

Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM 2012 75 / 125

Kvalita modelu Saturovaný model Zobecněné lineární modely Odhad parametrů Saturovaný model = počet parametrů je roven počtu pozorování 2 a platí ˆµ i = Y i, ˆθ i = (b ) 1 (Y i ). Věrohodnost saturovaného modelu = největší dosažitelná věrohodnost pro daná data l (Y) = n i=1 Y i ˆθ i b(ˆθ i ) ϕ + c(y i, ϕ) 2 Obecně pro model neplatí vlastnosti ML odhadů. M.Branda (KPMS MFF UK) GLM 2012 76 / 125

Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM 2012 77 / 125

Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM 2012 77 / 125

Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM 2012 78 / 125

Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM 2012 78 / 125

Zobecněné lineární modely Odhad disperzního parametru Odhad parametrů Vhodné vlastnosti má Pearsonův odhad ve tvaru ˆϕ = 1 n m n i=1 (Y i ˆµ i ) 2, V (ˆµ i ) kdy za vĺıdných předpokladů ˆϕ P ϕ. Využívá se taky odhad založený na devianci ˆϕ = D(Y, ˆβ) n m. M.Branda (KPMS MFF UK) GLM 2012 79 / 125

Zobecněné lineární modely Akaikeho informační kritérium Odhad parametrů Akaikeho informační kritérium slouží pro porovnání modelů AIC = 2(l(Y; ˆβ, ˆϕ) m). Preferujeme model s minimální hodnotou AIC. M.Branda (KPMS MFF UK) GLM 2012 80 / 125

Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM 2012 81 / 125

Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM 2012 81 / 125

Obsah Příklady zobecněných lineárních modelů 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM 2012 82 / 125

Data Příklady zobecněných lineárních modelů 50 000 smluv povinného ručení (pojištění odpovědnosti z provozu motorového vozidla) Simulovaná dle mírně upravených reálných charakteristik Závisle proměnné: počet a výše škod za poslední rok, příznak storna Nezávisle proměnné: tarifní skupina dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka spojité (veks): 18-75 let stáří pojistníka (vek): 3 kategorie (18-30, 30-65, 65 a více) velikosti místa bydliště (region): 4 kategorie (nad 500 000, nad 50 000, nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM 2012 83 / 125

Příklady zobecněných lineárních modelů Postup konstrukce zobecněného lineárního modelu 1 Vyberte rozdělení 2 Vyberte link 3 Vyberte nezávisle proměnné 4 Odhadněte parametry 5 Posuďte kvalitu modelu 6 Iterujte od vhodného kroku M.Branda (KPMS MFF UK) GLM 2012 84 / 125

Příklady zobecněných lineárních modelů Lineární regrese Závisle proměnná: spojitá Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Využití (v pojišťovnictví):? M.Branda (KPMS MFF UK) GLM 2012 85 / 125

Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (log-lineární model) Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM 2012 86 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Regresní model počtu pojistných událostí Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM 2012 87 / 125

Syntax v SASu Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí M.Branda (KPMS MFF UK) GLM 2012 88 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 18582.5892 0.3717 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 50208.1517 1.0043 Log verohodnost -12571.1203 M.Branda (KPMS MFF UK) GLM 2012 89 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 1.0000 0.0000 1.0000 1.0000 M.Branda (KPMS MFF UK) GLM 2012 90 / 125

Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, 9646 + 0, 5700 0, 2278 = 2, 6224 µ = exp{ 2, 9646 + 0, 5700 0, 2278} = exp{ 2, 6224} = 0, 0516 1, 7683 0, 7963 = 0, 0726. Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) GLM 2012 91 / 125

Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, 9646 + 0, 5700 0, 2278 = 2, 6224 µ = exp{ 2, 9646 + 0, 5700 0, 2278} = exp{ 2, 6224} = 0, 0516 1, 7683 0, 7963 = 0, 0726. Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, 93 10 5 P(Y = 4) = 1, 07 10 6... M.Branda (KPMS MFF UK) GLM 2012 91 / 125

Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) GLM 2012 92 / 125

Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 9646 + 0, 5700 + 0 = 2, 3946 µ = exp{ 2, 9646 + 0, 5700 + 0} = exp{ 2, 3946} = 0, 0516 1, 7683 1 = 0, 0912. TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, 7284 + 0, 5700 + 0 = 2, 1584 µ = exp{ 2, 7284 + 0, 5700 + 0} = exp{ 2, 1584} = 0, 0653 1, 7683 1 = 0, 1155. M.Branda (KPMS MFF UK) GLM 2012 92 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS 18822.1599 vek 18627.2006 2 194.96 <.0001 pohlavi 18582.5892 1 44.61 <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM 2012 93 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF Chí-kvadrát Pr > ChíKv TS 4 34.98 <.0001 vek 2 194.41 <.0001 pohlavi 1 44.61 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM 2012 94 / 125

Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125

Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125

Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM 2012 95 / 125

Příklady zobecněných lineárních modelů Poissonův model s E var Overdispersed Poissonův model Regresní model počtu pojistných událostí Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i O Po(λ i, ϕ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ (0, ) Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM 2012 96 / 125

Příklady zobecněných lineárních modelů Kvazi-věrohodnost Quasi-likelihood Regresní model počtu pojistných událostí Parciální derivace ql β j = n i=1 Y i µ i ϕv (µ i ) ( ) µi β j odpovídají kvazi-(logaritmické-)věrohodnostní funkci pro obecnou rozptylovou funkci V a disperzní parametr ϕ ql = n i=1 µi Y i Y i t ϕv (t) dt. Využívá se i pro binomické, resp. alternativní rozdělení. M.Branda (KPMS MFF UK) GLM 2012 97 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18582.5892 0.3717 Scaled Deviance 5E4 49992.0000 1.0000 Pearsonuv Chí-kvad 5E4 50208.1517 1.0043 Scaled Pearson X2 5E4 135072.9917 2.7019 Log verohodnos -33819.5845 M.Branda (KPMS MFF UK) GLM 2012 98 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int 0 0.0000 0.0000 0.0000 0.0000.. TS 1 1-2.9646 0.0521-3.0666-2.8625 3243.56 <.0001 TS 2 1-2.9421 0.0517-3.0435-2.8407 3235.33 <.0001 TS 3 1-2.9016 0.0512-3.0019-2.8013 3216.13 <.0001 TS 4 1-2.7451 0.0490-2.8411-2.6491 3141.87 <.0001 TS 5 1-2.7284 0.0488-2.8240-2.6329 3131.40 <.0001 vek 1 1 0.5700 0.0426 0.4865 0.6535 178.95 <.0001 vek 2 1 0.2183 0.0456 0.1289 0.3076 22.94 <.0001 vek 3 0 0.0000 0.0000 0.0000 0.0000.. pohlavi 1 1-0.2278 0.0342-0.2948-0.1607 44.32 <.0001 pohlavi 2 0 0.0000 0.0000 0.0000 0.0000.. Škála 0 0.6097 0.0000 0.6097 0.6097 M.Branda (KPMS MFF UK) GLM 2012 99 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Odchylka DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS 18822.1599 vek 18627.2006 2 49992 262.25 <.0001 524.49 <.0001 pohlavi 18582.5892 1 49992 120.02 <.0001 120.02 <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM 2012 100 / 125

Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS 4 49992 23.53 <.0001 94.11 <.0001 vek 2 49992 261.51 <.0001 523.02 <.0001 pohlavi 1 49992 120.02 <.0001 120.02 <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM 2012 101 / 125

Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (overdispersed, interakce) Kritéria pro hodnocení dobré shody Kritérium DF Hodnota Hodnota/DF Deviance 5E4 18572.7871 0.3715 Scaled Deviance 5E4 49990.0000 1.0000 Pearsonuv Chí-kvad 5E4 50268.9172 1.0056 Scaled Pearson X2 5E4 135302.4272 2.7066 Log verohodnos -33822.8881 M.Branda (KPMS MFF UK) GLM 2012 102 / 125