Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky

Rozměr: px
Začít zobrazení ze stránky:

Download "Martin Branda. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky"

Transkript

1 Zobecněné lineární modely v pojišťovnictví Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Seminář z aktuárských věd 2012 M.Branda (KPMS MFF UK) GLM / 125

2 branm1am M.Branda (KPMS MFF UK) GLM / 125

3 Obsah 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

4 Obsah Úvod 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

5 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

6 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

7 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

8 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

9 Úvod Aplikace zobecněných lineárních modelů v pojišťovnictví Lineární regrese:? Logistická regrese: pravděpodobnost pojistné události, storna, nákupu. Poissonovská regrese (log-lineární model): počet pojistných událostí, škodní frekvence. Gamma regrese: výše pojistné události, průměrná výše pojistné události. Analýza přežití: doba do storna, doba do (následující) pojistné události. M.Branda (KPMS MFF UK) GLM / 125

10 Software Úvod SAS: GENMOD Statistica: Generalized Linear Models (GLZ) IBM SPSS: GENLIN (ne GLM!!!) Mathematica: GeneralizedLinearModelFit R: glm... M.Branda (KPMS MFF UK) GLM / 125

11 Reference Úvod M. Denuit, X. Maréchal, S. Pitrebois, J.-F. Walhin: Actuarial Modelling of Claim Counts: Risk Classification, Credibility and Bonus-Malus Systems. John Wiley & Sons, Chichester, P. McCullagh, J.A. Nelder: Generalized Linear Models. 2nd Ed. Chapman and Hall, London, P. de Jong, G. Z. Heller: Generalized Linear Models for Insurance Data. Cambridge University Press K. Zvára: Regrese. Matfyzpress, Praha, Zápisky z přednášky Zobecněné lineární modely (NSTP196), MFF UK, přednášející Doc. Mgr. Michal Kulich, Ph.D. SAS/STAT 9.3: User s Guide. M.Branda (KPMS MFF UK) GLM / 125

12 Data-mining Úvod Data-mining (Datamining, Data mining) - získávání netriviálních skrytých a potenciálně užitečných informací z dat. M.Branda (KPMS MFF UK) GLM / 125

13 Obsah Data a lineární regrese 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

14 Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM / 125

15 Data Data a lineární regrese Data Závisle proměnná (odezva): Y = (Y 1,..., Y n ) Nezávisle proměnné (prediktory, regresory): x i = (X i1,..., X im ) X 11..., X 1m X =.. X n1..., X nm Předpokládáme, že matice má plnou sloupcovou hodnost. Kvantitativní proměnné - např. věk, počet aktivních smluv, počet najetých kilometrů,... Často jsou kategorizovány kvůli nevhodnému rozdělení, odlehlým pozorováním nebo nelineritě vztahu mezi jimi a závisle proměnnou. Kvalitativní (kategoriální) proměnné - kódovány pomocí 0-1 dummy proměnných, např. pohlaví, region (kraj, okres),... Interakce - odlišný vliv regresoru pro různé kategorie jiného kategoriálního regresoru. M.Branda (KPMS MFF UK) GLM / 125

16 Předpoklady Data a lineární regrese Data Rozdělení Y i závisí na x i. Pozorování (Y i, x i ) jsou nezávislá. Pozorování Y i jsou nezávislá a x i jsou měřené konstanty - budeme nadále uvažovat. M.Branda (KPMS MFF UK) GLM / 125

17 Data a lineární regrese Data V databázi/vytořena nad databází Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žena žena M.Branda (KPMS MFF UK) GLM / 125

18 Data Bez absolutního členu Data a lineární regrese Data Y Data Počet škod Pohlaví Region Věk žena muž velká malá venkov (v letech) města města M.Branda (KPMS MFF UK) GLM / 125

19 Data S absolutním členem Data a lineární regrese Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města X M.Branda (KPMS MFF UK) GLM / 125

20 Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá (v letech) města města X M.Branda (KPMS MFF UK) GLM / 125

21 Data a lineární regrese Data - chybějící hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žena M.Branda (KPMS MFF UK) GLM / 125

22 Data a lineární regrese Data - chybné hodnoty V databázi Data Y Data Počet škod Pohlaví Počet obyvatel Věk (v letech) 2 muž muž žež žena M.Branda (KPMS MFF UK) GLM / 125

23 Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM / 125

24 Data a lineární regrese Chybějící hodnoty v datech Data Chybějící hodnoty: V závisle proměnné - pozorování obvykle vypadnou z odhadu modelu, je však možné dopočítat očekávanou odezvu. V nezávisle proměnných Kvantitativní - nahrazení chybějících hodnot, např. průměrem nebo pomocí sofistikovanějších metod 1. Kvalitativní (kategoriální) - vytvoření speciální kategorie. 1 Klasifikační nebo regresní stromy apod. M.Branda (KPMS MFF UK) GLM / 125

25 Data a lineární regrese Data - chybějící hodnoty S absolutním členem Data Y Počet škod Abs.člen Pohlaví Region Věk žena velká malá missing (v letech) města města X... M.Branda (KPMS MFF UK) GLM / 125

26 Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM / 125

27 Lineární regrese Model Data a lineární regrese Lineární regrese Model lineární regrese Y i = m X ij β j + ε i, i = 1,..., n, j=1 kde předpokládáme 1 ε i (disturbance, chyby) jsou nezávislé, 2 Eε i = 0, 3 varε i = σ 2 > 0 (reziduální rozptyl). Maticový zápis Y = Xβ + ɛ, kde β = (β 1,..., β m ) a ɛ = (ε 1,..., ε n ). M.Branda (KPMS MFF UK) GLM / 125

28 Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM / 125

29 Lineární regrese Odhad parametrů Data a lineární regrese Lineární regrese Odhad parametrů β metodou nejmenších čtverců (LS) ˆβ = arg min β R m n (Y i i=1 m X ij β j ) 2 j=1 = arg min β R m(y XT β) T (Y X T β) = (X T X) 1 (X T Y). Odhad splňuje soustavu normálních rovnic X T Xβ = X T Y. M.Branda (KPMS MFF UK) GLM / 125

30 Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM / 125

31 Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM / 125

32 Lineární regrese Odhady Data a lineární regrese Lineární regrese Odhad parametrů je nestranný, tj. E ˆβ = β s rozptylem var ˆβ = σ 2 (X T X) 1. Vyrovnané hodnoty Ŷ = X ˆβ = X(X T X) 1 X T Y. Rezidua u = Y Ŷ = (I X(X T X) 1 X T )Y, kde I je jednotková matice rozměrů n n. Nestranný odhad σ 2 : ˆσ 2 = E[uT u] n m Za předpokladu normality ˆβ N(β, σ 2 (X T X) 1 ) a Y N(Xβ, σ 2 I ). M.Branda (KPMS MFF UK) GLM / 125

33 Lineární regrese Aitkenův model Data a lineární regrese Vážené nejmenší čtverce Nechť var ɛ = Wσ 2, kde W je obecná pozitivně definitní matice, tj. chyby nemusí být nezávislé se stejným rozptylem. Pomocí rozkladu W 1 = C T C, kde C je regulární odmocninová matice přepíšeme model CY = CXβ + Cɛ odpovídá předešlému modelu lineární regrese s nezávislými chybami. M.Branda (KPMS MFF UK) GLM / 125

34 Lineární regrese Vážené nejmenší čtverce Data a lineární regrese Vážené nejmenší čtverce Odhad β je v tomto případě řešením soustavy normálních rovnic X T W 1 Xβ = X T W 1 Y. Tedy dostaneme odhad parametrů ˆβ = (X T W 1 X) 1 X T W 1 Y, kde ˆβ (β, σ 2 (X T W 1 X) 1 ). (Další odhady získáme analogicky.) M.Branda (KPMS MFF UK) GLM / 125

35 Obsah Zobecněné lineární modely 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

36 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM / 125

37 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM / 125

38 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, φ) = exp + c(y, φ) a(φ) pro známé funkce a, b, c a neznámé parametry θ i, φ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (2) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (1) E[Y i ] = µ i = g 1 (η i ). (3) M.Branda (KPMS MFF UK) GLM / 125

39 Zobecněné lineární modely Srovnání regresních modelů Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

40 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM / 125

41 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rozdělení s hustotou tvaru { T (z)a(ξ) + B(ξ) f (z; ξ, φ) = exp a(φ) } + C(z, φ) nazýváme rozdělení exponenciálního typu s disperzním parametrem φ a parametrem polohy ξ. Kanonický tvar hustoty dostaneme, položíme-li y = T (z), θ = A(ξ) { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ), a(φ) kde θ R, a(φ) (0, ) a a : R + R +. M.Branda (KPMS MFF UK) GLM / 125

42 Zobecněné lineární modely Pozor na parametrizaci Rodina exponenciálních rozdělení V literatuře se objevují běžně různé parametrizace, pro známé funkce a, b, c, resp. c, a neznámé parametry θ, φ: { } yθ b(θ) f (y; θ, φ) = exp + c(y, φ) a(φ) nebo nebo { } yθ b(θ) f (y; θ, ϕ) = exp + c(y, ϕ) ϕ { } yθ b(θ) f (y; θ, φ) = exp c(y, φ). a(φ) Poslední parametrizaci nebudeme využívat. M.Branda (KPMS MFF UK) GLM / 125

43 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Pro náhodnou veličinu Y patřící do rodiny exponenciálních rozdělení platí: Je-li b dvakrát spojitě diferencovatelná, potom E[Y ] = b (θ), var(y ) = a(φ)b (θ) = ϕb (θ). Pomocí rozptylové funkce V (µ) = b [(b ) 1 (µ)] můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) = ϕv (µ). M.Branda (KPMS MFF UK) GLM / 125

44 Střední hodnota Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro parciální derivaci platí f (y; θ, φ) θ = f (y; θ, φ) y b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) f (y; θ, φ) 0 = dy θ = f (y; θ, φ)dy θ = EY b (θ). a(φ) M.Branda (KPMS MFF UK) GLM / 125

45 Rozptyl Důkaz Zobecněné lineární modely Rodina exponenciálních rozdělení Pro druhou parciální derivaci platí 2 f (y; θ, φ) θ 2 = f (y; θ, φ) ( y b (θ) a(φ) ) 2 b (θ) a(φ) integrací obou stran podle y dostaneme (za předpokladu, že je možné zamětit pořadí derivace a integrálu) 2 f (y; θ, φ) 0 = θ 2 dy = 2 θ 2 f (y; θ, φ)dy = E[(Y b (θ)) 2 ] (a(φ)) 2 b (θ) a(φ). M.Branda (KPMS MFF UK) GLM / 125

46 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM / 125

47 Zobecněné lineární modely Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení Rodina exponenciálních rozdělení zahrnuje: Normální, gamma, inverzní Gaussovo, Poissonovo, alternativní, Chí-kvadrát, exponenciální, binomické, geometrické, multinomické, beta, se známým parametrem: Weibullovo, negativně binomické, Paretovo. M.Branda (KPMS MFF UK) GLM / 125

48 Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM / 125

49 Normální rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y N(µ, σ 2 ): Pro y R } 1 (y µ)2 f (y; µ, σ) = exp { 2πσ 2σ 2 b(θ) {}}{ yµ µ 2 /2 = exp }{{} σ 2 y 2 2σ log(2πσ2 ), }{{} ϕ kde θ = µ, b(θ) = µ 2 /2 a ϕ = σ 2. EY = b (θ) = µ c(y,ϕ) var(y ) = ϕb (θ) = σ 2, tj. rozptyl nezávisí na střední hodnotě V (µ) = 1. (jediné takové exponenciální rozdělení) M.Branda (KPMS MFF UK) GLM / 125

50 Normální rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení N(0,1), N(0,2), N(0,4) M.Branda (KPMS MFF UK) GLM / 125

51 Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM / 125

52 Gamma rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(a, p): Pro 0 < y < f (y; a, p) = ap Γ(p) y p 1 exp { ay} = exp {(p 1) log y ay + p log a log Γ(p)} { y( a/p) + log a/p = exp 1/p +p log p log Γ(p) + (p 1) log y} kde θ = a/p, ϕ = 1/p, b(θ) = log( θ). EY = b (θ) = 1/θ = p/a = µ var(y ) = ϕb (θ) = p/a 2 = µ 2 /p, tj. rozptyl závisí na střední hodnotě V (µ) = µ 2. M.Branda (KPMS MFF UK) GLM / 125

53 Gamma rozdělení Parametrizace v SASu Zobecněné lineární modely Rodina exponenciálních rozdělení Y Γ(µ, ν): Pro 0 < y < f (y; µ, ν) = 1 Γ(ν)y ( ) yν ν { exp yν }, µ µ kde a = ν/µ a p = ν, ϕ = ν 1, var(y ) = µ 2 /ν M.Branda (KPMS MFF UK) GLM / 125

54 Gamma rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Gamma(2,2), Gamma(4,2), Gamma(6,2) M.Branda (KPMS MFF UK) GLM / 125

55 Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM / 125

56 Zobecněné lineární modely Inverzní Gaussovo rozdělení Rodina exponenciálních rozdělení Y IG(µ, λ): Pro 0 < y < } λ f (y; µ, λ) = { 2πy 3 exp λ(y µ)2 2µ 2 y { λy 2 = exp 2µ 2 y + λµy µ 2 y λµ2 2µ 2 y log λ 1 } 3 log 2πy 2 { y/( 2µ 2 ) + 1/µ = exp λ 1/λ 2y log λ 1 } 2 log 2πy 3, kde θ = 1/(2µ 2 ), b(θ) = 2θ a ϕ = 1/λ. EY = b (θ) = 1/ 2θ = ( 2θ) 1/2 = µ var(y ) = ϕb (θ) = ( 2θ) 3/2 /λ = µ 3 /λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ 3. M.Branda (KPMS MFF UK) GLM / 125

57 Zobecněné lineární modely Inverzní Gaussovo rozdělení Hustoty Rodina exponenciálních rozdělení IG(5,1), IG(5,5), IG(5,30) M.Branda (KPMS MFF UK) GLM / 125

58 Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM / 125

59 Poissonovo rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Po(λ): Pro y = 0, 1, 2,... f (y; λ) = λy e λ y! { y log λ λ = exp 1 kde θ = log λ, b(θ) = e θ a ϕ = 1. EY = b (θ) = e θ = λ. } log y!, var(y ) = ϕb (θ) = e θ = λ, tj. rozptyl závisí na střední hodnotě V (µ) = µ. M.Branda (KPMS MFF UK) GLM / 125

60 Poissonovo rozdělení Hustoty Zobecněné lineární modely Rodina exponenciálních rozdělení Po(3), Po(10), Po(20) M.Branda (KPMS MFF UK) GLM / 125

61 Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM / 125

62 Alternativní rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Y Alt(p): Pro y {0, 1} kde θ = log f (y; p) = p y (1 p) 1 y { } y log p 1 p + log(1 p) = exp + 0, 1 p 1 p, b(θ) = log(1 + eθ ) a ϕ = 1. EY = b (θ) = eθ = p. 1+e θ var(y ) = ϕb (θ) = p(1 p), tj. rozptyl závisí na střední hodnotě V (µ) = µ(1 µ). M.Branda (KPMS MFF UK) GLM / 125

63 Zobecněné lineární modely Rodina exponenciálních rozdělení e θ 1+e θ M.Branda (KPMS MFF UK) GLM / 125

64 Přehled rozdělení Zobecněné lineární modely Rodina exponenciálních rozdělení Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM / 125

65 Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

66 Linkové funkce Zobecněné lineární modely Rodina exponenciálních rozdělení identita: g(µ) = µ logaritmus: g(µ) = log(µ) logit: g(µ) = log(µ/(1 µ)) probit: g(µ) = Φ 1 (µ), kde Φ je distribuční funkce standardního normálního rozdělení log-log: g(µ) = log( log(µ)) komplementární log-log: g(µ) = log( log(1 µ)) mocninný: g(µ) = µ p pro p 0 (pro p = 0 logaritmický) M.Branda (KPMS MFF UK) GLM / 125

67 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá) M.Branda (KPMS MFF UK) GLM / 125

68 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Probit (červená) M.Branda (KPMS MFF UK) GLM / 125

69 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená) M.Branda (KPMS MFF UK) GLM / 125

70 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

71 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Log-log (zelená čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

72 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Komplementární (oranžová čárkovaná), log-log (zelená čárkovaná) M.Branda (KPMS MFF UK) GLM / 125

73 Zobecněné lineární modely Porovnání inverzí linků Rodina exponenciálních rozdělení Logit (modrá), Probit (červená), kompl. (oranžová), log-log (zelená) M.Branda (KPMS MFF UK) GLM / 125

74 Zobecněné lineární modely Srovnání regresních modelů Rodina exponenciálních rozdělení Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

75 Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM / 125

76 Zobecněné lineární modely Rozdělení a rozptylové funkce Rodina exponenciálních rozdělení Rozptylová funkce zachycuje vztah mezi střední hodnotou a rozptylem: normální: V (µ) = 1 Poissonovo: V (µ) = µ gamma: V (µ) = µ 2 inverzní Gaussovo: V (µ) = µ 3 binomické: V (µ) = µ(1 µ) geometrické: V (µ) = µ + µ 2 negativně binomické (!): V (µ) = µ + kµ 2 M.Branda (KPMS MFF UK) GLM / 125

77 Zobecněné lineární modely Zobecněné lineární modely Tři stavební elementy Zobecněné lineární modely 1) Y i má rozdělení s hustotou z exponenciální rodiny { } yθi b(θ i ) f (y; θ i, ϕ) = exp + c(y, ϕ) ϕ pro známé funkce b, c a neznámé parametry θ i, ϕ (kanonický a disperzní). 2) Lineární prediktor m η i = X ij β j = x iβ, (5) j=1 kde β j jsou neznámé parametry a X ij jsou známé hodnoty prediktorů. 3) Linková funkce (striktně monotónní, dvakrát diferencovatelná) (4) E[Y i ] = µ i = g 1 (η i ). (6) M.Branda (KPMS MFF UK) GLM / 125

78 Zobecněné lineární modely Srovnání regresních modelů Zobecněné lineární modely Lineární regrese Zobecněný lineární model Rozdělení: Y N(µ, σ 2 ) Y EF(θ, φ) Závislost: E[Y ] = x β E[Y ] = g 1 (x β) Rozpyl: vary = σ 2 vary = ϕv (µ) M.Branda (KPMS MFF UK) GLM / 125

79 Zobecněné lineární modely Zobecněné lineární modely Přehled rozdělení exponenciální rodiny Rozdělení Hustota Disperze Kanonický Střední Rozptylová ϕ link θ(µ) hodnota µ(θ) funkce V (µ) N(µ, σ 2 ) 1 2πσ e (y µ)2 2σ 2 σ 2 µ θ 1 Po(µ) Γ(µ, ν) IG(µ, λ) 1 Γ(ν)y µ y e µ y! 1 log(µ) e θ µ ( ) ν yν µ e yν µ µ 2 ν µ θ λ e 2πy 3 λ(y µ) 2 2µ 2 y 1 λ 1 2µ 2 1 2θ µ 3 Alt(µ) µ y (1 µ) 1 y 1 log µ 1 µ e θ 1+e θ µ(1 µ) M.Branda (KPMS MFF UK) GLM / 125

80 Parametrizace Zobecněné lineární modely Zobecněné lineární modely η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) Kanonický link splňuje g(µ) = θ, tedy musí platit g(µ) = (b ) 1 (µ) a také g (µ) = 1 V (µ). M.Branda (KPMS MFF UK) GLM / 125

81 Offset Zobecněné lineární modely Zobecněné lineární modely Offset Člen v lineárním prediktoru s pevně daným koeficientem. Korekce modelu s ohledem na expozici v riziku (počet rizik, délka platnosti smlouvy). Například pro expozici n i i tého řádku a logaritmický link položíme η i = ln n i + x iβ. (7) M.Branda (KPMS MFF UK) GLM / 125

82 Váhy pozorování Zobecněné lineární modely Zobecněné lineární modely Při zahrnutí apriorních vah pozorování w platí E[Y ] = b (θ), var(y ) = a(φ)b (θ) w = ϕb (θ) w. Pomocí rozptylové funkce můžeme vztah pro rozptyl přepsat var(y ) = a(φ)v (µ) w = ϕv (µ) w. Využití: Modelování průměrné výše škody (w = počet škod) nebo škodní frekvence (w = délka expozice). M.Branda (KPMS MFF UK) GLM / 125

83 Odhad parametrů Metoda maximální věrohodnosti Zobecněné lineární modely Odhad parametrů Y i f (y; θ i, ϕ), kde hustota závisí na prediktorech skrze vztah θ i = (b ) 1 (g 1 (x iβ)). Věrohodnostní funkce L(Y; β, ϕ) = a logaritmická věrohodnostní funkce n f (Y i ; θ i, ϕ) i=1 l(y; β, ϕ) = = n log(f (Y i ; θ i, ϕ)) i=1 n i=1 Y i θ i b(θ i ) ϕ + c(y i, ϕ). M.Branda (KPMS MFF UK) GLM / 125

84 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů l β j = n i=1 f θ i θ i µ i µ i η i η i β j = n i=1 (Y i µ i )X ij g (µ i )ϕv (µ i ), kde f = Y i b (θ i ) = Y i µ i, θ i ϕ ϕ θ i 1 = µ i b (θ i ) = 1 V (µ i ), µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

85 Parametrizace Zobecněné lineární modely Odhad parametrů η = x β η = g(µ) µ = b (θ) β η µ θ µ = g 1 (η) θ = (b ) 1 (µ) M.Branda (KPMS MFF UK) GLM / 125

86 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Často se využívá následující tvar l β j = n i=1 l µ i µ i β j = n i=1 (Y i µ i ) ϕv (µ i ) ( µi β j ). M.Branda (KPMS MFF UK) GLM / 125

87 Zobecněné lineární modely Derivace věrohodnostní funkce Odhad parametrů Definujeme-li váhy pak w(µ i ) = 1 [g (µ i )] 2 V (µ i ), l β j = 1 ϕ Taylorův rozvoj prvního řádu n w(µ i )g (µ i )(Y i µ i )X ij = 0 i=1 g(y i ) g(µ i ) + g (µ i )(Y i µ i ) g(y i ) x iβ g (µ i )(Y i µ i ) n w(µ i )g(y i )X ij i=1 n w(µ i )x iβx ij i=1 M.Branda (KPMS MFF UK) GLM / 125

88 Zobecněné lineární modely Derivace věrohodnostní funkce Maticový zápis Odhad parametrů Nechť W = diag{([g (µ i )] 2 V (µ i )) 1 }, G = diag{g (µ i )}, potom můžeme přepsat rovnost parciálních derivací 0 kde můžeme využít Taylorův rozvoj a přepsat rovnost přibližně jako X WG(Y µ) = 0, G(Y µ) g(y) Xβ (X WX)β X Wg(Y). Dostaneme tak odhad parametrů splňující ˆβ = (X ŴX) 1 X ŴẐ, kde Ẑ bývá nazýváno linearizovaná odezva. M.Branda (KPMS MFF UK) GLM / 125

89 Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM / 125,

90 Zobecněné lineární modely Odhad parametrů Metoda iterativních vážených čtverců Odhad parametrů Počáteční odhad ˆµ (0) i = Y i, W (0) a Z (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj W (k) a Z (k) ˆβ (k) = (X W (k 1) X) 1 X W (k 1) Z (k 1). W (k) = diag ˆµ (k) i = g 1 (x i ˆβ (k) ). { 1 [g (ˆµ (k) i )] 2 V (ˆµ (k) i ) } Z (k) = g(ˆµ (k) ) + g (ˆµ (k) )(Y ˆµ (k) ). Není třeba znát odhad disperzního parametru ϕ. M.Branda (KPMS MFF UK) GLM / 125,

91 Zobecněné lineární modely Derivace věrohodnostní funkce Kanonický link Pro kanonický link dochází ke zjednodušení tedy w(µ i ) = Odhad parametrů 1 [g (µ i )] 2 V (µ i ) = V (µ i) = 1 g (µ i ), l β j = 1 ϕ což můžeme přepsat maticově n (Y i µ i )X ij = 0, i=1 X (Y µ) = 0. nebo po složkách n Y i X ij = i=1 n µ i X ij = i=1 n g 1 (x iβ)x ij. i=1 M.Branda (KPMS MFF UK) GLM / 125

92 Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

93 Zobecněné lineární modely Derivace věrohodnostní funkce Druhé parciální derivace Odhad parametrů kde ( ) l = β j β j = n i=1 µ i ( (Yi µ i )X ij ) µi g (µ i )ϕv (µ i ) η i η i, β j µ i ( (Yi µ i ) g (µ i )ϕv (µ i ) ) 1 g (µ i )ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V (µ i ) (g (µ i )) 2 ϕ(v (µ i )) 2, µ i 1 = η i g (µ i ), η i = X ij. β j M.Branda (KPMS MFF UK) GLM / 125

94 Zobecněné lineární modely Derivace věrohodnostní funkce Hessova matice Odhad parametrů Definujeme-li diagonální matici { 1 V = diag (g (µ i )) 2 ϕv (µ i ) (Y i µ i ) g (µ i )V (µ i ) + g (µ i )V } (µ i ) (g (µ i )) 3 ϕ(v (µ i )) 2 můžeme Hessovu matici zapsat ve tvaru (odpovídající empirické informační matici) H = X VX. M.Branda (KPMS MFF UK) GLM / 125

95 Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM / 125

96 Zobecněné lineární modely Odhad parametrů Newtonův-Raphsonův algoritmus Odhad parametrů Označíme vektor prvních parciálních derivací logaritmické věrohodnostní funkce. Počáteční odhad ˆµ (0) i = Y i, ˆ (0) a Ĥ (0). Pro k 1 opakuj následující kroky dokud není splněno kritérium konvergence ˆβ (k) ˆβ (k 1) < ε: 1 Spočti nový odhad parametrů 2 Spočti 3 Aktualizuj (k) a H (k). Asymptoticky ˆβ N(β, H 1 ). ˆβ (k) = ˆβ (k 1) (H (k 1) ) 1 (k 1) ˆµ (k) i = g 1 (x i ˆβ (k) ). M.Branda (KPMS MFF UK) GLM / 125

97 Konfidenční interval Zobecněné lineární modely Odhad parametrů Konfidenční intervaly jsou založeny na asymptotické normalitě odhadu parametrů n( ˆβ β) d N(0, ϕ(x WX) 1 ): g(y l ) = x ˆβ z ˆϕx (X ŴX) 1 x, g(y u ) = x ˆβ + z ˆϕx (X ŴX) 1 x, kde z je příslušný kvantil standardního normálního rozdělení a x je vektor regresorů. M.Branda (KPMS MFF UK) GLM / 125

98 Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM / 125

99 Zobecněné lineární modely Testy významnosti parametrů Waldův test Odhad parametrů Test hypotézy β j = c (β j c) 2 ϕvar(β j ) χ2 1. Test hypotézy Cβ = c, kde matice C má q řádků (Cβ c) [ϕc(x WX) 1 C ] 1 (Cβ c) χ 2 q. M.Branda (KPMS MFF UK) GLM / 125

100 Kvalita modelu Saturovaný model Zobecněné lineární modely Odhad parametrů Saturovaný model = počet parametrů je roven počtu pozorování 2 a platí ˆµ i = Y i, ˆθ i = (b ) 1 (Y i ). Věrohodnost saturovaného modelu = největší dosažitelná věrohodnost pro daná data l (Y) = n i=1 Y i ˆθ i b(ˆθ i ) ϕ + c(y i, ϕ) 2 Obecně pro model neplatí vlastnosti ML odhadů. M.Branda (KPMS MFF UK) GLM / 125

101 Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM / 125

102 Kvalita modelu Zobecněné lineární modely Odhad parametrů Škálovaná deviance udávající ztrátu na logaritmické věrohodnosti vůči saturovanému modelu D (Y, ˆβ) = 2(l (Y) l(y, ˆβ)) = 1 n Y i (ˆθ i ˆθ i ) (b(ˆθ i ) b(ˆθ i )), ϕ kde ˆθ i = (b ) 1 (g 1 (x i ˆβ)). Deviance i=1 D(Y, ˆβ) = ϕd (Y, ˆβ). M.Branda (KPMS MFF UK) GLM / 125

103 Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM / 125

104 Testování submodelů Test poměrem věrohodností Zobecněné lineární modely Odhad parametrů Je-li ˆβ odhad parametrů v modelu a ˆβ odhad parametrů v podmodelu, potom (asymptoticky) kde d je rozdíl počtu parametrů. F-statistika (asymptoticky) D (Y, ˆβ ) D (Y, ˆβ) χ 2 d, D(Y, ˆβ ) D(Y, ˆβ) d ˆϕ F d,n m, kde m je počet parametrů v modelu, ze kterého byl odhadnut ˆϕ. M.Branda (KPMS MFF UK) GLM / 125

105 Zobecněné lineární modely Odhad disperzního parametru Odhad parametrů Vhodné vlastnosti má Pearsonův odhad ve tvaru ˆϕ = 1 n m n i=1 (Y i ˆµ i ) 2, V (ˆµ i ) kdy za vĺıdných předpokladů ˆϕ P ϕ. Využívá se taky odhad založený na devianci ˆϕ = D(Y, ˆβ) n m. M.Branda (KPMS MFF UK) GLM / 125

106 Zobecněné lineární modely Akaikeho informační kritérium Odhad parametrů Akaikeho informační kritérium slouží pro porovnání modelů AIC = 2(l(Y; ˆβ, ˆϕ) m). Preferujeme model s minimální hodnotou AIC. M.Branda (KPMS MFF UK) GLM / 125

107 Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM / 125

108 Korelovaná data Náhodné efekty a GEE Zobecněné lineární modely Odhad parametrů Jsou-li data jsou korelovaná v rámci shluku i, může využít model s náhodným absolutním členem ve tvaru g(µ ik ) = α i + x ik β, k = 1,..., n i, kde α i N(0, σ 2 ). Při daném α i jsou pozorování ve shluku nezávislá. NEBO Zobecněné odhadové rovnosti (Generalized Estimating Equations) n i=1 d iu 1 i (Y i µ i ) = 0, kde d i = { µ i / β j } j a U i je zobecněná varianční matice shluku i zahrnující závislosti. M.Branda (KPMS MFF UK) GLM / 125

109 Obsah Příklady zobecněných lineárních modelů 1 Úvod 2 Data a lineární regrese Data Lineární regrese Vážené nejmenší čtverce 3 Zobecněné lineární modely Rodina exponenciálních rozdělení Zobecněné lineární modely Odhad parametrů 4 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Regresní model výše škod Regresní model stornovosti 5 Reference M.Branda (KPMS MFF UK) GLM / 125

110 Data Příklady zobecněných lineárních modelů smluv povinného ručení (pojištění odpovědnosti z provozu motorového vozidla) Simulovaná dle mírně upravených reálných charakteristik Závisle proměnné: počet a výše škod za poslední rok, příznak storna Nezávisle proměnné: tarifní skupina dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka spojité (veks): let stáří pojistníka (vek): 3 kategorie (18-30, 30-65, 65 a více) velikosti místa bydliště (region): 4 kategorie (nad , nad , nad 5 000, do 5 000) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM / 125

111 Příklady zobecněných lineárních modelů Postup konstrukce zobecněného lineárního modelu 1 Vyberte rozdělení 2 Vyberte link 3 Vyberte nezávisle proměnné 4 Odhadněte parametry 5 Posuďte kvalitu modelu 6 Iterujte od vhodného kroku M.Branda (KPMS MFF UK) GLM / 125

112 Příklady zobecněných lineárních modelů Lineární regrese Závisle proměnná: spojitá Rozdělení: normální Y i N(µ i, σ 2 ) Střední hodnota: EY i = µ i Linková funkce: identita g(µ) = µ Rozptylová funkce: V (µ) = 1 Disperzní parametr: ϕ = σ 2 Využití (v pojišťovnictví):? M.Branda (KPMS MFF UK) GLM / 125

113 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (log-lineární model) Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i Po(λ i ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ = 1 Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM / 125

114 Příklady zobecněných lineárních modelů Poissonovská regrese Regresní model počtu pojistných událostí Regresní model počtu pojistných událostí Model očekávaného počtu pojistných událostí na smlouvě během jednoho roku v závislosti na tarifní skupině dle objemu motoru (TS): 5 kategoríı (do 1000, do 1350, do 1850, do 2500, nad 2500 ccm) stáří pojistníka kategorizované (vek): 3 kategorie (18-30, 30-65, 65 a více) pohlaví (pohlavi): 2 kategorie (1 - žena, 2 - muž) M.Branda (KPMS MFF UK) GLM / 125

115 Syntax v SASu Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí M.Branda (KPMS MFF UK) GLM / 125

116 Příklady zobecněných lineárních modelů Poissonovská regrese Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnost M.Branda (KPMS MFF UK) GLM / 125

117 Příklady zobecněných lineárních modelů Poissonovská regrese Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int TS <.0001 TS <.0001 TS <.0001 TS <.0001 TS <.0001 vek <.0001 vek <.0001 vek pohlavi <.0001 pohlavi Škála M.Branda (KPMS MFF UK) GLM / 125

118 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, , , 2278 = 2, 6224 µ = exp{ 2, , , 2278} = exp{ 2, 6224} = 0, , , 7963 = 0, Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, P(Y = 4) = 1, M.Branda (KPMS MFF UK) GLM / 125

119 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 1 (žena) η = 2, , , 2278 = 2, 6224 µ = exp{ 2, , , 2278} = exp{ 2, 6224} = 0, , , 7963 = 0, Pravděpodobnosti P(Y = 0) = 0, 9300 P(Y = 1) = 0, 0675 P(Y = 2) = 0, 0025 P(Y = 3) = 5, P(Y = 4) = 1, M.Branda (KPMS MFF UK) GLM / 125

120 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 3946 µ = exp{ 2, , } = exp{ 2, 3946} = 0, , = 0, TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 1584 µ = exp{ 2, , } = exp{ 2, 1584} = 0, , = 0, M.Branda (KPMS MFF UK) GLM / 125

121 Příklady zobecněných lineárních modelů Interpretace parametrů Regresní model počtu pojistných událostí TS = 1 (do 1000 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 3946 µ = exp{ 2, , } = exp{ 2, 3946} = 0, , = 0, TS = 5 (nad 2500 ccm), vek = 1 (18-30 let), pohlavi = 2 (muž) η = 2, , = 2, 1584 µ = exp{ 2, , } = exp{ 2, 1584} = 0, , = 0, M.Branda (KPMS MFF UK) GLM / 125

122 Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Deviance DF Chí-kvadrát Pr > ChíKv TS vek <.0001 pohlavi <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM / 125

123 Příklady zobecněných lineárních modelů Poissonovská regrese Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF Chí-kvadrát Pr > ChíKv TS <.0001 vek <.0001 pohlavi <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM / 125

124 Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM / 125

125 Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM / 125

126 Výběr regresorů Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Vzestupný výběr (forward selection) - začneme od prázdného modelu, postupně přidáváme významné regresory. Sestupný výběr (backward selection) - začneme od modelu se všemi regresory, postupně odebíráme nevýznamné. Krokový výběr (stepwise selection) - začneme od prázdného modelu, v každém kroku přidáme jeden významný regresor a poté se pokusíme odebírat nevýznamné (i více). Hladina pro přidávání je menší než hladina pro odebírání (jinak dojde k zacyklení). M.Branda (KPMS MFF UK) GLM / 125

127 Příklady zobecněných lineárních modelů Poissonův model s E var Overdispersed Poissonův model Regresní model počtu pojistných událostí Závisle proměnná: počet pojistných událostí na smlouvě za 1 rok Rozdělení: Poissonovo Y i O Po(λ i, ϕ) Střední hodnota: EY i = λ i Linková funkce: g(µ) = log(µ) Rozptylová funkce: V (µ) = µ Disperzní parametr: ϕ (0, ) Využití: počet pojistných událostí, škodní frekvence M.Branda (KPMS MFF UK) GLM / 125

128 Příklady zobecněných lineárních modelů Kvazi-věrohodnost Quasi-likelihood Regresní model počtu pojistných událostí Parciální derivace ql β j = n i=1 Y i µ i ϕv (µ i ) ( ) µi β j odpovídají kvazi-(logaritmické-)věrohodnostní funkci pro obecnou rozptylovou funkci V a disperzní parametr ϕ ql = n i=1 µi Y i Y i t ϕv (t) dt. Využívá se i pro binomické, resp. alternativní rozdělení. M.Branda (KPMS MFF UK) GLM / 125

129 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Kritéria pro hodnocení dobré shody Regresní model počtu pojistných událostí Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnos M.Branda (KPMS MFF UK) GLM / 125

130 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Analýza odhadů parametrů Regresní model počtu pojistných událostí Par. DF Odhad Stand. Waldovy Chí-kv. Pr > ChíKv chyba meze intrv. spol. Int TS <.0001 TS <.0001 TS <.0001 TS <.0001 TS <.0001 vek <.0001 vek <.0001 vek pohlavi <.0001 pohlavi Škála M.Branda (KPMS MFF UK) GLM / 125

131 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 1 Regresní model počtu pojistných událostí Zdroj Odchylka DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS vek < <.0001 pohlavi < <.0001 Postupné přidávání regresorů (záleží na pořadí v zadání). M.Branda (KPMS MFF UK) GLM / 125

132 Příklady zobecněných lineárních modelů Poissonovská regrese (overdispersed) Statistiky LR pro analýzu typu 3 Regresní model počtu pojistných událostí Zdroj DF DF F Pr > F Chí-kv. Pr > ChíKv cit jmen hodnota TS < <.0001 vek < <.0001 pohlavi < <.0001 Test významnosti regresoru při ponechání všech ostatních regresorů v modelu (nezáleží na pořadí). M.Branda (KPMS MFF UK) GLM / 125

133 Příklady zobecněných lineárních modelů Regresní model počtu pojistných událostí Poissonovská regrese (overdispersed, interakce) Kritéria pro hodnocení dobré shody Kritérium DF Hodnota Hodnota/DF Deviance 5E Scaled Deviance 5E Pearsonuv Chí-kvad 5E Scaled Pearson X2 5E Log verohodnos M.Branda (KPMS MFF UK) GLM / 125

Lineární a logistická regrese

Lineární a logistická regrese Lineární a logistická regrese Martin Branda Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Výpočetní prostředky finanční a pojistné matematiky

Více

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení. 31.3.2006 Seminář z aktuárských věd. Slides by LATEX.

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení. 31.3.2006 Seminář z aktuárských věd. Slides by LATEX. 1/30 31.3.2006 Seminář z aktuárských věd Slides by LATEX Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení 2/30 Obsah 1 Zobecněné lineární modely (GLZ 1 ) Obecný lineární model (GLM)

Více

RNDr. Martin Branda, Ph.D.

RNDr. Martin Branda, Ph.D. Univerzita Karlova v Praze Matematicko-fyzikální fakulta Katedra pravděpodobnosti a matematické statistiky Zobecněné lineární modely v pojišt ovnictví RNDr Martin Branda, PhD Zpracováno v rámci projektu

Více

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Ekonometrie. Jiří Neubauer, Jaroslav Michálek Ekonometrie Jiří Neubauer, Jaroslav Michálek Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz J. Neubauer, J. Michálek (Katedra ekonometrie UO) Zobecněný lineární

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust Silvie Zlatošová 11. - 16. září 2016, Robust Obsah 1 Motivace a cíl 2 Tvorba apriorních tarifních skupin 3 Teorie kredibility 4 Aplikace aposteriorních korekcí Motivace a cíl Obsah 1 Motivace a cíl 2 Tvorba

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

odpovídá jedna a jen jedna hodnota jiných

odpovídá jedna a jen jedna hodnota jiných 8. Regresní a korelační analýza Problém: hledání, zkoumání a hodnocení souvislostí, závislostí mezi dvěma a více statistickými znaky (veličinami). Typy závislostí: pevné a volné Pevná závislost každé hodnotě

Více

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1 Minikurz aplikované statistiky Marie Šimečková, Petr Šimeček Minikurz aplikované statistiky p.1 Program kurzu základy statistiky a pravděpodobnosti regrese (klasická, robustní, s náhodnými efekty, ev.

Více

Základy teorie odhadu parametrů bodový odhad

Základy teorie odhadu parametrů bodový odhad Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Odhady parametrů Úkolem výběrového šetření je podat informaci o neznámé hodnotě charakteristiky základního souboru

Více

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin Příklady k procvičení z Matematické statistiky Poslední úprava. listopadu 207. Konvergence posloupnosti náhodných veličin. Necht X, X 2... jsou nezávislé veličiny s rovnoměrným rozdělením na [0, ]. Definujme

Více

Odhady Parametrů Lineární Regrese

Odhady Parametrů Lineární Regrese Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

Matematické přístupy k pojištění automobilů. Silvie Kafková. 3. 6. září 2013, Podlesí

Matematické přístupy k pojištění automobilů. Silvie Kafková. 3. 6. září 2013, Podlesí Matematické přístupy k pojištění automobilů Silvie Kafková 3. 6. září 2013, Podlesí Obsah 1 Motivace 2 Tvorba tarifních skupin a priori 3 Motivace Obsah 1 Motivace 2 Tvorba tarifních skupin a priori 3

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Úvodem Dříve les než stromy 3 Operace s maticemi

Úvodem Dříve les než stromy 3 Operace s maticemi Obsah 1 Úvodem 13 2 Dříve les než stromy 17 2.1 Nejednoznačnost terminologie 17 2.2 Volba metody analýzy dat 23 2.3 Přehled vybraných vícerozměrných metod 25 2.3.1 Metoda hlavních komponent 26 2.3.2 Faktorová

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace Jan Slovák Masarykova univerzita Fakulta informatiky 28. 11 2. 12. 2016 Obsah přednášky 1 Literatura 2 Střední

Více

Aplikovaná statistika v R - cvičení 3

Aplikovaná statistika v R - cvičení 3 Aplikovaná statistika v R - cvičení 3 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.8.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.8.2014 1 / 10 Lineární

Více

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová Testování předpokladů pro metodu chain-ladder Seminář z aktuárských věd 4. 11. 2016 Petra Španihelová Obsah Datová struktura Posouzení dat Předpoklady metody chain-ladder dle T. Macka Běžná lineární regrese

Více

Cvičení 12: Binární logistická regrese

Cvičení 12: Binární logistická regrese Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,

Více

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina. Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment

Více

LWS při heteroskedasticitě

LWS při heteroskedasticitě Stochastické modelování v ekonomii a financích Petr Jonáš 7. prosince 2009 Obsah 1 2 3 4 5 47 1 Předpoklad 1: Y i = X i β 0 + e i i = 1,..., n. (X i, e i) je posloupnost nezávislých nestejně rozdělených

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

AVDAT Nelineární regresní model

AVDAT Nelineární regresní model AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, KMA/SZZS1 Matematika 1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností, operace s limitami. 2. Limita funkce

Více

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X

Více

y = 0, ,19716x.

y = 0, ,19716x. Grafické ověřování a testování vybraných modelů 1 Grafické ověřování empirického rozdělení Při grafické analýze empirického rozdělení vycházíme z empirické distribuční funkce F n (x) příslušné k náhodnému

Více

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013 Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika Podrobnější rozpis okruhů otázek pro třetí část SZZ Verze: 13. června 2013 1 Úvodní poznámky 6 Smyslem SZZ by nemělo být toliko

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Bodové a intervalové odhady parametrů v regresním modelu

Bodové a intervalové odhady parametrů v regresním modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model Mějme lineární regresní model (LRM) Y = Xβ + e, kde y 1 e 1 β y 2 Y =., e

Více

7 Regresní modely v analýze přežití

7 Regresní modely v analýze přežití 7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce

Více

MATEMATICKÁ STATISTIKA

MATEMATICKÁ STATISTIKA MATEMATICKÁ STATISTIKA 1. Úvod. Matematická statistika se zabývá vyšetřováním zákonitostí, které v sobě obsahují prvek náhody. Zpracováním hodnot, které jsou výstupem sledovaného procesu, se snažíme popsat

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

STATISTICKÁ KLASIFIKACE POMOCÍ ZOBECNĚNÝCH

STATISTICKÁ KLASIFIKACE POMOCÍ ZOBECNĚNÝCH VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ BRNO UNIVERSITY OF TECHNOLOGY FAKULTA STROJNíHO INŽENÝRSTVí ÚSTAV MATEMATIKY FACULTY OF MECHANICAL ENGINEERING INSTITUTE OF MATHEMATICS STATISTICKÁ KLASIFIKACE POMOCÍ ZOBECNĚNÝCH

Více

KVADRATICKÁ KALIBRACE

KVADRATICKÁ KALIBRACE Petra Širůčková, prof. RNDr. Gejza Wimmer, DrSc. Finanční matematika v praxi III. a Matematické modely a aplikace 4. 9. 2013 Osnova Kalibrace 1 Kalibrace Pojem kalibrace Cíle kalibrace Předpoklady 2 3

Více

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní ..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X

Více

Přijímací zkouška na navazující magisterské studium 2014

Přijímací zkouška na navazující magisterské studium 2014 Přijímací zkouška na navazující magisterské studium 24 Příklad (25 bodů) Spočtěte Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A M x 2 dxdy, kde M = {(x, y) R 2 ;

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Náhodný výběr Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

Základy lineární regrese

Základy lineární regrese Základy lineární regrese David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5. 7. 8. 2015 Tato akce

Více

Statistika II. Jiří Neubauer

Statistika II. Jiří Neubauer Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Zaměříme se především na popis dvourozměrných náhodných veličin (vektorů). Definice Nechť X a Y jsou

Více

5. B o d o v é o d h a d y p a r a m e t r ů

5. B o d o v é o d h a d y p a r a m e t r ů 5. B o d o v é o d h a d y p a r a m e t r ů Na základě hodnot náhodného výběru z rozdělení určitého typu odhadujeme parametry tohoto rozdělení, tak aby co nejlépe odpovídaly hodnotám výběru. Formulujme

Více

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B. Zkouška z předmětu KMA/PST. Anotace předmětu Náhodné jevy, pravděpodobnost, podmíněná pravděpodobnost. Nezávislé náhodné jevy. Náhodná veličina, distribuční funkce. Diskrétní a absolutně spojitá náhodná

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Mnohorozměrné metody, metody klasifikace AVDAT Mnohorozměrné metody, metody klasifikace Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Mnohorozměrné metody Regrese jedna náhodná veličina je vysvětlována pomocí jiných

Více

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový. 6. ZÁKLADY STATIST. ODHADOVÁNÍ X={X 1, X 2,..., X n } výběr z rozdělení s F (x, θ), θ={θ 1,..., θ r } - vektor reálných neznámých param. θ Θ R k. Θ parametrický prostor. Dva základní způsoby odhadu neznámého

Více

Apriorní rozdělení. Jan Kracík.

Apriorní rozdělení. Jan Kracík. Apriorní rozdělení Jan Kracík jan.kracik@vsb.cz Apriorní rozdělení Apriorní rozdělení (spolu s modelem) reprezentuje informaci o neznámém parametru θ, která je dostupná předem, tj. bez informace z dat.

Více

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ. Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková

REGRESNÍ MODELY V POJIŠŤOVNICTVÍ. Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková REGRESNÍ MODELY V POJIŠŤOVNICTVÍ Seminář z aktuárských věd 2. prosince 2016 Kateřina Vlčková REGRESNÍ MODELY V POJIŠŤOVNICTVÍ 1. PŘEDSTAVENÍ 2. ÚVOD 3. REGRESNÍ MODELY 1. LM Lineární modely (Linear Model)

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Inovace bakalářského studijního oboru Aplikovaná chemie

Inovace bakalářského studijního oboru Aplikovaná chemie http://aplchem.upol.cz CZ.1.07/2.2.00/15.0247 Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky. Regrese Závislostproměnných funkční y= f(x) regresní y= f(x)

Více

DIPLOMOVÁ PRÁCE. Aplikovaná logistická regrese

DIPLOMOVÁ PRÁCE. Aplikovaná logistická regrese UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY DIPLOMOVÁ PRÁCE Aplikovaná logistická regrese Vedoucí diplomové práce: Mgr. Jana Vrbková, Ph.D.

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ

Více

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady PRAVDĚPODOBNOST A STATISTIKA Bayesovské odhady Bayesovské odhady - úvod Klasický bayesovský přístup: Klasický přístup je založen na opakování pokusech sledujeme rekvenci nastoupení zvolených jevů Bayesovský

Více

oddělení Inteligentní Datové Analýzy (IDA)

oddělení Inteligentní Datové Analýzy (IDA) Vytěžování dat Filip Železný Katedra počítačů oddělení Inteligentní Datové Analýzy (IDA) 22. září 2014 Filip Železný (ČVUT) Vytěžování dat 22. září 2014 1 / 25 Odhad rozdělení Úloha: Vstup: data D = {

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Pojem endogenity a exogenity

Pojem endogenity a exogenity 22. 4. 2010 Úvodní definice Klasická definice Exogenita a endogenita není jednoznačná, přesto se nejčastěji pracuje s následující definicí. Proměnná x vysvětlující proměnnou y je exogenní, pokud L(y x)

Více

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Náhodné veličiny III Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc. Katedra teoretické informatiky Fakulta informačních technologií České vysoké učení technické v Praze c Rudolf Blažek, Roman

Více

Radka Picková Transformace náhodných veličin

Radka Picková Transformace náhodných veličin Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Radka Picková Transformace náhodných veličin Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: Mgr Zdeněk

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3! Výsledky příkladů na procvičení z NMSA0 Klasická pravděpodobnost. 5. ( 4( 43 ( 49 3. 8! 3! 0! = 5 Poslední změna (oprava:. května 08 4. (a! + 3! + ( n+ n! = n k= ( k+ /k! = n k=0 ( k /k!; (b n k=0 ( k

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan 1 Úvod 1.1 Empirický výzkum a jeho etapy 1.2 Význam teorie pro výzkum 1.2.1 Konstrukty a jejich operacionalizace 1.2.2 Role teorie ve výzkumu 1.2.3 Proces ověření hypotéz a teorií 1.3 Etika vědecké práce

Více

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně 7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Výběrové charakteristiky a jejich rozdělení

Výběrové charakteristiky a jejich rozdělení Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistické šetření úplné (vyčerpávající) neúplné (výběrové) U výběrového šetření se snažíme o to, aby výběrový

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipa.cz Pravděpodobnost a matematická statistika 2010 1.týden 20.09.-24.09. Data, tp dat, variabilita, frekvenční analýza histogram,

Více

3 Bodové odhady a jejich vlastnosti

3 Bodové odhady a jejich vlastnosti 3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe

Více

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

Charakterizace rozdělení

Charakterizace rozdělení Charakterizace rozdělení Momenty f(x) f(x) f(x) μ >μ 1 σ 1 σ >σ 1 g 1 g σ μ 1 μ x μ x x N K MK = x f( x) dx 1 M K = x N CK = ( x M ) f( x) dx ( xi M 1 C = 1 K 1) N i= 1 K i K N i= 1 K μ = E ( X ) = xf

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

Bootstrap - konfidenční intervaly a testy

Bootstrap - konfidenční intervaly a testy 9. prosince 2008 Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Konfidenční intervaly obecně Máme data X 1...X n F,(iid), kde F neznáme. Chceme odhadnout θ = t(f), např. t(f)

Více

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}. VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:

Více

Přijímací zkouška na navazující magisterské studium 2017

Přijímací zkouška na navazující magisterské studium 2017 Přijímací zkouška na navazující magisterské studium 27 Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A Řešení příkladů pečlivě odůvodněte. Věnujte pozornost ověření

Více

Vlastnosti odhadů ukazatelů způsobilosti

Vlastnosti odhadů ukazatelů způsobilosti Vlastnosti odhadů ukazatelů způsobilosti Jiří Michálek CQR při Ústavu teorie informace a automatizace AV ČR v Praze Úvod Ve výzkumné zprávě č 06 Odhady koeficientů způsobilosti a jejich vlastnosti viz

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU Klára Hrůzová 1,2, Karel Hron 1,2 1 Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, Univerzita Palackého v Olomouci 2 Katedra

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení VI Přednáška Další rozdělení SNP Limitní věty Speciální typy rozdělení Rovnoměrné rozdělení R(a,b) Příklad Obejít celý areál trvá strážnému 30 minut. Jaká je pravděpodobnost, že u vrátnice budete čekat

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci. Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci

Více

UNIVERZITA PALACKÉHO V OLOMOUCI. s aplikací ve výzkumu HIV

UNIVERZITA PALACKÉHO V OLOMOUCI. s aplikací ve výzkumu HIV UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA DIPLOMOVÁ PRÁCE Zobecněné lineární modely se smíšenými efekty s aplikací ve výzkumu HIV Katedra matematické analýzy a aplikací matematiky Vedoucí

Více

Definice spojité náhodné veličiny zjednodušená verze

Definice spojité náhodné veličiny zjednodušená verze Definice spojité náhodné veličiny zjednodušená verze Náhodná veličina X se nazývá spojitá, jestliže existuje nezáporná funkce f : R R taková, že pro každé a, b R { }, a < b, platí P(a < X < b) = b a f

Více

5. T e s t o v á n í h y p o t é z

5. T e s t o v á n í h y p o t é z 5. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

UNIVERZITA PARDUBICE

UNIVERZITA PARDUBICE UNIVERZITA PARDUBICE Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie na téma Tvorba nelineárních regresních modelů v analýze dat Vedoucí licenčního studia Prof. RNDr.

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,

Více