Matematika pro ekonomiku



Podobné dokumenty
Výpočet pojistného v životním pojištění. Adam Krajíček

Pojistná matematika. Úmrtnostní tabulky, komutační čísla a jejich použití. Silvie Kafková

Neživotní pojištění. Brno 2012

AVDAT Mnohorozměrné metody, metody klasifikace Shluková analýza

Markovské metody pro modelování pravděpodobnosti

POJIŠŤOVNICTVÍ. Mezi složky současného pojišťovnictví patří. ekonomie a finance, pojistné právo pojistná matematika.

1. A c B c, 2. (A C) B, 3. A B C.

Fakulta chemicko-technologická Katedra analytické chemie. 3.2 Metody s latentními proměnnými a klasifikační metody

Výběrové charakteristiky a jejich rozdělení

Pojistná matematika 2 KMA/POM2E

Důchodové pojištění, jeho produktové modifikace a srovnání s životním pojištěním

Státnice odborné č. 20

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

0.1 Úvod do lineární algebry

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Pojistná matematika 2 KMA/POM2E

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Téma 22. Ondřej Nývlt

Statistika II. Jiří Neubauer

Tomáš Cipra: Pojistná matematika: teorie a praxe. Ekopress, Praha 2006 (411 stran, ISBN: , druhé aktualizované vydání) 1. ÚVOD...

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

Pojištění důchodu navazující na důchodové spoření (Profesionalismus v praxi) Dagmar Slavíková

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

Popisná statistika. Statistika pro sociology

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

OBSAH ČÁST I.: P O JIŠ Ť O V N IC T V Í A FINANCE 1. K A PIT O L A Ú V O D K A PITO LA

VYBRANÉ PARTIE Z NUMERICKÉ MATEMATIKY

Algoritmy pro shlukování prostorových dat

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Řešení. Označme po řadě F (z) Odtud plyne, že

Vybraná rozdělení náhodné veličiny

Číselné charakteristiky a jejich výpočet

Vícerozměrné statistické metody

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Vícerozměrné statistické metody

KGG/STG Statistika pro geografy

MATEMATICKÁ STATISTIKA - XP01MST

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

MATEMATICKÁ STATISTIKA

Úvodem Dříve les než stromy 3 Operace s maticemi

6 Ordinální informace o kritériích

Pravděpodobnost a aplikovaná statistika

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Základy maticového počtu Matice, determinant, definitnost

Aplikace teoretických postupů pro ocenění rizika při upisování pojistných smluv v oblasti velkých rizik

0.1 Úvod do lineární algebry

II. Úlohy na vložené cykly a podprogramy

5. Náhodná veličina. 2. Házíme hrací kostkou dokud nepadne šestka. Náhodná veličina nabývá hodnot z posloupnosti {1, 2, 3,...}.

7. Analýza rozptylu.

ROVNICE NA ČASOVÝCH ŠKÁLÁCH A NÁHODNÉ PROCESY. Michal Friesl

Náhodná veličina a rozdělení pravděpodobnosti

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Chyba predikce při rezervování metodou Chain Ladder u korelovaných vývojových trojúhelníků

Cvičná bakalářská zkouška, 1. varianta

Náhodný vektor a jeho charakteristiky

Náhodné chyby přímých měření

Vektorové podprostory, lineární nezávislost, báze, dimenze a souřadnice

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Obsah. Neživotní pojištění zahrnuje: pojištění majetku pojištění odpovědnosti za škody další pojištění např. úrazové, zdravotní atd.

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Lineární algebra : Násobení matic a inverzní matice

Bayesovské metody. Mnohorozměrná analýza dat

I. D i s k r é t n í r o z d ě l e n í

NMAI059 Pravděpodobnost a statistika

Normální (Gaussovo) rozdělení

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Ω = = 1 36 = ,

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

p(x) = P (X = x), x R,

4 STATISTICKÁ ANALÝZA VÍCEROZMĚRNÝCH DAT


Číselné charakteristiky

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Shluková analýza dat a stanovení počtu shluků

Základy popisné statistiky

stránkách přednášejícího.

PRAVDĚPODOBNOST A STATISTIKA aneb Krátký průvodce skripty [1] a [2]

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

8. Normální rozdělení

Definice spojité náhodné veličiny zjednodušená verze

Testování hypotéz o parametrech regresního modelu

Matematické přístupy k pojištění automobilů. Silvie Kafková září 2013, Podlesí

Stavový model a Kalmanův filtr

VÍCEKRITERIÁLNÍ ROZHODOVANÍ

1 Vektorové prostory.

Cykly a pole

Aplikovaná numerická matematika - ANM

Testování hypotéz o parametrech regresního modelu

NÁHODNÝ VEKTOR. 4. cvičení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Diskrétní náhodná veličina

Transkript:

Pojistná matematika 14.10.2011

1 I. POJISTNÁ MATEMATIKA

Pojistná matematika 2 Základní odvětví: životní pojištění, do něhož spadá výplata předem sjednané částky v případě smrti nebo dožití se určitého věku; neživotní pojištění, do něhož spadají ostatní události, jejichž společným rysem je, že vyplácená částka - náhrada škody, která v souvislosti s touto událostí vznikla - není předem známa. Úkoly pojišt ovny: stanovit výši ceny za pojištění, tzv. pojistné, stavovit si tzv. technickou rezervu, tj. částku, kterou musí mít k dispozici na události, které jsou nahlášeny se zpožděním, vyplácet pojistné plnění.

Výpočet pojistného 3 Hlavní údaj: souhrnná výše škod, za něž musí být vyplaceno pojistné plnění - náhodná veličina S Odhadneme rozdělení této náhodné veličiny včetně jejích parametrů Základ pro výpočet pojistného: střední hodnota ES - tzv. ryzí (nebo také netto) pojistné Bezpečnostní přirážka - ochrana proti nepříznivému průběhu + správní náklady Brutto pojistné = netto pojistné + bezpečnostní přirážka = to, co je skutečně klientem zaplaceno

Výpočet bezpečnostní přirážky 4 Nejběžnější způsoby stanovení brutto pojistného BP (pro všechny pojištěnce dohromady) jsou: 1 princip střední hodnoty: BP = (1 + a)es, kde a > 0; 2 princip směrodatné odchylky: BP = ES + a var S, kde a > 0; 3 princip rozptylu: BP = ES + a var S, kde a > 0. Výhody a nevýhody metod: Druhá a třetí metoda mají nevýhodu, že je nutné počítat kromě střední hodnoty navíc rozptyl. Druhá a třetí metoda jsou však přesnější, nebot berou v úvahu i velikost fluktuací rizika. Poznámka Má-li pojišt ovna n klientů, je pak základní pojistné pro jednoho klienta BP/n.

5 I. POJISTNÁ MATEMATIKA a) neživotní pojištění

Modelování celkové výše škod 6 Souhrn pojistných smluv daného typu pojištění se nazývá pojistný kmen nebo také pojistné portfolio. Předpokládejme, že pojistný kmen je homogenní, tzn. že škody, které mohou nastat na jednotlivých smlouvách, jsou nezávislé stejně rozdělené náhodné veličiny X i. Počet škodních událostí je pak také náhodná veličina N. Celkový úhrn škod je tudíž náhodná veličina S = N X i. i=1

Modelování celkové výše škod 7 Jelikož je náhodná veličina S = daná součtem náhodného počtu náhodných veličin, říkáme, že má složené rozdělení. Pro složená rozdělení platí N i=1 X i ES = ENEX 1 a var S = ENvar X 1 + var N(EX 1 ) 2.

Rozdělení výší jednotlivých škod 8 Požadavky: nezáporné hodnoty spojitost pravděpodobnost extrémně velkých hodnot minimální Nejjednodušší model: exponenciální rozdělení

Rozdělení výší jednotlivých škod 9 Weibullovo rozdělení s distribuční funkcí a hustotou F (x) = 1 e αx k, x 0, k > 0, α > 0 f (x) = αkx k 1 e αx k, které je k tou odmocninou exponenciálního rozdělení Exp(α).

Rozdělení výší jednotlivých škod 10 Paretovo (také logaritmicko-exponenciální) rozdělení s distribuční funkcí ( x ) α F (x) = 1, x a, α > 0, a > 0 a a hustotou f (x) = αa α x α 1, které vzniklo transformací X = ae Y, kde Y má exponenciální rozdělení Exp(α).

Rozdělení výší jednotlivých škod 11 Logaritmicko-normální rozdělení s hustotou 1 f (x) = e (logx µ)2 /2σ 2, x > 0, 2πσx které vzniklo transformací X = e Y, kde Y má normální rozdělení N(µ, σ 2 ).

Rozdělení počtu škod 12 Předpoklady: portfolio obsahuje n smluv, pravděpodobnost škodní události na jedné smlouvě je p, střední počet škod je np = λ. Počet škod má binomické rozdělení Bi(n, p). Rozsah pojistného kmene bývá hodně velký a pravděpodobnost škodní události hodně malá P(N = k) = n(n 1)... (n k + 1) p k (1 λ λ k k! n )n k n,p 0 k! e λ, používá se Poissonovo rozdělení (jednodušší výpočty).

Technické rezervy 13 Slouží k zabezpečení prostředků potřebných k úhradě závazků pojišt ovny v následujících obdobích. Několik druhů, např. vyrovnávací rezerva - sloužící k vyrovnávání výkyvů v nákladech na pojistná plnění způsobená nepříznivými vlivy, rezerva na nezasloužené pojistné - souvisí s prováděním účetnictví na konci roku, tj. v době, kdy je ještě smlouva platná a tudíž na ní ještě může vzniknout pojistná událost rezerva na prémie a slevy, atd. nejdůležitější: rezerva na pojistná plnění (nebo též škodní rezerva) - udržuje prostředky k výplatě pojistného plnění pojistných událostí, které jsou nahlášeny v pozdějším období než se staly.

Rezervy na pojistná plnění - trojúhelníková schémata 14 Označme X j,s celkovou výši škod, které vznikly v roce j a byly uhrazeny do konce roku j + s (s = zpoždění). Předpokládejme, že jsme v roce t. Data, která máme k dispozici, můžeme seřadit do tzv. kumulativního trojúhelníku: 0 1... s... t 2 t 1 1 X 1,0 X 1,1... X 1,s... X 1,t 2 X 1,t 1 2 X 2,0 X 2,1... X 2,s... X 2,t 2. t 1 X t 1,0 X t 1,1 t X t,0 Poznámka Někdy se místo škod, které vznikly v roce j a byly urazeny do konce roku j + s, pracuje s hodnotami Y j,s škod, které vznikly v roce j a byly urazeny právě v roce j + s. Pak mluvíme o nekumulativním trojúhelníku.

Rezervy na pojistná plnění - trojúhelníková schémata 15 Cílem je nalézt hodnotu ˆX j,, která je odhadem celkové výše škod vzniklých v roce j. Rezervou na pojistná plnění je pak hodnota ˆX j, X j,t j. Poznámka Samozřejmě se předpokládá, že po nějakém konečném počtu let jsou již všechna pojistná plnění pro daný rok vyplacena. Za tuto dobu je považován právě čas t, proto metody odhadu ˆX j, spočívají v doplnění kumulativního trojúhelníku na čtverec.

Metoda chain-ladder 16 Tato metoda předpokládá, že sloupce jsou si úměrné, tj. že X j,s+1. = cs X j,s, s = 0,..., t 2, j = 1,..., t s 1. Odhadem parametru c s je hodnota ĉ s = t s 1 j=1 X j,s+1 t s 1. j=1 X j,s Trojúhelník na čtverec pak tedy doplníme pomocí vztahu ˆX j,r = X j,t j ĉ t j ĉ r 1 a pro odhad konečné celkové výše plnění tak dostáváme ˆX j, = ˆX j,t 1 a výše rezervy je tudíž ˆX j,t 1 X j,t j.

Zobecnění metody chain-ladder 17 Předpokládejme, že tzv. vývojové faktory d j,s = X j,s+1 /X j,s, s = 0,..., t 2, j = 1,..., t 1, závisejí na řádkovém indexu j, tj. máme 0 1... s... t 2 1 d 1,0 d 1,1... d 1,s... d 1,t 2. t 1 a následně počítáme ˆd s = d t 1,0 t s 1 j=1 ω j,s d j,s t s 1 j=1 ω j,s, s = 0,..., t 2, kde ω j,s jsou váhy pro d j,s (větší váhy pro novější hodnoty). Pak opět ˆX j,r = X j,t j ˆdt j ˆd r 1. Poznámka Klasickou metodu chain-ladder získáme, pokud voĺıme ω j,s = X j,s.

Londýnský řetězec 18 Tato metoda stejně jako klasická metoda chain ladder předpokládá, že sloupce na sobě závisejí bez ohledu na řádek, tentokrát vztahem X j,s+1. = as + c s X j,s, s = 0,..., t 2, j = 1,..., t s 1. Parametry a s a c s se určí tzv. metodou nejmenších čtverců, tj. minimalizací výrazu (X j,s+1 a s c s X j,s ) 2, s = 0,..., t 3, (1) t s 1 j=1 (pro s = t 2 pak voĺıme a t 2 = 0 a c t 2 = X 1,t 1 /X 1,t 2 ).

Londýnský řetězec 19 Řešením minimalizace je â s = t s 1 t s 1 j=1 X j,s+1 j=1 Xj,s 2 t s 1 t s 1 j=1 X j,s j=1 X j,s+1 X j,s (t s 1) t s 1 j=1 Xj,s 2 ( t s 1 j=1 X j,s ) 2 ĉ s = (t s 1) t s 1 j=1 X j,s+1 X j,s t s 1 t s 1 j=1 X j,s+1 j=1 X j,s (t s 1) t s 1 j=1 Xj,s 2 ( t s 1. j=1 X j,s ) 2 Na čtverec pak doplňujeme postupně počítáním ˆX j,s+1 = â s + ĉ s ˆX j,s, s = t j,..., t 2, j = 2,..., t, kde ˆX j,t j = X j,t j je známá hodnota na diagonále.

20 I. POJISTNÁ MATEMATIKA b) životní pojištění

Životní pojištění 21 Společné prvky životního a neživotního pojištění: Výše pojistného plnění je náhodná veličina, ozn. Z. Výše netto pojistného se tedy počítá jako NP = EZ. Brutto pojistné = netto pojistné + bezpečnostní přirážka. Povinnost tvorby rezerv, (způsob výpočtu je však odlišný). Odlišné prvky životního a neživotního pojištění: Uzavírá na delší dobu diskontní faktor v = 1 1 + i, kde i je technická úroková míra. EZ se nepočítá ze známých rozdělení úmrtnostních tabulek. Pojistné se většinou neplatí jednorázově, nýbrž na splátky po dobu několika let. Tímto rozdělením splátek se však nebudeme zabývat a pojistné, které budeme počítat, tj. EZ, budeme nazývat jednorázovým netto pojistným.

Modelování úmrtnosti 22 Označme T 0 náhodnou veličinu popisující délku života právě narozeného jedince a obecněji pak T x náhodnou veličinu popisující zbývající délku života jedince ve věku x. Kromě již známé distribuční funkce F x (t) = P(T x t) se v životním pojištění pracuje s tzv. funkcí přežití S x (t) = P(T x > t) = 1 F x (t).

Modelování úmrtnosti 23 Hodnoty F x a S x jsou pro celočíselné hodnoty x a t viz v úmrtnostní tabulky: q x = F x (1) = P(T x 1) pravděpodobnost, že jedinec, který je naživu ve věku x, zemře před dosažením věku x + 1; p x = S x (1) = P(T x > 1) pravděpodobnost, že jedinec, který je naživu ve věku x, se dožije věku x + 1; tq x = F x (t) = P(T x t) pravděpodobnost, že jedinec, který je naživu ve věku x, zemře před dosažením věku x + t; tp x = S x (t) = P(T x > t) pravděpodobnost, že jedinec, který je naživu ve věku x, se dožije věku x + t.

Modelování úmrtnosti 24 Základí vztahy mezi těmito pravděpodobnostmi: a P(T x > k) = k p x = p x p x+1 p x+k 1 P(k T x < k + 1) = k+1 q x k q x = k p x q x+k. Hodnoty k p x a k q x se získají jednoduchým způsobem. Označme v nějaké populaci l 0 počet nově narozených jedinců a l x počet jedinců, kteří se dožili věku x. Pak kp x = l x+k l x a kq x = l x l x+k l x.

Modelování úmrtnosti 25 Dalším užitečným značením je d x = l x l x+1 počet lidí, kteří zemřeli ve věku x. Toho se využívá zejména pro výpočet pravděpodobnosti, že pojištěný ve věku x zemře v (k + 1) ním roce pojištění, která se počítá jako kp x q x+k = d x+k l x. Poznámka Při volbě populace, z níž hodnoty odhadujeme, je třeba brát v úvahu spoustu vlivů jako např. změnu způsobu života, války apod. Tímto problémem se zabývá sociologie a demografie.

Komutační čísla - motivace 26 Příklad: Jaké je (jednorázové) netto pojistné pro pojištění, které sjedná 40-letý muž, kde pojišt ovna vyplatí 1 mil. Kč, pokud pojištěný do 5 let zemře (vyplácí se na konci roku, kdy zemře), a pokud nezemře, pojištění zanikne bez náhrady. Řešení: Zemře-li pojištěný v k tém roce pojištění, dotane 1 mil. Kč. Vezmeme-li v úvahu ztrátu hodnoty peněz, má částka, kterou dostane, současnou hodnotu 10 6 v k. Pravděpobnost, že pojištěný v k tém roce pojištění zemře, je k p 40 q 40+k. Střední (současná) hodnota toho, co musí pojišt ovna vyplatit, je tudíž 10 6 ( 4 k=0 v k+1 k p 40 q 40+k ) = 10 6 d40v + d 41 v 2 +... + d 44 v 5 l 40.

Komutační čísla 27 komutační čísla nultého řádu: D x = l x v x (diskontovaný počet dožívajících se věku x) C x = d x v x+1 (diskontovaný počet zemřelých ve věku x) komutační čísla prvního řádu: N x = D x+j = D x + D x+1 + D x+2 +... M x = j=0 C x+j = C x + C x+1 + C x+2 +... j=0 komutační čísla druhého řádu: S x = N x+j = N x + N x+1 + N x+2 +... R x = j=0 M x+j = M x + M x+1 + M x+2 +... j=0

Komutační čísla - pokračování motivace 28 Zpět k příkladu: 10 6 d40v + d 41 v 2 +... + d 44 v 5 l 40 = 10 6 d40v 41 + d 41 v 42 +... + d 44 v 45 l 40 v 40 = 10 6 C40 + C 41 +... + C 44 D 40 = 10 6 M40 M 45 D 40, přičemž hodnoty M 40, M 45 a D 40 najdeme v úmrtnostních tabukách.

Druhy životní pojištění 29 Základním dělením životního pojištění je dělení na kapitálové pojištění - jednorázová výplata částky v případě úmrtí nebo dožití se daného věku důchodové pojištění - pravidelné výplaty částek v případě dožití se daného věku Oba tyto druhy pak mají spoustu typů, z nichž si zde uvedeme ty nejběžnější. Poznámka Jelikož pro střední hodnotu platí E(aZ) = aez, budeme vždy, pokud nebude řečeno jinak, počítat jednorázové netto pojistné (JNP) pro výplatu jednotkové částky. Pokud by pojištění bylo sjednáno na částku c, bylo by výsledné JNP obyčejným c násobkem námi vypočteného JNP.

Kapitálová životní pojištění 30 Pojištění pro případ dožití spočívá ve výplatě předem sjednané částky na konci roku n, pokud se osoba pojištěná ve věku x dožije věku x + n, jinak pojištění zaniká bez náhrady. Pro (jednorázové) netto pojistné platí JNP = EZ = n p x v n = D x+n D x.

Kapitálová životní pojištění 31 Pojištění pro případ smrti spočívá ve výplatě předem sjednané částky na konci roku, v němž osoba pojištěná ve věku x zemře, jinak pojištění zaniká bez náhrady. Pro (jednorázové) netto pojistné platí JNP = EZ = k=0. k p x q x+k v k+1 = M x D x.

Kapitálová životní pojištění 32 Dočasné pojištění pro případ smrti spočívá ve výplatě předem sjednané částky na konci roku, v němž osoba pojištěná ve věku x zemře, pokud k tomuto úmrtí dojde během n let, jinak pojištění zaniká bez náhrady. Pro (jednorázové) netto pojistné platí n 1 JNP = EZ =. k p x q x+k v k+1 = M x M x+n. D x k=0

Kapitálová životní pojištění 33 Smíšené pojištění spočívá ve výplatě předem sjednané částky a na konci roku, v němž osoba pojištěná ve věku x zemře, pokud k tomuto úmrtí dojde během n let, jinak vyplatí částku b. Pro (jednorázové) netto pojistné platí n 1 JNP = EZ = a. k p x q x+k v k+1 +b np x v n = a(m x M x+n ) + bd x+n. D x k=0

Důchodová životní pojištění 34 Pojištění doživotního důchodu spočívá v pravidelné výplatě předem sjednaných částek vždy na začátku roku, pokud osoba pojištěná ve věku x žije. Pro (jednorázové) netto pojistné platí JNP = EZ = k=0. k p x v k = N x D x.

Důchodová životní pojištění 35 Pojištění odloženého doživotního důchodu spočívá v pravidelné výplatě předem sjednaných částek vždy na začátku roku, pokud osoba pojištěná ve věku x žije, avšak tyto výplaty začnou až po j letech od uzavření tohoto pojištění. Pro (jednorázové) netto pojistné platí JNP = EZ = k=j. k p x v k = N x+j D x.

Důchodová životní pojištění 36 Pojištění dočasného doživotního důchodu spočívá v pravidelné výplatě předem sjednaných částek vždy na začátku roku, pokud osoba pojištěná ve věku x žije a neuplynulo ještě n let od začátku pojištění. Pro (jednorázové) netto pojistné platí n 1 JNP = EZ =. k p x v k = N x N x+n. D x k=0

37 II. SHLUKOVÁ ANALÝZA DAT

Shluková analýza dat 38 Cíl: zařadit objekty z nějakého souboru objektů do skupin (shluků) tak, aby si objekty v jedné skupině byly podobnější než objekty z různých skupin. Metod pro toto zařazení je spousta, stejně tak struktur shluků může bý více (kromě rozdělení do několika skupin můžeme řadit do vzájemně vnořených podskupin apod.).

Vstupní data 39 Soubor objektů, které dostaneme, je tvořen n prvky (objekty), které se mají shlukovat. U každého z nich pak pozorujeme m různých znaků (proměnných). To znamená, že vstupní údaje můžeme seřadit do matice rozměru n m. Její prvky pak budeme značit x il, i = 1,..., n, l = 1,..., m.

Typy proměnných 40 Rozlišujeme proměnné 1 poměrové - u jejich hodnot můžeme určit, o kolik i kolikrát je jedna hodnota větší než druhá (např. věk, cena,...), 2 intervalové - u jejich hodnot můžeme určit, o kolik, ne však už kolikrát, je jedna hodnota větší než druhá (např. teplota,...), 3 ordinální - u jejich hodnot můžeme určit pořadí hodnot (např. základní, střední a vysoká škola,...), 4 nominální - u jejich hodnot můžeme určit pouze, zda jsou stejné nebo různé (např. barva očí,...). Prvních dva typy - lze pracovat přímo s jejich hodnotami. Ordinální proměnné - např. hodnoty jejich pořadí. Nominální proměnné - speciální přístup.

Typy proměnných 41 Pro nominální proměnné lze pak použít metodu rozdělení proměnné na více binárních (tj. nabývajících hodnot 0 nebo 1) proměnných, kde 1 znamená, že objekt splňuje danou vlastnost, 0 opak. Např. příslušnost k univerzitě (ČVUT, UK nebo VŠE) lze zapsat takto: Univerzita X 1 X 2 X 3 ČVUT 1 0 0 UK 0 1 0 VŠE 0 0 1 Poznámka Analogicky lze pracovat i se zbylými typy proměnných. Proměnné ordinální lze pak pomocí binárních proměnných zapsat i takto: Vzdělání X 1 X 2 základní 0 0 střední 1 0 vysokoškolské 1 1

Normování hodnot proměnných 42 Požadavek: naměřené znaky by měly mít podobně velké a rozptýlené hodnoty třeba hodnoty vhodně vynormovat. Převedení na proměnné binární moc proměnných na vstupu. Jiné způsoby: vydělení směrodatnou odchylkou proměnné l: z il = x il s l, vydělení variančním rozpětím R l = max i (x il ) min i (x il ): z il = x il R l, převedení na hodnoty z intervalu < 0, 1 >: z il = x il min i (x il ) R l, převedení na hodnoty z intervalu < 0, 1 >, jejichž součet je roven 1: z il = x il n i=1 x. il

Měření podobnosti 43 Objekt i vyjádřit jako číselný vektor x i o složkách x il, l = 1,..., m (popř. po znormování z i o složkách z il, l = 1,..., m). Dva objekty pak můžeme považovat za podobnější než jiné dva, pokud jsou si v m dimenzionálním prostoru bĺıž. Obecně se vzdáleností mysĺı funkce D ij dvou prvků i a j, která splňuje následující: 1 D ij 0, 2 D ii = 0, 3 D ij = D ji Poznámka Občas se vyžaduje ještě čtvrtá vlastnost D ij + D jk D ik. Pak se mluví místo o vzdálenosti o metrice.

Měření podobnosti 44 Nejčastěji používanými vzdálenostmi jsou: eukleidovská: D ij = D(x i, x j ) = m (x il x jl ) 2, městských bloků (manhattanská): l=1 D ij = D(x i, x j ) = m x il x jl, l=1 maximová (Čebyševova): D ij = D(x i, x j ) = max x il x jl. l

Metody shlukové analýzy 45 Většinou se v literatuře uvádí dělení těchto metod na dvě základní skupiny podle toho, co má být výsledkem shlukování, a to: metody rozkladu (nehierarchické) - výsledkem je rozdělení souboru do k shluků, kde počet shluků je předem daný, metody hierarchické - výsledkem je posloupnost do sebe vnořených skupin objektů.

Metody rozkladu 46 Metody rozkladu lze dále rozdělit, a to na: metody jednoznačného přiřazení - výsledkem je jednoznačná příslušnost každého objektu do nějakého shluku, fuzzy shluková analýza - výsledkem jsou míry příslušnosti u ip každého objektu i do p tého shluku, pro které platí 1 0 u ip 1, 2 k p=1 u ip = 1.

Metody rozkladu 47 Metoda k průměrů 1 Na začátku se vybere k počátečních centroidů (např. prvních k objektů v souboru). 2 Pro každý prvek souboru se spočte jeho vzdálenost k jednotlivým centroidům a prvek se přiřadí do shluku k centroidu, ke kterému má nejbĺıž. 3 Po přiřazení všech prvků se spočte nový centroid shluku (např. bod v prostoru, jehož souřadnicemi jsou průměry hodnot jednotlivých proměnných) a celá procedura se opakuje. 4 Končí se ve chvíli, kdy už se žádný prvek během celé procedury nikam nepřesune.

Metody rozkladu 48 Metoda k medoidů Jedná se o metodu podobnou metodě k průměrů s tím rozdílem, že místo centroidu, což může být libovolný bod v prostoru, se prvky přiřazují medoidu, což je konkrétní objekt ze shluku. Ten se určí tak, aby součet vzdáleností od tohoto objektu byl minimální.

Hierarchické metody 49 Hierarchické metody lze stejně jako nehierarchické metody dále dělit podle toho, zda shlukujeme podle jedné či podle více proměnných, na metody 1 monotetické - shluky se vytvářejí postupně podle jednotlivých proměnných 2 polytetické - v každém kroku jsou uvažovány všechny proměnné najednou podle toho, zda shluky postupně rozkládáme nebo slučujeme, na metody 1 aglomerativní - na počátku je každý objekt samostatným shlukem a postupně dochází ke spojování shluků 2 divizivní - na počátku je celý soubor jedním shlukem a postupně dochází k dělení shluků

Hierarchické metody 50 Monotetické shlukování Výhodnější pro divizivní přístup. Všechny proměnné musí být binární. Postupně děĺıme shluky na dva podshluky podle hodnoty 0 nebo 1. Problém: nejednoznačnost rozkladu (možností výběru první proměnné m, druhé m 1 atd.) Řešení: kritérium výběru proměnných: 1 Uvažujme kontingenční tabulku k té a l té proměnné k \ l 0 1 0 a kl b kl 1 c kl d kl 2 Pro každou dvojici se spočte koeficient q kl = a kl d kl b kl c kl. 3 Za proměnnou, podle které budeme shluky dělit, je proměnná s nejvyšší hodnotou q l = k l q kl, k = 1, 2,..., m.

Hierarchické metody 51 Polytetické shlukování Na počátku každý prvek samostatný shluk. V každém kroku sloučení dvou shluků, které jsou si nejpodobnější. Vzdálenost mezi g tým shlukem a sjednocením shluků h a h určuje např. metoda průměrné vazby: n h D g<h,h > = n h + n h D gh + n h D gh, n h + n h kde n h a n h jsou počty prvků ve shlucích h, resp. h, mediánová metoda: metoda nejbližšího souseda: atd. D g<h,h > = 1 2 D gh + 1 2 D gh 1 4 D hh, D g<h,h > = 1 2 (D gh + D gh D gh D gh ),