Modelování heterogenity ročních příjmů českých domácností Modeling Heterogeinity in the Czech Household Incomes

Podobné dokumenty
Pravděpodobnostní model rozdělení příjmů v České republice

ROBUST 2014 Jetřichovice ledna

Pravděpodobnost a statistika

PRAVDĚPODOBNOST A STATISTIKA

AVDAT Mnohorozměrné metody, metody klasifikace

2 Hlavní charakteristiky v analýze přežití

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Odhady Parametrů Lineární Regrese

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Department of Mathematical Analysis and Applications of Mathematics Faculty of Science, Palacký University Olomouc Czech Republic

Apriorní rozdělení. Jan Kracík.

Ústav matematiky a statistiky Masarykova univerzita Brno. workshopy Finanční matematika v praxi III Matematické modely a aplikace Podlesí

7 Regresní modely v analýze přežití

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

4 Parametrické odhady

Bayesovské metody. Mnohorozměrná analýza dat

Klasická a robustní ortogonální regrese mezi složkami kompozice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Odhady - Sdružené rozdělení pravděpodobnosti

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Téma 22. Ondřej Nývlt

Charakterizace rozdělení

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Obr. 1: Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu.

8 Coxův model proporcionálních rizik I

POUŽITÍ KONEČNÝCH SMĚSÍ LOGARITMICKO-NORMÁLNÍCH ROZDĚLENÍ PRO MODELOVÁNÍ PŘÍJMŮ ČESKÝCH DOMÁCNOSTÍ

AVDAT Klasický lineární model, metoda nejmenších

Kredibilitní pojistné v pojištění automobilů. Silvie Zlatošová září 2016, Robust

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

MATEMATICKÁ STATISTIKA - XP01MST

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Lineární a logistická regrese

oddělení Inteligentní Datové Analýzy (IDA)

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

3 Bodové odhady a jejich vlastnosti

Intervalové Odhady Parametrů

Robustní statistické metody

Hodnocení vlastností materiálů podle ČSN EN 1990, přílohy D

velkou variabilitou: underdispersion, overdispersion)

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

Pravděpodobnost a statistika

Testování statistických hypotéz

Regresní analýza 1. Regresní analýza

5. B o d o v é o d h a d y p a r a m e t r ů

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Neparametrické odhady hustoty pravděpodobnosti

Šárka Došlá. Matematicko-fyzikální fakulta Univerzita Karlova v Praze. Bimodální rozdělení. Šárka Došlá. Motivace. Základní pojmy

IDENTIFIKACE BIMODALITY V DATECH

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Normální (Gaussovo) rozdělení

Odhad parametrů N(µ, σ 2 )

VLIV STATISTICKÉ ZÁVISLOSTI NÁHODNÝCH VELIČIN NA SPOLEHLIVOST KONSTRUKCE

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

pravděpodobnosti, popisné statistiky

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Odhad parametrů N(µ, σ 2 )

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

LWS při heteroskedasticitě

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Stavový model a Kalmanův filtr

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Normální (Gaussovo) rozdělení

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

PRAVDĚPODOBNOST A STATISTIKA

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Charakteristika datového souboru

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

EM algoritmus. Proč zahrnovat do modelu neznámé veličiny

Vybraná rozdělení náhodné veličiny

Rovnovážné modely v teorii portfolia

MATEMATICKÁ STATISTIKA

1/30. Mgr. Jan Šváb Zobecněný lineární model a jeho použití v povinném ručení Seminář z aktuárských věd. Slides by LATEX.

Fyzikální korespondenční seminář MFF UK

NEPARAMETRICKÁ DISKRIMINAČNÍ ANALÝZA

Vlastnosti odhadů ukazatelů způsobilosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Alternativní přístup k analýze vícefaktorových dat

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Bootstrap - konfidenční intervaly a testy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Základy počtu pravděpodobnosti a metod matematické statistiky

Základy teorie odhadu parametrů bodový odhad

KVADRATICKÁ KALIBRACE

PRAVDĚPODOBNOST A STATISTIKA. Metoda momentů Metoda maximální věrohodnosti

Patrice Marek. Západočeská univerzita v Plzni. * Podpořeno z OPVK CZ.1.07/2.2.00/

KGG/STG Statistika pro geografy

Transkript:

Modelování heterogenity ročních přímů českých domácností Modeling Heterogeinity in the Czech Household Incomes Marie Forbelská Abstract: The distribution of income in most populations is heterogeneous, with several modes and highly skewed, with a long right-hand-side tail and high density at the lower percentiles. Mixture-model-based clustering has become a popular approach of modeling heterogeinity for its statistical properties and the implementation simplicity of the EM algorithm. We focused on the partitions of household incomes into homogeneous subgroups via mixture models. Key words: Household income, Finite mixture models, EM algorithm, Generalized lambda distribution. Úvod Analýza rozdělení přímů domácností e důležitým ukazatelem pro posuzování životní úrovně obyvatelstva. Příspěvek e zaměřen na stochastické modelování heterogenity ročních přímů domácností pomocí konečných směsí. Podrobně sou popsány postupy při vytváření stochastických modelů s využitím normálních směsí pro logaritmy ročních přímů domácností. Pozornost e také věnována inému typu směsí, a to GLD směsím, kde GLD značí zobecněné lambda rozdělení. Na závěr e zmíněn mnohem obecněší přístup založený na GLM modelech.. Modely konečných směsí Roční přímy domácností maí rozdělení, které e silně zešikmené a e vícemodální, ak e názorně vidět z obrázků a, b, c, kde sou vykresleny ádrové odhady hustot dané vzorcem n x xi f ˆ n( x) = K nh i= h, kde x,...,x n sou pozorování, K e tzv. ádro, h e vyhlazovací parametr (více lze naít například v monografii Silverman, 978, [], popř. v práci Horová, Zelinka, 000, []). Obrázek a: Jádrový odhad hustoty ročních přímů českých domácností v roce 005 (zdro: EU SILC 005)

Obrázek b: Jádrový odhad hustoty ročních přímů českých domácností v roce 006 (zdro: EU SILC 006) Obrázek c: Jádrový odhad hustoty ročních přímů českých domácností v roce 007 (zdro: EU SILC 007) Za těchto okolností se přímo nabízí modelovat rozdělení ročních přímů domácností pomocí konečných směsí. Jestliže náhodná veličina X má hustotu tvaru kde π f ( x) = π f ( x) + + π k fk ( x), 0, =,, k, π + + π = > k a f (x) sou hustoty, pak řekneme, že hustota náhodné veličiny X e konečnou směsí k hustot. Pravděpodobnosti π ( =,, k) se nazývaí váhy směsí (proporce směsí nebo apriorní pravděpodobnosti). Více lze naít v monografii McLachlan and Peel (000, viz [7]). Abychom mohli rozčlenit směs f x; Ψ) = π f ( x; θ ) + + π f ( x; θ ), kde ( k k k Ψ = ( π,, π k, θ,, θk ) sou neznámé parametry, e třeba neprve určit typ rozdělení a následně odhadnout vektor neznámých parametrů Ψ. Standardní metodou odhadu neznámých parametrů na základě náhodného výběru x,...,x n e tzv. EM algoritmus (Dempster et al., 977, viz []), který ve dvou krocích, E a M, nabízí maximálně věrohodné odhady. Klasifikace, t. určení příslušnosti edince či obektu charakterizovaného veličinou x k edné z konečného počtu tříd, se děe pomocí aposteriorních pravděpodobností π f ( xi; θ ) ω ( xi) =, f ( x ; Ψ) a to tak, že edinec či obekt e přiřazen do té třídy, pro kterou e aposteriorní pravděpodobnost maximální. i

S ohledem na tvar rozdělení ročních přímů domácností lze postupovat dvoím způsobem a) buď modelovat hustotu přímů ako směs logaritmicko normálních rozdělení b) nebo hustotu logaritmu přímů modelovat ako směs normálních rozdělení, neboť náhodná veličina X má logaritmicko normální rozdělení LN ( µ, σ ) s hustotou tvaru ( log( x) µ ) f ( x) = exp > 0,, > 0 x µ R σ, x πσ σ pokud náhodná veličina Y = log(x ) má normální rozdělení N ( µ, σ ). Pro modelování ročních přímů domácností e výhodněší zvolit postup b). V dalším tedy budeme pracovat už en s logaritmy ročních přímů domácností. Obecně, estliže chceme použít konečné směsi hustot, musíme neprve určit parametr k počtu komponent. Pro tento účel e opět výhodné využít ádrové odhady hustot. Obrázek a: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005) Obrázek b: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006) Obrázek c: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007)

Ze tvarů odhadnutých hustot e zřemé, že směs bude obsahovat neméně tři komponenty. Výpočet provedeme pomocí EM algoritmu. Grafické znázornění výsledků e na obrázcích a, b, c a konkrétní maximálně věrohodné odhady vektoru neznámých parametrů Ψ ˆ MLE = ( ˆ π ˆ θˆ sou pro k= uvedeny v tabulce č.. ( ˆ π,, ˆ π, ˆ µ,, ˆ µ, ˆ σ,, σ ),, ˆ π ˆ k, θ,, k ) = k k k Obrázek a: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 005(zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek b: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 006(zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek c: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 007(zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty.

Tabulka : Výsledné maximálně věrohodné odhady parametrů ve složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.8.855 0.00 0.00.58 0.50 0.0.09 0.5 0.09.50 0.07 0.6.68 0.9 0.8.5 0.566 0.09.57 0.05 0.6.560 0.96 0.7.00 0.588 Není bez zaímavosti, že ve všech třech případech edna komponenta, eíž podíl e kolem edné třetiny, má vysokou variabilitu a v podstatě pokrývá všechny hodnoty logaritmů ročních přímů domácností. Tuto skupinu domácností lze také interpretovat ako nerozlišitelnou z hlediska výšky ročních přímů. Podíl takto nerozlišitelných domácností e příliš vysoký. Navíc z obrázků a, b a c e zřemé, že pouze komponenty k modelování logaritmů ročních přímů českých domácností v letech 005, 006 a 007 nesou postačuící. Chceme-li naít něaký optimální počet složek směsi, nabízí se velmi ednoduchý postup. Provedeme rozčlenění směsi postupně pro ednotlivá k a vybereme takové, které maximalizue logaritmus sdružené hustoty. Ovšem tento postup nevede k cíli, neboť s přidáním každé další složky se hodnota logaritmu sdružené hustoty neustále zvyšue. Proto se pro výběr optimálního počtu komponent používaí různá penalizovaná kritéria, například BIC kritérium (Bayesian Information Criterion) BIC = log(maximized likelihood) m log(n), kde m e počet neznámých parametrů (v našem případě m=k-) a n e počet pozorování (více např. Schwarz,978, viz [0]), popř. McLachlan and Peel, 000, viz [7]). Obrázek. Hodnoty BIC kritéria pro logaritmy ročních přímů v letech 005, 006, 007.

Na obrázku sou znázorněny hodnoty BIC kritéria pro různé volby parametru k (k=,...,9). Funkce Mclust z balíku mclust programovacího azyka R (viz [] a [9]) navrhue volbu k=6 pro všechny roky. Grafické výsledky sou opět prezentovány na obrázcích 5a, 5b, 5c a maximálně věrohodné odhady Ψˆ MLE vektoru neznámých parametrů Ψ pro k=6 sou uvedeny v tabulce č.. Obrázek 5a: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 5b: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 5c: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty.

Tabulka : Maximálně věrohodné odhady parametrů v 6ti složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.0.88 0.75 0.6.506 0.00 0.9. 0.00 0.59.5 0.05 5 0..8 0.07 6 0.7.00 0.60 0.5.5 0.00 0.056.5 0.007 0.6.8 0.0 0.85.596 0.0 5 0.50.89 0.7 6 0.9.6 0.666 0.65.67 0.0 0.07.5 0.0 0.8.9 0.0 0.90.69 0.0 5 0.67.99 0. 6 0.5. 0.76 Podíváme-li se podrobněi na obrázky 5a, 5b, 5c a tabulku č., vidíme, že opět existue složka, eíž variabilita e výrazně větší. Tentokrát však tyto nerozlišitelné složky tvoří 5ti až 0ti procentní podíl. I když 6ti-složková směs věrně popisue celkové rozdělení logaritmů přímů domácnosti, z hlediska interpretace není příliš vhodná. Vraťme se proto znovu k obrázku č. s hodnotami BIC kritéria pro ednotlivá k. Vidíme, že pro roky 005 a 006 stačí uvažovat pouze směs se komponentami. Grafické výsledky EM algoritmu pro tyto dva roky sou znázorněny na obrázcích 6a a 6b, maximálně věrohodné odhady Ψˆ MLE vektoru neznámých parametrů Ψ sou uvedeny v tabulce č.. Pro dokreslení sou uvedeny i výsledky roku 007 (na obrázku 6c a odhady parametrů v tabulce č. ), i když z hlediska BIC kritéria se směs se komponentami eví ako výrazně horší. Obrázek 6a: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty.

Obrázek 6b: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 6c: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty. Tabulka : Maximálně věrohodné odhady parametrů ve - složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.0.95 0.00 0.0.0 0.0 0.505.56 0.6 0.7.0 0.6 0.8.5 0.09 0..9 0.0 0.58.68 0. 0.9.7 0.567 0.0.790 0.69 0.0. 0.0 0.6.78 0.077 0.7.87 0.90 Modelueme-li logaritmy ročních přímů pomocí komponent, opět v roce 005 a 006 dostaneme složku, která má vysokou variabilitu a eví se z pohledu logaritmů ročních přímů ako nerozlišitelná a tvoří opět dosti vysoký podíl (7 a 9 procent). V roce 007 tuto složku nenalezneme, což e ovšem na úkor modelování nenižší přímové skupiny.

Chceme-li modelovat heterogenitu ročních přímů domácností, nesme odkázáni pouze na logaritmicko normální či normální rozdělení, ale existue celá řada dalších systémů, které dokáží velmi efektivně modelovat rozdělení podobného typu. Jako příklad můžeme uvést Pearsonův či Johnsonův systém křivek. Nevýhodou těchto systémů e ovšem nesnadná interpretace výsledných křivek. V posledních desetiletích se začal využívat další systém rozdělení, a to systém založený na tzv. zobecněném lambda rozdělení (GLD rozdělení), který se prosadil mimo iné také díky snadné interpretaci parametrů a možnosti efektivně generovat pseudonáhodná čísla při Monte Carlo studiích. GLD rozdělení e zobecněním Tukeova symetrického lambda rozdělení definovaného pomocí kvantilové funkce takto Kvantilová funkce e definovaná vztahem kde F (x) e distribuční funkce. u ( u ) 0 Q ( u; ) = pro 0 u. log( u) = 0 u { x R : F( x u} Q( u) = inf ), a) rovnoměrné rozdělení b) přibližně Cauchyovo rozdělení c) přibližně normální rozdělení Obrázek 7: Ukázky Tukeova symetrického lambda rozdělení při různé volbě parametru. Zobecněné lambda rozdělení (GLD rozdělení) e pak definováno pomocí čtyř parametrů, přičemž se používá dvoí parametrizace Ramberg and Schmeiser (97, viz [9]) RS GLD rozdělení Freimer, Mudholkar, Kollia, Lin (988, viz []) FMKL GLD rozdělení RS GLD rozdělení e definováno pomocí kvantilové funkce takto u ( u ) Q( u;,,, ) = + pro 0 u.

Pokud chceme explicitně vyádřit hustotu RS GLD rozdělení, použieme vzorec f ( Q( u) ) =. Q'( u) Pak hustota má pak tvar f ( ) = RS GLD x, u + ( u) kde Obrázek 8: Ukázky RS GLD rozdělení se stenými momenty. e parametr polohy a platí R, e parametr měřítka, > 0, sou parametry tvaru a eich parametrický prostor e tvořen 6 oblastmi, S S 5 6 = = (, ) (, ) S S S = = = {(, ):, } {(, ):, } {(, ): 0, 0} {(, ): 0, 0} S = ( ) : < 0, >, ( ) ( ) : >, < 0, ( ) ( ) ( ) < < Aby se zednodušil parametrický prostor pro a byla navržena iná parametrizace a FMKL GLD rozdělení e pomocí kvantilové funkce definováno takto u ( u) Q ( u; = +,,, ) pro 0 u, > 0.. Obrázek 9: Ukázky FMKL GLD rozdělení Pokud = 0, pak výraz u e nahrazen výrazem log(u ), obdobně pokud = 0, pak ( u) e nahrazeno log( u).

Na příkladu ročních přímů domácností důchodců bez ekonomicky aktivních členů budeme (s využitím balíčku GLDEX v programovacích prostředí R, viz []) demonstrovat modelování dvousložkové FMKL GLD směsi pomocí EM algoritmu neprve pro původní data a taká pro logaritmovaná data, viz obrázky 0a, 0b, 0c a a, b, c. Obrázek 0a: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 005 (zdro: EU SILC 005) Obrázek 0b: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 006 (zdro: EU SILC 006) Obrázek 0c: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 007 (zdro: EU SILC 007)

Obrázek a: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 005 (zdro: EU SILC 005) Obrázek b: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 006 (zdro: EU SILC 006) Obrázek c: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 007 (zdro: EU SILC 007) Roční přímy domácností důchodců bez ekonomicky aktivních členů sou asnou směsí dvou skupin, a to skupiny, kde hlavou domácností e žena a skupiny, kde hlavou domácností e muž (rozlišení hodnot e provedeno modrou a zelenou barvou). Z hlediska grafické interpretace výsledků e výhodněší modelovat logaritmy ročních přímů domácností.

Na závěr se en velmi krátce zmiňme o možnosti modelovat roční přímy domácností pomocí konečných směsí regresních GLM modelů. Tento přístup však předpokládá hluboké znalosti vnitřní struktury modelu, neboť nepopisue rozdělení ročních přímů osamoceně, ale s ohledem na další, například sociální, demografické či geografické charakteristiky domácností. Směsi GLM modelů předpokládaí, že podmíněné hustoty f,, f sou exponenciálního typu, t. lze e napsat ve tvaru { a( y) b( θ ) + c( ) d( )} k f ( y; θ ) = exp θ y, kde a ( ), b ( ), c ( ) a d ( ) sou známé funkce + θ ( x,, x m a parametr θ = ) závisí na něakých regresorech x,, x. m neznámé pravděpodobnosti π,,π opět záviseí na obecně iných regresorech k u,,u p, t. π = π ( u,, u p ). V této GLM směsi se pomocí ryze monotonních linkovacích funkcí g a g modeluí podmíněné střední hodnoty a pravděpodobnosti,, xm ) g ( β x + β x ) µ ( x = +,, u p ) g m m ( α u + α u ) π ( u = +, kde linkovací funkcí g může být π logit linkovací funkce: g = log, π probit linkovací funkce: g = Φ ( π ), kde Φ značí kvantilovou funkci N (0,), log-log linkovací funkce: g = log( log( π )), komplementární log-log linkovací funkce: g = log( log( )). π Připomeňme, že mezi rozdělení exponenciálního typu patří ze spoitých například normální a gama rozdělení, z diskrétních například alternativní, binomické, Poissonovo, negativně binomické rozdělení. Více podrobností o GLM modelech lze naít např. v práci McCullagh a Nelder (99, viz [6]), a regresní směsi GLM modelů sou podrobně popsané v monografii McLachlan a Peel (000, viz [7]).. Závěr Shrneme-li předchozí úvahy, e vidět, že pomocí EM algoritmu dokážeme díky vhodně zvolenému modelu konečných směsí provádět bayesovskou klasifikaci, a to na základě aposteriorních pravděpodobností. Následně e pak možné vypracovat podrobnou analýzu struktury ednotlivých komponent směsi, a to ak z hlediska sociálního složení domácností, tak i demografického či geografického. Konečné směsi sou tedy vhodným stochastickým nástroem pro provádění tzv. klasifikace bez učitele, někdy se také mluví o stochastické klastrové analýze (stochastic cluster analysis, popř. mixture-model-based clustering). p p

. Literatura [] DEMPSTER, A. P., LAIRD, N. M. RUBIN, D. B.: Likelihood from Incomplete Data via the EM Algorithm. In Journal of the Royal Statistical Society. Series B (Methodological) 9 (), pp. 8, 977. [] FRALEY, C., RAFTERY, A. E.: MCLUST: Normal Mixture Modeling and Model- Based Clustering. R package version.0-0; 006. [] FREIMER, M., MUDHOLKAR, G.S, KOLLIA, G, LIN, C.T. A study of the generalized Tukey lambda family. In Communications in Statistics Theory and Methods, 7, pp. 57-567, 988. [] HOROVÁ, I., ZELINKA, J. Contribution to the bandwidth choice for kernel density estimates. In Computational Statistics, Springer,,, pp. -7, 007. [5] JOHNSON, N. L., KOTZ, S, BALAKRISHAN, N.: Continuous univariate distributions, Vol., nd edition.new York: Wiley & Sons, 99. [6] MCCULLAGH, P., NELDER, J.A.: Generalized Linear Models. Chapman and Hall, London 99. [7] MCLACHLAN, G. J., PEEL, D.: Finite mixture models. New York: Wiley & Sons, 000. [8] R Development Core Team: R: A language and environment for statistical computing. R. Foundation for Statistical Computing, Vienna, Austria. 008. URL http://www.rproect.org [9] RAMBERG, J.S, SCHMEISER, B.W. : An approximate method for generating asymmetric random variables, In Communications of the Associaion for Computing Machinery, 7, pp. 78-8, 97. [0] SCHWARTZ, G.: Estimating the Dimension of a Model. In The Annals of Statistics, 6 (), pp. 6-6, 978. [] SILVERMAN, B. W.: Density Estimation for Statistics and Data Analysis. Chapman and Hall, New York, 986. [] SU, S.: GLDEX: Fitting Single and Mixture of Generalized Lambda Distributions (RS and FMKL) Using Discretized and Maximum Likelihood Methods. R package version.0.., 007. Kontakt: Marie Forbelská, RNDr., PhD. Ústav matematiky a statistiky, Přírodovědecká fakulta Masarykovy univerzity Kotlářská 6 7 Brno Česká republika forbel@math.muni.cz