Modelování heterogenity ročních přímů českých domácností Modeling Heterogeinity in the Czech Household Incomes Marie Forbelská Abstract: The distribution of income in most populations is heterogeneous, with several modes and highly skewed, with a long right-hand-side tail and high density at the lower percentiles. Mixture-model-based clustering has become a popular approach of modeling heterogeinity for its statistical properties and the implementation simplicity of the EM algorithm. We focused on the partitions of household incomes into homogeneous subgroups via mixture models. Key words: Household income, Finite mixture models, EM algorithm, Generalized lambda distribution. Úvod Analýza rozdělení přímů domácností e důležitým ukazatelem pro posuzování životní úrovně obyvatelstva. Příspěvek e zaměřen na stochastické modelování heterogenity ročních přímů domácností pomocí konečných směsí. Podrobně sou popsány postupy při vytváření stochastických modelů s využitím normálních směsí pro logaritmy ročních přímů domácností. Pozornost e také věnována inému typu směsí, a to GLD směsím, kde GLD značí zobecněné lambda rozdělení. Na závěr e zmíněn mnohem obecněší přístup založený na GLM modelech.. Modely konečných směsí Roční přímy domácností maí rozdělení, které e silně zešikmené a e vícemodální, ak e názorně vidět z obrázků a, b, c, kde sou vykresleny ádrové odhady hustot dané vzorcem n x xi f ˆ n( x) = K nh i= h, kde x,...,x n sou pozorování, K e tzv. ádro, h e vyhlazovací parametr (více lze naít například v monografii Silverman, 978, [], popř. v práci Horová, Zelinka, 000, []). Obrázek a: Jádrový odhad hustoty ročních přímů českých domácností v roce 005 (zdro: EU SILC 005)
Obrázek b: Jádrový odhad hustoty ročních přímů českých domácností v roce 006 (zdro: EU SILC 006) Obrázek c: Jádrový odhad hustoty ročních přímů českých domácností v roce 007 (zdro: EU SILC 007) Za těchto okolností se přímo nabízí modelovat rozdělení ročních přímů domácností pomocí konečných směsí. Jestliže náhodná veličina X má hustotu tvaru kde π f ( x) = π f ( x) + + π k fk ( x), 0, =,, k, π + + π = > k a f (x) sou hustoty, pak řekneme, že hustota náhodné veličiny X e konečnou směsí k hustot. Pravděpodobnosti π ( =,, k) se nazývaí váhy směsí (proporce směsí nebo apriorní pravděpodobnosti). Více lze naít v monografii McLachlan and Peel (000, viz [7]). Abychom mohli rozčlenit směs f x; Ψ) = π f ( x; θ ) + + π f ( x; θ ), kde ( k k k Ψ = ( π,, π k, θ,, θk ) sou neznámé parametry, e třeba neprve určit typ rozdělení a následně odhadnout vektor neznámých parametrů Ψ. Standardní metodou odhadu neznámých parametrů na základě náhodného výběru x,...,x n e tzv. EM algoritmus (Dempster et al., 977, viz []), který ve dvou krocích, E a M, nabízí maximálně věrohodné odhady. Klasifikace, t. určení příslušnosti edince či obektu charakterizovaného veličinou x k edné z konečného počtu tříd, se děe pomocí aposteriorních pravděpodobností π f ( xi; θ ) ω ( xi) =, f ( x ; Ψ) a to tak, že edinec či obekt e přiřazen do té třídy, pro kterou e aposteriorní pravděpodobnost maximální. i
S ohledem na tvar rozdělení ročních přímů domácností lze postupovat dvoím způsobem a) buď modelovat hustotu přímů ako směs logaritmicko normálních rozdělení b) nebo hustotu logaritmu přímů modelovat ako směs normálních rozdělení, neboť náhodná veličina X má logaritmicko normální rozdělení LN ( µ, σ ) s hustotou tvaru ( log( x) µ ) f ( x) = exp > 0,, > 0 x µ R σ, x πσ σ pokud náhodná veličina Y = log(x ) má normální rozdělení N ( µ, σ ). Pro modelování ročních přímů domácností e výhodněší zvolit postup b). V dalším tedy budeme pracovat už en s logaritmy ročních přímů domácností. Obecně, estliže chceme použít konečné směsi hustot, musíme neprve určit parametr k počtu komponent. Pro tento účel e opět výhodné využít ádrové odhady hustot. Obrázek a: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005) Obrázek b: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006) Obrázek c: Jádrový odhad hustoty logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007)
Ze tvarů odhadnutých hustot e zřemé, že směs bude obsahovat neméně tři komponenty. Výpočet provedeme pomocí EM algoritmu. Grafické znázornění výsledků e na obrázcích a, b, c a konkrétní maximálně věrohodné odhady vektoru neznámých parametrů Ψ ˆ MLE = ( ˆ π ˆ θˆ sou pro k= uvedeny v tabulce č.. ( ˆ π,, ˆ π, ˆ µ,, ˆ µ, ˆ σ,, σ ),, ˆ π ˆ k, θ,, k ) = k k k Obrázek a: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 005(zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek b: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 006(zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek c: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 007(zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty.
Tabulka : Výsledné maximálně věrohodné odhady parametrů ve složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.8.855 0.00 0.00.58 0.50 0.0.09 0.5 0.09.50 0.07 0.6.68 0.9 0.8.5 0.566 0.09.57 0.05 0.6.560 0.96 0.7.00 0.588 Není bez zaímavosti, že ve všech třech případech edna komponenta, eíž podíl e kolem edné třetiny, má vysokou variabilitu a v podstatě pokrývá všechny hodnoty logaritmů ročních přímů domácností. Tuto skupinu domácností lze také interpretovat ako nerozlišitelnou z hlediska výšky ročních přímů. Podíl takto nerozlišitelných domácností e příliš vysoký. Navíc z obrázků a, b a c e zřemé, že pouze komponenty k modelování logaritmů ročních přímů českých domácností v letech 005, 006 a 007 nesou postačuící. Chceme-li naít něaký optimální počet složek směsi, nabízí se velmi ednoduchý postup. Provedeme rozčlenění směsi postupně pro ednotlivá k a vybereme takové, které maximalizue logaritmus sdružené hustoty. Ovšem tento postup nevede k cíli, neboť s přidáním každé další složky se hodnota logaritmu sdružené hustoty neustále zvyšue. Proto se pro výběr optimálního počtu komponent používaí různá penalizovaná kritéria, například BIC kritérium (Bayesian Information Criterion) BIC = log(maximized likelihood) m log(n), kde m e počet neznámých parametrů (v našem případě m=k-) a n e počet pozorování (více např. Schwarz,978, viz [0]), popř. McLachlan and Peel, 000, viz [7]). Obrázek. Hodnoty BIC kritéria pro logaritmy ročních přímů v letech 005, 006, 007.
Na obrázku sou znázorněny hodnoty BIC kritéria pro různé volby parametru k (k=,...,9). Funkce Mclust z balíku mclust programovacího azyka R (viz [] a [9]) navrhue volbu k=6 pro všechny roky. Grafické výsledky sou opět prezentovány na obrázcích 5a, 5b, 5c a maximálně věrohodné odhady Ψˆ MLE vektoru neznámých parametrů Ψ pro k=6 sou uvedeny v tabulce č.. Obrázek 5a: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 5b: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 5c: Výsledky EM algoritmu pro 6ti - složkovou směs logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty.
Tabulka : Maximálně věrohodné odhady parametrů v 6ti složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.0.88 0.75 0.6.506 0.00 0.9. 0.00 0.59.5 0.05 5 0..8 0.07 6 0.7.00 0.60 0.5.5 0.00 0.056.5 0.007 0.6.8 0.0 0.85.596 0.0 5 0.50.89 0.7 6 0.9.6 0.666 0.65.67 0.0 0.07.5 0.0 0.8.9 0.0 0.90.69 0.0 5 0.67.99 0. 6 0.5. 0.76 Podíváme-li se podrobněi na obrázky 5a, 5b, 5c a tabulku č., vidíme, že opět existue složka, eíž variabilita e výrazně větší. Tentokrát však tyto nerozlišitelné složky tvoří 5ti až 0ti procentní podíl. I když 6ti-složková směs věrně popisue celkové rozdělení logaritmů přímů domácnosti, z hlediska interpretace není příliš vhodná. Vraťme se proto znovu k obrázku č. s hodnotami BIC kritéria pro ednotlivá k. Vidíme, že pro roky 005 a 006 stačí uvažovat pouze směs se komponentami. Grafické výsledky EM algoritmu pro tyto dva roky sou znázorněny na obrázcích 6a a 6b, maximálně věrohodné odhady Ψˆ MLE vektoru neznámých parametrů Ψ sou uvedeny v tabulce č.. Pro dokreslení sou uvedeny i výsledky roku 007 (na obrázku 6c a odhady parametrů v tabulce č. ), i když z hlediska BIC kritéria se směs se komponentami eví ako výrazně horší. Obrázek 6a: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 005 (zdro: EU SILC 005). Zelená přerušovaná čára značí ádrový odhad hustoty.
Obrázek 6b: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 006 (zdro: EU SILC 006). Zelená přerušovaná čára značí ádrový odhad hustoty. Obrázek 6c: Výsledky EM algoritmu pro - složkovou směs logaritmů ročních přímů českých domácností v roce 007 (zdro: EU SILC 007). Zelená přerušovaná čára značí ádrový odhad hustoty. Tabulka : Maximálně věrohodné odhady parametrů ve - složkové směsi logaritmů ročních přímů českých domácností (zdro: EU SILC 005, 006, 007). Rok 005 006 007 Komponenta Proporce π Střední hodnota μ Rozptyl σ 0.0.95 0.00 0.0.0 0.0 0.505.56 0.6 0.7.0 0.6 0.8.5 0.09 0..9 0.0 0.58.68 0. 0.9.7 0.567 0.0.790 0.69 0.0. 0.0 0.6.78 0.077 0.7.87 0.90 Modelueme-li logaritmy ročních přímů pomocí komponent, opět v roce 005 a 006 dostaneme složku, která má vysokou variabilitu a eví se z pohledu logaritmů ročních přímů ako nerozlišitelná a tvoří opět dosti vysoký podíl (7 a 9 procent). V roce 007 tuto složku nenalezneme, což e ovšem na úkor modelování nenižší přímové skupiny.
Chceme-li modelovat heterogenitu ročních přímů domácností, nesme odkázáni pouze na logaritmicko normální či normální rozdělení, ale existue celá řada dalších systémů, které dokáží velmi efektivně modelovat rozdělení podobného typu. Jako příklad můžeme uvést Pearsonův či Johnsonův systém křivek. Nevýhodou těchto systémů e ovšem nesnadná interpretace výsledných křivek. V posledních desetiletích se začal využívat další systém rozdělení, a to systém založený na tzv. zobecněném lambda rozdělení (GLD rozdělení), který se prosadil mimo iné také díky snadné interpretaci parametrů a možnosti efektivně generovat pseudonáhodná čísla při Monte Carlo studiích. GLD rozdělení e zobecněním Tukeova symetrického lambda rozdělení definovaného pomocí kvantilové funkce takto Kvantilová funkce e definovaná vztahem kde F (x) e distribuční funkce. u ( u ) 0 Q ( u; ) = pro 0 u. log( u) = 0 u { x R : F( x u} Q( u) = inf ), a) rovnoměrné rozdělení b) přibližně Cauchyovo rozdělení c) přibližně normální rozdělení Obrázek 7: Ukázky Tukeova symetrického lambda rozdělení při různé volbě parametru. Zobecněné lambda rozdělení (GLD rozdělení) e pak definováno pomocí čtyř parametrů, přičemž se používá dvoí parametrizace Ramberg and Schmeiser (97, viz [9]) RS GLD rozdělení Freimer, Mudholkar, Kollia, Lin (988, viz []) FMKL GLD rozdělení RS GLD rozdělení e definováno pomocí kvantilové funkce takto u ( u ) Q( u;,,, ) = + pro 0 u.
Pokud chceme explicitně vyádřit hustotu RS GLD rozdělení, použieme vzorec f ( Q( u) ) =. Q'( u) Pak hustota má pak tvar f ( ) = RS GLD x, u + ( u) kde Obrázek 8: Ukázky RS GLD rozdělení se stenými momenty. e parametr polohy a platí R, e parametr měřítka, > 0, sou parametry tvaru a eich parametrický prostor e tvořen 6 oblastmi, S S 5 6 = = (, ) (, ) S S S = = = {(, ):, } {(, ):, } {(, ): 0, 0} {(, ): 0, 0} S = ( ) : < 0, >, ( ) ( ) : >, < 0, ( ) ( ) ( ) < < Aby se zednodušil parametrický prostor pro a byla navržena iná parametrizace a FMKL GLD rozdělení e pomocí kvantilové funkce definováno takto u ( u) Q ( u; = +,,, ) pro 0 u, > 0.. Obrázek 9: Ukázky FMKL GLD rozdělení Pokud = 0, pak výraz u e nahrazen výrazem log(u ), obdobně pokud = 0, pak ( u) e nahrazeno log( u).
Na příkladu ročních přímů domácností důchodců bez ekonomicky aktivních členů budeme (s využitím balíčku GLDEX v programovacích prostředí R, viz []) demonstrovat modelování dvousložkové FMKL GLD směsi pomocí EM algoritmu neprve pro původní data a taká pro logaritmovaná data, viz obrázky 0a, 0b, 0c a a, b, c. Obrázek 0a: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 005 (zdro: EU SILC 005) Obrázek 0b: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 006 (zdro: EU SILC 006) Obrázek 0c: Výsledky EM algoritmu pro - složkovou FMKL GLD směs ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 007 (zdro: EU SILC 007)
Obrázek a: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 005 (zdro: EU SILC 005) Obrázek b: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 006 (zdro: EU SILC 006) Obrázek c: Výsledky EM algoritmu pro - složkovou FMKL GLD směs logaritmů ročních přímů domácností důchodců bez ekonomicky aktivních členů v roce 007 (zdro: EU SILC 007) Roční přímy domácností důchodců bez ekonomicky aktivních členů sou asnou směsí dvou skupin, a to skupiny, kde hlavou domácností e žena a skupiny, kde hlavou domácností e muž (rozlišení hodnot e provedeno modrou a zelenou barvou). Z hlediska grafické interpretace výsledků e výhodněší modelovat logaritmy ročních přímů domácností.
Na závěr se en velmi krátce zmiňme o možnosti modelovat roční přímy domácností pomocí konečných směsí regresních GLM modelů. Tento přístup však předpokládá hluboké znalosti vnitřní struktury modelu, neboť nepopisue rozdělení ročních přímů osamoceně, ale s ohledem na další, například sociální, demografické či geografické charakteristiky domácností. Směsi GLM modelů předpokládaí, že podmíněné hustoty f,, f sou exponenciálního typu, t. lze e napsat ve tvaru { a( y) b( θ ) + c( ) d( )} k f ( y; θ ) = exp θ y, kde a ( ), b ( ), c ( ) a d ( ) sou známé funkce + θ ( x,, x m a parametr θ = ) závisí na něakých regresorech x,, x. m neznámé pravděpodobnosti π,,π opět záviseí na obecně iných regresorech k u,,u p, t. π = π ( u,, u p ). V této GLM směsi se pomocí ryze monotonních linkovacích funkcí g a g modeluí podmíněné střední hodnoty a pravděpodobnosti,, xm ) g ( β x + β x ) µ ( x = +,, u p ) g m m ( α u + α u ) π ( u = +, kde linkovací funkcí g může být π logit linkovací funkce: g = log, π probit linkovací funkce: g = Φ ( π ), kde Φ značí kvantilovou funkci N (0,), log-log linkovací funkce: g = log( log( π )), komplementární log-log linkovací funkce: g = log( log( )). π Připomeňme, že mezi rozdělení exponenciálního typu patří ze spoitých například normální a gama rozdělení, z diskrétních například alternativní, binomické, Poissonovo, negativně binomické rozdělení. Více podrobností o GLM modelech lze naít např. v práci McCullagh a Nelder (99, viz [6]), a regresní směsi GLM modelů sou podrobně popsané v monografii McLachlan a Peel (000, viz [7]).. Závěr Shrneme-li předchozí úvahy, e vidět, že pomocí EM algoritmu dokážeme díky vhodně zvolenému modelu konečných směsí provádět bayesovskou klasifikaci, a to na základě aposteriorních pravděpodobností. Následně e pak možné vypracovat podrobnou analýzu struktury ednotlivých komponent směsi, a to ak z hlediska sociálního složení domácností, tak i demografického či geografického. Konečné směsi sou tedy vhodným stochastickým nástroem pro provádění tzv. klasifikace bez učitele, někdy se také mluví o stochastické klastrové analýze (stochastic cluster analysis, popř. mixture-model-based clustering). p p
. Literatura [] DEMPSTER, A. P., LAIRD, N. M. RUBIN, D. B.: Likelihood from Incomplete Data via the EM Algorithm. In Journal of the Royal Statistical Society. Series B (Methodological) 9 (), pp. 8, 977. [] FRALEY, C., RAFTERY, A. E.: MCLUST: Normal Mixture Modeling and Model- Based Clustering. R package version.0-0; 006. [] FREIMER, M., MUDHOLKAR, G.S, KOLLIA, G, LIN, C.T. A study of the generalized Tukey lambda family. In Communications in Statistics Theory and Methods, 7, pp. 57-567, 988. [] HOROVÁ, I., ZELINKA, J. Contribution to the bandwidth choice for kernel density estimates. In Computational Statistics, Springer,,, pp. -7, 007. [5] JOHNSON, N. L., KOTZ, S, BALAKRISHAN, N.: Continuous univariate distributions, Vol., nd edition.new York: Wiley & Sons, 99. [6] MCCULLAGH, P., NELDER, J.A.: Generalized Linear Models. Chapman and Hall, London 99. [7] MCLACHLAN, G. J., PEEL, D.: Finite mixture models. New York: Wiley & Sons, 000. [8] R Development Core Team: R: A language and environment for statistical computing. R. Foundation for Statistical Computing, Vienna, Austria. 008. URL http://www.rproect.org [9] RAMBERG, J.S, SCHMEISER, B.W. : An approximate method for generating asymmetric random variables, In Communications of the Associaion for Computing Machinery, 7, pp. 78-8, 97. [0] SCHWARTZ, G.: Estimating the Dimension of a Model. In The Annals of Statistics, 6 (), pp. 6-6, 978. [] SILVERMAN, B. W.: Density Estimation for Statistics and Data Analysis. Chapman and Hall, New York, 986. [] SU, S.: GLDEX: Fitting Single and Mixture of Generalized Lambda Distributions (RS and FMKL) Using Discretized and Maximum Likelihood Methods. R package version.0.., 007. Kontakt: Marie Forbelská, RNDr., PhD. Ústav matematiky a statistiky, Přírodovědecká fakulta Masarykovy univerzity Kotlářská 6 7 Brno Česká republika forbel@math.muni.cz