Pravděpodobnostní model rozdělení příjmů v České republice

Podobné dokumenty
Výběrové charakteristiky a jejich rozdělení

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Charakterizace rozdělení

y = 0, ,19716x.

VLIV STATISTICKÉ ZÁVISLOSTI NÁHODNÝCH VELIČIN NA SPOLEHLIVOST KONSTRUKCE

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

PŘÍSPĚVEK K ANALÝZE ROZDĚLENÍ PŘÍJMŮ DOMÁCNOSTÍ V ČR

Pravděpodobnost a statistika

Pravděpodobnost a matematická statistika

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Základy teorie odhadu parametrů bodový odhad

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a statistika

5. B o d o v é o d h a d y p a r a m e t r ů

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Odhady Parametrů Lineární Regrese

Odhad parametrů N(µ, σ 2 )

Vlastnosti odhadů ukazatelů způsobilosti

KVADRATICKÁ KALIBRACE

8. Normální rozdělení

Vybraná rozdělení náhodné veličiny

IDENTIFIKACE BIMODALITY V DATECH

Definice spojité náhodné veličiny zjednodušená verze

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

KGG/STG Statistika pro geografy

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

Příjmy domácností ve vybraných regionech České republiky Household Income in Some Regions in the Czech Republic

MOŽNOSTI APROXIMACE ROZDĚLENÍ KOLEKTIVNÍHO RIZIKA

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Pravděpodobnost a aplikovaná statistika

3 Bodové odhady a jejich vlastnosti

Téma 22. Ondřej Nývlt

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Normální rozložení a odvozená rozložení

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Pravděpodobnost a statistika I KMA/K413

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Mgr. Rudolf Blažek, Ph.D. prof. RNDr. Roman Kotecký Dr.Sc.

ZÁKLADNÍ POJMY a analýza výběru

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Vysoká škola ekonomická v Praze

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Národní informační středisko pro podporu kvality

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4 Parametrické odhady

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Přijímací zkouška na navazující magisterské studium 2014

Modelování heterogenity ročních příjmů českých domácností Modeling Heterogeinity in the Czech Household Incomes

Uni- and multi-dimensional parametric tests for comparison of sample results

pravděpodobnosti, popisné statistiky

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Chyby měření 210DPSM

Regresní analýza. Eva Jarošová

INTERVALOVÉ ODHADY PARAMETRŮ ZÁKLADNÍHO SOUBORU

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

7. Rozdělení pravděpodobnosti ve statistice

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

8 Coxův model proporcionálních rizik I

15. T e s t o v á n í h y p o t é z

Patrice Marek. Západočeská univerzita v Plzni. * Podpořeno z OPVK CZ.1.07/2.2.00/

Základy teorie pravděpodobnosti

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

MATEMATICKÁ STATISTIKA - XP01MST

Řešení. Označme po řadě F (z) Odtud plyne, že

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Semestrální písemka BMA3 - termín varianta A13 vzorové řešení

SPOJITÉ ROZDĚLENÍ PRAVDĚPODOBNOSTI. 7. cvičení

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistická analýza jednorozměrných dat

1. Přednáška. Ing. Miroslav Šulai, MBA

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

MATEMATICKÁ STATISTIKA

Národníinformačnístředisko pro podporu jakosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

oddělení Inteligentní Datové Analýzy (IDA)

Inovace bakalářského studijního oboru Aplikovaná chemie

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

4. Aplikace matematiky v ekonomii

Testy. Pavel Provinský. 19. listopadu 2013

Design Experimentu a Statistika - AGA46E

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Analýza dat na PC I.

Transkript:

Jitka Bartošová Pravděpodobnostní model rozdělení příjmů v České republice # Jitka Bartošová * Úvod Zkoumání rozdělení příjmů a jeho porovnávání z různých sociálně-ekonomických a časově-prostorových hledisek je východiskem pro posouzení životní úrovně obyvatelstva, úrovně sociálního zabezpečení a sociální spravedlnosti v rozdělování materiálních hodnot, vytvořených společností. Analýza rozdělení příjmů, vedoucí ke kvantitativnímu vystižení životní úrovně, je zaměřena na charakterizaci příjmové nerovnosti. V minulosti byla tato nerovnost vyjadřována obvykle pomocí Lorenzovy křivky a z ní vypočtených základních charakteristik příjmové diferenciace, odvozených Paretem, Brescianim, Ginim, Pietrem atd. V současné literatuře je tento tradiční přístup obohacen o zjišťování rozdílů mezi několika populacemi, lišícími se buď ze sociálněekonomického, nebo geografického hlediska, a o kvantitativní vystižení příspěvků jednotlivých subpopulací k nerovnosti příjmů celé heterogenní populace. Předložený článek je zaměřen na problematiku konstrukce pravděpodobnostního modelu rozdělení příjmů domácností s využitím hustoty známého teoretického rozdělení. Praktická část příspěvku je zaměřena na prezentaci výsledků modelování rozdělení příjmů neagregovaných datových souborů domácností v ČR, pocházejících z Mikrocensu 1996. Důvodem použití uvedeného datového souboru je to, že neagregovaná data umožňují kvalitní odhady parametrů zvoleného teoretického modelu. 1. Pravděpodobnostní modelování rozdělení Pravděpodobnostní modely rozdělení sledované veličiny umožňují jednoduchou aproximaci často značně komplikovaného výběrového rozdělení. Typ modelu, použitého v praxi, by měl pokud možno vyplývat logicky z charakteru sledovaného znaku nebo z dlouhodobé zkušenosti s jeho chováním. V těch případech, kdy logická kritéria chybějí, používáme k modelování tu teoretickou distribuční funkci, která maximalizuje shodu empirického a teoretického rozdělení četností. Ke konstrukci pravděpodobnostních modelů lze přistupovat dvěma principiálně odlišnými způsoby. Můžeme použít některé známé rozdělení, jako je rozdělení logaritmicko-normální, Paretovo, Weibullovo, gamma apod. (viz Johnson Kotz Balakrishnan, 1994), # * Článek je zpracován jako jeden z výstupů výzkumného projektu Získávání a modelování (lékařských) znalostí (ZIMOLEZ) registrovaného u grantové agentury FRVŠ pod evidenčním číslem C/06/019. RNDr. Jitka Bartošová, Ph.D. odborná asistentka; Katedra managementu informací, Fakulta managementu VŠE v Praze, bartosov@fm.vse.cz. 7

Acta Oeconomica Pragensia, roč. 15, č. 1, 007 aproximovat empirické rozdělení některou teoretickou křivkou z Pearsonova, či Johnsonova systému nebo namodelovat jeho tvar vhodnou rychle konvergující řadou (viz Edgeworth, 1907, s. 10 106). Při aproximaci empirického rozdělení pomocí známých rozdělení (parametrických modelů) si můžeme vybrat jednu ze dvou cest vedoucích k cíli. Můžeme využít hodnoty distribuční funkce F(x) (případně její derivace), kvantilové funkce Q(p) (popřípadě její derivace). Používané parametrické modely jsou definovány následovně. Jestliže X 1,,X n jsou nezávislé, stejně rozdělené náhodné veličiny s touž distribuční funkcí F = F θ, resp. kvantilovou funkcí Q = Q θ, pak jednoparametrickým modelem s parametrem θ je myšlen funkcionál { Fθ R}, resp. Q = { Q θ Θ R} F = θ Θ θ (1) kde F θ distribuční funkce s parametrem θ, kde θ je parametr modelu, Q θ kvantilová funkce s parametrem θ, Θ otevřená a konvexní množina všech parametrů. Tuto definici r lze jednoduše zobecnit rovněž pro víceparametrické modely s vektorem parametrů θ = (θ 1,,θ k ). 1.1 Modelování pomocí generalizovaných systémů Snaha o optimální aproximaci reálného empirického rozdělení vedla postupně k vytvoření několika teoretických (generalizovaných) systémů, které umožňují aproximaci mnoha empirických rozdělení. Historickou prioritu ve vytvoření univerzálního systému teoretických rozdělení, vhodných k modelování široké třídy empirických rozdělení, lze pravděpodobně přisoudit Pearsonovi (viz Pearson, 1895, s. 343 414). Všechny křivky z Pearsonova systému jsou prvky z množiny kořenů diferenciální rovnice dy dz 0 ( z b ) y 1 = () b + b z + b z 1 kde y = f(z) hustota rozdělení veličiny Z = X µ, kde µ = E(X), b 0, b 1, b konstanty závislé na momentových charakteristikách rozdělení. Tvar řešení diferenciální rovnice, tj. výsledné křivky, závisí na konstantách b 0, b 1 a b. Pearsonův systém má některé přednosti, ale i nedostatky. Hlavní předností systému je jeho univerzálnost velmi často existuje křivka, která zajistí pro praxi dostačující shodu modelu s empirickým rozdělením. Naopak jeho velkou nevýhodou je, že odhad parametrů modelu je produktem málo vydatné a nerobustní momentové metody. Další nevýhodou systému je jeho formálnost pro parametry jednotlivých křivek bychom jen těžko hledali věcnou interpretaci. Jiný alternativní přístup k modelování rozdělení je založen na transformaci sledované náhodné veličiny na veličinu s normálním rozdělením. Takovou polynomiální transformaci náhodné proměnné navrhl Edgeworth. Na tomto principu je založen 8

Jitka Bartošová Johnsonův systém křivek (viz Johnson, 1949, s. 149 176), který tento princip rozvíjí tak, aby vedl k univerzálnímu modelu. Johnsonův systém je tvořen třemi typy křivek S L, S B a S U. Pro nás zajímavé je to, že křivka typu S L je shodná s tříparametrickým logaritmicko-normálním rozdělením. Dalším prostředkem, používaným při modelování empirického rozdělení, jsou rychle konvergující nekonečné řady. Prvním členem řady je vždy tzv. vytvořující funkce, další členy jsou tvořeny jejími derivacemi. Např. řada Gram-Charlierovu typu A, která byla poprvé publikována v r. 1905, je tvořena násobky hustoty pravděpodobnosti normovaného normálního rozdělení a jejích derivací. Platí kde ( n) ( u) = a ( u) + a ϕ ( u) + a ϕ ( u) +... + a ( u)... f 0 ϕ 1 nϕ + (3) f(u) hustota rozdělení standardizované veličiny U = X µ, kde µ = E(X), φ(u) hustota normovaného normálního rozdělení, φ (n) (u) n-tá derivace hustoty normovaného normálního rozdělení φ(u), a n, n=0,1, konstanty modelu. Při konstrukci modelu se obvykle omezujeme pouze na první tři členy rozvoje. Uvedený model má však jednu velmi nepříjemnou vlastnost u nesymetrických rozdělení dospíváme na jejich okraji často k záporným výsledkům hustoty pravděpodobnosti. Situace se zlepší, vyjdeme-li z jiného rozdělení, např. z Poissonova rozdělení. Pokud za vytvořující funkci vezmeme hustotu pravděpodobnosti Poissonova rozdělení, dostaneme Poisson-Charlierovu řadu typu B (viz Johnson Kotz Balakrishnan, 1994). Rozvoje v řady poskytují zvlášť vhodný prostředek k vystižení rozdělení četností směsí, kde každá složka má charakteristiky odlišné od ostatních. V takových případech nelze docílit pomocí Pearsonových křivek takové přizpůsobivosti modelu rozdělení, jako pomocí rozvoje. 1. Modelování pomocí známých rozdělení Schopnost citlivě vystihnout empirické rozdělení některým známým parametrickým modelem souvisí s počtem jeho parametrů. Velký počet parametrů však nejenom zvyšuje pružnost přizpůsobení, ale také nestabilitu modelu, takže model je zároveň vysoce citlivý na chyby v datových souborech. Takovým univerzálním pravděpodobnostním modelem empirického rozdělení četností je např. generalizované lambda rozdělení (GLD). Generalizované lambda rozdělení se čtyřmi parametrické (RS GLD), navržené Rambergem a Schmeiserem (viz Ramberg Schmeiser, 1974, s. 78 8), je dáno kvantilovou funkcí 3 4 p (1 p) Q( p; λ1, λ, λ3, λ4 ) = λ1 + λ pro p 0; 1 = 0 jinak λ kde p kvantil rozdělení, λ 1,,λ 4 parametry modelu. Tento způsob konstrukce rozdělení příjmů, využívající kvantilovou funkci, nalezneme např. v práci Sipkové (viz Sipková, 005, s. 90 164). λ (4) 9

Acta Oeconomica Pragensia, roč. 15, č. 1, 007 Velkou schopnost přizpůsobení má rovněž čtyřparametrická varianta logaritmicko normálního modelu, která je dána hustotou x γ ln µ τ x 1 τ γ ( x; µ, σ, γ, τ ) = e σ f pro x ( γ,τ ) σ π ( x γ )( τ x) = 0 jinak kde µ střední hodnota veličiny Y = ln[(x γ)/(τ X)], σ rozptyl veličiny Y, γ teoretické minimum veličiny X, τ teoretické maximum veličiny X. (5). Modelování rozdělení příjmů obyvatelstva Nejčastěji používaným modelem rozdělení příjmů byl tříparametrický logaritmicko normální model, jehož hustotu rozdělení získáme ze vztahu (5) po dosazení τ = 0. Největším soupeřem logaritmicko-normálního rozdělení při modelování rozdělení příjmů obyvatelstva je Paretovo rozdělení. Logaritmicko-normální model odpovídá empirickému rozdělení příjmů v rozsáhlé centrální oblasti, zatímco na okrajích se někdy značně odchyluje. Naproti tomu Paretova křivka je vhodným modelem rozdělení příjmů na okrajích (viz Johnson Kotz Balakrishnan, 1994)..1 Logaritmicko-normální model rozdělení příjmů v ČR v roce 1996 K odhadu parametrů µ, σ a γ tříparametrické varianty logaritmicko-normálního modelu rozdělení byla použita metoda maximální věrohodnosti (parametry µ a σ ) v kombinaci s odhadem teoretického minima (parametr γ) prostřednictvím numerické minimalizace věrohodnostního poměru (viz Bartošová, 005, s. 150 155). Důvodem této volby byla snaha o maximální kvalitu zkonstruovaných modelů. Odhady byly prováděny iteračně v programu MatLab. K posouzení kvality zkonstruovaných modelů zde byl použit věrohodnostní poměr v porovnání s 95% kvantilem rozdělení χ s (k 4) stupni volnosti, kde k je doporučovaný počet tříd, do nichž jsou data při výpočtu věrohodnostního poměru rozdělena. Důvodem této volby byla skutečnost, že věrohodnostní poměr je založen na stejném principu jako odhady parametrů modelu na principu maximální věrohodnosti. Zvolená testovací statistika byla použita k získání informace o tom, ve kterých sociálních skupinách je třída logaritmicko-normálních modelů pro vystižení rozdělení příjmů zcela nevhodná (viz Bartošová, 006, s. 15. Pravděpodobnostní model byl v této práci považován za vyhovující, pokud splňoval podmínku přibližné shody s empirickým rozdělením, tj. pokud hodnota věrohodnostního poměru výrazně nepřevyšovala kritickou hodnotu (kvantil χ 0,95(k 4)). Dosažené výsledky jsou uvedeny v tabulce 1. 10

Jitka Bartošová Tab. č. 1: Míra shody tříparametrického logaritmicko-normálního modelu s empirickým rozdělením příjmů domácností v ČR (r. 1996) Sociální Rozsah Věrohodnostní poměr Kritická skupina skupiny na domác. na hlavu hodnota Samostatně hospodařící 131 31,04,699 6,96 Družstevní rolníci 195 14,784 11,06 30,144 Ostatní 36 5,315 44,394 31,410 Nezaměstnaní 60 3,04 17,760 3,671 Důchodci s EA členy 1156 1,366 84,804 54,57 Samostatně činní 1748 77,134 55,848 6,830 Zaměstnanci 6 915 109,35 104,40 103,010 Důchodci bez EA členů 8651 3698,544 1519,59 110,898 Dělníci 8856 3,846 163,10 11,0 Všechny domácnosti 8148 34,410 534,3 170,807 Zdroj: Mikrocensus 1996 + vlastní výpočty Závěr Nejdůležitějším praktickým výsledkem provedeného zkoumání je zjištění, že dříve běžně používaný pravděpodobnostní model rozdělení příjmů (logaritmicko-normální model se třemi parametry) lze ve většině sociálních skupin považovat za vyhovující i po roce 1990. Jako zcela nevhodný se tento model jeví pouze v případě domácností důchodců bez ekonomicky aktivních členů a všech domácností. Odlišnost rozdělení příjmů domácností důchodců bez EA členů lze odůvodnit rozdílností zdroje příjmů důchody. A protože domácnosti důchodců tvoří prakticky celou jednu třetinu zkoumaného souboru, budou výrazně ovlivňovat i tvar rozdělení všech domácností. Hledání adekvátního modelu rozdělení příjmů domácností v těchto dvou odlišných případech již není náplní tohoto článku. Literatura [1] BARTOŠOVÁ, J., 005: Logarithmic-Normal Model of Income Distribution in the Czech Republic. Austrian Journal of Statistics, 006, roč. 35, č. &3, s. 15. [] BARTOŠOVÁ, J., 005: Maximal Likelihood Estimates of Parameters of Model of Household Income Distribution in the Czech Republic. Forum Statisticum Slovacum, 005, č. 3, s. 150 155. [3] EDGEWORTH, F. Y., 1907: On the representation of statistical frequency by a series. Journal of the Royal Statistical Society, Series A, 1907, roč. 70, s. 10 106. [4] JOHNSON, N. L., 1949: Systems of frequency curves generated by methods of translation. Biometrika, 1949, roč. 36, s. 149 176. 11

Acta Oeconomica Pragensia, roč. 15, č. 1, 007 [5] JOHNSON, N. L. KOTZ, S. BALAKRISHNAN, N., 1994: Continuous Univariate Distributions, vol. 1, nd edition. New York, J. Wiley, 1994. [6] PEARSON, K., 1895: Contributions to the mathematical Tudory of evolution. II. Skew variations in homogenous materia. Philosophical Transactions of the Royal Society of London, Series A, 1895, roč. 186, s. 343 414. [7] RAMBERG, J. SCHMEISER, B., 1974: An approximate method for generating asymmetric random variables. Communications of the ACM, 1974, roč. 17, č., s. 78 8. [8] SIPKOVÁ, Ľ., 005: Modelovanie príjmov domácností zovšeobecneným lambda rozdelením. Ekonomika a informatika, 005, roč. 3, č. 1, s. 90 164. Jitka Bartošová Abstrakt K pravděpodobnostnímu modelování lze přistupovat několika principiálně odlišnými způsoby. Jednou z možností, vedoucích k cíli, je aproximace empirického rozdělení některým známým rozdělením (parametrickým modelem). Předložený příspěvek se zaměřuje jednak na popis metod, které lze obecně v praxi k modelování využít, a jednak na konstrukci a ověření platnosti jednoho z dosud používaných modelů rozdělení příjmů v České republice logaritmicko-normálního modelu se třemi parametry. Klíčová slova: platnost modelu; pravděpodobnostní model; rozdělení příjmů. Probability Model of Income Distribution in the Czech Republic Abstract Probability modeling may be approached in several principally different ways. One of such possibilities to achieve the aim is approximation of empirical distribution by means of an already known distribution (i.e. a parametric model). This paper focuses first on description of methods that may be used for modeling in practice and further on construction and verification of validity of one of present models of income distribution in the Czech Republic logarithm-normal model with three parameters. Key words: income distribution; probability model; validity of the model. JEL classification: G30 1