PŘÍSPĚVEK K ANALÝZE ROZDĚLENÍ PŘÍJMŮ DOMÁCNOSTÍ V ČR



Podobné dokumenty
Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Průzkumová analýza dat

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Testování statistických hypotéz

Stručný úvod do testování statistických hypotéz

Testy statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

You created this PDF from an application that is not licensed to print to novapdf printer (

Charakteristika datového souboru

Normální (Gaussovo) rozdělení

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

4ST201 STATISTIKA CVIČENÍ Č. 7

Statistická analýza jednorozměrných dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

PRAVDĚPODOBNOST A STATISTIKA

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Zápočtová práce STATISTIKA I

Úvodem Dříve les než stromy 3 Operace s maticemi

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Normální (Gaussovo) rozdělení

Kvantily a písmenové hodnoty E E E E-02

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

= = 2368

Národníinformačnístředisko pro podporu jakosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úloha 1: Lineární kalibrace

Jednofaktorová analýza rozptylu

Neparametrické metody

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Porovnání dvou výběrů

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Pojem a úkoly statistiky

1. Přednáška. Ing. Miroslav Šulai, MBA

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat

IDENTIFIKACE BIMODALITY V DATECH

Plánování experimentu

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Tomáš Karel LS 2012/2013

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

Tabulka 1. Výběr z datové tabulky

Statistická analýza. jednorozměrných dat

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Technická univerzita v Liberci

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Návrh a vyhodnocení experimentu

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Vzorová prezentace do předmětu Statistika

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

KGG/STG Statistika pro geografy

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Chyby měření 210DPSM

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

VÝVOJ INDEXŮ SPOTŘEBITELSKÝCH CEN

y = 0, ,19716x.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Univerzita Pardubice. Fakulta chemicko-technologická Katedra analytické chemie. Licenční studium Statistické zpracování dat

Analýza rozptylu ANOVA

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Neparametrické testy

S E M E S T R Á L N Í

PRAVDĚPODOBNOST A STATISTIKA

Národní informační středisko pro podporu kvality

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PARDUBICE

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Transkript:

ROBUST 2004 c JČMF 2004 PŘÍSPĚVEK K ANALÝZE ROZDĚLENÍ PŘÍJMŮ DOMÁCNOSTÍ V ČR Jitka Bartošová Klíčová slova: Příjmové rozdělení, teoretický model, test odlehlosti. Abstrakt: Pro správné ohodnocení příjmové stránky životní úrovně obyvatelstva i pro správné rozhodování ohledně opatření v této oblasti je nezbytné znát úplné rozdělení příjmů daného období, tj. znát obsazení ve všech příjmových skupinách. Vzhledem k probíhající transformaci hospodářství z plánované formy na tržní dochází ke změnám ve složení příjmů obyvatelstva. Aktuálním úkolem současnosti je ověření platnosti dosud používaného statistického modelu rozdělení ročních příjmů domácností v ČR. Tento příspěvek se zabývá ověřováním platnosti dosud používaného statistického modelu rozdělení příjmů domácností získaných z výběrového šetření ČSÚ Mikrocensus 1996. 1 Důvody zkoumání příjmových rozdělení Modely příjmových rozdělení umožňují zhodnocení životní úrovně všech obyvatel státu bez rozdílu, stejně jako srovnání životní úrovně příslušníků různých společenských skupin nebo obyvatel různých regionů. Jsou rovněž ukazatelem relativní životní úrovně obyvatelstva vybraného státu ve srovnání s dalšími státy. Pro správnou kvantifikaci té složky životní úrovně obyvatelstva, která přímo závisí na příjmech, je potřeba vystihnout úroveň, strukturu a vývojový trend příjmů obyvatelstva komplexně, tj. nalézt vhodné statistické modely příjmových rozdělení pro jednotlivé sociální skupiny i pro obyvatelstvo jako celek, bez ohledu na sociální skupinu. 2 Statistický model příjmových rozdělení 2.1 Volba teoretického modelu Základním úkolem při konstrukci statického modelu rozdělení ročních příjmů domácností je nalezení takové teoretické distribuční funkce, která maximálně odpovídá empirickému rozdělení četností. Dosud používaným statistickým modelem příjmových rozdělení bylo logaritmicko normální rozdělení se dvěma(popřípaděsetřemiparametry) LN(µ, σ 2 )(popřípadě LN(µ, σ 2, γ), kde parametr γ je teoretické minimum náhodné veličiny X). Logaritmicko - normální rozdělení(především jeho varianta se třemi parametry) zatím představovalo dobrou aproximaci příjmových rozdělení pro většinu sociálních skupin. Různost zdrojů, ze kterých příjmy pocházejí, a současný proces diferenciace mezd, který probíhá v některých skupinách velmi bouřlivě, může mít za následek jednak nesourodost příjmových rozdělení jednotlivých sociálních skupin a jednak vysokou variabilitu uvnitř těchto skupin. Empirické

452 Jitka Bartošová rozdělení četností příjmů v některých sociálních skupinách by proto mohlo být lépe vystiženo některým jiným modelem(např. normálním, Weibullovým, nebo Γ-rozdělením atd.). Odchylky empirického rozdělení ročních příjmů domácností od předpokládaného teoretického modelu mohou být zapříčiněny rovněž přítomností odlehlých hodnot, popřípadě heterogenitou dat, odpovídající např. směsi několika navzájem posunutých logaritmicko- normálních křivek, popřípadě směsi logaritmicko- normálního rozdělení s některým jiným rozdělením, např. normálním apod. S tímto problémem se můžeme setkat nejenom u rozdělení příjmů všech obyvatel bez rozdílu sociální skupiny, ale i u rozdělení příjmů v některých jednotlivých sociálních skupinách. Testováníshodyempirickéateoretickédistribučnífunkce F E (x)af T (x) můžeme provádět buď početně, pomocí testovacích statistik, nebo graficky. Často používanou početní metodou pro testování nulové hypotézy o shodě výběrového příjmového rozdělení s předpokládaným teoretickým modelem je (n i nπ i) 2 nπ i, χ 2 -testdobréshody([1]),kterýpracujesestatistikou χ 2 = k i=1 kde n i a nπ i (π i )jsouabsolutníempirickéaabsolutní(relativní)teoretické četnosti, k je počet tříd, n je rozsah výběru. Dalšími měrami shody empirického a teoretického rozdělení jsou např. suma čtverců(popřípadě suma absolutních hodnot) odchylek empirického rozdělení od teoretického, reprezentovanástatistikou MSE= k i=1 (p i π i ) 2 (popřípadě MAE= k i=1 p i π i ), kde p i = ni n a π ijsourelativníčetnostiempirickéhoateoretickéhorozdělení. Nahodnotyempirickédistribučnífunkce F E (x),atedyinahodnotyuvedenétestovacístatistiky χ 2,mávlivvolbavelikostitřídníchintervalů hpři seskupovánídat,kteráurčujepočettříd k xmax xmin h. Odhad počtu tříd podlesturgessovapravidla,kterýjedánvztahemˆk 1+3,3log 10 n,kde nje rozsah výběru, je vhodný pro pouze menší výběry. Pro velké výběry je toto dělenípříliš hrubé.vtakovémpřípadějevhodnějšípoužítkodhadušířky intervalů h a tedy i k určení počtu tříd k Scottovo pravidlo([10]), popřípadě robustní Freedmanovo-Diaconisovo pravidlo. 2.2 Identifikace odlehlých hodnot Problém vzrůstu variability příjmů celkem i uvnitř jednotlivých sociálních skupin je způsoben především vznikem skupin obyvatel s extrémně nízkými popřípadě extrémně vysokými příjmy. Tyto hodnoty příjmů, které můžeme z hlediska zvoleného modelu považovat za odlehlá pozorování, způsobují narušení vybraného teoretického modelu a snižují jeho shodu s empirickým rozdělením četností. Proto v případě, že v příjmech některé sociální skupiny byla detekována odlehlá pozorování, je vhodné omezit vliv těchto hodnot na odhad parametrů modelu buď jejich úplným vyloučením nebo použitím některé z robustních metod odhadu([2],[8],[4],[5]). Tímto způsobem můžeme v dosáhnout výrazného zvýšení shody teoretického modelu s empirickým rozdělením příjmů u většiny sociálních skupin. Identifikaci odlehlých hodnot lze realizovat opět buď graficky(např. s vy-

Příspěvek k analýze rozdělení příjmů domácností 453 užitím krabicových diagramů) nebo početně(pomocí vhodných testů odlehlosti). Testové metody identifikace odlehlých pozorování jsou propracovány především pro soubory s normálním rozdělením, dále pak pro soubory s exponenciálním a rovnoměrným rozdělením. Pokud je rozdělení souboru jiného typu, lze v mnoha případech vhodnou transformaci docílit toho, aby transformovanádata y=f(x)mělaněkterézvýšeuvedenýchrozdělení.(např. transformace na normální rozdělení je pro data s logaritmicko- normálním rozdělenímdánavztahy y = ln(x), y = ln(x γ)nebo y = ln x γ δ x,kde γ, δ jsou hodnoty teoretického minima a maxima, atd.) Vzhledem k tomu, že předpokládaným statistickým modelem příjmových rozdělení je ve většině případů logaritmicko- normální rozdělení, můžeme po transformaci dat použít některou z metod identifikace odlehlých pozorování založené na předpokladu normality výběru. K nejčastěji používaným inkluzivním testům existence jednoho nebo dvou odlehlých pozorování v datovém souboru s normálním rozdělením patří test založený na modifikovaném studentizovaném reziduu. Např. test odlehlosti maxima x (n) pracujesestatistikou T 1 = x (n) x 1 ˆσ 1,kde x 1 aˆσ 1 jsouodhady průměru a směrodatné odchylky získané z redukovaného výběru, tj. z výběru, kterývzniknevypuštěnímhodnoty x (n),kde x (n) je n-tápořádkovástatistika. H 0 zamítámenahladiněvýznamnosti α,pokudjesplněnanerovnost T 1 > n n 2 t 1 α(n 2),kde t 1 α(n 2)je100(1 α n n n )%-níkvantilstudentovarozdělenís(n 2)stupnivolnosti.Suvedenýmtestemúzcesouvisítest založený na klasickém studentizovaném reziduu a exkluzivní test Grubbsův. Velmi dobré vlastnosti mají také Dixonovy r-statistiky, které jsou založeny na porovnávání různých vzdáleností mezi pořádkovými statistikami. Potřebné kvantily lze pro uvedené testovací statistiky nalézt např. v[3]. Pro maximalizaci shody empirického rozdělení s teoretickým v případě kontaminovaného modelu je důležitý odhad stupně kontaminace ˆε. Vzhledem k tomu, že rozdělení příjmů je téměř ve všech skupinách asymetrické, lze očekávat, že i kontaminace bude mít asymetrický charakter a hodnoty optimálníchuseknutídatˆα d aˆα h,kteréodpovídajístupnikontaminacezdolaˆε d ashoraˆε k,budoumítrůznouvelikost.kodhadustupněkontaminacejenezbytné použít některou z metod detekce většího počtu odlehlých pozorování. K tomuto problému můžeme přistupovat dvěma způsoby. Buď můžeme testovathypotézu H 0 : Vevýběruneexistujíodlehlápozorování protialternativě H 1 : Vevýběrujeprávě rodlehlýchpozorování -tj.prováděttzv. blokovétestyodlehlosti,nebomůžemetestovathypotézu H 0 : Vevýběruje méněnež kodlehlýchpozorování protialternativě H 1 : Vevýběrujeprávě kodlehlýchpozorování,kde knabývápostupněhodnot r, r 1, r 2,...,1 a testovací statistiky se určují z příslušných podmnožin výběru tj. provádět tzv. sekvenční testy odlehlosti. V případě správného určení hodnoty r mají blokové testy optimální vlastnosti. V praxi jsou však častěji používány sekvenční testy, které nevyžadují velkou přesnost při odhadu předpokládaného počtu odlehlých pozorování r.

454 Jitka Bartošová Mezi nejznámější sekvenční testy patří ESD test, který pracuje s tzv. extrémní studentizovanou odchylkou. Při určování příslušné testovací statistiky vycházímezposloupnostipodmnožinvýběru {A 0, A 1,..., A r 1 },kdeprvní členposloupnostijetvořencelýmvýběrem,tj. A 0 = {x (1), x (2),..., x (n) }, akaždýnásledujícíčlenposloupnostijedánrekurzivněvztahem A i+1 = A i {x(a i )},kde x(a i )jenejvzdálenějšíprvekodprůměru x(a i )namnožině A i.toznamená,žeprotutohodnotumusíplatit x(a i ) x(a i ) =max x j A i x j x(a i ), kde x(a i )jeprůměrnapodmnožině A i, i=0,1,...,r 1. Extrémnístudentizovanáodchylkanapodmnožině A i,tj.veličina ESD i+1, je dána vztahem ESD i+1 = max x j A i x j x(a i ), s(a i ) kde s(a i )jesměrodatnáodchylkanapodmnožině A i, i=0,1,..., r 1. H 0 zamítámenahladiněvýznamnosti α,pokudjesplněnanerovnost ESD i+1 > L i+1, kde příslušné kvantily jsou stanovené aproximativně v [9]. Při detekci odlehlých pozorování sekvenční metodou postupujeme iterativně, tzv. zpětnýmkrokováním.toznamená,žeporovnánívypočtenýchhodnotprovádíme od poslední (nejmenší) vytvořenépodmnožiny A i, i = r. Pokud ESD i+1 > L i+1,pak i=r,toznamená,ževevýběrubyloidentifikováno r odlehlých pozorování. Sekvenční identifikační procesy jsou vhodné pro počítačové zpracování například pomocí softwarových produktů Matlab, Matematika, MS-Excel apod. Další skupinu testů, užívaných k detekci většího počtu odlehlých hodnot, tvoří tzv. jednokrokové procedury. Jedná se o postup, kdy procházíme celým souborem(krok za krokem) a testujeme postupně všechny jeho prvky. K rozhodnutí o odlehlosti přitom používáme některou ze statistik vhodných pro identifikaci jedné odlehlé hodnoty. Pokud je model příjmového rozdělení kontaminován odlehlými pozorováními, projeví se vliv těchto výrazně odlišných hodnot snížením shody empirického rozdělení s předpokládaným teoretickým logaritmicko- normálním modelem. Opětného zvyšování této shody můžeme docílit v tomto případě vhodnýmuseknutímvýběrovéhosouboru.odhadystupňůuseknutídatzdolaˆα d ashoraˆα h bymělyzároveňtvořithorníhraniceproodhadnutéstupněkontaminaceˆε d aˆε h,abybylysplněnynerovnosti(α d ε d ) (α h ε h ).Odhad horní hranice kontaminace příjmových rozdělení může být tedy v jednotlivých sociálních skupinách získán odhadem optimální hodnoty useknutí dat. Takovýto odhad lze realizovat např. prostřednictvím dvojrozměrné numerické maximalizace shody empirického rozdělení ročních příjmů domácností s teoretickým modelem. K určení aktuální useknuté hodnoty může být v iteračním kroku použita výše popsaná metoda identifikace nejvzdálenějšíhoprvkuodprůměru.odhadoptimálníchhodnotuseknutíˆα d aˆα h,

Příspěvek k analýze rozdělení příjmů domácností 455 odpovídající maximální dosažitelné shodě empirického a teoretického rozdělení, lze provést např. pomocí numerické minimalizace testovací statistiky χ 2 = k (n i nπ i) 2 i=1 nπ i,popřípadě MSE= k i=1 (p i π i ) 2 apod.odhadnuté hodnoty optimálních useknutí budou vždy závislé nejenom na konkrétním výběrovémsouborupříjmůanajehorozdělenídotříd,aletakénavolběteoretického modelu, na počtu parametrů modelu a na metodě použité k jejich odhadu. 3 Některé dílčí výsledky analýzy příjmových rozdělení 3.1 Použité metody a dosažené výsledky Zkoumaný datový soubor příjmů domácností pochází z celostátního statistického šetření Mikrocensus 1996. Obsahuje jednak hodnoty ročních příjmů domácností, počty členů domácností a zařazení domácnosti do sociální skupiny podle typu zaměstnání osoby v čele domácnosti. K účelům zkoumání rozdělení ročních příjmů obyvatelstva byly vybrány následující ukazatele:(a) Sociální skupinaosobyvčeledomácnosti(1-dělník,2-samostatněčinný(mimozemědělství), 3- zaměstnanec, 4- samostatně hospodařící rolník, 5- družstevní rolník, 6- důchodce v domácnosti s ekonomicky aktivními členy, 7- důchodce v domácnosti bez ekonomicky aktivních členů, 8- nezaměstnaný, 0- ostatní), (b) Počet členů domácnosti,(c) Čistý peněžní příjem domácnosti(v Kč za rok). Bez újmy na obecnosti se zde můžeme soustředit např. pouze na analýzu souborů dat ročních peněžních příjmů na domácnost. Vizualizací datových souborů(pomocíhistogramůap-pgrafů)bylyvytipovány problémové soubory, které vykazovaly odlišnosti od předpokládaného teoretického modelu logaritmicko-normálnírozdělenísedvěmaparametry LN(µ, σ 2 )(popřípadě setřemiparametry LN(µ, σ 2, γ).jednáseovýběrovésouboryročníchpříjmů domácnostíbezohledunasociálnískupinuaskupin1,3a7([6]). Po grafickém průzkumu byl v celém datovém souboru i v každé sociální skupiněproveden χ 2 testshodyempirickéhorozdělníspříslušnýmlogaritmicko- normálním modelem. Vzhledem k tomu, že shoda empirického rozdělení četností příjmů na domácnost s teoretickým model byla prokázány pouze usociálníchskupin5,6,8a0,byloprovedenouseknutídatovýchsouborůodpovídající stupni kontaminace odhadnutému pomocí jednokrokové procedury využívající klasický t-test standardizovaných reziduí na 5%-ní hladině významnosti(viz tab. 1). K významnému zvýšení shody empirického rozdělení steoretickýmmodelempouseknutídošlopouzeuskupin0,2a4.naproti tomuuskupin6a8došlokesníženíoprotipůvodnísituaciauskupinyč.5 došlo ke zvýšení pouze u dat seskupených do tříd podle Sturgesova pravidla. Skutečnost, že podle dalších použitých pravidel seskupování došlo ke snížení, můžebýtzapříčiněnazměnoupočtutřídpřivýpočtech χ 2 statistikzcelých výběrů(v programu MS Excel) a z useknutých výběrů(v programu StatgraphicsforWindows).([6]).

456 Jitka Bartošová Sociální Stupeň kontaminace skupina ε d ε h všechny 0% 3,055% 1 3,817% 0% 2 0% 3,261% 3 0% 3,210% 4 0% 3,053% 5 0% 5,128% 6 0% 3,374% 7 0% 1,676% 8 0% 2,692% 0 0% 3,390% Tabulka 1: Odhad stupně kontaminace zdola a shora rozdělení příjmů na domácnost t-testem standardizovaných reziduí(α = 0,05). Sociální Stupeňuseknutí χ 2 test skupina α d α h p-value 0 1% 9% 0,869695 2 2% 2% 0,432965 4 7,5% 1,5% 0,739458 5 2% 4% 0,797002 6 0% 1% 0,153245 8 6% 1% 0,848642 Tabulka 2: Odhad optimálního stupně useknutí zdola a shora v souborech příjmůnadomácnostpomocínumerickéminimalizace χ 2 statistiky. Z důvodu nejednotnosti vlivu useknutí podle výše odhadnutého stupně kontaminace na shodu empirického rozdělení četností s logaritmicko- normálnímmodelembylaprovedenaúpravaodhadustupněuseknutízdolaˆα d ashora ˆα h pomocínumerickéminimalizace χ 2 statistiky(viztab.2).odhady byly realizovány v programu MS Excel. Z tabulky vyplývá, že bylo dosaženo výrazného zvýšení shody empirického rozdělení s teoretickým, a proto můžeme považovat logaritmicko- normální rozdělení za vhodný model pro většinu sociálních skupin. Další odhad stupně kontaminace příjmových rozdělení v jednotlivých sociálníchskupinách,tj.počtůhodnotodlehlýchzdola r d ashora r h,bylrealizován prostřednictvím dvou sekvenčních testů klasické a modifikované veze ESD testu. Modifikace ESD testu spočívala v tom, že procesy identifikaceaktuální podezřelé hodnotyajejíhotestovánínaodlehlostprobíhají současně v témž iteračním kroku. Metoda vychází ze skutečnosti, že nadhodnocení předpokládaného počtu odlehlých pozorování r má na efektivnost

Příspěvek k analýze rozdělení příjmů domácností 457 Sociální Rozsah Klas. ESD Modif. ESD Num. optimalizace skupina n r d r h r d r h r d r h 0 236 0 0 1 3 3 27 2 1748 0 3 0 1 36 36 4 131 0 2 1 4 15 3 5 195 0 0 5 0 4 8 6 1156 0 1 0 1 0 12 8 260 0 0 0 0 18 3 Tabulka 3: Odhady počtu odlehlých hodnot příjmů na domácnost určené sekvenčními testy a odhady jejich horních hranic určené numerickou optimalizací. použitého testu minimální vliv([7]) a zároveň musí být splněna nerovnost r [ n 4 ].Přirealizacimodifikovanéverze ESDtestujesetříděnýsouborpříjmů na domácnost nejprve symetricky maximálně redukován, tzn. že z každé stranyjeuseknuto[ n 4 ]hodnot,takžeprvnímčlenemposloupnostipodmnožin výběru {A r, A r 1,...,A 0 }jemnožina A r = {x ([ n 4 ]+1),...x (n [ n 4 ]) },každý následujícíčlenpakodpovídárekurzivnímuvztahu A i 1 = A i + {x(a i )}. Iteračníkrokspočívávevyhledáníaotestováníodlehlosti nejbližší useknutéhodnoty x(a i ),kterámáodprůměruaktuálníhoredukovanéhosouboru x(a i )minimálnívzdálenost.prokaždouhodnotu x(a i )jeurčenastatistika ESD i+1,kterájeporovnánashodnotoupříslušnéhokvantilu L i+1.pokudje splněnanerovnost ESD i+1 > L i+1,iteračnícykluskončíar=r d + r h = i. Rozdíl mezi klasickou a modifikovanou formou testu je především ve startovacímbodětestovacíhoprocesuavurčeníhodnoty x(a i ).Iteračníprocedura obou sekvenčních testů byla realizována v programu MS Excel. Kodhadupočtuhodnotvhodnýchkuseknutízdola r d ashora r h prostřednictvím numerické optimalizace shody empirického rozdělení s dvouparametrickým logaritmicko- normálním modelem byla použita statistika MSE= k i=1 (p i π i ) 2.Optimalizačníprocedurabylarealizovánavprogramu Matlab. Výsledky(viz tab. 3) ukazují, že počty identifikovaných odlehlých hodnot příjmů na domácnost, získané prostřednictvím obou sekvenčních testů, jsou ve všech sociálních skupinách srovnatelné, nezávislé na rozsahu souborůarelativněvelmimalé(0 r d 5),(0 r h 4).Naprotitomupři numerické optimalizaci bylo ve většině sociálních skupin dosaženo maximální shody empirického rozdělení s teoretickým modelem až po useknutí většího počtuhodnotpříjmů(0 r d 36),(3 r h 36).Anizdenebylaprokázána závislost optimálního počtu useknutých hodnot na rozsahu souboru. Vyjádříme-lisiprocentuálnívelikostikontaminace ε d = r d n, ε h = r h n aprocentuálnívelikostioptimálníchuseknutí α d = r d n, α h = r h n,zjistíme,ževevšech sociálníchskupináchjezachovánaplatnostvztahu(ε d α d ) (ε h α h ), to znamená, že odhady useknutí lze ve všech případech považovat za horní hranice odhadů kontaminace.

458 Jitka Bartošová 3.2 Závěry Probíhající transformace hospodářství České Republiky z plánované formy natržní,kterábylazahájenapředvíceneždesetilety,seprojevilavúrovni a struktuře čistých ročních peněžních příjmů domácností získaných z Mikrocensu 1996 pouze částečně. Došlo především k výrazné diferenciaci příjmů, tj. ke vzniku(malého počtu) domácností s výrazně vysokými a s výrazně nízkými příjmy, které způsobují narušení teoretického modelu a snižují jeho statistickou významnost. Naproti tomu uvedená analýza rozdělení ročních příjmů domácností získaných z Mikrocensu 1996 prokázala u většiny sociálních skupin platnost logaritmicko- normálního modelu, kontaminovaného malým podílem odlehlých hodnot. Pro nalezení optimálního statistického modelu rozdělení příjmů je proto vhodné nejprve provést v každé sociální skupině detekci odlehlých pozorování, popřípadě optimalizaci stupně useknutí souboru. K odhadu charakteristik modelu je z výše zmíněných důvodů vhodné použít některou z robustních metod odhadu. Reference [1] Anděl J. (2002). Základy matematické statistiky. Preprint MFF UK, Praha. [2] Antoch J., Vorlíčková D.(2004). Vybrané metody statistické analýzy dat. ACADEMIA, Praha. [3] Barnett V., Lewis T.(1978). Outliers in statistical data. 1st edn. John Wiley, Chichester [4] Bartošová J.(2003). Robustní metody odhadů. Oeconomica, Praha, 234 246. [5] Bartošová J.(2003). Příjmové modely. Výpočtová štatistika, SŠDS, Bratislava,7 11. [6] Bartošová J.(2004) [7]JainR.B.,PingelL.A.(1981).Aprocedureforestimatingthenumber of outliers. Commun. Statist. Theor. Meth. 10, 10029 10041. [8] Jurečková J.(2001). Robustní statistické metody. Karolinum, Praha. [9] Militký J., Militká D.(1985). Moderní matematicko-statistické metody v hutnictví. Základní statistické metody III. Dvůr Králové. [10] Scott, D. W.(1992). Multivariate density estimation. Theory, practice and visualization. J. Willey, New York. Adresa: J. Bartošová, Vysoká škola ekonomická, Fakulta managementu, katedra managementu informací, Jarošovská 1117/II, 377 01 Jindřichův Hradec, ČR E-mail: barto-ji@fm.vse.cz