Robust 2010 31. ledna 5. února 2010, Králíky

Podobné dokumenty
Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Rurální sociologie = Sociologie venkova. Co to je VENKOV?

KDO JE CHUDÝ A KDO JE BOHATÝ? CO VYPLÝVÁ Z DAT STATISTIKY RODINNÝCH ÚČTŮ

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

6. T e s t o v á n í h y p o t é z

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Charakteristika datového souboru

Přednáška 5. Výběrová šetření, Exploratorní analýza

Zápočtová práce STATISTIKA I

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

VŠB Technická univerzita Ostrava

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Příklady na testy hypotéz o parametrech normálního rozdělení

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

VŠB Technická univerzita Ostrava BIOSTATISTIKA

KE STATISTICKÉ DEFINICI DOMÁCNOSTI Jaromír Běláček

KOMENTOVANÁ ANALÝZA VÝSLEDKŮ

Citlivostní analý za pojistna sazba

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Číselné charakteristiky a jejich výpočet

Drsná matematika IV 7. přednáška Jak na statistiku?

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Demografické a ekonomické souvislosti systému péče o děti v ČR a ve Francii. Kamila Svobodová Věra Kuchařová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Analýza dat na PC I.

1 kvě. 2 kvě. 3 kvě. 4 kvě. 5 kvě. 6 kvě. 7 kvě. 8 kvě. Knihovna města Hradce Králové - program na květen 2015

IES FSV UK. Domácí úkol Pravděpodobnost a statistika I. Cyklistův rok

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Praktická statistika. Petr Ponížil Eva Kutálková

IDENTIFIKACE BIMODALITY V DATECH

Simulace systému hromadné obsluhy Nejčastější chyby v semestrálních pracích

3.3 Data použitá v analýze

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Semestrální práce z předmětu m6f. 2 test dobré shody

Pro bodový odhad při základním krigování by soustava rovnic v maticovém tvaru vypadala následovně:

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Popisná statistika. Komentované řešení pomocí MS Excel

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy


, Brno Hanuš Vavrčík Základy statistiky ve vědě

ČESKÁ REPUBLIKA. 1. Hlavní charakteristika důchodového systému

Příjmy domácností ve vybraných regionech České republiky Household Income in Some Regions in the Czech Republic

Míra přerozdělování příjmů v ČR

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Predikční modely nehodovosti a jejich využití při hodnocení efektivity investic do infrastruktury Petr Šenk

III. Sociální stratifikace rodin respondentů ve věku let a jejich dětí do 15 let

2. Je dáno jevové pole (Ω;A) a na něm nezáporná normovaná funkce. Definujte distrubuční funkci náhodného vektoru.

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Klíčová slova prediktory absolvování studia medicíny, logistická regrese, ROC křivky

ŽIVOTNÍ PODMÍNKY ČESKÝCH DOMÁCNOSTÍ

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

F p Test. statistika p 13,9 <,001 Muž 249 <,001 Žena 281 <,001. T test t df p Průměrný rozdíl 5, ,48 <,001 4,56

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Analýza dat s využitím MS Excel

Metodologie pro ISK II

Statistika. Počet přestupků počet odebraných bodů za jeden přestupek. Statistický soubor 1

Mnohorozměrná statistická data

Popisná statistika kvantitativní veličiny

FACTORS AFFECTING THE DIRECT HOUSEHOLD EXPENDITURES ON HEALTH. Jitka Bartošová

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Tomáš Karel LS 2012/2013

2. Úroveň bydlení, náklady na bydlení a ceny nemovitostí v Pardubickém kraji

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

NEPARAMETRICKÉ TESTY

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tomáš Karel LS 2012/2013

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

ŠKODA AUTO VYSOKÁ ŠKOLA, O.P.S.

Analýza vývoje příjmů a výdajů domácností ČR v roce 2015 a predikce na další období. (textová část)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PROBLEMATIKA NÁSILÍ NA ŽENÁCH OPTIKOU ČESKÉ POPULACE

Měření závislosti statistických dat

Statistické metody v ekonomii

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Popisná statistika v praxi aneb Je statistika nuda? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

SRG Přírodní škola, o.p.s. Orientace v Přírodě. Bez kompasu

PROJEKT DO STATISTIKY PRŮZKUM V TECHNICKÉ MENZE

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

MATEMATIKA III V PŘÍKLADECH

Náhodná veličina a rozdělení pravděpodobnosti

Vybraná rozdělení náhodné veličiny

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

III. SPOLEČNOST. Graf 3.4 Podíl městské populace podle krajů, ČR, Tisíciletí měst

Transkript:

Modelování rozdělení ročních příjmů českých domácností J. Bartošová 1 M. Forbelská 2 1 Katedra managementu informací Fakulta managementu v Jindřichově Hradci Vysoká škola ekonomická v Praze 2 Ústav matematiky a statistiky Oddělení aplikované matematiky Přírodovědecká fakulta MU Brno Robust 2010 31. ledna 5. února 2010, Králíky

Zobecňování výsledků šetření příjmů domácností v ČR Výběrová šetření Mikrocensus a česká modifikace šetření EU SILC, Životní podmínky, představují datovou základnu pro získávání informací týkajících se především příjmů českých domácností. Důležitou součástí výběrových souborů jsou také kalibrační váhy (veličina PKOEF), které slouží k přepočtu výsledků z výběru na celou populaci a které ovlivňují výsledky prováděných analýz. Otázkou je: Jak lze korektně zapracovat kalibrační koeficienty do prováděných analýz?

Konstrukce kalibračních koeficientů domácností v Mikrocensu 2002 Při konstrukci kalibračních koeficientů (veličina PKOEF) byla použita iterační metoda, která minimalizuje rozdíl mezi odhadnutými a přepočítanými výběrovými charakteristikami vybranými pro každý kraj zvlášť, a to s pomocí následujících charakteristik 1 : počet trvale obydlených bytů počet osob bydlících v bytech počet důchodců (pracujících i nepracujících počet nezaměstnaných počet samostatně činných osob 1 Zdroj: Metodika. Mikrocensus 2002

Konstrukce kalibračních koeficientů domácností v šetření EU-SILC K výše uvedeným charakteristikám, které byly použity pro přepočet výsledků z Mikrocensu 2002, přibylo v šetření EU-SILC 2005 ještě další členění domácností, a to podle: věku osoby stojící v čele domácnosti velikostní skupiny obcí V šetření také dochází k asi 10%-nímu podhodnocení příjmů, a to proto, že dotazovaní si na všechny své příjmy nevzpomenou a mají snahu udávat nižší příjmy než jaké odpovídají skutečnosti. Toto zkreslení se velice obtížně kvantifikuje, a proto jsou hodnoty korigovány po porovnání s údaji o průměrných hrubých mzdách. Podobně se postupovalo v případě sociálních dávek, kde uváděné hodnoty naopak překračují skutečnost 2. 2 Někteří respondenti sem nesprávně zahrnují dávky sociální potřebnosti.

Základní charakteristiky kalibračních vah domácností (EU-SILC 2007) Základní statistické charakteristiky kalibračních vah PKOEF (EU SILC 2007). minimum 1. kvartil medián 3. kvartil maximum 100.0 294.6 369.8 493.6 3475.0 průměr směr. odch. suma vah 417.9 205.5 4043341 kalibrační váha PKOEF je (v EU SILC 2005 2007) vždy větší nebo rovna 100 součet vah je cca 4 milióny

Ukázka závislosti kalibračních vah na vybraných proměnných (EU SILC 2007) Váhy vs. příjem Váhy vs. poč et č lenů domácnosti Kalibrač ní váhy 0 500 1000 1500 Kalibrač ní váhy 0 500 1500 2500 3500 0 200 400 600 800 1000 Č isté příjmy domácnosti [tis. Kč ] 1 2 3 4 5 6 7 8 9 10 Poč et č lenů domácnosti Váhy vs. typ obce Váhy vs. sociální skupina Kalibrač ní váhy 0 500 1000 2000 3000 Kalibrač ní váhy 0 500 1000 2000 3000 hl.m. Praha krajské obce mě stské obce venkovské obce Typ obce nižší z. s. č inný vyšší z. d. s EA d. bez EA nezam. ostatní Sociální skupina osoby v č ele

Metody analýzy a modelování rozdělení příjmů (výdajů) domácností (jednotlivců) závislosti příjmů (výdajů) domácností (jednotlivců) na různých demografických a společensko-ekonomických faktorech šancí domácností (jednotlivců) Klíčovou otázkou je: Jak lze korektně zapracovat kalibrační koeficienty do prováděných analýz?

Vážené popisné statistiky normované kalibrační váhy w i = w i n i=1 w, i kde w i jsou váhy ze souboru EU SILC (tj. nenormované), výběrový vážený průměr n x = x i i=1 w i i=1 vážený rozptyl maximálně věrohodný odhad nx sml 2 = wi (x i x) 2 nevychýlený odhad výběrového váženého rozptylu sun 2 = n nx wi (x i x) 2 n 1 vážený p%-ní kvantil je nejvyšší hodnota proměnné X (setříděné vzestupně), jejíž kumulativní váha (setříděná a normovaná) je menší nebo rovna p. (V prostředí R na př. v knihovně HMisc) i=1

Porovnání vážených a prostých odhadů základních charakteristik ročních příjmů (EU-SILC 2007) Prosté a vážené odhady základních charakteristik čistých ročních příjmů domácností (v Kč) podle typu obce. průměr směrodatná odchylka typ obce obyčejný vážený obyčejná vážená Hl. m. Praha 332170.5 349557.6 230874.8 243909.5 krajská města 269649.7 290622.2 183855.6 193654.1 městské obce 268747.6 287025.9 188883.4 212320.2 venkov. obce 271349.3 292450.9 172154.0 192697.8 bez rozlišení 275468.1 297598.7 187442.7 208833.5 medián průměr počet typ obce obyčejný vážený vah hodnot Hl. m. Praha 275645.0 302144.0 617.3 864 krajská města 222000.0 243500.0 446.4 1423 městské obce 227354.5 243506.0 395.6 3952 venkov. obce 235143.5 254005.0 381.7 3436 bez rozlišení 232864.0 253446.0 417.9 9675

Porovnání vážených a prostých odhadů základních charakteristik ročních příjmů (EU-SILC 2007) Prosté a vážené charakteristiky čistých ročních příjmů domácností (v Kč) podle sociální skupiny. průměr směrodatná odchylka sociální skupina prostý vážený prostá vážená nižší zaměst. 304047.1 314675.0 139148.1 144471.9 samost. činní 418465.6 435951.2 334487.1 354580.3 vyšší zaměst. 375554.9 386432.4 186078.1 189254.2 důchodci s EA 38958.3 353382.5 117133.1 126796.6 důch. bez EA 159761.9 162135.9 70998.9 70866.1 nezaměstnaní 159139.3 162382.5 118090.8 120612.9 ostatní 171766.3 172946.8 220989.5 217403.1 bez rozlišení 275468.1 297598.7 187442.7 208833.5 medián průměr počet sociální skupina prostý vážený vah hodnot nižší zaměst. 284144.0 292871.0 420.4 2385 samost. činní 349214.0 363412.0 630.1 802 vyšší zaměst. 345405.0 354063.0 433.6 2279 důchodci s EA 323381.5 337618.0 429.2 418 důch. bez EA 142392.0 152520.0 332.3 3423 nezaměstnaní 138387.0 147647.0 731.1 258 ostatní 124720.0 123432.0 380.4 110 bez rozlišení 232864.0 253446.0 417.9 9675

Porovnání vážených a prostých odhadů monetární chudoby českých domácností v letech 2002 2007 Vliv kalibračních vah na hranici rizika monetární chudoby za použití různých jednotek pro určení příjmů domácnosti. Typ spotřební Hranice rizika monetární chudoby Rok jednotky vážený odhad prostý odhad na domácnost 116909 114554 2002 na osobu 52000 53522 na domácnost 132549 123246 na osobu 58200 58230 2005 def. EU 78786 76500 def. OECD 68223 67199 na domácnost 139743 128088 na osobu 60912 60384 2006 def. EU 83052 79568 def. OECD 72000 69926 na domácnost 152069 139718 na osobu 65850 65246 2006 def. EU 89611 86129 def. OECD 77662 75600

Porovnání vážených a prostých odhadů monetární chudoby českých domácností v letech 2002 2007 Vliv kalibračních vah na podíl domácností pod hranicí rizika monetární chudoby za použití různých jednotek příjmů. Typ Četnost pod hranicí chudoby Pearsonův test nez. Rok spotřební vážený odhad prostý odhad Statistika p-hodnota jednotky absolutní relativní absolutní relativní χ 2 na domácnost 1833 22.99 % 1782 22.35 % 0.894 0.3443 2002 na osobu 672 8.43 % 757 9.49 % 5.424 0.0199 na domácnost 1095 25.17 % 1012 23.26 % 4.211 0.0402 na osobu 439 10.09 % 439 10.09 % 0.001 0.9716 2005 def. EU 331 7.61 % 291 6.69 % 2.634 0.1046 def. OECD 176 4.05 % 167 3.84 % 0.194 0.6594 na domácnost 1878 25.10 % 1691 22.60 % 12.729 0.0004 na osobu 753 10.06 % 733 9.80 % 0.270 0.6035 2006 def. EU 570 7.62 % 469 6.27 % 10.343 0.0013 def. OECD 297 3.97 % 253 3.38 % 3.490 0.0617 na domácnost 2409 24.90 % 2193 22.67 % 13.179 0.0003 na osobu 858 8.87 % 832 8.60 % 0.405 0.5244 2007 def. EU 697 7.20 % 566 5.85 % 14.315 0.0002 def. OECD 363 3.75 % 324 3.35 % 2.179 0.1400

Vliv kalibračních vah na rozdělení příjmů českých domácností (EU SILC 2007) Jádrový odhad hustoty 0.0000 0.0015 0.0030 vážený odhad hustoty obyč ejný odhad hustoty 0 200 400 600 800 1000 Jádrový odhad CDF 0.0 0.2 0.4 0.6 0.8 1.0 vážený odhad obyč ejný odhad 0 200 400 600 800 1000 Č istý roč ní příjem domácnosti (v tisících Kč ) Č istý roč ní příjem domácnosti (v tisících Kč ) Jádrové odhady hustoty pravděpodobnosti (gaussovské jádro) a příslušné empirické distribuční funkce vypočtené s využitím kalibračních vah a bez jejich využití. Jedná se o odhady rozdělení čistých ročních příjmů domácností v roce 2007.

Závěry Výsledky šetření Mikrocensus a EU SILC nelze přímo zobecňovat na celou populaci, neboť vybrané domácnosti nepředstavují reprezentativní vzorek. K tomuto závěru vede porovnání s výsledky šetření Sčítání lidu, bytů a domů (SLBD). Prosté zobecňování informací získaných z výběrových souborů by proto mohlo vést ke zkreslení, a proto je potřeba při analýzách provádět přepočet pomocí kalibračních vah. Ukazuje se, že vliv kalibrace závisí na mnoha faktorech. Velikost kalibračních vah např. roste s růstem příjmů, i když tento růst se u velmi vysokých příjmů zastavuje. Na zesilování či zeslabování vlivu kalibrace má vliv také počet členů domácnosti a další faktory, jako je sociální skupina osoby stojící v čele domácnosti, typ obce, v níž žije apod. Z provedeného šetření také vyplývá, že kalibrační váhy mají vliv jak na rozdělení příjmů brané z globálního pohledu (hustotu rozdělení, či distribuční funkci), tak i na jeho souhrnné charakteristiky a další statistiky, které z tohoto rozdělení vycházejí. Musíme se proto vrátit k otázce: Jak lze korektně zapracovat kalibrační koeficienty do prováděných analýz?