VYSOKÁ ŠKOLA BÁŇSKÁ - TECHNICKÁ UNIVERZITA OSTRAVA Hornicko-geologická fakulta institut geoinformatiky STATISTIKA MIGRANTŮ PRO REGIONY V MORAVSKOSLEZSKÉM KRAJI A PRO KRAJ V OBDOBÍ 1992-2005 Speciální metody analýzy dat 6.1.2007 GN260 Igor IVAN
Úvod Část tohoto projektu bude součástí diplomové práce s názvem Analýzy vývoje migrace obyvatelstva v Moravskoslezském kraji. Data, která jsou zde použita pocházejí z tzv. běžné evidence migrace. Tyto záznamy vycházejí z povinnosti občana k přihlášení se k trvalému pobytu Hlášení o stěhování které zpracovávají matriky, resp. ČSÚ. Tento datový zdroj umožňuje, kromě územní lokalizace, také analyzovat migranta podle některých základních demografických a socioekonomických znaků. V první kapitole, která se zabývá explorační analýzou, budu zkoumat zvlášť dvě skutečnosti. Jelikož bych rád využil část projektu v diplomové práci, tak jednotlivé grafy a slovní vyhodnocení grafů budou zaměřeny na analýzu přistěhovalých a vystěhovalých do/z jednotlivých regionů 1 MSK v analyzovaném období 1992 2005. Ve druhé části projektu, která již nebude součástí diplomové práce, se program zabývá počty přistěhovalých a vystěhovalých do/z MSK jako celku a to opět v období 1992-2005. 1 7 regionů, které byly vytvořeny v téže diplomové práci podle metodiky Martina Hampla. Data pro vytvoření jednotlivých regionů pochází ze Sčítání domů, lidu a bytů z roku 2001 2
3
Jednorozměrná explorační analýza dat V této části se budeme zabývat vývojem přistěhovalých a vystěhovalých v jednotlivých letech a regionech. Pro každý z roků byly vypočteny základní statistické charakteristiky. Histogram popisuje vývoj počtu přistěhovalých a vystěhovalých do, z regionů v MSK. Jednotlivé grafy musely být rozděleny do dvou samostatných oddílů z nichž každý má jiný rozsah na ose y. Důvodem je rozdílný počet migrantů v regionu Ostravsko je řádově 4x více migrantů než v ostatních regionech. Na první pohled je patrné, že ve všech regionech převyšuje počet vystěhovalých ty přistěhované. Lze tedy konstatovat, že migrační saldo (rozdíl přistěhovalí - vystěhovalí) je negativní obyvatelstvo ztrácí na migraci. Nejlépe nám vychází dva regiony Frýdecko-Místecko a Novojičínsko. Obzvláště prvně jmenovaný region je v posledních letech v kladných hodnotách migračního salda a to zhruba od roku 2000. Tento trend se dá vysvětlit tzv. deurbanizací. Mezi hlavní znaky deurbanizace patří velké snižování počtu obyvatelstva v centrech měst i vnějších městských částech. Dochází ke stěhování na venkov, do menších měst, do nových měst nebo do metropolí. Novojičínsko mělo vyrovnaný stav zhruba v druhé polovině 90. let, ale poté znova propadlo do záporných čísel. Jednoznačně nejhůře je na tom region Ostravsko a Bruntálsko a v posledních letech také Opavsko. U Ostravska se to dá vysvětlit právě již výše zmíněnou deurbanizací, u Bruntálska patrně nízkou životní úrovní, velkým procentem nezaměstnaných. Lze také vyčíst útlum v migračních pohybech vůbec a to v období druhé poloviny 90. let, kdy ve všech regionech je patrný propad. V posledních letech se opět čísla zvětšují, bohužel v některých regionech pouze ta o vystěhovalých. 4
5
6
Jak bylo již zmíněno výše, tak právě na těchto histogramech je patrný negativní vývoj migrace v jednotlivých regionech MSK, vyjímaje regionu Frýdek-Místek. Zde po roce 2000 je patrný obrat v migračním vývoji. 7
U výsečových grafů je cílem analyzovat cíle přistěhovalců, respektive odkud se vystěhovalci vystěhovávají. Opět se jedná o totožné období, jako u předchozí analýzy a to roky 1992 2005. Tyto výsledky nám bohužel neukazují nějaké zásadní změny ve vývoji migrace. Po celou dobu je jasným cílem migrantů region Ostravsko a to většinou kolem 48% všech přistěhovalých. Toto je způsobeno velkým počtem obyvatel v tomto regionu a tak přímoúměrným větším počtem migrantů. Zajímavější je ale souboj o druhé místo mezi regiony Novojičínsko a Frýdeckomístecko. Opět rok 2000 zde hraje hraniční roli. Počínaje tímto rokem se dostává na druhé místo Frýdeckomístecko, což opět potvrzuje myšlenku deurbanizace. Pokud se podíváme na koláčové grafy, které se týkají 8
vystěhovalých, tak jsou výsledky obdobné, jako u přistěhovalých. Jasně na prvním místě je Ostravsko, ale tentokráte je podíl na celkovém čísle vystěhovalých vyšší a to zhruba 49% a v posledních letech se dostává přes 50%. Na druhém místě zůstává po celou dobu analýzy Novojíčínsko. Zajímavá je opět situace u Frýdecko- Místecka. U toho se podíl vystěhovaných postupně snižuje a postupně se přibližuje k Opavsku, u kterého se naopak podíl zvyšuje. V roce 1992 činil rozdíl mezi těmito regiony 2,5% a v roce 2005 už jen 0,26%. Pokud se podíváme na další regiony, tak je zajímavé pozorovat, jak si v jednotlivých letech vyměňují vzájemně pořadí regiony Třinecko a Bruntálsko. V dalším kroku se dostáváme k liniovým grafům. Ty jsou, stejně jako sloupcové, rozděleny do dvou částí. Opět se potvrzuje předchozí 9
zjištění. Většina regionů má záporné migrační saldo. Tento graf nám navíc hezky ukáže vzrůstající rozdíl mezi počtem přistěhovaných a vystěhovaných. Toto je patrné zejména u regionu Ostravsko a Bruntálsko. Obzvláště u Ostravska je rozdíl postupem let narůstající. U Opavska je vývoj relativně totožný po celou dobu analýzy, bohužel rovněž negativní. Novojičínsko má podobný vývoj jako Krnovsko, dobou se střídají období, kdy je saldo pozitivní s obdobím s negativním saldem. Opět výjimečný je region Frýdecko- Místecko. I zde se ukazuje změna ve vývoji regionu zhruba od roku 2000, kdy se střídá období s negativním saldem s obdobím s pozitivním stavem. I u těchto grafů je patrný propad v migračním chování v polovině devadesátých let. 10
11
Rok 1992 1993 1994 1995 1996 1997 1998 Platné 7,00 7,00 7,00 7,00 7,00 7,00 7,00 N Chybějící 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Průměr 3726,86 3399,57 2900,86 2762,71 2574,14 2554,71 2615,14 Medián 2182,00 2255,00 1847,00 1669,00 1561,00 1678,00 1639,00 Dolní kvartil 1790,00 1668,00 1427,00 1309,00 1216,00 1239,00 1216,00 Horní kvartil 3265,00 2827,00 2606,00 2365,00 2164,00 2227,00 2224,00 Směrodatná odchylka 4214,64 3518,27 3059,75 2999,50 2817,20 2647,87 2805,45 Minimum 956,00 1024,00 877,00 760,00 735,00 834,00 710,00 Maximum 13127,00 11250,00 9714,00 9451,00 8868,00 8454,00 8867,00 Sum 26088,00 23797,00 20306,00 19339,00 18019,00 17883,00 18306,00 Rok 1999 2000 2001 2002 2003 2004 2005 Platné 7,00 7,00 7,00 7,00 7,00 7,00 7,00 N Chybějící 0,00 0,00 0,00 0,00 0,00 0,00 0,00 Průměr 2557,71 2583,43 2607,57 2800,00 2615,71 2708,43 2923,86 Medián 1676,00 1991,00 1660,00 1858,00 1798,00 1803,00 2009,00 Dolní kvartil 1307,00 1274,00 1097,00 1294,00 1257,00 1210,00 1290,00 Horní kvartil 2106,00 2214,00 2316,00 2629,00 2078,00 2189,00 2552,00 Směrodatná odchylka 2764,37 2596,07 2794,26 2898,86 2853,78 2930,87 3049,97 Minimum 685,00 777,00 728,00 688,00 707,00 750,00 764,00 Maximum 8734,00 8352,00 8817,00 9209,00 8995,00 9253,00 9693,00 Suma 17904,00 18084,00 18253,00 19600,00 18310,00 18959,00 20467,00 Tabulka 1 - Explorační analýza pro přistěhovalé do MSK 1992 2005 V této části se analýza liší od těch předchozích. Jak již bylo uvedeno v úvodu, tak počínaje touto pasáží se analýza bude věnovat MSK jako celku a nebude ho rozdělovat do jednotlivých regionů. Tato tabulka ukazuje statistické vyhodnocení vývoje v počtu přistěhovalých do MSK za jednotlivé roky v období 1992 2005. I zde jde vidět pokles v počtu přistěhovalých do MSK, kde minima dosahuje v roce 1999. Zároveň lze 12
vidět, jak se jednotlivé migrační toky v období druhé poloviny 90. let zmenšují a počínaje roku 2000 se opět začínají růst. Toto nám ukazuje medián, který se postupně zmenšuje a ke konci analýzy opět roste. To, že je medián menší než průměr ukazuje na extrémně velké hodnoty v počtu přistěhovalých. Bude se jistě jednat opět o region Ostravsko, kam bude přicházet řádově více migrantů než například do regionu Krnovsko. Taky rozdíl mezi dolním kvartilem a mediánem je mnohem menší než naopak rozdíl mezi horním kvartilem a mediánem, což opět potvrzuje myšlenku o rapidně větším množství menších migračních toků. Vysvětlení pojmů Průměr součet všech hodnot vydělený jejich počtem Medián 2 je hodnota, jež dělí řadu podle velikosti seřazených výsledků na dvě stejně početné poloviny. Jestliže n je sudé číslo, pak medián odpovídá x = 0,5( x + x ). Jestliže n je liché číslo, pak x = x ( n + 1). n n + 1 2 2 Dolní a horní kvartil oddělují ze statistického souboru čtvrtiny Směrodatná odchylka vypovídá o tom, jak moc se od sebe navzájem liší typické případy v souboru zkoumaných čísel. Je-li malá, jsou si prvky souboru většinou navzájem podobné, a naopak velká směrodatná odchylka signalizuje velké vzájemné odlišnosti. Směrodatná odchylka je nejužívanější míra variability. 2 2 Zdroj: HENDL Jan: Přehled statistických metod zpracování dat. Praha, 1. vydání, 2004. ISBN 80-7178-820-1. 584 stran 13
Také v této pasáži se analýza zabývá Moravskoslezským krajem jako celkem a přestává ho, až na jednu výjimku u jednofaktorové analýzy rozptylu ANOVA, dělit do jednotlivých regionů. Nyní následuje explorační analýza pro přistěhovalé a vystěhovalé do/z MSK pro analyzované období 1992 2005. Stem-and-Leaf Display for PRISTEHOVALI: unit = 100,0 1 2 represents 1200,0 Summary Statistics for PRISTEHOVALI 1 2 5 (7) 2 6777777 6 2 88 4 3 1 3 3 3 HI 4046,0 4361,0 Počet sledování 14 Průměrný počet 3021,5 přistěhovalých Směrodatná 545,185 odchylka Minimum 2506,0 Maximum 4361,0 Je vidět, že počty přistěhovalých se v analyzovaném období pohybují nejčastěji v intervalu 2400 2900 migrantů. Z krabicového grafu jsou patrné dvě odlehlé hodnoty, které přesahují hodnotu 4000. Právě tyto dvě extrémní hodnoty zvyšují hodnotu průměru nad medián. Tyto hodnoty jsou z počátku analýzy z roku 1992 a 1993. Dá se říci, že v té době byl ještě charakter MSK jiný než v dalších letech, jelikož průmyslový útlum byl teprve v začátcích. 14
Graf Stem-and-Leaf znázorňuje data podobně jako histogram četností. Oproti histogramu ale navíc prezentuje zjištěná data s přesnosti na stovky přistěhovalých. Hodnoty umístěné ve sloupci před lomítky představuji tisíce přistěhovalých. Do sloupce za lomítky pak jsou zapsány stovky přistěhovalých pro příslušné hodnoty před lomítky. Např. druhý řádek tak odpovídá sedmi zjištěným hodnotám 2600 a 6 x 2700 přistěhovalých. Graf zároveň znázorňuje dvě odlehlé hodnoty o velikosti 4046,0 a 4361,0. Stem-and-Leaf Display for VYSTEHOVALI: unit = 100,0 1 2 represents 1200,0 1 4 1 4 4 233 4 4 (4) 4 6777 6 4 99 4 5 0 3 5 2 2 5 4 1 5 6 Summary Statistics for VYSTEHOVALI Počet sledování 14 Průměrný počet 4818,14 vystěhovalých Směrodatná 455,164 odchylka Minimum 4195,0 Maximum 5632,0 Malý rozdíl mezi průměrem a mediánem zapříčinil, že oproti výsledkům pro přistěhovalé se zde nevyskytují extrémní hodnoty. Také histogram naznačuje vyrovnanější vývoj, bez žádných extrémních výkyvů, pro vystěhovalé než pro přistěhovalé. 15
Dvouvýběrový test střední hodnoty: Budeme testovat, zda na základě dat o počtu přistěhovalých/vystěhovalých do/z kraje v období 1992 2005 lze prohlásit, že se střední hodnota počtu přistěhovalých a vystěhovalých liší. Jako vstupní údaje jsou potřeba: Přistěhovalí Vystěhovalí Počet sledování 14 14 Průměrná hodnota 3021,50 4818,14 Směrodatná odchylka 545,19 455,16 Testujeme hypotézu o rovnosti středních hodnot: H 0 : µ 1 = µ 2 přistěhovalí = vystěhovalí Oproti alternativě: H A : µ 1 < µ 2 přistěhovalí < vystěhovalí Hypothesis Tests Sample means = 3021,5 and 4818,14 Sample standard deviations = 545,16 and 455,16 Sample sizes = 14 and 14 95,0% upper confidence bound for difference between means: -1796,64 + 323,748 [-1472,89] Null Hypothesis: difference between means = 0,0 Alternative: less than Computed t statistic = -9,46536 P-Value = 3,2864E-10 Reject the null hypothesis for alpha = 0,05. Zamítáme hypotézu H 0. Z dodaného vzorku 14 pozorování pro přistěhovalé a vystěhovalé do/z kraje, lze konstatovat, že je více vystěhovalých než přistěhovalých, což potvrzuje demografické analýzy v úvodu této práce obyvatelstva v MSK ubývá díky převažující migraci ven z kraje.
Jednofaktorová analýza rozptylu ANOVA Analýza zda existuje závislost mezi počtem přistěhovalých a jednotlivými regiony v MSK v období 1992 2005. Testujeme hypotézu: H 0 : µ 1 = µ 2 = µ 3 = µ 4 = µ 5 = µ 6 = µ 7 H A : neplatí H 0 kde µ 1 je střední hodnota počtu přistěhovalých do regionu Bruntál µ 2 je střední hodnota počtu přistěhovalých do regionu Frýdek-Místek µ 3 je střední hodnota počtu přistěhovalých do regionu Krnov µ 4 je střední hodnota počtu přistěhovalých do regionu Nový Jičín µ 5 je střední hodnota počtu přistěhovalých do regionu Opava µ 6 je střední hodnota počtu přistěhovalých do regionu Ostrava µ 7 je střední hodnota počtu přistěhovalých do regionu Třinec ANOVA Table Source Sum of Squares Df Mean Square F-Ratio P-Value Between groups 7,53154E8 6 1,25526E8 447,00 0,0000 Within groups 2,55542E7 91 280816, Total (Corr.) 7,78709E8 97 P-value je menší než 0,05, tedy existuje statisticky významný rozdíl mezi středními hodnotami jednotlivých tříd, a proto budu dále specifikovat bližší určení rozdílů mezi jednotlivými třídami. 17
Multiple Range Tests Method: 95,0 percent LSD Count Mean Homogeneous Groups Krnov 14 785,357 X Bruntál 14 1379,0 X Třinec 14 1519,29 XX Opava 14 1811,79 X Frýdek_Místek 14 2323,29 X Nový Jičín 14 2362,07 X Ostrava 14 9484,57 X Z výsledků jednofaktorové analýzy rozptylu je jasně patrné, že kvůli extrémním výsledkům pro region Ostrava, jsou rozdíly mezi výsledky pro ostatní regiony nevýrazné. Proto nyní bude tatáž analýza provedena opět a region Ostrava z ní bude vyloučen, aby výsledky byly přesvědčivější a názornější. 18
ANOVA Table Source Sum of Squares Df Mean Square F-Ratio P-Value Between groups 2,53614E7 5 5,07228E6 86,23 0,0000 Within groups 4,5884E6 78 58825,7 Total (Corr.) 2,99498E7 83 Multiple Range Tests Method: 95,0 percent LSD Count Mean Homogeneous Groups Krnov 14 785,357 X Bruntál 14 1379,0 X Třinec 14 1519,29 X Opava 14 1811,79 X Frýdek_Místek 14 2323,29 X Nový Jičín 14 2362,07 X 19
Z výše uvedených údajů je zřejmé, že existuje závislost mezi počtem přistěhovalých osob a regionem do kterého míří. Jsou viditelné zajímavé rozdíly mezi počtem přistěhovalých v jednotlivých regionech. Osamocený je region Krnov (také region Ostrava, který je z analýzy vyloučena). U ostatních regionů je vidět určitá podobnost. Podle analýzy počtu přistěhovalých tvoří regiony homogenní skupiny: Bruntál Třinec Třinec Opava Nový Jičín Frýdek-Místek. Tento závěr potvrzuje také grafické srovnání 95% intervalů spolehlivosti pro jednotlivé střední hodnoty, kde jsou jednotlivé skupiny označeny barevně. 20
Regrese Pokusíme se zjistit, zda-li existuje nějaká závislost mezi počtem přistěhovalých a vystěhovalých v MSK v období 1992 2005. Pokud existuje, tak určíme, jak je významná. Simple Regression - PRISTEHOVALI vs. VYSTEHOVALI Dependent variable: PRISTEHOVALI Independent variable: VYSTEHOVALI Linear model: Y = a + b*x Coefficients Least Squares Standard T Parameter Estimate Error Statistic P-Value Intercept 227,845 1463,78 0,155655 0,8789 Slope 0,57982 0,302555 1,91641 0,0794 Analysis of Variance Source Sum of Squares Df Mean Square F-Ratio P-Value Model 905452, 1 905452, 3,67 0,0794 Residual 2,95849E6 12 246541, Total (Corr.) 3,86395E6 13 Correlation Coefficient = 0,48408 R-squared = 23,4334 percent R-squared (adjusted for d.f.) = 17,0528 percent Standard Error of Est. = 496,529 Mean absolute error = 378,418 Durbin-Watson statistic = 0,230925 (P=0,0000) Lag 1 residual autocorrelation = 0,664272 V tabulce ANOVA vyšlo p-value vyšší než 0,05 (přesněji 0,0794), tudíž nemá smysl vůbec žádnou regresi provádět, neboť proměnné X a Y jsou nezávislé (regresní křivka specifikuje typ závislosti mezi proměnnými. Nemá tedy smysl ji dělat pro nezávislé proměnné). Koeficient R-squared udává, jak těsná je závislost mezi proměnnými X, Y, resp. jak přesné je nahrazení závislosti zvolenou regresní křivkou. Čím je R-squared blíže jedničce, o to přesnější aproximaci se jedná. Pokud je R-squared blízko nule, je zvolená funkce nevhodná pro aproximaci dané závislosti anebo mezi uvažovanými veličinami vůbec neexistuje těsná závislost, což je tento případ, jelikož R-squared vyšlo 23,4334%. 21