Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití



Podobné dokumenty
Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

8 Coxův model proporcionálních rizik I

2 Hlavní charakteristiky v analýze přežití

7 Regresní modely v analýze přežití

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Charakteristika datového souboru

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) Fyzická aktivita (VIII. díl)

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Nezaměstnanost a míra nezaměstnanosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Analýza dat na PC I.

3.2 Obyvatelstvo podle věku, rodinného stavu a vzdělání

ANALÝZA: Nesezdaná soužití v ČR podle výsledků SLDB

7. Rozdělení pravděpodobnosti ve statistice

Faktory podmiňující vzdělanostní aspirace a vzdělanostní segregaci u dívek a chlapců v v českém vzdělávacím systému

1 Obyvatelstvo podle věku a rodinného stavu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Zápočtová práce STATISTIKA I

Statistika pro geografy

Jana Vránová, 3. lékařská fakulta, UK Praha

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pojem a úkoly statistiky

4. Aplikace matematiky v ekonomii

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE

Úřad práce ČR. Měsíční statistická zpráva listopad Krajská pobočka Úřadu práce ČR v Příbrami

Trh práce v Plzeňském kraji

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Ilustrační příklad odhadu LRM v SW Gretl

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

1 Obyvatelstvo podle věku a rodinného stavu

Chyby měření 210DPSM

Úřad práce ČR. Měsíční statistická zpráva srpen Krajská pobočka Úřadu práce ČR v Brně

Škály podle informace v datech:

Deskriptivní statistika (kategorizované proměnné)

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

5 Potratovost. Tab. 5.1 Potraty,

DLOUHODOBÁ NEZAMĚSTNANOST V ČR

Spokojenost s životem červen 2015

Studenti vysokých škol v ČR 1

Regresní analýza. Eva Jarošová

Krajská pobočka Úřadu práce ČR v Brně. Měsíční statistická zpráva

Míra přerozdělování příjmů v ČR

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) - Charakteristika výběrového souboru (II. díl)

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Úřad práce ČR. Měsíční statistická zpráva prosinec Krajská pobočka Úřadu práce ČR v Příbrami

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

0% Základní Odborné bez maturity Úplné středoškolské s maturitou Vysokoškolské Bez vzdělání Nezjištěno

3 Rozvodovost. Tab. 3.1 Rozvody podle návrhu a pořadí,

III. ROZVODOVOST. Tab. III.1 Ukazatele rozvodovosti,

Úřad práce ČR. Měsíční statistická zpráva listopad Krajská pobočka Úřadu práce ČR v Příbrami

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Vliv rozpadu manželských svazků na plodnost v České republice

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

Kalibrace a limity její přesnosti

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Výběrové šetření o zdravotním stavu české populace (HIS CR 2002) - Kouření (V. díl)

Specifické míry úmrtnosti podle pohlaví, věku, úrovně vzdělání a rodinného stavu v ČR

TRH REZIDENČNÍCH NEMOVITOSTÍ V PRAZE

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Úřad práce ČR. Měsíční statistická zpráva červen Krajská pobočka Úřadu práce ČR v Příbrami

Zlínský kraj - statistické údaje

Informace ze zdravotnictví Moravskoslezského kraje

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

Životní úroveň, rodinné finance a sociální podmínky z pohledu veřejného mínění

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Měsíční zpráva o situaci na trhu práce okres Příbram

Změny základních proporcí faktických manželství mezi lety 1991 a 2001

10. Předpovídání - aplikace regresní úlohy

katedra statistiky PEF, Vysoká škola zemědělská, Praha 6 - Suchdol

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Základy teorie pravděpodobnosti

Měsíční zpráva o situaci na trhu práce okres Příbram

3. Využití pracovní síly

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

Regresní analýza 1. Regresní analýza

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Krajská pobočka Úřadu práce ČR v Příbrami. Měsíční statistická zpráva

ROBUST 1 TESTY DOBRÉ SHODY PRO MODEL. Petr Novák. 1 Regrese v analýze spolehlivosti

Cvičení 12: Binární logistická regrese

2 Sňatečnost. Tab. 2.1 Sňatky podle pořadí,

Úřad práce ČR. Měsíční statistická zpráva srpen Krajská pobočka Úřadu práce ČR v Příbrami

Třídění statistických dat

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Úřad práce ČR. Měsíční statistická zpráva červenec Krajská pobočka Úřadu práce ČR v Příbrami

Úřad práce ČR. Měsíční statistická zpráva říjen Krajská pobočka Úřadu práce ČR v Příbrami

4EK211 Základy ekonometrie

Měsíční zpráva o situaci na trhu práce okres Příbram

Spokojenost se životem

V 1. pololetí 2011 rostly mzdy jen ve mzdové sféře

Měsíční zpráva o situaci na trhu práce okres Příbram

Transkript:

Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze přežití aplikované na problém nezaměstnanosti. Data získaná z úřadu práce v Příbrami se týkají registrovaných uchazečů o zaměstnání. Jsou nesymetricky rozdělena a cenzorována, což jsou dva z hlavních důvodů, proč byly použity právě postupy analýzy přežití. Součástí analýzy je volba vhodného semiparametrického modelu, odhad jeho parametrů a odpovídajících poměrů intenzit, jejich interpretace a diagnostika odhadnutého modelu i jednotlivých parametrů. Na základě získaných dat je odhadnut průběh základní funkce přežití a z ní jsou pak odvozeny konkrétní funkce přežití pro vybrané skupiny uchazečů o práci. Jejich průběh je graficky znázorněn pro přehlednější srovnání vybraných skupin. Klíčová slova: cenzorovaná data, Coxův proporcionální model, intenzitní funkce, poměr intenzit, věrohodnostní funkce, parciální věrohodnostnífunkce, funkce přežití. 1 Úvod Pojem Analýza přežití byl poprvé použit ve spojení s lékařskými výzkumy. Podobnost problematiky modelování doby trvání nezaměstnanosti s dobou přežití pacientů s určitou diagnózou vedla k použití metod analýzy přežití k odhalení faktorů ovlivňující dobu nezaměstnanosti. Podobnost je patrná zejména ve dvou bodech, které jsou hlavními důvody proč není vhodné analyzovat data o nezaměstnaných standardními analytickými metodami. Doba nezaměstnanosti bývá, stejně jako v lékařství sledovaná doba přežití, nesymetricky rozdělena, většinou kladně zešikmena. Převládají kratší doby nezaměstnanosti. Není tedy možné využívat analytické nástroje založené na předpokladu normality rozdělení základního souboru. Druhým důvodem je, že data bývají velmi často cenzorovaná. U některých sledovaných osob nenastane očekávaná událost, nalezení zaměstnání, před koncem sledování. Nezaměstnaní zůstávají bez práce i po skočení studie nebo práci v lepším případě získají, což ovšem již není možné zjistit. Důvodem ztráty informací o sledovaných nezaměstnaných může být i vyřazení nezaměstnaného z evidence úřadu práce na vlastní žádost, popřípadě změna trvalého bydliště během sledovaného období. Častým důvodem je též sankční vyřazení nezaměstnaných nebo nástup do studia. Vědecký seminář doktorandů FIS únor 2005 1

2 Semiparametrický regresní model Vzhledem k tomu, že konkrétní tvar distribuční a hustotní funkce rozdělení doby nezaměstnanosti není znám, je vliv faktorů posuzován pomocí intenzitních poměrů (semiparametrický regresní model). Odhady intenzitních poměrů jsou dobrým nástrojem pro porovnávání šancí na znovuzaměstnání mezi vybranými skupinami nezaměstnaných. Intenzitní funkce vyjadřuje pravděpodobnost, že očekávaná událost (znovuzaměstnání) nastane v čase t za podmínky, že do tohoto času nenastala. Neboli: ( < + δ ) δt P t t t t ht () = lim δ t 0 Regresní model intenzitní funkce s vektorem vysvětlující proměnných x a vektorem neznámých parametrů β má následující tvar: ht (, x, β) = h() tr( x, β ), (2) 0 kde funkce h 0 (t) vyjadřuje změny intenzitní funkce závisející na době přežití. ato složka je nazývána základní intenzitní funkcí (baseline hazard function). Funkce r( x, β) pak zachycuje působení vysvětlujících proměnných. Intenzitní poměr ψ vyjadřuje, kolikrát vyšší je šance na znovuzaměstnání jedince s hodnotami vysvětlujících proměnných definovaných vektorem x 1 oproti jedinci s hodnotami vysvětlujících proměnných definovaných vektorem x 0. Počítán je následovně: ht (, x, β) h () t r( x, β) r( x, β) 1 0 1 1 ψ (, t x, x ) = = = 1 0 ht (, x, β) h( tr ) ( x, β) r( x, β ). (3) 0 0 0 0 Konkrétní tvar funkce r( x, β) navrhl Cox jako r ( x, β) = exp( x β ). Uvedený model je často nazýván "Coxův proporcionální rizikový model" nebo zjednodušeně "Proporcionální rizikový model". Konkrétní tvar rizikové funkce má tvar: ht (, x, β) = h()exp( t x β ) (4) 0 K odhadu parametrů semiparametrického regresního modelu je využívána metoda maximalizace věrohodnostní funkce. Z výpočetního hlediska je jednodušší nahradit věrohodnostní funkci jejím logaritmem. Cox navrhl věrohodnostní funkci závislou pouze na vysvětlujících proměnných tzv. parciální věrohodnostní funkci. Maximalizace této funkce je možná i bez znalosti konkrétního tvaru rozdělení doby přežití. V případě, kdy se v modelu nenacházejí opakovaná data, je její tvar následující: β ci. 1 i= 1 j Ri (5) n x β x β i j l( ) = e e (1) 1 Součet v čitateli je pro skupinu všech osob, kteří v daném čase t i práci stále hledali, označeno jako R i. 2 Vědecký seminář doktorandů FIS - únor 2005

Pokud se v modelu data opakují, je nutné provést modifikace parciální věrohodnostní funkce. Parametry mohou být odhadnuty prostřednictvím přesného vyjádření navrženého Kalbfleischem a Prenticem [10]: n x β i L( β ) = 1 exp te x β j e exp( t) dt, (6) j Ri i= 1 0 j Di nebo pomocí vybrané aproximace,které jsou využívány především díky menší výpočetní náročnosti. Breslow [2] vyjádřil tvar věrohodnostní funkce jako: d i n β x J j D ( ) i β xj L β = e e. 3 (7) i= 1 j Ri Efronova [4] aproximace má následující tvar: β x J n j D e i L( β ) =. (8) di i= 1 β x l 1 β x J J e e l = 1 j R d j D i i i 4 Nezaměstnanost na Příbramsku Data použitá v tomto článku byla získána v rámci grantu IGA Vysoké školy ekonomické s názvem "Analýza faktorů ovlivňujících dobu do znovuzaměstnání v ČR". 4 Data pocházejí z úřadu práce (ÚP) v Příbrami. Jde o rozšíření původně analyzovaného souboru, který se vztahoval pouze na nezaměstnané evidované v lednu 2004. Na původním datovém souboru byly založeny modely publikované v [Popelka, jaro3ov8 esser]. Nový soubor je významně rozšířen. Obsahuje informace o 4275 nezaměstnaných evidovaných úřadem práce v Příbrami za celý rok 2002. Sledování bylo ukončeno v 18. června 2004. Z celkového počtu 4275 uchazečů bylo 2172 žen (tj. 51 %) a 2103 mužů (49%). Poměr mezi muži ženami odpovídá poměru zjištěnému v původní studii, kde činil 52% a 48% ve prospěch žen. 2966 uchazečů nalezlo během sledovaného období práci. 1309 pozorování je zprava cenzorováno. ito uchazeči nezískali do konce studie v červnu 2004 zaměstnání a v evidenci úřadu práce zůstali i nadále po skončená sledování nebo byli z evidence vyřazeni na vlastní žádost, byli vyřazeni sankčně a nebylo možné o nich získat další informace, začali studovat nebo změnili trvalé bydliště. Rozdělení necenzorované doby nezaměstnanosti je kladně zešikmeno, o čemž vypovídá následující histogram rozdělení četností. Nejkratší doba nezaměstnanosti je 0 den. Celkem pět uchazečů bylo ÚP umístěno v den jejich evidence. Nejdelší doba setrvání v evidenci ÚP činila 894 dní. Průměrná doba nezaměstnanosti u sledovaného vzorku činí 145 dní a medián 93 dní. Nejvíce nezaměstnaných bylo v evidenci úřadu práce po dobu 30 dní, celkem 66 uchazečů. 2 D j představuje skupinu všech osob znovuzaměstnaných v čase t j. 3 d j je počet všech osob znovuzaměstnaných v čase t j. 4 Grant číslo IG 410043 Vědecký seminář doktorandů FIS únor 2005 1

1600 Rozdělení doby nezaměstnanosti absolutní četnost 1400 1200 1000 800 600 400 200 0 0-100 101-200 201-300 301-400 401-500 501-600 601-700 701-800 801-900 doba nezaměstnanosti (dny) Graf 1 Rozdělení doby nezaměstnanosti (pro necenzorovaná data) Průměrný věk sledovaného vzorku evidovaných je 33 let, medián je 30 let. Nejvíce nezaměstnaných bylo ve věku 19 let, celkem 243. Nejmladšímu evidovanému bylo 15 let, nejstarším dvěma 61 let. Rozdělení věku nezaměstnaných je kladně zešikmeno. Převládají uchazeči nižšího věku, nejvíce jich je ve skupině od 21 do 25 let. Rozdělení věku četnost 1000 900 800 700 600 500 400 300 200 100 0 15-20 21-25 26-30 31-35 36-40 41-45 46-50 51-55 56-61 věk (roky) Graf 2 Rozdělení věku uchazečů o zaměstnání Ze sledovaného souboru nezaměstnaných dosáhlo středního vzdělání bez maturity 2048 uchazečů (48 %), středního vzdělání s maturitou 1350 (32 %) a 180 uchazečů (4 %) dosáhlo vzdělání vysokoškolského. Zbylých 697 (16 %) vykázalo vzdělání základní. 2 Vědecký seminář doktorandů FIS - únor 2005

V porovnání s původním souborem opět nejsou patrné žádné větší rozdíly. V původní studii vykazovalo středního vzdělání bez maturity 50 % uchazečů, středního vzdělání s maturitou 29 %, vysokoškolské vzdělání 3 % a základní vzdělání 18 %. Podstatný je ovšem významný nárůst uchazečů s vysokoškolským vzdělání. V původní studii bylo zahrnuto pouze 17 uchazečů, což mohla být jedna z příčin, proč nebyl modelem zjištěn statisticky významný rozdíl v šancích na znovuzískání zaměstnání mezi vysokoškoláky a nezaměstnanými se základním vzděláním. Větší rozsah souboru tak může původní závěry vyvrátit. 2476 (58%) uchazečů má trvalé bydliště ve městě 5, zbylých 1808 (42%) pochází z vesnice. Jak ukazuje graf 3. a tabulka? přišlo na úřad práce nejvíce nezaměstnaných na podzim, plných 35%. Nejméně pak v zimních měsících 17%. Detailnější dělení s ohledem na měsíce ukazuje, že největší nárůst nezaměstnaných byl na Příbramsku v roce 2002 v červenci, lednu a září (kolem 11% ze všech evidovaných) a nejmenší pak v únoru březnu a dubnu (6%). Počty uchazečů podle období zaevidování Jaro 862 uchazečů (20%) Léto 1182 uchazečů (28%) Zima 744 uchazečů (17%) Podzim 1487 uchazečů (35%) Graf 3 Rozdělení uchazečů podle období zaevidování na ÚP abulka 1 Rozdělení uchazečů podle období zaevidování na ÚP měsíc absolutní počet evidovaných měsíc relativní počet evidovaných (v %) absolutní počet evidovaných relativní počet evidovaných (v %) leden 475 11,11% červenec 486 11,37% únor 269 6,29% srpen 346 8,09% březen 244 5,71% září 449 10,50% duben 298 6,97% říjen 331 7,74% květen 320 7,49% listopad 352 8,23% červen 350 8,19% prosinec 355 8,30% 5 Březnice, Dobříš, Nový Knín, Příbram, Rožmitál pod řemšínem a Sedlčany (podle ČSÚ) Vědecký seminář doktorandů FIS únor 2005 1

Z hlediska rodinného stavu bylo zjištěno, že 1855 (tedy 44%) nezaměstnaných je ženatých, vdaných nebo žijí ve společné domácnosti jako druh nebo družka. 2420 (56%) uchazečů je svobodných, rozvedených nebo ovdovělých. Posledním ze sledovaných faktorů je zdravotní stav uchazečů. Bezvadný zdravotní stav nahlásilo při evidenci 3821 (89%) uchazečů. Zdravotně omezených nebo postižených bylo 173 (4%) a 281 (7%) uchazečů pobíralo částečný nebo plný invalidní důchod. Sledovanými faktory, jejichž vliv na dobu potřebnou ke znovuzaměstnání byl analyzován, jsou pohlaví uchazečů, věk a vzdělání. yto faktory byly zahrnuty již v předchozím modelu [?]. Nově pak je posuzován vliv trvalého bydliště, rodinného a zdravotního stavu a také ročního období, ve kterém byl se uchazeč na ÚP přihlásil. Proměnná SEX_M nabývá hodnoty 1 pro muže a 0 pro ženu. Proměnná OWN nabývá hodnoty 1 pro uchazeče s trvalým bydlištěm ve městě 6 a 0 pro uchazeče z vesnice. Proměnná FAMILY nabývá hodnoty 1 u uchazečů ženatých, vdaných nebo žijících ve společné domácnosti jako druh nebo družka. V ostatních případech (svobodní, rozvedení nebo ovdovělí) je její hodnota 0. U ostatních proměnných bylo rozlišeno více stupňů. Proměnné EDU (vzdělání) je ordinální a nabývá následujících hodnot: EDU = 1 pro uchazeče se základním vzděláním nebo bez vzdělání, EDU = 2 pro středoškolské vzdělání bez maturity, EDU = 3 pro středoškolské vzdělání s maturitou, EDU = 4 pro vysokoškolské vzdělání. Proměnná SEASON je ordinální vztahující se k období, kdy se uchazeč na úřad práce přihlásil, nabývá následujících hodnot: SEASON = 1 pro uchazeče evidované v zimních měsících (prosinec, leden únor), SEASON = 2 u evidovaných v březnu, dubnu a květnu, SEASON = 3 u evidovaných v červnu, červenci a srpnu, SEASON = 4 u evidovaných v září, říjnu a listopadu. Proměnná HEALH je taktéž ordinální zohledňující zdravotní stav nezaměstnaných nabývá následujících obměn: HEALH = 1 uchazeč s bezvadným zdravotním stavem, HEALH = 2 osoby zdravotně omezené nebo postižené, HEALH = 3 u uchazečů pobírajících částečný nebo plný invalidní důchod. Věk zastoupený proměnnou AGE je jedinou spojitou proměnnou. Udává věk v letech. Jako nejproblematičtější se jeví modelování vlivu věku nezaměstnaných na dobu potřebnou k získání nového zaměstnáni. Již dříve se podařilo ukázat, že vliv věku není lineární. Důkaz o tomto tvrzení podávají [7], [POPELKA] a [8]. Na základě zmíněných studií jsou do prvního modelu zahrnuty proměnné AGE (věk v letech) a AGE^2, která je odvozena jako druhá mocnina věku. ato nově vložená proměnná zohledňuje 6 Březnice, Dobříš, Nový Knín, Příbram, Rožmitál pod řemšínem a Sedlčany (podle ČSÚ). 2 Vědecký seminář doktorandů FIS - únor 2005

skutečnost, že osoby velmi mladé nebo naopak v pokročilém věku, mají šance na získání nového zaměstnání nižší, než uchazeči ve věku středním. Přínosem by mohlo být zahrnutí věku ve formě ordinální proměnné, tak jak je tomu v zahraničních článcích věnovaných stejnému tématu [?]. Věk v druhém modelu již není spojitou proměnnou, ale je intervalově tříděn. Na základě dat z ÚP v Příbrami byl rozdělen na devět intervalů s šířkou pět let. První interval zahrnuje uchazeče do 20 let, poslední pak starší než 65 let (viz. obr.2). Proměnná AGEM tedy nabývá devíti obměn. Pro potřeby porovnání obou modelu byly odhadnuty jejich parametry pomocí programu S-Plus 4.5. Kritériem pro volbu nejvhodnějšího modelu je záporná hodnota dvojnásobku logaritmu věrohodnostní funkce a hodnota Akiakeho 7 testového kritéria (tabulka 1). abulka 1 Porovnání alternativních modelů Proměnné AGE v modelu Počet proměnných 2logLˆ AIC AGE+AGE^2 AGEM 13 19 44890,9 44873,02 44916,9 44911,02 Vzhledem k odlišnému počtu proměnných v obou modelech, je Akiakeho testové kritérium lepší pro porovnání, protože zohledňuje počet proměnných. Z porovnání obou modelů plyne, že model s kvadratickým věkem je nepatrně horší než model, ve kterém je věk intervalově členěn (model s proměnnou AGEM). Podle testu věrohodnostním poměrem (tabulka 2.) je model s kardinální proměnnou AGEM vhodnějším než model s kvadratickým vlivem věku. abulka 2 Srovnání alternativních modelů pomocí testu věrohodnostním poměrem Porovnávané modely G Df p-value 2 vs 1 17,88 6 0,007 Protože se v souboru vyskytují opakovaná data, bylo nutné provést odhad pomocí modifikované parciální věrohodnostní funkce, tak jak ji navrhli Efron. Upravené výstupy programu S-PLUS jsou v tabulkách 3 a 5. abulka 3 Odhady parametrů modelu - kvadratický závislost na věku (* P<0.1, ** P<0.05, *** P<0.01) Proměnná Odhad parametru Intenzitní poměr 95% interval spolehlivosti pro intenzitní poměr SEX.M 0.19206*** 1.212 1.123 1.307 7 AIC 2 log Lˆ α q = +, kde α je předem definovaná konstanta, jejíž hodnota se pohybuje většinou v rozmezí 2 až 6 a q je počet parametrů modelu. Vědecký seminář doktorandů FIS únor 2005 1

AGE 0.10881*** 1.115 1.088 1.142 AGE^2-0.00167*** 0.998 0.998 0.999 EDU2 0.59453*** 1.812 1.606 2.044 EDU3 0.64320*** 1.903 1.678 2.158 EDU4 0.72928*** 2.074 1.705 2.522 SEASON2-0.10570* 0.900 0.807 1.003 SEASON3-0.09671* 0.908 0.822 1.003 SEASON4-0.12584** 0.882 0.797 0.975 FAMILY -0.04585 0.955 0.874 1.044 HEALH1-0.68657*** 0.503 0.408 0.621 HEALH2-0.98819*** 0.372 0.305 0.455 OWN -0.09686*** 0.908 0.843 0.977 abulka 4 estování významnosti odhadnutého modelu esting Global Null Hypothesis: BEA=0 est Chi-Square DF Pr > ChiSq Likelihood Ratio 605 13 <.0001 Wald test 479 13 <.0001 Efficient score test 507 13 <.0001 2 Vědecký seminář doktorandů FIS - únor 2005

abulka 5 Odhady parametrů modelu - intervalové členění věku (* P<0.1, ** P<0.05, *** P<0.01) Proměnná Odhad parametru Intenzitní poměr 95% interval spolehlivosti pro intenzitní poměr SEX.M 0.20277*** 1.225 1.135 1.322 AGEM (21-25) 0.32874*** 1.389 1.231 1.568 AGEM (26-30) 0.15007** 1.162 1.011 1.335 AGEM (31-35) 0.27294*** 1.314 1.127 1.532 AGEM (36-40) 0.24667*** 1.280 1.092 1.499 AGEM (41-45) 0.12471 1.133 0.960 1.337 AGEM (46-50) 0.08754 1.091 0.926 1.286 AGEM (51-55) -0.33129*** 0.718 0.597 0.863 AGEM (56 >) -1.16671*** 0.311 0.219 0.443 EDU2 0.61716*** 1.854 1.643 2.091 EDU3 0.65555*** 1.926 1.698 2.185 EDU4 0.71576*** 2.046 1.679 2.492 SEASON2-0.11240** 0.894 0.802 0.996 SEASON3-0.09577* 0.909 0.822 1.004 SEASON4-0.12567** 0.882 0.797 0.976 FAMILY 0.00774 1.008 0.921 1.103 HEALH1-0.67898*** 0.507 0.411 0.626 HEALH2-1.03489*** 0.355 0.291 0.434 OWN -0.08930** 0.915 0.850 0.984 abulka 6 estování významnosti odhadnutého modelu esting Global Null Hypothesis: BEA=0 est Chi-Square DF Pr > ChiSq Likelihood Ratio 623 19 <.0001 Wald test 486 19 <.0001 Efficient score test 521 19 <.0001 Všechny tři testy uvedené v tabulce 4 potvrzují statistickou významnost navrženého modelu. Jinými slovy je alespoň jeden z odhadnutých parametrů statisticky významný. Odhady jednotlivých parametrů pak znázorňuje tabulka 3. Jak již bylo zmíněno kapitole 3 nabízejí statistické packety kromě odhadů parametrů ˆβ a jejich směrodatných ) chyb sˆ( ˆ β ) i hodnoty intenzitních poměrů vypočtených jako ψˆ = exp β a jejich intervalů spolehlivosti. Důvodem je právě jejich snadná interpretovatelnost. Vědecký seminář doktorandů FIS únor 2005 1

Oproti modelu založeném na původních datech publikovaném v [POPELKA], se podařilo prokázat, že existuje statisticky významný rozdíl mezi muži a ženami. Šance mužů na získání nového zaměstnání jsou podle modelu 1,22 krát vyšší než je tomu u žen. Stejně tak se jasně ukazuje význam vzdělání. Model potvrzuje již dříve zjištěnou skutečnost, že s rostoucím vzděláním se vyhlídky nezaměstnaných zlepšují. Oproti uchazeči se základním vzděláním má středoškolák bez maturity 1,85 krát a středoškolák s maturitou 1,83 krát větší šanci, že získá nové zaměstnání. Předpoklad, že větší počet získaných dat pomůže lépe popsat vliv vysokoškolského vzdělání, se potvrdil. V modelu založeném na datech z ledna 2002 nevycházel statisticky významný rozdíl mezi vysokoškoláky a nezaměstnanými se základním vzděláním. Jednou z příčin se zdál být malý počet nezaměstnaných s vysokoškolským vzděláním (jen 17). Model založený na datech z celého roku 2002 již rozdíl odhalil. Vysokoškolák má ze všech rozlišených stupňů vzdělání nejvyšší šance na nalezení zaměstnání, 2,05 krát vyšší než je tomu u lidí se základním vzděláním. Podle odhadnutého modelu, je nejhorší přihlásit se na do evidence úřadu práce v podzimních a jarních měsících, šance je v porovnání se zimou 1,13 resp. 1,12 krát nižší. Zdravotní stav uchazečů o zaměstnání je dalším faktorem, který působí na dobu nezaměstnanosti. Doba evidence na ÚP je uchazečů s bezvadným zdravotním stavem výrazně nižší než u osob zdravotně postižených. Šance zdravotně postižených jsou v porovnání se zdravými poloviční a nezaměstnaní pobírající částečný nebo plný invalidní důchod mají šance dokonce jen třetinové. Překvapivé je zjištění vlivu trvalého. Podle modelu mohou práci snadněji získat osoby žijící na venkově. Doba nezaměstnanosti obyvatel měst je totiž sice jen nepatrně (1,1krát) ale přesto nižší. Zatímco první model vychází z předpokladu, že osoby velmi mladé nebo naopak v pokročilém věku, mají šance na získání nového zaměstnání nižší, druhý tento předpoklad jen z části potvrzuje. Ukazuje, že je stejná doba nezaměstnanosti u osob velmi mladých (mladších 20ti let) a osob ve věku od 40 do 50 let. Osoby starší jak 50 let mají šance na znovuzaměstnání výrazně horší. Věkové kategorie od 20 do 40 vykazují velkou podobnost, jejich šance na ukončení nezaměstnanosti jsou zhruba 1,3 krát vyšší než u osob pod 20 let. Podle průběhu funkcí přežití obr?. je možné odhalit rozdíl mezi oběma uvažovanými modely. Zatímco model zahrnující spojitý věk a jeho druhou mocninu favorizuje nezaměstnané ve věku 33 let. Podle modelu s intervalově členěným věkem je pravděpodobnost setrvání v evidenci ÚP v každém okamžiku nižší i osob ve věkové kategorii 21 až 25 let, tedy relativně mladé. Rozdíly mezi oběma modely dokazují, jak náročné je modelování vlivu věku na dobu nezaměstnanosti a poskytují další prostor pro zkoumání této závislosti. Jediným faktorem, který se ukázal být nevýznamným je rodinný stav. Podle obou modelů se nepodařilo prokázat, že by existoval rozdíl mezi samostatně žijícími osobami a osobami žijícími v manželství nebo jako druh a družka. 6 Odhad funkce přežití Výše uvedený odhad parametrů proporcionálního modelu vychází z předpokladu, že rozdělení doby přežití není známo. Přesto je na základě získaných dat možné odhadnout 2 Vědecký seminář doktorandů FIS - únor 2005

jak tvar funkce přežití S(t,x i,β), tak i intenzitní funkce h(t,x i,β) i-tého jedince nebo skupiny jedinců stejných vlastností. Pro připomenutí vyjadřuje funkce přežití pravděpodobnost, že doba nezaměstnanosti i-tého jedince bude stejná nebo delší než doba t, neboli S(t,x i,β) = P( t). Jinými slovy vyjadřuje funkce přežití pravděpodobnost, že nezaměstnaný zůstane v evidenci úřadu práce další den, tedy zůstane další den nezaměstnaný. Odhad základní funkce přežití lze získat jako výstup z programu S-PLUS. Na jejím základě je možné odhadnout i hodnoty samotné funkce přežití [ o ] exp( x β ) l St ˆ(, x, β ˆ) = Sˆ () t pro libovolné kombinace vstupních proměnných. i Obrázek 1 zobrazuje průběh tří odhadnutých funkcí přežití pro muže se základním vzděláním a věkem 24 let (hodnota dolního kvartilu sledovaného souboru), 33 let (hodnota mediánu) a 46 let (hodnota horního kvartilu). Graficky je tak zobrazen předpoklad o nelinearitě věku, který byl do modelu dodatečně zahrnut. Muž ve věku 33 let tak má ve srovnání s ostatními nejlepší vyhlídky na znovuzískání zaměstnání. Pravděpodobnost, že zůstane v evidenci úřadu práce déle než je doba přežití t, je v každém okamžiku sledovaného období nejnižší. Nejhorší vyhlídky má naopak muž 46-letý. Pravděpodobnost, že zůstane bez zaměstnání déle než je doba přežití t, je v každém okamžiku nejvyšší. 1 Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 24 let 33 let 46 let 0,4 0,3 0 50 100 150 200 250 300 350 400 450 500 550 Doba přežití Obr. 1 Odhad funkce přežití pro muže se základním vzděláním ve věku 24, 33 a 46 let. Obdobným způsobem je na obrázku 2 srovnán vliv různých stupňů dokončeného vzdělání. Jak již vyplynulo z odhadů intenzitních poměrů v kapitole 5, jsou vyhlídky na Vědecký seminář doktorandů FIS únor 2005 1

znovuzaměstnání nejhorší u uchazečů se základním vzděláním. Nejlepší pak u uchazečů s maturitou. Odhad funkce přežití 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Středoškolské bez maturity Středoškolské s maturitou Základní Vysokoškolské 0 100 200 300 400 500 Doba přežití Obr. 2 Odhad funkce přežití pro muže ve věku 33 se vzděláním základním, středoškolským bez maturity, středoškolským s maturitou a vysokoškolským. 7 Závěr Uvedený článek přináší další z možných oblastí aplikace nástrojů analýzy přežití. Problematika nezaměstnanosti je v České republice stále více aktuální a sledování faktorů působících na tento jev nabývá na významu. Analýza kvantifikuje vliv jen malého množství vybraných faktorů, které jsou v souvislosti s dobou nezaměstnanosti asi nejvíce zmiňovány. Je možné ovšem vyhodnotit i vliv faktorů méně významných, pokud budou k dispozici vhodná data. Pro další studium je třeba soustředit se na problém nelinearity věku v souvislosti s volbou nejvhodnějšího modelu. Dále pak prozkoumat působení pohlaví a také vysokoškolského vzdělání, jejichž vliv se na základě sledovaného datového souboru ukázal jako statisticky nevýznamný. Mezi další faktory, které by bylo vhodné do analýzy zařadit, určitě patří i vliv regionu, ve kterém se nezaměstnaný o práci uchází, protože rozdíly v tomto směru jsou v České republice dost významné. Literatura [1] ANDERSEN, P.K., BORGAN, O., GILL, R.D., KEIDING, N.: Statistical Models Based on Counting Processes, Springer Verlag, N.Y. 1993 2 Vědecký seminář doktorandů FIS - únor 2005

[2] BRESLOW, N.: Covariance Analysis of Survival Data under the Proportional Hazards Model, International Statistical Review 1974, č.43 [3] COX, D.R.: Regression Models and Life ables, Journal of the Royal Statistical Society, Series B 1972, č.34 [4] EFRON, B.: he Efficiency of Cox s Likelihood Function for Censored Data, Journal of the American Statistical Association 1977, č.72 [5] ESSER, M., POPELKA, J.: Analysis of Factors Influencing ime of Unemployment Using Survival ime Analysis, Zborník 12. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [6] HOSMER, D.W., LEMESHOW, S.: Applied Survival Analysis, J.Wiley & Sons, N.Y. 1999 [7] JAROŠOVÁ, E.: Analysis of Interval Censored Data, Universita Mateja Bela, Banská Bystrica 2003 [8] JAROŠOVÁ, E.: Exploring the Functional Form of Covariates in Cox Model, Zborník 12. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [9] JAROŠOVÁ, E., MALÁ, I., POPELKA, J. Modelling time of unemployment via log-location-scale model, COMPSA 2004 [CD- ROM], Praha 2004 [10] KALBFLEISCH, J.D., PRENICE, R.L.: Marginal Likelihoods Based on Cox s Regression and Life able Model, Biometrika 1973, č.60 [11] KALBFLEISCH, J.D., PRENICE, R.L.: he Statistical Analysis of Failure ime Data, Wiley, N.Y. 1980 [12] POPELKA, J.: Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití, Sborník prací účastníků vědeckého semináře doktorského studia Fakulty informatiky a statistiky VŠE v Praze, Praha 2004 [13] HERENEAU,.M., GRAUBSH, P.M.: Modeling Survival Data: Extending he Cox Model, Springer Verlag, N.Y. 2000 Summary ANALYSIS OF FACORS INFLUENCING IME OF UNEMPLOYMEN USING SURVIVAL IME ANALYSIS Survival time analysis approach is used to examine factors influencing the hazard ratios and the length of unemployment. Analysis is based on data aquired from the Vědecký seminář doktorandů FIS únor 2005 1

Labour office in Příbram. Cox proportional model for right censored data is fitted to obtain the hazard ratio estimates. More alternative models are compared to choose the apropriate one. ests of model and parameters significance are evaluated. Survivorship function is estimated. Summary Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Analýza přežití je využita k prozkoumání vlivu vybraných faktorů na délku nezaměstnanosti. Analýza vychází z dat pořízených z úřadu práce v Příbrami, sledováni jsou nezaměstnaní, kteří byli do evidence zařazeni v lednu 2002. Data jsou buď necenzorovaná, nebo zprava cenzorovaná. Na základě Coxova modelu byly odhadnuty intenzitní poměry alternativních modelů a z jejich porovnání pak vyplynul nejvhodnější model. S pomocí odhadnutých parametrů byla odhadnuta funkce přežití. 2 Vědecký seminář doktorandů FIS - únor 2005