Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

Podobné dokumenty
Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

8 Coxův model proporcionálních rizik I

7 Regresní modely v analýze přežití

2 Hlavní charakteristiky v analýze přežití

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

AVDAT Klasický lineární model, metoda nejmenších

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Regresní a korelační analýza

Jana Vránová, 3. lékařská fakulta, UK Praha

Regresní a korelační analýza

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Ilustrační příklad odhadu LRM v SW Gretl

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Regresní analýza 1. Regresní analýza

You created this PDF from an application that is not licensed to print to novapdf printer (

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

10. Předpovídání - aplikace regresní úlohy

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování hypotéz o parametrech regresního modelu

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Regresní analýza. Eva Jarošová

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

4ST201 STATISTIKA CVIČENÍ Č. 10

Charakteristika datového souboru

Jednofaktorová analýza rozptylu

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

VŠB Technická univerzita Ostrava

7. Rozdělení pravděpodobnosti ve statistice

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Plánování experimentu

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Pravděpodobnost a matematická statistika

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Normální (Gaussovo) rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Statistika (KMI/PSTAT)

Uni- and multi-dimensional parametric tests for comparison of sample results

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Zápočtová práce STATISTIKA I

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

Kalibrace a limity její přesnosti

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

ADDS cviceni. Pavlina Kuranova

Lineární regrese. Komentované řešení pomocí MS Excel

= = 2368

KGG/STG Statistika pro geografy

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Klasická a robustní ortogonální regrese mezi složkami kompozice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Přijímací zkouška na navazující magisterské studium 2017

Cvičení 12: Binární logistická regrese

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Ranní úvahy o statistice

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Testování statistických hypotéz

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

http: //meloun.upce.cz,

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

analýzy dat v oboru Matematická biologie

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Chyby měření 210DPSM

15. T e s t o v á n í h y p o t é z

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Transkript:

Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze přežití aplikované na problém nezaměstnanosti. Data získaná z úřadu práce v Příbrami se týkají registrovaných uchazečů o zaměstnání. Jsou nesymetricky rozdělena a cenzorována, což jsou dva z hlavních důvodů, proč byly použity právě postupy analýzy přežití. Součástí analýzy je volba vhodného semiparametrického modelu, odhad jeho parametrů a odpovídajících poměrů intenzit, jejich interpretace a diagnostika odhadnutého modelu i jednotlivých parametrů. Na základě získaných dat je odhadnut průběh základní funkce přežití a z ní jsou pak odvozeny konkrétní funkce přežití pro vybrané skupiny uchazečů o práci. Jejich průběh je graficky znázorněn pro přehlednější srovnání vybraných skupin. Klíčová slova: cenzorovaná data, Coxův proporcionální model, intenzitní funkce, poměr intenzit, věrohodnostní funkce, parciální věrohodnostnífunkce, funkce přežití. Úvod Pojem analýza přežití je využíván k popisu takových dat, která se vztahují k určitému přesně vymezenému období, jehož konec je stanoven konkrétní událostí. Název pochází z oblasti lékařských výzkumů, kde je často sledována právě doba přežití pacientů s určitou diagnózou a událostí ukončující sledování pacienta bývá často jeho smrt. Analýza přežití tak představuje nástroj, který odpovídá na otázku, zda a jakým způsobem závisí doba přežití jednotlivce nebo skupiny jednotlivců stejných vlastností na jednom nebo více sledovaných faktorech. akovými faktory jsou většinou různé druhy ordinovaných léků, operativní a léčebné postupy, biologické charakteristiky pacientů, jejich zdravotní stav atd. Jedním z cílů analýzy je odhalit, které z možných faktorů připadajících v úvahu skutečně na dobu přežití působí a ovlivňují tak pravděpodobnost, že určitá událost (nejčastěji právě zmiňované úmrtí) nastane v konkrétním čase, za podmínky, že sledovaná událost do této doby nenastala. Jsou dva důvody proč data o přežití není vhodné analyzovat standardními analytickými metodami. Zaprvé jsou tato data ve většině případů rozdělena nesymetricky, převládá kladné zešikmení. Není tedy vhodné využívat analytické nástroje založené na předpokladu normality rozdělení základního souboru. Zadruhé bývají taková data velmi často cenzorovaná. U mnoha sledovaných subjektů nenastane očekávaná událost před koncem experimentu, pacient přežívá a je v lepším případě vyléčen, nebo prostě není možné zjistit, zda a kdy sledovaná událost nastala. o 86 Vědecký seminář doktorandů FIS březen 2004

proto, že pacient z výzkumu například odejde nebo se odstěhuje a není možné jej již dále sledovat. Kromě využití v medicíně se pro analýzu přežití nabízejí i jiné oblasti aplikace. Je to například analýza faktorů působících na životnost výrobků a nebo, jak se snaží ukázat tento článek, sledování faktorů ovlivňujících dobu nezaměstnanosti. Data použitá v tomto článku byla získána v rámci grantu IGA Vysoké školy ekonomické s názvem "Analýza faktorů ovlivňujících dobu do znovuzaměstnání v ČR". Data pocházejí z Úřadu práce v Příbrami. Soubor obsahuje informace o uchazečích o práci, kteří byli na úřadu vedeni v lednu roku 2002. Z celkového počtu 597 uchazečů bylo 422 evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali. Sledovanými faktory, jejichž vliv byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. 2 Semiparametrický regresní model Rozdělení doby přežití může být popsáno dvěma způsoby. Prostřednictvím konkrétní známé hustotní funkce (tzv. parametrický regresní model) nebo pomocí intenzitního poměru (semiparametrický regresní model) v případech, kdy tvar distribuční a hustotní funkce rozdělení doby přežití není znám. Intenzitní poměr se zároveň uplatňuje i ve studiích, kdy je úkolem porovnat šance na přežití mezi vybranými skupinami. Intenzitní funkce vyjadřuje pravděpodobnost, že očekávaná událost (smrt, znovuzaměstnání) nastane v čase t za podmínky, že do tohoto času nenastala. Neboli: ( < + δ ) δt P t t t t ht () = lim δt 0 Regresní model intenzitní funkce s vektorem vysvětlující proměnných x a vektorem neznámých parametrů b má následující tvar: ht (, xβ, ) = h () tr( x, β ), (2) 0 kde funkce h 0 (t) vyjadřuje změny intenzitní funkce závisející na době přežití. ato složka je nazývána základní intenzitní funkcí (baseline hazard function). Funkce r( x, β) pak zachycuje působení vysvětlujících proměnných. Intenzitní poměr ψ vyjadřuje, kolikrát vyšší je šance na znovuzaměstnání jedince s hodnotami vysvětlujících proměnných definovaných vektorem x oproti jedinci s hodnotami vysvětlujících proměnných definovaných vektorem x 0. Počítán je následovně: ht (, x, β) h () tr( x, β) r( x, β) 0 ψ (, t x, x ) = = = 0 ht (, x, β) h () tr( x, β) r( x, β ). (3) 0 0 0 0 Jak plyne z výše uvedené úpravy, je intenzitní poměr závislý pouze na funkci r( x, β) a konkrétní tvar základní intenzitní funkce h 0 (t) nemusí být pro potřeby výpočtu vůbec () Grant číslo IG 40043 Vědecký seminář doktorandů FIS březen 2004 87

znám. Parametry těchto dvou funkcí mohou být tedy odhadovány odděleně. V praxi tak pro odhad intenzitních poměrů postačí pouze hodnoty vysvětlujících proměnných a znalost rozdělení doby přežití tak není nutná. Výhoda tohoto přístupu spočívá ve skutečnosti, že konkrétní rozdělení doby přežití není často vůbec známo a tvar distribuční a hustotní funkce musí být dodatečně zjišťován dalšími analytickými nástroji. Další výhodou je i jednoduchá interpretace odhadnutých parametrů semiparametrického modelu, resp. od nich odvozených poměrů intenzit. Konkrétní tvar funkce r( x, β) navrhl Cox jako r ( x, β) = exp( x β ). Uvedený model je často nazýván "Coxův proporcionální rizikový model" nebo zjednodušeně "Proporcionální rizikový model". Konkrétní tvar rizikové funkce uvádí vzorec (4). ht (,, ) = h ()exp( t ) 0 x β x β (4) A tvar intenzitního poměru vzorec (5) ψ x x = x x β (5) (, t, ) exp[( ) ] 0 0 K odhadu parametrů semiparametrického regresního modelu je využívána metoda maximalizace věrohodnostní funkce. V případech, kdy je model plně specifikován (je známo rozdělení doby přežití) má věrohodnostní funkce tvar n c ( ) {[ (,, )] [ (,, )] } 2 c i i l β = ht x β St x β (6) i i i i i= Indikátor cenzorování c i nabývá hodnoty nula pokud je i-tá doba přežití cenzorovaná zprava. V ostatních případech je jeho hodnota jedna. Funkce S(t i,x i,β) je funkcí přežití a vyjadřuje pravděpodobnost, že doba přežití i-tého jedince bude stejná nebo delší než doba t i, neboli S(t i,x i,β) = P( t i ). Z výpočetního hlediska je jednodušší nahradit věrohodnostní funkci jejím logaritmem. Odhad parametrů se pak provede maximalizací funkce: n { [ ] [ ] 0 0 } i x β i i i i i i L( β ) = c ln h ( t ) + cx β + ( 2 c ) e ln S ( t ). (7) i= Jak již bylo v této kapitole zmíněno, v mnoha případech ovšem není znám konkrétní tvar rozdělení doby přežití. Není tak známa ani funkce přežití S(t i,x i,β). Cox proto navrhl věrohodnostní funkci závislou pouze na vysvětlujících proměnných tzv. parciální věrohodnostní funkci. V případě, kdy se v modelu nenacházejí opakovaná data, je její tvar následující: ci n x β x β i j l( β ) = e e. 2 (8) i= j R( t ) ( i ) Cox předpokládal, že parametry odhadnuté pomocí parciální věrohodnostní funkce budou mít stejné rozdělení jako parametry získané maximalizací plné věrohodnostní funkce. Matematický důkaz tohoto předpokladu poskytli v roce 993 Andersen, Brogan, Gill a Keiding []. 2 Součet v čitateli je pro skupinu všech jedinců, kteří v daném čase t (i) práci stále hledali, označeno jako R(t (i)). 88 Vědecký seminář doktorandů FIS březen 2004

Pokud je tedy odhadován vektor p neznámých parametrů β = ( β, β,..., β 2 p ), je pak řešeno p následujících rovnic, jedna pro každý parametr: n L( β) = c exp( ) exp( ) i x ik x x β jk j x β j. (9) β k i= j R( t ) j R( t ) i i Pokud se v modelu data opakují, je nutné provést modifikace parciální věrohodnostní funkce. Parametry mohou být odhadnuty prostřednictvím přesného vyjádření navrženého Kalbfleischem a Prenticem [0], nebo pomocí vybrané aproximace (Breslow [2], Efron [4], Cox [3]), které jsou využívány především díky menší výpočetní náročnosti. 3 Diagnostika odhadnutého regresního modelu Pro potřeby testování statistické významnosti odhadnutých parametrů a sestrojení jejich intervalů spolehlivosti je nutné získat odhady jejich směrodatných chyb sˆ( β ˆ). Veškeré potřebné informace jsou obsaženy v informační matici o rozměrech p x p 2 L( β) I( β) =. (0) 2 β Kovariační matice je inverzí matice informační ˆ ( ˆ Var β) = I( β ). Diagonální prvky kovariační matice jsou odhady rozptylů odhadnutých parametrů, jejichž odmocněním se vypočtou hledané odhady směrodatných chyby sˆ( β ˆ). Za předpokladu, že odhady parametrů jsou normálně rozděleny se střední hodnotou β a směrodatnou odchylkou sˆ( β ˆ), lze 00(-α)% interval spolehlivosti vypočítat podle jednoduchého tvaru βˆ ± u sˆ( βˆ ). k α /2 k Odhadnuté parametry a vypočtené intervaly spolehlivosti parametrů Coxova modelu jsou ovšem velmi špatně interpretovatelné. Je proto vhodnější dopočíst a interpretovat ) odhadnuté intenzitní poměry ψˆ = exp β, odhady jejich směrodatných chyb sˆ( ψˆ) = ψˆsˆ( βˆ ) a následně i jejich intervaly spolehlivosti ψˆ ± u sˆ( ψˆ). α /2 K posouzení statistické významnosti odhadnutých parametrů se nejčastěji používá Waldův test. Waldova statistika má tvar z = βˆ sˆ( βˆ). Při platnosti hypotézy o nevýznamnosti parametru má normální rozdělení s jedním stupněm volnosti. Některé statistické programy (např. SAS) počítají Waldovu statistiku v upravením tvaru 2 ˆ ˆ 2 z = [ β sˆ ( β)], který má chí-kvadrát rozdělení s jedním stupněm volnosti. K testování statistické významnosti odhadnutého modelu se nejčastěji využívají test věrohodnostním poměrem, Waldův test a test skórů. est věrohodnostním poměrem. ento test je velmi jednoduchý. Porovnává hodnoty logaritmů parciálních věrohodnostních funkcí modelu bez vysvětlujících proměnných s modelem, do kterého Vědecký seminář doktorandů FIS březen 2004 89

bylo zahrnuto p vysvětlujících proměnných. Za podmínky platnosti nulové hypotézy že veškeré odhadnuté regresní parametry jsou rovny nule, tedy jsou statisticky nevýznamné, má testové kritérium G = 2[ L( βˆ ) L( 0 )] chí-kvadrát rozdělení s p stupni volnosti. 3 Waldův test Vícerozměrné Waldovo testové kritérium již vyžaduje maticové početní operace. Má tvar βˆ I(β)β ˆ ˆ. Za podmínky platnosti nulové hypotézy, že veškeré odhadnuté regresní parametry jsou statisticky nevýznamné, má opět chí-kvadrát rozdělení s p stupni volnosti. est skórů Stejně jako u vícerozměrného Waldova testu je testové kritérium dáno součinem matic u ( 0) [ I( 0) ] u( 0 ), kde u( 0) = u( β ) β = 0 je tzv. vektor skórů a I( 0) I( β ) = = β 0 je informační matice odvozená od nulového vektoru parametrů. Za stejných podmínek jaké platí pro oba výše uvedené testy má chí-kvadrát rozdělení s p stupni volnosti. 4 Volba vhodného modelu Velmi důležitou součástí analýzy přežití je i volba vhodného modelu. V mnoha případech totiž není riziková funkce ovlivněna jen jedním faktorem.výběr vhodných vysvětlujících proměnných a vyřazení těch, které jsou v modelu přebytečné je vhodné provádět na základě porovnání alternativních modelů. Jako vhodná statistika pro porovnávání je v literatuře doporučována hodnota věrohodnostní funkce modelu. Právě hodnota věrohodnostní funkce totiž v sobě obsahuje informaci o všech datech obsažených v modelu. Ve statistických packetech je tato statistika často počítána upraveně ve formě 2log Lˆ. Její hodnota je vždy kladná a obecně platí, čím je nižší, tím je daný model vhodnější. outo statistikou je však možné pouze porovnávat modely založené na stejných datových souborech. Její hodnota se totiž se změnou rozsahu datového souboru mění. Na podobném principu je založeno Akiakeho informační kritérium AIC = 2log Lˆ + αq. V tomto tvaru je α předem definovaná konstanta, jejíž hodnota se pohybuje většinou v rozmezí 2 až 6 a q je počet parametrů modelu. 5 Nezaměstnanost na Příbramsku Analýza doby potřebné ke znovuzaměstnání uchazeče o práci vychází ze souboru o 597 nezaměstnaných evidovaných úřadem práce v Příbrami v období mezi lednem 2002 a červnem 2003. Z celkového počtu 597 uchazečů bylo 3 žen a 286 mužů. 422 uchazečů bylo z evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci, byli odvedeni nebo nastoupili náhradní vojenskou službu, odešli na mateřskou dovolenou, do důchodu, přestěhovali se nebo zemřeli. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali i nadále, nebo o nich neexistují žádné další 3 Na matematické detaily testů upozorňuje []. 90 Vědecký seminář doktorandů FIS březen 2004

informace. Sledovanými faktory, jejichž vliv na dobu potřebnou ke znovuzaměstnání byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. Věk je jedinou spojitou proměnnou. Vzdělání a pohlaví jsou binární proměnné. Protože u proměnné vzdělání byly rozlišeny čtyři stupně, musely být zavedeny následující umělé proměnné: EDU_2 - nabývá hodnoty pro středoškolské vzdělání bez maturity, jinak hodnoty 0 EDU_3 - nabývá hodnoty pro středoškolské vzdělání s maturitou, jinak hodnoty 0 EDU_4 - nabývá hodnoty pro vysokoškolské vzdělání, jinak hodnoty 0 Pokud ani jedna z výše uvedených proměnných nenabývá hodnoty, jedná se pak o uchazeče se základním vzděláním. Proměnná SEX_M nabývá hodnoty pro muže a 0 pro ženu. Pro potřeby zvolení nejvhodnějšího modelu bylo odhadnuto pět alternativních modelů s různými kombinacemi v úvahu připadajících proměnných. Kritériem pro volbu nejvhodnějšího modelu je záporná hodnota dvojnásobku logaritmu věrohodnostní funkce 2log Lˆ a hodnota Akiakeho testového kritéria tak, jak je nabízí program SAS. abulka Porovnání alternativních modelů Model Proměnné v modelu 2log Lˆ AIC 2 žádné AGE 4284.8 4273.778 4284.8 4275.778 3 AGE+AGE^2 4258.692 4262.692 4 AGE+AGE^2+ SEX_M 4258.684 4264.684 5 AGE+AGE^2+EDU_2+EDU_3+EDU_4 424.68 425.68 6 AGE+AGE^2+EDU_2+EDU_3+EDU_4+SEX_M 424.42 4253.42 V porovnání s modelem bez vysvětlujících proměnných (v tabulce označen jako žádné ) je jasné, že alespoň jedna z uvažovaných proměnných má na dobu potřebnou ke znovuzaměstnání vliv. Potvrzují to obě sledované statistiky, které jsou u prvního navrženého modelu nejvyšší. abulka 2 Srovnání alternativních modelů pomocí testu věrohodnostním poměrem Porovnávané modely G Df p-value 2 vs 0,34 0,00 3 vs 2 5,086 0,000 4 vs 3 0,008 0,929 5 vs 3 7,524 3 0,00 6 vs 5 0,026 0,872 Přidáním umělé proměnné AGE^2, která je odvozena jako druhá mocnina věku (AGE), bylo zohledněno zjištění, že vliv věku není lineární. Důkaz o tomto tvrzení podává Jarošová v pracích [7] a [8]. ato nově vložená proměnná zohledňuje skutečnost, že osoby velmi mladé nebo naopak v pokročilém věku, mají šance na získání nového zaměstnání nižší, než uchazeči ve věku středním. Vědecký seminář doktorandů FIS březen 2004 9

Vložení věku a jeho druhé mocniny je pouze jednou z možností jak do modelu nelinearitu věku zahrnout. Alternativní modely, včetně modelu využívajících splinů, jsou uvedeny v [8]. Model s proměnnou AGE^2 (označen jako model 3) se podle sledovaných kritérií ukazuje jako vhodnější, což potvrzuje i test věrohodnostním poměrem (viz. tabulka 2). Stejně tak se hodnota 2log Lˆ statisticky významně snižuje se zahrnutím vlivu vzdělání, jak opět dokazuje test věrohodnostním poměrem v tabulce 2. Překvapivě však žádné zlepšení nepřináší zahrnutí proměnné pohlaví. Ani model 4 ani model 6 totiž v porovnání s alternativními modely nepřinášejí statisticky významnou změnu ukazatele 2log Lˆ. Přesto existuje předpoklad, že ženy mají horší možnosti znovuzaměstnání než muži a proto bude i faktor pohlaví do výsledného modelu zahrnut. o zda je tento předpoklad správný či nikoliv může potvrdit nebo vyvrátit analýza založená na rozsáhlejším souboru z celé České republiky, která bude v rámci uvedeného grantu také zpracována. Jako nejvhodnější byl tedy zvolen model s pořadovým číslem 6. Hodnota obou sledovaných kritérií je v jeho případě ze všech uvažovaných modelů nejnižší. Pomocí programu SAS byly odhadnuty parametry zvoleného modelu. Protože se v souboru vyskytují opakovaná data, bylo nutné provést odhad pomocí modifikované parciální věrohodnostní funkce, tak jak ji navrhli Kalbfleisch a Prentice. Výstup programu SAS je v tabulkách 3 a 4. abulka 3 Odhady parametrů modelu Variable D F Parameter Estimate Standard Error Chi- Square Pr>ChiS q Hazard Ratio 95% Hazard Ratio Confidence Limits AGE 0.09556 0.03236 8.727 0.003.00.033.72 AGE^2-0.0049 0.000447.4382 0.0007 0.999 0.998 0.999 SEX_M 0.0627 0.0995 0.0267 0.870.06 0.836.235 EDU_2 0.5306 0.53 2.3053 0.0005.699.264 2.285 EDU_3 0.698 0.6030 4.5752 0.000.844.347 2.525 EDU_4 0.4436 0.3290.8800 0.703.555 0.827 2.922 abulka 4 estování významnosti odhadnutého modelu esting Global Null Hypothesis: BEA=0 est Chi-Square DF Pr > ChiSq Likelihood Ratio 42.9759 6 <.000 Score 38.8386 6 <.000 Wald 37.8585 6 <.000 Všechny tři testy uvedené v tabulce 4 potvrzují statistickou významnost navrženého modelu. Jinými slovy je alespoň jeden z odhadnutých parametrů statisticky významný. 92 Vědecký seminář doktorandů FIS březen 2004

Odhady jednotlivých parametrů pak znázorňuje tabulka 3. Jak již bylo zmíněno kapitole 3 nabízejí statistické packety kromě odhadů parametrů β ˆ a jejich směrodatných ) chyb sˆ( βˆ ) i hodnoty intenzitních poměrů vypočtených jako ψˆ = exp β a jejich intervalů spolehlivosti. Důvodem je právě jejich snadná interpretovatelnost. Podle Waldova testu (sloupce Chi-Square a Pr>ChiSq) se potvrzuje to, co již odhalilo srovnávání alternativních modelů. Vliv pohlaví se ukazuje jako statisticky nevýznamný. Jeho p-value je 0,870. Na základě analyzovaných dat se tedy nepodařilo prokázat, že by existoval statisticky významný rozdíl mezi ženami a muži v šancích na znovuzískání zaměstnání. Stejně tak se jako nevýznamný ukazuje i vliv vysokoškolského vzdělání v porovnání se vzděláním základním. aké tento závěr je nutné ověřit na rozsáhlejším datovém souboru, protože neodpovídá předpokladu, že šance s rostoucím vzděláním rostou. Naopak parametr druhé mocniny věku statisticky významný je a znovu tak potvrzuje vhodnost zahrnutí této dodatečné proměnné. Interpretace odhadnutých intenzitních poměrů je tedy následující. S každým dalším dosaženým rokem věku nezaměstnaného roste příležitost k získání práce, krát. S pravděpodobností 95% se tento poměr bude pohybovat v rozmezí,03 až,7. Oproti uchazeči se základním vzděláním má středoškolák bez maturity,70 krát a středoškolák s maturitou,84 krát větší šanci, že získá nové zaměstnání. Analogicky je možné interpretovat i odhadnuté intervaly spolehlivosti. Jak již bylo zmíněno dříve, obsahuje analyzovaný soubor opakovaná data. K odhadu parametrů byl použit přesný tvar modifikované parciální věrohodnostní funkce. Statistický packet SAS však nabízí i odhad parametrů založený na Breslowově a Efronově aproximaci parciální věrohodnostní funkce. Srovnání odhadů s použitím alternativních metod je uvedeno v tabulce 5. abulka 5 Porovnání poměrů intenzit odhadnutých aproximacemi parciální věrohodnostní funkce Metoda AGE AGE^2 Poměr intenzit SEX_M EDU_2 EDU_3 EDU_4 Přesné vyjádření.00 0.999.06.699.844.555 Beslowova aproximace.00 0.999.06.695.840.552 Efronova aproximace.00 0.999.06.699.844.555 Z tabulky vyplývá, že rozdíly mezi odhady získanými exaktním přístupem a Efronovou aproximací jsou minimální. Výpočetně nejjednodušší aproximace Breslowova přináší odhady více odchýlené. 6 Odhad funkce přežití Výše uvedený odhad parametrů proporcionálního modelu vychází z předpokladu, že rozdělení doby přežití není známo. Přesto je na základě získaných dat možné odhadnout jak tvar funkce přežití S(t,x i,β), tak i intenzitní funkce h(t,x i,β) i-tého jedince nebo skupiny jedinců stejných vlastností. Pro připomenutí vyjadřuje funkce přežití Vědecký seminář doktorandů FIS březen 2004 93

pravděpodobnost, že doba nezaměstnanosti i-tého jedince bude stejná nebo delší než doba t, neboli S(t,x i,β) = P( t). Odhadnutá intenzitní funkce i-tého jedince ht ˆ(, x, βˆ) = hˆ ()exp( t x βˆ) je závislá jednak i o i na odhadnutých parametrech proporcionálního modelu, jednak na odhadu základní intenzitní funkce h ˆ () t, který založili Kalbfleisch a Prentice [9] na metodě maximální o věrohodnosti. Odhad základní rizikové funkce v čase t (j) vychází z tvaru hˆ ( t ) = ξˆ 0 ( j) j, kde ξ ˆj je řešením následující rovnice: exp( x ˆ lβ) = ˆ l D( t exp( x βˆ) l ) ξ j l R( t ) j j ( ) ( ) exp( x β ˆ) pro j =,2,...,r () l Výše uvedená rovnice vychází z předpokladu, že doby do znovuzaměstnání byly seřazeny vzestupně, takže t () <t (2)<...<t (r). V čase t (j) pak bylo z evidence nezaměstnaných vyřazeno d j jedinců a n j jedinců v ní nadále zůstávalo. V této rovnici pak představuje D(t (j) ) skupinu všech d j jedinců (znovuzaměstnaných v čase t (j) ) a R(t (j) ) je skupina všech jedinců, kteří práci stále hledali. V případech kdy se pozorování neopakují, tedy d j = pro j =,2,...,r, je možné rovnici jednoduše vyřešit. Častěji se však opakovaná pozorování vyskytují, což je i případ zde publikované studie, a pak je nutné řešit úlohu iterativním postupem. Na základě odhadnutého parametru ξ je pak možné získat i dohad základní funkce ˆj k přežití jako Sˆ () t ˆ 0 = ξ a analogicky s odhadem rizikové funkce i samotné funkce j j= přežití St ˆ(,, ˆ) = [ Sˆ () t i o ] exp( x β) l x β. Odhad základní funkce přežití je součástí nabídky statistického paketu SAS. Její číselný výstup překračuje možnosti tohoto článku. Přehlednější je její grafické zpracování, vyhotovené pomocí programu EXCEL. Obrázek zobrazuje průběh tří odhadnutých funkcí přežití pro muže se základním vzděláním a věkem 24 let (hodnota dolního kvartilu sledovaného souboru), 33 let (hodnota mediánu) a 46 let (hodnota horního kvartilu). Graficky je tak zobrazen předpoklad o nelinearitě věku, který byl do modelu dodatečně zahrnut. Muž ve věku 33 let tak má ve srovnání s ostatními nejlepší vyhlídky na znovuzískání zaměstnání. Pravděpodobnost, že zůstane v evidenci úřadu práce déle než je doba přežití t, je v každém okamžiku sledovaného období nejnižší. Nejhorší vyhlídky má naopak muž 46-letý. Pravděpodobnost, že zůstane bez zaměstnání déle než je doba přežití t, je v každém okamžiku nejvyšší. 94 Vědecký seminář doktorandů FIS březen 2004

Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 24 let 33 let 46 let 0,4 0,3 0 50 00 50 200 250 300 350 400 450 500 550 Doba přežití Obr. Odhad funkce přežití pro muže se základním vzděláním ve věku 24, 33 a 46 let. Obdobným způsobem je na obrázku 2 srovnán vliv různých stupňů dokončeného vzdělání. Jak již vyplynulo z odhadů intenzitních poměrů v kapitole 5, jsou vyhlídky na znovuzaměstnání nejhorší u uchazečů se základním vzděláním. Nejlepší pak u uchazečů s maturitou. Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, 0 0 00 200 300 400 500 Doba přežití Středoškolské bez maturity Středoškolské s maturitou Základní Vysokoškolské Obr. 2 Odhad funkce přežití pro muže ve věku 33 se vzděláním základním, středoškolským bez maturity, středoškolským s maturitou a vysokoškolským. Vědecký seminář doktorandů FIS březen 2004 95

7 Závěr Uvedený článek přináší další z možných oblastí aplikace nástrojů analýzy přežití. Problematika nezaměstnanosti je v České republice stále více aktuální a sledování faktorů působících na tento jev nabývá na významu. Analýza kvantifikuje vliv jen malého množství vybraných faktorů, které jsou v souvislosti s dobou nezaměstnanosti asi nejvíce zmiňovány. Je možné ovšem vyhodnotit i vliv faktorů méně významných, pokud budou k dispozici vhodná data. Pro další studium je třeba soustředit se na problém nelinearity věku v souvislosti s volbou nejvhodnějšího modelu. Dále pak prozkoumat působení pohlaví a také vysokoškolského vzdělání, jejichž vliv se na základě sledovaného datového souboru ukázal jako statisticky nevýznamný. Mezi další faktory, které by bylo vhodné do analýzy zařadit, určitě patří i vliv regionu, ve kterém se nezaměstnaný o práci uchází, protože rozdíly v tomto směru jsou v České republice dost významné. Literatura [] ANDERSEN, P.K., BORGAN, O., GILL, R.D., KEIDING, N.: Statistical Models Based on Counting Processes, Springer Verlag, N.Y. 993 [2] BRESLOW, N.: Covariance Analysis of Survival Data under the Proportional Hazards Model, International Statistical Review 974, č.43 [3] COX, D.R.: Regression Models and Life ables, Journal of the Royal Statistical Society, Series B 972, č.34 [4] EFRON, B.: he Efficiency of Cox s Likelihood Function for Censored Data, Journal of the American Statistical Association 977, č.72 [5] ESSER, M., POPELKA, J.: Analysis of Factors Influencing ime of Unemployment Using Survival ime Analysis, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [6] HOSMER, D.W., LEMESHOW, S.: Applied Survival Analysis, J.Wiley & Sons, N.Y. 999 [7] JAROŠOVÁ, E.: Analysis of Interval Censored Data, Universita Mateja Bela, Banská Bystrica 2003 [8] JAROŠOVÁ, E.: Exploring the Functional Form of Covariates in Cox Model, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [9] KALBFLEISCH, J.D., PRENICE, R.L.: Marginal Likelihoods Based on Cox s Regression and Life able Model, Biometrika 973, č.60 96 Vědecký seminář doktorandů FIS březen 2004

[0] KALBFLEISCH, J.D., PRENICE, R.L.: he Statistical Analysis of Failure ime Data, Wiley, N.Y. 980 [] HERENEAU,.M., GRAUBSH, P.M.: Modeling Survival Data: Extending he Cox Model, Springer Verlag, N.Y. 2000 Summary ANALYSIS OF FACORS INFLUENCING IME OF UNEMPLOYMEN USING SURVIVAL IME ANALYSIS Survival time analysis approach is used to examine factors influencing the hazard ratios and the length of unemployment. Analysis is based on data aquired from the Labour office in Příbram. Cox proportional model for right censored data is fitted to obtain the hazard ratio estimates. More alternative models are compared to choose the apropriate one. ests of model and parameters significance are evaluated. Survivorship function is estimated. Vědecký seminář doktorandů FIS březen 2004 97