Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití
|
|
- Alexandra Havlová
- před 7 lety
- Počet zobrazení:
Transkript
1 Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze přežití aplikované na problém nezaměstnanosti. Data získaná z úřadu práce v Příbrami se týkají registrovaných uchazečů o zaměstnání. Jsou nesymetricky rozdělena a cenzorována, což jsou dva z hlavních důvodů, proč byly použity právě postupy analýzy přežití. Součástí analýzy je volba vhodného semiparametrického modelu, odhad jeho parametrů a odpovídajících poměrů intenzit, jejich interpretace a diagnostika odhadnutého modelu i jednotlivých parametrů. Na základě získaných dat je odhadnut průběh základní funkce přežití a z ní jsou pak odvozeny konkrétní funkce přežití pro vybrané skupiny uchazečů o práci. Jejich průběh je graficky znázorněn pro přehlednější srovnání vybraných skupin. Klíčová slova: cenzorovaná data, Coxův proporcionální model, intenzitní funkce, poměr intenzit, věrohodnostní funkce, parciální věrohodnostnífunkce, funkce přežití. Úvod Pojem analýza přežití je využíván k popisu takových dat, která se vztahují k určitému přesně vymezenému období, jehož konec je stanoven konkrétní událostí. Název pochází z oblasti lékařských výzkumů, kde je často sledována právě doba přežití pacientů s určitou diagnózou a událostí ukončující sledování pacienta bývá často jeho smrt. Analýza přežití tak představuje nástroj, který odpovídá na otázku, zda a jakým způsobem závisí doba přežití jednotlivce nebo skupiny jednotlivců stejných vlastností na jednom nebo více sledovaných faktorech. akovými faktory jsou většinou různé druhy ordinovaných léků, operativní a léčebné postupy, biologické charakteristiky pacientů, jejich zdravotní stav atd. Jedním z cílů analýzy je odhalit, které z možných faktorů připadajících v úvahu skutečně na dobu přežití působí a ovlivňují tak pravděpodobnost, že určitá událost (nejčastěji právě zmiňované úmrtí) nastane v konkrétním čase, za podmínky, že sledovaná událost do této doby nenastala. Jsou dva důvody proč data o přežití není vhodné analyzovat standardními analytickými metodami. Zaprvé jsou tato data ve většině případů rozdělena nesymetricky, převládá kladné zešikmení. Není tedy vhodné využívat analytické nástroje založené na předpokladu normality rozdělení základního souboru. Zadruhé bývají taková data velmi často cenzorovaná. U mnoha sledovaných subjektů nenastane očekávaná událost před koncem experimentu, pacient přežívá a je v lepším případě vyléčen, nebo prostě není možné zjistit, zda a kdy sledovaná událost nastala. o 86 Vědecký seminář doktorandů FIS březen 2004
2 proto, že pacient z výzkumu například odejde nebo se odstěhuje a není možné jej již dále sledovat. Kromě využití v medicíně se pro analýzu přežití nabízejí i jiné oblasti aplikace. Je to například analýza faktorů působících na životnost výrobků a nebo, jak se snaží ukázat tento článek, sledování faktorů ovlivňujících dobu nezaměstnanosti. Data použitá v tomto článku byla získána v rámci grantu IGA Vysoké školy ekonomické s názvem "Analýza faktorů ovlivňujících dobu do znovuzaměstnání v ČR". Data pocházejí z Úřadu práce v Příbrami. Soubor obsahuje informace o uchazečích o práci, kteří byli na úřadu vedeni v lednu roku Z celkového počtu 597 uchazečů bylo 422 evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali. Sledovanými faktory, jejichž vliv byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. 2 Semiparametrický regresní model Rozdělení doby přežití může být popsáno dvěma způsoby. Prostřednictvím konkrétní známé hustotní funkce (tzv. parametrický regresní model) nebo pomocí intenzitního poměru (semiparametrický regresní model) v případech, kdy tvar distribuční a hustotní funkce rozdělení doby přežití není znám. Intenzitní poměr se zároveň uplatňuje i ve studiích, kdy je úkolem porovnat šance na přežití mezi vybranými skupinami. Intenzitní funkce vyjadřuje pravděpodobnost, že očekávaná událost (smrt, znovuzaměstnání) nastane v čase t za podmínky, že do tohoto času nenastala. Neboli: ( < + δ ) δt P t t t t ht () = lim δt 0 Regresní model intenzitní funkce s vektorem vysvětlující proměnných x a vektorem neznámých parametrů b má následující tvar: ht (, xβ, ) = h () tr( x, β ), (2) 0 kde funkce h 0 (t) vyjadřuje změny intenzitní funkce závisející na době přežití. ato složka je nazývána základní intenzitní funkcí (baseline hazard function). Funkce r( x, β) pak zachycuje působení vysvětlujících proměnných. Intenzitní poměr ψ vyjadřuje, kolikrát vyšší je šance na znovuzaměstnání jedince s hodnotami vysvětlujících proměnných definovaných vektorem x oproti jedinci s hodnotami vysvětlujících proměnných definovaných vektorem x 0. Počítán je následovně: ht (, x, β) h () tr( x, β) r( x, β) 0 ψ (, t x, x ) = = = 0 ht (, x, β) h () tr( x, β) r( x, β ). (3) Jak plyne z výše uvedené úpravy, je intenzitní poměr závislý pouze na funkci r( x, β) a konkrétní tvar základní intenzitní funkce h 0 (t) nemusí být pro potřeby výpočtu vůbec () Grant číslo IG Vědecký seminář doktorandů FIS březen
3 znám. Parametry těchto dvou funkcí mohou být tedy odhadovány odděleně. V praxi tak pro odhad intenzitních poměrů postačí pouze hodnoty vysvětlujících proměnných a znalost rozdělení doby přežití tak není nutná. Výhoda tohoto přístupu spočívá ve skutečnosti, že konkrétní rozdělení doby přežití není často vůbec známo a tvar distribuční a hustotní funkce musí být dodatečně zjišťován dalšími analytickými nástroji. Další výhodou je i jednoduchá interpretace odhadnutých parametrů semiparametrického modelu, resp. od nich odvozených poměrů intenzit. Konkrétní tvar funkce r( x, β) navrhl Cox jako r ( x, β) = exp( x β ). Uvedený model je často nazýván "Coxův proporcionální rizikový model" nebo zjednodušeně "Proporcionální rizikový model". Konkrétní tvar rizikové funkce uvádí vzorec (4). ht (,, ) = h ()exp( t ) 0 x β x β (4) A tvar intenzitního poměru vzorec (5) ψ x x = x x β (5) (, t, ) exp[( ) ] 0 0 K odhadu parametrů semiparametrického regresního modelu je využívána metoda maximalizace věrohodnostní funkce. V případech, kdy je model plně specifikován (je známo rozdělení doby přežití) má věrohodnostní funkce tvar n c ( ) {[ (,, )] [ (,, )] } 2 c i i l β = ht x β St x β (6) i i i i i= Indikátor cenzorování c i nabývá hodnoty nula pokud je i-tá doba přežití cenzorovaná zprava. V ostatních případech je jeho hodnota jedna. Funkce S(t i,x i,β) je funkcí přežití a vyjadřuje pravděpodobnost, že doba přežití i-tého jedince bude stejná nebo delší než doba t i, neboli S(t i,x i,β) = P( t i ). Z výpočetního hlediska je jednodušší nahradit věrohodnostní funkci jejím logaritmem. Odhad parametrů se pak provede maximalizací funkce: n { [ ] [ ] 0 0 } i x β i i i i i i L( β ) = c ln h ( t ) + cx β + ( 2 c ) e ln S ( t ). (7) i= Jak již bylo v této kapitole zmíněno, v mnoha případech ovšem není znám konkrétní tvar rozdělení doby přežití. Není tak známa ani funkce přežití S(t i,x i,β). Cox proto navrhl věrohodnostní funkci závislou pouze na vysvětlujících proměnných tzv. parciální věrohodnostní funkci. V případě, kdy se v modelu nenacházejí opakovaná data, je její tvar následující: ci n x β x β i j l( β ) = e e. 2 (8) i= j R( t ) ( i ) Cox předpokládal, že parametry odhadnuté pomocí parciální věrohodnostní funkce budou mít stejné rozdělení jako parametry získané maximalizací plné věrohodnostní funkce. Matematický důkaz tohoto předpokladu poskytli v roce 993 Andersen, Brogan, Gill a Keiding []. 2 Součet v čitateli je pro skupinu všech jedinců, kteří v daném čase t (i) práci stále hledali, označeno jako R(t (i)). 88 Vědecký seminář doktorandů FIS březen 2004
4 Pokud je tedy odhadován vektor p neznámých parametrů β = ( β, β,..., β 2 p ), je pak řešeno p následujících rovnic, jedna pro každý parametr: n L( β) = c exp( ) exp( ) i x ik x x β jk j x β j. (9) β k i= j R( t ) j R( t ) i i Pokud se v modelu data opakují, je nutné provést modifikace parciální věrohodnostní funkce. Parametry mohou být odhadnuty prostřednictvím přesného vyjádření navrženého Kalbfleischem a Prenticem [0], nebo pomocí vybrané aproximace (Breslow [2], Efron [4], Cox [3]), které jsou využívány především díky menší výpočetní náročnosti. 3 Diagnostika odhadnutého regresního modelu Pro potřeby testování statistické významnosti odhadnutých parametrů a sestrojení jejich intervalů spolehlivosti je nutné získat odhady jejich směrodatných chyb sˆ( β ˆ). Veškeré potřebné informace jsou obsaženy v informační matici o rozměrech p x p 2 L( β) I( β) =. (0) 2 β Kovariační matice je inverzí matice informační ˆ ( ˆ Var β) = I( β ). Diagonální prvky kovariační matice jsou odhady rozptylů odhadnutých parametrů, jejichž odmocněním se vypočtou hledané odhady směrodatných chyby sˆ( β ˆ). Za předpokladu, že odhady parametrů jsou normálně rozděleny se střední hodnotou β a směrodatnou odchylkou sˆ( β ˆ), lze 00(-α)% interval spolehlivosti vypočítat podle jednoduchého tvaru βˆ ± u sˆ( βˆ ). k α /2 k Odhadnuté parametry a vypočtené intervaly spolehlivosti parametrů Coxova modelu jsou ovšem velmi špatně interpretovatelné. Je proto vhodnější dopočíst a interpretovat ) odhadnuté intenzitní poměry ψˆ = exp β, odhady jejich směrodatných chyb sˆ( ψˆ) = ψˆsˆ( βˆ ) a následně i jejich intervaly spolehlivosti ψˆ ± u sˆ( ψˆ). α /2 K posouzení statistické významnosti odhadnutých parametrů se nejčastěji používá Waldův test. Waldova statistika má tvar z = βˆ sˆ( βˆ). Při platnosti hypotézy o nevýznamnosti parametru má normální rozdělení s jedním stupněm volnosti. Některé statistické programy (např. SAS) počítají Waldovu statistiku v upravením tvaru 2 ˆ ˆ 2 z = [ β sˆ ( β)], který má chí-kvadrát rozdělení s jedním stupněm volnosti. K testování statistické významnosti odhadnutého modelu se nejčastěji využívají test věrohodnostním poměrem, Waldův test a test skórů. est věrohodnostním poměrem. ento test je velmi jednoduchý. Porovnává hodnoty logaritmů parciálních věrohodnostních funkcí modelu bez vysvětlujících proměnných s modelem, do kterého Vědecký seminář doktorandů FIS březen
5 bylo zahrnuto p vysvětlujících proměnných. Za podmínky platnosti nulové hypotézy že veškeré odhadnuté regresní parametry jsou rovny nule, tedy jsou statisticky nevýznamné, má testové kritérium G = 2[ L( βˆ ) L( 0 )] chí-kvadrát rozdělení s p stupni volnosti. 3 Waldův test Vícerozměrné Waldovo testové kritérium již vyžaduje maticové početní operace. Má tvar βˆ I(β)β ˆ ˆ. Za podmínky platnosti nulové hypotézy, že veškeré odhadnuté regresní parametry jsou statisticky nevýznamné, má opět chí-kvadrát rozdělení s p stupni volnosti. est skórů Stejně jako u vícerozměrného Waldova testu je testové kritérium dáno součinem matic u ( 0) [ I( 0) ] u( 0 ), kde u( 0) = u( β ) β = 0 je tzv. vektor skórů a I( 0) I( β ) = = β 0 je informační matice odvozená od nulového vektoru parametrů. Za stejných podmínek jaké platí pro oba výše uvedené testy má chí-kvadrát rozdělení s p stupni volnosti. 4 Volba vhodného modelu Velmi důležitou součástí analýzy přežití je i volba vhodného modelu. V mnoha případech totiž není riziková funkce ovlivněna jen jedním faktorem.výběr vhodných vysvětlujících proměnných a vyřazení těch, které jsou v modelu přebytečné je vhodné provádět na základě porovnání alternativních modelů. Jako vhodná statistika pro porovnávání je v literatuře doporučována hodnota věrohodnostní funkce modelu. Právě hodnota věrohodnostní funkce totiž v sobě obsahuje informaci o všech datech obsažených v modelu. Ve statistických packetech je tato statistika často počítána upraveně ve formě 2log Lˆ. Její hodnota je vždy kladná a obecně platí, čím je nižší, tím je daný model vhodnější. outo statistikou je však možné pouze porovnávat modely založené na stejných datových souborech. Její hodnota se totiž se změnou rozsahu datového souboru mění. Na podobném principu je založeno Akiakeho informační kritérium AIC = 2log Lˆ + αq. V tomto tvaru je α předem definovaná konstanta, jejíž hodnota se pohybuje většinou v rozmezí 2 až 6 a q je počet parametrů modelu. 5 Nezaměstnanost na Příbramsku Analýza doby potřebné ke znovuzaměstnání uchazeče o práci vychází ze souboru o 597 nezaměstnaných evidovaných úřadem práce v Příbrami v období mezi lednem 2002 a červnem Z celkového počtu 597 uchazečů bylo 3 žen a 286 mužů. 422 uchazečů bylo z evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci, byli odvedeni nebo nastoupili náhradní vojenskou službu, odešli na mateřskou dovolenou, do důchodu, přestěhovali se nebo zemřeli. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali i nadále, nebo o nich neexistují žádné další 3 Na matematické detaily testů upozorňuje []. 90 Vědecký seminář doktorandů FIS březen 2004
6 informace. Sledovanými faktory, jejichž vliv na dobu potřebnou ke znovuzaměstnání byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. Věk je jedinou spojitou proměnnou. Vzdělání a pohlaví jsou binární proměnné. Protože u proměnné vzdělání byly rozlišeny čtyři stupně, musely být zavedeny následující umělé proměnné: EDU_2 - nabývá hodnoty pro středoškolské vzdělání bez maturity, jinak hodnoty 0 EDU_3 - nabývá hodnoty pro středoškolské vzdělání s maturitou, jinak hodnoty 0 EDU_4 - nabývá hodnoty pro vysokoškolské vzdělání, jinak hodnoty 0 Pokud ani jedna z výše uvedených proměnných nenabývá hodnoty, jedná se pak o uchazeče se základním vzděláním. Proměnná SEX_M nabývá hodnoty pro muže a 0 pro ženu. Pro potřeby zvolení nejvhodnějšího modelu bylo odhadnuto pět alternativních modelů s různými kombinacemi v úvahu připadajících proměnných. Kritériem pro volbu nejvhodnějšího modelu je záporná hodnota dvojnásobku logaritmu věrohodnostní funkce 2log Lˆ a hodnota Akiakeho testového kritéria tak, jak je nabízí program SAS. abulka Porovnání alternativních modelů Model Proměnné v modelu 2log Lˆ AIC 2 žádné AGE AGE+AGE^ AGE+AGE^2+ SEX_M AGE+AGE^2+EDU_2+EDU_3+EDU_ AGE+AGE^2+EDU_2+EDU_3+EDU_4+SEX_M V porovnání s modelem bez vysvětlujících proměnných (v tabulce označen jako žádné ) je jasné, že alespoň jedna z uvažovaných proměnných má na dobu potřebnou ke znovuzaměstnání vliv. Potvrzují to obě sledované statistiky, které jsou u prvního navrženého modelu nejvyšší. abulka 2 Srovnání alternativních modelů pomocí testu věrohodnostním poměrem Porovnávané modely G Df p-value 2 vs 0,34 0,00 3 vs 2 5,086 0,000 4 vs 3 0,008 0,929 5 vs 3 7, ,00 6 vs 5 0,026 0,872 Přidáním umělé proměnné AGE^2, která je odvozena jako druhá mocnina věku (AGE), bylo zohledněno zjištění, že vliv věku není lineární. Důkaz o tomto tvrzení podává Jarošová v pracích [7] a [8]. ato nově vložená proměnná zohledňuje skutečnost, že osoby velmi mladé nebo naopak v pokročilém věku, mají šance na získání nového zaměstnání nižší, než uchazeči ve věku středním. Vědecký seminář doktorandů FIS březen
7 Vložení věku a jeho druhé mocniny je pouze jednou z možností jak do modelu nelinearitu věku zahrnout. Alternativní modely, včetně modelu využívajících splinů, jsou uvedeny v [8]. Model s proměnnou AGE^2 (označen jako model 3) se podle sledovaných kritérií ukazuje jako vhodnější, což potvrzuje i test věrohodnostním poměrem (viz. tabulka 2). Stejně tak se hodnota 2log Lˆ statisticky významně snižuje se zahrnutím vlivu vzdělání, jak opět dokazuje test věrohodnostním poměrem v tabulce 2. Překvapivě však žádné zlepšení nepřináší zahrnutí proměnné pohlaví. Ani model 4 ani model 6 totiž v porovnání s alternativními modely nepřinášejí statisticky významnou změnu ukazatele 2log Lˆ. Přesto existuje předpoklad, že ženy mají horší možnosti znovuzaměstnání než muži a proto bude i faktor pohlaví do výsledného modelu zahrnut. o zda je tento předpoklad správný či nikoliv může potvrdit nebo vyvrátit analýza založená na rozsáhlejším souboru z celé České republiky, která bude v rámci uvedeného grantu také zpracována. Jako nejvhodnější byl tedy zvolen model s pořadovým číslem 6. Hodnota obou sledovaných kritérií je v jeho případě ze všech uvažovaných modelů nejnižší. Pomocí programu SAS byly odhadnuty parametry zvoleného modelu. Protože se v souboru vyskytují opakovaná data, bylo nutné provést odhad pomocí modifikované parciální věrohodnostní funkce, tak jak ji navrhli Kalbfleisch a Prentice. Výstup programu SAS je v tabulkách 3 a 4. abulka 3 Odhady parametrů modelu Variable D F Parameter Estimate Standard Error Chi- Square Pr>ChiS q Hazard Ratio 95% Hazard Ratio Confidence Limits AGE AGE^ SEX_M EDU_ EDU_ EDU_ abulka 4 estování významnosti odhadnutého modelu esting Global Null Hypothesis: BEA=0 est Chi-Square DF Pr > ChiSq Likelihood Ratio <.000 Score <.000 Wald <.000 Všechny tři testy uvedené v tabulce 4 potvrzují statistickou významnost navrženého modelu. Jinými slovy je alespoň jeden z odhadnutých parametrů statisticky významný. 92 Vědecký seminář doktorandů FIS březen 2004
8 Odhady jednotlivých parametrů pak znázorňuje tabulka 3. Jak již bylo zmíněno kapitole 3 nabízejí statistické packety kromě odhadů parametrů β ˆ a jejich směrodatných ) chyb sˆ( βˆ ) i hodnoty intenzitních poměrů vypočtených jako ψˆ = exp β a jejich intervalů spolehlivosti. Důvodem je právě jejich snadná interpretovatelnost. Podle Waldova testu (sloupce Chi-Square a Pr>ChiSq) se potvrzuje to, co již odhalilo srovnávání alternativních modelů. Vliv pohlaví se ukazuje jako statisticky nevýznamný. Jeho p-value je 0,870. Na základě analyzovaných dat se tedy nepodařilo prokázat, že by existoval statisticky významný rozdíl mezi ženami a muži v šancích na znovuzískání zaměstnání. Stejně tak se jako nevýznamný ukazuje i vliv vysokoškolského vzdělání v porovnání se vzděláním základním. aké tento závěr je nutné ověřit na rozsáhlejším datovém souboru, protože neodpovídá předpokladu, že šance s rostoucím vzděláním rostou. Naopak parametr druhé mocniny věku statisticky významný je a znovu tak potvrzuje vhodnost zahrnutí této dodatečné proměnné. Interpretace odhadnutých intenzitních poměrů je tedy následující. S každým dalším dosaženým rokem věku nezaměstnaného roste příležitost k získání práce, krát. S pravděpodobností 95% se tento poměr bude pohybovat v rozmezí,03 až,7. Oproti uchazeči se základním vzděláním má středoškolák bez maturity,70 krát a středoškolák s maturitou,84 krát větší šanci, že získá nové zaměstnání. Analogicky je možné interpretovat i odhadnuté intervaly spolehlivosti. Jak již bylo zmíněno dříve, obsahuje analyzovaný soubor opakovaná data. K odhadu parametrů byl použit přesný tvar modifikované parciální věrohodnostní funkce. Statistický packet SAS však nabízí i odhad parametrů založený na Breslowově a Efronově aproximaci parciální věrohodnostní funkce. Srovnání odhadů s použitím alternativních metod je uvedeno v tabulce 5. abulka 5 Porovnání poměrů intenzit odhadnutých aproximacemi parciální věrohodnostní funkce Metoda AGE AGE^2 Poměr intenzit SEX_M EDU_2 EDU_3 EDU_4 Přesné vyjádření Beslowova aproximace Efronova aproximace Z tabulky vyplývá, že rozdíly mezi odhady získanými exaktním přístupem a Efronovou aproximací jsou minimální. Výpočetně nejjednodušší aproximace Breslowova přináší odhady více odchýlené. 6 Odhad funkce přežití Výše uvedený odhad parametrů proporcionálního modelu vychází z předpokladu, že rozdělení doby přežití není známo. Přesto je na základě získaných dat možné odhadnout jak tvar funkce přežití S(t,x i,β), tak i intenzitní funkce h(t,x i,β) i-tého jedince nebo skupiny jedinců stejných vlastností. Pro připomenutí vyjadřuje funkce přežití Vědecký seminář doktorandů FIS březen
9 pravděpodobnost, že doba nezaměstnanosti i-tého jedince bude stejná nebo delší než doba t, neboli S(t,x i,β) = P( t). Odhadnutá intenzitní funkce i-tého jedince ht ˆ(, x, βˆ) = hˆ ()exp( t x βˆ) je závislá jednak i o i na odhadnutých parametrech proporcionálního modelu, jednak na odhadu základní intenzitní funkce h ˆ () t, který založili Kalbfleisch a Prentice [9] na metodě maximální o věrohodnosti. Odhad základní rizikové funkce v čase t (j) vychází z tvaru hˆ ( t ) = ξˆ 0 ( j) j, kde ξ ˆj je řešením následující rovnice: exp( x ˆ lβ) = ˆ l D( t exp( x βˆ) l ) ξ j l R( t ) j j ( ) ( ) exp( x β ˆ) pro j =,2,...,r () l Výše uvedená rovnice vychází z předpokladu, že doby do znovuzaměstnání byly seřazeny vzestupně, takže t () <t (2)<...<t (r). V čase t (j) pak bylo z evidence nezaměstnaných vyřazeno d j jedinců a n j jedinců v ní nadále zůstávalo. V této rovnici pak představuje D(t (j) ) skupinu všech d j jedinců (znovuzaměstnaných v čase t (j) ) a R(t (j) ) je skupina všech jedinců, kteří práci stále hledali. V případech kdy se pozorování neopakují, tedy d j = pro j =,2,...,r, je možné rovnici jednoduše vyřešit. Častěji se však opakovaná pozorování vyskytují, což je i případ zde publikované studie, a pak je nutné řešit úlohu iterativním postupem. Na základě odhadnutého parametru ξ je pak možné získat i dohad základní funkce ˆj k přežití jako Sˆ () t ˆ 0 = ξ a analogicky s odhadem rizikové funkce i samotné funkce j j= přežití St ˆ(,, ˆ) = [ Sˆ () t i o ] exp( x β) l x β. Odhad základní funkce přežití je součástí nabídky statistického paketu SAS. Její číselný výstup překračuje možnosti tohoto článku. Přehlednější je její grafické zpracování, vyhotovené pomocí programu EXCEL. Obrázek zobrazuje průběh tří odhadnutých funkcí přežití pro muže se základním vzděláním a věkem 24 let (hodnota dolního kvartilu sledovaného souboru), 33 let (hodnota mediánu) a 46 let (hodnota horního kvartilu). Graficky je tak zobrazen předpoklad o nelinearitě věku, který byl do modelu dodatečně zahrnut. Muž ve věku 33 let tak má ve srovnání s ostatními nejlepší vyhlídky na znovuzískání zaměstnání. Pravděpodobnost, že zůstane v evidenci úřadu práce déle než je doba přežití t, je v každém okamžiku sledovaného období nejnižší. Nejhorší vyhlídky má naopak muž 46-letý. Pravděpodobnost, že zůstane bez zaměstnání déle než je doba přežití t, je v každém okamžiku nejvyšší. 94 Vědecký seminář doktorandů FIS březen 2004
10 Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 24 let 33 let 46 let 0,4 0, Doba přežití Obr. Odhad funkce přežití pro muže se základním vzděláním ve věku 24, 33 a 46 let. Obdobným způsobem je na obrázku 2 srovnán vliv různých stupňů dokončeného vzdělání. Jak již vyplynulo z odhadů intenzitních poměrů v kapitole 5, jsou vyhlídky na znovuzaměstnání nejhorší u uchazečů se základním vzděláním. Nejlepší pak u uchazečů s maturitou. Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, Doba přežití Středoškolské bez maturity Středoškolské s maturitou Základní Vysokoškolské Obr. 2 Odhad funkce přežití pro muže ve věku 33 se vzděláním základním, středoškolským bez maturity, středoškolským s maturitou a vysokoškolským. Vědecký seminář doktorandů FIS březen
11 7 Závěr Uvedený článek přináší další z možných oblastí aplikace nástrojů analýzy přežití. Problematika nezaměstnanosti je v České republice stále více aktuální a sledování faktorů působících na tento jev nabývá na významu. Analýza kvantifikuje vliv jen malého množství vybraných faktorů, které jsou v souvislosti s dobou nezaměstnanosti asi nejvíce zmiňovány. Je možné ovšem vyhodnotit i vliv faktorů méně významných, pokud budou k dispozici vhodná data. Pro další studium je třeba soustředit se na problém nelinearity věku v souvislosti s volbou nejvhodnějšího modelu. Dále pak prozkoumat působení pohlaví a také vysokoškolského vzdělání, jejichž vliv se na základě sledovaného datového souboru ukázal jako statisticky nevýznamný. Mezi další faktory, které by bylo vhodné do analýzy zařadit, určitě patří i vliv regionu, ve kterém se nezaměstnaný o práci uchází, protože rozdíly v tomto směru jsou v České republice dost významné. Literatura [] ANDERSEN, P.K., BORGAN, O., GILL, R.D., KEIDING, N.: Statistical Models Based on Counting Processes, Springer Verlag, N.Y. 993 [2] BRESLOW, N.: Covariance Analysis of Survival Data under the Proportional Hazards Model, International Statistical Review 974, č.43 [3] COX, D.R.: Regression Models and Life ables, Journal of the Royal Statistical Society, Series B 972, č.34 [4] EFRON, B.: he Efficiency of Cox s Likelihood Function for Censored Data, Journal of the American Statistical Association 977, č.72 [5] ESSER, M., POPELKA, J.: Analysis of Factors Influencing ime of Unemployment Using Survival ime Analysis, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [6] HOSMER, D.W., LEMESHOW, S.: Applied Survival Analysis, J.Wiley & Sons, N.Y. 999 [7] JAROŠOVÁ, E.: Analysis of Interval Censored Data, Universita Mateja Bela, Banská Bystrica 2003 [8] JAROŠOVÁ, E.: Exploring the Functional Form of Covariates in Cox Model, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [9] KALBFLEISCH, J.D., PRENICE, R.L.: Marginal Likelihoods Based on Cox s Regression and Life able Model, Biometrika 973, č Vědecký seminář doktorandů FIS březen 2004
12 [0] KALBFLEISCH, J.D., PRENICE, R.L.: he Statistical Analysis of Failure ime Data, Wiley, N.Y. 980 [] HERENEAU,.M., GRAUBSH, P.M.: Modeling Survival Data: Extending he Cox Model, Springer Verlag, N.Y Summary ANALYSIS OF FACORS INFLUENCING IME OF UNEMPLOYMEN USING SURVIVAL IME ANALYSIS Survival time analysis approach is used to examine factors influencing the hazard ratios and the length of unemployment. Analysis is based on data aquired from the Labour office in Příbram. Cox proportional model for right censored data is fitted to obtain the hazard ratio estimates. More alternative models are compared to choose the apropriate one. ests of model and parameters significance are evaluated. Survivorship function is estimated. Vědecký seminář doktorandů FIS březen
Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití
Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze
Více8 Coxův model proporcionálních rizik I
8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná
Více7 Regresní modely v analýze přežití
7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce
Více2 Hlavní charakteristiky v analýze přežití
2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student
VíceCHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK
CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK Aneta Andrášiková 1, Eva Fišerová 1, Silvie Bělašková 2 1 Univerzita Palackého v Olomouci, PřF, KMaAM 2 Fakultní nemocnice u sv. Anny v Brně,
VíceAVDAT Klasický lineární model, metoda nejmenších
AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i
Více4EK211 Základy ekonometrie
4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 8 Jak analyzovat přežití pacientů.
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceJana Vránová, 3. lékařská fakulta, UK Praha
Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně
VíceRegresní a korelační analýza
Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).
VíceRNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných
VíceIlustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
VíceKategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1
Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze
VíceRegresní analýza 1. Regresní analýza
Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému
VíceYou created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)
Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,
VíceSEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík
SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách
VíceTestování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
Více10. Předpovídání - aplikace regresní úlohy
10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu
VíceStatistické metody v marketingu. Ing. Michael Rost, Ph.D.
Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,
VícePřednáška X. Testování hypotéz o kvantitativních proměnných
Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody
VíceTestování hypotéz o parametrech regresního modelu
Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO
VíceMetoda backward výběru proměnných v lineární regresi a její vlastnosti
Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda
VíceTestování hypotéz o parametrech regresního modelu
Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,
Více1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceRegresní analýza. Eva Jarošová
Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost
VíceUniverzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro
VíceIntervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
VíceEKONOMETRIE 7. přednáška Fáze ekonometrické analýzy
EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých
VíceVYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová
VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),
VícePravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1
Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu
Více4ST201 STATISTIKA CVIČENÍ Č. 10
4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte
VíceCharakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
VíceJednofaktorová analýza rozptylu
I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých
Vícejevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.
Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment
VíceStatistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I
Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla
VíceVŠB Technická univerzita Ostrava
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky Neparametrické a semi-parametrické modely v analýze přežití Non-parametric and Semi-parametric Models
Více7. Rozdělení pravděpodobnosti ve statistice
7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,
VícePřednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy
Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita
VíceJarqueův a Beryho test normality (Jarque-Bera Test, JB test)
Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque and Anil K. Bera Předpoklady: - Výběrová data mohou obsahovat chybějící pozorování (chybějící hodnoty) vhodné zejména
Více6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.
6. ZÁKLADY STATIST. ODHADOVÁNÍ X={X 1, X 2,..., X n } výběr z rozdělení s F (x, θ), θ={θ 1,..., θ r } - vektor reálných neznámých param. θ Θ R k. Θ parametrický prostor. Dva základní způsoby odhadu neznámého
VíceProblematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
VícePlánování experimentu
Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces
VícePSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady
PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným
Více9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).
VícePravděpodobnost a matematická statistika
Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n
VíceUniverzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie
Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální
VíceNormální (Gaussovo) rozdělení
Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký
VícePRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice
VíceStatistika (KMI/PSTAT)
Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)
VíceUni- and multi-dimensional parametric tests for comparison of sample results
Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
VíceTECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání
TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,
VíceZápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
VíceTesty dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich
VíceTeorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)
Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah
VíceTECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD
TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD Umělé (dummy) proměnné se používají, pokud chceme do modelu zahrnout proměnné, které mají kvalitativní či diskrétní charakter,
VíceKalibrace a limity její přesnosti
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015
VíceParametrické testy hypotéz o středních hodnotách spojitých náhodných veličin
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum I. ÚVOD vv této přednášce budeme hovořit o jednovýběrových a dvouvýběrových testech týkajících se střední hodnoty
VíceADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
VíceLineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
Více676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
VíceKGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním
VíceStatistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.
VíceUNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015
VíceEKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU
EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU Klára Hrůzová 1,2, Karel Hron 1,2 1 Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, Univerzita Palackého v Olomouci 2 Katedra
VíceStatistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ
Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární
VíceKlasická a robustní ortogonální regrese mezi složkami kompozice
Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x
VícePravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
VíceUrčujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
VíceKorelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza
Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako
VíceMÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
VíceMann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
VícePřijímací zkouška na navazující magisterské studium 2017
Přijímací zkouška na navazující magisterské studium 27 Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A Řešení příkladů pečlivě odůvodněte. Věnujte pozornost ověření
VíceCvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
VíceDobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze
Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,
VíceKALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016
VíceUniverzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce
Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.
VíceStatistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead
PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně
VíceRanní úvahy o statistice
Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy
VíceVŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý
VícePOLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.
POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,
VíceTestování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
VíceEva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.
Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci
Vícehttp: //meloun.upce.cz,
Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,
VíceParametrické testy hypotéz o středních hodnotách spojitých náhodných veličin
Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum Kontakt: Literatura: Obecné informace Zvárová, J.: Základy statistiky pro biomedicínskéobory I. Vydavatelství
Víceanalýzy dat v oboru Matematická biologie
INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,
VíceVŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL
Více10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.
0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti
Více9. T r a n s f o r m a c e n á h o d n é v e l i č i n y
9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud
VíceANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie
UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.
VíceTestování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.
Více18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1
18AEK Aplikovaná ekonometrie a teorie časových řad Řešení domácích úkolů č. 1 a 2 příklad 1 Obecné pravidlo pro všechny testy Je stanovena nulová hypotéza: H 0 Je stanovena alternativní hypotéza: H A Je
VíceChyby měření 210DPSM
Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů
Více15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
VíceObsah přednášky Jaká asi bude chyba modelu na nových datech?
Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich
VíceTESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
Více