Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

Rozměr: px
Začít zobrazení ze stránky:

Download "Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití"

Transkript

1 Analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze přežití aplikované na problém nezaměstnanosti. Data získaná z úřadu práce v Příbrami se týkají registrovaných uchazečů o zaměstnání. Jsou nesymetricky rozdělena a cenzorována, což jsou dva z hlavních důvodů, proč byly použity právě postupy analýzy přežití. Součástí analýzy je volba vhodného semiparametrického modelu, odhad jeho parametrů a odpovídajících poměrů intenzit, jejich interpretace a diagnostika odhadnutého modelu i jednotlivých parametrů. Na základě získaných dat je odhadnut průběh základní funkce přežití a z ní jsou pak odvozeny konkrétní funkce přežití pro vybrané skupiny uchazečů o práci. Jejich průběh je graficky znázorněn pro přehlednější srovnání vybraných skupin. Klíčová slova: cenzorovaná data, Coxův proporcionální model, intenzitní funkce, poměr intenzit, věrohodnostní funkce, parciální věrohodnostnífunkce, funkce přežití. Úvod Pojem analýza přežití je využíván k popisu takových dat, která se vztahují k určitému přesně vymezenému období, jehož konec je stanoven konkrétní událostí. Název pochází z oblasti lékařských výzkumů, kde je často sledována právě doba přežití pacientů s určitou diagnózou a událostí ukončující sledování pacienta bývá často jeho smrt. Analýza přežití tak představuje nástroj, který odpovídá na otázku, zda a jakým způsobem závisí doba přežití jednotlivce nebo skupiny jednotlivců stejných vlastností na jednom nebo více sledovaných faktorech. akovými faktory jsou většinou různé druhy ordinovaných léků, operativní a léčebné postupy, biologické charakteristiky pacientů, jejich zdravotní stav atd. Jedním z cílů analýzy je odhalit, které z možných faktorů připadajících v úvahu skutečně na dobu přežití působí a ovlivňují tak pravděpodobnost, že určitá událost (nejčastěji právě zmiňované úmrtí) nastane v konkrétním čase, za podmínky, že sledovaná událost do této doby nenastala. Jsou dva důvody proč data o přežití není vhodné analyzovat standardními analytickými metodami. Zaprvé jsou tato data ve většině případů rozdělena nesymetricky, převládá kladné zešikmení. Není tedy vhodné využívat analytické nástroje založené na předpokladu normality rozdělení základního souboru. Zadruhé bývají taková data velmi často cenzorovaná. U mnoha sledovaných subjektů nenastane očekávaná událost před koncem experimentu, pacient přežívá a je v lepším případě vyléčen, nebo prostě není možné zjistit, zda a kdy sledovaná událost nastala. o 86 Vědecký seminář doktorandů FIS březen 2004

2 proto, že pacient z výzkumu například odejde nebo se odstěhuje a není možné jej již dále sledovat. Kromě využití v medicíně se pro analýzu přežití nabízejí i jiné oblasti aplikace. Je to například analýza faktorů působících na životnost výrobků a nebo, jak se snaží ukázat tento článek, sledování faktorů ovlivňujících dobu nezaměstnanosti. Data použitá v tomto článku byla získána v rámci grantu IGA Vysoké školy ekonomické s názvem "Analýza faktorů ovlivňujících dobu do znovuzaměstnání v ČR". Data pocházejí z Úřadu práce v Příbrami. Soubor obsahuje informace o uchazečích o práci, kteří byli na úřadu vedeni v lednu roku Z celkového počtu 597 uchazečů bylo 422 evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali. Sledovanými faktory, jejichž vliv byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. 2 Semiparametrický regresní model Rozdělení doby přežití může být popsáno dvěma způsoby. Prostřednictvím konkrétní známé hustotní funkce (tzv. parametrický regresní model) nebo pomocí intenzitního poměru (semiparametrický regresní model) v případech, kdy tvar distribuční a hustotní funkce rozdělení doby přežití není znám. Intenzitní poměr se zároveň uplatňuje i ve studiích, kdy je úkolem porovnat šance na přežití mezi vybranými skupinami. Intenzitní funkce vyjadřuje pravděpodobnost, že očekávaná událost (smrt, znovuzaměstnání) nastane v čase t za podmínky, že do tohoto času nenastala. Neboli: ( < + δ ) δt P t t t t ht () = lim δt 0 Regresní model intenzitní funkce s vektorem vysvětlující proměnných x a vektorem neznámých parametrů b má následující tvar: ht (, xβ, ) = h () tr( x, β ), (2) 0 kde funkce h 0 (t) vyjadřuje změny intenzitní funkce závisející na době přežití. ato složka je nazývána základní intenzitní funkcí (baseline hazard function). Funkce r( x, β) pak zachycuje působení vysvětlujících proměnných. Intenzitní poměr ψ vyjadřuje, kolikrát vyšší je šance na znovuzaměstnání jedince s hodnotami vysvětlujících proměnných definovaných vektorem x oproti jedinci s hodnotami vysvětlujících proměnných definovaných vektorem x 0. Počítán je následovně: ht (, x, β) h () tr( x, β) r( x, β) 0 ψ (, t x, x ) = = = 0 ht (, x, β) h () tr( x, β) r( x, β ). (3) Jak plyne z výše uvedené úpravy, je intenzitní poměr závislý pouze na funkci r( x, β) a konkrétní tvar základní intenzitní funkce h 0 (t) nemusí být pro potřeby výpočtu vůbec () Grant číslo IG Vědecký seminář doktorandů FIS březen

3 znám. Parametry těchto dvou funkcí mohou být tedy odhadovány odděleně. V praxi tak pro odhad intenzitních poměrů postačí pouze hodnoty vysvětlujících proměnných a znalost rozdělení doby přežití tak není nutná. Výhoda tohoto přístupu spočívá ve skutečnosti, že konkrétní rozdělení doby přežití není často vůbec známo a tvar distribuční a hustotní funkce musí být dodatečně zjišťován dalšími analytickými nástroji. Další výhodou je i jednoduchá interpretace odhadnutých parametrů semiparametrického modelu, resp. od nich odvozených poměrů intenzit. Konkrétní tvar funkce r( x, β) navrhl Cox jako r ( x, β) = exp( x β ). Uvedený model je často nazýván "Coxův proporcionální rizikový model" nebo zjednodušeně "Proporcionální rizikový model". Konkrétní tvar rizikové funkce uvádí vzorec (4). ht (,, ) = h ()exp( t ) 0 x β x β (4) A tvar intenzitního poměru vzorec (5) ψ x x = x x β (5) (, t, ) exp[( ) ] 0 0 K odhadu parametrů semiparametrického regresního modelu je využívána metoda maximalizace věrohodnostní funkce. V případech, kdy je model plně specifikován (je známo rozdělení doby přežití) má věrohodnostní funkce tvar n c ( ) {[ (,, )] [ (,, )] } 2 c i i l β = ht x β St x β (6) i i i i i= Indikátor cenzorování c i nabývá hodnoty nula pokud je i-tá doba přežití cenzorovaná zprava. V ostatních případech je jeho hodnota jedna. Funkce S(t i,x i,β) je funkcí přežití a vyjadřuje pravděpodobnost, že doba přežití i-tého jedince bude stejná nebo delší než doba t i, neboli S(t i,x i,β) = P( t i ). Z výpočetního hlediska je jednodušší nahradit věrohodnostní funkci jejím logaritmem. Odhad parametrů se pak provede maximalizací funkce: n { [ ] [ ] 0 0 } i x β i i i i i i L( β ) = c ln h ( t ) + cx β + ( 2 c ) e ln S ( t ). (7) i= Jak již bylo v této kapitole zmíněno, v mnoha případech ovšem není znám konkrétní tvar rozdělení doby přežití. Není tak známa ani funkce přežití S(t i,x i,β). Cox proto navrhl věrohodnostní funkci závislou pouze na vysvětlujících proměnných tzv. parciální věrohodnostní funkci. V případě, kdy se v modelu nenacházejí opakovaná data, je její tvar následující: ci n x β x β i j l( β ) = e e. 2 (8) i= j R( t ) ( i ) Cox předpokládal, že parametry odhadnuté pomocí parciální věrohodnostní funkce budou mít stejné rozdělení jako parametry získané maximalizací plné věrohodnostní funkce. Matematický důkaz tohoto předpokladu poskytli v roce 993 Andersen, Brogan, Gill a Keiding []. 2 Součet v čitateli je pro skupinu všech jedinců, kteří v daném čase t (i) práci stále hledali, označeno jako R(t (i)). 88 Vědecký seminář doktorandů FIS březen 2004

4 Pokud je tedy odhadován vektor p neznámých parametrů β = ( β, β,..., β 2 p ), je pak řešeno p následujících rovnic, jedna pro každý parametr: n L( β) = c exp( ) exp( ) i x ik x x β jk j x β j. (9) β k i= j R( t ) j R( t ) i i Pokud se v modelu data opakují, je nutné provést modifikace parciální věrohodnostní funkce. Parametry mohou být odhadnuty prostřednictvím přesného vyjádření navrženého Kalbfleischem a Prenticem [0], nebo pomocí vybrané aproximace (Breslow [2], Efron [4], Cox [3]), které jsou využívány především díky menší výpočetní náročnosti. 3 Diagnostika odhadnutého regresního modelu Pro potřeby testování statistické významnosti odhadnutých parametrů a sestrojení jejich intervalů spolehlivosti je nutné získat odhady jejich směrodatných chyb sˆ( β ˆ). Veškeré potřebné informace jsou obsaženy v informační matici o rozměrech p x p 2 L( β) I( β) =. (0) 2 β Kovariační matice je inverzí matice informační ˆ ( ˆ Var β) = I( β ). Diagonální prvky kovariační matice jsou odhady rozptylů odhadnutých parametrů, jejichž odmocněním se vypočtou hledané odhady směrodatných chyby sˆ( β ˆ). Za předpokladu, že odhady parametrů jsou normálně rozděleny se střední hodnotou β a směrodatnou odchylkou sˆ( β ˆ), lze 00(-α)% interval spolehlivosti vypočítat podle jednoduchého tvaru βˆ ± u sˆ( βˆ ). k α /2 k Odhadnuté parametry a vypočtené intervaly spolehlivosti parametrů Coxova modelu jsou ovšem velmi špatně interpretovatelné. Je proto vhodnější dopočíst a interpretovat ) odhadnuté intenzitní poměry ψˆ = exp β, odhady jejich směrodatných chyb sˆ( ψˆ) = ψˆsˆ( βˆ ) a následně i jejich intervaly spolehlivosti ψˆ ± u sˆ( ψˆ). α /2 K posouzení statistické významnosti odhadnutých parametrů se nejčastěji používá Waldův test. Waldova statistika má tvar z = βˆ sˆ( βˆ). Při platnosti hypotézy o nevýznamnosti parametru má normální rozdělení s jedním stupněm volnosti. Některé statistické programy (např. SAS) počítají Waldovu statistiku v upravením tvaru 2 ˆ ˆ 2 z = [ β sˆ ( β)], který má chí-kvadrát rozdělení s jedním stupněm volnosti. K testování statistické významnosti odhadnutého modelu se nejčastěji využívají test věrohodnostním poměrem, Waldův test a test skórů. est věrohodnostním poměrem. ento test je velmi jednoduchý. Porovnává hodnoty logaritmů parciálních věrohodnostních funkcí modelu bez vysvětlujících proměnných s modelem, do kterého Vědecký seminář doktorandů FIS březen

5 bylo zahrnuto p vysvětlujících proměnných. Za podmínky platnosti nulové hypotézy že veškeré odhadnuté regresní parametry jsou rovny nule, tedy jsou statisticky nevýznamné, má testové kritérium G = 2[ L( βˆ ) L( 0 )] chí-kvadrát rozdělení s p stupni volnosti. 3 Waldův test Vícerozměrné Waldovo testové kritérium již vyžaduje maticové početní operace. Má tvar βˆ I(β)β ˆ ˆ. Za podmínky platnosti nulové hypotézy, že veškeré odhadnuté regresní parametry jsou statisticky nevýznamné, má opět chí-kvadrát rozdělení s p stupni volnosti. est skórů Stejně jako u vícerozměrného Waldova testu je testové kritérium dáno součinem matic u ( 0) [ I( 0) ] u( 0 ), kde u( 0) = u( β ) β = 0 je tzv. vektor skórů a I( 0) I( β ) = = β 0 je informační matice odvozená od nulového vektoru parametrů. Za stejných podmínek jaké platí pro oba výše uvedené testy má chí-kvadrát rozdělení s p stupni volnosti. 4 Volba vhodného modelu Velmi důležitou součástí analýzy přežití je i volba vhodného modelu. V mnoha případech totiž není riziková funkce ovlivněna jen jedním faktorem.výběr vhodných vysvětlujících proměnných a vyřazení těch, které jsou v modelu přebytečné je vhodné provádět na základě porovnání alternativních modelů. Jako vhodná statistika pro porovnávání je v literatuře doporučována hodnota věrohodnostní funkce modelu. Právě hodnota věrohodnostní funkce totiž v sobě obsahuje informaci o všech datech obsažených v modelu. Ve statistických packetech je tato statistika často počítána upraveně ve formě 2log Lˆ. Její hodnota je vždy kladná a obecně platí, čím je nižší, tím je daný model vhodnější. outo statistikou je však možné pouze porovnávat modely založené na stejných datových souborech. Její hodnota se totiž se změnou rozsahu datového souboru mění. Na podobném principu je založeno Akiakeho informační kritérium AIC = 2log Lˆ + αq. V tomto tvaru je α předem definovaná konstanta, jejíž hodnota se pohybuje většinou v rozmezí 2 až 6 a q je počet parametrů modelu. 5 Nezaměstnanost na Příbramsku Analýza doby potřebné ke znovuzaměstnání uchazeče o práci vychází ze souboru o 597 nezaměstnaných evidovaných úřadem práce v Příbrami v období mezi lednem 2002 a červnem Z celkového počtu 597 uchazečů bylo 3 žen a 286 mužů. 422 uchazečů bylo z evidence úřadu během sledovaného období vyřazeno, tzn. nalezli novou práci, byli odvedeni nebo nastoupili náhradní vojenskou službu, odešli na mateřskou dovolenou, do důchodu, přestěhovali se nebo zemřeli. 75 pozorování je zprava cenzorováno. ito uchazeči nedokázali do konce studie v červnu 2003 získat zaměstnání a v evidenci úřadu práce zůstali i nadále, nebo o nich neexistují žádné další 3 Na matematické detaily testů upozorňuje []. 90 Vědecký seminář doktorandů FIS březen 2004

6 informace. Sledovanými faktory, jejichž vliv na dobu potřebnou ke znovuzaměstnání byl analyzován, jsou věk, vzdělání a pohlaví uchazečů. Věk je jedinou spojitou proměnnou. Vzdělání a pohlaví jsou binární proměnné. Protože u proměnné vzdělání byly rozlišeny čtyři stupně, musely být zavedeny následující umělé proměnné: EDU_2 - nabývá hodnoty pro středoškolské vzdělání bez maturity, jinak hodnoty 0 EDU_3 - nabývá hodnoty pro středoškolské vzdělání s maturitou, jinak hodnoty 0 EDU_4 - nabývá hodnoty pro vysokoškolské vzdělání, jinak hodnoty 0 Pokud ani jedna z výše uvedených proměnných nenabývá hodnoty, jedná se pak o uchazeče se základním vzděláním. Proměnná SEX_M nabývá hodnoty pro muže a 0 pro ženu. Pro potřeby zvolení nejvhodnějšího modelu bylo odhadnuto pět alternativních modelů s různými kombinacemi v úvahu připadajících proměnných. Kritériem pro volbu nejvhodnějšího modelu je záporná hodnota dvojnásobku logaritmu věrohodnostní funkce 2log Lˆ a hodnota Akiakeho testového kritéria tak, jak je nabízí program SAS. abulka Porovnání alternativních modelů Model Proměnné v modelu 2log Lˆ AIC 2 žádné AGE AGE+AGE^ AGE+AGE^2+ SEX_M AGE+AGE^2+EDU_2+EDU_3+EDU_ AGE+AGE^2+EDU_2+EDU_3+EDU_4+SEX_M V porovnání s modelem bez vysvětlujících proměnných (v tabulce označen jako žádné ) je jasné, že alespoň jedna z uvažovaných proměnných má na dobu potřebnou ke znovuzaměstnání vliv. Potvrzují to obě sledované statistiky, které jsou u prvního navrženého modelu nejvyšší. abulka 2 Srovnání alternativních modelů pomocí testu věrohodnostním poměrem Porovnávané modely G Df p-value 2 vs 0,34 0,00 3 vs 2 5,086 0,000 4 vs 3 0,008 0,929 5 vs 3 7, ,00 6 vs 5 0,026 0,872 Přidáním umělé proměnné AGE^2, která je odvozena jako druhá mocnina věku (AGE), bylo zohledněno zjištění, že vliv věku není lineární. Důkaz o tomto tvrzení podává Jarošová v pracích [7] a [8]. ato nově vložená proměnná zohledňuje skutečnost, že osoby velmi mladé nebo naopak v pokročilém věku, mají šance na získání nového zaměstnání nižší, než uchazeči ve věku středním. Vědecký seminář doktorandů FIS březen

7 Vložení věku a jeho druhé mocniny je pouze jednou z možností jak do modelu nelinearitu věku zahrnout. Alternativní modely, včetně modelu využívajících splinů, jsou uvedeny v [8]. Model s proměnnou AGE^2 (označen jako model 3) se podle sledovaných kritérií ukazuje jako vhodnější, což potvrzuje i test věrohodnostním poměrem (viz. tabulka 2). Stejně tak se hodnota 2log Lˆ statisticky významně snižuje se zahrnutím vlivu vzdělání, jak opět dokazuje test věrohodnostním poměrem v tabulce 2. Překvapivě však žádné zlepšení nepřináší zahrnutí proměnné pohlaví. Ani model 4 ani model 6 totiž v porovnání s alternativními modely nepřinášejí statisticky významnou změnu ukazatele 2log Lˆ. Přesto existuje předpoklad, že ženy mají horší možnosti znovuzaměstnání než muži a proto bude i faktor pohlaví do výsledného modelu zahrnut. o zda je tento předpoklad správný či nikoliv může potvrdit nebo vyvrátit analýza založená na rozsáhlejším souboru z celé České republiky, která bude v rámci uvedeného grantu také zpracována. Jako nejvhodnější byl tedy zvolen model s pořadovým číslem 6. Hodnota obou sledovaných kritérií je v jeho případě ze všech uvažovaných modelů nejnižší. Pomocí programu SAS byly odhadnuty parametry zvoleného modelu. Protože se v souboru vyskytují opakovaná data, bylo nutné provést odhad pomocí modifikované parciální věrohodnostní funkce, tak jak ji navrhli Kalbfleisch a Prentice. Výstup programu SAS je v tabulkách 3 a 4. abulka 3 Odhady parametrů modelu Variable D F Parameter Estimate Standard Error Chi- Square Pr>ChiS q Hazard Ratio 95% Hazard Ratio Confidence Limits AGE AGE^ SEX_M EDU_ EDU_ EDU_ abulka 4 estování významnosti odhadnutého modelu esting Global Null Hypothesis: BEA=0 est Chi-Square DF Pr > ChiSq Likelihood Ratio <.000 Score <.000 Wald <.000 Všechny tři testy uvedené v tabulce 4 potvrzují statistickou významnost navrženého modelu. Jinými slovy je alespoň jeden z odhadnutých parametrů statisticky významný. 92 Vědecký seminář doktorandů FIS březen 2004

8 Odhady jednotlivých parametrů pak znázorňuje tabulka 3. Jak již bylo zmíněno kapitole 3 nabízejí statistické packety kromě odhadů parametrů β ˆ a jejich směrodatných ) chyb sˆ( βˆ ) i hodnoty intenzitních poměrů vypočtených jako ψˆ = exp β a jejich intervalů spolehlivosti. Důvodem je právě jejich snadná interpretovatelnost. Podle Waldova testu (sloupce Chi-Square a Pr>ChiSq) se potvrzuje to, co již odhalilo srovnávání alternativních modelů. Vliv pohlaví se ukazuje jako statisticky nevýznamný. Jeho p-value je 0,870. Na základě analyzovaných dat se tedy nepodařilo prokázat, že by existoval statisticky významný rozdíl mezi ženami a muži v šancích na znovuzískání zaměstnání. Stejně tak se jako nevýznamný ukazuje i vliv vysokoškolského vzdělání v porovnání se vzděláním základním. aké tento závěr je nutné ověřit na rozsáhlejším datovém souboru, protože neodpovídá předpokladu, že šance s rostoucím vzděláním rostou. Naopak parametr druhé mocniny věku statisticky významný je a znovu tak potvrzuje vhodnost zahrnutí této dodatečné proměnné. Interpretace odhadnutých intenzitních poměrů je tedy následující. S každým dalším dosaženým rokem věku nezaměstnaného roste příležitost k získání práce, krát. S pravděpodobností 95% se tento poměr bude pohybovat v rozmezí,03 až,7. Oproti uchazeči se základním vzděláním má středoškolák bez maturity,70 krát a středoškolák s maturitou,84 krát větší šanci, že získá nové zaměstnání. Analogicky je možné interpretovat i odhadnuté intervaly spolehlivosti. Jak již bylo zmíněno dříve, obsahuje analyzovaný soubor opakovaná data. K odhadu parametrů byl použit přesný tvar modifikované parciální věrohodnostní funkce. Statistický packet SAS však nabízí i odhad parametrů založený na Breslowově a Efronově aproximaci parciální věrohodnostní funkce. Srovnání odhadů s použitím alternativních metod je uvedeno v tabulce 5. abulka 5 Porovnání poměrů intenzit odhadnutých aproximacemi parciální věrohodnostní funkce Metoda AGE AGE^2 Poměr intenzit SEX_M EDU_2 EDU_3 EDU_4 Přesné vyjádření Beslowova aproximace Efronova aproximace Z tabulky vyplývá, že rozdíly mezi odhady získanými exaktním přístupem a Efronovou aproximací jsou minimální. Výpočetně nejjednodušší aproximace Breslowova přináší odhady více odchýlené. 6 Odhad funkce přežití Výše uvedený odhad parametrů proporcionálního modelu vychází z předpokladu, že rozdělení doby přežití není známo. Přesto je na základě získaných dat možné odhadnout jak tvar funkce přežití S(t,x i,β), tak i intenzitní funkce h(t,x i,β) i-tého jedince nebo skupiny jedinců stejných vlastností. Pro připomenutí vyjadřuje funkce přežití Vědecký seminář doktorandů FIS březen

9 pravděpodobnost, že doba nezaměstnanosti i-tého jedince bude stejná nebo delší než doba t, neboli S(t,x i,β) = P( t). Odhadnutá intenzitní funkce i-tého jedince ht ˆ(, x, βˆ) = hˆ ()exp( t x βˆ) je závislá jednak i o i na odhadnutých parametrech proporcionálního modelu, jednak na odhadu základní intenzitní funkce h ˆ () t, který založili Kalbfleisch a Prentice [9] na metodě maximální o věrohodnosti. Odhad základní rizikové funkce v čase t (j) vychází z tvaru hˆ ( t ) = ξˆ 0 ( j) j, kde ξ ˆj je řešením následující rovnice: exp( x ˆ lβ) = ˆ l D( t exp( x βˆ) l ) ξ j l R( t ) j j ( ) ( ) exp( x β ˆ) pro j =,2,...,r () l Výše uvedená rovnice vychází z předpokladu, že doby do znovuzaměstnání byly seřazeny vzestupně, takže t () <t (2)<...<t (r). V čase t (j) pak bylo z evidence nezaměstnaných vyřazeno d j jedinců a n j jedinců v ní nadále zůstávalo. V této rovnici pak představuje D(t (j) ) skupinu všech d j jedinců (znovuzaměstnaných v čase t (j) ) a R(t (j) ) je skupina všech jedinců, kteří práci stále hledali. V případech kdy se pozorování neopakují, tedy d j = pro j =,2,...,r, je možné rovnici jednoduše vyřešit. Častěji se však opakovaná pozorování vyskytují, což je i případ zde publikované studie, a pak je nutné řešit úlohu iterativním postupem. Na základě odhadnutého parametru ξ je pak možné získat i dohad základní funkce ˆj k přežití jako Sˆ () t ˆ 0 = ξ a analogicky s odhadem rizikové funkce i samotné funkce j j= přežití St ˆ(,, ˆ) = [ Sˆ () t i o ] exp( x β) l x β. Odhad základní funkce přežití je součástí nabídky statistického paketu SAS. Její číselný výstup překračuje možnosti tohoto článku. Přehlednější je její grafické zpracování, vyhotovené pomocí programu EXCEL. Obrázek zobrazuje průběh tří odhadnutých funkcí přežití pro muže se základním vzděláním a věkem 24 let (hodnota dolního kvartilu sledovaného souboru), 33 let (hodnota mediánu) a 46 let (hodnota horního kvartilu). Graficky je tak zobrazen předpoklad o nelinearitě věku, který byl do modelu dodatečně zahrnut. Muž ve věku 33 let tak má ve srovnání s ostatními nejlepší vyhlídky na znovuzískání zaměstnání. Pravděpodobnost, že zůstane v evidenci úřadu práce déle než je doba přežití t, je v každém okamžiku sledovaného období nejnižší. Nejhorší vyhlídky má naopak muž 46-letý. Pravděpodobnost, že zůstane bez zaměstnání déle než je doba přežití t, je v každém okamžiku nejvyšší. 94 Vědecký seminář doktorandů FIS březen 2004

10 Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 24 let 33 let 46 let 0,4 0, Doba přežití Obr. Odhad funkce přežití pro muže se základním vzděláním ve věku 24, 33 a 46 let. Obdobným způsobem je na obrázku 2 srovnán vliv různých stupňů dokončeného vzdělání. Jak již vyplynulo z odhadů intenzitních poměrů v kapitole 5, jsou vyhlídky na znovuzaměstnání nejhorší u uchazečů se základním vzděláním. Nejlepší pak u uchazečů s maturitou. Odhad funkce přežití 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0, Doba přežití Středoškolské bez maturity Středoškolské s maturitou Základní Vysokoškolské Obr. 2 Odhad funkce přežití pro muže ve věku 33 se vzděláním základním, středoškolským bez maturity, středoškolským s maturitou a vysokoškolským. Vědecký seminář doktorandů FIS březen

11 7 Závěr Uvedený článek přináší další z možných oblastí aplikace nástrojů analýzy přežití. Problematika nezaměstnanosti je v České republice stále více aktuální a sledování faktorů působících na tento jev nabývá na významu. Analýza kvantifikuje vliv jen malého množství vybraných faktorů, které jsou v souvislosti s dobou nezaměstnanosti asi nejvíce zmiňovány. Je možné ovšem vyhodnotit i vliv faktorů méně významných, pokud budou k dispozici vhodná data. Pro další studium je třeba soustředit se na problém nelinearity věku v souvislosti s volbou nejvhodnějšího modelu. Dále pak prozkoumat působení pohlaví a také vysokoškolského vzdělání, jejichž vliv se na základě sledovaného datového souboru ukázal jako statisticky nevýznamný. Mezi další faktory, které by bylo vhodné do analýzy zařadit, určitě patří i vliv regionu, ve kterém se nezaměstnaný o práci uchází, protože rozdíly v tomto směru jsou v České republice dost významné. Literatura [] ANDERSEN, P.K., BORGAN, O., GILL, R.D., KEIDING, N.: Statistical Models Based on Counting Processes, Springer Verlag, N.Y. 993 [2] BRESLOW, N.: Covariance Analysis of Survival Data under the Proportional Hazards Model, International Statistical Review 974, č.43 [3] COX, D.R.: Regression Models and Life ables, Journal of the Royal Statistical Society, Series B 972, č.34 [4] EFRON, B.: he Efficiency of Cox s Likelihood Function for Censored Data, Journal of the American Statistical Association 977, č.72 [5] ESSER, M., POPELKA, J.: Analysis of Factors Influencing ime of Unemployment Using Survival ime Analysis, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [6] HOSMER, D.W., LEMESHOW, S.: Applied Survival Analysis, J.Wiley & Sons, N.Y. 999 [7] JAROŠOVÁ, E.: Analysis of Interval Censored Data, Universita Mateja Bela, Banská Bystrica 2003 [8] JAROŠOVÁ, E.: Exploring the Functional Form of Covariates in Cox Model, Zborník 2. medzinárodného seminára Výpočtová štatistika, SŠDS, Bratislava 2003 [9] KALBFLEISCH, J.D., PRENICE, R.L.: Marginal Likelihoods Based on Cox s Regression and Life able Model, Biometrika 973, č Vědecký seminář doktorandů FIS březen 2004

12 [0] KALBFLEISCH, J.D., PRENICE, R.L.: he Statistical Analysis of Failure ime Data, Wiley, N.Y. 980 [] HERENEAU,.M., GRAUBSH, P.M.: Modeling Survival Data: Extending he Cox Model, Springer Verlag, N.Y Summary ANALYSIS OF FACORS INFLUENCING IME OF UNEMPLOYMEN USING SURVIVAL IME ANALYSIS Survival time analysis approach is used to examine factors influencing the hazard ratios and the length of unemployment. Analysis is based on data aquired from the Labour office in Příbram. Cox proportional model for right censored data is fitted to obtain the hazard ratio estimates. More alternative models are compared to choose the apropriate one. ests of model and parameters significance are evaluated. Survivorship function is estimated. Vědecký seminář doktorandů FIS březen

Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití

Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Nezaměstnanost na Příbramsku - analýza faktorů ovlivňujících délku doby nezaměstnanosti využitím metod analýzy přežití Jan Popelka Doktorand oboru Statistika Abstrakt: ento článek věnuje pozornost analýze

Více

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

7 Regresní modely v analýze přežití

7 Regresní modely v analýze přežití 7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce

Více

2 Hlavní charakteristiky v analýze přežití

2 Hlavní charakteristiky v analýze přežití 2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student

Více

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK Aneta Andrášiková 1, Eva Fišerová 1, Silvie Bělašková 2 1 Univerzita Palackého v Olomouci, PřF, KMaAM 2 Fakultní nemocnice u sv. Anny v Brně,

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie 4EK Základy ekonometrie Odhad klasického lineárního regresního modelu II Cvičení 3 Zuzana Dlouhá Klasický lineární regresní model - zadání příkladu Soubor: CV3_PR.xls Data: y = maloobchodní obrat potřeb

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 8 Jak analyzovat přežití pacientů.

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Jana Vránová, 3. lékařská fakulta, UK Praha

Jana Vránová, 3. lékařská fakulta, UK Praha Jana Vránová, 3. lékařská fakulta, UK Praha Byla navržena v 60tých letech jako alternativa k metodě nejmenších čtverců pro případ, že vysvětlovaná proměnná je binární Byla především používaná v medicíně

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

10. Předpovídání - aplikace regresní úlohy

10. Předpovídání - aplikace regresní úlohy 10. Předpovídání - aplikace regresní úlohy Regresní úloha (analýza) je označení pro statistickou metodu, pomocí nichž odhadujeme hodnotu náhodné veličiny (tzv. závislé proměnné, cílové proměnné, regresandu

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Úvodem Modelování vztahů mezi vysvětlující a vysvětlovanou (závisle) proměnnou patří mezi základní aktivity,

Více

Přednáška X. Testování hypotéz o kvantitativních proměnných

Přednáška X. Testování hypotéz o kvantitativních proměnných Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Metoda backward výběru proměnných v lineární regresi a její vlastnosti Metoda backward výběru proměnných v lineární regresi a její vlastnosti Aktuárský seminář, 13. dubna 2018 Milan Bašta 1 / 30 1 Metody výběru proměnných do modelu 2 Monte Carlo simulace, backward metoda

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti 3.3 v analýze dat Autor práce: Přednášející: Prof. RNDr. Milan Meloun, DrSc Pro

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy Ekonometrická analýza proces, skládající se z následujících fází: a) specifikace b) kvantifikace c) verifikace d) aplikace Postupné zpřesňování jednotlivých

Více

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

4ST201 STATISTIKA CVIČENÍ Č. 10

4ST201 STATISTIKA CVIČENÍ Č. 10 4ST201 STATISTIKA CVIČENÍ Č. 10 regresní analýza - vícenásobná lineární regrese korelační analýza Př. 10.1 Máte zadaný výstup regresní analýzy závislosti závisle proměnné Y na nezávisle proměnné X. Doplňte

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina. Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment

Více

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla

Více

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky Katedra aplikované matematiky Neparametrické a semi-parametrické modely v analýze přežití Non-parametric and Semi-parametric Models

Více

7. Rozdělení pravděpodobnosti ve statistice

7. Rozdělení pravděpodobnosti ve statistice 7. Rozdělení pravděpodobnosti ve statistice Statistika nuda je, má však cenné údaje, neklesejte na mysli, ona nám to vyčíslí Jednou z úloh statistiky je odhad (výpočet) hodnot statistického znaku x i,

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque and Anil K. Bera Předpoklady: - Výběrová data mohou obsahovat chybějící pozorování (chybějící hodnoty) vhodné zejména

Více

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový. 6. ZÁKLADY STATIST. ODHADOVÁNÍ X={X 1, X 2,..., X n } výběr z rozdělení s F (x, θ), θ={θ 1,..., θ r } - vektor reálných neznámých param. θ Θ R k. Θ parametrický prostor. Dva základní způsoby odhadu neznámého

Více

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D. Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady PSY117/454 Statistická analýza dat v psychologii přednáška 8 Statistické usuzování, odhady Výběr od deskripce k indukci Deskripce dat, odhad parametrů Usuzování = inference = indukce Počítá se s náhodným

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).

Více

Pravděpodobnost a matematická statistika

Pravděpodobnost a matematická statistika Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n

Více

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie

Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie Univerzita Pardubice Chemicko-technologická fakulta Katedra analytické chemie 12. licenční studium PYTHAGORAS Statistické zpracování dat 3.3 Tvorba nelineárních regresních modelů v analýze dat Semestrální

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Statistika (KMI/PSTAT)

Statistika (KMI/PSTAT) Statistika (KMI/PSTAT) Cvičení dvanácté aneb Regrese a korelace Statistika (KMI/PSTAT) 1 / 18 V souboru 25 jedinců jsme měřili jejich výšku a hmotnost. Výsledky jsou v tabulce a grafu. Statistika (KMI/PSTAT)

Více

Uni- and multi-dimensional parametric tests for comparison of sample results

Uni- and multi-dimensional parametric tests for comparison of sample results Uni- and multi-dimensional parametric tests for comparison of sample results Jedno- a více-rozměrné parametrické testy k porovnání výsledků Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Universita

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová,

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných) 1. SPECIFIKACE (12 bodů): (1) Graf průběhu proměnných (1) Obě řady se chovají stejně, lze předpokládat jejich lineární vztah

Více

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD

TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD TECHNIKA UMĚLÝCH PROMĚNNÝCH V PRŮŘEZOVÉ ANALÝZE A V MODELECH ČASOVÝCH ŘAD Umělé (dummy) proměnné se používají, pokud chceme do modelu zahrnout proměnné, které mají kvalitativní či diskrétní charakter,

Více

Kalibrace a limity její přesnosti

Kalibrace a limity její přesnosti Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie Kalibrace a limity její přesnosti Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum I. ÚVOD vv této přednášce budeme hovořit o jednovýběrových a dvouvýběrových testech týkajících se střední hodnoty

Více

ADDS cviceni. Pavlina Kuranova

ADDS cviceni. Pavlina Kuranova ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015 UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015

Více

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU Klára Hrůzová 1,2, Karel Hron 1,2 1 Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, Univerzita Palackého v Olomouci 2 Katedra

Více

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ Ing. Dana Trávníčková, PaedDr. Jana Isteníková Funkční gramotnost je používání čtení a psaní v životních situacích. Nejde jen o elementární

Více

Klasická a robustní ortogonální regrese mezi složkami kompozice

Klasická a robustní ortogonální regrese mezi složkami kompozice Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016 Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Korelační a regresní analýza 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza Pearsonův korelační koeficient u intervalových a poměrových dat můžeme jako

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

Přijímací zkouška na navazující magisterské studium 2017

Přijímací zkouška na navazující magisterské studium 2017 Přijímací zkouška na navazující magisterské studium 27 Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A Řešení příkladů pečlivě odůvodněte. Věnujte pozornost ověření

Více

Cvičení 12: Binární logistická regrese

Cvičení 12: Binární logistická regrese Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,

Více

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze Dobývání znalostí Pravděpodobnost a učení Doc. RNDr. Iveta Mrázová,

Více

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

KALIBRACE A LIMITY JEJÍ PŘESNOSTI. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie KALIBRACE A LIMITY JEJÍ PŘESNOSTI Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2016

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.

Více

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead PSY117/454 Statistická analýza dat v psychologii Přednáška 8 Statistické usuzování, odhady Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead Barevná srdíčka kolegyně

Více

Ranní úvahy o statistice

Ranní úvahy o statistice Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: SMAD Cvičení Ostrava, AR 2016/2017 Popis datového souboru Pro dlouhodobý

Více

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. POLYNOMICKÁ REGRESE Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými. y = b 0 + b 1 x + b 2 x 2 + + b n x n kde b i jsou neznámé parametry,

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci. Ortogonální regrese pro 3-složkové kompoziční data využitím lineárních modelů Eva Fišerová a Karel Hron Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci

Více

http: //meloun.upce.cz,

http: //meloun.upce.cz, Porovnání rozlišovací schopnosti regresní analýzy spekter a spolehlivosti Prof. RNDr. Milan Meloun, DrSc. Katedra analytické chemie, Chemickotechnologická fakulta, Univerzita Pardubice, nám. s. Legií 565,

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum Kontakt: Literatura: Obecné informace Zvárová, J.: Základy statistiky pro biomedicínskéobory I. Vydavatelství

Více

analýzy dat v oboru Matematická biologie

analýzy dat v oboru Matematická biologie INSTITUT BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Komplexní přístup k výuce analýzy dat v oboru Matematická biologie Tomáš Pavlík, Daniel Schwarz, Jiří Jarkovský,

Více

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky PRAVDĚPODOBNOST A STATISTIKA Zadání 1 JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud

Více

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1 18AEK Aplikovaná ekonometrie a teorie časových řad Řešení domácích úkolů č. 1 a 2 příklad 1 Obecné pravidlo pro všechny testy Je stanovena nulová hypotéza: H 0 Je stanovena alternativní hypotéza: H A Je

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Obsah přednášky Jaká asi bude chyba modelu na nových datech? Obsah přednášky Jaká asi bude chyba modelu na nových datech? Chyba modelu Bootstrap Cross Validation Vapnik-Chervonenkisova dimenze 2 Chyba skutečná a trénovací Máme 30 záznamů, rozhodli jsme se na jejich

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více