Informační bulletin České statistické společnosti, 1 2/2015

Podobné dokumenty
ROBUST 1 TESTY DOBRÉ SHODY PRO MODEL. Petr Novák. 1 Regrese v analýze spolehlivosti

7 Regresní modely v analýze přežití

8 Coxův model proporcionálních rizik I

LWS při heteroskedasticitě

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Intervalové Odhady Parametrů

KVADRATICKÁ KALIBRACE

MODELOVÁNÍ CHVOSTŮ TEORIE EXTRÉMNÍCH ODHADY PARETOVA INDEXU. Jan Dienstbier HODNOT. contact:

Přijímací zkouška na navazující magisterské studium 2014

AVDAT Klasický lineární model, metoda nejmenších

Odhad parametrů N(µ, σ 2 )

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

odpovídá jedna a jen jedna hodnota jiných

Odhady Parametrů Lineární Regrese

4 Parametrické odhady

Odhad parametrů N(µ, σ 2 )

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Normální (Gaussovo) rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

y = 0, ,19716x.

Bootstrap - konfidenční intervaly a testy

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Klasická a robustní ortogonální regrese mezi složkami kompozice

Regresní analýza 1. Regresní analýza

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Odhad spolehlivosti kolejových obvodů z nekompletních cenzorovaných dat

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a statistika

Testování hypotéz o parametrech regresního modelu

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Pravděpodobnost a aplikovaná statistika

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vlastnosti odhadů ukazatelů způsobilosti

15. T e s t o v á n í h y p o t é z

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Intervalové Odhady Parametrů II Testování Hypotéz

Charakterizace rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

5. T e s t o v á n í h y p o t é z

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Design Experimentu a Statistika - AGA46E

Bodové a intervalové odhady parametrů v regresním modelu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy dobré shody pro časové řady s diskrétními veličinami

2 Hlavní charakteristiky v analýze přežití

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Statistika (KMI/PSTAT)

Cvičení ze statistiky - 8. Filip Děchtěrenko

7. Analýza rozptylu.

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

3 Bodové odhady a jejich vlastnosti

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Přijímací zkouška na navazující magisterské studium 2017

STATISTICKÉ ODHADY Odhady populačních charakteristik

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

AVDAT Nelineární regresní model

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Stručný úvod do testování statistických hypotéz

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Regresní analýza. Eva Jarošová

Statistická analýza jednorozměrných dat

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

4. Aplikace matematiky v ekonomii

Diferenciální rovnice

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

4EK211 Základy ekonometrie

1. Přednáška. Ing. Miroslav Šulai, MBA

pravděpodobnosti, popisné statistiky

Věta 12.3 : Věta 12.4 (princip superpozice) : [MA1-18:P12.7] rovnice typu y (n) + p n 1 (x)y (n 1) p 1 (x)y + p 0 (x)y = q(x) (6)

ODHADY NÁVRATOVÝCH HODNOT

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

Ekonometrie. Jiří Neubauer, Jaroslav Michálek

Jednofaktorová analýza rozptylu

4EK211 Základy ekonometrie

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

AVDAT Mnohorozměrné metody, metody klasifikace

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Transkript:

Informační bulletin České statistické společnosti, 1 2/215 ODHADY ZÁKLADNÍHO RIZIKA V REGRESNÍCH MODELECH OPRAV ESTIMATION OF THE BASELINE HAZARD IN REGRESSION MODELS FOR REPAIRABLE SYSTEMS Petr Novák 1,2 Adresa: 1 MFF UK v Praze, KMPS, Sokolovská 83, 186 75 Praha 8 2 ÚTIA AV ČR, Pod Vodárenskou věží 4, 182 8 Praha 8 E-mail: 1 novakp@karlin.mff.cuni.cz Abstrakt: Pozorujeme nezávislá zařízení podléhající opotřebení a pomocí vhodných regresních modelů se snažíme popsat vliv jejich průběžných oprav a údržby na rozdělení doby do selhání. Nejčastěji používané modely, jako je Coxův model proporcionálního rizika nebo model zrychleného času, popisují vliv regresorů na určitou základní rizikovou funkci. Tu je potřeba buď vhodně parametrizovat, nebo odhadnout neparametricky. V této práci se zaměřujeme na metody porovnávání a testování hypotéz o tvaru základního rizika v modelech oprav a předvádíme jejich využití. Klíčová slova: Analýza spolehlivosti, modely oprav, regrese, základní riziko. Abstract: When observing independent devices which are subject to degradation, we want to describe the influence of repairs and preventive maintenance actions on the time to failure distribution with the help of suitable regression models. Commonly used models, as the Cox proportional hazards and the accelerated failure time model assume, that the covariates influence a certain baseline hazard function, which must be either parametrized or estimated nonparametrically. In this work we focus on methods how to estimate and test hypotheses about the shape of the baseline hazard and we show their applications. Keywords: Reliability analysis, repair models, regression, baseline hazard. 1. Úvod údržba a opravy Zkoumáme data reprezentující životnost n nezávislých systémů podléhajících opotřebení. Když se systém porouchá, je nutné provést opravu. Selhání se také snažíme předejít preventivními údržbami. Označíme T ij, i = 1,..., n, j = 1,..., n i seřazené časy oprav a údržeb i-tého zařízení a ij indikátory, zda na i-tém zařízení byla v j-tém čase provedena oprava ij = 1 nebo 57

Vědecké a odborné statě preventivní údržba ij =. Zavedeme čítací procesy oprav a údržeb do času t: n i n i N i t = IT ij t, ij = 1, M i t = IT ij t, ij =. j=1 Označíme rizikové funkce pro každé zařízení j=1 λ i t = lim h P N i t + h N i t 1 Ht/h, kde Ht značí historii událostí do času t. Pracujeme s kumulovanými rizikovými funkcemi Λ i t = λ isds, příslušnými funkcemi přežití S i t = exp Λ i t a hustotami f i t = d dt S it. Věrohodnost lze přepsat jako L = n n i fit ij i=1 j=1 S it ij 1 a log-věrohodnost má pak tvar l = ij 1 ij SiT ij = S it ij 1 n n i λ it ij ij S it ini i=1 j=1 n n i Tin ij log λ i T ij i λ i tdt. i=1 j=1 Věrohodnost dat lze zapsat pomocí čítacích procesů. Zavedeme čítací procesy pro j-té selhání či opravu i-tého zařízení a příslušný indikátor rizika N ij t = ij IT ij t, M ij t = 1 ij IT ij t, Dostaneme Y ij t = IT i,j 1 < t T ij. log λi t dn ij t Y ij tλ i t dt. l = ij 2. Regresní modely oprav 2.1. Coxův model proporcionálního rizika Předpokládáme, že každá oprava či údržba multiplikativně sníží nebo zvýší riziko, vliv mohou mít i případné další regresory, ozn. Z i t. Uvažujeme rizikovou funkci [1] λ i t = λ te Mi tρ+ni tφ+zt i tβ. 58

Informační bulletin České statistické společnosti, 1 2/215 Při parametrickém základním riziku lze dosadit do logaritmické věrohodnosti a maximalizovat. Považujme ale základní riziko za neznámé. Označíme β = ρ, φ, β T a X T i t = N i t, M i t, Zi T t. Skóre, získané dosazením rizikové funkce do logaritmické věrohodnosti a derivováním podle parametrů, Uβ = d dβ l, závisí na neznámé Λ t, kterou nahradíme odhadem Nelson- -Aalenova typu dn s Λ t, β = ij ext i s β Y ij s, kde značí součet přes příslušný index. Po dosazení získáme skóre ve tvaru Ûβ = X i t kl X kt e XT k t β Y kl t dn ij kl ext k t β ij t Y kl t a pro nalezení odhadů parametrů řešíme rovnice Ûβ =. 2.2. Model zrychleného času Můžeme také předpokládat, že každá oprava či údržba a regresory způsobí, že virtuální čas plyne pomaleji nebo rychleji Accelerated Failure Time model, AFT. Využijeme transformaci času [2]: t Riziková fukce pak má tvar e Mi sρ+ni sφ+zt i sβ ds =: h i t, β. λ i t = λ h i t, βe Mi tρ+ni tφ+zt i tβ. Pokud základní riziková funkce bude konstantní, tedy odpovídající exponenciálnímu rozdělení, oba modely splývají. Zavedeme transformované procesy N ijt, β = ij Ih i T ij, β t, Y ijt, β = Ih i T i,j 1, β < t h i T ij, β, M ijt, β = 1 ij Ih i T ij, β t, X i t, β = X i h 1 i t, β. Přesné skóre má složitější tvar, je ale možné jej nahradit přibližným [2] a opět dosadit Nelson-Aalenův odhad kumulovaného základního rizika Λ t, β = dn s, β t, β. ij Y ij 59

Vědecké a odborné statě Získáme Ũβ = ij X i t, β kl X kt, βykl t, β t, β kl Y kl dn ijt, β. Protože skóre není spojité v β, najdeme odhady parametrů minimalizací Ũβ. 3. Vlastnosti odhadů Λ Navážeme zde na [3], kde bylo hlavním cílem hledání a interpretace odhadů β, a zaměříme se na studování vlastností odhadů kumulovaného základního rizika. Pro každý z modelů zvlášť uvažujme proces W t = n 1/2 Λ t, β Λ t. Pomocí funkcionální centrální limitní věty [4] se dá ukázat, že pro n konverguje W t slabě ke Gaussovskému procesu s nulovou střední hodnotou a konečnou kovarianční funkcí. Tím je zajištěna konzistence Nelson- -Aalenových odhadů. Kovarianční funkce je pro každý z modelů různá. V AFT modelu závisí na neznámých λ a λ = dλ /dt a není možné ji snadno odhadnout přímo. Předvedeme postup pomocí simulační metody. Resampling zákadního rizika Nejprve uvažujme Coxův model. Generujme G 1,..., G n i.i.d. z N, 1. Mějme Û G β = X i t kl X kt e XT k t β Y kl t G ij kl ext ik t β i dn ij t. Y kl t Najdeme β G jako řešení rovnice Û β G = ÛG β a položíme Ŵ t = n 1/2 Λ t, β Λ t, β G + Λ G t, β, kde Λ G t, β = ij G i dn ij s kl ext k s β Y kl s. Pomocí funkcionální CLV [4] se dá ukázat, že za platnosti Coxova modelu Ŵ t konverguje slabě ke stejnému Gaussovskému procesu jako W t. Důkaz 6

Informační bulletin České statistické společnosti, 1 2/215 vychází z postupu pro Coxův model s rekurentními událostmi [5], přičemž je potřeba zohlednit použití oprav a údržeb jako regresorů. V modelu zrychleného času postupujeme obdobně, vyrobíme replikované přibližné skóre Ũ G β = ij X i t kl X kt Y kl t t, β kl Y kl najdeme β G řešení rovnice Ũ β G = ŨG β a položíme G i dn ijt, Λ G t, β = ij G i dnij s, β s, β. kl Y kl Potom stejně sestavený replikovaný proces Ŵ t má opět stejnou limitu jako W t v AFT modelu. Postup je založen na funkcionální CLV [4] a inferenci pro AFT model s rekurentními událostmi [6]. Když tedy zreplikujeme mnohokrát Ŵ t, můžeme empiricky odhadnout rozptyl W t a spočítat bodové konfidenční intervaly kumulovaného rizika jako Λ t, β ± u 1 α/2 n 1/2 varŵ t, nebo pomocí log-transformace jako Λ t, β exp ±u 1 α/2 n 1 varŵ t 2 Λ t, β, kde u 1 α/2 je příslušný kvantil N, 1. Testování hypotéz o tvaru základního rizika Chceme-li testovat hypotézy o tvaru celého rizika, je potřeba najít příslušný konfidenční pás pro supremový test. Najdeme q 1 α vyběrový 1 α kvantil Ŵ t generovaných hodnot sup [τ1,τ 2] kde [τ1, τ 2 ] pokrývá zkoumanou část varŵ časového intervalu a spočítáme konfidenční t pás pomocí logaritmické transformace jako Λ t, β exp ±q 1 α n 1/2 varŵ t/ Λ t, β. Hypotézu zamítáme, pokud testovaná kumulovaná základní riziková funkce neleží v konfidenčním pásu. Na Obrázku 1 vidíme příklad Nelson-Aalenova odhadu tučně černě pro data o rozsahu n = 2 z Coxova modelu s φ = 1/1, ρ = 1/1 a Weibullovým základním rozdělením s a = 1/2 a λ = 1/1. 61

Vědecké a odborné statě Dále jsou zobrazeny příslušné bodové intervaly spolehlivosti čárkovaně šedě, konfidenční pás čárkovaně černě a parametrické odhady pro různá rozdělení šedě. V tomto případě bychom jasně zamítali exponenciální rozdělení, kde kumulovaná riziková funkce tvoří přímku tečkovaně, i Gumbelovo rozdělení čárkovaně. Naopak parametrický odhad původního Weibullova rozdělení plně je Nelson-Aalenovu odhadu velmi blízko, nezamítali bychom patrně ani lognormální rozdělení čerchovaně. Lambdat 2 4 6 8 1 12 Nelson Aalen Bodový int. Konf. pás Exp. Gumbel Lognorm. Weibull 2 4 6 8 1 12 Obrázek 1: Porovnání Nelson-Aalenova odhadu, konfidenčních mezí a parametrických odhadů kumulované rizikové funkce. t 4. Simulační studie Generovali jsme data z Coxova i AFT modelu o velikosti n = 2 a n = 5 s různými základními rizikovými funkcemi a parametry. Každé zařízení bylo sledováno do desáté události, údržba byla prováděna náhodně se stejným základním rozdělením. Parametry jsme stanovili tak, aby oprava zvýšila riziko či zrychlila čas φ = 1/1 a údržba naopak ρ = 1/1, jiné kovariáty nebyly uvažovány. 62

Informační bulletin České statistické společnosti, 1 2/215 Tabulka 1: Podíl zamítnutých hypotéz o tvaru základního rizika při generování dat z různých rozdělení. Generované rozdělení Testované rozdělení podíl zamítnutí Model λ λ a n Exp. Weibull Gumbel LN Weibull 1/1 5 2,98,216 5 1,276 Weibull 1/1 1/2 2,934,916,36 Cox 5 1 1,134 Gumbel 1/1 1,2 2,96,8,272 5,642,2,64 LN µ=2 σ 2 =4 2,992 1 5 1,82 1 Weibull 1/1 5 2,912,6,8,66 5 1,492 Weibull 1/1 1/2 2,94,2,796,88 AFT 5 1 1,644 Gumbel 1/1 1,2 2,372,14,8,592 5,99,5,994 LN µ=2 σ 2 =4 2,996,142,878,92 5 1,22 1 Testovali jsme na hladině α =,5, zda je základní rozdělení exponenciální, Weibullovo λt = aλ a t a 1, useknuté Gumbelovo λt = λa t či lognormální LN s parametry odhadnutými metodou maximální věrohodnosti původního modelu považovanými za pevné a sledovali jsme podíl zamítnutých hypotéz. Každý případ byl simulován 5, testovali jsme na intervalu mezi 5% a 95% kvantilem generovaných dat. Ŵ t bylo počítáno ze 4 replikací. Z tabulky výsledků 1 je patrné, že testy jsou s vyšším počtem pozorovaných zařízení přesnější, tj. nezamítají původní a zamítají ostatní základní rozdělení. U dat s Weibullovým základním rozdělením záleží, zda je Λ konvexní či konkávní, podle toho je spíše zaměnitelné s Gumbelovým nebo lognormálním rozdělením. Exponenciální rozdělení je zamítáno skoro vždy zde se nabízí srovnání s parametrickým testem zda a = 1 ve Weibullově rozdělení. 63

Vědecké a odborné statě 5. Závěr Zkoumali jsme metody pro testování hypotéz o tvaru základního rizika při modelování vlivu údržby a oprav na životnost sledovaného zařízení. Pro data z Coxova modelu i modelu zrychleného času jsme představili asymptotický test založený na resamplingu a na simulovaných datech zkoumali jeho vlastnosti v různých situacích. Dalším krokem může být zohlednění variability testovaných parametrických odhadů. Poděkování Tato práce byla podporována granty SVV 2615/214 a GAUK 11122/213. Literatura [1] Percy D. F., Alkali B. M.: Generalized proportional intensities models for repairable systems. IMA Journal of Management Mathematics 17, 171 185, 25. [2] Lin D. Y., Ying Z.: Semiparametric inference for the accelerated life model with time-dependent covariates. Journal od Statistical Planning and Inference 44, 47 63, 1995. [3] Novák P.: Regrese v modelech oprav. Informační bulletin České statistické společnosti 24 3 4, 83 88, 213. [4] Pollard D.: Empirical Processes: Theory and Applications. Hayward, California, 199. [5] Lin D. Y., Wei L. J., Ying Z.: Checking the Cox model with cumulative sums of martingale-based residuals. Biometrika 8, 557 572, 1993. [6] Lin D. Y., Wei L. J., Ying Z.: Accelerated failure time models for counting processes. Biometrika 85, 65 618, 1998. 64