Neparametrické metody

Podobné dokumenty
9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

ina ina Diskrétn tní náhodná veličina může nabývat pouze spočetně mnoha hodnot (počet aut v náhodně vybraná domácnost, výsledek hodu kostkou)

ASYMPTOTICKÉ VLASTNOSTI ODHADŮ S MINIMÁLNÍ KOLMOGOROVSKOU VZDÁLENOSTÍ

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

I. D i s k r é t n í r o z d ě l e n í

p(x) = P (X = x), x R,

Diskrétní náhodná veličina. November 12, 2008

6. T e s t o v á n í h y p o t é z



2. přednáška - PRAVDĚPODOBNOST

Teoretické modely diskrétních náhodných veličin

Dále budeme předpokládat, že daný Markovův řetězec je homogenní. p i1 i 2

PRAVDĚPODOBNOST A STATISTIKA

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Teoretické modely diskrétních náhodných veličin

2. Definice pravděpodobnosti

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

ň ú Ú ů é é ň ů ž ů ů ů ů é é é é ú ň é ú ú ů é é ů ů Č é ň ú ú ů é é ů Ť ň é ů ů ú ň é ú ť ť é é é ů é é ů é é ť ň ú ú ů é é ů ů ú é ů é ů é ů ť ů ú

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

UNIVERSITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA. KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY školní rok 2009/2010 BAKALÁŘSKÁ PRÁCE

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

8 Střední hodnota a rozptyl

Metody analýzy rizika. Předběžné hodnocení rizika. Kontrolní seznam procesních rizik. Bezpečnostní posudek

LIMITA A SPOJITOST FUNKCE

Rizikového inženýrství stavebních systémů

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

PRAVDĚPODOBNOST A STATISTIKA

Otto DVOŘÁK 1 NEJISTOTA STANOVENÍ TEPLOTY VZNÍCENÍ HOŘLAVÝCH PLYNŮ A PAR PARABOLICKOU METODOU PODLE ČSN EN 14522

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Simulační metody hromadné obsluhy

NEPARAMETRICKÉ BAYESOVSKÉ ODHADY V KOZIOLOVĚ-GREENOVĚ MODELU NÁHODNÉHO CENZOROVÁNÍ. Michal Friesl

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

BAYESŮV PRINCIP ZDENĚK PŮLPÁN

Algoritmy komprese dat

Pravděpodobnost a její vlastnosti

15. T e s t o v á n í h y p o t é z

M - Příprava na 3. čtvrtletní písemnou práci

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

Porovnání GUM a metody Monte Carlo

MATEMATICKÁ STATISTIKA - XP01MST

Bayesovské metody. Mnohorozměrná analýza dat

Téma 22. Ondřej Nývlt

style:normal;color:grey;font-family:verdana,geneva,kalimati,sans-serif;text-decoration:none;text-align:center;font-v

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

Odhady Parametrů Lineární Regrese

Počítačová grafika III Monte Carlo integrování Přímé osvětlení. Jaroslav Křivánek, MFF UK

LWS při heteroskedasticitě

Lineární algebra : Lineární prostor

Pravděpodobnost a statistika (BI-PST) Cvičení č. 4

Náhodná veličina Číselné charakteristiky diskrétních náhodných veličin Spojitá náhodná veličina. Pravděpodobnost

MODELOVÁNÍ A SIMULACE

Agent pracující v částečně pozorovatelném prostředí udržuje na základě senzorického modelu odhaduje, jak se svět může vyvíjet.

Pravděpodobně skoro správné. PAC učení 1

Generování pseudonáhodných. Ing. Michal Dorda, Ph.D.

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

7. Derivace složené funkce. Budeme uvažovat složenou funkci F = f(g), kde některá z jejich součástí

VI. Derivace složené funkce.

Výběrové charakteristiky a jejich rozdělení

Neparametrické odhady podmíněné rizikové funkce

Limita posloupnosti, limita funkce, spojitost. May 26, 2018

á ý á á ú ú ř ý ý ů ě ů ř á á á á ě ě š ř ů á ě ě ě ů ř š ý š ě ů ž ář ř ř š ý ář á ě ř á ý ě ů á á á ě á ž ě ě ů ě ý ě ř ě šť Č ý á á ř á ě á ř ý ý á

2 Hlavní charakteristiky v analýze přežití

1. Úvod do základních pojmů teorie pravděpodobnosti

1. Alternativní rozdělení A(p) (Bernoulli) je diskrétní rozdělení, kdy. p(0) = P (X = 0) = 1 p, p(1) = P (X = 1) = p, 0 < p < 1.

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

: ;

REGRESNÍ ANALÝZA. 13. cvičení

Numerická matematika 1. t = D u. x 2 (1) tato rovnice určuje chování funkce u(t, x), která závisí na dvou proměnných. První

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

Ř Á

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Značení 1.1 (posloupnost výsledků pokusu). Mějme posloupnost opakovaných (i závislých) pokusů,

Odhady - Sdružené rozdělení pravděpodobnosti

Řešení. Označme po řadě F (z) Odtud plyne, že

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

n = 2 Sdružená distribuční funkce (joint d.f.) n. vektoru F (x, y) = P (X x, Y y)

popel, glum & nepil 16/28

ů ř Ž ý ý ř ď ř

Ivana Linkeová SPECIÁLNÍ PŘÍPADY NURBS REPREZENTACE. 2 NURBS reprezentace křivek

POROVNÁNÍ MEZI SKUPINAMI

ěž Úč úč Í ěž Ž č Ž ž ů Á Č Č Ž Úč Ž Úč Ž ň ž Ů č č Ž Úč Ž Í č š ě ň ó ÚČ č Ž Úč č Č š Ž Š Š ÍŠ

Spolehlivost a diagnostika

Žú é ú é é ů é Ž Ž ř Č é Ž ř é Ž ž ř é ú é é é Ž é ú ř ó é Č ú ú ř ú úř ř Ž ú ř ř ř Ú é é ú ú ů é ú Č ř ř ř ů

a a

Teorie elektrických ochran

š č šú ň š š Ž č Ž š č ůž ň š ůž ů Í ž č č č ň č Ž Ž Ž Ž šú š ů š č š Ž Ž Ž š č č šú Ž ů Ž ž č Ž ň ú š Ž Ž š Ž

Ukázka knihy z internetového knihkupectví

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Í ÁŇ Ý ÚŘ Í Ů É Č Ú ň ú Ú ů Ž Í ň ů Ž Ž ů Ž ó ů ů ú Ž Ž ť ť ť Ž ů ů Ž ů ů Ž

i=1 Přímka a úsečka. Body, které leží na přímce procházející body a a b můžeme zapsat pomocí parametrické rovnice

Přednáška 9, 28. listopadu 2014 Část 4: limita funkce v bodě a spojitost funkce

Pravděpodobnost a aplikovaná statistika

Náhodným vektorem rozumíme sloupcový vektor složený z náhodných veličin X = (X 1, X 2,

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Transkript:

Neparametrcké metody Přestože parametrcké metody zaujímají klíčovou úlohu ve statstcké analýze dat, je možné některé problémy řešt př neparametrckém přístupu. V této přednášce uvedeme neparametrcké odhady funkce spolehlvost (doplněk dstrbuční funkce do jednčky), pomocí kterých lze odhadnout momenty doby do poruchy a některé jné charakterstky. Nevýhodou všech neparametrckých odhadů je však nemožnost získat nformac o chování chvostů rozdělení. Na druhou stranu výhodou odhadů, které zde odvodíme, je možnost jejch sestrojení z poměrně dvokých dat. Tak můžeme vyřešt nejednu stuac, se kterou se v prax setkáme. Uvedené odhady se často používají nejen v teor spolehlvost, ale v klnckém výzkumu a pojšťovnctví, př analýze tabulek úmrtnost.

KAPLAN-MEERův odhad (angl. též product lmt estmate) Nechť X označuje náhodnou velčnu dobu do poruchy, R(x) odpovídající funkc spolehlvost, 0 = x 0 < x < < x k význačné časové okamžky a J = (x -, x ], =,, k. Předpokládejme, že experment je uspořádán tak, že v okamžku x 0 = 0 začneme pozorovat n dentckých prvků, a že údaje o průběhu expermentu můžeme zjšťovat pouze v časových okamžcích x,, x k. Získáme údaje jsou: n počet prvků neporouchaných a sledovaných do okamžku x - (okamžk x - v to nepočítaje), d počet poruch v ntervalu J, v počet prvků, které se ztratly ze sledování v ntervalu J, w počet prvků, které byly záměrně vyjmuty ze sledování =,, k. Položme n 0 = n, d 0 = v 0 = w 0 = 0. Pro t Î J můžeme hodnotu R(t) odhadnout pomocí - -

KAPLAN-MEERův odhad Tento odhad (někdy nazývaný odhadem založeným na redukovaném výběru) však gnoruje nformac obsaženou ve v a w. Myšlenka zahrnut tuto nformac je založena na následující pravděpodobnostní úvaze. Označme E = {X x }, p = P(E E - ), =,, k. Potom zřejmě platí ( ) = ( ) ( ) = = ( ) ( ) ( ) P E P E E P E... P E E P E E...P E k =Õ = k k k- k- k k- k- k-2 p ()

KAPLAN-MEERův odhad V případě, že v ntervalu J nedošlo ke ztrátám, a že žádné prvky nebyly vyjmuty ze sledování, můžeme p odhadnout pomocí velčny d /n. V případě, že v ntervalu J došlo ke ztrátám nebo záměrnému vyjmutí ze sledování, se předpokládá, že ztracené a vyjmuté prvky byly sledovány polovnu příslušného ntervalu. Potom počítáme s tzv. efektvním počtem prvků sledovaných v ntervalu J n n ( v w) = - + 2 (2) Za odhad podmíněných pravděpodobností p potom vezmeme p% d = - n Což spolu se () vede k odhadu funkce spolehlvost j Õ R( % t ) = p% x < t x j =,...,k- = j j+ (3) R( % t ) =, t< x (4)

KAPLAN-MEERův odhad Vychází z vyjádření (), ale za význačné okamžky bere přímo okamžky, kdy se prvek porouchal nebo byl vyjmut ze sledování. Podobně jako (4), an Kaplan-Meerův odhad nerozlšuje prvky, které se ztratly, a prvky, které byly vyjmuty ze sledování. Můžeme proto předpokládat, že data jsou náhodně cenzorována a výsledkem expermentu je n dvojc (W, ) (W n, n ) kde W j je okamžk poruchy resp. vyjmutí j-tého prvku ze sledování a j = resp. j = 0 podle toho, zda dříve došlo k poruše resp. vyjmutí. Předpokládejme, že ve výběru W,, W n nedošlo ke shodám, a utvořme uspořádaný náhodný výběr W () < < W (n). Nechť (j) je ndkátor odpovídající W (j), j =,, n. (Pozor, (),, (n) nejsou uspořádána!). Za význačné okamžky vezmeme W () < < W (n).označme nyní n počet prvků neporouchaných do okamžku W () (okamžk W () v to nepočítejte), d počet poruch v okamžku W ().

Potom za odhady podmíněných pravděpodobností p můžeme vzít Poznamenejme, že ˆp = n d ˆp = - =,...n n jestlže () = (5) ˆp, = jestlže () = 0 Kaplan-Meerův odhad funkce spolehlvost je potom ( ) Õ Rˆ t = ˆp t W, :W ( ) < t ( n ) ˆR ( t) = 0 t> W ( n ), (6) A prázdný součn defnujeme jako rovný jedné, tj. ( ) = ˆR t t W ( )

KAPLAN-MEERův odhad Alternatvní tvar Kaplan-Meerova odhadu je ( ) ( ) æ ö æ n- ö ˆR ( t) = Õ ç - = Õ ç t W ( n ), :W ( ) < tè n ø :W( ) < tè n- + ø ˆR ( t) = 0 t> W ( n ), (7) Reálná data mohou obsahovat shody. V takovém případě modfkujeme Kaplan-Meerův odhad následujícím způsobem. Nechť R označuje pořadí dvojc (W, ) v lexkografckém uspořádání posloupnost Potom modfkovaný Kaplan-Meerův odhad je ( ) ( ) æ ö æ n- R ö ˆR ( t) = Õ ç - = Õ ç t W ( n ), :W ( ) < tè n ø :W( ) < tè n- R + ø ˆR ( t) = 0 t> W ( n ), (8)

KAPLAN-MEERův odhad - příklad Uvažujme n = pozorování 9, 3, 3 +,8, 23, 28 +, 3, 34, 45 +, 48, 6 +. (Symbolem + označujeme podle úmluvy okamžky, ve kterých došlo k cenzorování.) Odpovídají pořadí R,, R jsou zřejmě, 2, 3, 4,,. Dále 3 = 6 = 9 = = 0, ostatní jsou rovna jedné. Kaplan-Meerův odhad je funkce schodovtá zleva spojtá, jejíž hodnoty se mění pouze v bodech W () s () = a v bodě W (n).

V našem případě máme pozorování: 9, 3, 3 +,8, 23, 28 +, 3, 34, 45 +, 48, 6 +. 稠 稠 稠 稠 æ n- R ö æ n- R ö æ 9 ö æ 8ö R( ) R( ).. 2 3 0 2 3 8 = 3 ç ç = 0 9ç ç = 0 82 è n- R2 + ø è n- R3 + ø è0ø è 9ø æ n- R ö æ 7ö R( ) R( ) ç. ç. è n- R4+ ø è 8ø 4 4 23 = 8 = 0 82 = 0 72 5 6 0 æ n- R ö æ 5 n- R ö 6 æ 6ö æ 5ö 3 = 23 ç ç = 0 72ç ç = 0 62 è n- R5 + ø è n- R6 + ø è 7ø è 6ø R( ) R( ).. a podobně

Jestlže tedy 9 < t 3, R(t)=R(6)=0.8, atd. je R(t)=R(3) = 0.9, jestlže 48 < t 6, pak Poznámka: Pro úplný výběr je Kaplan-Meerův odhad totožný s emprckou funkcí spolehlvost. Asymptotcké vlastnost Kaplan-Meerův odhadu v případě náhodného cenzorování jsou uvedeny v následující větě.

Věta. Asymptotcké rozdělení ˆR( t ) Nechť dstrbuční funkce F doby do poruchy X a dstrbuční funkce G časového cenzoru jsou spojté. Nechť t > 0 je takové, že R(t) = F(t) > 0. Potom t ( ( ) ( )) ( ) (( ( ))( ( ))) 2 ˆ æ - ö D 2 n R t -R t ¾¾ N ç 0,R t ò -F x - G x dp( X < x, = ) è 0 ø Bez důkazu. (9) Rozptyl aproxmujeme nejčastěj pomocí 2 ( ) = ˆ ( ) Var Rˆ t R t :W å ( ) < t ( ) ( n- )( n- + ) což je tzv. GREENWOODova formule.

GREENWOODova formule V prax je třeba nahradt rozptyl asymptotckého rozdělení ve větě. nějakým odhadem. Jeden z možných postupů je tento. Předně je patrné, že pravděpodobnost P(X < x, = ) je možné odhadnout pomocí relatvní četnost jako ꉈ ꉈ Takže ˆP jakožto funkce x má skoky velkost /n v bodech W s =. Dále H(x) = ( F(x))( G(x)) je dstrbuční funkce náhodné velčny W, takže H můžeme odhadnout pomocí obyčejné emprcké dstrbuční funkce založené na výběru W,, Wn: ꉈ ꉈ 稠 Vzhledem k chování ˆP potřebujeme znát odhady Ĥ pouze v bodech W ().

Místo ( Ĥ (x)) 2 v (9) použjeme symetrzovaný odhad Vzhledem k tomu, že ꖀꉈ je možné odhadnout rozptyl v (9) pomocí ꉈ 稠 ꖀꉈ ꉈ, z čehož ꖀꉈ ꖀꉈ ꖀꉈ ꉈ ꖀ 2 ( ) = ˆ ( ) Var Rˆ t R t ( ) å (0) :W ( ) < t ( n- )( n- + ) Poslední vzorec je v lteratuře znám jako GREENWOODova formule.