Martin Otava Parametrické regresní modely v analýze

Rozměr: px
Začít zobrazení ze stránky:

Download "Martin Otava Parametrické regresní modely v analýze"

Transkript

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Martin Otava Parametrické regresní modely v analýze přežití Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: Mgr. Arnošt Komárek, Ph.D. Studijní program: Obecná matematika 2008

2 V první řadě bych rád poděkoval vedoucímu práce Mgr. Arnoštu Komárkovi, Ph.D. za zapůjčení materiálů a především za velice vstřícný přístup, kdykoli jsem se na něj obrátil. Dále má díky patří všem, kteří mi umožnili v klidu pracovat, když to bylo třeba, a těm kteří mi jinak pomáhali, at už s tiskem, radami ohledně softwaru či korekturami. Prohlašuji, že jsem svou bakalářskou práci napsal samostatně a výhradně s použitím citovaných pramenů. Souhlasím se zapůjčováním práce a jejím zveřejňováním. V Praze dne Martin Otava 2

3 Obsah 1 Úvod Co je,,analýza přežití? Cenzorování Základní pojmy a značení Regrese Aplikace pro analýzu přežití Metoda nejmenších čtverců Metoda maximální věrohodnosti Normálně rozdělená chyba Cenzorování Výpočet a vlastnosti maximálně věrohodných odhadů Parametrické modely Rozdělení T - času do selhání Log-normální rozdělení Logistické rozdělení Log-logistické rozdělení Gumbelovo rozdělení Weibullovo rozdělení Vztahy jednotlivých rozdělení AFT model s normálně rozdělenou chybou Další parametrické modely Model s log-logistickým rozdělením Model s Weibullovým rozdělením Porovnávání modelů Závěr 33 3

4 Název práce: Parametrické regresní modely v analýze přežití Autor: Martin Otava Katedra (ústav): Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: Mgr. Arnošt Komárek, Ph.D. vedoucího: komarek@karlin.mff.cuni.cz Abstrakt: V předložené práci studujeme parametrické regresní modely v analýze přežití. Skrze pojem cenzorování se seznámíme s podstatou analýzy přežití a zavedeme si základní pojmy užívané v souvislosti s ní. Ukážeme si tvorbu vhodného regresního modelu a způsoby odhadů parametrů s důrazem na metodu maximální věrohodnosti společně s iteračními metodami pro její vyřešení. Vysvětlíme si význam náhodné chyby měření. Dle jejího rozdělení pak vytvoříme několik různých parametrických modelů pro odhad hustoty času do selhání. Srovnáme modely s neparametrickým odhadem, který nám pomůže určit, zda náš model odpovídá realitě. Celou práci bude provázet ilustrace na skutečných datech sloužící jako ukázka fungování metody v praxi. Klíčová slova: Analýza přežití, parametrické modely, cenzorování Title: Accelerated failure time models in survival analysis Author: Martin Otava Department: Department of Probability and Mathematical Statistics Supervisor: Mgr. Arnošt Komárek, Ph.D. Supervisor s address: komarek@karlin.mff.cuni.cz Abstract: In the present work we study accelerated failure time models in a survival analysis. Through a conception of a censorship we become acquainted with fundamentals of the survival analysis and we introduce elementary notions. We show methods of fitting suitable regression models and how to estimate parameters with an emphasis on the maximum likelihood method with iterative methods for its solution. We explain an importance of the random error. In accordance with its distribution we create several different parametric models to estimate the density of the failure time. We compare models with a nonparametric model, that help us to figure out that our model fit into reality. The work is complemented with an illustration on particular data. Its show us, how the methods work in practice. Keywords: Survival analysis, accelerated failure time models, censorship 4

5 Použité značení log přirozený logaritmus. náhodná veličina má asymptoticky rozdělení L n (β) sdružená hustota rozdělení v metodě maximální věrohodnosti l n (β) logaritmická věrohodnost φ a,b 2(c) hustota normálního rozdělení s parametry µ = a a 2 = b 2 v bodě c Φ a,b 2(c) distribuční funkce normálního rozdělení s parametry µ = a a 2 = b 2 v bodě c 5

6 Kapitola 1 Úvod 1.1 Co je,,analýza přežití? Název této statistické disciplíny je odvozen od případů její nejtypičtější aplikace: analýzy dat vypovídajících o tom, jak dlouho někdo nebo něco,,vydrží, nežli selže. Pomocí jejích metod můžeme ze sledovaných dat odhadovat dobu mezi daným počátkem a nějakou událostí. Velice názorné příklady nacházíme v medicíně: dobu přežití pacienta po náročné operaci, čas do smrti po přechodu nemoci do určitého stádia, na druhé straně okamžik vyléčení po nasazení léku či doba zotavení po lékařském zákroku. Spektrum využití metod analýzy přežití je ovšem mnohem širší, kromě již poukazované medicíny nalezneme podobné uplatnění v biologii či v technice (kde nás zajímá doba do poruchy přístroje), dále například v ekonomii nebo reklamě (doba do reakce subjektu na určitý podnět). Stěžejní veličinou, o kterou se zajímáme, je tedy čas, který budeme reprezentovat náhodnou veličinou T. Situace je ale mnohem složitější. Častější, než pouhá otázka předpovídání budoucích událostí na základě sesbíraných dat, je pro nás vypozorování způsobů, kterými bychom mohli situaci pozitivně či negativně ovlivnit. Základním úkolem analýzy přežití tedy je: Odhad rozdělení náhodné veličiny T. Ohodnocení vlivu vnějších faktorů na rozdělení T. Druhým bodem rozumíme rozlišení faktorů, které na veličinu vůbec mají vliv, popsání toho, jak silné toto působení je a porovnávání příčin, které vedly k odlišným výsledkům u různých skupin. Příklad 1.1 (Selhávání transplantovaných srdečních chlopní) Data, která nám budou sloužit jako ilustrace, pocházejí ze studie Meyns a kol. (2005) provedené na Katolické univerzitě v Leuvenu (Belgie) a její univezitní nemocnici Gasthuisberg. Byla získávána v letech 1989 až 2003 a!obsahují záznamy o 271 pacientech, kteří prodělali transplantaci srdeční chlopně. Otázka, na kterou studie hledala odpověd, souvisela s tím, které z níže uvedených 6

7 faktorů významně ovlivňují dobu T do selhání chlopně (přesněji do selhání z jiného důvodu, než je infekce, náhlá smrt pozorovaného atd.; nazvěme okolnosti, které nás zajímají,,,vhodné ). Odezvami v pozorováních budou: Čas do selhání (v letech). Selhání z,,vhodných důvodů (hodnoty 0,1 reprezentující ne/ano). Kandidáty na podstatné veličiny budou následující vysvětlující proměnné rozdělené do několika skupin: Charakteristiky pacientů věk (v letech), pohlaví (muž/žena). Popis diagnózy pozice chlopně (anatomická/neanatomická), Truncus (ne/ano), Ross (ne/ano). Vlastnosti chlopní velikost chlopně (milimetry), typ chlopně dárce (AH - aortální/ph - plicní). Imunologické faktory kompatibilní krevní skupina (ne/ano), krevní skupina příjemce (A/AB/B/0), Rh faktor příjemce (negativní/pozitivní), krevní skupina dárce (A/AB/B/0), Rh faktor dárce (negativní/pozitivní), teplý ischemický čas (v hodinách), studený ischemický čas (ve dnech). Čas do selhání je veličina, kterou budeme sledovat. Následující veličina nám ukazuje, zda jsou data konkrétního pacienta cenzorovaná nebo ne (bude vysvětleno níže). Ostatní veličiny představují faktory, jejichž vliv budeme posuzovat. Zajímá nás, zda bychom skrze ně mohli ovlivnit délku přežití chlopně. Pokud bychom například zjistili, že kompatibilita krevní skupiny výrazně prodlužuje dobu do selhání, můžeme tento poznatek uplatnit při příštích operacích a zvýšit tak pacientům šanci, že zákrok nebude nutné opakovat. 7

8 Věk pacienta by také mohl být podstatným při operaci. Výsledkem zpracování dat může být omezení, pro jaký věk již není transplantace bezpečná, nebo zda je stejně vhodná pro děti, jako pro dospělé. Na doplnění dodejme, že teplý ischemický čas znamená, jak dlouho trvalo, než byla chlopeň po vyjmutí z dárce umístěna do mrazícího boxu, a studený dobu, kterou v tomto stavu pobývala před operací. Zjištění, zda má jeden z těchto faktorů vliv na čas do selhání, by bylo velice užitečné. Umožňovalo by určit dobu, po které již není bezpečné uchovávanou chlopeň použít při operaci. Veličina Truncus specifikuje vlastnosti chlopně, je-li v nesprávné pozici. Pro chlopni v anatomicky správné pozici je tato veličina vždy nulová (resp.,,ne ). Veličina Ross funguje obdobně pro anatomicky správně umístěnou chlopeň. Vidíme tedy, že data nám poskytují dostatek zajímavých otázek, na které je potřeba kvalitně odpovědět. Abychom se o to mohli pokusit, nejprve vysvětlíme pojem cenzorování. 1.2 Cenzorování V ideálním případě bychom vůbec metody analýzy přežití použít nemuseli. Bylo by to tehdy, kdybychom znali,,okamžik selhání každého pozorovaného jedince. Už ze zamyšlení nad příklady z medicíny nám ovšem musí být jasné, že tomu tak v drtivé většině případů není. Vrat me se k transplantacím a představme si skupinu pacientů s novou srdeční chlopní. U pozorovaných budeme zaznamenávat okamžik selhání chlopně. Jak máme ale postupovat, pokud pozorovaný zemře aniž by chlopeň selhala (at už máme na mysli jinou biologickou příčinu jako například infekci, která vede k výměně chlopně, at už je funkční nebo ne, či například autohavárii)? Samozřejmě lákavou možností by bylo takového pacienta ze souboru vyškrtnout. Tím by se ovšem narušil celý systém získávání dat, nebot my víme, že dotyčný byl až do určité chvíle v pořádku. Bohužel netušíme, jak by se jeho zdravotní stav vyvíjel dál. Stejně tak se nám může stát, že pacient přestane chodit na naše pozorování kvůli tomu, že se přestěhoval do jiného města, nebo že už prostě nemá zájem. A nakonec, kdyby se nám všechny tyto nepříjemnosti vyhnuly, musíme jednoho dne pozorování ukončit, aby mohlo být vyhodnoceno. A nelze zaručit, že budeme mít dost času čekat, až selže chlopeň i poslednímu subjektu z naší skupiny. At už pozorujeme cokoli, podobné případy nás neminou a proto se s nimi musíme nějakým účinným a korektním způsobem vypořádat. Pojmem, který používáme pro popis takové situace, je cenzorování. Ve výše popsaném případě přesněji cenzorování zprava, kterým rozumíme informaci o tom, že subjekt přežil (fungoval atd.) do určitého okamžiku a o jeho dalším osudu nevíme nic. V následujícím textu se omezíme pouze na tento typ cenzorování, nebot je zdaleka nejčastějším (jen pro úplnost dodejme, že 8

9 dalšími často uvažovanými typy cenzorování jsou cenzorování zleva a intervalové). Abychom mohli korektně postupovat dál, budeme předpokládat cenzorování náhodné. Neformálně řečeno o náhodném cenzorování mluvíme tehdy, pokud pramení pouze z neočekávaných vnějších vlivů a nesouvisí s časem, který uplynul do sledované události. Tento předpoklad formalizujeme v dalším oddíle (z důvodu nutnosti předchozí definice některých pojmů). Nyní pouze uvedeme, že není splněn například v následující situaci: sledujeme dobu přežití po náročném zákroku a přestaneme pozorovat pacienty, jejichž stav se dostal na určitou hodnotu (resp. zlepšil na určitou hodnotu; pokud se ovšem opět zhorší, my už se o tom nedozvíme). S cenzorováním se budeme setkávat i nadále. O konkrétních mechanismech se budeme zmiňovat v příslušných částech práce, aby byly lépe zřejmé souvislosti, které jejich použití vyžadují. 1.3 Základní pojmy a značení V této sekci se seznámíme s několika pojmy, které jsou základní pro celou problematiku analýzy přežití. Přestože některé z nich budou potřeba v této práci pouze okrajově, pro pořádek je zde uvedeme. Prvním pojmem je funkce přežití. Považujme čas přežití t pro určitého jedince za hodnotu náhodné veličiny T. Pro jednoduchost se zde omezíme pouze na absolutně spojitá rozdělení času přežití. Necht F (t) = P(T < t) = P(T t) je distribuční funkce náhodné veličiny T (druhá rovnost plyne z absolutní spojitosti) a necht f(t) = d dt F (t) je příslušná hustota. Nás ovšem spíše zajímá, jaká je pravděpodobnost, že čas přežití jedince bude větší, než nějaká námi uvažovaná hodnota. Funkce přežití se proto zavádí takto: S(t) = P(T > t) = 1 F (t). Druhou důležitou funkcí je riziková funkce. Neformálně řečeno vyjadřuje pravděpodobnost, že jedinec selže v okamžiku t za podmínky, že do tohoto okamžiku přežil. Definována je následovně: P(t T < t + h T t) λ(t) = lim. h 0 + h Použitím vět o podmíněné pravděpodobnosti (dle práce Anděl, 2005, kapitola 3.5) dostáváme λ(t) = lim h 0 + F (t + h) F (t) h F (t).

10 První součinitel je derivací distribuční funkce a druhý z definice převrácenou hodnotou funkce přežití. Z čehož přímo získáváme vztah pro rizikovou funkci a funkci přežití: λ(t) = f(t) S(t). Vidíme tedy, že funkce přežití a riziková funkce jsou jen různými přístupy k problematice popisu rozdělení T, ovšem vzájemně si odpovídají. Nyní se opět vrátíme k cenzorování. Necht C je náhodná veličina o jejímž rozdělení obecně nic nevíme. Mechanismus cenzorování reprezentujeme zavedením další náhodné veličiny Z, kterou budeme pozorovat namísto T, a indikátoru δ, kde: Z = min(t, C), δ = I [Z=T ] = I [T C]. Veličina T nám tedy udává skutečnou dobu přežití a veličina C okamžik cenzorování. Pokud je δ nenulové, selhání skutečně nastalo, pokud nulové, pozorovali jsme hodnotu veličiny C, získali jsme tedy pouze cenzorovaný čas. Vrat me se nyní k formalizaci pojmu náhodného cenzorování. Ten je ekvivalentní platnosti rovnice: P(t T < t + h T t, C t) λ(t) = lim. (1.1) h 0 + h Na úplný závěr ukažme, co se stane, budeme-li předpokládat nezávislost veličin C a T. Pak platí P(t T < t + h T t, C t) lim h 0 + h = lim h 0 + P(t T < t + h T t) h = λ(t). Předpoklad pro náhodné cenzorování je tedy při nezávislosti C a T splněn vždy. 10

11 Kapitola 2 Regrese 2.1 Aplikace pro analýzu přežití Smyslem této práce je popsat metody vycházející z parametrických modelů regresní analýzy. Nejprve si tedy charakterizujme, co tyto pojmy vůbec znamenají. Mějme náhodnou veličinu Y a p vysvětlujících faktorů x 1,..., x p. Necht potom x = (1, x 1,..., x p ) T je vektor těchto faktorů rozšířený o jedničku (z důvodu zahrnutí absolutního členu). Přestože hodnoty x mohou být ve skutečnosti realizacemi náhodného vektoru X = (1, X 1,..., X p ), můžeme je v teorii regresní analýzy považovat za nenáhodná čísla, nebot v praktických případech jsou nám vždy známá (nebot právě tyto hodnoty používáme k popisu rozdělení Y, jak bude vysvětleno dále). Dále bud β = (β 0,..., β p ) T vektor reálných čísel. Následující rovnice je vyjádřením lineární regrese: Y = x T β + ε, kde ε je náhodná veličina s konstatní střední hodnotou. Veličina Y je tedy vyjádřena pomocí složek vektoru x, respektive jeho skalárním součinem s vektorem β. Přičtení ε vyjadřuje chybu, které se dopouštíme měřením hodnot Y. Bez této chyby by bylo možné závislost dopočítat metodami lineární algebry, nebot by se jednalo o soustavu rovnic o p + 1 neznámých. Neznámá (a především obecně různá) chyba u různých pokusů nám tento postup znemožňuje). Pokud je ε hodnotou náhodné veličiny s nějakým rozdělením, specifikovaným až na konečně mnoho parametrů (například N(0, 2 )) soustavu nazveme parametrickým modelem. V praxi z hodnot x 1 = (1, x 1,1,..., x 1,p ) T,..., x n = (1, x n,1,..., x n,p ) T, které známe, a hodnot y 1,..., y n, které jsme naměřili s neznámých chybami ε 1,..., ε n, odhadneme parametry β a následně i závislost střední hodnoty náhodné veličiny Y na faktorech x 1,..., x p. Jak bylo poznamenáno již na začátku, obor hodnot veličiny, kterou se snažíme popsat, je čas (i proto budeme zůstávat u označení T ). Je tedy jasné, 11

12 že bude nabývat pouze kladných hodnot. Vzhledem k tomu, že následující reprezentace je budována obecně, nemohli bychom takový výsledek zaručit, vzhledem k hodnotám x a ε. Jednoduchým a účinným řešením problému, jak převést kladné náhodné veličiny na reálné, je zlogaritmování. Z toho důvodu budeme v našem případě uvažovat regresní rovnici následujícím způsobem: log T = Y = x T β + ε. (2.1) Vzhledem k tomu, že x T β lze v jednotlivých případech považovat za konstantu (bereme-li x T jako nenáhodný vektor), specifikací rozdělení ε určíme jednoznačně rozdělení Y a tedy i T. Ze vztahu (2.1) dále plyne: T = exp(x T β) exp(ε), E T = exp(x T β) E exp(ε). (2.2) Dodejme, že model (2.1) je obvykle nazýván v anglicky psané literatuře jako,,accelerated failure time model - AFT model (např. viz Kalbfleisch a Prentice, 2002). 2.2 Metoda nejmenších čtverců Tato metoda je jedním ze základních postupů pro odhad parametru β. Pochází z přelomu 18. a 19. století, kdy ji pro použití v astronomii nezávisle na sobě popsali R. Adrain, A.-M. Legendre a C. F. Gauss. Ten o řadu let později položil základy pro její aplikaci v regresní analýze tak, jak si předvedeme vzápětí. Vycházíme opět z rovnice (2.1), kde x = (1, x 1,..., x p ) T je vektor vysvětlujících faktorů, β = (β 0,..., β p ) T je vektor reálných čísel a ε je náhodná veličina s konstantní střední hodnotou a rozptylem 2. Přejdeme k vektoru Y 1 Y n x T 1 Y =. = Xβ + ε; X =., kde x i = (1, x i,1,..., x i,p ), y i, i = 1,..., n, n N, jsou vektory n známých hodnot x a naměřené hodnoty náhodné veličiny Y. Model znázorňuje situaci, kdy provedeme n pokusů (při nichž známe hodnoty všech faktorů) a při každém změříme (nepřesně kvůli náhodné chybě ε) veličinu Y. Metoda nejmenších čtverců je potom definována jako řešení minimalizační úlohy x T n S(β 0,..., β p ) = n (y i x T i β) 2 = n p (y i β 0 x i,j β j ) 2 j=1 12

13 vzhledem k β 0,..., β p. Problém si můžeme představit, jako hledání takové (regresní) nadroviny, kde součet čtverců vzdáleností jednotlivých (naměřených) bodů od této nadroviny je minimální mezi všemi možnými nadrovinami (body tohoto (p + 2)-rozměrného prostoru jsou tvořeny dvojicemi [x i, y i ]). Hledání tohoto extrému provedeme vyjádřením parciálních derivací podle jednotlivých proměnných (resp. podle všech těchto proměnných). Obdržené výrazy položíme rovné nule a výpočtem soustavy rovnic získáme řešení β (povšimněme si, že nehledě na počet pozorování dostáváme soustavu p + 1 rovnic o p + 1 neznámých, tedy s jednoznačných řešením, pokud zůstane soustava regulární). Konkrétní výpočet (proveden maticově) vypadá následovně: S(β) = (y Xβ)(y Xβ) T, což platí, právě tehdy, když X T y = (X T X)β. Z toho (při h(x) = p + 1) vyplývá odhad pro β: Díky tomu, že β = (X T X) 1 (X T y). 2 S β β T S β = 2XT (y Xβ) = 0, = 2XT X je pozitivně semidefinitní matice (a funkce je tedy konvexní), je vždy řešení minimem. Dosazením výsledného odhadu β = (β 0,..., β p ) do vztahu (2.1) dostaneme regresní vyjádření Y. 2.3 Metoda maximální věrohodnosti Následující metoda pochází z 20. let minulého století z pera sira R.A. Fishera, nicméně její základy položil Daniel Bernoulli už ve století osmnáctém. Je v mnoha směrech nejlepším způsobem, jak odhadovat neznámé parametry. Její ideu lze popsat tak, že hledáme takový parametr na množině všech možných parametrů, který našim naměřeným hodnotám přiřadí největší možnou pravděpodobnost. Nyní si tento postup formalizujeme přesně. Máme veličinu Y, o níž předpokládáme absolutní spojitost. Víme tedy, že má nějakou distribuční funkci G(y) a hustotu g(y). Opět budeme vycházet z rovnice Y 1. = Xβ +.. (2.3) Y n 13 ε 1 ε n

14 Necht ε 1,..., ε n jsou nezávislé stejně rozdělené náhodné veličiny s hustotou h(e) a distribuční funkcí H(e). Dále g i (y; β) hustota a G i (y; β) distribuční funkce náhodné veličiny Y i = x T i β + ε i, i = 1,..., n a f i (t; β) hustota pro T i = log Y i. Potom maximálně věrohodným odhadem β budeme rozumět takové β, které je řešením maximalizační úlohy max L n(β) = max β β n g i (y i ; β) = n g i (y i ; β), kde y 1,..., y n jsou konkrétní naměřené hodnoty Y. Nyní si připomeňme, že rozdělení náhodné chyby ε jednoznačně určuje rozdělení Y = x T β + ε a tedy jde pouze o lineární transformaci mezi dvěma náhodnými veličinami. Potom dle vět o transformaci náhodných veličin (Anděl, 2005, kapitola 3.2) hustotu g i (y; β) vyjádříme rovností: g i (y; β) = h(y x T i β), y R, (2.4) což bychom další jednoduchou transformací mohli převést na f i (t; β) = g i (log t; β) 1 t = h(log t xt i β) 1, t > 0. (2.5) t Nám však bude nyní stačit pouze rovnice (2.4), ze které dosazením dostaneme: n n L n (β) = g i (y i ; β) = h(y i x T i β). Obdobně jako u metody nejmenších čtverců i zde budeme hledat extrémy věrohodnostní funkce pomocí parciálních derivací podle jednotlivých složek parametru β = (β 0,..., β p ). Obvykle se pro vyšetřování volí jiná funkce se stejným extrémem: l n (β) = log[l n (β)] = n log [ h(y i x T i β) ], kterou nazýváme logaritmická věrohodnost. Tento přístup ušetří spoustu úsilí při derivování i při následném výpočtu β ze soustavy rovnic, kterou opět dostaneme tak, že všechny parciální derivace položíme rovné nule. 2.4 Normálně rozdělená chyba V této sekci budeme uvažovat veličinu ε s n-rozměrným normálním rozdělením N n (0, 2 I). Ve skutečnosti následující platí pro normální rozdělení s libovolnou střední hodnotou, nicméně bez újmy na obecnosti (způsobené 14

15 jednoduchostí mechanismu znormování) můžeme operovat se střední hodnotou rovnou nule. Jednorozměrné normální rozdělení N(µ, 2 ) veličiny X je definováno hustotou: kde dále platí f(x) = [ 1 exp 2π 2 (x µ)2 2 2 E X = µ, var X = 2. ], (2.6) Zároveň víme, že Y = Xβ + ε a tedy (viz Anděl, 2005, kapitola 4.1) veličina Y má také n-rozměrné normální rozdělení N n (Xβ, 2 I). Pak Y i má jednorozměrné normální rozdělení N(x T β, 2 ) s hustotou: [ 1 g i (y; β) = exp (y ] xt i β) 2. 2π Nyní si ukážeme, jak bude v tomto případě vypadat metoda maximální věrohodnosti: n { [ 1 l n (β) = log exp (y ]} i x T i β) 2, 2π po úpravě logaritmů a sečtení dostaneme: l n (β) = n log( 2π) n log konečně derivací l n podle β j, j = 1,..., n: n (y i x T i β) 2, (2.7) l n (β) = 1 n β j 2 2 (y 2 i x i β T )(x i,j ). Vzhledem k tomu, že tento výraz pokládáme roven nule, nemá pro nás člen před sumou žádný význam a podmínka, kterou jsme obdrželi, je naprosto stejná, jako v případě metody nejmenších čtverců. Obdobně je tato skutečnost vidět již ze vztahu (2.7), nebot jeho maximalizace vzhledem k β odpovídá minimalizaci výrazu n (y i x T i β) 2, což je přesně definice metody nejmenších čtverců. Z toho tedy plyne, že pro odhady veličiny β je v tomto případě metoda nejmenších čtverců ekvivalentní metodě maximální věrohodnosti. I v případě, že nás bude zajímat odhad pomocí nejmenších čtverců, bude nám stačit spočítat maximálně věrohodný odhad, který umožňuje mnohem snažší zapojení cenzorování, které jsme doposud nechávali stranou. 15

16 2.5 Cenzorování Vrat me se zpět k obecnému modelu metody maximální věrohodnosti pro veličinu Y. Pro cenzorovanou veličinu při předpokladu náhodného cenzorování (1.1) dle práce Kalbfleisch a Prentice (2002) platí: L n (β) = n [g i (y i ; β)] δ i [1 G i (y i ; β)] 1 δ i. (2.8) Připomeňme, že δ je indikátorem, který udává, zda je veličina cenzorovaná nebo ne (pro cenzorovanou je nulový). Vidíme tedy, že pro pozorování, kdy jsme změřili skutečný čas přežití, se nic nemění. To, že pro cenzorované jako součinitel vystupuje funkce přežití, je (neformálně řečeno) ekvivalentní použití P(Y > y). Například pro normálně rozdělené chyby to bude výraz: L n (β) = n { [ 1 exp (y i x T i β) 2 2π { yi 1 V případech, kdy nelze vyřešit soustavu ln β j než dopočítávat řešení pomocí iterací. ]} δi [ 1 exp (a xt i β) 2 2π ] da} 1 δi. (2.9) = 0, j = 1,..., p, nezbývá nám, 2.6 Výpočet a vlastnosti maximálně věrohodných odhadů Označme si β (0) skutečnou hodnotu parametru β a zaved me následující funkce: l n(β) 2 l n(β) β l n(β) β0 2 β 0 β p U n (β) =., J n(β) =....., (2.10) 2 l n(β) β p β 0... l n(β) β p 2 l n(β) β 2 p kde J n (β) je Fisherova míra informace o parametru β. Potom pro n při splnění podmínek regularity (které v námi používaných modelech budou splněny vždy; plné znění vět viz Anděl, 2005, kapitola 7.6.5; kompletní důkaz viz Lehmann, 1983, kap. 6.4) platí: ( J n ( β ) 1 ( ) 2 n ) βn β (0) D N(0, I p+1 ), (2.11) ( ) 1 J n (β (0) 2 ) U n (β (0) D ) N(0, I p+1 ). (2.12) 16

17 Konvergence v distribuci ze vztahu (2.11) nám umožňuje přejít k testování hypotéz na konkrétní hodnoty β. Zvolíme si: H 0 : β = β (0), H 1 : β β (0). Dle práce Collett (2003) (nebo česky viz Anděl, 2005) pro následující kvadratickou formu (opět za předpokladů regularity) platí: nebot ( ) T βn β (0) J n ( β ( ) n ) βn β (0). χ 2 p+1, (. β n N p+1 β (0), J 1 n ( β ) n ). Tento test nazýváme Waldův na počest amerického (původem mad arského) matematika Abrahama Walda. Hypotézu H 0 zamítneme na hladině α, pokud ( ) T βn β (0) J n ( β ( ) n ) βn β (0) > χ 2 p+1(1 α). Obdobně je možné provádět testy o různých podvektorech vektoru β (až po jednorozměrný případ pro jednotlivé složky vektoru), kdy za matici J 1 n ( β n ) bereme vhodnou podmatici. Užitečným testem může být hypotéza β j = 0, tedy ověření, zda veličina Y na příslušném faktoru vůbec závisí. Důsledkem konvergence (2.12) je možnost použití iteračních metod pro výpočet β. Zde si ukážeme Newton-Raphsonovu metodu (známou jako,,newtonova metoda, i když právě verze Josepha Raphsona je ta, která se používá dodnes). Nejprve si zvolíme libovolnou (z příslušné množiny možných parametrů, označme např. ) Ω; bude se však jednat většinou o R p+1 ) hodnotu β (1). Dále funkci U (β (2) aproximujeme (pomocí Taylorova rozvoje U v bodě β (1) ) následujícím způsobem: ) ) ) ) U (β (2) U (β (1) J n (β (β (1) (2) β (1). Tuto funkci položíme rovnou nule; odtud máme: ) ) ) U (β (1) = J n (β (β (1) (2) β (1), neboli (při existenci příslušné inverze; postačující podmínkou je konkavita l n (β) na okolí β (1) ) )] 1 ) β (2) = [J n (β (1) U (β (1) + β (1). 17

18 Tímto způsobem iterujeme dále a dostaneme tak předpis: )] 1 ) β (k+1) = [J n (β (k) U (β (k) + β (k), β (1) Ω. (2.13) Jako zakončovací kritérium lze zvolit například rozdíl po sobě jdoucích vektorů β (k) a β (k+1) ve vhodné (např. eukleidovské) normě a iteraci přerušit, pokud se dostane pod námi pevně zvolenou hodnotu. Praktické je využití,,znormovaného tvaru: β (k) β (k+1) β (k) <, jinak bychom museli při volbě uvažovat, v jakých řádech se pohybujeme (neboli rozdíl β (k) a β (k+1) v jednotkách bude podstatný při hodnotách β (k) v desítkách, ale může být zanedbatelný ve statisících). Druhou možností je porovnávat hodnoty logaritmické věrohodnosti: ( ) ) l n β (k) l n (β (k+1) ( ) l n β (k) <. Oba postupy budou konvergovat ke skutečné hodnotě β (0). Alternativní možností ( ) může být Fisherova ( metoda (,,Fisher scoring ), která namísto J n β (1) používá E β (1) J n β ). (1) Tato metoda je rychlejší a přesnější, ovšem vyžaduje větší množství výpočtů. 18

19 Kapitola 3 Parametrické modely 3.1 Rozdělení T - času do selhání V této kapitole si připomeneme definice méně běžných rozdělení, kterých bude vzápětí třeba při tvorbě modelů. Naznačíme vztah mezi rozdělením veličiny T a Y = log T, který bude podrobně rozebrán v příslušném modelu. Použité parametrizace jsou převzaté z díla Collett (2003), budou tak korespondovat s parametrizacemi při konstrukci modelů v dalších částech práce Log-normální rozdělení Necht náhodná veličina X má logaritmicko normální rozdělení s parametry b > 0, m R. Potom ( ) 1 [log x m]2 f(x) = exp, x > 0 (3.1) 2π bx 2b 2 a platí E X = exp ) (m + b2, var X = (E X) [ 2 exp(b 2 ) 1 ] Logistické rozdělení Necht náhodná veličina X má logistické rozdělení s parametry a R a b > 0. Potom F (x) = exp { } x a b 1 + exp { }, f(x) = 1 exp { } x a b x a [ { b b 1 + exp x a }] 2 (3.2) b a platí: E X = a, var X = π2 3b 2. 19

20 Dosazením lze ověřit, že platí F (a + x) = 1 F (a x) a rozdělení náhodné veličiny je tedy souměrné podle bodu a Log-logistické rozdělení Necht náhodná veličina X má logaritmicko logistické rozdělení s parametry α > 0, γ > 0. Potom a platí F (x) = exp(α)xγ exp(α) γ xγ 1, f(x) = 1 + exp(α)xγ [1 + exp(α)x γ ] 2, x > 0 (3.3) E X = exp( α)π γ γ sin( π), γ > 1, γ ( var X = exp 2α ) ( ) 2π π 2 γ γ sin 2π γ γ 2 (sin π, γ > 2. γ ) Gumbelovo rozdělení Necht náhodná veličina X má Gumbelovo rozdělení s parametry µ 0, ν > 0. Potom [ ( )] x µ F (x) = 1 exp exp, ν f(x) = 1 [( ) ( )] x µ x µ ν exp exp (3.4) ν ν a platí E X = µ γν, γ = 0, , var X = ν2 π 2 6. Standardním Gumbelovým rozdělením rozumíme případ, kdy µ = 0 a ν = Weibullovo rozdělení Necht náhodná veličina X má Weibullovo rozdělení s parametry c > 0 a b > 0. Potom F (x) = 1 exp( cx p ), f(x) = c p x p 1 exp( cx p ), x > 0 (3.5) a platí ( ) [ ( ) p + 1 E X = Γ c 1p p + 2, var X = Γ p p přičemž Γ je Gamma funkce definovaná jako Γ(a) = 0 x a 1 e x dx, a > 0. ( )] p + 1 Γ 2 c 2 p, p Speciálním případem Weibullova rozdělení je pro p = 1 rozdělení exponenciální. 20

21 3.1.6 Vztahy jednotlivých rozdělení Platí (prozatím bez specifikace parametrů) následující: T log-normální Y = log T normální T log-logistické Y = log T logistické T Weibullovo Y = log T Gumbelovo Dodejme, že ze vztahu (2.4) víme, že rozdělení náhodných veličin Y a ε je stejného typu (ovšem s jinými parametry). Vztah mezi jednotlivými rozděleními si demonstrujeme na následujích grafech. Zde vidíme hustoty rozdělení, které jsou nenulové na celé reálné ose a používáme je pro náhodnou chybu ε. Parametrizace jsou vybrané tak, aby náhodná veličina měla nulovou střední hodnotu a jednotkový rozptyl. Konkrétně jde o hustotu rozdělení normálního (zelená barva, dle (2.6) s parametry µ = 0, 2 = 1), logistického (červená, dle (3.2) s parametry a = 0 a b = 3 γ ) a Gumbelova (modrá, dle (3.4) s parametry µ = 6 a ν = 6, kde π π π γ = 0, ). 21

22 Na tomto grafu srovnáváme hustoty rozdělení, které dostáváme pro náhodnou veličinu T. Parametrizace odpovídají případě, kdy tyto veličiny jsou získány jako logaritmus veličin z předchozího odstavce. Přesněji jde o hustotu rozdělení log-normálního (zelená, dle (3.1) s parametry m = 0 a b = 1), loglogistického (červená, dle (3.3) s parametry α = 0 a γ = π 3 ) a Weibullova (modrá, dle (3.5) s parametry c = exp( γ) a p = π 6, kde γ = 0, ). 3.2 AFT model s normálně rozdělenou chybou Logaritmickou věrohodnost pro model s normálně rozdělenou chybou obdržíme zlogaritmováním vztahu (2.9): l n (β) = n ( 1 δ i log exp 2π [ (y i x T i β) ]) + + (1 δ i ) log [ 1 Φ 0, 2(y i x T i β) ], kde Φ 0, 2(c) je příslušná distribuční funkce. Vztah budeme derivovat podle β a výslednou soustavu rovnic položíme rovnu nule. Dostáváme tedy: l n (β) n β = δ i (y i x T i β) 2 x i + (1 δ i ) φ 0, 2(y i x T i β) 1 Φ 0, 2(y i x T i β) x i. Pro tuto soustavu bohužel nelze nalézt explicitní řešení a nezbude nám tedy, než počítat odhady pomocí iteračních metod. K tomu budeme nejprve muset 22

23 vyjádřit druhou derivaci: 2 l n (β) β β T = n δ i 1 2 ( x ix T i ) + (1 δ i ) φ 0, 2(y i x T i β) y i x T i β 2 ( 1 Φ0, 2(y i x T i β) ) + φ 0, 2(y i x T i β) [1 Φ 0, 2(y i x T i β)]2 x i x T i. Nyní máme zdánlivě všechno připraveno pro použití Newton-Rhapsonovy metody, respektive iteračního postupu (2.13), kde β (1) jsou zvoleny libovolně a funkce jsou definovány jako v (2.10). Před samotným výpočtem se však musíme zmínit o ještě jedné komplikaci. Dosud jsme se vyhýbali chybovému rozptylu 2 a při výpočtech předpokládali, že ho známe. Tomu tak ovšem v praktických případech není a je třeba pro tento parametr také provést odhady. Pro chybovou směrodatnou odchylku požadujeme > 0. Abychom se vyhnuli problémům, které by nám odhadování za tohoto omezení mohlo způsobit, zavedeme si parametr λ = log (obdobně jako v případě náhodných veličin T a Y ). Parametr λ pak bude nabývat hodnot z celé reálné osy. Namísto l n (β) budeme uvažovat l n (β, λ) a budeme tyto parametry odhadovat současně, jakoby byl λ další složkou vektoru β. Provedeme parciální, položíme ji rovnu nule a tuto rovnici zahrneme do soustavy rovnic vzniklých derivováním podle jednotlivých složek vektoru β a další postup bude odpovídat postupům v kapitole 2. S ohledem na cíl této práce pro nás nebude důležité, jestli chybový rozptyl známe, nebo ho musíme odhadovat. Nebudeme se tímto problémem tedy více zabývat. derivaci ln(β,λ) λ Příklad 3.1 (Srdeční chlopně: výstupy modelu) Vrat me se k datům z Meyns a kol. (2005). Odhady budeme provádět výše popsanou metodou a vycházet z výše uvedeného rozdělení náhodné veličiny ε. Softwarovým prostředkem nám bude volně šiřitelný statistický program R - R Development Core Team (2008). Ve své práci Meyns a kol. (2005) rozdělují veličiny do několika metodologicky odlišných skupin. Podívejme se na model zahrnující charakteristiky chlopně (tj. velikost chlopně v mm a typ chlopně dárce: aortální nebo plicní). Pomocí balíků funkcí pro analýzu přežití programu R vytvoříme model pro normálně rozdělenou chybu (vnitřní výpočty probíhají právě pomocí Newton-Rhapsonových iterací). Obdržíme následující tabulku (podrobnou interpretaci provedeme později): 23

24 Veličina β Směrodatná chyba p hodnota Absolutní člen 0,0155 0,5205 0,976 Velikost chlopně 0,1451 0,0318 < 0,001 Typ chlopně dárce (PH vs. AH) 0,3900 0,2516 0,121 Dále získáme informaci, že odhadu bylo dosaženo po osmé Newton-Rhapsonově iteraci. Můžeme si všimnout, že každá z použitých veličin má jiné vlastnosti. První je spojitá a manipulace s ní probíhá v regresním modelu přirozeně. Druhá veličina je faktorová a pracujeme s ní odlišným způsobem. Řekněme, že veličina X nabývá a různých hodnot, které indexujeme přirozenými čísly. Potom si sestrojíme a 1 pomocných faktorových veličin X 2,..., X a, které definujeme následujícím způsobem: X i = 1, právě když pozorovaná hodnota veličiny X nabývá i-té hodnoty (a je nulová jinak). Pokud X nabývá první hodnoty, jsou všechny pomocné veličiny nulové, nabýva-li druhé, je nenulová pouze X 2, a tak dále. Při sestavování modelu pak použijeme pomocné veličiny X 2,..., X a, nikoliv původní veličinu X. Stejný postup můžeme aplikovat na spojitou veličinu, chceme-li ji rozdělit na několik skupin. Její definiční obor rozdělíme do několika intervalům, oindexujeme je přirozenými čísly a sledujeme stejný postup, jako v předchozím případě. Příklad 3.2 (Srdeční chlopně: dělení do skupin) V úvodním povídání o těchto datech jsme vznesli otázky týkající se rozhodování, kdy a za jakých podmínek operaci provádět. Ukažme si, jakou nalezneme odpověd pro věk pacienta. Pozorované pacienty si rozdělíme podle věku do tří skupin a následně provedeme konstrukci modelu pro pomocné veličiny X 2,..., X 3. Při předpokladu normálního rozdělení chyb dostaneme následující odhady funkce přežití: 24

25 Červená křivka přísluší dětem mladším než jeden rok (včetně), modrá pacientů mezi jedním a osmi lety (včetně) a konečně zelená všem starším osmi let. Vidíme, že pro mladé pacienty klesá funkce přežití mnohem rychleji. Výstupem je zjištění, že po určité době je pravděpodobnost selhání transplantované chlopně vyšší, čím je operovaný mladší (čím je to skutečně způsobeno si vysvětlíme v závěru práce). Zároveň vidíme, že pro pacienty ve věku nad osm let je funkce přežití velice,,dobrá v tom smyslu, že je dlouho blízká jedné a klesá zvolna. Již jsme si osvětlili, jak model vzniknul a co veličiny v něm znamenají. V příkladu jsme naznačili, jak se dívat na grafické znázornění. Nyní se vrátíme k číselným výstupům modelu a ukážeme si, jakým způsobem výsledky interpretovat. Opět bude třeba rozlišovat, zda mluvíme o spojité nebo faktorové veličině. Ve spojitém případě koeficient β j říká, o kolik se zvětší střední hodnota náhodné veličiny Y, zvětšíme-li hodnotu příslušné veličinu x j o jedničku (a ostatní vysvětlující proměnné zůstanou nezměněné). K času T s vektorem vysvětlujících proměnných x si zaved me čas T 1 s vektorem x 1, kde x = x 1 pro všechny složky až na j-tou, pro kterou platí x 1j = x j + 1. Využijeme 25

26 vztah (2.2) a dostaneme: E T 1 E T = exp(xt 1 β) exp(x T β) E exp(ε 1 ) E exp(ε) = exp(β j) nebot o chybových členech předpokládáme nezávislost a stejné rozdělení. Zvětšením veličiny x j o jedničku se tedy střední čas do selhání zvětší přibližně exp(β j ) krát. Pro faktorovou veličinu zapsanou ve tvaru,,e vs. F nám β j ukazuje, o kolik bude střední hodnota Y větší pro x j s hodnotou E oproti x j s hodnotou F. Další postup bude obdobný. Druhým podstatným výstupem jsou,,p-hodnoty, které nám slouží k posuzování, zda veličina X j ovlivňuje hodnotu náhodné veličiny Y natolik, abychom ji do modelu zahrnovali. P-hodnota je definována jako pravděpodobnost, s jakou testovací statistika nabude hodnot svědčících proti testované hypotéze více, než jsou hodnoty získané z dat (je tedy mezní hladinou, na které hypotézu zamítáme). Jeli námi vypočtená p-hodnota menší, než stanovaná hladina spolehlivosti α, zamítáme hypotézu na hladině α. Je-li p-hodnota větší, hypotézu zamítnout nemůžeme. Příklad 3.3 (Srdeční chlopně: interpretace výsledků) Z výše uvedených důvodů je tabulka z příkladu (3.1) ekvivalentní zápisu: Veličina β Směrodatná chyba p hodnota Absolutní člen 0,0155 0,5205 0,976 Velikost chlopně 0,1451 0,0318 < 0,001 Typ chlopně AH 0 Typ chlopně PH 0,3900 0,2516 0,121 Vidíme tedy, že za každý milimetr, o který se zvětší chlopeň, vzroste očekávaná doba do selhání přibližně exp(0,1451). = 1,16 krát. Dále u pacienta, kterému transplantujeme plicní chlopeň, můžeme očekávat čas do selhání chlopně přibližně exp(0,39). = 1,477 krát větší, než pro pacienta s aortální chlopní. Nyní se podíváme na jednotlivé p-hodnoty. V našem případě jsou vztaženy k Waldovu testu hypotézy, zda β j = 0. Zjistíme, že na hladině 5% zamítnout hypotézu o nulovosti koeficientu můžeme pouze pro veličinu Velikost chlopně, oproti tomu nemá dle našeho modelu veličina Typ chlopně na 5% hladině spolehlivosti statisticky významný vliv na dobu do selhání. Testovat nulovost absolutního členu pro nás nemá smysl, nebot se zde zajímáme pouze o závislost času do selhání na jednotlivých faktorových veličinách. 26

27 V příkladu jsme nalezli odpovědi na to, jak věk ovlivňuje očekávanou křivku přežití, což můžeme zužitkovat před zákrokem (například rozhodnout, zda ho provádět nebo ne). V praxi nás ovšem často zajímá také to, jak bude křivka vypadat pro konkrétního pacienta s konkrétní maticí X, u něhož jsme operaci provedli. K tomu by nám nejlépe posloužila znalost rozdělení (a zejména hustoty) veličiny T. Začněme od náhodné veličiny ε s rozdělením N(0, 2 I). Obecnou podobu transformace jsme si ukázali ve vztahu (2.5). V našem případě s normalitou tedy dostáváme hustotu: což upravíme dále na f(t) = 1 2π exp f(t) = 1 2πt exp ( (log t xt β) [ (log t xt β) ) 1 t, Srovnáním s (3.1) vidíme, že jde o hustotu log-normálního rozdělení s parametry m = x T β, b =. Z toho dále plyne, že ) E T = exp (x T β + 2 var T = (E T ) 2 [ exp( 2 ) 1 ]. 2 ]. Tímto postupem jsme si charakterizovali náhodnou veličinu T odpovídající času do selhání. Parametr bud známe nebo odhadneme společně s β pomocí metod regresní analýzy. Vypočítat pro dané X střední hodnotu, rozptyl a hustotu veličiny T pak není nic jiného, než pouhé dosazení do vzorců. Stejně tak pravděpodobnost přežití do času t spočteme přímo z hustoty, ze které případně můžeme sestrojit i funkci přežití. 3.3 Další parametrické modely Bohužel se ne ve všech případech můžeme spolehnout na normalitu chyby. Rozdělení veličiny ε je jedním z faktorů, ve kterých se různé parametrické modely liší. Zcela obecně se dá samozřejmě využít jakékoli rozdělení, my si však nyní přiblížíme pouze ta, která se nejčastěji používají v praxi. Ukážeme si, ze kterého rozdělení model vychází a připravíme logaritmickou věrohodnost. Dále bychom postupovali stejně jako v AFT modelu s normálně rozdělenou chybou. Bud bychom odhad parametrů ze soustavy rovnic dovedli vypočítat rovnou, nebo bychom přistoupili k iteračním metodám. Nakonec si vypočítáme hustotu náhodné veličiny T a ukážeme, jaké má rozdělení. 27

28 3.3.1 Model s log-logistickým rozdělením Začněme s náhodnou chybou ε, která má logistické rozdělení s hustotou (3.2) a parametry a = 0 a b = : h(z) = 1 exp ( ) z [ ( 1 + exp z 2. )] Dle vzorce (2.8) sestavíme L n (β): L n (β) = n 1 exp [ 1 + exp ( ) yi x T i β ( yi x T i β δ i exp )] exp ( ) yi x T i β ( yi x T i β ) 1 δ i, což zlogaritmováním a úpravami převedeme na logaritmickou věrohodnost: l n (β) = n ( δ i log 1 + y ) [ i x T i β (1 + δ i ) log 1 + exp ( yi x T i β )]. Pro výpočet hustoty T použijme vzorec (2.5). Dosazením dostaneme: ( ) f(t) = 1 log t x exp T β 1 [ ( )] 2 log t x 1 + exp T β t = ( ) = 1 t 1 exp xt β [ ( )] t 2 = 1 + t 1 exp xt β ( ) t exp xt β = [ ( )] 2, 1 + t 1 exp xt β což je z (3.3) hustota log-logistického rozdělení při parametrech α = xt β a γ = 1. Potom tedy platí: [ ] E T = exp(x T π β) sin(π), var T = 2π exp(2xt β) sin(2π) π2 2 sin 2. (π) Model s Weibullovým rozdělením Začněme s hustotou náhodné veličiny ε, která má Gumbelovo rozdělení s hustotou ve tvaru (3.4) s parametry µ = 0 a ν = : h(z) = 1 exp [ z exp ( z )]. 28

29 Stejně jako v předchozím případě i zde si vyjádříme l n (β) přes vyjádření L n (β) ze vzorce (2.8): L n (β) = n { [ ( )]} 1 exp yi x T i β yi x T δi i β exp { [ ( )]} yi x T 1 δi i β 1 1 exp exp. Po úpravách dostaneme: l n (β) = n ( δ i log 1 + y ) i x T i β exp ( yi x T i β Pomocí vzorce (2.5) opět získáme hustotu pro T : f(t) = 1 [ ( log t x T exp β log t x T β exp [ = 1 ( t exp log t x T β t exp(x T β) = 1 ( ) [ 1 ( t t exp t exp(x T β) exp(x T β) ( ) [ = exp xt β 1 t 1 1 exp exp ) ] 1 = ). )] 1 t = ) ] 1 = ( xt β Z (3.5) vidíme, ( že) jsme dostali hustotu Weibullova rozdělení při parametrech c = exp xt β a p = 1. Potom platí: E T = Γ(1+) exp(x T β), var T = exp(2x T β) [ Γ(1 + 2) Γ 2 (1 + ) ] Porovnávání modelů Představili jsme si několik různých modelů a nabízí se otázka, jak poznat, který z nich nejlépe odpovídá skutečnosti. Jednou z možností je provedení neparametrických odhadů, zanesení vypočtené funkce přežití do grafu s parametricky odhadnutým výsledkem a jejich porovnání. Použít můžeme například následující Kaplan-Meierův odhad (Kaplan a Meier, 1958) funkce přežití: Ŝ(t) = n i d i, n t i <t i kde n i je počet jedinců, kteří dosud neselhali, v čase t i a d i počet selhání v tomto čase (uvědomme si, že n i vznikne odečtením nejen těch, kteří selhali, ale také cenzorovaných). ) t 1 ]. 29

30 Příklad 3.4 (Srdeční chlopně: srovnání modelů) Vrat me se k příkladu (3.2), ale pro přehlednost si data rozdělme pouze do dvou věkových skupin (kdy dělícím bodem je deset let). Použijeme model s normálním rozdělením a do grafu zakreslíme funkce přežití (barevně) spolu s Kaplan-Meierovým odhadem (v černé barvě): Křivky víceméně kopírují průběh grafu a můžeme tedy diskuzi uzavřít s tím, že naše volba rozdělení nebyla zcela nevhodná. Nyní do grafu přidáme funkce přežití, které bychom dostali z jiných modelů (zelená pro chybu s normálním rozdělením, červená pro logistické a modrá pro Gumbelovo): 30

31 Vidíme, že různé modely nám dávají odlišné výsledky. Přestože modrá křivka je po desátém roce nejblíže Kaplan-Meierovu odhadu, žádná z funkcí přežití se neodchyluje tak významně, abychom museli na základě této neformální grafické analýzy použitý model zavrhnout. Pokud bychom chtěli najít nejlepší možnost, museli bychom použít sofistikovanější metody, než grafické porovnávání s Kaplan-Meierovým odhadem. 31

32 Kapitola 4 Závěr Obsah předchozích kapitol byl koncipován tak, aby čtenáře seznámil stručně s podstatou samotné analýzy přežití a ukázal, jakým způsobem funguje tvorba parametrických modelů. Pomocí metod kapitoly 2 a popisu tvorby modelů z kapitoly 3 je možné sestrojit funkční parametrický model pomocí regrese, tedy odhadnout neznámé parametry a z nich spočíst funkci přežití. Zejména příklady ve třetí kapitole pak umožňují správnou interpretaci modelu. Stále však práce zůstává svou povahou pouhým úvodem do problematiky. V praxi máme další typy cenzorování (zleva, intervalové) a,,ořezávání (truncation), případně cenzorování dat nemusí být náhodné. Je třeba dávat pozor na to, jak podíl cenzorovaných dat z celkového počtu ovlivňuje přesnost modelů. Nulovost parametrů lze vedle Waldovovy metody testovat například pomocí rozdílů hodnot logaritmické věrohodnosti nebo lze v celé problematice používat namísto hustot a funkcí přežití rizikové funkce. Porovnávání modelů pomocí reziduí by také vystačilo na několik kapitol. Vedle parametrických modelů se hojně využívají neparametrické odhady (zde jsme alespoň měli možnost vidět Kaplan-Meierovu metodu), či semiparametrické (např. Coxův model). Analýza přežití a její metody je velice široký pojem a takto krátká práce nemá vůbec šanci postihnout i jen náznakem všechna zajímavá zákoutí této problematiky. To samozřejmě ani nebylo jejím účelem, ovšem pokud by někoho zaujala tato pasáž matematické statistiky natolik, že by se o ní chtěl dozvědět něco více, rád bych upozornil na následující knihy. Matematicky mnohem komplexnější, ale zároveň náročnější je dílo Kalbfleisch a Prentice (2002), zkoumající podrobně matematické pozadí modelů. Oproti tomu Collett (2003) se více soustředí na konkrétní příklady a velký prostor věnuje samotnému plnění modelů daty a interpretaci výstupů. Obě knihy obsahují velké množství referencí na další autory a jejich kombinace umožní velice dobré zorientování se v základní problematice analýzy přežití. Příklad 4.1 (Srdeční chlopně: Shrnutí) Během přípravy práce i při její realizaci a tvorbě příkladů jsem čerpal spoustu poznatků ze studie Meyns a kol. (2005). Proto bych chtěl pro úplnost na závěr shrnout, k čemu tento výzkum v praxi vedl a jaké přinesl výsledky. 32

33 Studie použitím Kaplan-Meierových odhadů a především Coxových regresních modelů dospěla k závěru, že jedinými veličinami (z těch uvedených v příkladu (1.1)), které významně ovlivňují přežití chlopně, jsou věk, velikost chlopně a způsob implantace. K delšímu očekávanému času přežití vede vyšší věk, větší velikost chlopně a implantace v anatomicky správné pozici. Imunologické faktory jako kompatibilita krevních skupin neměly, stejně jako teplý a studený ischemický čas, téměř žádný vliv. Horší výsledky u mladších dětí souvisejí jednak s výkonnějším imunologickým systémem, který odmítne transplantovanou chlopeň spíše, než u staršího. Především je však tato skutečnost způsobena tím, že přestože tělo transplantovanou chlopeň přijme, tato dále neroste a u rychle se zvětšujícího srdce dítěte přestane stačit a musí být vyměněna. Stejné vysvětlení můžeme přisoudit i vlivu větší velikosti chlopně. Studie se zabývala také případem druhé transplantace, tedy situace, kdy první chlopeň selže a je znovu nahrazena. Doba do selhání byla u druhé chlopně výrazně delší než u první. Nicméně tento poznatek nemůžeme brát jako příliš směrodatný, nebot přímo souvisí s tím, že pacient při transplantaci druhé chlopně je výrazně starší, než při první operaci. Nejcennějším výstupem bylo zjištění, že současná metoda transplantací je stále velice spolehlivá (deset let do selhání u pacientů starších šestnácti let je pravděpodobné na 99%) a nemá smysl se ji pokoušet masově nahradit momentálně dostupnými alternativními metodami. Během psaní této práce jsem se seznámil s problematikou analýzy přežití, o které jsem do té doby nic nevěděl. Metody konstrukce AFT modelů mě přivedli k prohloubení znalostí v regresní analýze, rozšíření v metodě maximální věrohodnosti a praktickému vyzkoušení souvislostí mezi jednotlivými používanými rozděleními (spolu s tím, jak mezi sebou souvisejí jejich parametry). Pro zorientování se ve studii Meyns a kol. (2005) bylo nutné pochopit alespoň částečně medicínské souvislosti a při zpracovávání praktických modelů jsem si vyzkoušel spoustu věcí v programu R. Snad žádný z poznatků, o které mě práce obohatila, nevidím jako samoúčelný. Předpokládám, že většinu z nich hojně v budoucnu využiji, at už se budu analýzou přežití jako takovou zabývat nebo ne. Tímto jsem shrnul, co práce přinesla mně. Nepovažuji ji za zbytečnou ani z obecnějšího hlediska. Vzhledem k tomu, že česká literatura k tomuto tématu prakticky neexistuje a kvalitu materiálů na internetu (jak jsem měl možnost se přesvědčit při hledání několika podrobností) je obtížné posoudit, doufám, že by mohla má práce někomu, kdo se bude chtít seznámit s analýzou přežití, posloužit jako odrazový můstek, poskytnout úvodní informace a reference na kvalitní literaturu. 33

34 Literatura Anděl, J. (2005). Základy matematické statistiky. První vydání. Matfyzpress, Praha. ISBN Collett, D. (2003). Modelling Survival Data in Medical Research. Chapman & Hall/CRC, Boca Raton, Second edition. ISBN Kalbfleisch, J. D. a Prentice, R. L. (2002). The Statistical Analysis of Failure Time Data. John Wiley & Sons, Chichester, Second edition. ISBN X. Kaplan, E. L. a Meier, P. (1958). Nonparametric estimation from incomplete observations. Journal of the American Statistical Association, 53, Lehmann, E. L. (1983). Theory of Point Estimation. John Wiley & Sons, New York. ISBN Meyns, B., Jashari, R., Gewillig, M., Mertens, L., Komárek, A., Lesaffre, E., Budts, W., a Daenen, W. (2005). Factors influencing the survival of cryopreserved homografts. The second homograft performs as well as the first. European Journal of Cardio-thoracic Surgery, 28, R Development Core Team (2008). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. URL 34

8 Coxův model proporcionálních rizik I

8 Coxův model proporcionálních rizik I 8 Coxův model proporcionálních rizik I Předpokládané výstupy z výuky: 1. Student umí formulovat Coxův model proporcionálních rizik 2. Student rozumí významu regresních koeficientů modelu 3. Student zná

Více

7 Regresní modely v analýze přežití

7 Regresní modely v analýze přežití 7 Regresní modely v analýze přežití Předpokládané výstupy z výuky: 1. Student rozumí významu regresního modelování dat o přežití 2. Student dokáže definovat pojmy poměr rizik a základní riziková funkce

Více

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina. Parametrické metody odhadů z neúplných výběrů 2 1 Metoda maximální věrohodnosti pro cenzorované výběry 11 Náhodné cenzorování Při sledování složitých reálných systémů často nemáme možnost uspořádat experiment

Více

2 Hlavní charakteristiky v analýze přežití

2 Hlavní charakteristiky v analýze přežití 2 Hlavní charakteristiky v analýze přežití Předpokládané výstupy z výuky: 1. Student umí definovat funkci přežití, rizikovou funkci a kumulativní rizikovou funkci a zná funkční vazby mezi nimi 2. Student

Více

AVDAT Klasický lineární model, metoda nejmenších

AVDAT Klasický lineární model, metoda nejmenších AVDAT Klasický lineární model, metoda nejmenších čtverců Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Lineární model y i = β 0 + β 1 x i1 + + β k x ik + ε i (1) kde y i

Více

3 Bodové odhady a jejich vlastnosti

3 Bodové odhady a jejich vlastnosti 3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n y Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota y závisí nějakým způsobem na vstupní, je její funkcí y = f(x).

Více

5. Lokální, vázané a globální extrémy

5. Lokální, vázané a globální extrémy 5 Lokální, vázané a globální extrémy Studijní text Lokální extrémy 5 Lokální, vázané a globální extrémy Definice 51 Řekneme, že f : R n R má v bodě a Df: 1 lokální maximum, když Ka, δ Df tak, že x Ka,

Více

Přijímací zkouška na navazující magisterské studium 2014

Přijímací zkouška na navazující magisterské studium 2014 Přijímací zkouška na navazující magisterské studium 24 Příklad (25 bodů) Spočtěte Studijní program: Studijní obor: Matematika Finanční a pojistná matematika Varianta A M x 2 dxdy, kde M = {(x, y) R 2 ;

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Odhady - Sdružené rozdělení pravděpodobnosti

Odhady - Sdružené rozdělení pravděpodobnosti Odhady - Sdružené rozdělení pravděpodobnosti 4. listopadu 203 Kdybych chtěl znát maximum informací o náhodné veličině, musel bych znát všechny hodnoty, které mohou padnout, a jejich pravděpodobnosti. Tedy

Více

4. Aplikace matematiky v ekonomii

4. Aplikace matematiky v ekonomii 4. Aplikace matematiky v ekonomii 1 Lineární algebra Soustavy 1) Na základě statistických údajů se zjistilo, že závislost množství statku z poptávaného v průběhu jednoho týdne lze popsat vztahem q d =

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel Regresní analýza Ekonometrie Jiří Neubauer Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra ekonometrie UO Brno) Regresní analýza 1 / 23

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y 9. T r a n s f o r m a c e n á h o d n é v e l i č i n Při popisu procesů zpracováváme vstupní údaj, hodnotu x tak, že výstupní hodnota závisí nějakým způsobem na vstupní, je její funkcí = f(x). Pokud

Více

Otázku, kterými body prochází větev implicitní funkce řeší následující věta.

Otázku, kterými body prochází větev implicitní funkce řeší následující věta. 1 Implicitní funkce Implicitní funkce nejsou funkce ve smyslu definice, že funkce bodu z definičního oboru D přiřadí právě jednu hodnotu z oboru hodnot H. Přesnější termín je funkce zadaná implicitně.

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice 9. Lineární diferenciální rovnice 2. řádu Cíle Diferenciální rovnice, v nichž hledaná funkce vystupuje ve druhé či vyšší derivaci, nazýváme diferenciálními rovnicemi druhého a vyššího řádu. Analogicky

Více

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách 13 Regrese 13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách znaku X. Přitom je třeba vyřešit jednak volbu funkcí k vystižení dané závislosti a dále stanovení konkrétních

Více

1 Linearní prostory nad komplexními čísly

1 Linearní prostory nad komplexními čísly 1 Linearní prostory nad komplexními čísly V této přednášce budeme hledat kořeny polynomů, které se dále budou moci vyskytovat jako složky vektorů nebo matic Vzhledem k tomu, že kořeny polynomu (i reálného)

Více

Náhodné chyby přímých měření

Náhodné chyby přímých měření Náhodné chyby přímých měření Hodnoty náhodných chyb se nedají stanovit předem, ale na základě počtu pravděpodobnosti lze zjistit, která z možných naměřených hodnot je více a která je méně pravděpodobná.

Více

Stavový model a Kalmanův filtr

Stavový model a Kalmanův filtr Stavový model a Kalmanův filtr 2 prosince 23 Stav je veličina, kterou neznáme, ale chtěli bychom znát Dozvídáme se o ní zprostředkovaně prostřednictvím výstupů Příkladem může býapř nějaký zašuměný signál,

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

KVADRATICKÁ KALIBRACE

KVADRATICKÁ KALIBRACE Petra Širůčková, prof. RNDr. Gejza Wimmer, DrSc. Finanční matematika v praxi III. a Matematické modely a aplikace 4. 9. 2013 Osnova Kalibrace 1 Kalibrace Pojem kalibrace Cíle kalibrace Předpoklady 2 3

Více

0.1 Úvod do matematické analýzy

0.1 Úvod do matematické analýzy Matematika I (KMI/PMATE) 1 0.1 Úvod do matematické analýzy 0.1.1 Limita a spojitost funkce Lineární funkce Lineární funkce je jedna z nejjednodušších a možná i nejpoužívanějších funkcí. f(x) = kx + q D(f)

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Vícerozměrná rozdělení

Vícerozměrná rozdělení Vícerozměrná rozdělení 7. září 0 Učivo: Práce s vícerozměrnými rozděleními. Sdružené, marginální, podmíněné rozdělení pravděpodobnosti. Vektorová střední hodnota. Kovariance, korelace, kovarianční matice.

Více

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH Michal Friesl Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni Slunce Řidiči IQ Regrese Přežití Obvyklý model Pozorování X = (X 1,..., X

Více

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I Příklad Tahová síla papíru používaného pro výrobu potravinových sáčků je důležitá charakteristika kvality. Je známo, že síla

Více

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1 9 přednáška 6 listopadu 007 Věta 11 Nechť f C U, kde U R m je otevřená množina, a a U je bod Pokud fa 0, nemá f v a ani neostrý lokální extrém Pokud fa = 0 a H f a je pozitivně negativně definitní, potom

Více

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru 2. Systémy lineárních rovnic V této kapitole se budeme zabývat soustavami lineárních rovnic s koeficienty z pole reálných případně komplexních čísel. Uvádíme podmínku pro existenci řešení systému lineárních

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně 7 Náhodný vektor Nezávislost náhodných veličin Definice 7 Nechť je dán pravděpodobnostní prostor (Ω, A, P) Zobrazení X : Ω R n, které je A-měřitelné, se nazývá (n-rozměrný) náhodný vektor Měřitelností

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y β ε Matice n,k je matice realizací. Předpoklad: n > k, h() k - tj. matice je plné hodnosti

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Vektory Definice 011 Vektorem aritmetického prostorur n budeme rozumět uspořádanou n-tici reálných čísel x 1, x 2,, x n Definice 012 Definice sčítání

Více

4 Parametrické odhady

4 Parametrické odhady 4 Parametrické odhady Předpokládané výstupy z výuky: 1. Student zná základní rozdělení pravděpodobnosti dat přežití 2. Student rozumí principu odhadu funkce přežití a rizikové funkce s využitím metody

Více

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace

Vektory a matice. Obsah. Aplikovaná matematika I. Carl Friedrich Gauss. Základní pojmy a operace Vektory a matice Aplikovaná matematika I Dana Říhová Mendelu Brno Obsah 1 Vektory Základní pojmy a operace Lineární závislost a nezávislost vektorů 2 Matice Základní pojmy, druhy matic Operace s maticemi

Více

5.3. Implicitní funkce a její derivace

5.3. Implicitní funkce a její derivace Výklad Podívejme se na následující problém. Uvažujme množinu M bodů [x,y] R 2, které splňují rovnici F(x, y) = 0, M = {[x,y] D F F(x,y) = 0}, kde z = F(x,y) je nějaká funkce dvou proměnných. Je-li F(x,y)

Více

AVDAT Nelineární regresní model

AVDAT Nelineární regresní model AVDAT Nelineární regresní model Josef Tvrdík Katedra informatiky Přírodovědecká fakulta Ostravská univerzita Nelineární regresní model Ey i = f (x i, β) kde x i je k-členný vektor vysvětlujících proměnných

Více

0.1 Úvod do lineární algebry

0.1 Úvod do lineární algebry Matematika KMI/PMATE 1 01 Úvod do lineární algebry 011 Lineární rovnice o 2 neznámých Definice 011 Lineární rovnice o dvou neznámých x, y je rovnice, která může být vyjádřena ve tvaru ax + by = c, kde

Více

Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice

Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice Greenova funkce pro dvoubodové okrajové úlohy pro obyčejné diferenciální rovnice Jan Tomeček Tento stručný text si klade za cíl co nejrychlejší uvedení do teorie Greenových funkcí pro obyčejné diferenciální

Více

Odhad parametrů N(µ, σ 2 )

Odhad parametrů N(µ, σ 2 ) Odhad parametrů N(µ, σ 2 ) Mějme statistický soubor x 1, x 2,, x n modelovaný jako realizaci náhodného výběru z normálního rozdělení N(µ, σ 2 ) s neznámými parametry µ a σ. Jaký je maximální věrohodný

Více

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague

Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague 1 / 40 regula Faculty of Nuclear Sciences and Physical Engineering Czech Technical University in Prague regula 1 2 3 4 5 regula 6 7 8 2 / 40 2 / 40 regula Iterační pro nelineární e Bud f reálná funkce

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Definice lineárního normálního regresního modelu Lineární normální regresní model Y Xβ ε Předpoklady: Matice X X n,k je matice realizací. Předpoklad: n > k, h(x) k - tj. matice

Více

Matematika (KMI/PMATE)

Matematika (KMI/PMATE) Matematika (KMI/PMATE) Přednáška druhá aneb Úvod do matematické analýzy Limita a spojitost funkce Matematika (KMI/PMATE) 1 / 30 Osnova přednášky lineární funkce y = kx + q definice lineární funkce význam

Více

Základy matematické analýzy

Základy matematické analýzy Základy matematické analýzy Spojitost funkce Ing. Tomáš Kalvoda, Ph.D. 1, Ing. Daniel Vašata 2 1 tomas.kalvoda@fit.cvut.cz 2 daniel.vasata@fit.cvut.cz Katedra aplikované matematiky Fakulta informačních

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

Aplikovaná numerická matematika

Aplikovaná numerická matematika Aplikovaná numerická matematika 6. Metoda nejmenších čtverců doc. Ing. Róbert Lórencz, CSc. České vysoké učení technické v Praze Fakulta informačních technologií Katedra počítačových systémů Příprava studijních

Více

Odhady Parametrů Lineární Regrese

Odhady Parametrů Lineární Regrese Odhady Parametrů Lineární Regrese Mgr. Rudolf B. Blažek, Ph.D. prof. RNDr. Roman Kotecký, DrSc. Katedra počítačových systémů Katedra teoretické informatiky Fakulta informačních technologií České vysoké

Více

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic Přednáška třetí (a pravděpodobně i čtvrtá) aneb Úvod do lineární algebry Matice a soustavy rovnic Lineární rovnice o 2 neznámých Lineární rovnice o 2 neznámých Lineární rovnice o dvou neznámých x, y je

Více

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní ..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X

Více

Interpolace, ortogonální polynomy, Gaussova kvadratura

Interpolace, ortogonální polynomy, Gaussova kvadratura Interpolace, ortogonální polynomy, Gaussova kvadratura Petr Tichý 20. listopadu 2013 1 Úloha Lagrangeovy interpolace Dán omezený uzavřený interval [a, b] a v něm n + 1 různých bodů x 0, x 1,..., x n. Nechť

Více

11. přednáška 10. prosince Kapitola 3. Úvod do teorie diferenciálních rovnic. Obyčejná diferenciální rovnice řádu n (ODR řádu n) je vztah

11. přednáška 10. prosince Kapitola 3. Úvod do teorie diferenciálních rovnic. Obyčejná diferenciální rovnice řádu n (ODR řádu n) je vztah 11. přednáška 10. prosince 2007 Kapitola 3. Úvod do teorie diferenciálních rovnic. Obyčejná diferenciální rovnice řádu n (ODR řádu n) je vztah F (x, y, y, y,..., y (n) ) = 0 mezi argumentem x funkce jedné

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu

1.1 Existence a jednoznačnost řešení. Příklad 1.1: [M2-P1] diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu [M2-P1] KAPITOLA 1: Diferenciální rovnice 1. řádu diferenciální rovnice (DR) řádu n: speciálně nás budou zajímat rovnice typu G(x, y, y, y,..., y (n) ) = 0 y (n) = F (x, y, y,..., y (n 1) ) Příklad 1.1:

Více

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28.

fakulty MENDELU v Brně (LDF) s ohledem na disciplíny společného základu http://akademie.ldf.mendelu.cz/cz (reg. č. CZ.1.07/2.2.00/28. Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem

Více

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D. Úvod do teorie odhadu Ing. Michael Rost, Ph.D. Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost

Více

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s Kapitola 13 Kvadratické formy Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru f(x 1,..., x n ) = a ij x i x j, kde koeficienty a ij T. j=i Kvadratická forma v n proměnných

Více

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25

LDF MENDELU. Simona Fišnarová (MENDELU) Základy lineárního programování VMAT, IMT 1 / 25 Základy lineárního programování Vyšší matematika, Inženýrská matematika LDF MENDELU Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem

Více

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup Statistika Regresní a korelační analýza Úvod do problému Roman Biskup Jihočeská univerzita v Českých Budějovicích Ekonomická fakulta (Zemědělská fakulta) Katedra aplikované matematiky a informatiky 2008/2009

Více

Numerická matematika 1

Numerická matematika 1 Numerická matematika 1 Obsah 1 Řešení nelineárních rovnic 3 1.1 Metoda půlení intervalu....................... 3 1.2 Metoda jednoduché iterace..................... 4 1.3 Newtonova metoda..........................

Více

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X Náhodný vektor Náhodný vektor zatím jsme sledovali jednu náhodnou veličinu, její rozdělení a charakteristiky často potřebujeme vyšetřovat vzájemný vztah několika náhodných veličin musíme sledovat jejich

Více

Interpolace Uvažujme třídu funkcí jedné proměnné ψ(x; a 0,..., a n ), kde a 0,..., a n jsou parametry, které popisují jednotlivé funkce této třídy. Mějme dány body x 0, x 1,..., x n, x i x k, i, k = 0,

Více

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Výsledky některých náhodných pokusů jsou přímo vyjádřeny číselně (např. při hodu kostkou padne 6). Náhodnou veličinou

Více

Matematická analýza pro informatiky I.

Matematická analýza pro informatiky I. Matematická analýza pro informatiky I. 10. přednáška Diferenciální počet funkcí více proměnných (II) Jan Tomeček jan.tomecek@upol.cz http://aix-slx.upol.cz/ tomecek/index Univerzita Palackého v Olomouci

Více

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Matematické modelování Náhled do ekonometrie. Lukáš Frýd Matematické modelování Náhled do ekonometrie Lukáš Frýd Výnos akcie vs. Výnos celého trhu - CAPM model r it = r ft + β 1. (r mt r ft ) r it r ft = α 0 + β 1. (r mt r ft ) + ε it Ekonomický (finanční model)

Více

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}. VIII. Náhodný vektor. Náhodný vektor (X, Y má diskrétní rozdělení s pravděpodobnostní funkcí p, kde p(x, y a(x + y +, x, y {,, }. a Určete číslo a a napište tabulku pravděpodobnostní funkce p. Řešení:

Více

4EK213 LINEÁRNÍ MODELY

4EK213 LINEÁRNÍ MODELY 4EK213 LINEÁRNÍ MODELY Úterý 11:00 12:30 hod. učebna SB 324 3. přednáška SIMPLEXOVÁ METODA I. OSNOVA PŘEDNÁŠKY Standardní tvar MM Základní věta LP Princip simplexové metody Výchozí řešení SM Zlepšení řešení

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1 Logistická regrese Menu: QCExpert Regrese Logistická Modul Logistická regrese umožňuje analýzu dat, kdy odezva je binární, nebo frekvenční veličina vyjádřená hodnotami 0 nebo 1, případně poměry v intervalu

Více

Příklad 1. Řešení 1a. Řešení 1b ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 5

Příklad 1. Řešení 1a. Řešení 1b ŘEŠENÉ PŘÍKLADY Z M1B ČÁST 5 Příklad 1 Najděte totální diferenciál d (h) pro h=(h,h ) v příslušných bodech pro následující funkce: a) (,)= cos, =1; b) (,)=ln( + ), =2; 0 c) (,)=arctg(), =1; 0 1 d) (,)= +, =1; 1 Řešení 1a Máme nalézt

Více

1 Polynomiální interpolace

1 Polynomiální interpolace Polynomiální interpolace. Metoda neurčitých koeficientů Příklad.. Nalezněte polynom p co nejmenšího stupně, pro který platí p() = 0, p(2) =, p( ) = 6. Řešení. Polynom hledáme metodou neurčitých koeficientů,

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOS A SAISIKA Regresní analýza - motivace Základní úlohou regresní analýzy je nalezení vhodného modelu studované závislosti. Je nutné věnovat velkou pozornost tomu aby byla modelována REÁLNÁ

Více

Diferenciální rovnice 3

Diferenciální rovnice 3 Diferenciální rovnice 3 Lineární diferenciální rovnice n-tého řádu Lineární diferenciální rovnice (dále jen LDR) n-tého řádu je rovnice tvaru + + + + = kde = je hledaná funkce, pravá strana a koeficienty

Více

Diferenciální rovnice

Diferenciální rovnice Obyčejné diferenciální rovnice - studijní text pro cvičení v předmětu Matematika - 2. Studijní materiál byl připraven pracovníky katedry E. Novákovou, M. Hyánkovou a L. Průchou za podpory grantu IG ČVUT

Více

Řešení 1b Máme najít body, v nichž má funkce (, ) vázané extrémy, případně vázané lokální extrémy s podmínkou (, )=0, je-li: (, )= +,

Řešení 1b Máme najít body, v nichž má funkce (, ) vázané extrémy, případně vázané lokální extrémy s podmínkou (, )=0, je-li: (, )= +, Příklad 1 Najděte body, v nichž má funkce (,) vázané extrémy, případně vázané lokální extrémy s podmínkou (,)=0, je-li: a) (,)= + 1, (,)=+ 1 lok.max.v 1 2,3 2 b) (,)=+, (,)= 1 +1 1 c) (,)=, (,)=+ 1 lok.max.v

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Soustavy lineárních diferenciálních rovnic I. řádu s konstantními koeficienty

Soustavy lineárních diferenciálních rovnic I. řádu s konstantními koeficienty Soustavy lineárních diferenciálních rovnic I řádu s konstantními koeficienty Definice a) Soustava tvaru x = ax + a y + az + f() t y = ax + a y + az + f () t z = a x + a y + a z + f () t se nazývá soustava

Více

Pravděpodobnost a statistika

Pravděpodobnost a statistika Pravděpodobnost a statistika Bodové odhady a intervaly spolehlivosti Vilém Vychodil KMI/PRAS, Přednáška 10 Vytvořeno v rámci projektu 963/011 FRVŠ V. Vychodil (KMI/PRAS, Přednáška 10) Bodové odhady a intervaly

Více

Chyby měření 210DPSM

Chyby měření 210DPSM Chyby měření 210DPSM Jan Zatloukal Stručný přehled Zdroje a druhy chyb Systematické chyby měření Náhodné chyby měření Spojité a diskrétní náhodné veličiny Normální rozdělení a jeho vlastnosti Odhad parametrů

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Téma 22. Ondřej Nývlt

Téma 22. Ondřej Nývlt Téma 22 Ondřej Nývlt nyvlto1@fel.cvut.cz Náhodná veličina a náhodný vektor. Distribuční funkce, hustota a pravděpodobnostní funkce náhodné veličiny. Střední hodnota a rozptyl náhodné veličiny. Sdružené

Více

Budeme hledat řešení y(x) okrajové úlohy pro diferenciální rovnici druhého řádu v samoadjungovaném tvaru na intervalu a, b : 2 ) y i p i+ 1

Budeme hledat řešení y(x) okrajové úlohy pro diferenciální rovnici druhého řádu v samoadjungovaném tvaru na intervalu a, b : 2 ) y i p i+ 1 ODR - okrajová úloha Teorie (velmi stručný výběr z přednášek) Okrajová úloha 2. řádu Budeme hledat řešení y(x) okrajové úlohy pro diferenciální rovnici druhého řádu v samoadjungovaném tvaru na intervalu

Více

Ranní úvahy o statistice

Ranní úvahy o statistice Ranní úvahy o statistice Neúplný návod ke čtení statistických výsledků Dušan Merta květen 2016 Co nás čeká 1 Základní pojmy 2 Testování hypotéz 3 Confidence interval 4 Odds ratio 2 / 26 Základní pojmy

Více