JAK NA ODHAD JOINPOINT REGRESE



Podobné dokumenty
10 je 0,1; nebo taky, že 256

STANOVISKO č. STAN/1/2006 ze dne

ZATÍŽENÍ SNĚHEM A VĚTREM

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Kočí, R.: Účelové pozemní komunikace a jejich právní ochrana Leges Praha, 2011

Lineární Regrese Hašovací Funkce

WEBDISPEČINK NA MOBILNÍCH ZAŘÍZENÍCH PŘÍRUČKA PRO WD MOBILE

170/2010 Sb. VYHLÁŠKA. ze dne 21. května 2010

Zefektivnění zadávání znaků na mobilním telefonu bez T9

I. Objemové tíhy, vlastní tíha a užitná zatížení pozemních staveb

Průzkum veřejného mínění věcné hodnocení

Analýza oběžného kola

KOMISE EVROPSKÝCH SPOLEČENSTVÍ

Integrovaný informační systém v kontrole mléčné užitkovosti krav ve Velké Británii Ing. Pavel Bucek, Českomoravská společnost chovatelů, a.s.

NEJČASTĚJI KLADENÉ DOTAZY K PUBLICITĚ PROJEKTŮ OP LZZ

5. Legislativní opatření a jejich vliv na vývoj pracovní neschopnosti pro nemoc a úraz

1.7. Mechanické kmitání

Magnetic Levitation Control

Metoda konečných prvků. 6. přednáška Tělesové prvky - úvod (lineární trojúhelník a lineární čtyřstěn) Martin Vrbka, Michal Vaverka

4.5.1 Magnety, magnetické pole

A. PODÍL JEDNOTLIVÝCH DRUHŮ DOPRAVY NA DĚLBĚ PŘEPRAVNÍ PRÁCE A VLIV DÉLKY VYKONANÉ CESTY NA POUŽITÍ DOPRAVNÍHO PROSTŘEDKU

Čl. 3 Poskytnutí finančních prostředků vyčleněných na rozvojový program Čl. 4 Předkládání žádostí, poskytování dotací, časové určení programu

Osvětlovací modely v počítačové grafice

Měření základních vlastností OZ

Česká zemědělská univerzita v Praze Fakulta provozně ekonomická. Obor veřejná správa a regionální rozvoj. Diplomová práce

VLÁDA ČESKÉ REPUBLIKY. Příloha k usnesení vlády ze dne 13. února 2013 č Stanovisko

7. Domy a byty Charakteristika domovního fondu

Tel/fax: IČO:

ODPOVĚDI KOMISE NA VÝROČNÍ ZPRÁVU ÚČETNÍHO DVORA ZA ROK 2011 KAPITOLA 6 ZAMĚSTNANOST A SOCIÁLNÍ VĚCI

Repeatery pro systém GSM

ČÁST PÁTÁ POZEMKY V KATASTRU NEMOVITOSTÍ

Exponenciála matice a její užití. fundamentálních matic. Užití mocninných řad pro rovnice druhého řádu

PRINCIPY ŠLECHTĚNÍ KONÍ

Těhotenský test pro zrakově postižené Tereza Hyková

Testovací aplikace Matematika není věda

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

Fraktální analýza tiskových struktur

RAPEX závěrečná zpráva o činnosti systému v roce 2012 (pouze výtah statistických údajů)

PŘÍRUČKA K PŘEDKLÁDÁNÍ PRŮBĚŽNÝCH ZPRÁV, ZPRÁV O ČERPÁNÍ ROZPOČTU A ZÁVĚREČNÝCH ZPRÁV PROJEKTŮ PODPOŘENÝCH Z PROGRAMU BETA

Měření změny objemu vody při tuhnutí

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Pravidla poskytování pečovatelské služby (PS) (pro zájemce a uživatele PS)

MODELOVÁNÍ CENOVÉ ELASTICITY POPTÁVKY PO VJEZDU NA AUTOBUSOVÉ NÁDRAŽÍ MODELLING OF PRICE DEMAND ELASTICITY FOR ENTRY TO BUS TERMINAL

Pokud se vám tyto otázky zdají jednoduché a nemáte problém je správně zodpovědět, budete mít velkou šanci v této hře zvítězit.

ODBORNÝ POSUDEK. č. 2661/108/15

KAPITOLA 6.3 POŽADAVKY NA KONSTRUKCI A ZKOUŠENÍ OBALŮ PRO INFEKČNÍ LÁTKY KATEGORIE A TŘÍDY 6.2

Obsah. Trocha právničiny

MATEMATIKA A BYZNYS. Finanční řízení firmy. Příjmení: Rajská Jméno: Ivana

Zvyšování kvality výuky v přírodních a technických oblastech CZ.1.07/1.128/ Nástrahy virtuální reality (pracovní list)

Staroegyptská matematika. Hieratické matematické texty

Algoritmizace a programování

Programový komplet pro evidence provozu jídelny v modul Sklad Sviták Bechyně Ladislav Sviták hotline: 608/

REKONSTRUKCE VZNIKU A VÝVOJE PRIVILEGOVANÉ PRŮSAKOVÉ CESTY NA PŘEHRADĚ MOSTIŠTĚ

DYNAMICKÉ VÝPOČTY PROGRAMEM ESA PT

Pokyn D Sdělení Ministerstva financí k rozsahu dokumentace způsobu tvorby cen mezi spojenými osobami

Zadání. Založení projektu

1.11 Vliv intenzity záření na výkon fotovoltaických článků

HLEDÁNÍ WIEFERICHOVÝCH PRVOČÍSEL. 1. Úvod

Programování se seznamy v Imagine

Příloha Průběžné zprávy. Shrnutí návrhu algoritmu

Stanovisko komise pro hodnocení dopadů regulace

Modul Řízení objednávek.

Inovace bakalářského studijního oboru Aplikovaná chemie. Reg. č.: CZ.1.07/2.2.00/

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

( x ) 2 ( ) Další úlohy s kvadratickými funkcemi. Předpoklady: 2501, 2502

Metody hodnocení rizik

ODBORNÝ POSUDEK. č. 2381/21/14

Výsledky testování školy. Druhá celoplošná generální zkouška ověřování výsledků žáků na úrovni 5. a 9. ročníků základní školy. Školní rok 2012/2013

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

STANDARD 3. JEDNÁNÍ SE ZÁJEMCEM (ŽADATELEM) O SOCIÁLNÍ SLUŽBU

SYLABUS PŘEDNÁŠKY 6b Z INŽENÝRSKÉ GEODÉZIE (Polohové vytyčování) 4. ročník bakalářského studia studijní program G studijní obor G

S T A N D A R D S A M O S T A T N É

Shrnující zpráva ze sociologického výzkumu NEJDEK

SRF08 ultrazvukový dálkoměr

Názory na bankovní úvěry

Projekční činnost (dendrologické průzkumy, náhradní výsadby, osazovací plány, realizační dokumentace), realizace sadových úprav, údržba, poradenství

Odůvodnění veřejné zakázky. Přemístění odbavení cestujících do nového terminálu Jana Kašpara výběr generálního dodavatele stavby

Provoz a poruchy topných kabelů

Porovnání vztahu u itel k informa ním a komunika ním technologiím mezi roky 2004 a 2014

PŘIJÍMACÍ ŘÍZENÍ. Strana

21 SROVNÁVACÍ LCA ANALÝZA KLASICKÝCH ŽÁROVEK A KOMPAKTNÍCH ZÁŘIVEK

Makroekonomie I. Přednáška 2. Ekonomický růst. Osnova přednášky: Shrnutí výpočtu výdajové metody HDP. Presentace výpočtu přidané hodnoty na příkladě

Seriál: Management projektů 7. rámcového programu

HODNOCENÍ VÝVOJE NEHODOVOSTI V ROCE 2012 A POROVNÁNÍ SE STÁTY EU

MMEE cv Stanovení množství obchodovatelného zboží mezi zákazníkem a dodavatelem

Čtyři atesty a přece není pravá

MEZINÁRODNÍ AUDITORSKÝ STANDARD ISA 505 EXTERNÍ KONFIRMACE OBSAH

Pokyny České pošty pro označování Doporučených zásilek čárovými kódy

Ústavní sociální služby pro osoby s postižením v Moravskoslezském kraji

ODBORNÝ POSUDEK. č. 2588/35/15

2 Ukazatele plodnosti

MV ČR, Odbor egovernmentu. Webové stránky veřejné správy - minimalizace jejich zranitelnosti a podpora bezpečnostních prvků

PŘÍLOHA č. 2C PŘÍRUČKA IS KP14+ PRO OPTP - ZPRÁVA O REALIZACI

Posouzení stávající soustavy vytápění. Posouzení stávající soustavy vytápění. Semináře JOULE 2012 Ing. Vladimír Galad

STRUKTURA OBCHODŮ BANKY JAKO FAKTOR ÚSPĚŠNOSTI BANKOVNÍ ČINNOSTI

1 Matematické základy teorie obvodů

PRAKTIKUM... Oddělení fyzikálních praktik při Kabinetu výuky obecné fyziky MFF UK. Odevzdal dne: Seznam použité literatury 0 1. Celkem max.

Zařízení autonomní detekce při požárech domácností v USA

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Transkript:

JAK NA ODHAD JOINPOINT REGRESE Šárka Hudecová E-mail: hudecova@karlin.mff.cuni.cz Adresa: KPMS MFF UK, Sokolovská 83, 186 00, Praha 8 Abstrakt: V příspěvku se zabýváme modelem joinpoint regrese, tj. modelem po částech lineární spojité závislosti. Tento model nachází zajímavá uplatnění v řadě oblastí. Pro jeho odhad byl vyvinut speciální software Joinpoint Regression Program, jehož metodologii a použití blíže popíšeme. Dále čtenáře seznámíme s knihovnou segmented, která je k dispozici v programu R. V obou případech uvedeme hlavní výhody a nevýhody daného softwaru a některé problémy, na něž může uživatel při práci narazit. Na několika datových souborech (simulovaných i reálných) provedeme praktické porovnání chování obou softwarů. Abstract: We deal with a joinpoint regression model, i.e. with a piecewise linear continuous regression. This model is common in many fields and finds various interesting applications. We give a description of the Joinpoint Regression Program, a special software developed for the estimation of the joinpoint regression models. The library segmented available in program R is presented as well. We provide a practical comparison of these two programs based on analyses of several data sets, simulated as well as real data. Advantages, disadvantages, and possible problems with estimation are discussed. 1. Úvod Regrese joinpoint (v literatuře také segmented regression, piecewise regression, broken line regression) je model, v němž je závislost odezvy na vysvětlující proměnné popsána po částech lineární spojitou funkcí. Ta mění svou směrnici v několika obecně neznámých bodech zlomu (transition points, break-points, change-points, joinpoints). V některých praktických situacích takovýto model vyvstává zcela přirozeně z podstaty sledovaného problému, jinde ho lze s úspěchem použít k přibližnému popsání komplikovanější nelineární závislosti. Výhodou joinpoint regrese je zejména snadná interpretace parametrů, která nám umožňuje velice jednoduše popsat změny ve sledované závislosti nebo trendu. Právě tato přímočará interpretace bývá často důvodem využití joinpoint modelu. Předpoklad spojitosti regresní funkce je v některých situacích přirozeně vyžadován, jinde zase usnadňuje interpretaci (nespojitost regresní funkce 1

by se obtížně zdůvodňovala odborné veřejnosti z daného oboru). Z teoretického hlediska je tento předpoklad důležitý, jelikož činí celý problém trochu složitějším, viz [15], [7]. Při hledání optimálního řešení je totiž potřeba zajistit, aby parametry modelu odpovídali spojité funkci. Modely po částech lineární regrese bez předpokladu spojitosti spadají do třídy tzv. change-point regresních modelů, blíže viz část 2. V mnohých aplikacích je velmi důležitá identifikace bodů zvratu, v nichž nastávají změny ve směrnici závislosti. Tyto body mají často velmi konkrétní (např. biologický, fyzikální, ekonomická, apod.) význam, jelikož v nich dochází ke strukturální změně sledované závislosti. Proto je nutné odhadu jejich počtu a polohy věnovat dostatečnou pozornost. V následujícím textu nejdříve uvedeme pár poznámek k teorii joinpiont regrese. Následně představíme několik vybraných zajímavých aplikací, kde se tento model objevuje. Poté popíšeme, jak lze joinpoint regresi odhadovat pomocí speciálního softwaru Joinpoint Regression Program, a zmíníme také vlastnosti knihovny segmented v programu R, kterou se ve svém příspěvku zabývá blíže prof. Anděl. Nakonec se pokusíme o stručné porovnání našich zkušeností s oběma softwary. 2. Několik poznámek k teorii V této části uvedeme několik poznámek k teorii spojité po částech lineární regrese s odkazy na literaturu zabývající se touto problematikou. Uvažujeme následující model závislosti proměnné Y na regresory x: E[Y ] = µ(x) = β 0 + β 1 x + δ 1 (x τ 1 ) + + δ 2 (x τ 2 ) + + + δ k (x τ k ) +, (1) kde τ 1 < < τ k jsou neznámé body zvratu, β 0, β 1, δ 1,..., δ k jsou neznámé parametry a ( ) + značí kladnou část. Předpokládáme, že střední hodnota µ(x) je spojitá funkce proměnné x. Model (1) budeme nazývat joinpoint model s k body zvratu. Počet zvratů k je pevné číslo zvolené na základě dřívějších zkušeností nebo pomocí některého ze statistických nástrojů, o kterých se blíže zmíníme v dalších odstavcích tohoto textu. Necht (x 1, Y 1 ),..., (x n, Y n ) jsou realizace modelu (1) a ε i = Y i µ(x i ) náhodné chyby. Modelem (1) se v literatuře zabývala řada autorů. Již pro případ k = 1, tj. pro model lineární funkce s jedním neznámým bodem zlomu τ, a normálně rozdělené nezávislé chyby se situace ukázala býti dosti komplikovaná. Prvotní práce proto většinou uvažovali dodatečné předpoklady upřesňující polohu bodu zvratu τ, viz např. [21]. Chceme-li totiž odhadovat a provádět testy o neznámých bodech zvratu, není možné automaticky použít standardní po- 2

stup založený na maximální věrohodnosti a je třeba postupovat s určitou obezřetností, viz [6]. Pro obecný případ modelu (1) Hudson v [9] navrhl dvoukrokovou metodu pro odhad parametru τ metodou nejmenších čtvreců (resp. maximálně věrohodný odhad v modelu s gaussovskými chybami). Hinkley v [8] následně modifikoval tento odhadovací postup pro k = 1 a ukázal, jak konstruoval věrohodnostní intervaly spolehlivosti pro parametry uvažovaného modelu. Test nulové hypotézy o nepřítomnosti změny v závislosti (tj. test δ 1 = 0) je zde konstruován na základě věrohodnostního poměru, přičemž je uvažováno F -rozdělení (namísto klasického χ 2 ) pro tuto statistiku. Feder v [5] ukázal, že rozdělení této statistiky je za nulové hypotézy komplikovanější a dokonce může záviset na rozložení x-ových souřadnic pozorovaných dat. Joinpoint regresi se dále věnovala celá řada dalších autorů. O některých pracích se blíže zmíníme v částech 4. a 5., kde budeme popisovat softwary založené na jejich metodologiích ([12],[15],[17]). Zde také popíšeme výhody a nevýhody jednotlivých postupů a blíže zmíníme problémy, na něž se zde naráží. Obsáhlejší výčet relevantních prací lze nalézt např. v [6] a [12]. Výše uvedený přehled prvotních výsledků má za úkol ilustrovat, že po teoretické stránce není joinpoint regrese jednoduchý problém, a to dokonce i v tom nejjednodušším případě. Problémy se zde neobjevují jenom při testování bodů zvratu, ale i při samotném jejich odhadu. V praxi se totiž občas stává, že je věrohodnostní funkce v okolí svého maxima poměrně dost plochá. Pak se může stát, že dosti rozličným bodům z parametrického prostoru odpovídají velmi podobné hodnoty věrohodnosti. Odhadovací algoritmy založené na prohledávání mřížky (grid search, viz [15] a naše část 4.) a jiné iterační postupy pak mohou vést k výsledkům, které se značně liší od optimálního řešení. Problematice odhadu (resp. testování) vhodného počtu zvratů k bylo v literauře věnováno o poznání méně prostoru. Volba k je většinou opomíjena nebo je doporučeno volit jej na základě některého z informačních kritérií, přičemž nejdoporučovanější je zřejmě BIC kritérium, které vede za určitých předpokladů ke konzistentnímu odhadu k. V článku [12] je pak výběr vhodného počtu bodů zvratu k založen na sekvenci permutačních testů, více viz naše část 4. Pro obsáhlejší přehled literatury viz [14]. Zde autoři provedli porovnání asymptotických vlastností jednotlivých metod a jejich chování na konečných (simulovaných) datech. Stručně lze shrnout, že BIC lépe odhalí menší změny, zatímco permutační test je spíše konzervativní a na menší změny nereaguje dostatečně citlivě. To má pak v praxi za následek, že BIC reaguje i na velmi malé změny a někdy tak navrhuje model s nesmyslně vysokým počtem bodů zvratů, který je v reálu nepoužitelný. Používání BIC by proto nemělo být automatické a finální model by měl být zvolen s přihlédnutím k apriorní znalosti 3

analyzovaného problému a následné interpretaci. V [23] byla pro odhad počtu zvratů navržena také modifikace BIC kritéria. Toto kritérium však v případě dat analyzovaných v části 6.1. a 6.2. vede k dosti bizardním výsledkům (model bez jediného joinpointu), a proto jej rozhodně nemůžeme doporučit. Již v úvodu jsme uvedli, že joinpoint model má blízko ke třídě tzv. changepoint regresních modelů. Zde je též uvažován model regresní závislosti, která v několika neznámých bodech mění svůj tvar, avšak bez předpokladu spojitosti výsledné křivky (který ale hraje z výpočetního hlediska důležitou roli). K této problematice existuje rozsáhlá literatura a byly pro ni odvozeny odhadovací a testovací metody založené na nejmodernějších statistických přístupech. Navíc, řada z významných prací vznikla na MFF UK v Praze, viz např. [1], [2]. Pro detailní přehled literatury viz např. [16]. V programu R je pro tyto modely k dispozici knihovna strucchange. Nakonec ještě poznamenejme, že každou po částech lineární spojitou funkci lze jistě dostatečně dobře aproximovat hladkou křivkou. Z tohoto pohledu by tedy bylo možné namísto joinpoint modelu uvažovat např. regresní polynom dostatečně vysokého stupně nebo vhodnou nelineární regresní křivku. Namísto ke skokovité změně směrnice by pak ke změně první derivace závislosti docházelo hladce. To ale v řadě aplikací, kde je joinpoint model používán, není žádoucí, protože je vyžadována právě identifikace onoho místa změny v závislosti. 3. Vybrané příklady aplikací Joinpoint regrese je aktuální téma, které nachází uplatnění v řadě oblastí, především v biostatistice, epidemiologii, biologii, chemii a dalších. Z konkrétních zajímavých aplikací jmenujme např. modelování pravděpodobnosti výskytu Downova syndromu u dítěte v závislosti na věku matky, viz [18] a náš obrázek 1, či sledování výskytu některých infekčních chorob, viz [3]. Další konkrétní příklady využití v různých odvětvích jsou uvedeny např. v [17]. Joinpoint model je velmi často využíván při sledování změn v trendu úmrtnosti a výskytu některých druhů onkologických onemocnění. Aplikace právě v tomto specifickém odvětví byla také hlavní motivací pro vznik metodologie navržené v práci [12], na jejímž základě byl vyvinut speciální software Joinpoint Regression Program, o němž se blíže zmíníme v části 4. Autoři Kim a kol. v [12] ukazují jako příklad aplikaci joinpoint modelu na data úmrtnosti a výskytu rakoviny prostaty v čase. Je obecně známo, že výskyt tohoto typu rakoviny zaznamenal v posledních letech výrazné změny, a to především z důvodu zavedení screeningového testu PSA (prostate specific antigen). Zavedení jakéhokoliv obdobného testu má vždy za následek 4

Logit pravděpodobnosti Down. syndromu 7 6 5 4 odhadnutý model int. spol. pro bod zvratu 20 25 30 35 40 45 Věk matky Obrázek 1: Logit pravděpodobnosti výskytu Downova syndromu dítěte v závislosti na věku matky. Odhadnutý model byt spočten v programu R funkcí segmented. nejdříve rapidní zvýšení výskytu choroby (o případy, které by jinak byly objeveny mnohem později) časem následované poklesem. Joinpoint model umožňuje detekovat tyto právě popsané změny v trendu a následně pak lépe porozumět některým nepozorovatelným charakteristikám PSA testu jako jsou např. tzv. lead time (o jaký čas dříve je choroba odhalena pomocí tohoto testu než by byla objevena standardními technikami) a overdiagnosis (irelevantní diagnóza choroby, která by nikdy nevytvořila symptomy a nevedla by k úmrtí). Joinpoint model odhadnutý pro data úmrtnosti umožňuje naopak popsat benefity PSA screeningu. Dalo by se namítnout, že pro příslušná data by bylo možné použít i sofistikovanější statistické modely. Skutečností však je, že joinpoint regrese je jednou z doporučovaných analytických metod na webu National Cancer Institute of USA, viz [20]. Je proto možné dohledat stovky medicínských článků s onkologickou tematikou, které používají právě tento model. Zajímavé využití joinpoint regrese lze nalézt také v článku [19], kde je spojitá po částech lineární funkce použita k modelování chování počtu ci- 5

Statistické časopisy Časopisy JCO Počet citací 0 100 300 500 50 % kvantil 75 % kvantil 95 % kvantil 99 % kvantil Počet citací 0 100 300 500 50 % kvantil 75 % kvantil 95 % kvantil 99 % kvantil 5 10 15 20 Rok od publikace 2 4 6 8 10 12 14 Rok od publikace Obrázek 2: Některé vyběrové kvantily počtu citací pro přední statistické časopisy a pro články z časopisu Journal of Clinical Oncology (JCO). Můžeme pozorovat rozdílné trendy v čase. tací statistických článků v závislosti na počtu let od publikace. Nejprve jsou analyzovány rozdílnosti v trendu počtu citací v čase pro přední statistické časopisy ve srovnání s časopisem Journal of Clinical Oncology (JCO), viz obrázek 2. Dále je joinpoint model aplikován přímo na jednotlivé nejvíce citované statistické články a jsou zachycené různé trendy chování v čase. Zájemce o tento problém odkážeme na www.beststatisticalpractices.org, kde je k dispozici jak článek [19], tak i aktualizovaný seznam nejvýznamnějších (ve smyslu nejvyššího počtu tzv. aplikovaných citací) statistických článků. K této aplikaci joinpoint modelu si dovolíme několik poznámek. Jeho použití pro články z časopisu JCO se zdá být oprávněné, jelikož oba softwary námi popisované v částech 4. a 5. zde docházejí k víceméně stejným výsledkům modelu s jedním bodem zvratu. Na druhou stranu pro případ statistických článků není situace tak jednoduchá a interpretace uvedená v [19] může být možná i mírně zavádějící. Na základě naší analýzy se zdá, že v [19] je menší nesrovnalost v modelu pro 99% kvantil počtu citací statistických článků, kde se zdá být jednoduchá lineární závislost dostačující (namísto uvedeného modelu s jedním zvratem). 6

4. Software Joinpoint Regression Program Kim a kol. ve sve m c la nku [12] navrhujı postup, na jehoz za klade lze urc it poc et bodu zvratu a odhadnout parametry joinpoint modelu, vc etne polohy bodu zvratu. Metoda je navrz ena jak pro standardnı situaci, kdy jsou regresnı chyby nekorelovane na hodne velic iny s konstantnı m rozptylem, tak i pro pr ı pad heteroskedasticky ch a autokorelovany ch chyb. Tı m je umoz ne na mj. pra ce s poissonovsky mi odezvami, coz je vy hodne zejme na pro modelova nı vy skytu ne jake ho jevu (napr. choroby) nebo u mrtnosti v c ase. Identifikace poc tu bodu zvratu je zaloz ena na sekvenci ne kolika permutac nı ch testu zaloz eny ch na modifikaci klasicke F-statistiky 1. Tyto testy dosahujı pr edepsane hladiny spolehlivosti asymptoticky a jejich p-hodnoty jsou spoc teny pomocı Monte Carlo metody. Mnohona sobne testova nı je os etr eno Bonferroniho korekcı. Parametry modelu jsou odhadova ny metodou grid search navrz enou v c la nku [15]. Body zvratu jsou nalezeny iterac ne (prohleda va nı m mr ı z ky) a odhad ostatnı ch regresnı ch parametru je proveden metodou nejmens ı ch c tvercu, resp. va z eny ch nejmens ı ch c tvercu. Obra zek 3: Joinpoint Regression Program: vstupnı dialog (vlevo) a vy stupnı dialog (vpravo). Na za klade vy s e popsane metodiky byl vyvinut software Joinpoint Regression Program (v dals ı m jen JRP) pro odhad joinpoint modelu, viz [11]. Tento program je k dispozici zdarma po zaregistrova nı se na webove stra nce http://surveillance.cancer.gov/joinpoint/. Jak jsme jiz zmı nili v c a sti 3., tento program je jednı m z doporuc eny ch analyticky ch na stroju pro pra ci 1 Pro pr ehled vyuz itı permutac nı ch pr ı stupu v analy ze change-point modelu viz [10]. 7

s daty úmrtnosti a výskytu onkologických onemocnění na webu National Cancer Institute of USA, viz [20]. Software JRP víceméně vznikl pro tyto potřeby, takže se nejvíce hodí pro modelování nějaké proměnné sledované v pravidelných intervalech v čase. Pro složitější modely s více proměnnými není (zatím) velmi přizpůsoben. V současné době (8. prosince 2011) je k dispozici verze 3.5.2, která již zaznamenala několik vylepšení a rozšíření oproti článku [12]. Kromě permutačního testu je možné vybrat finální model na základě BIC nebo modifikovaného BIC kritéria (jejich porovnání jsme již stručně uvedli v části 2., viz také [14]). Odhad parametrů lze provádět jak metodou grid search, tak i pomocí Hudsonovy metody, viz [9]. O těchto dvou možnostech se blíže zmíníme v následujícím textu. Dále je možné statisticky porovnat joinpoint model pro dvě skupiny dat. Konkrétně je k dispozici test paralelnosti a identity založený na metodě popsané v [13]. Upravena je také korekce pro vícenásobné testování, které je nyní méně konzervativní než původně použitá Bonferroniho korekce, viz [14]. JRP běží pod operačním systémem Windows (Windows 95 a novější). Je uživatelsky velice pohodlný a přehledný, viz obrázek 3. Uživatel zvolí zakliknutím, zda chce modelovat přímo závisle proměnnou nebo její logaritmus, a vybere, zda je uvažován model s konstantním rozptylem nebo model heteroskedastický. Zde uživatel bud sám specifikuje směrodatnou odchylku, nebo vybere model s předpokládaným Poissonovým rozdělením. Následně zvolí minimální a maximální počet bodů zvratu, který má být uvažován, metodu odhadu parametrů (grid search nebo Hudsonovu), kritérium pro výběr nejlepšího modelu (permutační test, BIC, modifikované BIC) a počet Monte Carlo simulací pro výpočet p-hodnoty permutačního testu. Defaultní nastavení je grid search a permutační test založený na 4499 simulacích (test je tedy pak založen na 4500 výběrech). Kromě toho je možné odhadovat model s autokorelovanými chybami a regulovat některé další parametry. Výstup z programu je opět uživatelsky velmi pohodlný a přehledný, viz obrázek 3. Umožňuje prohlédnout si výsledky (graf a tabulky výsledků) pro všechny uvažované počty bodů zvratu. Všechny části výstupu (graf, vyrovnané hodnoty, odhady parametrů i výsledky jednotlivých permutačních testů) je možné exportovat. Příklad toho, jak vypadá graf exportovaný z JRP vložený do LaTeXu, je uveden na obrázku 4. Pro odhad modelu je k dispozici metoda grid search (prohledávání mřížky) a Hudsonova metoda. Metoda grid search defaultně předpokládá bod zvratu v x-ové souřadnici některých z pozorovaných dat. Za této omezující podmínky však nedostaneme optimální řešení. Lepšího výsledku lze dosáhnout zjemněním mřížky, což je možné dosáhnout vhodnou volbou příslušného 8

Obra zek 4: Joinpoint model pro za vislost vy skytu rakoviny tluste ho str eva u muz u v pru be hu let parametru (maxima lne vs ak 9 bodu mezi x-ove sour adnice jednotlivy ch pozorova nı ). Druhou alternativou je Hudsonova dvoukrokova metoda navrz ena v [9], kterou jsme jiz struc ne zmı nili v c a sti 2. Ta procha zı pr ı slus ne parametricke prostory spojite, viz [22], takz e vede ke skutec ne optima lnı mu r es enı, ktere je vz dy leps ı (resp. nenı hors ı ) nez r es enı obdrz ene metodou grid search. V tomto pr ı pade lze ale vybı rat z modelu s maxima lne c tyr mi zvraty (vı ce by jiz bylo zr ejme vy poc etne neu nosne ). Oba pr ı stupy jsou v kombinaci s prova de nı m permutac nı ho testu pro vy be r vhodne ho poc tu bodu zvratu dosti c asove na roc ne. Vy poc et Hudsonovou metodou pak mu z e trvat i ne kolik hodin, pouz itı grid search zabere r a dove ne kolik minut nebo i me ne. Pr i vy be ru BIC krite ria nebo modifikovane ho BIC (ktere vs ak rozhodne nedoporuc ujeme) trva vy poc et ne kolik vter in. Za sadnı nevy hodou softwaru JRP je skutec nost, z e umoz n uje pracovat pouze s modelem s jednou neza visle prome nnou. To mu z e by t v praxi dosti limitujı cı. Du vodem je skutec nost, z e byl navrz en pro sledova nı vy skytu onkologicky ch onemocne nı v c ase a v pr ı slus ny ch modelech je jedna neza visle prome nna (c as) ve ts inou dostac ujı cı. Vzhledem k tomu, z e vy voj JRP sta le probı ha a objevujı se nova vyleps enı a funkce, je moz ne, z e se c asem doc ka me i rozs ı r enı umoz n ujı cı pra ci s bohats ı mi modely. 9

Program JRP lze využít pro práci s lineárním nebo loglineárním modelem. Pro případ joinpoint logistické regrese byla metodologie z [12] modifikována v článku [3], který také nabízí alternativní způsob odhadu parametrů (pomocí podmíněné věrohodnostní funkce) a je na něm založena knihovna ljr v programu R. 5. Knihovna segmented v programu R V programu R je pro odhad po částech lineární spojité regresní funkce k dispozici knihovna segmented, která je popsána v [18] a jejíž metodika je založena na článku [17]. Zde se dočteme, že knihovna umožňuje odhadovat joinpoint model pro celou třídu zobecněných lineárních modelů, přičemž je možné pracovat s více vysvětlujícími proměnnými. Odhad modelu je proveden následujícím trikovým iteračním postupem, který však bohužel v praxi často selhává. Uvažujme, že chceme odhadnout joinpoint model, který má zlom v bodě ψ, ve kterém se směrnice mění z β 1 na β 2 = β 1 + δ 1, tj. model y = β 0 + β 1 x + δ 1 (x ψ) +. (2) V práci [17] je ukázáno, že jestliže ψ je počáteční odhad bodu zvratu ψ, pak model (2) je možné odhadnout iterativním odhadováním následujícího lineárního modelu y = β 0 + β 1 x + δ 1 (x ψ) + γi(x > ψ), (3) kde I( ) je identifikátor a γ je parametr, který měří nespojitost v bodě zvratu a pomocí něhož je přepočítáván odhad ψ, viz obrázek 5. Jestliže algoritmus konverguje, pak by výsledná regresní funkce měla být spojitá, tj. ˆγ 0. Zobecnění postupu pro více bodů zvratu je zřejmá. Počáteční hodnoty bodů zvratu se doporučuje volit na základě posouzení grafického znázornění sledované závislosti. Autor knihovny segmented v [17] prohlašuje, že stejný postup lze použít i pro třídu zobecněných lineárních modelů nebo modely přežítí obecně pro jakýkoliv regresní model s lineárním prediktorem. Blíže se však touto otázkou nezabývá. Jak jsme uvedli v části 2., odhady a testování bodů zvratu není snadná problematika ani v nejjednodušším případě lineárního modelu s jedním zvratem a nezávislými normálními chybami, viz např. [8], [6]. Detekce změn v zobecněných lineárních modelech je ještě o poznání komplikovanější z důvodu měnícího se rozptylu. O tomto aspektu se však autor knihovny segmented nijak nezmiňuje. 10

5 10 15 β 1 γ β 2 = β 1 + δ 1 β 0 + β 1 x β 0 + β 1 x + δ 1 (x ψ) + γi(x > ψ) ψ 5 10 15 20 Obrázek 5: Model, pomocí něhož je iterativně odhadnuta joinpoint regrese funkcí segmented Knihovna segmented se nijak nezabývá odhadem počtu bodů zvratu. V manuálu je uživateli doporučeno použít BIC kritérium nebo apriorní znalost problému pro výběr vhodného počtu bodů zvratu. O možných nevýhodách BIC kritéria jsme se již zmínili v sekci 2. K dispozici je také test nazvaný davies.test vycházející z obecného článku [4], který je zde aplikován na test hypotézy H 0 : δ 1 = 0 (podrobnosti viz [18]). Tento test je však spíše konzervativní a rozhodně jej nelze doporučit pro výběr počtu bodů zvratu. Při práci s knihovnou segmented může uživatel narazit na různé problémy. Věrohodnostní funkce v joinpoint modelu nemusí být konkávní, takže algoritmus nemusí nalézt globální maximum. Doporučuje se proto spustit program pro několik různých počátečních hodnot parametru ψ. Samozřejmě, čím výraznější je skutečná změna ve směrnici, tím menší je význam počáteční volby ψ. Dostaneme-li různé hodnoty odhadů bodů zvratu, je možné požádat program o výpis věrohodnosti odpovídající jednotlivým modelům a ručně vybrat ten nejvhodnější. V případě, kdy je věrohodnostní funkce v okolí svého maxima plochá, mohou různým bodům parametrického prostoru odpovídat 11

téměř identické hodnoty logaritmické věrohodnosti. Pak může popsaný algoritmus vést k většímu množství kandidátních modelů v závislosti na počáteční volbě ψ. Uživatel pak jen stěží zvolí ten správný. Dalším problémem je situace, kdy algoritmus nekonverguje vůbec, na což nás program upozorní varovnou hláškou (byl dosažen maximální počet iteračních kroků). Navýšení počtu povolených iterací většinou problém nevyřeší, jelikož tato situace nastává často v případě, kdy minimalizovaná funkce (reziduální součet čtverců) alternuje mezi dvěma různými hodnotami. Jednou možností nápravy je (jak navrhuje manuál) zmenšení přírůstku, který se mezi jednotlivými kroky připočítává k dosavadnímu odhadu bodu zvratu. To ale bohužel problém dost často neřeší a konvergence není dosažena ani po této změně nastavení. V takovém případě program sice jakýsi odhad poskytne, jedná se ale o nespojitou funkci. Autor [18] upozorňuje, že jestliže konvergence není dosažena automaticky nebo v případě, kdy obdržíme různé výsledky pro různá počáteční nastavení parametru ψ, může být parametrizace joinpoint modelem pro daná data diskutabilní. Doporučuje pak test přítomnosti bodu zvratu (výše zmíněný davies.test) nebo posouzení BIC kritéria. Jak však ukazuje naše analýza simulovaných dat, viz část 6.1., tyto problémy mohou nastat i v případě dat generovaných z joinpoint modelu. Ještě nepříjemnější je však situace, kdy se program tváří, že odhad proběhl v pořádku, ale výsledkem odhadu je nespojitá funkce. Bohužel, i s takovou situací se může setkat uživatel knihovny segmented, viz náš příklad s reálnými daty v části 6.2. V manuálu o tomto problému není ani zmínka. Uživatel by pak bez důkladné inspekce grafického znázornění odhadnuté závilosti (nebo algebraického přepočítání průsečíků) nemusel tuto závadu vůbec odhalit, což by mohlo být následně dosti závažné. 6. Porovnání Některé rozlišnosti softwaru JRP a knihovny segmented již byly popsány výše. Připomeňme, že JRP oproti segmented umožňuje testovat počet bodů zvratu pomocí permutačních testů a práci s autokorelovanými chybami. Na druhou stranu v něm lze pracovat jen s modely s jednou nezávisle proměnnou. Knihovna segmented je schopna pracovat (byt ne vždy s úspěchem) s obecnějšími modely (zobecněné lineární modely, Coxův model přežití apod.). Metody dohadů parametrů se taktéž liší. Jak jsme uvedli v části 4., program JRP defaultně předpokládá body zvratu v některé z x-ových souřadnic naměřených dat, což však nevede k optimálnímu řešení. Tento předpoklad lze změnit volbou Hudsonovy odhadovací 12

metody, která již dává optimální odhad. V následujících příkladech ukážeme výsledky pro Hudsonovu metodu, přičemž pro volbu vhodného počtu bodů zvratu byla použita sekvence permutačních testů. Je však třeba upozornit, že takový výpočet trvá na běžném počítači i několik hodin (volí-li program mezi 0 až 4 body zvratu). Nyní uvedeme porovnání chování obou softwarů na několika konkrétních datových souborech. 6.1. Analýza simulovaných dat V článku prof. Anděla byl proveden odhad joinpoint modelu v programu R funkcí segmented pro simulovaná data. Připomeňme, že se jedná o data generovaná z modelu Ey = 2 + x 1.5 (x 10) + + 0.5 (x 20) + (x 26) + s nezávislými gausovskými chybami. Pro model s chybami se směrodatnou odchylkou 0.4 probíhá všechno bez problému, avšak pro případ chyb se směrodatnou odchylkou 0.6 již algoritmus nekonverguje. Zvolení menšího kroku nebo nastavení vyššího počtu iterací problém neřeší. Měníme-li dostatečně vytrvale startovací hodnoty pro joinpoint body zvratu, pak pro volbu (11, 17, 29) lze dosáhnout konvergence k poněkud nesprávnému modelu, který má zvraty v bodech 4.6, 10.1 a 29.8. Pro nastavení (8, 15, 27) zase dostaneme model se zvraty v bodech 9.8, 27.6 a 30.4. Z porovnání věrohodnostní funkce bychom mohli dojít k závěru, že první ( špatný ) model je o něco lepší než druhý zmíněný ( špatný ) model. Nicméně, oba se jistě liší od skutečného modelu, viz obrázek 6. Pro vyšší hodnoty směrodatné odchylky (0.8, 1 a 1.2) je situace podobná až horší. Stejná data jsme analyzovali také v programu JRP. Pro pozorování se směrodatnou odchylkou 0.4 dostáváme prakticky identické výsledky (rozdíly v odhadech se objevují až na pátém desetinném místě). Pro model se směrodatnou odchylkou 0.6 JRP odhadne tři body zvratu (10.5, 21.1 a 27), bodové odhady směrnic jsou 0.95, 0.58, 0.07, 1.04. JRP dále úspěšně zvládne i situace, kdy je směrodatná odchylka zvolena jako 0.8 a 1. Např. pro data simulovaná s rozptylem 1 permutační test vybere model se třemi body zvratu 10.8, 20.6 a 27 a bodové odhady směrnic jsou 0.92, 0.63, 0.02, 1.00. Pro případ dat generovaných se směrodatnou odchylkou 1.2 již permutační test navrhuje model pouze s jedním bodem zvratu v bodě 10.3, kde se směrnice mění z 0.90 na 0.45. Na základě těchto výsledků lze konstatovat, že pro uvedená simulovaná data dává program JRP (permutační test a Hudsonova metoda) lepší 13

y 2 4 6 8 10 12 skutečný model model s poč. volbou (10,20,26) model s poč. volbou (8,15,27) 0 5 10 15 20 25 30 x Obrázek 6: Dva špatné modely pro simulovaná data se směrodatnou odchylkou 0.6 v porovnání se skutečným modelem výsledky než knihovna segmented v R. 6.2. Analýza výskytu rakoviny tlustého střeva Na internetových stránkách softwaru JRP, viz [11], jsou k dispozici data o výskytu rakoviny tlustého střeva v USA v letech 1973 2002 pocházející z databáze SEER (Surveillance Epidemiology and End Results), viz [20]. Ke každému roku je k dispozici počet případů, velikost populace, výskyt choroby měřený pomocí AAR (age adjusted rate) a spočtená směrodatná chyba (spočteno v SEER), která se využívá pro výpočet vah v heteroskedastickém modelu. Data jsou k dispozici jak zvlášt pro muže a ženy, tak i bez rozlišení. Je uvažován heteroskedastický model závislosti logaritmu AAR na roku diagnózy s nekorelovanými chybami. Porovnejme výsledky JRP a segmented pro soubor mužů. Vybíráme-li mezi modely s nula až čtyřmi body zvratu (více není pro Hudsonovu metodu v JRP možné), vybere JRP jako nejlepší model se čtyřmi body zvratu. Výsledné proložení je uvedeno na obrázku 4. Konkrétní odhady 14

log(aar) 4.10 4.20 4.30 pozorování odhadnutý model int. spol. pro bod zvratu 1975 1980 1985 1990 1995 2000 Rok Obrázek 7: Odhadnutý nespojitý model z programu R pro data výskytu rakoviny tlustého střeva u mužů parametrů zde uvádět nebudeme. Stejný model se čtyřmi body zvratu se pokusíme odhadnout v programu R funkcí segmented. Zadáme proto stejné váhy v JRP a zvolíme počáteční hodnoty bodů zvratu např. jako 1985, 1989, 1994 a 1998. Algoritmus v tomto případě konverguje ve čtyřech krocích a všechno se zdá být v pořádku, viz výstup uvedený v tabulce 1. Když si ovšem necháme vykreslit graf odhadnuté funkce, zjistíme, že je nespojitá. To je patrné z obrázku 7. Navíc lze spočítat, že odhadnuté body zvratu skutečně nejsou průsečíky jednotlivých odhadnutých přímek. Takový výsledek lze jen stěží považovat za uspokojivý. Poznamenejme ještě, že stejný problém nastává i pro model s méně body zvratu. Proto pro případ těchto reálných je určitě vhodnější použití softwaru JRP než knihovny segmented. 7. Závěr V našem příspěvku jsme se pokusili podat stručný přehled toho, k čemu joinpoint model v praxi slouží a jak jej lze odhadovat. Naznačili jsme, že 15

***Regression Model with Segmented Relationship(s)*** Call: segmented.lm(obj = mod1, seg.z = ~year, psi = list(year = c(10, 16, 21, 25) + 1973), control = seg.control(display = T, it.max = 20, h = 0.001)) Estimated Break-Point(s): Est. St.Err psi1.year 1985 0.5260 psi2.year 1991 0.6866 psi3.year 1995 0.3139 psi4.year 1997 0.2435 t value for the gap-variable(s) V: 1.1032e-13 1.6078e-13 2.6054e-13 2.3227e-13 Meaningful coefficients of the linear terms: Estimate Std. Error t value Pr(> t ) (Intercept) -1.835e+01 1.816e+00-10.108 2.64e-09 *** year 1.145e-02 9.174e-04 12.477 6.81e-11 *** U1.year -2.400e-02 3.559e-03-6.745 NA U2.year -2.035e-02 4.840e-03-4.205 NA U3.year 7.115e-02 1.513e-02 4.701 NA U4.year -6.547e-02 1.510e-02-4.336 NA --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.837 on 20 degrees of freedom Multiple R-Squared: 0.9859, Adjusted R-squared: 0.9795 Convergence attained in 4 iterations with relative change -3.496302e-15 Tabulka 1: Výsledek funkce summary pro joinpoint model se čtyřmi body zvratu pro data výskytu rakoviny tlustého střeva u mužů 16

z teoretického hlediska se nejedná o snadné téma a výzkum v této oblasti je stále aktuální. Provedli jsme porovnání softwaru Joinpoint Regression Program a knihovny segmented z programu R. Z tohoto souboje nevychází ani jeden jako jasný vítěz. JRP bohužel umožňuje pracovat pouze s poměrně jednoduchými modely s jedinou nezávisle proměnnou. V případech, kdy se s takovým modelem spokojíme, však lze tento program z uživatelského hlediska doporučit. Naproti tomu segmented dává v některých případech neuspokojivé výsledky, viz odstavec 6.2.. Z tohoto důvodu bychom potenciálním uživatelům určitě doporučili obezřetnost při práci s touto knihovnou. Jak jsme uvedli v části 2., joinpoint model má blízko k change-point regresním modelům, o kterých existuje rozsáhlá literatura, viz [16]. V případě, kdy spojitost regresní funkce není vyžadována, je proto možné použít některou z metod vyvinutých pro tuto třídu modelů. Některé z nich jsou v programu R implementovány v knihovně strucchange. Poděkování: Práce byla podpořena výzkumným záměrem MSM 0021620839 Metody moderní matematiky a jejich aplikace. Autorka je vděčná prof. J. Antochovi a prof. M. Huškové za jejich cenné připomínky. Reference [1] Antoch, J.; Hušková, M.: Permutation tests in change point analysis. Statist. Probab. Lett., ročník 53, 2001: s. 37 46. [2] Antoch, J.; Hušková, M.; Prášková, Z.: Effect of dependence on statistics for determination of change. J. Statist. Plann. Inferenc, ročník 60, č. 2, 1997: s. 291 310. [3] Czajkowski, M.; Gill, R.; Rempala, G.: Model selection in logistic joinpoint regression with applications to analyzing cohort mortality patterns. Stat.Med., ročník 27, č. 9, 2008: s. 1508 1526. [4] Davies, R.: Hypothesis testing when a nuisance parameter is present only under the alternative. Biometrika, ročník 74, 1987: s. 33 43. [5] Feder, P.: The log likelihood ration in segmented regression. Ann. Statist., ročník 3, 1975: s. 84 97. [6] Feder, P.: On asymptotic distribution theory in segmented regression problems identified case. Ann. Statist., ročník 3, 1975: s. 49 83. [7] Hawkins, D. M.: Point estimation of the parameters of piecewise regression models. Appl. Statist., ročník 25, 1976: s. 51 57. 17

[8] Hinkley, D. V.: Inference in two-phase regression. J. Amer. Statist. Assoc., ročník 66, č. 336, 1971: s. 736 743. [9] Hudson, D.: Fitting segmented curves whose join points have to be estimated. J. Amer. Statist. Assoc., ročník 61, 1966: s. 1097 1129. [10] Hušková, M.: Permutation principle and bootstrap in change point analysis. In Asymptotic Methods in Stochastics, Fields Institute Communications, ročník 44, editace M. Csörgö; L. Horváth; B. Szyszkowicz, 2004, s. 273 291. [11] Joinpoint Regression Program: Version 3.5 April 2011. Statistical Methodology and Applications Branch and Data Modeling Branch, Surveillance Research Program National Cancer Institute, 2011, web page http://surveillance.cancer.gov/joinpoint/. [12] Kim, H. J.; Fay, M. P.; Feuer, E. J.; aj.: Permutation tests for joinpoint regression with applications to cancer rates. Stat. Med., ročník 19, 2000: s. 335 351, correction 2001, 20, 655. [13] Kim, H.-J.; Fay, M. P.; Yu, B.; aj.: Comparability of segmented line regression models. Biometrics, ročník 60, č. 4, 2004: s. 1005 1014. [14] Kim, H.-J.; Yu, B.; Feuer, E. J.: Selecting the number of change-points in segmented line regression. Statist. Sinica, ročník 19, 2009: s. 597 609. [15] Lerman, P.: Fitting segmented regression models by grid search. Appl. Statist., ročník 29, 1980: s. 77 84. [16] Marušiaková, M.: Tests for multiple changes in linear regression models. Dizertační práce, Charles University in Prague, 2009. [17] Muggeo, V. M. R.: Estimating regression models with unknown breakpoints. Stat.Med., ročník 22, 2003: s. 3055 3071. [18] Muggeo, V. M. R.: segmented: An R package to fit regression models with broken-line relationships. R News, ročník 8, č. 1, 2008: s. 20 25. [19] Schell, M. J.: Identifying key statistical papers from 1985 to 2002 using citation data for applied biostatisticians. Amer. Statist., ročník 64, č. 4, 2010: s. 310 317. [20] SEER: The Surveillance, Epidemiology, and End Results Program. National Cancer Institute, web page http://seer.cancer.gov/. 18

[21] Sprent, P.: Some hypotheses concerning two-phase regression lines. Biometrics, ročník 17, 1961: s. 634 45. [22] Yu, B.; Barrett, M.; Kim, H.-J.; aj.: Estimating Joinpoints in Continuous Time Scale for Multiple Change-Point Models. Comput. Statist. Data Anal., ročník 51, 2007: s. 2420 2427. [23] Zhang, N. R.; Siegmund, D. O.: A modified Bayes information criterion with applications to the analysis of comparative genomic hybridization data. Biometrics, ročník 63, 2007: s. 22 32. 19