ROBUST 2004 c JČMF 2004 ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK Ivan Žežula, Daniel Klein Klíčová slova: Mnohorozměrný lineární model, simulace. Abstrakt: Příspěvek se zabývá dvěmi variantami modelu růstových křivek replikovaným modelem a modelem se speciálními variančními strukturami a zkoumá chování odhadů parametrů v případě porušení předpokladů, zejména normality rozdělení. 1 Motivace a popis modelu Model růstových křivek vznikl při analýze anatomických dat: na jisté zubní klinice byl sledován vývoj vzdálenosti středu hypofýzy od pterygomaxilární brázdyuchlapcůaděvčat.otázkoubylo,zdatatovzdálenostjeuděvčat menšínežuchlapcůazdarychlostrůstujestejná.získanádatajsouna obrázku. Silnou čarou je vyznačen průměr; jeho průběh ukazuje, že růst má zhruba lineární trend. Na první pohled to vypadá jako dvě nezávislé regrese. Potthoff a Roy sivšakuvědomili,žeobasoubory vzhledemkokolnostemvzniku mají stejnou varianční matici. Proto navrhli společný model, který tuto skutečnost zohledňoval: EY = XBZ var(vec Y)=Σ I Tento model přirozeným způsobem spojuje regresní analýzu s analýzou rozptylu matice X je maticí analýzy rozptylu, Z maticí regresních konstant. Neznámé parametry jsou v maticích B(regresní koeficienty pro jednotlivé skupiny) a Σ(variance a kovariance pro jednotlivé časy pozorování). Později se tento model dočkal mnoha dalších aplikací i rozšíření. Z těchto aplikací vyplynuly různé struktury varianční matice Σ:
444 Ivan Žežula, Daniel Klein obecná p.d. matice Σ= θ i V i, V i známé rovnoměrná varianční struktura, t.j. Σ=σ 2 ((1 ρ)i+ ρ11 ) seriální varianční struktura, t.j. 1 ρ... ρ p 1 Σ=σ 2 ρ 1... ρ p 2......... ρ p 1 ρ p 2... 1 Všimněmesi,žerozkladΣ= θ i V i jezcelaobecnýazahrnujevšechny ostatnípřípady.např.obecnoumaticiσlzenapsatvetvaruσ= i σ iie i e i + i<j σ ( ij ei e j + e ) je i,kde ei jsoujednotkovévektory(t.j.obsahující1na i-témmístěa0jinde). Při praktickém použití modelu se však setkáváme s některými problémy. K odhadu B totiž potřebujeme znalost Σ: ˆB=(X X) 1 X YΣ 1 Z ( ZΣ 1 Z ) 1. To přináší dva okruhy otázek: Jednak, jak odhadnout Σ resp. její komponenty? A následně, jak se změní jeho vlastnosti odhadu B, jestliže Σ odhadneme? Specielně, o kolik vzroste jeho rozptyl? V tomto směru již bylo dosaženo mnoha výsledků. Především je známo, že v obecné situaci, při rozkladu Σ na varianční komponenty, existují stejnoměrně nejlepší odhady jen v triviálních případech. Tedy ve většině případů můžeme použít buď jen maximálně věrohodné odhady(pro něž většinou neexistují explicitní vzorce, počítají se pouze numericky a známe jen asymptotické vlastnosti) anebo lokálně nejlepší odhady(u nichž sice známe explicitní vzorce, ale zase musíme dobře vědět, v kterém bodě parametrického prostoru je počítat). Stejnoměrně nejlepší odhad existuje v jednom důležitém případě: když Σ je zcela neznámá. Částečná znalost varianční struktury situaci komplikuje. Lokálně nejlepší odhady variančních komponent θ mohou být navíc závislé na hodnotě B dochází pak ke kruhové závislosti. Proto důležitosti nabývají odhady invariantní, které na B nezávisí; i pro ně jsou známé explicitní vzorce, odhady však nemusí vždy existovat. V případě odhadovánípouze σ 2 a ρznámenestrannéodhadovérovniceproobaparametry. Ve všech těchto případech je odhad B asymptoticky nestranný. Podrobněji o těchto modelech viz např.[1],[3].
Robustnost v modelu růstových křivek 445 2 Replikovaný model Tento model byl vytvořen k oslabení závislosti lokálně nejlepších odhadů na volbě počátečního bodu. Obsahuje nezávislá opakování měření ze základního modelu: Y j = XBZ+ e j, j=1,...,s Varianční struktura přitom zůstává stejná. Odhad B je také prakticky stejný, jako v základním modelu: ˆB=(X X) 1 X ȲΣ 1 Z ( ZΣ 1 Z ) 1. Odhady variančních komponent v tomto modelu vždy existují. Výsledky z tohoto modelu jsou shrnuty v[4]. Dřívější simulace(viz[5]) ukázaly rychlou konvergenci odhadů k známému asymptotickému rozdělení. Nás zajímal problém robustnosti odhadů v tomto modelu. Všechny známé výsledky jsou totiž založeny na předpokladu normality. Je tedy přirozené se ptát, co se stane, když rozdělení chyb není normální? Podobnou otázkou je: co se stane s odhady, když chyby nemají nulovou střední hodnotu, t.j. když pozorování obsahují systematickou chybu? K tomuto účelu jsme provedli rozsáhlou simulační studii. Uvažovali jsme přitom různě složité modely střední hodnoty(polynomy 1. až 3. stupně) a různě složité modely varianční struktury: 1. Σobecnáp.d.matice 2. Σ s konstantními diagonálami 3. Σsedvěmikomponentami(Σ=θ 1 V+ θ 2 I) Uvažovaná chybová rozdělení byla následující: 1. normální,alesesystematickouchybou(µ 0) 2. směs normálního a exponenciálního 3. různé formy beta rozdělení
446 Ivan Žežula, Daniel Klein 4. Laplaceovo rozdělení Všechna rozdělení s výjimkou 1) byla posunuta tak, aby měla nulovou střední hodnotu. Výsledky simulací: Následujícívybranégrafyzobrazujíempirickérozdělenístatistiky χ 2 (kteráměřícelkovouvzdálenostododhadu Bkjehoskutečnéhodnotě)prorůzné hodnoty s. Počet replikací roste zezadu dopředu, zcela vpředu je asymptotické rozdělení. Kvadratická závislost, Σ obecná, normální rozdělení Kvadratická závislost, Σ se 2 komponentami, normální rozdělení
Robustnost v modelu růstových křivek 447 Lineární závislost, Σ obecná, rozdělení B(0.5,6) Lineární závislost, Σ se 2 komponentami, rozdělení B(0.5,6) Kubická závislost, Σ obecná, rozdělení B(2,2) Kubická závislost, Σ s konstatními diagonálami, rozdělení B(2,2) Kubická závislost, Σ se 2 komponentami, rozdělení B(2,2) V případě nenulovosti střední hodnoty chyby t.j. existence systematické chyby grafy neuvádíme, jelikož odhady ležely daleko od skutečných hodnot a s rostoucím počtem replikací divergovaly do nekonečna. Lze tedy udělat následující závěry: Model je silně citlivý na přítomnost systematické chyby Ve všech ostatních případech je konvergence k asymptotickému rozdělení velmi rychlá Rychlost konvergence je nepřímo úměrná počtu odhadovaných parametrů 3 Speciální varianční struktury Dále jsme zkoumali robustnost základního modelu s rovnoměrnou a seriální strukturou(t.j.bezreplikací).odhadyˆσ 2 aˆρproobamodelyjsouuvedeny v[6];porovnejtakés[2].voboumodelechnáspředevšímzajímalo,jakse projeví různá chybová rozdělení na střední kvadratické chybě(mse) odhadu sledovanýchparametrů σ 2 a ρ. V modelu s rovnoměrnou strukturou lze pro námi uvažované odhady odvodit, že platí:
448 Ivan Žežula, Daniel Klein MSEˆσ 2 = varˆσ 2 = MSE ˆρ = 2σ 4 1)ρ2 1+(p n r(x) p 2 (1 ρ)2 (1+(p 1)ρ) 2 + o ( n 1) n r(x) p(p 1) Přirozenou otázkou bylo, jestli lze odhad MSE, který vznikne dosazením odhadnutýchhodnotˆσ 2 aˆρdotohototeoretickéhovzorce,jepraktickypoužitelný, t.j. jestli se příliš neliší od skutečnosti. Voboumodelechsimulaceukázaly,žeodhadyparametrů σ 2 i ρjsou dostatečně robustní a téměř nezávisí na chybovém rozdělení. Největší vliv na MSE těchto odhadů měla hodnota ρ. Zjistili jsme, že 1. chybaodhaduˆσ 2 rostes ρ Model s rovnoměrnou strukturou Model se seriální strukturou 2. chybaodhaduˆρklesás ρ Model s rovnoměrnou strukturou Model se seriální strukturou Trochu jiná situace je u aproximace MSE pomocí odhadnutých hodnot parametrů. Zde jsme zjistili, že
Robustnost v modelu růstových křivek 449 1. aproximace MSE ˆρ je robustní ρmalé ρvelké 2. aproximacemseˆσ 2 jecitlivánazměnurozdělení,hlavněpromalá ρ ρmalé ρvelké Reference [1] von Rosen D.(1989). Maximum likelihood estimators in multivariate linear normal models. Journal of Multivariate Analysis 31, 187 200. [2] Lee J. C.(1988). Prediction and estimation of growth curves with special covariance structures. JASA 83, No. 402, 432 440. [3] Žežula I.(1993). Covariance components estimation in the growth curve model. Statistics 24, 321 330. [4] Žežula I.(1997). Asymptotic properties of the growth curve model with covariance components. Applications of Mathematics 42, No. 1, 57 69. [5] Žežula I.(1996). Simulation study in the growth curve model. Tatra Mountains Mathematical Publications 7, 183 188. [6] Žežula I.(2004). Special variance structures in the growth curve model. To appear. Adresa:I.Žežula,D.Klein,UMVPFUPJŠ,Jesenná5,04154Košice,SR E-mail: zezula@kosice.upjs.sk, klein@science.upjs.sk
450