ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK

Podobné dokumenty
Klasická a robustní ortogonální regrese mezi složkami kompozice

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

AVDAT Nelineární regresní model

AVDAT Klasický lineární model, metoda nejmenších

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Bodové a intervalové odhady parametrů v regresním modelu

4EK211 Základy ekonometrie

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

4EK211 Základy ekonometrie

Bodové a intervalové odhady parametrů v regresním modelu

Chyba predikce při rezervování metodou Chain Ladder u korelovaných vývojových trojúhelníků

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Odhad parametrů N(µ, σ 2 )

LINEÁRNÍ MODELY. Zdeňka Veselá

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5EN306 Aplikované kvantitativní metody I

AVDAT Náhodný vektor, mnohorozměrné rozdělení

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

ACTA UNIVERSITATIS AGRICULTURAE ET SILVICULTURAE MENDELIANAE BRUNENSIS SBORNÍK MENDELOVY ZEMĚDĚLSKÉ A LESNICKÉ UNIVERZITY V BRNĚ

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

DETEKCE LINEÁRNÍHO TRENDU V ROZPTYLU NORMÁLNÍHO ROZDĚLENÍ

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

KVADRATICKÁ KALIBRACE

Stavový model a Kalmanův filtr

Chyby nepřímých měření

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

10. Předpovídání - aplikace regresní úlohy

EXTRÉMY V TEPLOTNÍCH ŘADÁCH

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

KGG/STG Statistika pro geografy

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Příklady - Bodový odhad

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

3 Bodové odhady a jejich vlastnosti

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Odhady - Sdružené rozdělení pravděpodobnosti

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

Náhodné vektory a matice

AVDAT Geometrie metody nejmenších čtverců

Diagnostika regrese pomocí grafu 7krát jinak

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Klasifikační metody pro genetická data: regularizace a robustnost

Bodové odhady parametrů a výstupů

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

KGG/STG Statistika pro geografy

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

Vícerozměrná rozdělení

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Regresní a korelační analýza

AVDAT Mnohorozměrné metody, metody klasifikace

Statistická analýza jednorozměrných dat

Měření závislosti statistických dat

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Regresní a korelační analýza

1 Modelování systémů 2. řádu

Pravděpodobnost, náhoda, kostky

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Pearsonův korelační koeficient

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

odpovídá jedna a jen jedna hodnota jiných

6. Lineární regresní modely

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Ilustrační příklad odhadu LRM v SW Gretl

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Analytická geometrie. c ÚM FSI VUT v Brně

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

TECHNICKÁ UNIVERZITA V LIBERCI

Regresní analýza 1. Regresní analýza

Tomáš Karel LS 2012/2013

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

4EK211 Základy ekonometrie

Návrhy experimentů v neparametrické regresi

Regresní a korelační analýza

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Matematika pro chemické inženýry

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Pokročilé neparametrické metody. Klára Kubošová

dat Robust ledna 2018

Teorie náhodných matic aneb tak trochu jiná statistika

Pojem endogenity a exogenity

SPOLEHLIVOST KONSTRUKCÍ & TEORIE SPOLEHLIVOSTI část 5: Aproximační techniky

4EK211 Základy ekonometrie

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Transkript:

ROBUST 2004 c JČMF 2004 ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK Ivan Žežula, Daniel Klein Klíčová slova: Mnohorozměrný lineární model, simulace. Abstrakt: Příspěvek se zabývá dvěmi variantami modelu růstových křivek replikovaným modelem a modelem se speciálními variančními strukturami a zkoumá chování odhadů parametrů v případě porušení předpokladů, zejména normality rozdělení. 1 Motivace a popis modelu Model růstových křivek vznikl při analýze anatomických dat: na jisté zubní klinice byl sledován vývoj vzdálenosti středu hypofýzy od pterygomaxilární brázdyuchlapcůaděvčat.otázkoubylo,zdatatovzdálenostjeuděvčat menšínežuchlapcůazdarychlostrůstujestejná.získanádatajsouna obrázku. Silnou čarou je vyznačen průměr; jeho průběh ukazuje, že růst má zhruba lineární trend. Na první pohled to vypadá jako dvě nezávislé regrese. Potthoff a Roy sivšakuvědomili,žeobasoubory vzhledemkokolnostemvzniku mají stejnou varianční matici. Proto navrhli společný model, který tuto skutečnost zohledňoval: EY = XBZ var(vec Y)=Σ I Tento model přirozeným způsobem spojuje regresní analýzu s analýzou rozptylu matice X je maticí analýzy rozptylu, Z maticí regresních konstant. Neznámé parametry jsou v maticích B(regresní koeficienty pro jednotlivé skupiny) a Σ(variance a kovariance pro jednotlivé časy pozorování). Později se tento model dočkal mnoha dalších aplikací i rozšíření. Z těchto aplikací vyplynuly různé struktury varianční matice Σ:

444 Ivan Žežula, Daniel Klein obecná p.d. matice Σ= θ i V i, V i známé rovnoměrná varianční struktura, t.j. Σ=σ 2 ((1 ρ)i+ ρ11 ) seriální varianční struktura, t.j. 1 ρ... ρ p 1 Σ=σ 2 ρ 1... ρ p 2......... ρ p 1 ρ p 2... 1 Všimněmesi,žerozkladΣ= θ i V i jezcelaobecnýazahrnujevšechny ostatnípřípady.např.obecnoumaticiσlzenapsatvetvaruσ= i σ iie i e i + i<j σ ( ij ei e j + e ) je i,kde ei jsoujednotkovévektory(t.j.obsahující1na i-témmístěa0jinde). Při praktickém použití modelu se však setkáváme s některými problémy. K odhadu B totiž potřebujeme znalost Σ: ˆB=(X X) 1 X YΣ 1 Z ( ZΣ 1 Z ) 1. To přináší dva okruhy otázek: Jednak, jak odhadnout Σ resp. její komponenty? A následně, jak se změní jeho vlastnosti odhadu B, jestliže Σ odhadneme? Specielně, o kolik vzroste jeho rozptyl? V tomto směru již bylo dosaženo mnoha výsledků. Především je známo, že v obecné situaci, při rozkladu Σ na varianční komponenty, existují stejnoměrně nejlepší odhady jen v triviálních případech. Tedy ve většině případů můžeme použít buď jen maximálně věrohodné odhady(pro něž většinou neexistují explicitní vzorce, počítají se pouze numericky a známe jen asymptotické vlastnosti) anebo lokálně nejlepší odhady(u nichž sice známe explicitní vzorce, ale zase musíme dobře vědět, v kterém bodě parametrického prostoru je počítat). Stejnoměrně nejlepší odhad existuje v jednom důležitém případě: když Σ je zcela neznámá. Částečná znalost varianční struktury situaci komplikuje. Lokálně nejlepší odhady variančních komponent θ mohou být navíc závislé na hodnotě B dochází pak ke kruhové závislosti. Proto důležitosti nabývají odhady invariantní, které na B nezávisí; i pro ně jsou známé explicitní vzorce, odhady však nemusí vždy existovat. V případě odhadovánípouze σ 2 a ρznámenestrannéodhadovérovniceproobaparametry. Ve všech těchto případech je odhad B asymptoticky nestranný. Podrobněji o těchto modelech viz např.[1],[3].

Robustnost v modelu růstových křivek 445 2 Replikovaný model Tento model byl vytvořen k oslabení závislosti lokálně nejlepších odhadů na volbě počátečního bodu. Obsahuje nezávislá opakování měření ze základního modelu: Y j = XBZ+ e j, j=1,...,s Varianční struktura přitom zůstává stejná. Odhad B je také prakticky stejný, jako v základním modelu: ˆB=(X X) 1 X ȲΣ 1 Z ( ZΣ 1 Z ) 1. Odhady variančních komponent v tomto modelu vždy existují. Výsledky z tohoto modelu jsou shrnuty v[4]. Dřívější simulace(viz[5]) ukázaly rychlou konvergenci odhadů k známému asymptotickému rozdělení. Nás zajímal problém robustnosti odhadů v tomto modelu. Všechny známé výsledky jsou totiž založeny na předpokladu normality. Je tedy přirozené se ptát, co se stane, když rozdělení chyb není normální? Podobnou otázkou je: co se stane s odhady, když chyby nemají nulovou střední hodnotu, t.j. když pozorování obsahují systematickou chybu? K tomuto účelu jsme provedli rozsáhlou simulační studii. Uvažovali jsme přitom různě složité modely střední hodnoty(polynomy 1. až 3. stupně) a různě složité modely varianční struktury: 1. Σobecnáp.d.matice 2. Σ s konstantními diagonálami 3. Σsedvěmikomponentami(Σ=θ 1 V+ θ 2 I) Uvažovaná chybová rozdělení byla následující: 1. normální,alesesystematickouchybou(µ 0) 2. směs normálního a exponenciálního 3. různé formy beta rozdělení

446 Ivan Žežula, Daniel Klein 4. Laplaceovo rozdělení Všechna rozdělení s výjimkou 1) byla posunuta tak, aby měla nulovou střední hodnotu. Výsledky simulací: Následujícívybranégrafyzobrazujíempirickérozdělenístatistiky χ 2 (kteráměřícelkovouvzdálenostododhadu Bkjehoskutečnéhodnotě)prorůzné hodnoty s. Počet replikací roste zezadu dopředu, zcela vpředu je asymptotické rozdělení. Kvadratická závislost, Σ obecná, normální rozdělení Kvadratická závislost, Σ se 2 komponentami, normální rozdělení

Robustnost v modelu růstových křivek 447 Lineární závislost, Σ obecná, rozdělení B(0.5,6) Lineární závislost, Σ se 2 komponentami, rozdělení B(0.5,6) Kubická závislost, Σ obecná, rozdělení B(2,2) Kubická závislost, Σ s konstatními diagonálami, rozdělení B(2,2) Kubická závislost, Σ se 2 komponentami, rozdělení B(2,2) V případě nenulovosti střední hodnoty chyby t.j. existence systematické chyby grafy neuvádíme, jelikož odhady ležely daleko od skutečných hodnot a s rostoucím počtem replikací divergovaly do nekonečna. Lze tedy udělat následující závěry: Model je silně citlivý na přítomnost systematické chyby Ve všech ostatních případech je konvergence k asymptotickému rozdělení velmi rychlá Rychlost konvergence je nepřímo úměrná počtu odhadovaných parametrů 3 Speciální varianční struktury Dále jsme zkoumali robustnost základního modelu s rovnoměrnou a seriální strukturou(t.j.bezreplikací).odhadyˆσ 2 aˆρproobamodelyjsouuvedeny v[6];porovnejtakés[2].voboumodelechnáspředevšímzajímalo,jakse projeví různá chybová rozdělení na střední kvadratické chybě(mse) odhadu sledovanýchparametrů σ 2 a ρ. V modelu s rovnoměrnou strukturou lze pro námi uvažované odhady odvodit, že platí:

448 Ivan Žežula, Daniel Klein MSEˆσ 2 = varˆσ 2 = MSE ˆρ = 2σ 4 1)ρ2 1+(p n r(x) p 2 (1 ρ)2 (1+(p 1)ρ) 2 + o ( n 1) n r(x) p(p 1) Přirozenou otázkou bylo, jestli lze odhad MSE, který vznikne dosazením odhadnutýchhodnotˆσ 2 aˆρdotohototeoretickéhovzorce,jepraktickypoužitelný, t.j. jestli se příliš neliší od skutečnosti. Voboumodelechsimulaceukázaly,žeodhadyparametrů σ 2 i ρjsou dostatečně robustní a téměř nezávisí na chybovém rozdělení. Největší vliv na MSE těchto odhadů měla hodnota ρ. Zjistili jsme, že 1. chybaodhaduˆσ 2 rostes ρ Model s rovnoměrnou strukturou Model se seriální strukturou 2. chybaodhaduˆρklesás ρ Model s rovnoměrnou strukturou Model se seriální strukturou Trochu jiná situace je u aproximace MSE pomocí odhadnutých hodnot parametrů. Zde jsme zjistili, že

Robustnost v modelu růstových křivek 449 1. aproximace MSE ˆρ je robustní ρmalé ρvelké 2. aproximacemseˆσ 2 jecitlivánazměnurozdělení,hlavněpromalá ρ ρmalé ρvelké Reference [1] von Rosen D.(1989). Maximum likelihood estimators in multivariate linear normal models. Journal of Multivariate Analysis 31, 187 200. [2] Lee J. C.(1988). Prediction and estimation of growth curves with special covariance structures. JASA 83, No. 402, 432 440. [3] Žežula I.(1993). Covariance components estimation in the growth curve model. Statistics 24, 321 330. [4] Žežula I.(1997). Asymptotic properties of the growth curve model with covariance components. Applications of Mathematics 42, No. 1, 57 69. [5] Žežula I.(1996). Simulation study in the growth curve model. Tatra Mountains Mathematical Publications 7, 183 188. [6] Žežula I.(2004). Special variance structures in the growth curve model. To appear. Adresa:I.Žežula,D.Klein,UMVPFUPJŠ,Jesenná5,04154Košice,SR E-mail: zezula@kosice.upjs.sk, klein@science.upjs.sk

450