Klasická a robustní ortogonální regrese mezi složkami kompozice

Podobné dokumenty
Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

kompoziční data s aplikací v metabolomice

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

AVDAT Klasický lineární model, metoda nejmenších

Aplikace T -prostorů při modelování kompozičních časových řad

Alternativní přístup k analýze vícefaktorových dat

Předzpracování kompozičních dat

LINEÁRNÍ MODELY. Zdeňka Veselá

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

AVDAT Mnohorozměrné metody, metody klasifikace

AVDAT Geometrie metody nejmenších čtverců

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

8 Coxův model proporcionálních rizik I

Úvodem Dříve les než stromy 3 Operace s maticemi

Robust 2014, ledna 2014, Jetřichovice

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

4EK211 Základy ekonometrie

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Úlohy nejmenších čtverců

Imputace nulovy ch hodnot v metabolomice

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

odpovídá jedna a jen jedna hodnota jiných

AVDAT Náhodný vektor, mnohorozměrné rozdělení

5EN306 Aplikované kvantitativní metody I

11 Analýza hlavních komponet

Bodové a intervalové odhady parametrů v regresním modelu

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

Strukturální regresní modely. určitý nadhled nad rozličnými typy modelů

dat Robust ledna 2018

Robustní statistické metody

4ST201 STATISTIKA CVIČENÍ Č. 10

Uni- and multi-dimensional parametric tests for comparison of sample results

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

AVDAT Nelineární regresní model

ROBUSTNOST V MODELU RŮSTOVÝCH KŘIVEK

Optimalizace provozních podmínek. Eva Jarošová

MATEMATICKÁ STATISTIKA - XP01MST

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úlohy k přednášce NMAG 101 a 120: Lineární algebra a geometrie 1 a 2,

Statistická analýza jednorozměrných dat

4EK211 Základy ekonometrie

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Pojem endogenity a exogenity

Časové řady, typy trendových funkcí a odhady trendů

Regresní a korelační analýza

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Klasifikační metody pro genetická data: regularizace a robustnost

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

4. Aplikace matematiky v ekonomii

5EN306 Aplikované kvantitativní metody I

Jednofaktorová analýza rozptylu

Časové řady, typy trendových funkcí a odhady trendů

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Regresní analýza 1. Regresní analýza

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Pravděpodobnost a aplikovaná statistika

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

1. Přednáška. Ing. Miroslav Šulai, MBA

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Lineární a logistická regrese

T T. Think Together Marta Gryčová THINK TOGETHER

Fakulta stavební GEOSTATISTIKA. Martin Dzurov, Kristýna Kitzbergerová, Lucie Šindelářová

KVADRATICKÁ KALIBRACE

6. Lineární regresní modely

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat

Zpracování digitalizovaného obrazu (ZDO) - Popisy III

7. Analýza rozptylu.

Rovnovážné modely v teorii portfolia

Odhady Parametrů Lineární Regrese

y = 0, ,19716x.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Regresní a korelační analýza

Faktorová analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Odhad parametrů N(µ, σ 2 )

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

správně - A, jeden celý příklad správně - B, jinak - C. Pro postup k ústní části zkoušky je potřeba dosáhnout stupně A nebo B.

Robustní odhady kovarianční matice

Tomáš Karel LS 2012/2013

Design Experimentu a Statistika - AGA46E

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Statistická analýza dat

Regresní a korelační analýza

Transkript:

Klasická a robustní ortogonální regrese mezi složkami kompozice K. Hrůzová, V. Todorov, K. Hron, P. Filzmoser 13. září 2016

Kompoziční data kladná reálná čísla nesoucí pouze relativní informaci, x = (x 1,..., x D ) ; výběrový prostor - simplex, S D, na němž je definována Aitchisonova geometrie, která respektuje základní principy analýzy kompozičních dat; standardní statistické metody jsou definovány pro celý reálný prostor, proto je nutné kompoziční data nejprve převést do souřadnic

Analýza vztahu mezi složkami kompozice z (l) D i i = D i + 1 ln x (l) i D i D j=i+1 x (l) j, i = 1,..., D 1, (1) x = (x 1, x 2, x 3, x 4 ) x 1 x 2 + x 3 + x 4 ; vysvětlovaná proměnná: z (1) 1 = 3 4 ln x 1 3 x2 x 3 x 4 ; vysvětlující proměnné: z (k) 2, z (k) 3, k = 2, 3, 4, např. pro k = 2 dostaneme z (2) 2 2 = 3 ln x 2, z (2) 1 3 = x3 x 4 2 ln x 3 x 4 dostaneme 3 regresní modely lišící se přidělenou vysvětlující kompoziční složkou, z (1) 1 = β 0 + β 1 z (k) 2 + β 2 z (k) 3 + ε, k = 2, 3, 4. (2)

Ortogonální regrese vysvětlovaná i vysvětlující proměnné pochází z jedné kompozice všechny proměnné jsou zatíženy chybou; patří mezi tzv. modely s chybou v proměnných (EIV), tvoří speciální případ metody totálních čtverců (TLS); při odhadu TLS se využívá singulárního rozkladu datové matice, který se (pro centrované proměnné) dá nahradit metodou hlavních komponent; odhady parametrů β získáme užitím hodnot normálového vektoru, n = (n 1, n 2, n 3 ), konkrétně b 0 = t n n 3, b 1 = n 1 n 3, b 2 = n 2 n 3.

Robustní MM-odhady regresní modely jsou citlivé na odlehlé hodnoty; MM-odhady jsou velmi eficientní, jestliže chyby mají normální rozdělení, jejich bod zlomu je 0.5 a mají ohraničenou influenční funkci; mnohorozměrné MM-odhady jsou rozšířením S-odhadů, založeným na dvou ztrátových funkcích ρ 0 a ρ 1 splňujících dvě podmínky: 1. ρ je symetrická a dvakrát spojitě diferencovatelná, s ρ(0) = 0; 2. ρ je striktně rostoucí na intervalu [0, k] a konstantní na [k, ] pro konečné číslo k.

Robustní MM-odhady pro daný vektor souřadnic Z = (z 1,..., z n ) R D 1 jsou MM-odhady definovány ve 2 krocích: 1. S-odhady umístění a kovariance, ( µ n, Σ n ), minimalizují C vzhledem k 1 n n ρ 0 ([(z i t) C 1 (z i t)] 1/2) = b, i=1 pro všechna (t, C) R D 1 ; dále ŝ = Σ n 1/[2(D 1)]. 2. MM-odhady pro umístění a tvar, ( µ n, Γ n ), minimalizují 1 n n ( [(zi ρ 1 t) S 1 (z i t) ] ) 1/2 /ŝ i=1 pro všechna t a všechny symetrické, pozitivně definitní matice S s S = 1; MM-odhad kovarianční matice: Σ n = ŝ 2 Γ n.

Neparametrický bootstrap neparametrický bootstrap nám umožňuje odhadovat výběrové rozdělení statistiky empiricky bez jakýchkoliv předpokladů o populaci a bez explicitního odvozování výběrového rozdělení; výpočet p hodnoty pro testování oboustranné hypotézy o nulovosti regresních parametrů: p i = 2 min{l i, h i }/R, kde R je počet opakování, l i (h i ) je počet odhadnutých parametrů menších (větších) než nula; percentilové intervaly: (b i(l), b i(u) ), i = 1,..., D 1, kde l = [(R + 1)α/2], u = [(R + 1)(1 α)/2].

Rychlý a robustní bootstrap teorie robustních odhadů je omezená pro asymptotické výsledky; v případě robustních odhadů je obecný bootstrap nevhodný: početní složitost robustních odhadů; nestálost v případě odlehlých hodnot; robustní odhady mohou být vyjádřeny pomocí hladkých rovnic s fixními body, což nám umožňuje počítat pouze rychlou aproximaci odhadů v každém bootstrapovém výběru.

Vztah mezi aktivitami hrubé přidané hodnoty (GVA) VA obecně odráží příspěvek práce a kapitálu na výrobu; GVA: rozdíl mezi produkcí a spotřebou; GVA může být rozdělena na tyto činnosti: 1. zemědělství; 2. výroba; 3. další průmysl; 4. služby; GVA může být vyjádřena jako součet těchto čtyř činností Y man X agr + X ind + X srv ; datový soubor pochází z databáze Světové banky (http://data.worldbank.org), obsahuje data ze 131 světových zemí z roku 2010.

Výsledky pro klasickou metodu classical par. estimate perc. CI p-value intercept -2.151 (-4.464, -1.559) 0.002 b (2) 1 (agr) -0.394 (-0.584, -0.115) 0.020 b (3) 1 (ind) -0.878 (-2.745, -0.498) 0.000 b (4) 1 (srv) 1.272 (0.858, 2.978) 0.002 robust par. estimate perc. CI p-value intercept -2.311 (-6.391, -1.666) 0.006 b (2) 1 (agr) -0.389 (-0.605, 0.180) 0.116 b (3) 1 (ind) -1.075 (-4.994, -0.556) 0.002 b (4) 1 (srv) 1.464 (0.996, 5.184) 0.002 Tabulka : Souhrn výsledků regresní analýzy.

Závěr při práci s kompozičními daty je třeba nejprve data převést do reálného prostoru užitím vhodných souřadnic; jestliže jsou jak závisle, tak i nezávisle proměnné zatíženy chybou, standardní regrese by vedla k nekonzistentním odhadům modely chyby v proměnných ; ortogonální regrese je obecně řešená singulárním rozkladem datové matice, což může být nahrazeno PCA (rozklad varianční matice na vlastní čísla); statistické inference byly získány užitím bootstrapu (v případě standardní metody) a FRB (pro případ robustní metody).

Fox J. (2002). Reference Bootstrapping Regression Models. Appendix to an R and S-PLUS Companion to Applied Regression. http://statweb.stanford.edu/ tibs/sta305files/ FoxOnBootingRegInR.pdf Hron, K., P. Filzmoser and K. Thompson (2012). Linear regression with compositional explanatory variables. Journal of Applied Statistics 39(5), 1115 1128. Hrůzová K., Todorov V., Hron K., Filzmoser P. (2016). Classical and robust orthogonal regression between parts of compositional data. Statistics, DOI: 10.1080/02331888.2016.1162164. Markovsky, I. and S. Van Huffel (2007). Overview of total least-squares methods. ScienceDirect 87, pp. 2283 2302.

Pawlowsky-Glahn V., Egozcue J.J., Tolosana-Delgado R. (2015). Modeling and Analysis of Compositional Data. Wiley, Chichester. Rousseeuw, P. and M. Hubert (2013). High-Breakdown Estimators of Multivariate Location and Scatter. In C. Becker, R. Fried and S. Kuhnt, editors, Robustness and Complex Data Structure. Springer, Verlag Berlin Heidelberg (Germany), pp. 49 66. Van Aelst S., Willems G. (2013). Fast and robust bootstrap for multivariate inference: The R package FRB. Journal of Statistical Software 53(3).