Aplikace T -prostorů při modelování kompozičních časových řad

Podobné dokumenty
Předzpracování kompozičních dat

Alternativní přístup k analýze vícefaktorových dat

EKONOMICKÁ APLIKACE KOMPOZIČNÍHO REGRESNÍHO MODELU

kompoziční data s aplikací v metabolomice

Robust 2014, ledna 2014, Jetřichovice

Klasická a robustní ortogonální regrese mezi složkami kompozice

Eva Fišerová a Karel Hron. Katedra matematické analýzy a aplikací matematiky Přírodovědecká fakulta Univerzity Palackého v Olomouci.

Statistick anal 0 5za kompozi 0 0n ͺch tabulek

Imputace nulovy ch hodnot v metabolomice

Lineární a logistická regrese

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

8 Coxův model proporcionálních rizik I

Testování změn v binárnách autoregresních modelech Šárka Hudecová 1/ 36

Modelování sesuvu svahu v Halenkovicích pomocí metody kriging

4EK211 Základy ekonometrie

Úlohy nejmenších čtverců

7 Regresní modely v analýze přežití

Soustavy lineárních rovnic

4EK211 Základy ekonometrie

Optimalizace provozních podmínek. Eva Jarošová

Regresní a korelační analýza

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

(Cramerovo pravidlo, determinanty, inverzní matice)

AVDAT Geometrie metody nejmenších čtverců

Klasifikace a rozpoznávání. Extrakce příznaků

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

VĚTY Z LINEÁRNÍ ALGEBRY

dat Robust ledna 2018

Testování hypotéz o parametrech regresního modelu

2 Hlavní charakteristiky v analýze přežití

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

4EK211 Základy ekonometrie

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ. Modernizace studijního programu Matematika na PřF Univerzity Palackého v Olomouci CZ.1.07/2.2.00/28.

Modely stacionárních časových řad

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

Markovské metody pro modelování pravděpodobnosti

Statistické vyhodnocování experimentálních dat. Mgr. Martin Čada, Ph.D.

1 Řešení soustav lineárních rovnic

Bayesovský p ístup k t-test m v kompozi ní analýze metabolomických dat

BAKALÁŘSKÁ PRÁCE. Vývoj složení hrubého domácího produktu v České republice UNIVERZITA PALACKÉHO V OLOMOUCI

4EK211 Základy ekonometrie

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

AVDAT Klasický lineární model, metoda nejmenších

Metoda backward výběru proměnných v lineární regresi a její vlastnosti

odpovídá jedna a jen jedna hodnota jiných

Základy teorie matic

CHOVÁNÍ SILOFUNKCÍ TESTŮ V COXOVĚ MODELU PROPORCIONÁLNÍCH RIZIK

Robustní statistické metody

Soustavy lineárních rovnic

MATEMATICKÁ STATISTIKA - XP01MST

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

4EK213 Lineární modely. 5. Dualita v úlohách LP

ALGEBRA. Téma 5: Vektorové prostory

Kapitola 11: Vektory a matice:

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Kapitola 11: Vektory a matice 1/19

4EK211 Základy ekonometrie

EKONOMETRIE 7. přednáška Fáze ekonometrické analýzy

MODELU A KOMPOZIČNÍHO MODELU PŘI ANALÝZE DAT

Interpolační funkce. Lineární interpolace

Testování hypotéz o parametrech regresního modelu

Necht tedy máme přirozená čísla n, k pod pojmem systém lineárních rovnic rozumíme rovnice ve tvaru

15 Maticový a vektorový počet II

Neuronové časové řady (ANN-TS)

4EK211 Základy ekonometrie

HODNOST A DETERMINANT MATICE, INVERZNÍ MATICE

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

HODNOST A DETERMINANT MATICE, INVERZNÍ MATICE

Marta Vomlelová

Rovnovážné modely v teorii portfolia

Vektorový prostor. Př.1. R 2 ; R 3 ; R n Dvě operace v R n : u + v = (u 1 + v 1,...u n + v n ), V (E 3 )...množina vektorů v E 3,

Eukleidovský prostor a KSS Eukleidovský prostor je bodový prostor, ve kterém je definována vzdálenost dvou bodů (metrika)

Bayesovská klasifikace digitálních obrazů

PRAVDĚPODOBNOST A STATISTIKA

Matematika 2 (Fakulta ekonomická) Cvičení z lineární algebry. TU v Liberci

4EK211 Základy ekonometrie

Intervalová data a výpočet některých statistik

AVDAT Vektory a matice

Úvod do analýzy časových řad

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

7. Analýza rozptylu.

Matematika B101MA1, B101MA2

Studium závislosti výpočetního času algoritmu GPC prediktivního řízení na volbě typu popisu matematického modelu v regulátoru

MATEMATICKÉ PRINCIPY VÍCEROZMĚRNÉ ANALÝZY DAT

Statistická analýza dat

Lineární algebra : Skalární součin a ortogonalita

Měření dat Filtrace dat, Kalmanův filtr

Požadavky k písemné přijímací zkoušce z matematiky do navazujícího magisterského studia pro neučitelské obory

LWS při heteroskedasticitě

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

CITLIVOSTNÍ ANALÝZA DYNAMICKÝCH SYSTÉMŮ I

VYUŽITÍ WAVELETŮ PŘI ANALÝZE ČASOVÝCH ŘAD 2. PRAKTICKÁ ČÁST

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

SOUSTAVY LINEÁRNÍCH ROVNIC

Analýza lineárních regulačních systémů v časové doméně. V Modelice (ale i v Simulinku) máme blok TransfeFunction

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Transkript:

Aplikace T -prostorů při modelování kompozičních časových řad P. Kynčlová 1,3 P. Filzmoser 1, K. Hron 2,3 1 Department of Statistics and Probability Theory Vienna University of Technology 2 Katedra matematické analýzy a aplikací matematiky Univerzita Palackého v Olomouci 3 Katedra geoinformatiky Univerzita Palackého v Olomouci ROBUST 2014, 23. ledna 2014

Obsah Kompoziční časové řady VAR model T -prostory Praktický příklad

Kompoziční data data nesoucí výhradně relativní informaci, jejichž výběrovým prostorem je simplex S D { } D S D = x = (x 1,..., x D ) x i > 0, i = 1,..., D; x i = κ Aitchisonova geometrie na simplexu = logratio transformace ze simplexu do reálného prostoru izometrická logratio transformace: ilr(x) = (z 1,..., z D 1 ) D j z j = D j + 1 ln x j D j D, j = 1,..., D 1 (1) l=j+1 x l = souřadnice z 1 obsahuje veškerou relativní informaci o x 1 vzhledem k ostatním složkám x 2,..., x D i=1

Kompoziční časové řady Definice mnohorozměrné časové řady pro kompoziční data {x t : t = 1,..., n}, x t = (x 1t,..., x Dt ) S D časové řady s kladnými reálnými prvky x 1t,..., x Dt > 0 problém: konstatní součet v každém čase t často roven 1 (proporcionální data) řešení: logratio transformace ze simplexu do prostoru souřadnic (S D R D 1 )

Kompoziční časové řady Princip modelování kompozičních časových řad transformace do prostoru souřadnic: izometrická logratio (ilr) transformace (1) = výhodné interpretační vlastnosti aplikace standardních metod pro analýzu mnohorozměrných časových řad v prostoru souřadnic návrat zpět na simplex = inverzní ilr transformace

Vektorový autoregresní proces VAR(p) Definice VAR(p) model v redukovaném tvaru z t = c + A (1) V z t 1 + A (2) V z t 2 + + A (p) V z t p + ɛ t, (2) kde B = [c V, A (1) V,..., A(p) V ] jsou parametry a ɛ t chybová složka, ɛ t WN (0, Σ ɛ ) p se nazývá řád modelu pozorování z t je modelováno pomocí p předchozích pozorování z t 1,..., z t p.

z t = ilr V (x t ) jsou ilr souřadnice kompozice x t S D dané maticí V a z t = ilr V (x t ) ilr souřadnice dané maticí V VAR(p) modely jsou kompozičně ekvivalentní při použití libovolné ilr transformace z t = c V + A (1) V z t 1 + A (2) V z t 2 +... A (p) V z t p, z t = c V + A (1) V z t 1 + A (2) V z t 2 +... A (p) V z t p.

Vektorový autoregresní proces VAR(p) Endomorfismus na simplexu S D ( D A x = C x a 1j j,..., j=1 D j=1 ) x a Dj j A R D D, x S D představuje lineární transformaci vzhledem k Aitchisonově geometrii za podmínky A1D = 0 D (jinak A x A (kx)) pokud navíc platí A 1 D = 0 D, pak funkce x A x se nazývá endomorfismus na simplexu S D máme-li endomorfismus y = A x na simplexu, pak ho můžeme též vyjádřit i v prostoru souřadnic clr(y) = A clr(x) ilrv (y) = A V ilr V (x) ilr(y) = V AV ilr(x)

Vektorový autoregresní proces VAR(p) VAR(p) na simplexu S D výsledný VAR model na simplexu nezávisí na volbě konkrétní transformace ) ) x t = b (A (1) x t 1 (A (p) x t p w t modelování kompozičních časových řad přímo na simplexu = Barcelo-Vidal et al.(2011)

Vektorový autoregresní proces VAR(p) Odhad parametrů stacionární VAR(p) model lze rovněž zapsat v maticovém tvaru Y = ZB + E kde Y = (z 1,..., z n ), Z t = (1, z t 1,..., z t p) je t-tý řádek matice Z R n [(D 1)p+1] parametry B lze odhadnout pomocí MNČ pro každou rovnici zvlášt na základě sample z1,..., z n presample z p+1,..., z 0

Vektorový autoregresní proces VAR(p) Testování hypotéz: Grangerova kauzalita testování kauzality založené na predikci x 1 Granger causes x 2 = minulé (zpožděné) hodnoty x 1 obsahují statisticky významnou informaci o budoucích hodnotách x 2 test hypotézy H 0 : Rˆβˆβˆβ = r Waldova statistika ( Rˆβ r ) { R [ âvar(ˆβ) ] R } 1( Rˆβ r ) F ( q, n (D 1)p 1 ) q... hodnost matice R

Teorie T -prostorů kompoziční data = data nesoucí výhradně relativní informaci v podílech mezi složkami kompoziční časové řady zajímá nás též absolutní informace o celkovém množství v čase t (např. při predikci budoucích hodnot) teorie T -prostorů definuje rozšířený vektorový prostor T = R D + S D = umožňuje modelovat podíly mezi jednotlivými složkami s úhrnnými hodnotami těchto složek současně v jednom modelu

Teorie T -prostorů Aplikace teorie T -prostorů na časové řady vektor x = [t(x), C(x)] = [t x, x 1, x 2,..., x D ] je prvkem prostoru T = R D + S D C(x)...... kompozice, x S D t(x)...... celkový součet hodnot složek kompozice v daném okamžiku t D t(x) = kompozice x jsou modelovány pomocí logratio transformací úhrnné hodnoty t(x) jsou uvažovány v jejich zlogaritmované podobě i=1 x i

Praktický příklad Hrubé bonusy k příjmům zaměstnanců hrubé bonusy k příjmům zaměstnanců v odvětví zpracovávání kovů v Rakousku (v tisících eurech) = leden 2004 - listopad 2011 x1...... tzv. bílé ĺımečky x2...... dělníci x 3...... učni v komerční sféře x 4...... učni v industriální sféře Xt...... celkový úhrn hodnot v čase t x 1 + x 2 + x 3 + x 4 x1 x2 x3 x4 Xt 1 1494.70 610.50 2.00 19.40 2126.60 2 723.40 785.20 3.70 14.50 1526.80 3 2168.10 1171.90 3.00 9.90 3352.90 4 2293.70 3173.30 4.80 60.60 5532.40 5 12497.20 12782.20 21.10 97.80 25398.30 6 13851.50 23369.40 176.00 380.30 37777.20

Praktický příklad Metal production 0 10000 20000 30000 40000 2004 2005 2006 2007 2008 2009 2010 2011 Kompoziční časové řady - absolutní hodnoty, x 1 ( ), x 2 ( ), x 3 ( ), x 4 ( )

Praktický příklad Volba modelu Dva přístupy: aplikace VAR modelu standardním způsobem na proměnné x 1, x 2, x 3, x 4 s využitím teorie T -prostorů byly proměnné transformovány pomocí ilr transformace a zlogaritmovaný celkový úhrn hodnot log (X t ) byl zahrnut do modelu jako další proměnná Přístup AIC(p) HQ(p) SC(p) FPE(p) standardní 10 1 1 2 kompoziční 10 1 1 1 = VAR(1) model

Praktický příklad Ilr coordinates and logtransformed total 0 5 10 2004 2005 2006 2007 2008 2009 2010 2011 Ilr souřadnice pro kompoziční časové řady (z 1 ( ), z 2 ( ), z 3 ( )) a celkový úhrn hodnot složek X t po zlogaritmování.

Praktický příklad Testování Grangerovy kauzality na rozdíl od standardního přístupu nám použití ilr transformace a teorie T -prostorů umožňuje testovat kauzalitu nejen mezi proměnnými, ale i mezi úhrnnými hodnotami složek vzhledem k výhodným interpretačním vlastnostem dané ilr transformace lze otestovat nulovou hypotézu z 1 nemá signifikantní vliv na z 2, z 3, log (X t ) testování Grangerovy kauzality kompozičním přístupem je nesrovnatelné s aplikací VAR modelu klasickým způsobem samotné testování probíhá v prostoru ortonormálních souřadnic celkové úhrnné hodnoty jsou zahrnuty do modelu jako další proměnná

Praktický příklad Testování Grangerovy kauzality nulová hypotéza p-hodnota z 1 nemá vliv na z 2, z 3, log (X t ) z 1 = rel. informace o x 1 vzhledem k x 2, x 3, x 4 0.526 z 1 = rel. informace o x 2 vzhledem k x 1, x 3, x 4 0.852 z 1 = rel. informace o x 3 vzhledem k x 1, x 2, x 4 0.659 z 1 = rel. informace o x 4 vzhledem k x 1, x 2, x 3 0.043 log (X t ) nemá vliv na z 1, z 2, z 3 0.279 = relativní informace obsažená v x 4 má dle testu významný vliv na předpověd budoucích hodnot složek x 1, x 2, x 3 i celkových úhrnných hodnot X t

Závěr určení předpovědí nezávisí na typu zvolené logratio transformace výběr ilr transformace usnadňuje možnost interpretace (např. testování hypotéz) teorie T -prostorů umožňuje modelovat nejen proporcionální strukturu dat, ale i celkové absolutní hodnoty v jednom modelu použití T -prostorů poskytuje nové možnosti testování Grangerovy kauzality (testování kauzálních vztahů i mezi kompozicemi a úhrnnými hodnotami) kompoziční přístup ukázal vyšší přesnost předpovědí na základě RMSEP

Příloha Příloha Reference Reference Barceló-Vidal, C., Aguilar, L., Martín-Fernández, J. A. (2011) Compositional VARIMA time series. In V. Pawlowsky-Glahn and A. Buccianti, eds., Compositional Data Analysis. Theory and Applications. John Wiley & Sons, Chichester, pp. 87 103. Fišerová, E., Hron, K. (2012). On interpretation of orthonormal coordinates for compositional data. Mathematical Geosciences 43(4), 455 468. Pawlowsky-Glahn, V., Egozcue, J.J., Lovell, D. (2013). The product space T (tools for compositional data with a total). In K. Hron, P. Filzmoser and M. Templ, editors, Proceedings of CoDaWork 13, The 5th Compositional Data Analysis Workshop. Vorau, Austria.

Příloha Příloha Reference Reference Aitchison, J. (1986). The Statistical Analysis of Compositional Data. Chapman and Hall Ltd., London, UK. Lütkepohl, L. (2005). New Introduction to Multiple Time Series Analysis. Springer, Berlin. Pawlowsky-Glahn, V., Buccianti, A., eds. (2011). Compositional Data Analysis: Theory and Applications. Wiley, Chichester.

Příloha Příloha ĉc (Â ˆβˆβˆβ (1) ) = vec(ˆb) =. (Â (p) ) âvar(ˆβˆβˆβ) = ˆΣ ɛ (ZZ ) 1 ˆΣ ɛ = 1 n (D 1)p 1 n (z t ZˆB)(z t ZˆB). t=1

Příloha Příloha Testování Grangerovy kauzality ve standardním VAR modelu nulová hypotéza p-hodnota x 1 nemá vliv na x 2, x 3, x 4 0.749 x 2 nemá vliv na x 1, x 3, x 4 0.190 x 3 nemá vliv na x 1, x 2, x 4 0.085 x 4 nemá vliv na x 1, x 2, x 3 6.158 10 6 = i standardně docházíme k výsledku, že x 4 má signifikantní vliv na x 1, x 2, x 3, a tedy minulé hodnoty x 4 mají významný efekt na odhad budoucích hodnot ostatních proměnných

Příloha Příloha Přesnost předpovědí pro použité modely Root mean squared error of prediction (RMSEP) RMSEP = 1 m x t ˆx t m 2, i=1 kde m je počet predikovaných hodnot. přístup RMSEP standardní 170.94 kompoziční 167.02