Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz
Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2... } se nazývá stochastický proces. Pomocí něho budeme modelovat pozorované časové řady. Střední hodnota stochastického procesu {Y t } je funkce µ t daná vztahem µ t = E(Y t ), t == 0, ±1, ±2.... Autokovarianční funkce je definována jako γ t,s = C(Y t, Y s ), t, s = 0, ±1, ±2..., kde C(Y t, Y s ) = E[(Y t µ t )(Y s µ s )] = E[Y t, Y s ] µ t µ s. Autokorelační funkce je dána vztahem ρ t,s = C(Y t, Y s ) D(Yt )D(Y s ) = γ t,s. γt,t γ s,s
Jestliže funkce γ s,t závisí na svých argumentech pouze prostřednictvím jejich rozdílů k = s t, pak říkáme, že proces je kovariančně stacionární. Autokovarianční funkcí takového procesu budeme rozumět funkci jedné proměnné γ k = γ s t = γ s,t. Je-li navíc střední hodnota procesu µ t konstantní pro všechna t (µ t = µ), proces {Y t } označujeme za slabě stacionární. V dalším budeme místo slabě stacionární proces psát jen krátce proces stacionární.
Autokovarianční funkce stacionárního stochastického procesu je definována jako γ k = C(Y t, Y t k ) = E[(Y t µ)(y t k µ)], a autokorelační funkce (ACF) je dána vztahem ρ k = C(Y t, Y t k ) D(Yt )D(Y t k ) = γ k γ 0.
Korelace mezi dvěma náhodnými veličinami je často způsobena tím, že obě veličiny jsou korelovány s veličinou třetí. Parciální autokorelace podávají informaci o korelaci veličin Y t a Y t k očištěnou o vliv veličin ležících mezi nimi. Parciální autokorelaci se zpožděním k vyjadřuje parciální regresní koeficient φ kk v autoregresi k-tého řádu Y t = φ k1 Y t 1 + φ k2 Y t 2 + + φ kk Y t k + e t, kde e t je veličina nekorelovaná s Y t j, j 1. Je to funkce zpoždění k a nazývá se parciální autokorelační funkce (PACF).
Po vynásobení obou stran předchozí rovnice veličinou Y t 1 má střední hodnota této rovnice tvar γ j = φ k1 γ j 1 + φ k2 γ j 2 + + φ kk γ j k, takže platí ρ j = φ k1 ρ j 1 + φ k2 ρ j 2 + + φ kk ρ j k. Pro j = 1, 2,..., k potom dostáváme ρ 1 = φ k1 ρ 0 + φ k2 ρ 1 + + φ kk ρ k 1 ρ 2 = φ k1 ρ 1 + φ k2 ρ 0 + + φ kk ρ k 2 ρ k = φ k1 ρ k 1 + φ k2 ρ k 2 + + φ kk ρ 0.
Řešením této soustavy (Cramerovým pravidlem) pro k = 1, 2,... postupně dostáváme φ 11 = ρ 1, 1 ρ 1 ρ 1 ρ 2 φ 22 = 1 ρ = ρ 2 ρ 2 1 1 1 ρ 2, 1 ρ 1 1 1 ρ 1 ρ 2 ρ k 2 ρ 1 ρ 1 1 ρ 1 ρ k 3 ρ 2...... ρ k 1 ρ k 2 ρ k 3 ρ 1 ρ k φ kk = 1 ρ 1 ρ 2 ρ k 2 ρ k 1 ρ 1 1 ρ 1 ρ k 3 ρ k 2...... ρ k 1 ρ k 2 ρ k 3 ρ 1 1
Obecně jsou parametry µ, γ 0 a ρ k neznámé, za předpokladu stacionarity použijeme odhady ˆµ = Y = 1 T T Y t, ˆγ 0 = 1 T t=1 T (Y t Y ) 2. t=1 kde T je počet hodnot (délka) časové řady. Odhad ρ k je dán výběrovou autokorelací T t=k+1 ˆρ k = (Y t Y t )(Y t k Y t ) T t=1 (Y, k = 1, 2,..., T 1. t Y ) 2 (V programu R lze spočítat pomocí funkce acf)
Výběrovou parciální korelační funkci získáme nahrazením ρ i jejím odhadem ˆρ i v odpovídajícím vzorci. Byl však odvozen rekurzivní vztah, který výpočet zjednoduší ˆφ kk = ˆρ k k 1 ˆφ j=1 k 1 ˆρ k j 1 k 1 ˆφ, j=1 k 1 ˆρ j ˆφ kj = ˆφ k 1 ˆφ kk ˆφk 1k j, j = 1, 2,..., k 1. (V programu R lze spočítat pomocí funkce pacf)
Důležitý stacionárním stochastickým procesem je tzv. proces bílého šumu. Jedná se o posloupnost nezávislých náhodných veličin se stejným rozdělením s nulovou střední hodnotou a konstantním rozptylem. Pro bílý {ɛ t } platí { 1 k = 0 ρ k = 0 k 0 { 1 k = 0 φ kk = 0 k 0 Gaussovský bílý šum posloupnost nezávislých náhodných veličin s rozdělením N(0, σ 2 ɛ t ).
Klouzavé průměry Základem klasické analýzy časové řady Y t je její rozklad na trend T t, sezónní složku S t a složku reziduální (zbytkovou, náhodnou) e t. V aditivním modelu má dekompozice tvar Y t = T t + S t + e t, v multiplikativním modelu potom tvar Y t = T t S t e t. Obvyklou metodou, jak získat trend je využití lineárních filtrů T t = i= λ i Y t+i.
Klouzavé průměry Klouzavé průměry Jednoduchým příkladem lineárních filtrů jsou klouzavé průměry s konstantními váhami T t = 1 2a + 1 a Y t+i. i= a Vyrovnanou hodnotu časové řady v čase τ získáme jako průměr hodnot {y τ a,..., y τ,..., y τ+a }. Například pro a = 2, 12 a 40 dostáváme a = 2, λ i = { 1 5, 1 5, 1 5, 1 5, 1 5 } a = 12,λ i = { 1 25,..., 1 25 } }{{} 25 krát a = 40,λ i = { 1 81,..., 1 81 } }{{} 81 krát
Klouzavé průměry Klouzavé průměry (v R je možné je počítat pomocí funkce filter) jsou základem klasické dekompozice, kterou v programu R provádí funkce decompose. Poněkud sofistikovanější metodu dekompozice nabízí funkce stl. Dekompozici časové řady lze také provádět pomocí lineární regrese (funkce lm viz regresní analýza). Mimo trendu (lineárního, kvadratického atd.) je často vhodné do regresního modelu přidat buď sezónní složky, nebo periodické funkce s vhodnými periodami.
Chceme-li predikovat (předpovídat) hodnotu časové řady v čase t = τ, je přirozené vzít v úvahu předcházející hodnoty a onu predikci určit jako vážený součet předchozích pozorování. ŷ t=τ = λ 0 y τ + λ 1 y τ 1 + λ 2 y τ 2 +. zdá se být rozumné dát nedávným pozorováním větší váhu než pozorováním v čase hodně vzdáleným. Jedna z možností je použití následujících vah λ i = α(1 α) i, 0 < α < 1, potom ŷ t=τ = αy τ + (1 α)y τ 1 + (1 α) 2 y τ 2 +.
(název pochází z faktu, že váhy klesají exponenciálně) v tomto základním tvaru může být použito pouze pro časové řady bez trendu a sezónní složky. Zobecněním uvedené procedury je tzv. Holt-Wintersovo vyrovnávání, které již uvažuje i trend a sezónní složku. Obsahuje tři parametry: α pro úroveň, β pro trend a γ pro sezónní složku (funkce HoltWinters).
Modely AR, MA a ARMA Autoregresní model řádu 1 AR(1) Model je dán rovnicí Y t = φ 1 Y t 1 + ɛ t, kde φ 1 je reálné číslo a {ɛ t } je bílý šum. Pomocí operátoru zpětného posunutí B, pro který platí BY t = Y t 1, B 2 Y t = Y t 2 a obecně B s Y t = Y t s, můžeme model zapsat ve tvaru (1 φ 1 B)Y t = ɛ t. Za podmínky φ 1 < 1 jej lze vyjádřit ve formě Y t = (1 φ 1 B) 1 ɛ t = (1+φ 1 B+φ 2 1B 2 + )ɛ t = ɛ t +φ 1 ɛ t 1 +φ 2 1ɛ t 2 +, což je tzv. stacionární lineární proces.
Model AR(1) Modely AR, MA a ARMA Autokorelační funkce AR(1) procesu je rovna ρ k = φ k 1, k = 0, 1, 2,.... Jestliže φ 1 > 0, hodnoty ACF klesají exponenciálně k nule, jestliže φ 1 < 0, hodnoty klesají k nule oscilačně. Pokles hodnot ACF je pomalý, blíží-li se φ k hodnotám +1 nebo 1. Parciální autokorelační funkce AR(1) procesu je rovna { ρ 1 = φ 1 k = 1, φ kk = 0 k 2.
Modely AR, MA a ARMA Autoregresní model řádu p AR(p) Model je dán rovnicí Y t = φ 1 Y t 1 + + φ p Y t p ɛ t, pomocí operátoru zpětného posunutí (1 φ 1 B φ p B p )Y t = ɛ t, tj. φ p (B)Y t = ɛ t, kde φ p (B) = (1 φ 1 B φ p B p ). Za podmínky stacionarity lze proces AR(1) vyjádřit ve tvaru lineárního procesu. Tato podmínka je splněna, leží-li kořeny polynomiální rovnice (1 φ 1 B φ p B p ) = 0 vně jednotkového kruhu.
Model AR(p) Modely AR, MA a ARMA Hodnoty ACF tvoří kombinace exponenciálně klesajících pohybů (v případě reálných kořenů polynomiální rovnice) a exponenciálně klesajících sinusoidních pohybů (v případě komplexních kořenů). Hodnoty PACF pro zpoždění k = 1, 2,..., p jsou různé od nuly, pro další hodnoty jsou potom rovny nule.
Modely AR, MA a ARMA Proces klouzavých průměrů řádu 1 MA(1) Model je dán vztahem Y t = ɛ t + θ 1 ɛ t 1, neboli Y t = (1 + θ 1 B)ɛ t. Tento model, stejně jako všechny MA modely, je stacionární. Je-li možné MA proces vyjádřit ve formě konvergující AR( ), tj. (1 + π 1 B + π 2 B 2 + )Y t = ɛ t, kde j=1 <, potom se označuje jako invertibilní.
Proces MA(1) Modely AR, MA a ARMA Hodnoty ACF procesu MA(1) jsou dány vztahem ρ k = { θ1 k = 1, 1+θ1 2 0 k > 1.. Pozn.: Stejnou ACF mají vždy dva MA(1) procesy, s parametrem θ 1 a 1/θ 1. Je-li θ 1 < 1, potom 1/θ 1 > 1 a tento proces není invertibilní. Hodnoty PACF pro θ 1 < 0 přibližují se exponenciálně k nule. Jestliže θ 1 > 0, oscilují s klesající amplitudou.
Modely AR, MA a ARMA Proces klouzavých průměrů řádu q MA(q) Model je dán vztahem Y t = ɛ t + θ 1 ɛ t 1 + + θ q ɛ t q, neboli Y t = (1 + θ 1 B + + θ q B q )ɛ t. Proces je invertibilní, leží-li kořeny polynomiální rovnice (1 + θ 1 B + + θ q B q = 0) vně jednotkového kruhu. ACF má tvar ρ k = { θk +θ 1θ k+1 + +θ q k θ k 1+θ 2 1 + +θ2 q 0 k > q. k = 1, 2,..., q, Hodnoty PACF tvoří kombinace exponenciálně klesajících pohybů (v případě reálných kořenů polynomiální rovnice) a exponenciálně klesajících sinusoidních pohybů (v případě komplexních kořenů).
Smíšený proces ARMA(1,1) Modely AR, MA a ARMA Nejjednodušší smíšený proces má tvar Y t = φ 1 Y t 1 + ɛ t + θ 1 ɛ t 1, tj. (1 φ 1 B)Y t = (1 + θ 1 B)ɛ t. ACF je podobná ACF procesu AR(1), je charakteristická exponenciálně klesajícími (příp. oscilujícími) hodnotami. Exponenciální pokles začíná od hodnoty ρ 1, na rozdíl od procesu AR(1),kde začínal již od hodnoty ρ 0 = 1. Tvar PACF je podobný jako u procesu MA(1). Po počáteční hodnotě φ 11 = ρ 1 je tato funkce charakteristická exponenciálním (resp. oscilujícím) poklesem.
Smíšený proces ARMA(p, q) Modely AR, MA a ARMA Rovnice modelu je Y t = φ 1 Y t 1 + + φ p Y t p ɛ t + θ 1 ɛ t 1 + + θ q ɛ t q (1 φ 1 B φ p B p )Y t = (1 + θ 1 B + + θ q B q )ɛ t. ACF je podobná ACF procesu AR(p), je charakteristická exponenciálně klesajícími (příp. oscilujícími) hodnotami. Tento tvar však bude následovat až po prvních q p hodnotách (pro q > p). Hodnoty ρ 0, ρ 1,..., ρ q p tento tvar mít nebudou. Pro k > p q a p > q se PACF bude chovat stejně jako procesu MA(q). Pro k p q je však tento tvar odlišný.
Modely AR, MA a ARMA Proces náhodné procházky Random Walk Process Proces Y t = Y t 1 + ɛ t je označuje jako proces náhodné procházky. Pomocí operátoru zpětného posunutí lze vyjádřit jako (1 B)Y t = ɛ t. ACF tohoto procesu klesá pomalu, PACF hodnotu φ 11 = 1, ostatní hodnoty jsou nulové.
Procesy ARIMA Modely AR, MA a ARMA Diferenci Y t = Y t Y t 1 lze pomocí operátoru zpětného posunutí zapsat jako Y t = Y t Y t 1 = Y t BY t = (1 B)Y t. Pro diferenci 2. řádu 2 Y t = (Y t Y t 1 ) = Y t Y t 1 = Y t Y t 1 (Y t 1 Y t 2 ) = Y t 2Y t 1 + Y t 2 lze pomocí operátoru zpětného posunutí zapsat jako 2 Y t = (1 B) 2 Y t. Diferencování časové řady v R-ku provedeme funkcí diff.
Procesy ARIMA Modely AR, MA a ARMA Pro některý procesy platí, že po transformaci pomocí diference řádu d, je lze popsat jako proces ARMA(p, q). Takový model označujeme jako model ARIMA(p, d, q) (1 φ 1 B φ p B p ) d Y t = (1 + θ 1 B + + θ q B q )ɛ t, (1 φ 1 B φ p B p )(1 B) d Y t = (1 + θ 1 B + + θ q B q )ɛ t. Odhady parametrů ARIMA modelů získáme v R-ku pomocí funkce arima, základní diagnostiku vhodnosti modelu dává funkce tsdiag, předpovědi určíme s využitím funkce predict.
Procesy ARIMA Modely AR, MA a ARMA Některá kritéria pro volbu modelu (hledá se model s nejmenší hodnotou kritéria) Akaikeho kritérium AIC: AIC = ln ˆσ 2 ɛ + 2M/T, kde M = p + q, ˆσ 2 ɛ je reziduální rozptyl a T je počet pozorování (počet reziduí). Schwartzovo kritérium SC: SC = ln ˆσ 2 ɛ + Hannanovo-Quinnova kritérium HQ: 2MT 1 (M + 1)/T. HQ = ln ˆσ 2 ɛ + 2M(ln(ln T ))/T.