Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz
Stochastický proces Posloupnost náhodných veličin {Y t, t = 0, ±1, ±2 } se nazývá stochastický proces Pomocí něho budeme modelovat pozorované časové řady Střední hodnota stochastického procesu {Y t} je funkce µ t daná vztahem µ t = E(Y t), t = 0, ±1, ±2 Autokovarianční funkce je definována jako γ t,s = C(Y t, Y s), t, s = 0, ±1, ±2, kde C(Y t, Y s) = E[(Y t µ t)(y s µ s)] = E[Y ty s] µ tµ s Autokorelační funkce je dána vztahem ρ t,s = C(Yt, Ys) = γt,s D(Yt)D(Y s) γt,tγ s,s
Stacionarita Jedním z důležitých vlastností stochastických procesů je stacionarita, což znamená, že pravděpodobnostní rozdělení, které řídí chování stochastického procesu je v čase neměnné, proces je ve statistickém ekvilibriu O procesu {Y t} řekneme, že je striktně stacionární, jestliže simultánní rozdělení Y t1, Y t2,, Y tn je stejné jako simultánní rozdělení Y t1 k, Y t2 k,, Y tn k pro všechna t a všechna možná zpoždění k Jestliže funkce γ s,t závisí na svých argumentech pouze prostřednictvím jejich rozdílů k = s t, pak říkáme, že proces je kovariančně stacionární Autokovarianční funkcí takového procesu budeme rozumět funkci jedné proměnné γ k = γ s t = γ s,t Je-li navíc střední hodnota procesu µ t konstantní pro všechna t (µ t = µ), proces {Y t} označujeme za slabě stacionární V dalším budeme místo slabě stacionární proces psát jen krátce proces stacionární
Stacionarita autokovarianční a autokorelační funkce Autokovarianční funkce γ k stacionárního stochastického procesu je definována jako γ k = C(Y t, Y t k ) = E[(Y t µ)(y t k µ)], a autokorelační funkce (ACF) ρ k je dána vztahem ρ k = C(Yt, Y t k) D(Yt)D(Y t k ) = γ k γ 0
Parciální autokorelační funkce Korelace mezi dvěma náhodnými veličinami je často způsobena tím, že obě veličiny jsou korelovány s veličinou třetí Parciální autokorelace podávají informaci o korelaci veličin Y t a Y t k očištěnou o vliv veličin ležících mezi nimi Parciální autokorelaci se zpožděním k stacionárního procesu {Y t} vyjadřuje parciální regresní koeficient φ kk v autoregresi k-tého řádu Y t = φ k1 Y t 1 + φ k2 Y t 2 + + φ kk Y t k + e t, kde e t je veličina nekorelovaná s Y t j, j 1 Je to funkce zpoždění k a nazývá se parciální autokorelační funkce (PACF) ρ kk
Parciální autokorelační funkce Předpokládejme, že stacionární proces {Y t} má nulovou střední hodnotu Po vynásobení obou stran předchozí rovnice veličinou Y t j má střední hodnota této rovnice tvar takže platí Pro j = 1, 2,, k potom dostáváme γ j = φ k1 γ j 1 + φ k2 γ j 2 + + φ kk γ j k, ρ j = φ k1 ρ j 1 + φ k2 ρ j 2 + + φ kk ρ j k ρ 1 = φ k1 ρ 0 + φ k2 ρ 1 + + φ kk ρ k 1 ρ 2 = φ k1 ρ 1 + φ k2 ρ 0 + + φ kk ρ k 2 ρ k = φ k1 ρ k 1 + φ k2 ρ k 2 + + φ kk ρ 0 Tyto rovnice se nazývají Yule-Walkerovy rovnice
Parciální autokorelační funkce Řešením této soustavy (Cramerovým pravidlem) pro k = 1, 2, postupně dostáváme ρ 11 = φ 11 = ρ 1, 1 ρ1 ρ 1 ρ 2 ρ 22 = φ 22 = 1 = ρ2 ρ2 1, ρ1 1 ρ 2 1 ρ 1 1 1 ρ 1 ρ 2 ρ k 2 ρ 1 ρ 1 1 ρ 1 ρ k 3 ρ 2 ρ k 1 ρ k 2 ρ k 3 ρ 1 ρ k ρ kk = φ kk = 1 ρ 1 ρ 2 ρ k 2 ρ k 1 ρ 1 1 ρ 1 ρ k 3 ρ k 2 ρ k 1 ρ k 2 ρ k 3 ρ 1 1
Odhady Obecně jsou parametry µ, γ 0 a ρ k neznámé, za předpokladu stacionarity použijeme odhady µ = Y = 1 n n Y t, γ 0 = 1 n t=1 n (Y t Y ) 2 t=1 kde n je počet hodnot (délka) časové řady Odhad ρ k je dán výběrovou autokorelací n t=k+1 ρ k = (Yt Yt)(Y t k Y t) n t=1 (Yt Y, k = 1, 2,, n 1 )2 (V programu R lze spočítat pomocí funkce acf)
Odhady Výběrovou parciální korelační funkci získáme nahrazením ρ i jejím odhadem ˆρ i v odpovídajícím vzorci Byl však odvozen rekurzivní vztah, který výpočet zjednoduší ρ 11 = ρ 1 ρ kk = ˆρ k k 1 j=1 ρ k 1,j ρ k j 1 k 1 j=1 ρ, k 1,j ρ j ρ kj = ρ k 1,j ρ kk ρ k 1,k j, j = 1, 2,, k 1 (V programu R lze spočítat pomocí funkce pacf)
Proces bílého šumu white noise Důležitý stacionárním stochastickým procesem je tzv proces bílého šumu Jedná se o posloupnost nezávislých náhodných veličin se stejným rozdělením s nulovou střední hodnotou a konstantním rozptylem Pro bílý {ɛ t} platí { 1 k = 0 ρ k = 0 k 0 ρ kk = { 1 k = 0 0 k 0 Gaussovský bílý šum posloupnost nezávislých náhodných veličin s rozdělením N(0, σ 2 ɛ t )
Deterministický trend Např proces Y t = Y 0 + at, t = 1, n obsahuje deterministický lineární trend Y 0 označuje počáteční hodnotu Pro n = 100, Y 0 = 0, a = 1 proces zobrazený v grafu
Stochastický trend Např proces ( náhodná procházka nebo random walk ) Y t = Y t 1 + ɛ t, t = 1, n, kde ɛ t WN(0, σ 2 ) lze psát ve tvaru Y t = Y t 1 + ɛ t = (Y t 2 + ɛ t 1) + ɛ t = = (Y t 3 + ɛ t 2) + ɛ t 1 + ɛ t = = t = Y 0 + ɛ 1 + + ɛ t = Y 0 + i=1 Y 0 značí počáteční hodnotu Dvě z možných realizací procesu (simulací) pro n = 100, Y 0 = 0, ɛ t WN(0, 1) jsou zobrazeny v grafech ɛ i
Stochastický trend Např proces ( náhodná procházka s driftem) Y t = Y t 1 + a + ɛ t, t = 1, n, kde ɛ t WN(0, σ 2 ) lze psát ve tvaru Y t = Y t 1 + a + ɛ t = (Y t 2 + a + ɛ t 1) + a + ɛ t = (Y t 3 + a + ɛ t 2) + 2a + ɛ t 1 + ɛ t = = t = Y 0 + at + i=1 Y 0 značí počáteční hodnotu Jedna z možných realizací procesu (simulace) pro n = 100, Y 0 = 0, ɛ t WN(0, 1) je zobrazena v grafu ɛ i
Regrese Základem klasické analýzy časové řady Y t je její rozklad na trend T t, sezónní složku S t a složku reziduální (zbytkovou, náhodnou) e t V aditivním modelu má dekompozice tvar Y t = T t + S t + e t, v multiplikativním modelu potom tvar Y t = T t S t e t Obvyklou metodou, jak získat trend je využití lineárních filtrů T t = i= λ iy t+i
Regrese Jednoduchým příkladem lineárních filtrů jsou klouzavé průměry délky 2m + 1 s konstantními váhami 1 m ˆT t = Y t+i 2m + 1 i= m Vyrovnanou hodnotu časové řady v čase t získáme jako průměr hodnot Y t m,, Y t 1, Y t, Y t+1, Y t+m Například pro m = 1 dostáváme klouzavý průměr délky 3 ˆT t = 1 (Yt 1 + Yt + Yt+1) 3 V programu R lze klouzavé průměry určit pomocí funkce filter nebo funkce ma z balíčku forecast
Regrese Graf zobrazuje obsahuje měsíční produkci piva v Austrálii od ledna 1956 do srpna 1995
Regrese Grafy zobrazují klouzavé průměry délky 5 (a = 2), 25 (a = 12), 81 (a = 20)
Regrese Délka filtru ovlivňuje stupeň vyhlazení Čím větší je délka klouzavého průměru, tím větší je vyhlazení časové řady Délku klouzavého průměru obvykle volíme tak, aby odpovídala periodě sezónních nebo cyklických fluktuací Při zpracování ekonomických časových řad se často zpracováváme čtvrtletní případně měsíční údaje, jež často obsahují sezónní složku opakující po sudém počtu pozorování (po čtyřech příp dvanácti hodnotách) Pro tyto případy lze použít tzv centrované klouzavé průměry Pro případ čtvrtletních měření určíme vyrovnanou hodnotu ze vztahu ˆT t = 1 [ 1 2 4 (Yt 2 + Yt 1 + Yt + Yt+1) + 1 ] (Yt 1 + Yt + Yt+1 + Yt+2) = 4 = 1 (Yt 2 + 2Yt 1 + 2Yt + 2Yt+1 + Yt+2) 8 Jedná je o klouzavý průměr délky 5 s váhami 1, 1, 1, 1, 1 Analogicky pro 8 4 4 4 8 měsíční použijeme klouzavé průměry délky 13 typu ˆT t = 1 (Yt 6 + 2Yt 5 + + 2Yt+5 + Yt+6) 24
Regrese (v R je možné je počítat pomocí funkce filter) jsou základem klasické dekompozice, kterou v programu R provádí funkce decompose Poněkud sofistikovanější metodu dekompozice nabízí funkce stl Dekompozici časové řady lze také provádět pomocí lineární regrese (funkce lm viz regresní analýza) Mimo trendu (lineárního, kvadratického atd) je často vhodné do regresního modelu přidat buď sezónní složky, nebo periodické funkce s vhodnými periodami
Regrese Použití regresní analýzy Na obrázku je znázorněn vývoj hrubé měsíční mzdy v ČR v období 2000 2012, jedná se o čtvrtletní data
Regrese Použití regresní analýzy odhadneme pomocí přímkové regrese, pro numerickou stabilitu výpočtu provedeme transformaci časové proměnné t = rok 1999, takže t = 1, 13 Odhad Sm chyba t-test p-hodnota konstanta 11875,9388 286,5841 41,44 0,0000 t 1051,1374 34,6343 30,35 0,0000
Regrese Použití regresní analýzy Periodickou složku odhadneme pomocí dummy proměnných q 1, q 2, q 3, q 4 potom pomocí polynomu 3 stupně konstantu do modelu nezahrneme, vznikne vlastně součtem dummy proměnných q 1, q 2, q 3, q 4 q 1 = (1, 0, 0, 0, 1, 0, 0, 0,, 1, 0, 0, 0) q 2 = (0, 1, 0, 0, 0, 1, 0, 0,, 0, 1, 0, 0) q 3 = (0, 0, 1, 0, 0, 0, 1, 0,, 0, 0, 1, 0) q 4 = (0, 0, 0, 1, 0, 0, 0, 1,, 0, 0, 0, 1) Odhad Sm chyba t-test p-hodnota t 484,4349 152,8450 3,17 0,0027 t 2 111,4610 23,3280 4,78 0,0000 t 3 5,7907 1,0430 5,55 0,0000 q 1 11684,2530 282,8990 41,30 0,0000 q 2 12457,0559 287,3388 43,35 0,0000 q 3 12138,0542 291,5674 41,63 0,0000 q 4 13921,6368 295,6681 47,09 0,0000
Regrese Použití regresní analýzy
Regrese Použití regresní analýzy Vyjdeme-li z uvedeného regresního modelu, dostaneme predikce da rok 2013 spolu s 95% intervaly spolehlivosti predikce dolní horní 2013, 1 čtvrtletí 24423,14 24008,05 24838,23 2013, 2 čtvrtletí 25237,73 24777,01 25698,44 2013, 3 čtvrtletí 24943,50 24431,21 25455,79 2013, 4 čtvrtletí 26734,30 26164,51 27304,09