Univerzita Palackého v Olomouci , Ostrava

Podobné dokumenty
Úvod do analýzy časových řad

Časové řady, typy trendových funkcí a odhady trendů

Časové řady, typy trendových funkcí a odhady trendů

Modely stacionárních časových řad

Modely pro nestacionární časové řady

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

Modely pro nestacionární časové řady

Cvičení 9 dekompozice časových řad a ARMA procesy

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Fakulta elektrotechnická. Komponenta pro měření a predikci spotřeby elektrické energie

Lineární modely časových řad a jejich aplikace na vybraných ekonomických problémech

REGRESNÍ ANALÝZA NESTACIONÁRNÍCH EKONOMICKÝCH ČASOVÝCH ŘAD

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ

Měření závislosti statistických dat

Funkce komplexní proměnné a integrální transformace

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy. Mgr. David Fiedor 4. května 2015

Univerzita Karlova v Praze procesy II. Zuzana. Predikce

KGG/STG Statistika pro geografy

Odhad parametrů N(µ, σ 2 )

Časové řady a jejich periodicita pokračování

Ekonometrie. Jiří Neubauer

Modelování finančních časových řad pomocí vybraného stochastického modelu

Řešení. Označme po řadě F (z) Odtud plyne, že

Statistika II. Jiří Neubauer

Přednáška 4. Lukáš Frýd

VYUŽITÍ WAVELETŮ PŘI ANALÝZE ČASOVÝCH ŘAD 2. PRAKTICKÁ ČÁST

AVDAT Geometrie metody nejmenších čtverců

Charakterizace rozdělení

Základy ekonometrie. XI. Vektorové autoregresní modely. Základy ekonometrie (ZAEK) XI. VAR modely Podzim / 28

odpovídá jedna a jen jedna hodnota jiných

Teorie časových řad Test 2 Varianta A HODNOCENÍ (max. 45 bodů z 50 možných)

Funkce jedné proměnné

Matematická analýza ve Vesmíru. Jiří Bouchala

SIGNÁLY A SOUSTAVY, SIGNÁLY A SYSTÉMY

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

STATISTIKA I Metodický list č. 1 Název tématického celku:

SEMINÁRNÍ PRÁCE Z 4ST432 Tereza Michlíková (xmict05) ZS 06/07

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

MATEMATICKÁ STATISTIKA - XP01MST

10. cvičení - LS 2017

Alternativní způsoby investičního rozhodování u vybraných akciových podílových fondů v ČR

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

Neuronové časové řady (ANN-TS)

Odhad parametrů N(µ, σ 2 )

STATISTICKÝCH METOD SE ZAMĚŘENÍM NA METODU BOX-JENKINS

Pojmy z kombinatoriky, pravděpodobnosti, znalosti z kapitoly náhodná veličina, znalost parciálních derivací, dvojného integrálu.

Univerzita Pardubice. Fakulta ekonomicko-správní Ústav systémového inženýrství a informatiky

ALGEBRA. Téma 5: Vektorové prostory

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

SPC v případě autokorelovaných dat. Jiří Michálek, Jan Král OSSM,

Lineární algebra : Metrická geometrie

Regresní a korelační analýza

Soustavy lineárních diferenciálních rovnic I. řádu s konstantními koeficienty

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY a SYSTÉMY

Normální (Gaussovo) rozdělení

Regresní a korelační analýza

Přechodné děje 2. řádu v časové oblasti

7. Funkce jedné reálné proměnné, základní pojmy

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Úvod do zpracování signálů

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

9.2. Zkrácená lineární rovnice s konstantními koeficienty

Literatura: Kapitola 2 d) ze skript Karel Rektorys: Matematika 43, ČVUT, Praha, Text přednášky na webové stránce přednášejícího.

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

JIHOČESKÁ UNIVERZITA V ČESKÝCH BUDĚJOVICÍCH. Ekonomická fakulta. Katedra aplikované matematiky a informatiky. Diplomová práce

Aplikovaná ekonometrie 7. Lukáš Frýd

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Regresní a korelační analýza

Nejprve si připomeňme z geometrie pojem orientovaného úhlu a jeho velikosti.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Tomáš Karel LS 2012/2013

SIGNÁLY A LINEÁRNÍ SYSTÉMY

4EK211 Základy ekonometrie

Ukázka závěrečného testu

Možnosti vyhodnocení časových řad v softwaru STATISTICA

Statistická analýza jednorozměrných dat

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

Diferenˇcní rovnice Diferenciální rovnice Matematika IV Matematika IV Program

PRAVDĚPODOBNOST A STATISTIKA

1. Přednáška. Ing. Miroslav Šulai, MBA

Regrese. používáme tehdy, jestliže je vysvětlující proměnná kontinuální pokud je kategoriální, jde o ANOVA

4EK211 Základy ekonometrie

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Lineární a adaptivní zpracování dat. 1. ÚVOD: SIGNÁLY, ČASOVÉ ŘADY a SYSTÉMY

Regresní a korelační analýza

4.1 Metoda horizontální a vertikální finanční analýzy

Stavový model a Kalmanův filtr

Univerzita Karlova v Praze procesy II. Zuzana. funkce

Testování hypotéz o parametrech regresního modelu

PŘEDNÁŠKA 2 POSLOUPNOSTI

SIGNÁLY A LINEÁRNÍ SYSTÉMY

Regresní analýza 1. Regresní analýza

Transkript:

Časové řady II Ondřej Vencálek Univerzita Palackého v Olomouci ondrej.vencalek@upol.cz seminář pro VŠB-TUO 2015-03-20, Ostrava

Nové kreativní týmy v prioritách vědeckého bádání CZ.1.07/2.3.00/30.0055 Tento projekt je spolufinancován z ESF a státního rozpočtu ČR.

Co nás čeká V první části modelování sezónnosti model konstantní sezónnosti a model proporcionální sezónnosti Holt-Wintersova metoda model skrytých period Ve druhé části úvod do Box-Jenkinsonovy metodologie stacionarita, autokorelační a parciální autokorelační funkce procesy MA, AR, ARMA procesy ARIMA, SARIMA

Připomenutí: rozklad č.ř. na jednotlivé složky Trendova slozka Sezonni slozka Tr 200 300 400 500 Se 20 10 0 10 20 0 10 20 30 40 50 60 0 10 20 30 40 50 60 t t Nahodna slozka E 20 10 0 10 20 200 300 400 500 y Trendova + Sezonni + Nahodna slozka 0 10 20 30 40 50 60 0 10 20 30 40 50 60 t t Aditivní dekompozice časové řady: y(t) = Tr(t)+Se(t)+E(t)

Týdenní periodicita počtu zobrazení jisté stránky wikipedie pocet zobrazeni stranky 350 400 450 500

Model konstantní sezónnosti indexy Indexování času: (i, j), kde i je číslo sezóny j je číslo pozorování v rámci i-té sezóny Např. při týdenní periodicitě je pozorování s číslem 11 číslováno dvojicí (2,4), nebot 11 = 1 7+4 (jeden celý týden uběhl, nyní je 4. den 2. týdne.

Model konstantní sezónnosti y (i,j) = Tr (i,j) +Sz (i,j) +E (i,j) Sz (i,j) = β j tj. efekt sezónnosti je stejný (konstantní) ve všech sezónách. Trend může být konstantní, lineární, kvadratický,...

Model konstantní sezónnosti (s konstantním trendem) pocet zobrazeni stranky 350 400 450 500 Model: y i,j = α+β j +E (i,j)

Identifikovatelnost Představme si délku periody 4. Následující situace jsou nerozlišitelné : α = 10 β 1 = 1,β 2 = 3,β 3 = 1,β 4 = 1 α = 10,5 β 1 = 0,5,β 2 = 2,5,β 3 = 1,5,β 4 = 1,5 α = 11 β 1 = 0,β 2 = 2,β 3 = 2,β 4 = 2... Musíme si vybrat. Běžně se používá jedna z podmínek identifikovatelnosti: β 1 = 0 (default v R-ku) β j = 0

Model konstantní sezónnosti (s konstantním trendem) odhady parametrů MNČ R-ko: lm(navstevnost as.factor(denvtydnu)) parametr odhad p-value α 482,8 < 0, 001 β 2 7,2 0,662 β 3-13,6 0,411 β 4-21,4 0,200 β 5-69,8 < 0,001 β 6-109.4 < 0,001 β 7-90.8 < 0,001

Ne vždy je situace tak jednoduchá Tatáž časová řada v delším horizontu (od začátku roku 2015 do současnosti). Návštěvnost stránky http://en.wikipedia.org/wiki/milan_kundera pocet zobrazeni stranky 300 400 500 600 700

Odlehlá pozorování Co je cílem analýzy? Pokud je to odhad efektu dne (v běžné situaci), pak nám outliery komplikují situaci, protože vychylují odhad pro některé dny. pocet zobrazeni stranky 300 400 500 600 700 po ut st ct pa so ne Nějaká vysvětlení outlierů?

Odlehlá pozorování Co je cílem analýzy? Pokud je to odhad efektu dne (v běžné situaci), pak nám outliery komplikují situaci, protože vychylují odhad pro některé dny. pocet zobrazeni stranky 300 400 500 600 700 po ut st ct pa so ne Nějaká vysvětlení outlierů?

Výsledné proložení pocet zobrazeni stranky 300 400 500 600 700... bylo získáno odhadem efektů jednotlivých dnů na datech, z nichž byly vyloučeny tři odlehlé hodnoty (tři po sobě jdoucí dny).

Anna Atkins Anna Atkins (16. března 1799 9. června 1871) anglická botanička a fotografka; je často považována za první osobu, která vydala knihu ilustrovanou fotografickými obrázky (1843: Photographs of British Algae: Cyanotype Impressions) http://cs.wikipedia.org/wiki/anna_atkinsová http://en.wikipedia.org/wiki/anna_atkins https://www.google.com/doodles

Efekt doodlu 1 000 000 100 000 10 000 1 000 100 16.3.2015

Model proporcionální sezónnosti y (i,j) = Tr (i,j) +Sz (i,j) +E (i,j) Sz (i,j) = c j Tr (i,j) y (i,j) = (1+c j )Tr (i,j) +E (i,j) tj. efekt sezónnosti je multiplikativní tj. jeho velikost je úměrná velikosti trendu. Trend může být konstantní, lineární, kvadratický,... c j = 0 j

Holt-Winters (HW) adaptivní přístup k trednové složce ukážeme HW pro lokálně lineární trend přidána složka sezónní multiplikativní a aditivní verze HW podstata HW: dvojí optika

Holt-Winters y t = Tr t +Sz t +E t (aditivní HW) y t = Tr t Sz t E t (multiplikativní HW) Tr t = β 0 +β 1 t

Holt-Winters: rekurentní vztahy pro odhady Tr t a Sz t Situace: Pro všechny časy minulé, tj. τ = 1,...,t 1 máme Tr(τ) tedy β 0 (τ) a β 1 (τ), a Ŝz(τ). Chceme odhad jednotlivých složek (Tr t,sz t,β 1 ) pro současnost, tj. pro čas t, v němž máme nové pozorování y t.

Dvojí optika: trend y t Tr t +Sz t Tr t y t Sz t (pohled využívající novou informaci y t ) Tr t = β 0 +β 1 t = β 0 +β 1 (t 1)+β 1 Tr t = Tr t 1 +b 1 (pohled využívající starých informací) Využití: Tr(t) = α ] ] [y t Ŝz(t L) +(1 α)[ Tr(t 1)+ β1 (t 1)

Dvojí optika: směrnice trendu Tr t = β 0 +β 1 t = β 0 +β 1 (t 1)+β 1 = Tr t 1 +β 1 β 1 = Tr t Tr t 1 (pohled využívající novou informaci) trend je lokálně lineární, tedy (β 1 v čase t) (β 1 v čase t 1) (pohled využívající starých informací) Využití: ] β 1 (t) = ξ [ Tr(t) Tr(t 1) +(1 ξ) β 1 (t 1)

Dvojí optika: sezónní složka y t Tr t +Sz t Sz t y t Tr t (pohled využívající novou informaci y t ) při délce sezóny L Sz t Sz t L (pohled využívající starých informací) Využití: [ ] Ŝz(t) = γ y t Tr(t) +(1 γ)ŝz(t L)

Váhy α,ξ,γ hodnoty v intervalu (0,1) jakou váhu přikládáme novým informacím a jakou starým minulé odhady v sobě nesou informace z delší minulosti, váhy tedy určují, jak rychle zapomínáme minulost můžeme nastavit tak, abychm minimalizovali chybu predikcí (viz minule)

Počáteční odhady Pořebujeme Tr0 (0) = β 0 (0), β1 (0) Ŝz(1 L),Ŝz(2 L),...,Ŝz(L L) Jak si je opatřit? Třeba odhadem parametrů modelu konstantní sezónnosti s lineárním trendem na počátečním úseku č.ř.

Predikce pomocí HW ŷ t+τ (t) = Tr(t)+ β 1 (t) τ +Ŝz(t +τ L) Pokud τ > L, použijeme místo Ŝz(t +τ L) nejaktuálnější odhad sezónní složky odpovídající sezónnosti v čase t +τ, např. Ŝz(t +τ 2L), Ŝz(t +τ 3L),...

Model skrytých period y 0.5 0.0 0.5 0 1 2 3 4 5 6 t y t = 0,5 sin(3t)+0,25 sin(10t)

Terminologie A... amplituda T... perioda 1 T 2π T... frekvence... úhlová frekvence ϕ... fázový posun t... čas ( ) 2π f(t) = Asin T t +ϕ

Báze prostoru funkcí s periodou T { sin ( j 2π T t ),cos ( j 2π T t )} j N 0

Model skrytých period y t = a 0 + w j = 2π n j H H a j sin(w j t)+ b j cos(w j t) j=1 j=1 H = (n 1)/2 pro n liché, H = n/2 pro n sudé n je základní perioda, n/2,n/3,...,2 vedlejší periody a 0,a 1,...,a H, b 1,...,b H neznámé parametry

Odhad parametrů MNČ â 0 = 1 n â k = 2 n b k = 2 n n y t = ȳ t=1 n y t sin(w k t) k = 1,...,H t=1 n y t cos(w k t) k = 1,...,H t=1

Periodogram Označme n (ŷ t ŷ t ) 2 = 1 2 t=1 H (âj 2 + ˆb j 2 ) j=1 I j = (â 2 j + ˆb 2 j ), j = 1,...,H Čím větší I j, tím více j-tá perioda přispívá k celkové variabilitě Periodogram pro data o návštěvnosti stránky M.Kundery na wikipedii: 0 500 1000 1500 I j 5 10 15 j

Periodogram příklad Periodogram pro data o návštěvnosti stránky M.Kundery na wikipedii: 0 500 1000 1500 I j 5 10 15 j n = 35 (denní data za 5 týdnů) w 5 = 2π 35 5 = 2π 7, tedy délka nejvýznamnější periody je 7 dní čili týden

Příklad model s jedinou významnou frekvencí ( ) ( ) 2π 2π y t = 440,3+46,9sin 7 t 32,4cos 7 t y 350 400 450 500 0 5 10 15 20 25 30 35 t

Příklad další významné frekcence k = 10 T = 3,5 = 7/2: přidáním této frekvence není porušena týdenní periodocita k = 3 T = 11,67: perioda, která poruší týdenní periodicitu úrovně různých týdnů budou různé; dlouhodobější koĺısání

Příklad model frekvencí 1/7 a 2/7 y 350 400 450 500 0 5 10 15 20 25 30 35 t

Příklad model frekvencí 1/7 a 2/7 a 3/35 y 350 400 450 500 0 5 10 15 20 25 30 35 t

Písmenkové zmatky Upozornění týkající se používání velkých a malých písmen v odborné literatuře: statistici občas až pedantsky rozlišují symboly Y (náhodná veličina) a y (realizace náhodné veličiny; reálné číslo), časovkáři (zvláštní druh statistiků) dosti často používají symbolu y pro náhodnou veličinu Omluva: v této prezentaci občas použiji pro náhodnou veličinu velké a občas malé písmeno.

2 0 2 4 0 50 100 150 200 2 1 0 1 2 3 0 50 100 150 200 4 2 0 2 0 50 100 150 200

2 0 2 4 0 50 100 150 200 2 1 0 1 2 3 0 50 100 150 200 4 2 0 2 0 50 100 150 200

Korelace po sobě jdoucích hodnot yt+1 6 4 2 0 2 4 6 yt+1 6 4 2 0 2 4 6 yt+1 6 4 2 0 2 4 6 4 2 0 2 4 4 2 0 2 4 4 2 0 2 4 yt yt yt

Bílý šum (white noise) ǫ t, t =..., 1,0,1,...i.i.d. ǫ t N(0,σ 2 ), tj. nezávislé, stejně rozdělené s nulovou stř. hodnotou. Bily sum 2 1 0 1 2 3 0 50 100 150 200 http://en.wikipedia.org/wiki/white_noise

Procesy MA(1) Posloupností klouzavých součtů řádu 1 (Moving Average MA) rozumíme posloupnost náhodných veličin danou předpisem y t = ǫ t +θǫ t 1, kde {ǫ t } je bílý šum (ǫ t N(0,σ 2 )), θ R je parametr procesu.

MA(1), theta= 0.9 2 0 2 4 0 50 100 150 200 MA(1), theta= 0 2 1 0 1 2 3 0 50 100 150 200 MA(1), theta= 0.9 4 2 0 2 0 50 100 150 200

Procesy MA(1): střední hodnota a rozptyl E(Y t ) = E(ǫ t +θǫ t 1 ) = E(ǫ t )+θe(ǫ t 1 ) = 0+θ 0 = 0 var(y t ) = var(ǫ t +θǫ t 1 ) = var(ǫ t )+var(θǫ t 1 )+2cov(ǫ t,θǫ t 1 ) = = var(ǫ t )+θ 2 var(ǫ t 1 ) = σ 2 +θ 2 σ 2 = σ 2 (1+θ 2 ) Všimněte si: střední hodnota a rozptyl jsou v čase konstantní.

Procesy MA(1): korelace cov(y t,y t 1 ) = cov(ǫ t +θǫ t 1,ǫ t 1 +θǫ t 2 ) = = cov(ǫ t,ǫ t 1 )+θcov(ǫ t,ǫ t 2 )+ +θcov(ǫ t 1,ǫ t 1 )+θ 2 cov(ǫ t 1,ǫ t 2 ) = = 0+0+θvar(ǫ t 1 )+0 = θσ 2 cov(y t,y t k ) = cov(ǫ t +θǫ t 1,ǫ t k +θǫ t 1 k ) = = cov(ǫ t,ǫ t k )+θcov(ǫ t,ǫ t 1 k )+ +θcov(ǫ t 1,ǫ t k )+θ 2 cov(ǫ t 1,ǫ t 1 k ) = = 0+0+0+0 = 0 pro k > 1 Připomeňme, že var(y t ) = var(y t 1 ) = σ 2 (1+θ 2 ), tudíž θ cor(y t,y t 1 ) = 1+θ 2 cor(y t,y t k ) = 0 pro k > 1 Všimněte si: korelace dvou po sobě jdoucích (náhodných) hodnot procesu je v čase konstantní.

Procesy MA(1): korelace cor(y t, Y t 1 ) 0.5 0 0.5 1 0 1 θ cor(y t,y t 1 ) 1/2

STACIONARITA U procesů MA(1) jsme ukázali, že mají následující vlastnosti: střední hodnota je konstantní v čase, tj. E(Y t ) = µ pro všechna t =..., 1,0,1,... rozptyl je konstantní v čase, tj. var(y t ) = σ 2 pro všechna t =..., 1,0,1,... korelace dvou hodnot náhodného procesu závisí jen na jejich vzdálenosti, nikoliv na čase, tj. cor(y t,y t+h ) = cor(y s,y s+h ) pro libovolné t,s a časovou vzdálenost h. Procesy, které tyto vlastnosti mají, se nazývají slabě stacionární. Důležitost stacionarity popisuje Cipra slovy: V Box-Jenkinsově metodologii lze modelovat pouze stacionární časové řady, přičemž ovšem pomocí různých transformací (nejčastěji pomocí diferencování) je možné mnoho nestacionárních časových řad z praxe převést na stacionární.

AUTOKORELAČNÍ FUNKCE Autokorelační funkcí stacionární časové řady {Y t,t Z} rozumíme funkci Poznámky: ρ : Z [ 1,1] k cor(y t,y t+k ) rozmyslete si, že bez předpokladu stacionarity procesu nemá autokorelační funkce smysl jde o sudou funkci, tj. ρ(k) = ρ( k), nebot cor(y t,y t+k ) = cor(y t,y t k ) (podmínka stacionarity) proto stačí zkoumat autokorel. funkci jen pro k 0 ρ(0) = 1, nebot ρ(0) = cor(y t,y t ) = 1

Autokorelační funkce procesů MA(1) Ukázali jsme, že ρ(1) = cor(y t,y t 1 ) = θ 1+θ 2 ρ(k) = cor(y t,y t k ) = 0 pro k > 1 cor(y t, Y t+k ) 0 1 0 1 2 3 4 5 6 7 8 9 k Graf: autokorelační funkce procesu MA(1) s parametrem θ = 0, 9.

Procesy MA(q) Posloupností klouzavých součtů řádu q (Moving Average MA) rozumíme posloupnost náhodných veličin danou předpisem y t = ǫ t +θ 1 ǫ t 1 +θ 2 ǫ t 2 +...+θ q ǫ t q, kde {ǫ t } je bílý šum (ǫ t N(0,σ 2 )), θ 1 R,...,θ q R jsou parametry procesu.

Procesy MA(q): stř. hodnota, rozptyl, autokorelační funkce Autokorelační funkce: E(Y t ) = 0 var(y t ) = (1+θ 2 1 +...+θ 2 q) σ 2 ρ k = cor(y t,y t+k ) = θ k +θ 1 θ k+1 +...+θ q k θ q 1+θ1 2 +...+θ2 q ρ k = cor(y t,y t+k ) = 0 pro k q pro k > q Opět vidíme, že procesy MA(q) jsou stacionární. Odvození je jednoduché cvičeníčko zkuste si.

Procesy MA(q): příklady autokorelačních funkcí MA(2): θ 1= 1,0, θ 2= 0,7 MA(2): θ 1= 1,0, θ 2= 0,7 cor(y t, Yt+k) 0 1 cor(y t, Yt+k) 1 0 1 0 1 2 3 4 5 6 7 k MA(2): θ 1= 0,0, θ 2= 0,5 0 1 2 3 4 5 6 7 k MA(3): θ 1= 1,0, θ 2= 0,1, θ 3= 0,9 cor(y t, Yt+k) 1 0 1 cor(y t, Yt+k) 1 0 1 0 1 2 3 4 5 6 7 k 0 1 2 3 4 5 6 7 k

Proč je pro nás autokorel. funkce důležitá? Korelační koeficient umíme z dat odhadnout, Tedy umíme odhadnout, jak vypadá autokorelační funkce, Podle tvaru odhadnuté autokorel. funkce se můžeme rozhodnout, jaký model bude vhodný pro naše data. Hodnotu odhadu (auto)korelace můžeme využít k odhadu parametrů (θ) daného procesu.

Příklad interpretace odhadu autokorel. funkce Na začátku jsme viděli simulovaných 200 hodnot procesu MA(1) s parametrem θ = 0,9. Jeho autokorelační funkce má hodnotu 90/181 =0, 497 pro k = 1 a je nulová pro k > 1. Představme si, že nevíme, že jde o proces typu MA(1) a neznáme hodnotu θ. Odhadnutá autokorelační funkce: Odhad autokorelacni funkce ACF 0.2 0.2 0.6 1.0 0 5 10 15 20 Lag

Odhad autokorel. funkce Odhad autokovarianční funkce: c k = 1 n k n t=1 (Y t Ȳ)(Y t+k Ȳ) Odhad autokorelační funkce: r k = c k c 0

Odhad autokorel. funkce Bartlettova aproximace Je-li ρ k = 0 pro k > k 0, pak var(r k ) 1 k 0 1+2 n j=1 r 2 j pro k > k 0

Využití odhadu autokorel. funkce pro odhad parametru θ Víme ρ(1) = θ 1+θ 2 a umíme hodnotu autokorelace odhadnout. ρ(1) θ 2 θ + ρ(1) = 0 θ = 1 1 4 ρ(1) 2 2 ρ(1) Druhý kořen odpovídá procesu, který není invertibilní (vysvětĺıme později).

Jiný typ modelu y1 4 0 2 4 6 0 50 100 150 200 cas

Autokorelační funkce předešlého procesu (odhad) ACF 0.0 0.4 0.8 0 5 10 15 20 Lag

Procesy AR(1) Autoregresním procesem řádu 1 rozumíme posloupnost náhodných veličin {y t } danou předpisem y t = φy t 1 +ǫ t, kde {ǫ t } je bílý šum (ǫ t N(0,σ 2 )), φ R je parametr procesu.

Satcionarita procesů AR(1) y t = φy t 1 +ǫ t, Proces AR(1) nemusí být stacionární záleží na hodnotě parametru φ. AR(1): φ = 1,0 y1 y2 20 20 1.5e+25 0.0e+00 0 200 400 600 800 1000 1200 cas AR(1): φ = 1,05 0 200 400 600 800 1000 1200 cas

Satcionarita procesů AR(1) neformální odvození y t = φy t 1 +ǫ t y t = φ(φy t 2 +ǫ t 1 )+ǫ t y t = φ 2 y t 2 +φǫ t 1 +ǫ t y t = φ 3 y t 3 +φ 2 ǫ t 2 +φǫ t 1 +ǫ t. k 1 y t = φ k y t k + φ j ǫ t j, j=0 k N Pro φ < 1 je modrý člen zanedbatelný, zbytek je proces MA, o němž víme, že je stacionární. Procesy AR(1) jsou stacionární, pokud φ < 1.

Stacionární procesy AR(1): střední hodnota E(y t ) = E(φy t 1 +ǫ t ) = E(y t )(1 φ) = 0 E(y t ) = 0 = φe(y t 1 )+E(ǫ t ) = = φe(y t )+0 Využili jsme předpoklad stacionarity, nejprve v rovnosti E(y t 1 ) = E(y t ), poté v posledním kroku, kde φ < 1.

Stacionární procesy AR(1): rozptyl var(y t ) = var(φy t 1 +ǫ t ) = var(y t )(1 φ 2 ) = σ 2 var(y t ) = = φ 2 var(y t 1 )+var(ǫ t )+2φcov(y t 1,ǫ t ) = = φ 2 var(y t )+var(ǫ t )+0 = = φ 2 var(y t )+σ 2 σ 2 1 φ 2 Pozornost si zaslouží rovnost cov(y t 1,ǫ t ) = 0, uvědomme si, že y t je definováno pomocí minulých hodnot procesu {y t } a současné hodnoty bílého šumu ǫ t. Hodnota v čase t 1(y t 1 ), tedy musí být nezávislá s hodnotou bílého šumu v čase t, který je z pohledu času t 1 budoucností.

Stacionární procesy AR(1): korelace Pro výpočet použijeme vztah, který jsme odvodili o 3 slajdy dříve: k 1 y t = φ k y t k + φ j ǫ t j, j=0 k N k 1 cov(y t,y t k ) = cov(φ k y t k + φ j ǫ t j,y t k ) = ρ(k) = cor(y t,y t k ) = φ k j=0 k 1 = φ k cov(y t k,y t k )+ φ j cov(ǫ t j,y t k ) = j=0 = φ k cov(y t k,y t k )+0 = = φ k σ 2

Stacionární procesy AR(1): autokorelační funkce AR(1): φ= 0,9 cor(y t, Y t+k ) 0 1 0 1 2 3 4 5 6 7 8 9 10 k AR(1): φ= 0,9 cor(y t, Y t+k ) 1 0 1 0 1 2 3 4 5 6 7 8 9 10 k

Potřeba přímé korelace y t = φy t 1 +ǫ t y t 1 = φy t 2 +ǫ t 1 y t ǫ t y t 1 ǫ t 1 y t 2 Korelace mezi y t a y t 2 je přes y t 1. Existuje však mezi nimi přímá korelace? KONCEPT PARCIÁLNÍ KORELACE

Připomenutí jednoho příkladu z minula X: počet právníků ve státě Kansas Y: počet úmrtí v důsledku pádu ze schodů v USA máme k dispozici údaje za období 1999 až 2008 (10 let) cor(x,y) = 0,98 1300 1500 1700 1900 1999 2001 2003 2005 2007 rok 7000 7300 7600

Připomenutí jednoho příkladu z minula X: počet právníků ve státě Kansas Y: počet úmrtí v důsledku pádu ze schodů v USA Z: počet obyvatel USA X տ??? Z Y ր Je mezi X a Y nějaký jiný vztah, než že obě přímo úměrně rostou s rostoucím Z?

Odpověd na předešlou otázku Odhadněme (lineární) závislost X na Z X = β 0 +β 1 Z +ǫ X X = β 0 + β 1 Z Odhadněme (lineární) závislost Y na Z Y = β 0 +β 1 Z +ǫ Y Ŷ = β 0 + β1 Z Studujme korelaci veličin X X a Y Ŷ, tj. zabývejme se tou částí vztahu X a Y, kterou nelze vysvětlit pomocí Z. cor(x X,Y Ŷ) =: ρ X,Y.Z Parciální korelační koeficient X a Y při daném Z.

Otázka pro Vás! Jaký byste očekávali paricální korelační koeficient X a Y při daném Z? X: počet právníků ve státě Kansas Y: počet úmrtí v důsledku pádu ze schodů v USA Z: počet obyvatel USA Jde o korelační koeficient rozdílu skutečného počtu právníků v Kansasu a očekávaného (dle velikosti Americké populace) rozdílu skutečného počtu úmrtí... a očekávaného (dle velikosti Americké populace) Já bych očekával hodnotu bĺızkou nule.

Otázka pro Vás! Jaký byste očekávali paricální korelační koeficient X a Y při daném Z? X: počet právníků ve státě Kansas Y: počet úmrtí v důsledku pádu ze schodů v USA Z: počet obyvatel USA Jde o korelační koeficient rozdílu skutečného počtu právníků v Kansasu a očekávaného (dle velikosti Americké populace) rozdílu skutečného počtu úmrtí... a očekávaného (dle velikosti Americké populace) Já bych očekával hodnotu bĺızkou nule.

Překvapení Tak že by přece jen ti právníci... ρ X,Y.Z = 0,68

Možné vysvětlení Kansas nebyl v příkladu zvolen úplně náhodně, byl to stát (z 51) s druhou nejsilnější korelací mezi X a Y. Korelační koeficient se pohyboval kolem hodnoty 0,91 (medián). Parciální korelační koeficient se pohyboval kolem hodnoty 0,19 (medián). (Ale pořád je tu možnost, že přece jen ti právníci... že existuje kauzální vztah mezi počtem právníků v Kansasu a počtem úmrtí při pádu ze schodů v USA)

PARCIÁLNÍ AUTOKORELAČNÍ FUNKCE Parciální autokorelační funkcí stacionární časové řady {Y t,t Z} rozumíme funkci ρ : Z [ 1,1] k pcor(y t,y t+k ), kde pcor(y t,y t+k ) označuje parciální korelační koeficient veličin Y t a Y t+k při daných Y t+1,...,y t+k 1.

Parciální autokorelační funkce v procesech AR(1) Spočtěme např.pcor(y t,y t 2 ) y t 1 = φy t 2 +ǫ t 1 y t = φy t 1 +ǫ t ŷ t 2 = 1 φ y t 1 ŷ t = φy t 1 y t ŷ t = ǫ t y t 2 ŷ t 2 = 1 φ ǫ t 1 pcor(y t,y t 2 ) = cor(y t ŷ t,y t 2 ŷ t 2 ) = cor(ǫ t, 1 φ ǫ t 1) = 0

Parciální autokorelační funkce v procesech AR(1) Partial ACF 0.0 0.4 0.8 2 4 6 8 10 12 14 Lag

Parciální autokorelační funkce v procesech AR(1) a MA(1)

Parciální autokorelační funkce v procesech MA(1) pcor(y t,t t k ) = ( 1)k 1 θ k (1 θ 2 ) 1 θ 2(k+1) k = 2,3,... Je omezena geometricky klesající posloupností pcor(y t,t t k ) < θ k

Parciální autokorelační funkce v procesech MA(1) PACF pro proces MA(1) s parametrem θ = 0,9 PACF pro proces MA(1) s parametrem θ = 0,5 PACF 1.0 0.0 0.5 1.0 PACF 1.0 0.0 0.5 1.0 2 4 6 8 10 2 4 6 8 10 lag lag PACF pro proces MA(1) s parametrem θ = 0,5 PACF pro proces MA(1) s parametrem θ = 0,9 PACF 1.0 0.0 0.5 1.0 PACF 1.0 0.0 0.5 1.0 2 4 6 8 10 2 4 6 8 10 lag lag

Procesy AR(p) Autoregresním procesem řádu p rozumíme posloupnost náhodných veličin {y t } danou předpisem y t = φ 1 y t 1 +φ 2 y t 2 +...+φ p y t p +ǫ t, kde {ǫ t } je bílý šum (ǫ t N(0,σ 2 )), φ 1 R,...,φ p R jsou parametry procesu.

Procesy AR(p): podmínka stacionarity, stř. hodnota, rozptyl E(Y t ) = 0 var(y t ) = σ 2 1 φ 1 ρ 1... φ p ρ p Podmínka stacionarity: všechna řešení rovnice 1 p φ j x j = 0 j=1 musí ležet vně jednotkového kruhu. (pro p = 1 má rovnice tvar 1 φ 1 x = 0, kořen je 1/φ 1, podmínka je tedy 1/φ 1 > 1, tj/ φ 1 < 1, viz dříve)

Procesy AR(p): autokorelační funkce y t = φ 1 y t 1 +φ 2 y t 2 +...+φ p y t p +ǫ t y t y t k = φ 1 y t 1 y t k +φ 2 y t 2 y t k +...+φ p y t p y t k +ǫ t y t k Ey t y t k = φ 1 Ey t 1 y t k +φ 2 Ey t 2 y t k +...+φ p Ey t p y t k +Eǫ t y t ρ k = φ 1 ρ k 1 +φ 2 ρ k 2 +...+φ p ρ k p pro k N Soustava prvních p těchto rovnic (k = 1,...,p) se nazývá Yuleova-Walkerova soustava rovnic, jejím řešením získáme hodnoty parametrů φ 1,...,φ p vyjádřené pomocí hodnot autokorelační funkce ρ 1,...,ρ p, které umíme odhadnout.

Procesy AR(p): parciální autokorelační funkce ρ kk = 0 pro k > p Odhad PACF pro data simulovaná z procesu AR(1) s parametrem φ = 0,9: Partial ACF 0.0 0.4 0.8 2 4 6 8 10 12 14 Lag

Procesy ARMA(p, q) Smíšeným procesem řádu p a q rozumíme posloupnost náhodných veličin {y t } danou předpisem y t = φ 1 y t 1 +φ 2 y t 2 +...+φ p y t p +ǫ t +θ 1 ǫ t 1 +θ 2 ǫ t 2 +...+θ q ǫ t q, kde {ǫ t } je bílý šum (ǫ t N(0,σ 2 )), φ 1 R,...,φ p R a θ 1 R,...,θ q R jsou parametry procesu.

Box, Jenkins a nestacionarita y 0 50 100 200 0 200 400 600 800 1000 Time

Procesy ARIMA(p, d, q) diferencování procesu: y t = y t y t 1 2 y t = ( y t ) = y t y t 1 =... = (y t y t 1 ) (y t 1 y t 2 ) = y t 2y t 1 +y t 2 Proces {y t }, jehož d-tá diference je smíšeným procesem ARMA(p, q) se označuje jako proces ARIMA(p, d, q).

Po 1. diferencování dy 4 2 0 2 4 0 200 400 600 800 1000 Time

ACF a PACF diferencované řady ACF 0.0 0.4 0.8 0 5 10 15 20 25 30 Lag Partial ACF 0.0 0.2 0.4 0.6 0 5 10 15 20 25 30 Lag

Tajenka y 0 50 100 200 0 200 400 600 800 1000 Time Řada byla generována pomocí generátoru náhodných čísel jako proces ARIMA(1,1,0), kde parametr φ = 0, 7.

Box, Jenkins a sezónnost y 1 y L+1 y 2L+1... y 2 y L+2 y 2L+2...... y L y 2L y 3L... Dlouhodobý aspekt y t = φ 1 y t L +φ 2 y t 2L +...+φ P y t PL +η t +Θ 1 η t L +...+Θ Q η t QL Krátkodobý aspekt η t = ϕ 1 η t 1 +ϕ 2 η t 2 +...+ϕ p η t p +ǫ t +θ 1 ǫ t 1 +...+θ q ǫ t q {ǫ t } je bílý šum SARIMA (p,0,q) (P,0,Q) L obecněji SARIMA (p,d,q) (P,D,Q) L