Časové řady a jejich periodicita pokračování

Transkript

1 Časové řady a jejich periodicita pokračování Jana Klicnarová Katedra aplikované matematiky a informatiky Jihočeská Univerzita v Českých Budějovicích, Ekonomická fakulta 2010

2 Dekompozice časových řad Jak jsme již zmínili dříve, cílem dekompozice časových řad je rozložení časové řady do čtyř základních složek složky trendu, sezónní složky, cyklické složky a reziduální složky. Při této dekompozici se často předpokládá, že reziduální složka je tzv. bílým šumem. Uveďme tedy definici bílého šumu. Bílý šum Náhodná složka ε t je často uvažována jako bílý šum. Náhodné veličiny (ε t ) t tvoří bílý šum, pokud jsou nekorelované, mají nulovou střední hodnotu a konečný kladný rozptyl σ 2.

3 Dva základní typy dekompozice časových řad Dekompozici časových řad do čtyř výše zmíněných složek lze provést několika způsoby, zde se omezme na dva základní způsoby, a to dekompozici aditivní dekompozici multiplikativní.

4 Dva základní typy dekompozice časových řad Aditivní dekompozice Pokud uvažujeme aditivní dekompozici, potom předpokládáme, že řadu lze rozložit jako součet několika složek: Y t = T t + S t + C t + ε t, kde Y t je náhodná veličina, realizující se v čase t, T t je trendová složka této veličiny, S t sezónní složka, C t cyklická složka a ε t je náhodnou složkou této veličiny v čase t.

5 Dva základní typy dekompozice časových řad Aditivní dekompozice jednotky Poněvadž lze sčítat pouze sčítance, které mají stejné jednotky, je zřejmé, že v případě aditivní dekompozice jsou všechny složky vyjádřeny ve stejných jednotkách v takových, ve kterých je udávána pozorovaná hodnota časové řady. Pokud tedy například analyzujeme počet návštěvníků nějaké památky, potom všechny složky mají za jednotky počet návštěvníků např. sezónní složka nám udává očekávaný nárůst či pokles návštěvníků v daném časovém období vůči průměru.

6 Dva základní typy dekompozice časových řad Multiplikativní dekompozice Uvažujeme-li multiplikativní model, potom náhodnou veličinu rozkládáme do stejných složek jako v případě aditivního modelu, ale operátor sčítání je nahrazen operátorem násobení. A tedy předpokládáme, že platí: Y t = T t S t C t ε t, kde, jak jsme již zmínili výše, Y t je náhodná veličina, kterou analyzujeme, T t je její trendová složka, S t sezónní složka, C t cyklická složka a ε t je její náhodnou složkou. V tomto modelu má stejné jednotky jako pozorování časové řady pouze složka trendu T, ostatní složky jsou bez rozměrné a udávají relativní změnu.

7 Dva základní typy dekompozice časových řad příklad Příklad Pro ilustraci rozdílu mezi multiplikativním a aditivním model si představme dvě vesničky Multiplikov a Aditov. V těchto dvou vesničkách chceme pomoci tamní energetické společnosti modelovat spotřebu elektřiny domácností v závislosti na ročním období. V Multiplikově všichni obyvatelé používají elektřinu pouze ke svícení. V Aditově všichni obyvatelé na elektřině vaří a všichni ji používají k vytápění.

8 Dva základní typy dekompozice časových řad příklad Multiplikov Za takových předpokladů, lze pro Multiplikov předpokládat model spotřeby elektřiny ve tvaru Y t = T t S t ε t, kde Y t je spotřeba elektřiny v časovém období t, T t je trendová složka spotřeby elektřiny, S t sezónní a ε t náhodná složka v čase t. Volba tohoto modelu vychází ze zjednodušené představy, že obyvatelé svítí nějakým daným počtem žárovek o dané spotřebě, rozdíl je v tom, že v letních měsících svítí kratší dobu než v zimních. A tedy parametr S t udává relativní dobu svícení v daném období.

9 Dva základní typy dekompozice časových řad příklad Aditov A pro Aditov lze sestavit model se stejnými parametry, avšak ve tvaru: Y t = T t + S t + ε t. V tomto případě je zjednodušená představa následující v trendu T t je zahrnuta spotřeba elektřiny na vaření, která se s měnícím se obdobím více méně nemění a v sezónnosti S t je zahrnuta spotřeba elektřiny na topení, která je v letních měsících nulová a v zimních měsících roste. (Všimněme si, že v tomto modelu není obsažený trend. Pokud tedy řada vykazuje nějaký trend, před použitím spektrální analýzy musíme zkoumanou řadu od trendu očistit.)

10 Obecná periodicita v časových řadách Dva základní přístupy k periodicitě První možnost je, že z povahy časové řady víme, jaká periodicita by se v ní měla vyskytovat (spotřeba plynu pro domácnosti na topení bude zřejmě mnohem vyšší v zimních měsících než v letních, kdy bude pravděpodobně nulová. Očekáváme zde tedy roční periodicitu). V takovémto případě, kdy z povahy dat víme, jakou periodicitu můžeme očekávat, je možné pro začátek udělat nějaký test na očekávanou periodicitu. V případě, že se tato periodicita potvrdí, potom již můžeme hledat parametry modelu s prokázanou periodicitou. Touto situací se zde zabývat nebudeme, podrobněji viz např. Cipra, T.: Analýza časových řad.

11 Obecná periodicita v časových řadách Dva základní přístupy k periodicitě Nadále se budeme soustředit na druhou možnost, a to takovou, kdy chceme zjistit, zda pozorovaná časová řada vykazuje nějakou periodicitu (přesněji cyklicitu), přičemž hledáme jakoukoliv periodu, pro kterou by byla nějaká cyklicita významná. Zjistit frekvenci takovýchto cyklů nemusí být vůbec snadné. Z grafu může být nemožné tyto cykly vyčíst, poněvadž se může stát, že řada obsahuje několik různých cyklů různých délek. V grafickém znázornění, potom není možné jednotlivé složky rozlišit. V takovém případě je asi nejvhodnější postupovat pomocí takzvané spektrální analýzy.

12 Základní myšlenka spektrální analýzy Časovou řadu chceme rozložit do tvaru Y t = µ + p (α j cos (ω j t) + β j sin (ω j t)) + ε j t = 1,..., n. (1) j=1 Tedy, jako součet nějaké úrovně (µ), směsi konečného počtu goniometrických funkcí s různými frekvencemi ω 1, ω 2,..., ω p a bílého šumu ε t. Všimněme si, že tento model nepředpokládá žádný trend. Tudíž, pokud naše zkoumaná řada vykazuje nějaký trend, musíme tuto řadu nejprve očistit od trendu, a teprve potom využít spektrální analýzy.

13 Základní myšlenka spektrální analýzy Hodnota p počet sčítanců je volena jako n 2 (celá část z n 2 ). (Máme-li řadu délky n, potom v této řadě můžeme pozorovat maximálně n 2 různých frekvencí, které se tam mohli projevit v celém průběhu.) Nejkratší pozorovatelný cyklus má polovinu své délky 1 ( jednou nahoře, po druhé dole ), poté následuje cyklus s polovinou délky 2,3,.... Nejdelší pozorovatelný cyklus má polovinu své délky n 2 delší cyklus už by se na n pozorování nemohl realizovat celý. Tato nejvyšší možná pozorovatelná frekvence se nazývá Nyquisova frekvence.

14 Základní myšlenka spektrální analýzy Naším cílem je nalézt ty hodnoty ω j, které jsou v námi analyzované řadě skutečně významné. K tomuto účelu zkonstruoval již v roce 1898 Schuster periodogram. Periodogram můžeme zapsat ( n 2 ( n ) 2 I (ω) = 1 y t cos (ωt)) + y t sin (ωt), (2) 2πn t=1 t=1 π ω π.

15 Periodogram Poznámka Definice periodogramu se u různých autorů liší multiplikativní konstantou, proto je možné, že hodnoty periodogramu vyjdou různě při výpočtu pomocí různého software. Nicméně na účelnosti to nic nemění.

16 Periodogram Ze vzorce pro periodogram je vidět, že ten je v každém bodě ω vlastně pozorováním nějaké náhodné veličiny (realizací náhodné veličiny). Podrobněji: Nahradíme-li ve vzorci periodogramu y t (tj. pozorované hodnoty) náhodnými veličinami Y t, potom je I (ω) skutečně náhodnou veličinou. V případě, že za náhodné veličiny dosadíme již pozorované hodnoty, získáváme pozorování této náhodné veličiny.

17 Periodogram náhodná veličina Pokud bychom uvažovali o periodogramu jako náhodné veličině (vypočítáno s Y t ), potom je tato náhodná veličina sestavena takovým způsobem, že její střední hodnota je ve významných bodech (tj. takových, kde je koeficient příslušný ω j nenulový) ω j (viz. (1)) řádu n a ostatních bodech se blíží nule. Její rozptyl je pro všechna n stejný. Hodnota periodogramu Máme-li hodnoty periodogramu naší časové řady, máme pro každé ω pozorování náhodné veličiny. A naším cílem je určit, kdy je to pozorování náhodné veličiny se střední hodnotou řádu n a kdy je to pozorování náhodné veličiny se střední hodnotou blíží se nule.

18 Periodogram testy Z výše uvedeného je zřejmé, že za významné frekvence budou uvažovány ty frekvence, v nichž vyjde hodnota periodogramu vysoká. Je tedy zapotřebí mít nějaký test, kterým určíme, kterou hodnotu ještě považovat za vysokou a kterou už nikoliv.

19 Test R.A. Fishera Hypotéza Y 1, Y 2,..., Y N, jsou nezávislé stejně rozdělené náhodné veličiny s rozdělením N(0, σ 2 ). Alternativa p Y t = µ + (α j cos (ω j t) + β j sin (ω j t)) + ε j t = 1,..., n. j=1

20 Test R.A. Fishera Testová statistika Spočtěme hodnoty I (ω j ) pro všechna j = 1,..., p. Seřaďme I (ω j ) sestupně a postupně je označme V 1, V 2,..., V p. (Tedy V 1 je největší hodnota, jaké pro naší časovou řadu nabyl periodogram.) Testovou statistikou je W = V 1 V 1 + V V p. Kritické hodnoty této statistiky jsou tabelovány. Hypotéza se zamítá ve prospěch alternativy, pokud W > g F, kde g F je kritická hodnota Fisherova testu na zvolené hladině významnosti pro dané p.

21 Test R.A. Fishera Negativa testu Jednou z nevýhod tohoto testu je v hypotéze podmínka nezávislosti náhodných veličin. Může se tedy stát, že zamítneme hypotézu H 0 nikoliv z důvodu periodocity, ale z důvodu nesplnění podmínky nezávislosti. Dalším problém je, co dělat, pokud zamítneme hypotézu H 0, a tedy připustíme, že jedna z period (ta, v níž je hodnota periodogramu maximální) je signifikantní. Jak určit, zda existuje ještě nějaká další významná perioda? Opakovat test? V tomto případě se někdy používá tav. Whittleova modifikace Fisherova testu. Také je možné využít Siegelův test.

22 Test R.A. Fishera Whittleova modifikace Test dalších významných složek Předpokládejme, že jsme použili Fisherův test a pro jednu periodu zamítli hypotézu H 0. Cílem je zjistit, zda existuje ještě nějaká další významná perioda. Whittle doporučil, aby se v případě významnosti největší hodnoty peirodogramu tato vynechala, zůstanou tak hodnoty V 2, V 3,..., V p a použila se testová statistika W 1 = V 2 V 2 + V V p. Tuto hodnotu opět porovnáváme s kritickou hodnotou g F, ovšem pozor, musíme již uvažovat p 1!

23 Fisherův test závěr Praktické zkušenosti ukázali, že v případě, že řada obsahuje jednu významnou frekvenci, je síla Fisherova testu svým způsobem optimální, ovšem v případě, že řady obsahují více významných frekvencí, má Fisherův test malou sílu. Proto byli navrženy modifikace Fisherova testu, které tento nedostatek odstraňují. Zde zmíníme Siegelovu modifikaci.

24 Siegelův test Siegel navrhl místo testové statistiky W použít testovou statistiku T λ = n (Z i λg F ) +, i=1 V kde Z i = i V 1 +V 2 + +V p, g F je kritická hodnota Fisherova testu, ( ) + značí kladnou část čísla a λ je nějakou konstanta. Kritické hodnoty této statistiky jsou tabelovány pro různá λ, obecně se však doporučuje používat λ = 0, 6.

25 Hledání periodických složek Jak z výše uvedeného vyplývá, je v podstatě subjektivní záležitostí (ovlivněno volbou testu, volbou konstanty), kolik prokážeme periodických složek v řadě (v případě, že jich existuje více). Proto se někdy používá zcela subjektivní přístup. Pokud se nám podaří zamítnout hypotézu H 0 pomocí Fisherova testu, potom si graficky znázorníme hodnotu periodogramu a sami určíme ty hodnoty, které ještě pokládáme za dostatečně velké. Čímž zcela subjektivně určíme významné periody.

26 Závěrečné poznámky Pokud jsme již stanovili významné periody, potom koeficienty v rovnici 1 určíme tradiční metodou nejmenších čtverců. Očištění řady Poznamenejme, že hypotézou všech uvedených testů bylo, že veličiny jsou nezávislé, s nulovou střední hodnotou, proto je nutné před začátkem testování periodicity řadu očistit od trendu!