Lineární modely časových řad a jejich aplikace na vybraných ekonomických problémech

Save this PDF as:
 WORD  PNG  TXT  JPG

Rozměr: px
Začít zobrazení ze stránky:

Download "Lineární modely časových řad a jejich aplikace na vybraných ekonomických problémech"

Transkript

1 PŘÍRODOVĚDECKÁ FAKULTA UNIVERZITY PALACKÉHO V OLOMOUCI Katedra matematické analýzy a aplikací matematiky školní rok 2012/2013 DIPLOMOVÁ PRÁCE Lineární modely časových řad a jejich aplikace na vybraných ekonomických problémech Vedoucí diplomové práce: Mgr. Ondřej Vencálek, Ph.D. Rok odevzdání: 2012 Vypracovala: Bc. Lucie Martinková AME, II. ročník

2 Prohlášení Prohlašuji, že jsem vypracovala tuto diplomovou práci samostatně pod vedením Mgr. Ondřeje Vencálka, Ph.D., a že jsem uvedla v seznamu použité literatury všechny zdroje, se kterými jsem v této práci pracovala. V Olomouci dne 14. prosince 2012 Lucie Martinková

3 Poděkování Ráda bych na tomto místě poděkovala vedoucímu diplomové práce Mgr. Ondřeji Vencálkovi, Ph.D. za spolupráci, ochotu a obzvlášť za čas věnovaný konzultacím této práce. Dále bych ráda poděkovala Jindřichu Dvouletému za velkou podporu po celou dobu studia.

4 Abstrakt V této práci se budeme zabývat analýzou časových řad se zaměřením na Box-Jenkinsovu metodu. Našim cílem je důkladné pochopení této metody a její aplikace na reálná ekonomická data, která vyjadřují průměrné denní výdaje amerických obyvatel. Přitom do těchto údajů není zahrnut nákup domu, motorového vozidla nebo platbu účtů za domácnost. Pokusíme se o tvorbu modelu, který by nám dokázal danou řadu spolehlivě popsat a přitom nám poskytl také dobré předpovědi. Modelování časové řady budeme provádět v programu The R Foundation for Statistical Computing. Summary In this thesis we will be working on analyzing time series with the specification of Box- Jenkins method. The goal is to make total understanding of this method and its application on real economic data, consisting of average expenses of the U.S. inhabitants per day. Although, we do not count in the money for buying a house, a car or a household outlay. We will be trying to make a model that would prove eligible in describing those series and would give us useful predictions as well. We will be working with the computer programme The R Foundation for Statistical Computing while modelling time series. Klíčová slova Časové řady, Box-Jenkins, stacionarita, MA, ARIMA, predikce. Keywords Time series, Box-Jenkins, stationarity, MA, ARIMA, prediction.

5 Obsah Úvod... 6 Box-Jenkinsova metodologie Motivace... 7 Výstavba a identifikace modelů v Box-Jenkinsově metodologii Stacionarita Autokorelační funkce Parciální autokorelační funkce Identifikační bod Identifikační bod autokorelační funkce Identifikační bod parciální autokorelační funkce Popis jednotlivých modelů Proces klouzavých součtů MA(1) MA(2) Autoregresní proces AR(1) AR(2) Smíšený proces ARMA(1,1) Integrované smíšené modely ARIMA Sezónní modely Predikce Praktická část-analýza časové řady Identifikace modelu Odhad parametrů Verifikace modelu Predikce Závěr Přílohy Literatura

6 Kapitola 1 Úvod Časové řady neboli posloupnosti číselných hodnot určitého ukazatele měnícího se v čase, se nachází všude kolem nás. Tato část matematické statistiky hojně využívaná zejména v ekonomii, nám dává informaci o vývoji určitého ukazatele v daném časovém období. Úkolem matematika je tento vývoj matematicky popsat a predikovat vývoj tohoto ukazatele v budoucnosti. Pojem predikce zde chápeme jako odhad budoucí hodnoty vytvořený na základě minulých pozorování. V reálném světě je však spolehlivost této predikce značně ovlivněna mnoha faktory, ukazateli a rozhodováním lidí, jejichž chování je často nepředvídatelné. Hlavním smyslem predikce je tedy sestavení modelu, který popíše vývoj sice orientačně, ale na pevném matematickém základě. Tato práce je věnována analýze časových řad se zaměřením na Box-Jenkinsovu metodologii. Je tvořena několika teoretickými kapitolami popisujícími principy této metody, přičemž v poslední praktické kapitole je tato metoda aplikována na reálnou ekonomickou časovou řadu. Data, která v této práci analyzuji, vyjadřují průměrné denní výdaje amerických obyvatel. Přitom do těchto údajů není zahrnut nákup domu, motorového vozidla nebo platba účtů za domácnost. Hlavním cílem je snaha aplikovat poznatky získané v teoretické části na reálná data a sestavit vhodný model, který nám poskytne také dobré předpovědi. Teoretická část začíná Kapitolou 3, ve které se zabýváme stěžejními pojmy jako je stacionarita, autokorelační funkce či identifikační bod. V Kapitole 4 popisujeme jednotlivé modely Box-Jenkinsovy metody. Začínáme od nejjednodušších modelů AR, MA až po složitější modely ARMA, ARIMA či sezónní model SARIMA. Kapitola 5 je věnována praktickému využití Box-Jenkinsovy metody na ekonomické časové řadě. V této kapitole aplikujeme na danou řadu vhodný model, odhadneme koeficienty, ověříme správnost zvoleného modelu a určíme predikce. Poslední kapitolou je Příloha, která obsahuje výsledky vedlejšího měření. K práci budeme využívat statistický program The R Foundation for Statistical Computing. 6

7 Kapitola 2 Box-Jenkinsova metodologie Jak bylo zmíněno v Kapitole 1, tato práce je věnována Box-Jenkinsově metodologii. Pojďme si nyní tuto metodu krátce představit. Hlavní myšlenka této metody spočívá v tom, že časová řada může být chápána jako řada stochastického charakteru. Stavebním kamenem pro konstrukci modelu v Box-Jenkinsově metodologii je reziduální složka, která může být tvořena korelovanými náhodnými veličinami. Tato metoda tedy umožňuje pracovat s časovými řadami s navzájem závislými pozorováními, kdy hlavním nástrojem pro vyšetření těchto závislostí je korelační analýza. Mezi největší výhody této metody patří flexibilita a rychlá adaptace na změny v datech. V mnoha případech dává tato metoda také nejlepší výsledky vzhledem k MSE Střední čtvercové chybě. K nevýhodám Box-Jenkinsovy metody patří nutnost dostatečně dlouhé realizace řady. Uvádí se, že pro sestavení spolehlivého modelu je třeba minimální délka řady o padesáti pozorováních. Další nevýhodou je ztráta možnosti jednoduché interpretace modelů. Proto se nejvíce používají jednoduché modely s malým počtem parametrů. 2.1 Motivace Identifikace modelu je do jisté míry značně subjektivní záležitost. Bez znalosti zkoumaných dat je téměř nemožné sestavit vhodný model. Jako ukázku zde uvedu jedenáct časových řad, které jsou uměle vygenerovány a u kterých jsem na začátku své práce měla identifikovat proces a následně odhadnout parametry těchto procesů, aniž bych o těchto datech věděla jakékoliv informace. V následující Tabulce 1 vidíme srovnání reálných parametrů a parametrů odhadnutých pomocí programu R. Je vidět, že v mnoha 7

8 případech byl model identifikován víceméně správně. Model číslo sedm - vyznačen tučně - byl ale nadefinován tak, že jeho parametry nesplňovaly podmínku invertibility (viz Kapitola 4). Nicméně při odhadování parametrů tohoto procesu jsem došla k hodnotám, které danou podmínku invertibility splňovaly. A právě tato skutečnost nás přivedla na otázku, zda mezi těmito procesy existuje nějaký vztah, popřípadě zda se dá zobecnit na MA(2) procesy. Touto myšlenkou jsme se důkladně zabývali v Kapitole 4. Pořadí Skutečné Skutečné parametry Identifikace modely modelů Odhady parametrů dle R 1. MA(2) ma1 = ma2 = -0.3 MA(2) ma1 = ma2 = AR(1) ar1 = 0.3 AR(1) ar1 = MA(1) ma1 = MA(1) ma1 = MA(2) ma1 = -0.1 ma2 = MA(2) ma1 = ma2 = AR(1) ar1 = AR(1) ar1 = AR(2) ar1 = ar2 = AR(2) ar1 = ar2 = MA(2) ma1 = 0.5 ma2 = 2 MA(2) ma1 = ma2 = MA(1) ma1 = 0.8 MA(1) ma1 = AR(2) ar1 = 1 ar2 = AR(2) ar1 = ar2 = MA(1) ma1 = 0.3 MA(1) ma1 = AR(2) ar1 = ar2 = AR(2) ar1 = ar2 = Tabulka 1. Tabulka vygenerovaných časových řad včetně reálných parametrů a odhadů parametrů pomocí R 8

9 Kapitola 3 Výstavba a identifikace modelů v Box- Jenkinsově metodologii Než se začneme věnovat samotné problematice časových řad, je nutné si nejprve nadefinovat základní pojmy. Definice 3.1 Nechť je dán pravděpodobnostní prostor, indexová množina a reálná funkce definovaná pro. Jestliže je pro borelovsky měřitelná vzhledem k, tj. pro a pro { } kde je algebrovských podmnožin, pak tuto funkci nazýváme náhodným procesem. Náhodný proces při pevném nazýváme realizací procesu. Definice 3.2 Pokud { } nebo mluvíme o procesu s diskrétním časem nebo o časové řadě či náhodné posloupnosti. Pokud kde, říkáme, že { } je náhodný proces se spojitým časem. 9

10 S časovými řadami se setkáváme především v ekonomii, kde ve většině případů najdeme definici časové řady v následujícím tvaru: Časovou řadou rozumíme posloupnost hodnot ukazatelů měřených v určitých časových intervalech. Tyto intervaly jsou zpravidla rovnoměrné (ekvidistantní) a proto je můžeme zapsat následujícím způsobem neboli, Abychom správně identifikovali model, který budeme aplikovat na časovou řadu, je zcela nutné nejprve ověřit tzv. stacionaritu Stacionarita Úvodem je nutno poznamenat, že stacionarita časové řady je nezbytná vlastnost, kterou musí data analyzovaná Box-Jenkinsovou metodologií splňovat. Obecně vzato, máme dva druhy stacionarity striktní a méně omezující slabou stacionaritu. Zde se budeme zabývat především slabou stacionaritou. Než se pustíme do samotného definování slabé stacionarity, zkusme tento pojem uchopit nejprve intuitivně. Význam slova stacionarita nám jistě evokuje něco stabilního, chovajícího se stabilně. Pokud si tento pojem vztáhneme na časové řady, lze mu rozumět tak, že časová řada je stacionární, pokud se chová stabilně. Podívejme se na význam stacionarity trochu podrobněji. Pokud řekneme o časové řadě, že se chová stabilně, budeme jistě očekávat ustálené chování bez větších změn či výkyvů. Průběh časové řady bude do jisté míry pravidelný a nebude obsahovat větší odchylky od tohoto pravidelného rytmu. Nyní si stacionaritu formálně nadefinujme a srovnejme, do jaké míry se shoduje s intuitivním významem toho pojmu. 10

11 Stochastický proces nazýváme slabě stacionární, pokud má konstantní střední hodnotu, konstantní rozptyl a kovarianční strukturu druhého řádu invariantní vůči posunům v čase, neboli pro všechna (, pro libovolně volené h (1) Invariantnost vůči posunům v čase zajišťuje, že závislost dvou pozorování závisí pouze na jejich vzájemném umístění a nikoliv na jejich skutečné poloze v časové řadě. V následujícím Grafu 1 ilustrujeme, jak vypadá časová řada, která podmínku stacionarity nesplňuje. Tato data se vzdalují od konstantní hodnoty a jejich rozptyl se neustále zvětšuje. Graf 1. Příklad realizace náhodného procesu +, kde je bílý šum N(0,1). Závěrem je důležité poznamenat, že Box-Jenkinsovu metodologii nelze použít na časovou řadu, která není stacionární nebo nelze různými transformacemi na tuto řadu převést. 11

12 3.2 Autokorelační funkce Hlavním nástrojem pro identifikaci procesu je autokorelační funkce. Abychom získali autokorelační funkci, je třeba nejdříve definovat autokovarianční funkci, která má následující tvar: = - (2) Autokorelační funkci dostaneme, pokud autokovarianční funkci znormujeme: = (3) kde je střední hodnota a = = var ( je rozptyl dané stacionární řady. Dá se ukázat, že autokorelační funkce je funkce sudá, proto se omezíme pouze na hodnoty Hodnoty se pohybují v intervalu <-1, 1>. V praxi obvykle neznáme skutečnou hodnotu autokorelační funkce. Proto je nutné si tuto funkci odhadnout z dat následujícím způsobem: Nejdříve odhadneme hodnotu autokovarianční funkce. kde pro. (4) Po znormování dostáváme odhad autokorelační funkce pro (5) Jak již bylo řečeno v úvodu textu, tento přístup analýzy časových řad vyžaduje alespoň padesát pozorování. Výše uvedené odhady můžeme počítat pro. 12

13 S rostoucím pouze pro. se však spolehlivost odhadů snižuje a proto se doporučuje provádět odhady 3.3 Parciální autokorelační funkce Další užitečnou funkcí sloužící k identifikaci modelu je parciální autokorelační funkce. Tato funkce vznikla jako parciální korelační koeficient a při pevných hodnotách,, : pro (6) kde a jsou determinanty matic (7) (8) Ani hodnota této funkce není v praxi často k dispozici, proto si i v tomto případě stanovíme odhad parciální autokorelační funkce, který počítáme rekurentně dle následujících vzorců uvedených v knize Analýza časových řad s aplikacemi v ekonomii [2]: pro (9) 13

14 pro V praxi se pro výpočet parciální autokorelační funkce standardně používají počítačové programy, neboť je výpočet poměrně náročný. (10) 3.4 Identifikační bod V kapitolách 3.2 a 3.3 jsme nadefinovali autokorelační a parciální autokorelační funkci. Už samotný tvar těchto funkcí nám může naznačit, o jaký proces se jedná. V častějším případě je ale potřeba s těmito funkcemi dále pracovat. Abychom mohli správně identifikovat časovou řadu, je třeba znát tzv. identifikační bod ACF 1 a PACF 2. Identifikačním bodem rozumíme takové, že pro všechna k > jsou = 0. Hodnota tohoto bodu je pro nás vodítkem pro určení řádu procesu. Neméně důležité je i zjištění, že identifikační bod časové řady neexistuje. Jak je z textu patrné, identifikační bod vyšetřujeme u obou funkcí autokorelační i parciální autokorelační funkce, přičemž se způsob určení nepatrně liší Identifikační bod autokorelační funkce Pro odhad identifikačního bodu autokorelační funkce používáme zpravidla tzv. Bartletovu aproximaci uváděnou v knize Analýza časových řad s aplikacemi v ekonomii [2 ]. Základem této metody je určení směrodatné odchylky odhadnuté autokorelační funkce ) k > (11) Za odhad směrodatné odchylky ) vezmeme ) pro k >. 1 ACF ( Autocorrelation function) je obecně platné označení pro autokorelační funkci. 2 PACF (Partial autocorrelation function) je označení pro parciální autokorelační funkci. 14

15 Parametr považujeme za nulový, jestliže < 2. (12) Hledáme takové, pro něž nerovnost (12) platí pro všechna k >. V praktickém výpočtu často dochází k tzv. mírnému porušení této podmínky, neboli lze najít dostatečně velké, pro které tato podmínka neplatí. Zároveň je však nutno zvážit, do jaké míry budeme považovat toto mírné porušení za nevýznamné. Názorný příklad je uveden v následujícím Grafu 2. Graf 2. Odhadnutá autokorelační funkce procesu, kde označuje bílý šum. V Grafu 2 vidíme odhad autokorelační funkce simulovaného procesu MA. Přerušovanou čárou zde značíme hodnotu 2 pro. Jak je z grafu patrné, vztah (12) bude platit pro, neboli = 1. Jedná se tudíž o proces MA(1). Zároveň však vidíme, že pro velká pohybující se kolem hodnoty 20 a 25 podmínka (12) neplatí hodnoty autokorelační funkce překročily danou mez. V takovém případě je nutno zvážit, zda dané překročení budeme považovat za nevýznamné. Zpravidla provedeme úvahu, zda hodnoty překračují mez pro malá nebo pro velká. Pokud je podmínka porušena pro dostatečně velká, lze toto porušení považovat za bezvýznamné. 15

16 V případě, že hodnoty autokorelační funkce překročí mez pro malé hodnoty určit nový identifikační bod obvyklým způsobem., je třeba Identifikační bod parciální autokorelační funkce Odhad identifikačního bodu parciální autokorelační funkce probíhá na velmi podobném principu, jako je popsán v kapitole Zde však určujeme směrodatnou odchylku odhadnuté parciální autokorelační funkce pomocí Quenouilleovy aproximace uvedené v knize Analýza časových řad s aplikacemi v ekonomii [2 ] (13) Za odhad směrodatné odchylky parciální autokorelační funkce považujeme pro. Parametr považujeme za nulový, jestliže < 2. (14) Stejně jako v případě identifikačního bodu autokorelační funkce, i zde může dojít k porušení podmínky (14). Úvahu o významnosti tohoto porušení provádíme analogicky. V Grafu 3 vidíme odhad parciální autokorelační funkce simulovaného procesu AR. Při výpočtu hodnoty 2 pro postupujeme analogicky jako v (13), dokud nenajdeme takové, pro které bude nerovnost (14) platit. Přerušovanou čarou je zde vyznačena hodnota 2 pro, neboli = 2. Jedná se tedy o proces AR (2). 16

17 Graf 3. Odhadnutá parciální autokorelační funkce procesu +, kde je bílý šum. Shrnutí: Stanovení identifikačního bodu je důležitým mezníkem v samotné identifikaci časové řady, neboť nám dává informaci o řádu a typu procesu. Jak již v textu zaznělo, identifikační bod určujeme u odhadnuté autokorelační i parciální autokorelační funkce. Reálnou hodnotu můžeme dostat pouze u jedné z těchto funkcí identifikační bod existuje buď u odhadnuté autokorelační funkce, nebo u odhadnuté parciální autokorelační funkce; poslední možností je neexistence identifikačního bodu u obou těchto funkcí. Touto možností se budeme zabývat v Kapitole 4.3. Tyto poznatky jsou shrnuty v Tabulce 2. Proces MA(q) existuje a je roven q neexistuje Proces AR(p) neexistuje existuje a je roven p Tabulka 2. Existence identifikačního bodu u procesů MA a AR 17

18 Kapitola 4 Popis jednotlivých modelů 4.1 Proces klouzavých součtů Procesem klouzavých součtů řádu značeným jako MA( ) rozumíme proces tvaru kde je bílý šum 3 a jsou parametry. Tento proces je lineárním procesem s konečným počtem nenulových parametrů. Proces je definován tak, že je splněna podmínka stacionarity při libovolné volbě parametrů. Rozptyl (15) procesu je roven = = ( ). (16) Autokorelační funkce je tvaru pro, = 0 pro. (17) Pro proces MA( ) platí, že Proces klouzavých součtů (15) nazveme invertibilní, pokud lze zapsat ve tvaru + kde je bílý šum. (18) Invertibilita je tedy vlastnost, která umožňuje zapsat současnou hodnotu procesu pomocí jeho minulých hodnot a současné hodnoty bílého šumu. Tato vlastnost je velmi žádoucí zejména proto, že v praxi máme k dispozici pouze realizace procesu bílého šumu. a nikoliv hodnoty 3 Řada nekorelovaných veličin s nulovou střední hodnotou a konstantním rozptylem. 18

19 Hlavním cílem při práci s Box-Jenkinsovými modely je snaha o sestavení jednoduchého modelu s co nejmenším počtem parametrů. Z tohoto důvodu se budeme věnovat procesům, které se nejvíce používají v praxi MA(1) a MA(2) MA(1) Procesem klouzavých součtů prvního řádu neboli MA(1) nazýváme proces pouze jednoho parametru (19) Tento proces je invertibilní, jestliže parametr splňuje podmínku. Za platnosti podmínky (20) lze v procesu (15) nahradit náhodné hodnoty bílého šumu za skutečné hodnoty, které máme k dispozici. (20) Autokorelační funkci procesu (15) odvodíme následujícím způsobem: dle kapitoly 3.2. vyjádříme autokorelační funkci jako =. Variance MA(1) procesu má tvar = var( = var( + ) = var + var( ) + 2cov(, ) = (21) 19

20 Autokovariance k - tého řádu má tvar k = cov(, ) = cov (, cov(, )+ cov ( =. (22) Výsledné výpočty dosadíme do vzorce (3) a dostáváme tvar autokorelační funkce = pro. (23) Zjištěný tvar autokorelační funkce je speciální případ vzorce (17) pro = 1. Využíváme přitom znalosti bílého šumu, kdy (0, ) a vztahů pro výpočet rozptylu a kovariance. Identifikační bod procesu MA(1) Vztah mezi autokorelační funkcí a hodnotou parametru jsme odvodili v (23). Z této kvadratické rovnice jednoduše vyjádříme = (24) = (25) Snadno zjistíme, že pouze kořen (24) vyhovuje podmínce invertibility. Závěrem tedy můžeme říci, že existují dva obecně různé procesy MA(1) s danou hodnotou autokorelační funkce Pouze jeden z nich je však invertibilní. 20

21 4.1.2 MA(2) Procesem klouzavých součtů druhého řádu neboli MA(2) nazýváme proces tvaru, (26) kde jsou reálné parametry tohoto procesu a je bílý šum. Podmínky invertibility jsou následující:. (27) Soustavu nerovnic znázorníme do grafu a získáváme oblast invertibility Graf 4. Oblast invertibility MA(2) procesu Analogicky jako v kapitole odvodíme autokorelační funkci procesu MA(2). Variance MA(2) procesu má tvar = var ( = var( + + ) = var( ) + var( ) + var( ) +2 [cov(, ) + cov(, ) + cov( t, )]=. (28) 21

22 Autokovariance řádu má tvar = cov(, ) = cov ( +, cov(, )+ cov(, ) +cov(, )+ cov(, )+ +cov(, ) +cov(, ) + cov(, ) + +cov(, ) +cov(, ). (29) Po úpravě získáváme = + = (1+ ) pro = pro = 0 pro. (30) Po dosazení do vztahu (3) získáme vztahy pro autokorelační funkci MA(2) procesu = = pro k > 2. (31) Identifikační bod procesu MA(2) je. Položme si otázku, zda u procesu MA(2) nalezneme podobný vztah mezi parametry, a autokorelační funkcí jako u procesu MA(1). Zároveň ověříme, zda existuje MA(2) proces s parametry [, ], který má identickou autokorelační funkci jako MA(2) proces s parametry [, ]. Odpověď nám dává následující věta. Věta 4.1 Nechť máme proces MA(2) s parametry [, ], autokorelacemi a jejich podíl označme r (r = ). Potom existuje taková funkce definovaná pro R \ {r}, že všechny procesy MA(2) s parametry [ a druhého řádu. ] mají stejný podíl autokorelací prvního 22

23 Důkaz 4.1 K tomuto zkoumání využijeme vztahy (31). Nechť = = kde r R. Hledaná funkce má tvar =. (32) Vyšetřeme vlastnosti této funkce (33) Funkce ( ) prochází počátkem neboť pro. Graf 5. Oblast invertibility procesu MA(2) a funkce ( ) 23

24 Funkce ( ) zobrazena v Grafu 5 znázorňuje parametry všech MA(2) procesů, které mají stejný podíl =. Na tyto procesy se nyní podívejme podrobněji. Vztah mezi parametry [, ] a [ ] uvádí následující věta. Věta 4.2 Nechť máme MA(2) proces s parametry [, ] a jiný proces MA(2) s parametry [ ]. Jestliže [ ] = [ ], pak mají procesy stejnou autokorelační funkci. (34) Důkaz 4.2 Označme autokorelační funkci druhého procesu. Nejdříve okomentujme podmínku (34). Položme =. (35) Ze vztahu (32) vyjádříme pomocí jako (36) Po dosazení = do vztahu (36) získáváme ( ) =. (37) Je tedy vidět, že při volbě koeficientů splňujícími podmínku (34) má proces stejný podíl prvních dvou korelací (r). Ve druhé části důkazu ukážeme, že a. 24

25 Parametry druhého procesu dosadíme do vztahu (31) pro výpočet autokorelační funkce = ( ) = = = (38) = ( ) = =. (39) Nyní jsme si ukázali, že mezi MA(2) procesy s parametry [, ] a [ ] existuje jasně definovaný vztah. Lze jednoduše ukázat, že v případě neinvertibilního procesu s parametry [, ] odhadneme proces s parametry [ ], které budou danou podmínku invertibily splňovat. Mějmě proces MA(2) s parametry [, ]. Naším cílem je najít parametry všech procesů MA(2), které mají stejnou autokorelační funkci jako tento proces. Již víme, že takovým procesem je proces s parametry [ ]. Obecně existují čtyři takové procesy, neboť pro pevné procesy. existují až čtyři řešení soustavy (31). Hledejme tedy zbylé dva Nyní vyšetřeme zbylé dva kořeny. Využijeme přitom vztahu (32). Nechť = c a = + c kde R. (40) Pro parametry a dopočítáme příslušné hodnoty a na základě již známého vztahu (32) = = = = =. (41) 25

26 Získáváme tedy dva procesy MA(2) s koeficienty [ ] = [ c, ] a (42) [ ] = [ + c, ] = [, ]. (43) Z Věty 4.2 a rovnosti (43) je zřejmé, že MA(2) procesy s parametry [ ] a [ ] mají stejnou autokorelační funkci. Uvažujme libovolnou dvojici parametrů [. Těmto parametrům přísluší hodnota =. (44) Ze vztahu (32) plyne, že všechny procesy se stejným podílem mají parametry tvaru [, ] kde R. (45) Při použití parametrizace (40) můžeme tento vztah zapsat jako [ c, ] pro R. (46) Funkce se dá vyjádřit jako funkce parametru = ( ) ( ) = ( ) ( ) [ ( ) ] ( ) (47) Nyní vyšetříme, pro jaké hodnoty se bude funkce rovnat hodnotě ( ) ( ). Dosadíme li za ze vztahu (44) do výrazu (47), dostaneme rovnici 26

27 ( ) ( ) =. (48) [ ( ( ) ) ][ ( ) ] ( ( ) ) ( ) ( ) ( ) Při označení A = rovnici ( ) ( ), B =, x = můžeme rovnici zapsat jako kvadratickou ( ) + ( + 2 ) = 0 (49) Diskriminant této rovnice je tvaru D = =, (50) kořeny rovnice mají tvar. (51) Po úpravě kořenů (51) získáváme vztah pro hledané (52) 27

28 Závěr: Procesy [, ] pro mají stejnou autokorelační funkci. Po dosazení za ze vztahu (44) a ze vztahů (52) dostáváme čtyři procesy tvaru [, ] [ ] (53) Podmínky platnosti (53): > 0 ( ) (54) Při porušení první podmínky by se jednalo o proces MA(1). 28

29 Shrnutí: Graf 6. Oblast invertibility a rozdělení roviny V Grafu 6 je barevně zobrazeno rozdělení roviny včetně vyznačené oblasti invertibility pro MA(2) procesy. Rozdělení na jednotlivé oblasti je dáno čtyřmi získanými procesy ze vztahu (53). Po dosazení parametrů z každé oblasti invertibility do vztahů (53) získáme čtyři procesy z různých oblastí, z nichž tři budou ležet v oblastech mimo invertibilitu. Tedy pokud uvažujeme invertibilní proces z oblasti C, získáme další tři procesy z neinvertibilních oblastí - jeden z C a jeden z každé oblasti H. Analogicky pokud uvažujeme proces z oblasti D, získáme tři neinvertibilní procesy jeden z oblasti D a jeden z každé oblasti F. Situace se však komplikuje podmínkou > 0 ze vztahu (54). Tato podmínka nám značně omezuje oblast invertibility. Uvažujme nyní oblast A. Pouze tam, kde je podmínka > 0 splněna, funguje stejný princip čtyř procesů jako u oblastí C a D, neboli pokud uvažujeme proces z oblasti A, získáme další tři procesy z neinvertibilních oblastí jeden z oblasti A, jeden z každé oblasti E. Poslední invertibilní oblastí je B. Pokud uvažujeme proces z oblasti B splňující výše uvedenou podmínku, získáme další tři procesy jeden z oblasti B a jeden z každé oblasti G. 29

30 Pro tu oblast invertibility, kde podmínka > 0 není splněna, je s určitostí zachován princip dvou kořenů, neboli ke každému invertibilnímu procesu z dané oblasti existuje neinvertibilní proces [ ]. Vyšetření parciální autokorelační funkce se u procesů MA(2) provádí na základě speciálních diagramů nebo iteračně. Tato funkce je omezena geometricky klesající posloupností nebo sinusoidou s geometricky klesající amplitudou. 4.2 Autoregresní proces Autoregresním procesem řádu značeným jako AR( ) rozumíme proces tvaru kde je bílý šum 4 a 1,, p jsou reálné parametry. (55) Proces AR( ) je lineárním procesem s konečným počtem nenulových parametrů. Z tvaru tohoto procesu je patrné, že se jedná automaticky o proces invertibilní, neboť vyhovuje podmínce (18) bez dalších nároků na parametry. Parametry 1,, p slouží jako indikátor paměti procesu. Čím je v absolutní hodnotě bližší jedné, tím je paměť procesu delší a naopak. Čím blíž je nule, tím je paměť kratší. Je li parametr roven nule, autokorelační funkce je nulová a proces nemá žádnou paměť. Jedná se tedy o proces bílého šumu. Stacionarita je zde podmíněna volbou koeficientů 1,, p - viz procesy AR(1) a AR(2). Tato vlastnost zaručuje nulovou střední hodnotu a rozptyl ve tvaru (56) Autokorelační funkce procesu AR( ) vyhovuje soustavě diferenčních rovnic 4 Řada nekorelovaných veličin s nulovou střední hodnotou a konstantním rozptylem. 30

31 pro. (57) Tyto rovnice byly odvozeny tak, že vztah (55) násobíme postupně veličinami a přejdeme ke středním hodnotám. Vztah mezi parametry procesu AR( ) a hodnotami autokorelační funkce udává tzv. Yuleova Walkerova soustava rovnic tvořena vztahy (57) pro :... Řešením této soustavy rovnic získáme parametry,, vyjádřené pomocí,,. (58) Znalost parciální autokorelační funkce procesu AR( ) je základem pro určení řádu procesu, neboli, tj. = 0 pro AR(1) Autoregresním procesem prvního řádu neboli AR(1) rozumíme proces tvaru kde 1 je reálný parametr a je bílý šum. (59) Tento proces je stacionární pokud pro hodnotu parametru platí < 1. (60) Jestliže je splněna podmínka (60), lze AR proces přepsat do tvaru (61) 31

32 Autokorelační funkce AR(1) procesu vyhovuje následující rovnici pro. (62) Lze ukázat, že tato funkce má tvar geometrické posloupnosti klesající v absolutní hodnotě k nule AR(2) Autoregresním procesem druhého řádu neboli AR(2) rozumíme proces tvaru kde, jsou reálné parametry a je bílý šum. (63) Proces AR(2) nazveme stacionární, pokud platí následující podmínky 1 1. (64) Soustavu nerovnic znázorníme do grafu a získáváme oblast stacionarity. 32

33 Graf 7. Oblast stacionarity AR(2) procesu Vztah mezi parametry a hodnotami autokorelační funkce udává Yuleova Walkerova soustava rovnic, která má pro proces AR(2) následující tvar. (65) Řešením této rovnice jsou dva kořeny. (66) Pomocí vztahů (64) a (66) lze ukázat, že proces AR(2) bude stacionární v případě 1, <. (67) Pro parciální autokorelační funkci procesu AR(2) platí, že 33

34 4.3 Smíšený proces Smíšeným procesem řádu a rozumíme proces ARMA( ), který je definován jako , (68) kde je bílý šum, a,, jsou reálné parametry. Je zřejmé, že proces ARMA( ) vznikl jako kombinace procesů AR( ) a MA( ) z tohoto důvodu budeme při definování podmínek stacionarity a invertibility vycházet právě ze znalosti těchto dvou procesů. Podmínka stacionarity procesu ARMA( ) je totožná jako u procesu AR( ), podmínka invertibility je totožná s podmínkou procesu MA( ). Pro stacionární ARMA( ) proces platí, že jeho střední hodnota je nulová a autokorelační funkce odpovídá soustavě diferenčních rovnic podobně jako v případě stacionárního procesu AR( ) pro. (69) Lze ukázat, že soustavu (69) získáme analogickým odvozením jako u procesu AR( ). Autokorelační funkce je ve tvaru lineární kombinace klesajících geometrických posloupností a sinusoid s geometricky klesající amplitudou. Parciální autokorelační funkce procesu ARMA( ) je identická s parciální autokorelační funkcí procesu MA( ) - identifikační bod této funkce neexistuje. Jak již bylo řečeno v Kapitole 3, i zjištění neexistence identifikačního bodu je pro nás důležitým vodítkem při identifikaci procesu. Rovněž nám pomáhá tvar autokorelační a parciální autokorelační funkce. Hlavním požadavkem při sestavování modelu je jeho jednoduchost na počet parametrů. Z tohoto důvodu se budeme zabývat smíšenými procesy pouze do řádu. 34

35 4.3.1 ARMA(1,1) Smíšeným procesem ARMA(1,1) nazýváme proces tvaru + kde je bílý šum a, jsou parametry procesu. (70) Proces ARMA(1,1) nazveme stacionární, pokud je splněna podmínka v případě platnosti < 1. < 1 a invertibilní Abychom získali tvar autokorelační funkce, je třeba vycházet ze soustavy (69). Pro ARMA(1,1) proces má soustava (69) tvar pro. (71) Pro zahájení rekurentního výpočtu je třeba určit počáteční hodnotu Tu získáme jako podíl, přičemž =. Analogicky jako v kapitole o MA procesech určíme hodnoty a - vynásobíme postupně rovnici (70) veličinami, a přejdeme ke středním hodnotám. Získáme vztah pro rozptyl ARMA(1,1) procesu = =. Ve druhém kroku vyjádříme =. (72) Nyní dosadíme do vztahu. (73) Abychom získali vztahy pro parametry a, je nutno určit také hodnotu analogickým způsobem. 35

36 Po těchto úpravách dostáváme a kde b =. (74) Znaménko pro parametr bude zvoleno tak, aby platila podmínka < 1. Dosud jsme uvažovali pouze procesy s nulovou střední hodnotou. Jelikož pracujeme především s ekonomickými daty a ty jsou nezáporné, setkáváme se mnohem častěji s procesy se střední hodnotou 0. Pokud je tato nenulová střední hodnota konstantní, lze proces převést na proces -. Parametr odhadneme obvykle jako aritmetický průměr daných pozorování řady. Přechod od řady k řadě - se často nazývá centrováním řady. 4.4 Integrované smíšené modely ARIMA Do této chvíle jsme pracovali pouze se stacionárními procesy. V praxi je však takovýchto procesů jen velmi málo. Mnohem více se setkáváme s časovými řadami vykazujícími zjevně nekonstantní vývoj. Ukázka takovéto nestacionární řady se nachází v následujícím Grafu 8. Graf 8. Roční časová řada HDP Argentiny ve formě bazických indexů mezi roky 1951 až

37 Z tohoto důvodu byly vymyšleny modely, které by dokázaly zpracovat i takovéto nestacionární procesy. Tyto modely se nazývají ARIMA a umožňují popisovat procesy, v nichž dochází ke změnám úrovně v důsledku působení náhodného a zcela nesystematického vlivu. Díky tomuto předpokladu nepožadujeme stacionaritu definovanou v Kapitole 3, nýbrž tzv. odstranitelnou nestacionaritu. Tato podmínka znamená, že řada musí být převoditelná na stacionární pomocí první nebo vyšší diference. Integrovaným smíšeným modelem ARIMA( ) rozumíme model definovaný jako, kde je d -tá diference modelovaného procesu, je operátor zpětného posunutí a, jsou reálné parametry a je bílý šum. (75) Symbolem označujeme diferenční operátor, který lze vyjádřit pomocí operátoru zpětného posunutí jako neboť = - = (1 ). (76) Model ARIMA proto můžeme souhrnně zapsat jako (B). (77) Při praktickém sestavování modelu ARIMA( ) postupujeme tak, že nejprve diferencujeme původní nestacionární řadu na řadu. Pro takto sestavenou stacionární řadu zkonstruujeme model ARMA( ). Nesmíme však opomenout, že původní řada má pozorování, ale nově získaná řada má pouze pozorování. Při konstrukci ARIMA procesů nepoužíváme tzv. centrování řady, neboť platí ) =. (78) 37

38 Poznámka: Před aplikací modelu ARIMA na časovou řadu je v jistých případech nutné tuto řadu tzv. transformovat. Tato transformace linearizuje časovou řadu tak, že náhodné šoky v ní obsažené mají charakter bílého šumu s konstantním rozptylem a často také s normálním rozdělením. Tuto transformaci používáme zejména v případech, kdy se úroveň časové řady náhodně mění. Příkladem takovéto řady je Vývoj reálného hrubého domácího produktu v USA. Graf 9. Vývoj reálného hrubého domácího produktu v USA V Grafu 9 vidíme, že řada vykazuje zjevně exponenciální trend, neboli variabilita řady není konstantní. V tomto případě je řadu nutné linearizovat pomocí logaritmické transformace. Výsledek transformace je zobrazen do Grafu 10. Graf 10. Logaritmus reálného hrubého domácího produktu v USA. 38

39 Určení řádu diferencování Jak jsme uváděli v úvodu kapitoly, přechod ke stacionární řadě se provádí pomocí diferencování. V praxi se pro časové řady málokdy použije vyšší řád diferencování než 2. Podívejme se na přehled metod, které se pro určení řádu diferencování používají: 1. Optické posouzení stacionarity pomocí grafického znázornění dat. Pokud o stacionaritě stále nejsme přesvědčeni, vykreslíme řadu prvních či vyšších diferencí a provedeme optické posouzení. 2. Jestliže optické posouzení v prvním kroku není dostatečné, přejdeme k odhadu autokorelační funkce dané řady. Pokud má tato funkce lineární charakter s velmi pomalým klesáním, znamená to, že alespoň jeden kořen autoregresního operátoru je velmi blízký jedné a je třeba řadu podrobit dalšímu diferencování viz Kapitola Další metodou sloužící ke správnému určení řádu diferencování patří posouzení odhadnutého rozptylu řady. Tato metoda porovnává odhadnuté rozptyly původní řady a řady prvních či vyšších diferencí,, Za řád diference zvolíme tu hodnotu, která nabízí nejmenší odhadnutý rozptyl. Vycházíme z předpokladu, že při postupném diferencování klesají hodnoty odhadnutých rozptylů, dokud není dosaženo stacionarity. Poté tyto hodnoty začnou opět narůstat. Proto se nedoporučuje řadu diferencovat vícekrát, než je nezbytně nutné. 4.5 Sezónní modely Stejně jako trend, je i sezónnost modelována v Box Jenkinsově metodologii stochasticky. Jak bylo uvedeno v dřívějších kapitolách, hlavní myšlenkou této metodologie je závislost mezi pozorováními,, Pokud se k této závislosti přidá navíc i sezónní kolísání, lze očekávat také závislost mezi pozorováními,,, kde je délka sezónní periody. Při sestavování modelu v Box Jenkinsově metodologii postupujeme následovně: 39

40 pro názornost si zvolme časovou řadu s měsíčními měřeními a sezónnost s periodou o délce měření ve tvaru (roční perioda). Nejprve si zkonstruujeme model pro řadu lednových = Ѳ kde je časový index a odpovídá lednovým obdobím. (79) Sezónním autoregresním operátorem řádu P nazýváme, (80) sezónním operátorem klouzavých součtů řádu Q nazýváme a (81) sezónním diferenčním operátorem nazýváme = 1 - pro který platí následující vztahy (82) = = -, = = - +. (83) Podobný model jako (79) zkonstruujeme i pro řady týkající se dalších měsíců. Zároveň předpokládáme, že modely pro jednotlivé měsíce jsou téměř stejné. Pro náhodné složky platí, že jsou pro různé měsíce korelované. Lze předpokládat, že také řada popsána modelem ARIMA ve tvaru je =, kde představuje bílý šum tak, jak ho známe doposud. (84) Modely (79) a (84) lze spojit do jednoho tvaru = Ѳ. (85) Model (85) nazýváme Multiplikativní sezónní model řádu (p, d, q) x (P, D, Q) 12 neboli SARIMA model. 40

41 Při výstavbě modelu SARIMA postupujeme téměř analogicky jako u modelu ARIMA. Je však nutné odlišit běžné diferencování dané operátorem a tzv. sezónní diferencování s operátorem V praxi se málokdy provádí běžné nebo sezónní diferencování většího řádu než 1, proto se rozhodujeme pouze mezi případy d = 0 nebo d = 1 a D = 0 nebo D = 1. Posouzení probíhá na základě odhadnuté autokorelační funkce, přičemž se obvykle pozoruje asi 4L prvních hodnot této funkce. Pokud nalezneme u funkce v bodech (jen ty, které jsou násobky L) lokální maxima, lze položit D = 1 bez dalšího pozorování této funkce. Jestliže funkce klesá pomalu přibližně lineárním tempem i mezi body, které jsou násobky L, je zapotřebí provést také běžné diferencování. Další způsob určení řádu diferencování d a D je založen na posouzení odhadnutých hodnot rozptylů dané řady a jejich diferencí, Abychom správně určili řády diferencí d a D, zkonstruujeme řadu, která má následující tvar (86) Pro tuto řadu sestavíme model tvaru = Ѳ. (87) Jak bylo uvedeno výše, hlavním nástrojem pro určení řádu diferencování je tvar autokorelační funkce a parciální autokorelační funkce řady. U funkce pozorujeme hodnoty především v těchto bodech 1,, q, L q,, L + q, 2L q,, 2L + q,, QL q,, QL + q. Jsou - li hodnoty funkce v těchto bodech významně nenulové a zároveň se mezi těmito body tato funkce neodlišuje významně od nuly a pokud funkce v bodech L, 2L, klesá a zároveň v jednotlivých úsecích mezi těmito body L, 2L, klesá vždy v absolutní hodnotě, pak pro řadu identifikujeme model jako SARIMA (0, 0,q) x (0, 0,Q) L a tedy pro řadu jako SARIMA ( ) L. 41

42 V případě, že funkce klesá v absolutní hodnotě v úsecích mezi body L, 2L, a zároveň klesá v bodech L, 2L, a pokud pro funkci platí, že v bodech 1,, p, L,, L +p,, 2L,..., 2L + p, PL,, PL + p je významně nenulová, kdy mezi těmito body se neodlišuje významně od nuly, pak tento model řady identifikujeme jako SARIMA (p, 0, 0) x (P, 0, 0) L a tedy pro řadu jako jako SARIMA (p, d, 0) x (P, D, 0) L. Ve většině případů používáme tzv. homogenní modely - SARIMA (0, d, q) x (0, D, Q) L nebo SARIMA (p, d, 0) x (P, D, 0) L. Nehomogenní modely typu SARIMA (0, d, q) x (p, D, 0) L, popřípadě SARIMA (p, d, 0) x (0, D, Q) L se téměř nepoužívají kvůli časové náročnosti a potřebě velkého množství parametrů Predikce Jako zde označujeme odhad budoucího pozorování hodnoty uvažované řady konstruovaný v čase. nazýváme předpovědi. Předpověď je lineární funkcí hodnot... nebo ekvivalentně lineární funkcí hodnot U předpovědi požadujeme rovněž nejmenší Střední čtvercovou chybu MSE mezi všemi lineárními předpověďmi danou jako ( ). (88) Při praktických výpočtech budeme používat pro určení předpovědí příkaz stručně vysvětlíme, na jakých principech je založen. Nechť Nyní si kde je bílý šum a a jsou parametry. (89) 42

43 Základem pro skutečný výpočet předpovědí je vztah [ ], kde (90) [ ] pro [ ] pro (91) a [ ] pro, [ ] pro. (92) Pro samotný výpočet předpovědí postupujeme následovně 1. Prvním krokem před zahájením výpočtu je položení hodnot [ [ Nejprve počítáme předpovědi o jeden krok dopředu, tj.. Ve vztahu (90) je teď, máme tedy rovnici + + [ ]. (93) 3. Vztahy (91) a (92) dosadíme do (93) tak, že pro nahradíme 0, pro nahradíme předpověďmi získanými rekurentním způsobem výpočtu, pro nahradíme výrazem a poslední výraz pro nahradíme hodnotami. 43

44 4. Po úpravách vztahu (93) dostáváme + + ( ). (94) 5. Při výpočtu předpovědi o dva kroky dopředu, tj. postupujeme analogicky ze vztahu (90) a dostáváme + +. (95) 6. Analogicky postupujeme při atd. Jak je z přechozích vztahů vidět, pro výpočet je potřeba znát, pro výpočet je třeba znát atd. Obecně tedy platí, že postupujeme odzadu, neboli první počítáme předpověď pro = 1, přičemž položíme = 0. Poté pomocí počítáme až se nakonec dostaneme k výpočtu pro. Pro normální stochastický proces lze považovat konstruovaný v čase při předpovědi o kroků dopředu interval ve tvaru předpovědní interval { } { }, (96) kde nazýváme chybu předpovědi definovanou jako Poznámka:. (97) Při popisu procesů v Kapitole 4 jsme čerpali z knihy Analýza časových řad s aplikacemi v ekonomii [2 ]. 44

45 Kapitola 5 Praktická část-analýza časové řady V této části budeme dříve získané poznatky aplikovat na konkrétní data. Hlavním cílem je správně identifikovat model a určit parametry pomocí statistického programu R. Ve druhém kroku ověříme správnost odhadnutého modelu pomocí odhadnutých reziduí a Ljung - Boxova testu. Poslední, a zároveň pro nás nejzajímavější fází, je fáze predikce, kdy se budeme snažit nahlédnout do budoucnosti a odhadnout, jak se budou data vyvíjet. Data, která budeme blíže zkoumat, vyjadřují průměrné denní výdaje amerických obyvatel. Přitom do těchto údajů není zahrnut nákup domu, motorového vozidla nebo platba účtů za domácnost. Respondenti byli požádáni, aby uvedli svá vydání z předchozího dne. Tyto výdaje jsou k dispozici jako třídenní klouzavé průměry. Výsledky jsou uvedeny v amerických dolarech a byly získány na základě telefonních rozhovorů s 1500 americkými občany staršími 21let. Sběr dat začal Řadu budeme pro naše účely dále nazývat Výdaje. Její průběh vidíme v Grafu 11. Tato data jsem získala z internetového serveru [6], který obsahuje mimo jiné také interaktivní grafy ke každé časové řadě. Hlavním důvodem pro výběr této časové řady je její neustálá aktualizace k dnešnímu datu a také dostatečný počet pozorování, který je pro použití Box-Jenkinsovy metody nezbytný. 45

46 Graf 11. Průměrné denní výdaje amerických obyvatel nezahrnující nákup domu, motorového vozidla nebo platbu účtů za domácnost Identifikace modelu Prvním krokem analýzy časové řady pomocí Box-Jenkinsovy metody je identifikace modelu. V této fázi zvolíme typ modelu a jeho řád. Výsledkem je rozhodnutí, který model nejlépe vyhovuje zvoleným datům. Jde o nelehký úkol, který je do určité míry subjektivní a závisí na citu statistika. Než začneme se samotnou identifikací, je třeba ověřit stacionaritu dat (viz Kapitola 3). Tato vlastnost je pro práci s Box-Jenkinsovou metodou nezbytná a zajišťuje jistou pravidelnost ve vývoji. Případnou nestacionaritu lze odstranit přechodem k prvním či vyšším diferencím, přičemž v praxi se málokdy použije řád diferencování vyšší než dvě. Vykazuje-li řada trend, pomocí vhodné transformace lze tuto řadu linearizovat. Tento typ transformace je vhodné provádět před vlastním diferencováním, neboť je možné diferencováním získat i záporné hodnoty. 46

47 Při samotné práci s daty jsme ale narazili na problém klouzavých průměrů, ve kterých byla data prezentována. Tato agregace dat způsobila silnou korelaci, která se projevila v odhadnuté autokorelační funkci (ACF) tím, že hodnoty této funkce nabývaly lokálního maxima vždy v periodě odpovídající násobku tří (viz Graf 12). Abychom data očistili od této nežádoucí korelace, vytvoříme z nich novou posloupnost dat začínající prvním pozorováním v původní řadě, v níž vynecháme vždy dvě po sobě jdoucí pozorování a budeme uvažovat data v pořadí 1, 4, 7,...Touto úpravou jsme sice odstranili nežádoucí korelaci, přišli jsme ale o dvě třetiny dat. V našem případě ale nebude ztráta dat hrát významnou roli. Graf 12. ACF původní neupravené řady,,výdaje Ověřit stacionaritu lze pomocí nejrůznějších testů, nicméně na první pohled je z Grafu 11 zřejmé, že se jedná o řadu nestacionární. V Grafu 13 je zaznamenán průběh prvních diferencí řady, přičemž nyní řada na první pohled vykazuje stacionární průběh. Tyto diference jsou dány vztahem = -. (98) 47

48 Graf 13. Diferencovaná časová řada Abychom se ujistili o vhodně zvoleném řádu diferencování, prozkoumáme odhadnuté rozptyly řad,, kde označují řadu druhých diferencí danou vztahem = -. (99) Odhadnuté rozptyly mají následující hodnoty 279, , (100) Je vidět, že rozptyl řady nabývá nižší hodnoty u prvního diferencování, přičemž druhé diferencování rozptyl opět zvýšilo. Volba diference d = 1 se tedy jeví jako dostatečná. Zda je řada skutečně stacionární ukáže až následující test. V našem případě použijeme KPSS test, který je založen na testování nulové hypotézy proti obecné alternativě. Hodnota testovací statistiky je a. Na hladině 5% tedy nezamítáme a řadu lze považovat za stacionární. Nyní se budeme zabývat určením vhodného modelu. Na řadu budeme postupně zkoušet modely AR, MA, ARMA různých řádů a vybereme nejvhodnější. Poměrně často se stává, že model nelze jednoznačně identifikovat pouze na základě odhadnutých funkcí ACF a PACF. Je proto třeba přihlédnout k více kritériím jako jsou odhadnutý rozptyl, statistická významnost parametrů či hodnota AIC (Akaikeho 48

49 informačního kritéria). Poslední jmenované kritérium patří k historicky nejstarším a vzhledem k jeho jednoduchosti také k nejpoužívanějším. Při jeho praktických použitích však bylo zjištěno, že v mnoha případech vede k přeceňování řádu modelu, proto je třeba vzít v úvahu více kritérií současně. Žádoucí je vybrat ten model, jehož hodnota AIC je nejnižší. V Tabulce 3 vidíme jednotlivé hodnoty kritéria AIC pro modely do řádu včetně. Modely ARMA(0,4) a ARMA(2,2) jsme nedoplnili, neboť parametry vyšších řádů již nejsou statistiky významné. Jak Tabulka 3 ukazuje, nejlépe vychází model ARMA(2,1). Další možností je vybrat model poskytující nejlepší předpovědi. Porovnání hodnot AIC pro jednotlivé modely ARMA(0,1) 4259 ARMA(0,2) 4251 ARMA(0,3) 4244 ARMA(0,4) - ARMA(1,0) 4358 ARMA(2,0) 4319 ARMA(3,0) 4294 ARMA(4,0) 4266 ARMA(1,1) 4249 ARMA(2,1) 4243 ARMA(1,2) 4245 ARMA(2,2) - Tabulka 3. Tabulka odhadnutých hodnot AIC pro jednotlivé modely Nyní prozkoumejme odhadnuté funkce ACF a PACF v Grafu 14 a Grafu 15. Je patrné, že v Grafu 14 jsou všechny odhadnuté autokorelace významně nenulové a nelze proto zvolit identifikační bod. Na tuto ACF tedy nelze napasovat žádný model MA. U odhadnuté PACF je situace podobná. Počáteční odhadnuté autokorelace jsou významně nenulové. Identifikační bod bychom zde našli až na 10. pozici, což by znamenalo mít v modelu deset parametrů. Proto si i zde si nevystačíme s jednoduchým modelem AR. Je 49

50 třeba použít kombinaci obou modelů a zvolit některý model ARMA s přijatelnými výsledky. S pomocí programu R zkoušíme odhadovat parametry těchto modelů a vybereme ten, který má nejmenší hodnoty AIC a rozptylu (viz Tabulka A1). Zároveň přihlížíme ke statistické významnosti odhadnutých parametrů. Ukázalo se, že nejlépe vyhovuje model ARIMA(2,1,1), pro který jsme se nakonec rozhodli. Graf 14. ACF časové řady 50

51 Graf 15. PACF časové řady 5. 2 Odhad parametrů Vedle odhadnutých ACF a PACF pro rezidua, přikládáme velkou váhu také statistické významnosti odhadnutých parametrů uvedených v Tabulce 4. Při orientačním porovnání dvojnásobku směrodatné odchylky odhadů parametrů (s.e.) s odhadnutými parametry docházíme k závěru, že odhady parametrů ar2 a ma1 se významně liší od nuly a není tudíž možné model zjednodušovat odebráním těchto parametrů. Všechny parametry můžeme tudíž považovat za statisticky významné. Celkový přehled odhadnutých parametrů, včetně směrodatné odchylky a AIC pro vybrané modely, je uveden v Tabulce A1. 51

52 Odhadnuté parametry pro model ARIMA(2,1,1) Call: arima(x = rozdil, order = c(2, 0, 1), include.mean = FALSE) ar1 ar2 ma1 Coefficients , s.e , sigma^2 estimated as 136,8: log likelihood = -2118,26, aic = 4244,52 Tabulka 4. Odhadnuté parametry pro model ARIMA (2,1,1) Přitom platí, že výstup z R pro model ARMA(2,1) na prvních diferencích (proměnná x=rozdil) dává stejný výsledek jako při použití modelu ARIMA(2,1,1) na původní nediferencovanou řadu. Výsledný model lze zapsat ve tvaru = 0, , 8779 (101) 5. 3 Verifikace modelu A. Významnost parametrů Abychom měli skutečně jistotu o statistické významnosti parametrů, provedeme t-test založený na porovnání hodnot parametrů, pro i = 1,2, p a, pro i = 1, 2,.., q a jejich odhadnutých směrodatných odchylek. Testování probíhá pomocí statistik =, pro i = 1, 2,..,p, 52

53 =, pro i = 1, 2,.., q. (102) kde a vyjadřují odhadnuté směrodatné odchylky odhadu jednotlivých parametrů. Výsledky statistik se porovnávají s hodnotou t, kde t = 95% kvantil rozdělení t o stupních volnosti. V našem případě je t = 1,96. Pro námi určený model ARIMA(2,1,1) má t-test následující výsledky = = 1, 5650 < 1, 96 = 2, 9438 > 1, 96. = 24, 7994 > 1, 96. (103) Hodnoty statistik nám dokazují, že parametry ar2 a ma1 jsou skutečně statisticky významné. U parametru ar1 hypotézu nulovosti parametru nezamítáme, ale o parametru ar2 jsme se rozhodli jako o významném, tudíž je v modelu ponecháme oba. B. Nekorelovanost Jako další metodu k ověření vhodnosti modelu zde použijeme prozkoumání odhadnuté ACF a PACF reziduí zaznamenaných v Grafech 16 a 17. Vidíme, že odhadnuté autokorelace reziduí na prvních pozicích jsou téměř nulové, což značí skoro absolutní nezávislost. Hodnoty ACF začínají narůstat až kolem 5. pozice a výrazněji překročí dvojnásobek příslušné směrodatné odchylky až na 9. pozici. Pokud bychom tedy připustili dlouhodobé korelace, nezávislost reziduí bychom zamítli. V celkovém pohledu ale k žádnému radikálnímu překročení hranice nedochází, můžeme tedy považovat řadu za nekorelovanou. 53

54 Graf 16. ACF reziduí časové řady Graf 17. PACF reziduí časové řady Další možností testování nekorelovanosti je Ljung - Boxův test, který je odvozen z Portmanteau testu a slouží k ověření nekorelovanosti časové řady. Test je založen 54

55 na testování nulové hypotézy oproti alternativě Je li model vyhovující, potom statistika ), (104) kde jsou odhadnuté hodnoty autokorelační funkce reziduí a je vhodně zvolená konstanta srovnatelná s číslem, kde je délka analyzované řady. Jsou li rezidua modelu ARMA, za platnosti nulové hypotézy má statistika přibližně rozdělení o stupních volnosti. Pokud překročí příslušnou kritickou hodnotu, pak na hladině významnosti zamítneme nulovou hypotézu a model považujeme za nevhodný. Přitom je třeba si uvědomit, že Ljung - Boxův test aplikujeme až na upravený model ARIMA, nikoliv na původní neočištěná data. Proto při testování hypotéz ověřujeme, zda v modelu nezbyly už žádné autokorelace a data mají charakter bílého šumu. Při zamítnutí nulové hypotézy je tedy třeba model přeparametrizovat. Jako poslední možnost kontroly zvoleného modelu uvedeme Diagnostiku modelu. Jak je vidět v následujícím Grafu 18, tento test zkoumá nezávislost reziduí a je odvozen z myšlenky, že rezidua správně zvoleného modelu jsou na sobě nezávislá. Pokud najdeme závislost, tak tato rezidua pochází ze špatně zvoleného modelu a je třeba ho upravit. Tuto automatickou diagnostiku nabízí R a obsahuje Standardizovaná rezidua, jejich odhadnutou ACF a graf p-hodnot Ljung Boxova testu. Za standardizovaná rezidua považujeme normované odchylky skutečných hodnot od požadované hodnoty. Tato rezidua mají aproximativně t rozdělení s jedním stupněm volnosti a umožňují určit, zda se jedná o významnou odchylku nahoru či dolů. Přerušovanou čarou u funkce ACF je zakreslen dvojnásobek příslušné směrodatné odchylky. Hodnoty, které výrazně přesahují tuto hranici lze považovat za odlehlé a značí nežádoucí korelaci reziduí. Poslední graf p-hodnot zobrazuje výsledky testu nezávislosti reziduí a je kalkulován pro prvních 10 hodnot viz vztah (104), kdy vidíme realizaci hodnot tohoto vzorce pro různá K od 1 55