PREDIKCE ČASOVÉ ŘADY POMOCÍ AUTOREGRESNÍHO MODELU Ing. Roman DANEL, Ph.D. roman.danel@voln.cz Lisopad 2004
1. Časové řad Daa, kerá vvářejí časovou řadu, vznikají jako pozorování, uspořádané chronologick (v čase). S ím se můžeme seka jak v echnice, společenských vědách nebo v ekonomice. Cílem analýz časové řad je věšinou konsrukce odpovídajícího modelu. To umožní porozumě mechanismu, na jehož základě jsou sledované údaje generován. Znalos modelu umožňuje předpovída budoucí vývoj ssému. Konsrukce modelu umožňuje řídi a opimalizova činnos příslušného ssému vhodnou volbou vsupních paramerů a počáečních podmínek Volba meod pro analýzu časových řad závisí především na 1. účelu analýz 2. pu časové řad 3. zkušenosi saisika S da, uspořádanými do časové řad souvisí někeré specifické problém. Jsou o: 1. problém s volbou časových bodů pozorování (na jedné sraně je nežádoucí poče pozorování zhušťova z hlediska složiosi numerických výpočů, na druhé sraně nesmí bý pozorování příliš řídká ab nemohl uniknou někerý charakerisický rs řad) 2. problém s kalendářem (řada je zaížena nežádoucími kalendářními nepravidelnosmi) 3. problém s délkou časových řad někeré meod analýz vžadují určiou minimální délku řad, na druhé sraně je nebezpečí, že se průběhem času podsaně mění charakerisik modelu, akže jeho sesavení se sává obížnější (je nuné připusi např. změn paramerů modelu v čase ad.) 2. Dekompozice časových řad Časové řad mohou bý rozložen na několik složek: 1. rend 2. sezónní složka 3. cklická složka 4. reziduální (náhodná) složka Trend odráží dlouhodobé změn v průměrném chování časové řad. Vzniká v důsledku působení sil, keré ssemaick působí ve sejném směru. Sezónní složka popisuje periodické změn v časové řadě, keré se odehrávají během jedné sezón (např. kalendářního roku) a každou další sezónu se opakují. Sezónní složka je způsobena akovými fakor jako např. sřídání ročních dob, v ekonomické oblasi např. lidské zvk apod.. Cklická složka je periodická složka, kerá je někd popisována jako flukuace okolo rendu (sřídání fází růsu a poklesu). Délka a inenzia cklů může bý proměnlivá. Cklická složka může bý důsledkem vnějších vlivů, vipování příčin ale může bý obížné. Tpickým příkladem cklické složk je obchodní cklus v ekonomice (konjunkura krize deprese) Náhodná složka je vořena náhodnými pohb (flukuacemi) v průběhu časové řad, keré nemají rozpoznaelný ssemaický charaker. Pokrývá aké chb měření nebo chb výpočení (zaokrouhlování). Z pohledu saisik se jedná o bílý šum s normálním rozdělením. 2
Zaímco rend, sezónní a cklická složka jsou funkcí času, náhodná složka je posloupnosí náhodných veličin. Časovou řadu si ed můžeme předsavi jako rend, na kerý jsou nabalen periodické složk (sezónní a cklická) a bílý šum. Pro dekompozici je k dispozici několik přísupů: Klasické dekompoziční meod kladou důraz na ssémové složk a jednolivá pozorování se obvkle berou jako nekorelovaná. Časo používaným násrojem v dekompozičních meodách je regresní analýza. Boxova-Jenkinsova meodologie dekompozice časové řad bere naproi omu za základní prvek konsrukce modelu časové řad reziduální (náhodnou) složku, kerá může bý vořena korelovanými (závislými) náhodnými veličinami. Těžišě spočívá právě ve všeřování ěcho závislosí, v zv. korelační analýze. Nejjednodušší model, s nímž ao meodologie pracuje, je zv. model klouzavých součů MA. Je vhodný pro časovou řadu, v níž jsou všechna pozorování navzájem nekorelovaná až na bezprosřední sousední dvojice. Jinými p modelů jsou auoregresní model AR nebo smíšené model ARMA. Pro řad se zjevným rendovým nebo sezónním charakerem meodologie používá inegrované model ARIMA nebo zv. sezónní model, v nichž sezónní nebo rendová složka může bý modelována sochasick. Boxov-Jenkinsov model jsou daleko flexibilnější než dekompoziční model (flexibiliou modelu rozumíme schopnos modelu adapova se rchle na změněný charaker časové řad). Zcela odlišný přísup analýz časových řad je spekrální analýza (někd se označuje aké jako fourierovská analýza). Zkoumanou časovou řadu považuje za (nekonečnou) směs sinusových a kosinusových křivek s různými ampliudami a frekvencemi. Pomocí speciálních saisických násrojů je možné při spekrální analýze získa obraz o inenziě zasoupení jednolivých frekvencí v časové řadě (j. o spekru řad). Lze vipova frekvence, keré jsou v dané řadě zasoupen nejvýrazněji a explicině odhadnou koeficien periodických složek odpovídajících ěmo frekvencím. Spekrální analýza je vhodná při srovnávání chování několika řad, umožňuje naléz časové zpoždění mezi řadami. 3. Boxova-Jenkinsova meodologie Obecně můžeme jakýkoli lineární model zapsa ve varu: = G.u + H.e (3.1) u G e H výsupní veličina vsupní veličina přenosová funkce - vjadřuje dnamické vlasnosi ssému, j. závislos výsupu na vsupu bílý šum (rušení) vjadřuje skuečnos, že se sejným vsupem dosaneme různý výsup noise model (jak působí rušení na výsup ze sandardizovaného zdroje Rušení e()) 3
Při analýze časové řad v rámci Boxov-Jenkinsov meodologie je posup možno rozděli do ří kroků: 1. Idenifikace 2. Odhad paramerů modelu 3. Ověřování modelu Pro vbudování spolehlivého modelu podle éo meodologie je řeba mí k dispozici alespoň 50 pozorování [1]. Prakická aplikace meodologie je dosi nákladná a časově náročná. Proo se předpokládá použií počíače. Meoda předpokládá auokorelační vlasnosi časových řad. Sacionaria časové řad znamená, že chování éo řad je v jisém smslu sochasick usálené. Sacionární proces je rovnoměrně vvážený (j. s konsanním rozplem), přičemž závislos mezi dvěma libovolnými pozorováními závisí pouze na jejich vzájemné časové vzdálenosi a nikoli na jejich skuečném časovém umísění v řadě. Chování auokorelační funkce je důležiým ukazaelem, proože napovídá, jaký p modelu je pro danou časovou řadu vhodné použí oo chování idenifikuje příslušný model. Auoregresní model (dále označovaný jako AR) je speciální případ obecného lineárního modelu podle Box-Jenkinsov meodologie. V praxi se kromě AR modelu požívají ješě aké proces MA (proces klouzavých součů) nebo ARMA (smíšený proces). To proces jsou konsruován co nejúsporněji, ab obsahoval čím jak nejmenší poče paramerů. Volba paramerů se omezuje ak, ab bla zaručena podmínka sacionari a inveribili modelu blíže viz rozbor AR modelu. 4. AR model Auoregresní model časové řad je založen na poznaku, že každá hodnoa v časové řadě, je v relaci (závislosi) s předchozími hodnoami éo řad. Auoregresní model AR(p) řádu p je definován ako: = b1 1 + b2 2 + L+ bp p + (4.1) b b Lb 1, 2 p koeficien auoregresního procesu bílý šum (současná hodnoa) nová hodnoa řad vpočená na základě předchozích hodno nebo pomocí operáoru zpěného posunuí B lze AR model zapsa jako b( B). = (4.2) b(b) je zv. auoregresní operáor. 4
Pozn. Operáor zpěného posunuí B je pro lineární proces definován ako: B. = 1 (4.3) a lze jej aplikova vícenásobně jako B j = (4.4) j z oho pak vplývá zápis AR(p) procesu jako (4.2). Proces AR(p) odpovídá lineárnímu procesu zapsanému již v inverovaném varu (s konečným počem nenulových paramerů). Proces AR(p) je sacionární, jesliže všechn koeficien polnomu b(b) leží vně jednokového kruhu (v komplexní rovině). Pod sacionariou časové řad rozumíme o, že charaker éo řad zůsává v čase sejný (včeně udržování konsanní úrovně) [1, sr. 123] Inveribilní proces nazýváme lineární proces, kerý umožňuje zápis ve varu, kd jeho současná hodnoa je vjádřena pomocí minulých hodno a současné hodno bílého šumu. Inveribilia má sěžejní význam pro konsrukci předpovědí. [1] Sřední hodnoa sacionárního procesu AR(p) je nulová. Auokorelační funkce AR(p) procesu má var k = α G + L+ α G k k 1 1 p p k >= 0 (4.5) α. jsou konsan G..jsou kořen polnomu b(b), keré jsou navzájem různé a leží vně jednokového kruhu Auokorelační funkce procesu AR(p) je ed v podsaě lineární kombinací klesajících geomerických posloupnosí a sinusoid různých frekvencí s geomerick klesajícími ampliudami. Pro výpoče paramerů procesu AR(p) pomocí hodno jeho auokorelační funkce se používá zv. Yuelova-Walkerova sousava lineárních rovnic: 1 = b1 + b2 1 + L+ b p p 1 2 = b1 1 + b2 + L+ b p p 2 b + b + L+ b p = 1 p 1 2 p 2 p (4.6) Řešením (4.6) dosaneme paramer b procesu vjádřené pomocí hodno auokorelační funkce. Zpracování signálů pomocí lineárních modelů je alernaivou k zpracování časové řad pomocí spekrální analýz (rchlé Fourierov ransformace). Rozdíl mezi oběma meodami se snižují zvšováním řádu AR modelu. 5
5. Další p lineárních modelů (MA, ARMA, ARIMA ) 5.1. Model klouzavých součů MA Proces MA(q) - z anglického Moving Average - řádu q lze zapsa ako: = + w 1 1 + w2 2 + L+ wq q (5.1) w... jsou paramer modelu bílý šum nebo pomocí operáoru zpěného posunuí = w( B) (5.2) Proces MA(q) je sacionární pro libovolnou volbu jeho paramerů a jeho sřední hodnoa je nulová. Proces MA je inveribilní, jesliže všechn kořen polnomu w(b) leží vně jednokové kruhu (v komplexní rovině). Řešením sousav nelineárních rovnic auokorelační funkce MA lze získa hodno paramerů w. 5.2. Smíšený model ARMA Kombinací procesů AR(p) a MA(q) dosaneme smíšený proces ARMA(p,q). Proces ARMA(p,q) můžeme zapsa pomocí smbolik operáoru zpěného posunuí B jako b( B) = w( B) (5.3) Podmínka sacionari procesu ARMA je shodná s podmínkou sacionari procesu AR(p) a podmínka inveribili procesu je shodná s podmínkou inveribili procesu MA(q). Sřední hodnoa procesu ARMA je nulová a jeho auokorelační funkce vhovuje podobné sousavě diferenčních rovnic jako v případě AR procesu. Pro zápis procesů ARMA (nebo AR) lze použí několik alernaivních možnosí a) ve varu diferenční rovnice b) ve varu lineárního procesu c) ve inveribilním varu Pro každý AR model řádu p lze naléz ekvivalenní MA model s dosaečným počem q elemenů rušení. Někeré ekonomické nebo obchodní časové řad mohou bý modelován s celkem malým počem p a q prvků v podobě modelu AR, MA nebo modelu ARMA. Cílem je nají nejmenší poče p a q prvků, pořebných k uspokojivé předpovědi časové řad. 6
5.3. Inegrovaný smíšený model ARIMA Nejobecnějším modelem je nesacionární inegrovaný smíšený model ARIMA(p,d,q), I znamená inegraci. První vhodnocení modelu ARIMA vvořil J. Durban v roce 1960. ARIMA model umožňují popis procesů, u kerých nejenže dochází ke změnám úrovně, ale o změn mohou mí nessemaický, náhodný charaker (což je pro časové řad z praxe běžné). Teno model modeluje sochasick vedle náhodných flukuací i rendovou složku. Model ARMA se konsruují až pro řadu prvních nebo všších diferencí časové řad, u konsrukce ARIMA modelu nepožadujeme sacionariu analzované řad. Pro úplnos uvádím definici modelu ARIMA(p,d,q) b( B). v = w( B). (5.4) v = d (5.5) je d-á diference modelovaného procesu pro proces v ( proces v je vlasně proces ARMA(p,q) s nenulovou sřední hodnou). Diferenční operáor je možno vjádři pomocí operáoru zpěného posunuí jako = 1 B (5.6) 6. Výsavba modelů 6.1. Idenifikace modelu Je první fází výsavb modelu. Úkolem je rozhodnou, jaký p modelu použí (AR, MA, ARMA) a explicině urči řád modelu. Jesliže sřední hodnoa sacionárního procesu není nulová, je nuné danou řadu cenrova. O případné nenulovosi sřední hodno lze rozhodnou na základě nějakého saisického esu (srovnáme arimeický průměr, což chápeme jako odhad sřední hodno s dvojnásobkem odhadnué směrodané odchlk). Vlasní idenifikace je založena na zkoumání průběhu odhadnué auokorelační funkce a parciální auokorelační funkce [1], abulka sr. 124 a125. Snažíme se zjisi exisenci případného idenifikačního bodu k0 (j. hodnoa, za kerou auokorelační funkce začíná bý nulová) nebo zjisi, že aková hodnoa k vůbec neexisuje. Chování auokorelační funkce napovídá, jaký p modelu je vhodné pro danou řadu použí 6.2. Odhad paramerů modelu V současné době exisuje řada odhadových procedur. Jejich popis je značně komplikovaný a k jejich provedení je zapořebí použí počíače (použijí se hrubé odhad paramerů, získané během idenifikace a se dále zpracovávají v ieračních procedurách. Základem ěcho procedur je jsou odhadové meod nejmenších čverců). 7
Někeré z možných meod odhadu paramerů auoregresního modelu AR(p) jsou: a) Leas-squares mehod (meoda nejmenších čverců) b) Yule-Walker mehod c) Burg s mehod ( maximální enropie ) doporučovaná meoda pro modelování širokopásmových signálů [4] d) Forward-backward e) Maximum Likehood Eximaor (meoda maximální věrohodnosi) Příkladem sofware pro odhad paramerů modelu je programový prosředek Malab (modul Ssém Idenificaion Tool, Time Series Analsis Toolbox, ad.) firm MahWorks nebo program pro saisické výpoč Ssa firm SPSS. 6.3. Ověřování modelu Ověřování (diagnosika) modelu má za úkol povrdi nebo zamínou adekvános modelu. Exisuje několik meod ověření modelu, jako jsou např. meoda přeparamerizování modelu, meoda odhadnuých reziduí nebo Pormaneu es, es pomocí kumulaivního periodogramu apod. Podrobný popis ěcho meod je uveden v publikaci [1], sran 136 až 140. Každá meoda posuzuje model z různých hledisek a s různou účinnosí, doporučuje se proo použí více meod současně. Podezření na neadekvános modelu je například ehd, jesliže jsou neúměrně velké sandardní odchlk odhadnuých paramerů nebo je neúměrně velká hodnoa rozplu σ. V om případě použijeme model s věším počem paramerů (vššího řádu). Jesliže nový model vede ke snížení směrodané odchlk odhadů a odhad nově zavedených paramerů jsou výrazně nenulové, pak původní model nahradíme novým rozšířeným modelem. Teno posup je principem meod přeparamerizování modelu, uvedené v odsavci výše. 2 7. Použií AR modelů v praxi Kde se používá aproximace AR modelem? - pro paramerickou spekrální analýzu - fzikální model (jako je např. rozpoznávání řeči) - model se sinusovým průběhem - signálové filr - modelování vvíjejících se širokopásmových signálů (signál, jejíž spekra se v čase vvíjejí např. únavový es maeriálu) - zpracování signálu z EKG nebo všeřování mozkové akivi Další informace k použií AR modelu viz [7]. Příkladem prakického použií AR modelu je resaurace vsokofrekvenčních složek v hudebním signálu, keré se zrail např. dlouhodobým skladováním na magneofonové pásce nebo resaurace poškozeného signálu při nahrávání ze sarých gramofonových desek U modelování signálů pomocí auoregrese je vsoká rozlišovací schopnos meod AR značně závislá na příomnosi šumu. Kdž se poměr signál/šum zmenšuje, je zapořebí k získání sejného rozlišení všší řád modelu. Příliš velký řád modelu ale způsobuje chb ve vpočeném spekru. AR model nejsou příliš vhodné pro idenifikaci jednoduchých, sinusových, spekrálních složek. Pro analýzu přechodových signálů je lépe použí waveleovou ransformaci [4]. 8
8. Lieraura 1. Cipra, T.: Analýza časových řad s aplikacemi v ekonomii. Praha, SNTL 1986. 2. Enochson L. Ones K.: Analiza numerczna szeregów czasowch. Warszawa, Wdawnicwo Naukowo Techniczne 1978. 3. The Ssem Idenificaion Toolbox Malab, dokumenace, 1998. 4. Kuběna R.: Analýza signálů pomocí auoregresního modelování. Sborník XXI. Semináře ASŘ 98, příspěvek č.21. 5. Sanford R.: Time Series Forecasing Models (chaper 12), Economeric Forecasing Techniques (chaper 13) & appendix 3 ARIMA modeling hp://www.furman.edu/~sanford/res.hm, Furman Universi, Greenwille. 6. Tůma J.: Použií auoregresního modelu k aproximaci impulsní charakerisik. Sborník XXI. Semináře ASŘ 98, příspěvek č.53. 7. Mc Graw F.: Parameric Specral Esimaion. hp://www.ms.washingon.edu/~s520/chp-09/, 1998. 8. hp://www.mahools/oolboxes.hm Time Series Analsis Toolbox, 1999. 9
Příloha 1 - Význam parameru FPE při práci s AR model v sofware Malab FPE (Final Predicion Error) je kriérium, keré se používá k určení řádu auoregresního modelu. Jeho auorem je Akaike a paří spolu s AIC kriériem (Akaike Informaion Crierion) mezi nejsarší a nejčasěji používaná kriéria. Kriérium FPE pro sanovení řádu auoregresního modelu má var: FPE( k) = logσ 2 k + (2k) / n n je délka analzované řad Pro rosoucí paramer k - AR(k) od nul po správný řád p modelu AR(p) má odhad rozplu klesající endenci, po překročení p kolísá kolem správné hodno rozplu. Založi konsrukci odhadu řádu modelu přímo na minimalizaci rozplu b vedlo k neúměrnému preferování velkých hodno k. Proo se používá penalizační funkce w(k), kerá penalizuje volbu příliš vsokého řádu modelu. Odhad řádu modelu obecně získáme minimalizací odhadového kriéria. Řád modelu se určuje na základě kompromisu mezi malými hodnoami penalizační funkce a velkými hodnoami odhadu rozplu. Řád auoregresního modelu se na základě kriéria FPE určuje ak, ab při něm bla minimální chba předpovědi o jeden krok dopředu (pracuje se v něm s zv. asmpoickou sřední čvercovou chbou předpovědi). Tao předpověď je založena na odhadnuém modelu právě posuzovaného řádu a na daných pozorováních k, k = 1, L, n. Formálně je FPE speciální případ kriéria AIC. 10