Časové řady a jejich periodicita pokračování

Podobné dokumenty
Časové řady a jejich periodicita úvod

Statistická analýza jednorozměrných dat

Jednofaktorová analýza rozptylu

12. cvičení z PST. 20. prosince 2017

Funkce komplexní proměnné a integrální transformace

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA

Normální (Gaussovo) rozdělení

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

4EK211 Základy ekonometrie

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Jednofaktorová analýza rozptylu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

Časové řady, typy trendových funkcí a odhady trendů

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jana Vránová, 3. lékařská fakulta UK

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

PRAVDĚPODOBNOST A STATISTIKA

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Regresní a korelační analýza

Normální (Gaussovo) rozdělení

Časové řady, typy trendových funkcí a odhady trendů

Cvičení ze statistiky - 8. Filip Děchtěrenko

Úvod do analýzy rozptylu

PRAVDĚPODOBNOST A STATISTIKA

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Testování statistických hypotéz

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Testy. Pavel Provinský. 19. listopadu 2013

Statistika, Biostatistika pro kombinované studium. Jan Kracík

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Pravděpodobnost, náhoda, kostky

Matematika (CŽV Kadaň) aneb Úvod do lineární algebry Matice a soustavy rovnic

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Diferenciální rovnice 3

cv3.tex. Vzorec pro úplnou pravděpodobnost

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zápočtová práce STATISTIKA I

7. Analýza rozptylu.

15. T e s t o v á n í h y p o t é z

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Bodové a intervalové odhady parametrů v regresním modelu

Charakteristika datového souboru

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Aproximace binomického rozdělení normálním

KGG/STG Statistika pro geografy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Regresní analýza 1. Regresní analýza

0.1 Úvod do lineární algebry

Intervalová data a výpočet některých statistik

Regresní a korelační analýza

STATISTICKÉ ODHADY Odhady populačních charakteristik

KORELACE. Komentované řešení pomocí programu Statistica

= = 2368

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

PRAVDĚPODOBNOST A STATISTIKA

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Stručný úvod do testování statistických hypotéz

Úvod do analýzy časových řad

Úlohy nejmenších čtverců

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Regresní a korelační analýza

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testy statistických hypotéz

LINEÁRNÍ MODELY. Zdeňka Veselá

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

(Cramerovo pravidlo, determinanty, inverzní matice)

Testování statistických hypotéz

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Vícerozměrná rozdělení

Ing. Michael Rost, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Návrh a vyhodnocení experimentu

Univerzita Karlova v Praze procesy II. Zuzana. funkce

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Regresní a korelační analýza

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Korelace. Komentované řešení pomocí MS Excel

10. Soustavy lineárních rovnic, determinanty, Cramerovo pravidlo

Příklady - Bodový odhad

Regresní a korelační analýza

Transkript:

Časové řady a jejich periodicita pokračování Jana Klicnarová Katedra aplikované matematiky a informatiky Jihočeská Univerzita v Českých Budějovicích, Ekonomická fakulta 2010

Dekompozice časových řad Jak jsme již zmínili dříve, cílem dekompozice časových řad je rozložení časové řady do čtyř základních složek složky trendu, sezónní složky, cyklické složky a reziduální složky. Při této dekompozici se často předpokládá, že reziduální složka je tzv. bílým šumem. Uveďme tedy definici bílého šumu. Bílý šum Náhodná složka ε t je často uvažována jako bílý šum. Náhodné veličiny (ε t ) t tvoří bílý šum, pokud jsou nekorelované, mají nulovou střední hodnotu a konečný kladný rozptyl σ 2.

Dva základní typy dekompozice časových řad Dekompozici časových řad do čtyř výše zmíněných složek lze provést několika způsoby, zde se omezme na dva základní způsoby, a to dekompozici aditivní dekompozici multiplikativní.

Dva základní typy dekompozice časových řad Aditivní dekompozice Pokud uvažujeme aditivní dekompozici, potom předpokládáme, že řadu lze rozložit jako součet několika složek: Y t = T t + S t + C t + ε t, kde Y t je náhodná veličina, realizující se v čase t, T t je trendová složka této veličiny, S t sezónní složka, C t cyklická složka a ε t je náhodnou složkou této veličiny v čase t.

Dva základní typy dekompozice časových řad Aditivní dekompozice jednotky Poněvadž lze sčítat pouze sčítance, které mají stejné jednotky, je zřejmé, že v případě aditivní dekompozice jsou všechny složky vyjádřeny ve stejných jednotkách v takových, ve kterých je udávána pozorovaná hodnota časové řady. Pokud tedy například analyzujeme počet návštěvníků nějaké památky, potom všechny složky mají za jednotky počet návštěvníků např. sezónní složka nám udává očekávaný nárůst či pokles návštěvníků v daném časovém období vůči průměru.

Dva základní typy dekompozice časových řad Multiplikativní dekompozice Uvažujeme-li multiplikativní model, potom náhodnou veličinu rozkládáme do stejných složek jako v případě aditivního modelu, ale operátor sčítání je nahrazen operátorem násobení. A tedy předpokládáme, že platí: Y t = T t S t C t ε t, kde, jak jsme již zmínili výše, Y t je náhodná veličina, kterou analyzujeme, T t je její trendová složka, S t sezónní složka, C t cyklická složka a ε t je její náhodnou složkou. V tomto modelu má stejné jednotky jako pozorování časové řady pouze složka trendu T, ostatní složky jsou bez rozměrné a udávají relativní změnu.

Dva základní typy dekompozice časových řad příklad Příklad Pro ilustraci rozdílu mezi multiplikativním a aditivním model si představme dvě vesničky Multiplikov a Aditov. V těchto dvou vesničkách chceme pomoci tamní energetické společnosti modelovat spotřebu elektřiny domácností v závislosti na ročním období. V Multiplikově všichni obyvatelé používají elektřinu pouze ke svícení. V Aditově všichni obyvatelé na elektřině vaří a všichni ji používají k vytápění.

Dva základní typy dekompozice časových řad příklad Multiplikov Za takových předpokladů, lze pro Multiplikov předpokládat model spotřeby elektřiny ve tvaru Y t = T t S t ε t, kde Y t je spotřeba elektřiny v časovém období t, T t je trendová složka spotřeby elektřiny, S t sezónní a ε t náhodná složka v čase t. Volba tohoto modelu vychází ze zjednodušené představy, že obyvatelé svítí nějakým daným počtem žárovek o dané spotřebě, rozdíl je v tom, že v letních měsících svítí kratší dobu než v zimních. A tedy parametr S t udává relativní dobu svícení v daném období.

Dva základní typy dekompozice časových řad příklad Aditov A pro Aditov lze sestavit model se stejnými parametry, avšak ve tvaru: Y t = T t + S t + ε t. V tomto případě je zjednodušená představa následující v trendu T t je zahrnuta spotřeba elektřiny na vaření, která se s měnícím se obdobím více méně nemění a v sezónnosti S t je zahrnuta spotřeba elektřiny na topení, která je v letních měsících nulová a v zimních měsících roste. (Všimněme si, že v tomto modelu není obsažený trend. Pokud tedy řada vykazuje nějaký trend, před použitím spektrální analýzy musíme zkoumanou řadu od trendu očistit.)

Obecná periodicita v časových řadách Dva základní přístupy k periodicitě První možnost je, že z povahy časové řady víme, jaká periodicita by se v ní měla vyskytovat (spotřeba plynu pro domácnosti na topení bude zřejmě mnohem vyšší v zimních měsících než v letních, kdy bude pravděpodobně nulová. Očekáváme zde tedy roční periodicitu). V takovémto případě, kdy z povahy dat víme, jakou periodicitu můžeme očekávat, je možné pro začátek udělat nějaký test na očekávanou periodicitu. V případě, že se tato periodicita potvrdí, potom již můžeme hledat parametry modelu s prokázanou periodicitou. Touto situací se zde zabývat nebudeme, podrobněji viz např. Cipra, T.: Analýza časových řad.

Obecná periodicita v časových řadách Dva základní přístupy k periodicitě Nadále se budeme soustředit na druhou možnost, a to takovou, kdy chceme zjistit, zda pozorovaná časová řada vykazuje nějakou periodicitu (přesněji cyklicitu), přičemž hledáme jakoukoliv periodu, pro kterou by byla nějaká cyklicita významná. Zjistit frekvenci takovýchto cyklů nemusí být vůbec snadné. Z grafu může být nemožné tyto cykly vyčíst, poněvadž se může stát, že řada obsahuje několik různých cyklů různých délek. V grafickém znázornění, potom není možné jednotlivé složky rozlišit. V takovém případě je asi nejvhodnější postupovat pomocí takzvané spektrální analýzy.

Základní myšlenka spektrální analýzy Časovou řadu chceme rozložit do tvaru Y t = µ + p (α j cos (ω j t) + β j sin (ω j t)) + ε j t = 1,..., n. (1) j=1 Tedy, jako součet nějaké úrovně (µ), směsi konečného počtu goniometrických funkcí s různými frekvencemi ω 1, ω 2,..., ω p a bílého šumu ε t. Všimněme si, že tento model nepředpokládá žádný trend. Tudíž, pokud naše zkoumaná řada vykazuje nějaký trend, musíme tuto řadu nejprve očistit od trendu, a teprve potom využít spektrální analýzy.

Základní myšlenka spektrální analýzy Hodnota p počet sčítanců je volena jako n 2 (celá část z n 2 ). (Máme-li řadu délky n, potom v této řadě můžeme pozorovat maximálně n 2 různých frekvencí, které se tam mohli projevit v celém průběhu.) Nejkratší pozorovatelný cyklus má polovinu své délky 1 ( jednou nahoře, po druhé dole ), poté následuje cyklus s polovinou délky 2,3,.... Nejdelší pozorovatelný cyklus má polovinu své délky n 2 delší cyklus už by se na n pozorování nemohl realizovat celý. Tato nejvyšší možná pozorovatelná frekvence se nazývá Nyquisova frekvence.

Základní myšlenka spektrální analýzy Naším cílem je nalézt ty hodnoty ω j, které jsou v námi analyzované řadě skutečně významné. K tomuto účelu zkonstruoval již v roce 1898 Schuster periodogram. Periodogram můžeme zapsat ( n 2 ( n ) 2 I (ω) = 1 y t cos (ωt)) + y t sin (ωt), (2) 2πn t=1 t=1 π ω π.

Periodogram Poznámka Definice periodogramu se u různých autorů liší multiplikativní konstantou, proto je možné, že hodnoty periodogramu vyjdou různě při výpočtu pomocí různého software. Nicméně na účelnosti to nic nemění.

Periodogram Ze vzorce pro periodogram je vidět, že ten je v každém bodě ω vlastně pozorováním nějaké náhodné veličiny (realizací náhodné veličiny). Podrobněji: Nahradíme-li ve vzorci periodogramu y t (tj. pozorované hodnoty) náhodnými veličinami Y t, potom je I (ω) skutečně náhodnou veličinou. V případě, že za náhodné veličiny dosadíme již pozorované hodnoty, získáváme pozorování této náhodné veličiny.

Periodogram náhodná veličina Pokud bychom uvažovali o periodogramu jako náhodné veličině (vypočítáno s Y t ), potom je tato náhodná veličina sestavena takovým způsobem, že její střední hodnota je ve významných bodech (tj. takových, kde je koeficient příslušný ω j nenulový) ω j (viz. (1)) řádu n a ostatních bodech se blíží nule. Její rozptyl je pro všechna n stejný. Hodnota periodogramu Máme-li hodnoty periodogramu naší časové řady, máme pro každé ω pozorování náhodné veličiny. A naším cílem je určit, kdy je to pozorování náhodné veličiny se střední hodnotou řádu n a kdy je to pozorování náhodné veličiny se střední hodnotou blíží se nule.

Periodogram testy Z výše uvedeného je zřejmé, že za významné frekvence budou uvažovány ty frekvence, v nichž vyjde hodnota periodogramu vysoká. Je tedy zapotřebí mít nějaký test, kterým určíme, kterou hodnotu ještě považovat za vysokou a kterou už nikoliv.

Test R.A. Fishera Hypotéza Y 1, Y 2,..., Y N, jsou nezávislé stejně rozdělené náhodné veličiny s rozdělením N(0, σ 2 ). Alternativa p Y t = µ + (α j cos (ω j t) + β j sin (ω j t)) + ε j t = 1,..., n. j=1

Test R.A. Fishera Testová statistika Spočtěme hodnoty I (ω j ) pro všechna j = 1,..., p. Seřaďme I (ω j ) sestupně a postupně je označme V 1, V 2,..., V p. (Tedy V 1 je největší hodnota, jaké pro naší časovou řadu nabyl periodogram.) Testovou statistikou je W = V 1 V 1 + V 2 + + V p. Kritické hodnoty této statistiky jsou tabelovány. Hypotéza se zamítá ve prospěch alternativy, pokud W > g F, kde g F je kritická hodnota Fisherova testu na zvolené hladině významnosti pro dané p.

Test R.A. Fishera Negativa testu Jednou z nevýhod tohoto testu je v hypotéze podmínka nezávislosti náhodných veličin. Může se tedy stát, že zamítneme hypotézu H 0 nikoliv z důvodu periodocity, ale z důvodu nesplnění podmínky nezávislosti. Dalším problém je, co dělat, pokud zamítneme hypotézu H 0, a tedy připustíme, že jedna z period (ta, v níž je hodnota periodogramu maximální) je signifikantní. Jak určit, zda existuje ještě nějaká další významná perioda? Opakovat test? V tomto případě se někdy používá tav. Whittleova modifikace Fisherova testu. Také je možné využít Siegelův test.

Test R.A. Fishera Whittleova modifikace Test dalších významných složek Předpokládejme, že jsme použili Fisherův test a pro jednu periodu zamítli hypotézu H 0. Cílem je zjistit, zda existuje ještě nějaká další významná perioda. Whittle doporučil, aby se v případě významnosti největší hodnoty peirodogramu tato vynechala, zůstanou tak hodnoty V 2, V 3,..., V p a použila se testová statistika W 1 = V 2 V 2 + V 3 + + V p. Tuto hodnotu opět porovnáváme s kritickou hodnotou g F, ovšem pozor, musíme již uvažovat p 1!

Fisherův test závěr Praktické zkušenosti ukázali, že v případě, že řada obsahuje jednu významnou frekvenci, je síla Fisherova testu svým způsobem optimální, ovšem v případě, že řady obsahují více významných frekvencí, má Fisherův test malou sílu. Proto byli navrženy modifikace Fisherova testu, které tento nedostatek odstraňují. Zde zmíníme Siegelovu modifikaci.

Siegelův test Siegel navrhl místo testové statistiky W použít testovou statistiku T λ = n (Z i λg F ) +, i=1 V kde Z i = i V 1 +V 2 + +V p, g F je kritická hodnota Fisherova testu, ( ) + značí kladnou část čísla a λ je nějakou konstanta. Kritické hodnoty této statistiky jsou tabelovány pro různá λ, obecně se však doporučuje používat λ = 0, 6.

Hledání periodických složek Jak z výše uvedeného vyplývá, je v podstatě subjektivní záležitostí (ovlivněno volbou testu, volbou konstanty), kolik prokážeme periodických složek v řadě (v případě, že jich existuje více). Proto se někdy používá zcela subjektivní přístup. Pokud se nám podaří zamítnout hypotézu H 0 pomocí Fisherova testu, potom si graficky znázorníme hodnotu periodogramu a sami určíme ty hodnoty, které ještě pokládáme za dostatečně velké. Čímž zcela subjektivně určíme významné periody.

Závěrečné poznámky Pokud jsme již stanovili významné periody, potom koeficienty v rovnici 1 určíme tradiční metodou nejmenších čtverců. Očištění řady Poznamenejme, že hypotézou všech uvedených testů bylo, že veličiny jsou nezávislé, s nulovou střední hodnotou, proto je nutné před začátkem testování periodicity řadu očistit od trendu!