Časové řady a jejich periodicita úvod

Podobné dokumenty
Časové řady a jejich periodicita pokračování

KGG/STG Statistika pro geografy. Mgr. David Fiedor 4. května 2015

Časové řady, typy trendových funkcí a odhady trendů

Statistika - základní informační zdroj ekonomické analýzy

Časové řady, typy trendových funkcí a odhady trendů

Analýza časových řad. John Watters: Jak se stát milionářem.

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

STATISTICKÉ ODHADY Odhady populačních charakteristik

Regresní analýza 1. Regresní analýza

Tomáš Karel LS 2012/2013

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

KGG/STG Statistika pro geografy

Základy popisné statistiky

Bodové a intervalové odhady parametrů v regresním modelu

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

AVDAT Nelineární regresní model

VÝVOJ INDEXŮ SPOTŘEBITELSKÝCH CEN

STATISTIKA I Metodický list č. 1 Název tématického celku:

Bodové a intervalové odhady parametrů v regresním modelu

Chyby měření 210DPSM

4. Aplikace matematiky v ekonomii

Škály podle informace v datech:

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Diagnostika regrese pomocí grafu 7krát jinak

10. Předpovídání - aplikace regresní úlohy

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Návrh a vyhodnocení experimentu

Chyby měřidel a metody měření vybraných fyzikálních veličin

Vybrané hospodářské, měnové a sociální ukazatele

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

Chyby měřidel a metody měření vybraných fyzikálních veličin

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

IV. Indexy a diference

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Renáta Bednárová STATISTIKA PRO EKONOMY

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

2011 (datový soubor life expectancy CR.txt). Budeme predikovat vývoj očekávané doby dožití pomocí

You created this PDF from an application that is not licensed to print to novapdf printer (

Výběrové charakteristiky a jejich rozdělení

Pojem a úkoly statistiky

Statistika pro geografy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

naopak více variant odpovědí, bude otázka hodnocena jako nesprávně zodpovězená.

Časové řady - Cvičení

STATISTIKA jako vědní obor

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Vybrané hospodářské, měnové a sociální ukazatele

StatSoft Jak se pozná normalita pomocí grafů?

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Dopravní nehody

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Sociodemografická analýza SO ORP Mohelnice

HOKEJOVÉ GÓLY. Michal Friesl. Katedra matematiky & NTIS Fakulta aplikovaných věd Západočeská univerzita v Plzni. Robust 2018, Rybník

Náhodné chyby přímých měření

ČESKÁ ZEMĚDĚLSKÁ UNIVERZITA V PRAZE

Manažerská ekonomika KM IT

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Chyby měřidel a metody měření vybraných fyzikálních veličin

PRAVDĚPODOBNOST A STATISTIKA 1

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

1. Přednáška. Ing. Miroslav Šulai, MBA

13.1. Úvod Cílem regresní analýzy je popsat závislost hodnot znaku Y na hodnotách

Benchmarking ORP Bystřice nad Pernštejnem

Míra přerozdělování příjmů v ČR

Statistické zkoumání faktorů výšky obyvatel ČR

Oddělení propagace obchodu a investic Velvyslanectví PR v Praze. Makroekonomické informace 04/2015

MONITOR VYBRANÉ HOSPODÁŘSKÉ, MĚNOVÉ A SOCIÁLNÍ UKAZATELE

Hodina 50 Strana 1/14. Gymnázium Budějovická. Hodnocení akcií

AVDAT Geometrie metody nejmenších čtverců

Statistika (KMI/PSTAT)

PRAVDĚPODOBNOST A STATISTIKA

Návrhová 50-ti rázová intenzita dopravy pohledem dostupných dat Ing. Jan Martolos, Ing. Luděk Bartoš, Ing. Dušan Ryšavý, EDIP s.r.o.

1 Indexy a časové řady. 1.1 Srovnávání ukazatelů, indexy

INDUKTIVNÍ STATISTIKA

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Normální (Gaussovo) rozdělení

Náhodné (statistické) chyby přímých měření

Časové řady. Ing. Michal Dorda, Ph.D.

Odhady Parametrů Lineární Regrese

Statistická analýza jednorozměrných dat

Zimní prognóza na období : postupné zdolávání překážek

Tomáš Karel LS 2012/2013

Statistika nehodovosti 3. čtvrtletí 2016

Analýza reziduí gyroskopu

Vývoj cen bytů v ČR Ing. Jiří Aron 1. Úvod

Fyzikální korespondenční seminář MFF UK

Vybrané hospodářské, měnové a sociální ukazatele

Vybrané hospodářské, měnové a sociální ukazatele

Možný přístup k odhadu spotřeby elektřiny v ČR a jednotlivých regionech

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

1) Úvod do makroekonomie, makroekonomické identity, hrubý domácí produkt. 2) Celkové výdaje, rovnovážný produkt (model 45 ), rovnováha v modelu AD AS

Jednofaktorová analýza rozptylu

Vysoká škola báňská Technická univerzita Ostrava Ekonomická fakulta Katedra regionální a environmentální ekonomiky

Transkript:

Časové řady a jejich periodicita úvod Jana Klicnarová Katedra aplikované matematiky a informatiky Jihočeská Univerzita v Českých Budějovicích, Ekonomická fakulta 2010

Časové řady Data, která získáváme v mnoha oblastech lidského konání a která chceme následně statisticky hodnotit, jsou mnohdy ve formě tzv. časových řad. Časová řada Časovou řadou rozumíme chronologicky uspořádaná pozorování hodnot nějaké náhodné veličiny. (V řeči teorie náhodných procesů je časová řada konkrétní realizací odpovídajícího náhodného procesu.)

Časové řady Data ve tvaru časových řad získáváme v mnoha oblastech ekonomii, biologii, lékařství, meteorologii, technice. Příklady časových řad Časovou řadou jsou ceny dané akcie na burze, maximální denní teploty, údaje o denní návštěvnosti nějaké historické památky, roční migrační saldo dané obce, apod. V rámci hodnocení regionálního rozvoje se můžeme setkat s časovými řadami udávajícími např. objem produkce nějaké komodity, přirozené přírůstky obyvatelstva, procentuální nezaměstnanost, počty nehod na silnicích v daném regionu, počty absolventů, atd.

Cíl analýzy časových řad Cílem analýzy časových řad je většinou konstrukce modelu, který nejlépe vystihuje chování zkoumané časové řady. Model časové řady Získaný model nám následně může umožnit pochopit mechanismus časové řady. Na základě konstrukce modelu, můžeme objevit, že řada vykazuje pravidelné cykly, trend apod.

Cíl analýzy časových řad Využití modelu ČŘ Díky takové konstrukci, můžeme odhalit, co nám ovlivňuje hodnoty časové řady a na čem naopak pravděpodobně nezávisejí. Což nám může také umožnit částečně řídit (optimalizovat) chování časové řady (volbou vhodných parametrů). Můžeme také podrobněji studovat sezónní a cyklické složky nebo naopak časovou řadu od těchto složek očistit a studovat očištěnou řadu, její vývoj, její trend. Získaný model časové řady můžeme také využít k predikci budoucích hodnot této řady. Nezapomeňme, že hodnoty časových řad jsou pozorováním realizace náhodných veličin, a tedy ani sebelepší model nám není schopen určit budoucí hodnotu, je pouze schopen dát nám odhad budoucí hodnoty (ať už bodový či intervalový).

Základní značení Jak je zvykem, budeme náhodné veličiny značit velkými písmeny, v našem případě Y t, kde t bude vyjadřovat časový parametr. Pozorované hodnoty těchto náhodných veličin (tedy jejich realizace) budeme, též podle zvyku, značit malými písmeny A na základě našeho modelu odhadované hodnoty (tedy bodové odhady realizací jednotlivých náhodných veličin) budeme také standardně značit ŷ t. y t.

Základní značení Příklad Uvažujeme-li například časovou řadu udávající počet nastupujících prvňáčků v jednotlivých letech do dané základní školy, potom Y 2010 vyjadřuje náhodnou veličinu počet nastupujících prvňáčků v roce 2010. Tato náhodná veličina má nějaké rozdělení s nějakou střední hodnotou a nějakým rozptylem. My, poněvadž chceme predikovat, kolik prvňáčků do dané školy nastoupí, se snažíme toto rozdělení odhadnout, popř. odhadnout střední hodnotu této veličiny nebo rozptyl. Na základě těchto odhadů stanovíme bodový odhad počtu nastupujících prvňáčků pro rok 2010 ŷ 2010. Po září 2010 již víme, kolik prvňáčků skutečně nastoupilo, tato hodnota se označuje y 2010.

Základní značení Časový parametr Parametr t někdy udává přímo časový úsek, ke kterému se vztahuje (t = 2010), někdy udává pořadí časového úseku zajímáme-li se o počty nastupujících prvňáčků od roku 2000 dále, potom hodnoty patřící k roku 2000 mají index t = 1 (první v analyzované řadě), a tedy hodnoty odpovídající roku 2010 mají index t = 11.

Diskrétní a spojité časové řady Časové řady rozlišujeme dvou základních typů, a to spojité a diskrétní časové řady. Spojité časové řady Spojité časové řady jsou řady, kde hodnoty časové řady známe a můžeme měřit v každém okamžiku (např. odběr elektřiny nějakého odběrového místa). Pro spojité časové řady nabývá parametr t hodnot z nějakého intervalu.

Diskrétní a spojité časové řady Diskrétní časové řady Naproti tomu diskrétní časové řady jsou řady, jejichž hodnoty známe jen v určitých nespojitých časových bodech (teploty o desáté hodině, přirozený přírůstek za daný rok, úhrn produkce konkrétní zemědělské plodiny za daný rok,... ). V diskrétních časových řadách nabývá parametr t diskrétních hodnot, typicky 1, 2, 3,..., kde t = 1 je pro první pozorování, atd. Parametr t v diskrétních časových řadách Někdy parametr t nabývá (z důvodu lepší přehlednosti) hodnot např. 1990, 1991,..., to v případě, že vyšetřujeme časovou řadu ročních pozorování od roku 1990.

Diskrétní časové řady Parametr t v diskrétních časových řadách V případě, že máme pozorování v nějakých kratších časových jednotkách, které se periodicky opakují v jiných delších časových jednotkách, se může používat dvojrozměrný časový parametr. Např. pokud máme čtvrtletní pozorování za posledních deset let. Pro některé analýzy je očíslujeme klasicky, tak jak jdou po sobě. V některých případech, bude pro přehlednost snažší očíslovat je dvou parametrově, kde první parametr bude udávat rok a druhý čtvrtletí. Tedy hodnota y 6,4 bude udávat naměřenou hodnotu v šestém roce pozorování, ve čtvrtém čtvrtletí.

Diskrétní časové řady V dalším textu se budeme zabývat výhradně diskrétním časovými řadami. Jak už jsme uvedli výše, znamená to, že pozorování vyšetřovaných časových dat budeme mít k dispozici pouze v určitých diskrétních časových okamžicích. Typicky se bude jednat o roční, čtvrtletní, měsíční, týdenní či denní data.

Diskrétní časové řady Trojí typ Diskrétní časové řady mohou vznikat trojím způsobem. Data mohou být diskrétní svou povahou denní produkce mléka ekofarem v regionu. V jiném případě se může jednat o diskrétní pozorování spojité časové řady cena určitého zboží na daném trhu v danou hodinu. Další možností mohou být data, jež jsou agregací hodnot za dané časové období počet nehod v daném regionu za dané období.

Problematika volby časových bodů pozorování Je zřejmé, že v některých případech nemáme možnost volby časových bodů pozorování data nám již někdo dodal, není možné (nebo by bylo nákladné) odečítat data v jiných časových bodech, atd. Naopak někdy tuto možnost máme. Otázkou tedy je, jaké časové body v takovém případě zvolit. Je to třeba pečlivě uvážit. Někdy nemá smysl volit pozorování příliš často, s příliš malým časovým odstupem nedozvíme se téměř nic nového a jen zvýšíme náročnost výpočtů, popř. nákladnost celé analýzy. Na druhou stranu, nesmíme volit časové body příliš vzdálené, abychom neztratili, neminuli, nějakou podstatnou periodu. V každém případě se snažíme volit pozorování stále se stejným intervalem.

Práce s agregovanými daty Jak už jsme uvedli výše, diskrétní časové řady jsou někdy tvořeny agregací hodnot za nějaké časové období typicky pracovní týden, měsíc (nebo za pracovní dny v měsíci) apod. Zde se potkáváme s problémy s kalendářem měsíce jsou různě dlouhé, s různým počtem pracovních dní, navíc musíme brát v úvahu pohyblivé svátky, atp. V případě, že chceme s takovouto řadou pracovat, je velmi vhodné získané hodnoty nejprve standardizovat. Standardizace Máme-li například počet nehod na silnicích za jednotlivé měsíce, potom je vhodné před aplikací metod časových řad, tato data standardizovat například na měsíc o délce 30 dnů, popř. na měsíc o délce 1/12 roku, tj. 30, 4167 dní.

Práce s agregovanými daty Z principu problému je zřejmé, jak se standardizace provádí: y i = y i k i k i, kde y i je standardizovaná hodnota za i. období, y i je naměřená hodnota za toto období, k i je počet menších časových jednotek (např. dnů) v i. časovém období (např. měsíci) a k i je počet menších časových jednotek (např. dní) ve standardizovaném časovém období (např. měsíci).

Práce s agregovanými daty standardizace Příklad Porovnejte nehodovost v Královéhradeckém kraji v měsících leden a únor, máte-li následující data. (Viz. statistika Policie ČR.) Dopravních nehod celkem 2009 2010 2011 leden 66 75 67 únor 59 82 55

Práce s agregovanými daty standardizace Příklad Podíváme-li se pouze na prostý součet nehod v jednotlivých měsících za poslední tři roky, popř. za průměrný počet nehod v lednu a v únoru, potom zjistíme, že více nehod se se stalo v lednu (součet nehod v lednu je 208, v únoru 196, průměrný počet nehod v lednu je 69, 3 a v únoru 65, 3 (pomiňme, že bychom ještě měli pro přesné závěry zjistit statistickou průkaznost)). Uvědomme si, že leden má 31 dní a únor 28. Pro porovnání nehodovosti v lednu a únoru je tedy smysluplné přepočítat průměrnou nehodovost na den. V takové případě dostaneme, že v lednu je průměrná denní nehodovost 2, 237 a v únoru 2, 333. A tedy najednou zjišťujeme, že bylo bezpečnější se po silnicích pohybovat v lednu než v únoru.

Dekompozice časových řad Složky dekompozice Princip dekompozice časových řad je velmi jednoduchý. Základní myšlenkou je představa, že časová řada obsahuje čtyři složky trend (T ), sezónní složku (S), cyklickou složku (C) a náhodnou složku (ε) (někdy též zvaná reziduální či rezidium).

Dekompozice časových řad jednotlivé složky Trend Trend tato složka vyjadřuje dlouhodobé změny v chování řady, typ (tvar, funkci) dlouhodobého růstu či poklesu. V případě, že z dlouhodobého hlediska nedochází k žádné změně, mluvíme o konstantním trendu. Funkci trendu můžeme získat například s využitím regresní analýzy. Sezónní složka Sezónní složka vyjadřuje periodické změny, které se odehrávají v průběhu nějakého časového období (typicky roku, popř. týdne apod.) Typicky tyto změny souvisejí se změnou ročního období.

Dekompozice časových řad jednotlivé složky Cyklická složka Cyklická složka vyjadřuje nějakou fluktuaci okolo trendu, tedy nějaké pravidelné fáze růstu a poklesu okolo složky (typickým příkladem cyklu je střídání dob ledových a meziledových). Délky cyklů bývají různé, cyklická složka se také může skládat z několika pod složek, z nichž každá má jinou délku a jinou intenzitu. Zatímco periodické složky lze očekávat (známe i její příčinu například střídání ročního období), co se týče délky periody i vlivu na hodnoty časové řady, cyklické složky většinou objevíme až na základě analýzy časové řady a teprve zpětně se snažíme zjistit, co je její příčinou. Někdy se nám ani nepodaří příčinu nalézt.

Dekompozice časových řad jednotlivé složky Náhodná (reziduální) složka Náhodná (reziduální) složka představuje náhodné fluktuace, které již nemají žádný systematický charakter. Mohou být způsobené pouze skutečností, že se jedná o pozorování náhodné veličiny nebo v sobě mohou zahrnovat chybu měření, zaokrouhlovací chybu apod.