Možnosti vyhodnocení časových řad v softwaru STATISTICA



Podobné dokumenty
Téma 9: Vícenásobná regrese

Časové řady, typy trendových funkcí a odhady trendů

Popisná statistika. Komentované řešení pomocí MS Excel

Časové řady, typy trendových funkcí a odhady trendů

Zobrazení zdrojových dat u krabicového grafu

Předpovídejte snadno a rychle

Zpracování chybějících dat a dat mimo rozsah

Cvičení 9 dekompozice časových řad a ARMA procesy

Popisná statistika kvantitativní veličiny

Lineární regrese. Komentované řešení pomocí MS Excel

StatSoft Jak vyzrát na datum

Pravidla pro tvorbu tabulek a grafů v protokolech z laboratoří fyziky

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Výsledný graf ukazuje následující obrázek.

Neuronové časové řady (ANN-TS)

STATISTIKA I Metodický list č. 1 Název tématického celku:

Ilustrační příklad odhadu LRM v SW Gretl

Omezení funkcionalit v softwaru STATISTICA

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Úvod do analýzy časových řad

Diagnostika regrese pomocí grafu 7krát jinak

Excel tabulkový procesor

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

STATISTICA Téma 1. Práce s datovým souborem

Vytvoření uživatelské šablony

Příprava dat v softwaru Statistica

KAPITOLA 12 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

StatSoft Jak poznat vliv faktorů vizuálně

Časové řady - Cvičení

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Programujeme v softwaru Statistica

Úvodem Dříve les než stromy 3 Operace s maticemi

František Hudek. červenec 2012

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

Regresní analýza 1. Regresní analýza

Jak ovládat ručičku tachometru (ukazatel)?

Začínáme pracovat s tabulkovým procesorem MS Excel

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Voltampérová charakteristika diody

KGG/STG Statistika pro geografy. Mgr. David Fiedor 4. května 2015

František Hudek. srpen 2012

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Analýza rozptylu dvojného třídění

Export tabulky výsledků

Použijeme-li prostorový typ grafu, můžeme pro každou datovou zvolit jiný tvar. Označíme datovou řadu, zvolíme Formát datové řady - Obrazec

4EK211 Základy ekonometrie

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

2011 (datový soubor life expectancy CR.txt). Budeme predikovat vývoj očekávané doby dožití pomocí

Excel 2007 praktická práce

PRAVDĚPODOBNOST A STATISTIKA

Tvar dat a nástroj přeskupování

Protokol č. 1. Tloušťková struktura. Zadání:

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Manuální kroková regrese Newsletter Statistica ACADEMY

Analýza časových řad pomoci SAS82 for Win

Tomáš Karel LS 2012/2013

Tabulkový kalkulátor

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistická analýza jednorozměrných dat

10. Předpovídání - aplikace regresní úlohy

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

STATISTICA Téma 7. Testy na základě více než 2 výběrů

František Hudek. červenec 2012

Periodicita v časové řadě, její popis a identifikace, exponenciální vyrovnáván

Stručný manuál k ovládání programu STATISTICA. Mgr. Petra Beranová

František Hudek. srpen 2012

Nápověda ke cvičení 5

MS Excel 2007 Kontingenční tabulky

Statistika (KMI/PSTAT)

Generování dat. Generování pomocí funkcí

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

POLYNOMICKÁ REGRESE. Jedná se o regresní model, který je lineární v parametrech, ale popisuje nelineární závislost mezi proměnnými.

Postup: Nejprve musíme vyplnit tabulku. Pak bude vypadat takto:

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Cvičení ze statistiky - 3. Filip Děchtěrenko

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Typy souborů ve STATISTICA. Tento článek poslouží jako přehled hlavních typů souborů v programu

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Simulace. Simulace dat. Parametry

Regresní a korelační analýza

Soutěž: Nejméně kliknutí

Přílohy. Příloha 1. Obr. P1.1 Zadání úlohy v MS Excel

KGG/STG Statistika pro geografy

Excel - pokračování. Př. Porovnání cestovních kanceláří ohraničení tabulky, úprava šířky sloupců, sestrojení grafu

František Hudek. červenec 2012

UNIVERZITA PARDUBICE. 4.4 Aproximace křivek a vyhlazování křivek

Excel tabulkový procesor

Cvičení 6 PARAMETRICKÉ 3D MODELOVÁNÍ TVORBA VÝKRESU OBROBKU Inventor Professional 2012

Regresní a korelační analýza

Kontingenční tabulky v MS Excel 2010

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Analýza časových řad. John Watters: Jak se stát milionářem.

Transkript:

StatSoft Možnosti vyhodnocení časových řad v softwaru STATISTICA Mnoho informací se zachycuje ve formě chronologicky uspořádaných údajů, jinak řečeno ve formě časových řad. Časová řada je tedy v čase uspořádaná posloupnost hodnot určitého ukazatele (ekonomického, technologického, fyziologického atd.). S časovou posloupností se setkáváme například v medicíně, fyzice, meteorologii, ekonomii, ale také v průmyslu. V různých oborech lidské dské činnosti je snahou definovat vývoj sledovaného ukazatele v minulosti, zjistit faktorové příčiny, které za proměnlivostí stojí, a určit predikci do budoucna. Cílem následujícího jícího příspěvku je ukázat, kde (v jakých modulech) je možné časové řady vyhodnocovat v softwaru STATISTICA. Cílem článku není vytvořit podrobný návod neb takový návod by vydal na tlustá skripta. V softwaru STATISTICA máme, v rámci různých modulů, několik možností, jak j k časovým řadám přistupovat: Modul STATISTICA Base tento modul nám umožní zpracovat základní popisné charakteristiky časových řad. řad., také obsahuje základní nástroje regresní analýzy. analýzy Modul STATISTICA Pokročilé lineární a nelineární modely obsahuje je celou řadu nástrojů pro netriviální regresní modely (vlastní funkce ce apod.), ale také sadu technik pro práci s časovou řadou. Modul STATISTICA Automatizované neuronové sítě tento modul obsahuje techniky pro modelování časových řad pomocí neuronové sítě, které v poslední době získávají na oblibě. Grafické techniky pro vizualizaci a základní detekci trendu v časové řadě jsou nezávislé na zakoupeném modulu. Struktura témat v článku je následující: Načtení souboru Vizualizace časové řady Deskriptivní statistika Regresní analýza trendu Odhad lineárního trendu Intervalový odhad Vlastní regresní funkce Vyhlazení časové řady klouzavým průměrem Exponenciální vyrovnávání Sezónní dekompozice, určení sezónních indexů Spektrální (Fourierova) analýza Boxova-Jenkinsova Jenkinsova metodologie (ARIMA modely) Analýza časové řady pomocí neuronové euronové sítě Začneme pěkně od podlahy.. Třeba od téhle : A ukážeme si první problém, se kterým by se mohl začínající uživatel setkat:

Načtení souboru Může se stát, že např. po načtení souboru z MS Excelu je formát data reprezentován špatně, dvojklikem na tuto proměnnou vyvoláme dialog této proměnné a v části Formát zobrazení vybereme Datum a zvolíme formát data: Tlačítkem Textové hodnoty bychom prověřili, jestli spojitá proměnná neobsahuje nějaký textový popisek, který bude kódován jako číslo. O těchto možnostech se více dozvíte např. v kurzu Ovládání programu STATISTICA. Analýza časových řad Vizualizace časové řady Grafické techniky jsou nezávislé na verzi softwaru STATISTICA, v záložce Grafy -> 2D grafy -> Spojnicové grafy (proměnné) vyvoláme dialog spojnicového grafu a na kartě Možnosti 1 v možnostech zobrazení zvolíme Proměnná a

přiřadíme konkrétní proměnnou na osu X (obvykle datum). Na ose Y tak máme průběh vlastní časové řady a na ose X čas. Dvojklikem do grafu vyvoláme dialog Možnosti grafu. V tomto dialogu můžeme např. volit proložení dat (přímkou, příp. jinou funkcí) a určit tak trendovou funkci, která je pro konkrétní typ dat vhodná. Dále zde také upravíme velikost písma, které popisuje jednotlivé osy, a tím zlepšíme přehlednost grafu.

V otevřeném dialogu lze dále volit například barvu pozadí grafu: Výsledný graf může potom vypadat například takto: Chceme-li zobrazit více proměnných najednou, v dialogu grafu volíme Vícenásobný: Možnosti načtení různých datových souborů (*.txt, *.xlsx atd.), uložení rozdělané práce atd., zachycuje Manuál k ovládání programu STATISTICA.

Deskriptivní statistika Modul STATISTICA Base Vám umožní výpočet základních popisných charakteristik časových řad. V softwaru STATISTICA získáme tyto i dalších charakteristiky na kartě Detailní výsledky v dialogu Popisné statistiky: Statistiky -> Základní statistiky/tabulky -> Popisné statistiky : Tlačítkem Analýza skupiny (Anal. skup.) lze provést kategorizaci výpočtu podle jiné proměnné, např. podle měsíce. Regresní analýza trendu Analýza trendu nám objasní vztah mezi sledovanou (závislou) proměnnou a časem. Jednotlivé typy trendových funkcí lze volit přímo v dialogu Spojnicového grafu, viz předchozí kapitola. Odhad parametrů trendové funkce lze provést i v modulech, které obsahují nástroje regresní analýzy. V následujícím příkladu si ukážeme odhad lineárního trendu v modulu STATISTICA Base.

Odhad lineárního trendu Datový soubor, použitý v tomto příkladu je ke stažení zde. Průběh cen motorové nafty chceme aproximovat přímkou a na základě tohoto lineárního trendu určit interval spolehlivosti pro lineární trend. V modulu STATISTICA Base najdeme metodu Vícenásobná regrese. Pro přehlednost doporučujeme načtený soubor vždy přidat do sešitu STATISTICA: Vývoj v čase nám reprezentuje časový vektor n, který zvolíme také jako nezávislou (vysvětlující) proměnnou. Vzhledem k tomu, že datum je v softwaru reprezentováno také čísly, která se vždy inkrementují o jedničku, bylo by jako prediktor možné zvolit také proměnnou 1 (měsíc): Získáme základní výsledkový dialog regresní analýzy.

Průběh dat je vysvětlován pouze časem, který v modelu reprezentuje časový vektor n. Tlačítko Výpočet: Výsledky regrese použijeme pro odhad parametrů modelu, tlačítkem Rezidua/předpoklady/předpovědi potom přejdeme k další analýze. P hodnota t testu nám ukazuje, že oba parametry jsou statisticky významně odlišné od nuly. Koeficient determinace je zde reprezentován jako R2 a variabilita Y (ceny motorové nafty v Kč/l) byla vysvětlena z 82,6% pouze tímto lineárním trendem. Intervalová předpověď Pokud chcete u tohoto modelu, resp. u kteréhokoliv jiného, vytvářet intervalové předpovědi, využijete následující návod. Na kartě Residua/Předpoklady/Předpovědi: vygenerujeme předpověď pro další období, tedy 171, 172 až 174. 4x tedy klikneme na Předpovědi závisle proměnné a postupně zadáme 171, 172, 173, 174. Výpočet intervalu spolehlivosti (konfidencí interval) - interval spolehlivosti pro průměrnou hodnotu odezvy. Výpočet intervalu předpovědi (predikční interval) jde o spolehlivostní interval pro individuální hodnotu odezvy. Klávesou F1 v tomto dialogu vygenerujeme nápovědu se vzorci k těmto intervalům. A následně přes tlačítko Reziduální analýza.

vygenerujeme tabulku původních a předpovídaných hodnot, kterou přes pravé tlačítko na myši označíme jako aktivní vstup: a odstraníme popisné statistiky na konci tabulky.

Přes Proměnné -> Přidat přidáme 4 sloupce a pojmenujeme je. Přes Případy -> Přidat přidáme 4 nové řádky (neboť máme předpověď na 4 období do budoucna): Jednotlivé výsledné tabulky s předpověďmi transponujeme: Predikované hodnoty z transponovaných tabulek (období n+1 až n+4) zkopírujeme do aktivní tabulky, do řádku 171 až 175.

Přes záložku Data -> Sloučit sloučíme s původním datovým souborem a přidáme ho do sešitu. Nyní máme požadovanou tabulku, kterou chceme vizualizovat. Přes záložku grafy zvolíme vícenásobný spojnicový graf, vybereme požadované proměnné a na kartě Možnosti 1 opět přidáme proměnnou s datem.

Pokud bychom, v rámci regresního analýzy, chtěli pokračovat v ověřování předpokladů modelu nebo si vyvolat další výstupy, stačí oživit si na liště záložku Reziduální analýza a pokračovat v práci. V tomto příkladu šlo však pouze o určení trendu pomocí této regresní analýzy a o ukázání možností intervalové předpovědi.

Vlastní regresní funkce V modulu STATISTICA Pokročilé lineární a nelineární modely existuje celá řada pokročilých možností, jak modelovat regresní funkce, jednou z další možností, jak odhadnout parametry trendové funkce, je přes Statistiky ->Pokročilé lineární/nelineární modely ->Nelineární odhady -> Vlastní regrese (MNČ). Na začátek zkusme např. polynomickou funkci: V1 = a+b*v2+c*v2^2. Nicméně v tomto modulu si můžeme vytvářet i složitější modely, nejen pouze lineární regresní funkce. V1 reprezentuje závislou proměnnou, V1 je časový vektor n a cokoliv, co není proměnná, resp. název proměnné (a, b, X, Y..) je softwarem bráno jako parametr. V prvním dialogu máme možnost, přes tlačítko Poč. hodn.: určit přibližné parametry funkce. Tento krok v tomto případě přeskočíme a klikneme na OK v pravé části dialogu a získáme výsledný panel, ve kterém máme možnost získat odhady parametrů, rezidua modelu, vizualizaci atd. Koeficient determinace je zde uveden slovně jako Podíl rozptylu vysvětlený modelem.

Časové řady a predikce v modulu STATISTICA Pokročilé lineární a nelineární modely Sada analýz Časové řady/predikce obsahuje řadu popisných, modelovacích, rozkladových a předpovědních metod pro modely v časové i spektrální oblasti. Zvláštností tohoto modulu je v tom, že okně proměnných postupně přibývají nově vygenerované proměnné a analýza se provede vždy nad tím, co je aktuálně označeno. Velké množství transformačních technik (centrování, odstranění autokorelace, vyhlazení metodou klouzavých průměrů (vážených a nevážených, uživatelsky definovaných nebo s váhami Daniella, Tukeyho, Hamminga, Parzena či Bartletta), vyhlazení klouzavým mediánem, jednoduché exponenciální vyhlazení, diferencování, integrování, tvorba residuí, posunu, "4253H" vyhlazení, zúžení, Fourierovy (a inverzní) transformace) pro analýzu zákonitostí, které na konkrétní časový průběh působí. Pokročilejší přístupy k časovým řadám, které tato nabídka obsahuje, potom například jsou: ARIMA, SARIMA a (intervenční) analýza přerušovaných časových řad. Sezónní a nesezónní exponenciální vyhlazení (všech 12 běžných exponenciálních vyhlazovacích funkcí) Klasická sezónní dekompozice (Census Method I). X-11 Měsíční a čtvrtletní sezónní dekompozice a sezónní přizpůsobení (Census Method II). Modely s polynomickým zpožděním. Spektrální (Fourierova) a křížová spektrální analýza. V další části článku si pouze ukážeme, kde najít nejběžněji používané typy analýz, které se k problematice časových řad váží. Pokud se budete chtít dozvědět více o časových řadách, pak můžeme vřele doporučit náš kurz Časové řady a predikce.

Vyhlazení časové řady klouzavým průměrem V nabídce Statistiky -> Pokročilé lineární/nelineární modely-> Časové řady/predikce vybereme proměnnou a zvolíme: OK (transformace, autokorelace, kříž. korelace, grafy). Zobrazí se dialog Transformace proměnných, s několika záložkami. Pro metodu klouzavých průměrů vybereme záložku Vyhlazování. K dispozici jsou tedy (vážené) aritmetické průměry, popř. centrované, pokud uživatel zadá sudou délku úseku. Zde zvolíme záložku Vyhlazování. Jednoduché klouzavé průměry vybereme zaškrtnutím hned první nabídky. Krok klouzavých průměrů vybereme 12, neboť při grafické analýze jsme detekovali pravděpodobné sezonní kolísání v rámci jednotlivých měsíců. V lednu je vždy produkce na minimální hodnotně, naopak největší je kolem července. Na kartě Přehledy & grafy zobrazíme společně původní časovou řadu a její vyhlazený průběh. Dvojklikem do legendy grafu rozklikneme v rohu Více a změníme umístění legendy:

A dvojklikem do grafu vyvoláme dialog Možnosti grafu, kde upravíme rozsah os, velikost písma apod. Exponenciální vyrovnávání Exponenciální vyrovnávání je další často používanou metodou pro vyhlazování a předpovídání hodnot časových řad. U této metody nemusíme určovat délku úseku, ze kterých počítáme vyrovnanou hodnotu, protože výpočet vyrovnaných hodnot je, na rozdíl od klouzavých průměrů, založen na všech předchozích pozorováních. Na hlavním panelu volíme tlačítko Expon. Vyrovnání & předpověď.

Sezónní dekompozice, určení sezónních indexů Pomocí dekompozice Sezónní rozklad d (Cenzus 1) získáme odhady sezónních výkyvů pro detekci sezonnosti a sezónně očištěné časové řady. Zde zvolíme typ dekompozice - Aditivní/Multiplikativní. Aditivní/Multiplikativní Klávesou F1 vyvoláme nápovědu k tomuto tématu a určitá doporučení. Klikneme na tlačítko Shrnutí: Sezónní Sezó rozklad a výstupní ýstupní tabulku označme jako aktivní vstup vstup, což nám umožní vizualizovat jednotlivé dekomponované části časové řady a vytvářet závěry. Další možností, která se často pro detekci sezonnosti použitívá je periodogram, který rozkládá časovou řadu na sinusové vlny s různými frekvencemi. Jeho umístění ukazuje následující kapitola.

Spektrální (Fourierova) analýza Tento postup umožňuje provést explicitní popis periodického chování časové řady a určit významné složky, které se podílejí na věcných vlastnostech zkoumaného procesu. V hlavním dialogu analýzy zvolíme Spektrální (Fourierova) analýza a klikneme na OK (Fourierova analýza řady). Přes tlačítka Periodogram a Spektrální hustota je možné získat obraz o intenzitě zastoupení jednotlivých frekvencí v časové řadě (spektrum časové řady). Tlačítkem Souhrn získáme výslednou tabulky rozložených komponent. Boxova-Jenkinsova metodologie Kombinuje autoregresivní modely AR s modely klouzavých průměrů reziduální složky MA. Výsledkem jsou např. smíšené modely ARMA, ARIMA. Základní podmínkou Boxovy-Jenkinsovy metodologie je požadavek na delší časovou řadu. Minimum je stanoveno zhruba na padesát pozorování. V části Transformace proměnných, kam se dostaneme přes tlačítko OK (transformace, autokorelace, kříž. korelace, grafy), se lze v záložce Autokorelace podívat na korelogramy (ACF, PACF) a v případě potřeby provést diference pro stacionarizaci časové řady.

V části ARIMA & autokorelací funkce na hlavním panelu potom nastavíme řád klouzavých součtů MA(q), řád autoregresního procesu AR(p), v části Transformace proměnné před analýzou řád diferencování původní časové řady, případně zaškrtneme typ transformace a klikneme na OK. Model ARIMA (2, 1, 1) by vypadal například takto: Model AR(1) potom takto:

Ve výsledném dialogu získáme jednak odhady parametrů a další výstupy, sloužící pro porovnání modelu, včetně reziduální složky modelu, ale také je zde část Predikce, která umožňuje tvorbu bodových a intervalových předpovědí pro předem vybranné období: Pozn.: Ukázkový příklad je řešen ve starším čísle našeho newsletteru. Další řešené příklady na modelování časových řad ukazuje nápověda softwaru STATISTICA:

STATISTICA Automatizované neuronové sítě Ano, neuronové sítě, které jsou nejčastěji řazeny do tzv. Data Miningu, jsou v praxi často využívány k analýze časových řad a zejména ve finančních datech s velkou volatilitou dávají až překvapivě dobré výsledky. Tyto nástroje lze pořídit jako samostatní modul, případně jako součást dataminingového nástroje STATISTICA Data Miner. Pro spojité hodnoty časové řady volíme Časové řady (regrese): O tom, co znamenají jednotlivé vzorky a jaký je princip takového algoritmu jsme Vás informovali v starším čísle našeho newsletteru Úvod do neuronových sítí.

Zpožděním časové řady na vstupu (max) volíme počet hodnot, které využiji na vstupu, jinak řečeno, nová hodnota bude vysvětlována na základě modelu s dvanácti předchozími pozorováními. Zpoždění časové řady (min): Tento parametr říká, kolik kroků dopředu chceme předpovídat. Pokud zvolíme například 2, bude se předpověď v čase t+2 počítat z hodnot známých do času t. Po volbě sítě klikneme na trénovat: Po natrénování sítě v dialogu výsledků vyberu síť, která má nejvyváženější skóre na jednotlivých množinách a

v části projekce zvolím počáteční případ pro určení vyrovnané (predikované) hodnoty a vygenerujeme graf: Tlačítkem Projekce v tabulce získáme původní i vyrovnané hodnoty, které vygenerovala zvolená síť. Modul STATISTICA Automatické neuronové sítě umožňuje, oproti souboru analýz Časové řady/predikce, vytvářet také analýzy vícerozměrných časových řad, další možností jak tato vícerozměrná data zpracovávat jsou potom například regresní modely.