Dynamické metody pro predikci rizika



Podobné dokumenty
Statistika II. Jiří Neubauer

Ekonometrie. Jiří Neubauer

Regresní a korelační analýza

KGG/STG Statistika pro geografy

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

VÍCEROZMĚRNÝ STATISTICKÝ SOUBOR

předmětu MAKROEKONOMIE

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium Management systému jakosti

Korelační a regresní analýza

4EK211 Základy ekonometrie

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Ilustrační příklad odhadu LRM v SW Gretl

4EK211 Základy ekonometrie

Přílohy. Spotřeba elektřiny. Model závislosti spotřeby elektřiny

VŠB Technická univerzita Ostrava BIOSTATISTIKA

4EK211 Základy ekonometrie

VŠB Technická univerzita Ostrava

1) Úvod do makroekonomie, makroekonomické identity, hrubý domácí produkt. 2) Celkové výdaje, rovnovážný produkt (model 45 ), rovnováha v modelu AD AS

4EK211 Základy ekonometrie

Pořízení licencí statistického SW

Ilustrační příklad odhadu SM v SW Gretl

4EK211 Základy ekonometrie

5. Maticová algebra, typy matic, inverzní matice, determinant.

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Nominální konvergence české ekonomiky současný stav a vybrané implikace

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

4EK211 Základy ekonometrie

Literatura učebnice z minulého semestru Jarošová, Pecáková sbírka příkladů pro statistiku B (2000 a novější)

Testování hypotéz o parametrech regresního modelu

6. T e s t o v á n í h y p o t é z

4EK211 Základy ekonometrie

Investiční oddělení ZPRÁVA Z FINANČNÍCH TRHŮ. Únor 2010 MAKROEKONOMICKÝ VÝVOJ

Vysoká škola ekonomická v Praze

Bodové a intervalové odhady parametrů v regresním modelu

UNIVERZITA PARDUBICE FAKULTA CHEMICKO-TECHNOLOGICKÁ

Statistické metody v ekonomii

STATISTICA Téma 8. Regresní a korelační analýza, regrese prostá

Inovace bakalářského studijního oboru Aplikovaná chemie

Hledání závislostí technologických a nákladových charakteristik při tavení oceli na elektrických obloukových pecích

Investiční oddělení ZPRÁVA Z FINANČNÍCH TRHŮ. Leden 2007 MAKROEKONOMICKÝ VÝVOJ. Česká republika

2011 (datový soubor life expectancy CR.txt). Budeme predikovat vývoj očekávané doby dožití pomocí

6. Lineární regresní modely

Kalibrace a limity její přesnosti

Testování hypotéz o parametrech regresního modelu

Investiční oddělení ZPRÁVA Z FINANČNÍCH TRHŮ. Prosinec 2009 MAKROEKONOMICKÝ VÝVOJ

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Využití regresní analýzy pro modelování státního dluhu

VYSOKÁ ŠKOLA POLYTECHNICKÁ JIHLAVA Obor Finance a řízení

Lineární regrese. Komentované řešení pomocí MS Excel

Poznámky k předmětu Aplikovaná statistika, 9.téma

UNIVERZITA PARDUBICE

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Analýza časových řad. John Watters: Jak se stát milionářem.

Jazyk matematiky Matematická logika Množinové operace Zobrazení Rozšířená číslená osa

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

+ ω y = 0 pohybová rovnice tlumených kmitů. r dr dt. B m. k m. Tlumené kmity

SYSTÉM TECHNICKO-EKONOMICKÉ ANALÝZY VÝROBY TEKUTÉHO KOVU - CESTA KE SNIŽOVÁNÍ NÁKLADŮ

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Regresní analýza. Eva Jarošová

Úvodem Dříve les než stromy 3 Operace s maticemi

HODNOCENÍ VÝVOJE AGRÁRNÍHO ZAHRANIČNÍHO OBCHODU V ČR ASSESMENT OF DEVELOPMENT OF THE CZECH AGRARIAN FOREIGN TRADE.

FAKULTA PODNIKATELSKÁ ÚSTAV MANAGEMENTU FACULTY OF BUSINESS AND MANAGEMENT INSTITUTE OF MANAGEMENT

Přednáška 4. Lukáš Frýd

PRAVDĚPODOBNOST A STATISTIKA

Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Kalibrace a limity její přesnosti

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

skladbu obou směsí ( v tunách komponenty na 1 tunu směsi):

Investiční oddělení ZPRÁVA Z FINANČNÍCH TRHŮ. Únor 2013 MAKROEKONOMICKÝ VÝVOJ. Česká republika

4 Porovnání s předchozím Konvergenčním programem a analýza citlivosti

Tomáš Karel LS 2012/2013

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Bodové a intervalové odhady parametrů v regresním modelu

Funkce zadané implicitně

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

18AEK Aplikovaná ekonometrie a teorie časových řad. Řešení domácích úkolů č. 1 a 2 příklad 1

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

6. Lineární regresní modely

Tvorba modelu sorpce a desorpce 85 Sr na krystalických horninách za dynamických podmínek metodou nelineární regrese

Otevřená ekonomika, měnový kurz

Masarykova univerzita v Brně APLIKOVANÁ STATISTIKA I

Inflace. Makroekonomie I. Inflace výpočet pomocí CPI, deflátoru. Téma cvičení. Osnova k teorii inflace. Vymezení podstata inflace

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

MSI LS 2006/2007 Ing. Pavla Hošková, Ph.D., 2. test

Některé zákony rozdělení pravděpodobnosti. 1. Binomické rozdělení

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STÁTNICE. Ekonometrie a operační výzkum

Regresní a korelační analýza

LINEÁRNÍ REGRESE. Lineární regresní model

Diskrétní rozdělení Náhodná veličina má diskrétní rozdělení pravděpodobnosti, jestliže existuje seznam hodnot

odpovídá jedna a jen jedna hodnota jiných

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Přednáška 5. Výběrová šetření, Exploratorní analýza

MATEMATIKA III V PŘÍKLADECH

5EN306 Aplikované kvantitativní metody I

Transkript:

Dynamické metody pro predikci rizika 1 Úvod do analýzy časových řad Časová řada konečná posloupnost reálných hodnot určitého sledovaného ukazatele měřeného v určitých časových intervalech okamžikové např kurs dolaru k určitému datu, intervalové např objem výroby za měsíc, Cíl analýzy časové řady: porozumět mechanismu, který určuje hodnoty sledované veličiny a předpovědět její vývoj K pochopení vývoje sledované veličiny slouží model časové řady, matematicky vyjádřený vztah mezi vysvětlovanou proměnnou a vysvětlujícími proměnnými (většinou má model podobu jedné nebo více stochastických rovnic) Prakticky se používají různé metody volba použité metody závisí na účelu a cíli analýzy, typu časové řady, zkušenosti statistika, dostupném softwaru, teoretickém východisku apod expertní metody patří do kategorie kvalitativních metod, uplatní se tam, kde není rozumné nebo možné využívat kvantitativní metody, např dotazování zákazníků, prodejců Operační program Vzdělávání pro konkurenceschopnost Název projektu: Inovace magisterského studijního programu Fakulty ekonomiky a managementu Registrační číslo projektu: CZ107/2200/280326 PROJEKT JE SPOLUFINANCOVÁN EVROPSKÝM SOCIÁLNÍM FONDEM A STÁTNÍM ROZPOČTEM ČESKÉ REPUBLIKY

grafická analýza představuje jen jednoduchou metodu analýzy časové řady, která se opírá o grafické zobrazení vývoje sledované veličiny, má subjektivní charakter (nejsnadněji lze odhadnout trend řady, užitečné bývá srovnání grafů různých časových řad mezi sebou) dekompozice časových řad vychází z předpokladu, že hodnota sledované veličiny závisí pouze na čase časovou řadu rozložíme na několik nezávislých složek: trend, sezónní, cyklickou a náhodnou složku Y t = T t + S t + C t + ɛ t ekonometrické modely kauzální modely, které vysvětlují hodnotu vysvětlované proměnné pomocí jedné nebo více vysvětlujících proměnné Cílem je tedy odhalit příčinné vazby mezi ekonomickými veličinami; např při modelování inflace je vysvětlovanou proměnou cenová hladina, vysvětlujícími proměnnými mohou být reálný HDP, množství peněz v oběhu, vývoz a dovoz zboží, příjmy obyvatel Box Jenkinsonova metodologie je založena na důkladném modelování náhodné složky a snaží se identifikovat vzájemnou závislost jednotlivých prvků časové řady s různým zpožděním, případně jejich závislost na různém zpoždění spektrální analýza vychází z předpokladu, že si časovou řadu můžeme představit jako směs sinusových a kosinusových křivek s různými frekvencemi a amplitudami, a snaží se vyšetřit intenzitu zastoupení jednotlivých frekvencí; lze tak posuzovat např zpoždění ve vývoji mezi dvěma veličinami 2 Lineární dynamické modely Příkladem jednoduchého modelu je např C t = α + βc t 1 + γx t + δp t + ɛ t, kde výdaje obyvatelstva C t na nákup spotřebního zboží v roce t jsou vysvětlovány pomocí minulé hodnoty C t 1 a navíc pomocí disponibilních peněžních příjmů X t obyvatelstva a cenového indexu P t spotřebního zboží (α, β, γ a δ jsou parametry, ɛ t označuje bílý šum) Uvažujme jen jednorovnicové lineární modely vyjádřené jedinou rovnicí ve tvaru Y t = β 1 X t1 + β 2 X t2 + + β k Xtk + ɛ t, kde t = 1, 2,, n Y t představuje v rovnici hodnotu vysvětlované veličiny Y v čase t, X t1,, X tk jsou hodnoty vysvětlujících veličin X 1,, X k v čase t, β 1,, β k představují neznámé parametry modelu (viz LRM) Obvykle první vysvětlující proměnná X 1 = 1 představuje konstantu, ɛ t představuje chybovou (náhodnou) složku Příklad Při těžbě dřeva v ČR se předpokládá vliv čtyřech faktorů: zalesňování, hnojení lesních porostů, lesní požáry a škody zvěří Na základě roční časové řady z období 1995 2004 posud te skutečný podíl těchto faktorů a sestrojte ekonometrický model, na základě kterého by bylo možné provést odhady těžby dřeva za různých podmínek 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Těžba (tis m 3 ) 47,52 51,64 79,65 101,42 105,35 83,45 80,54 72,79 60,45 67,62 Zalesňování (ha) 46 89 66 100 101 46 47 61 84 50 Hnojení porostů (tis ha) 7,86 5,13 3,49 4,48 3,79 23,67 17,23 14,31 5,25 7,11 Lesní požáry (des ha) 22,7 51,9 19,5 34,2 18,9 21,5 6,8 6,6 35,1 17,7 Škody zvěří (mil Kč) 41,8 53,8 61,1 8,2 25,8 36,4 34,5 65,3 27,4 33,0 2

Dostáváme model Y t = β 1 + β 2 X t2 + β 3 X t3 + β 4 X t4 + β 5 X t5 + ɛ t, kde t = 1, 2,, 10, Y je těžba dřeva, X 2 zalesňování, X 3 hnojení lesních porostů, X 4 lesní požáry a X 5 jsou škody zvěří Podobně jako u LRM lze celý model zapsat v maticovém tvaru kde Y = y 1 y 2 y n, ɛ = ɛ 1 ɛ 2 ɛ n Y = Xβ + ɛ, 1 x 12 x 1k, X =, β = 1 x n2 x nk Odhady metodou nejmenších čtverců za předpokladu, že matice X X je regulární a tedy existuje inverzní matice (X X) 1, jsou β = ( X X ) 1 X Y Pozn U LRM se předpokládá, že (P1) Střední hodnota Eɛ t = 0, t = 1,, n, tj náhodné chyby jsou nesystematické (P2) Rozptyl Dɛ t = σ 2, t = 1,, n, tj náhodné chyby jsou homogenní se stejným neznámým rozptylem σ 2 (P3) Kovariance C(ɛ i, ɛ l ) = 0, i l, i, l = 1,, n, tj náhodné chyby jsou nekorelované Navíc se předpokládá, že hodnoty vysvětlujících proměnných nejsou náhodné, ale jsou pevně dané Lze však ukázat, že v případě náhodnosti vysvětlujících proměnných (viz např Hamilton 1 ) je možné vlastnosti odhadů LRM zobecnit β 1 β 2 β k 1 Hamilton, J, D Time series analysis Princeton, 1994 Ŷ t = 50,5821 + 0,7372X 2t 1,1242X 4t 3

Odhad Sm chyba t-test p-hodnota konst 46,7804 29,4463 1,59 0,1730 zalesnovani 0,8147 0,2876 2,83 0,0365 hnojeni 1,0182 0,8280 1,23 0,2735 pozary 1,0373 0,3749 2,77 0,0395 skodyzver 0,3353 0,2605 1,29 0,2544 Odhad Sm chyba t-test p-hodnota konst 50,5821 14,8608 3,40 0,0114 zalesnovani 0,7372 0,2523 2,92 0,0223 pozary 1,1242 0,4149 2,71 0,0302 3 Ověřování modelu 31 Normalita reziduí Pro test normality reziduí lze použít grafických metod jako jsou histogram, QQ plot, nebo použít některý z testů normality: test nulové šikmosti a špičatosti, Shapiro-Wilkův test, Lillieforsův test, Jarque-Bera test apod (shapirotest, lillietest, jarqueberatest) 32 Autokorelace reziduí Rezidua e t = y t ŷ t by měla být podle předpokladů nekorelovaná To lze ověřit např Durbin-Watsonovým testem, který založený na statistice DW = n t=2 (e t e t 1 ) 2 n t=1 e2 t 4

Hodnoty Durbin-Watsonovy statistiky se pohybují v intervalu 0, 4, pokud je tato statistika rovna číslu 2, rezidua nevykazují žádnou autokorelaci, hodnoty menší než 2 značí kladnou přímou autokorelaci a hodnoty větší než 2 značí zápornou nepřímou autokorelaci (dwtest) pomocí autokorelační a parciální autokorelační funkce, portmanteau testu viz později 33 Homoskedasticita Homoskedasticita náhodné složky náhodná složka modelu ɛ t má v čase konstantní rozptyl Pokud tomu tak není, mluvíme o heteroskedasticitě Ta zpravidla také nemá vliv na odhad parametrů modelu, avšak odhady směrodatných odchylek parametrů β j jsou už vychýlené Heteroskedasticitu lze ověřit vizuálně z grafu reziduí nebo testovat např Goldfeld-Quandtovým testem (gqtest), Breusch-Paganovým testem (bptest, ncvtest) apod 34 Multikolinearita Pro použití metody nejmenších čtverců je důležitý předpoklad lineární nezávislosti matice X Jsou-li sloupce této matice lineárně závislé, potom je hodnost matice plánu X menší než počet odhadovaných parametrů modelu, determinant det(x X) = 0 a matici X X neexistuje matice inverzní Hovoříme potom o multikolinearitě (přesné) Problémem může být i silná korelace mezi jednotlivými vysvětlujícími proměnnými (přibližná multikolinearita) Čím je multikolinearita silnější, tím více se determinant det(x X) se blíží k nule Multikolinearita má za následek nadhodnocení součtu čtverců regresních koeficientů, což lze prakticky vnímat tak, že některé vysvětlující proměnné jsou důležitější, než ve skutečnosti jsou, zvýšení rozptylu odhadů parametrů modelu, což znamená pokles spolehlivost jejich odhadu, nebot rostou hodnoty směrodatných odchylek parametrů β j širší intervaly spolehlivosti resp menší hodnoty testových kritérií pro individuální t-testy, zdánlivý rozpor mezi nevýznamnými výsledky t-testů a významným výsledkem celkového F -testu modelu, numerické problémy, které úzce souvisí s malou stabilitou odhadů některých regresních koeficientů, komplikace v rozumné interpretaci individuálního vlivu jednotlivých vysvětlujících proměnných na proměnnou vysvětlovanou Pro testování multikolinearity existuje celá řada různých kritérií Jedno z jednoduchých kritérií vychází z párových korelačních koeficientů r ij, které vyjadřují míru závislosti mezi dvěma vysvětlujícími proměnnými x ti a x tj, i, j = 1, 2,, k a i j Hodnoty blízké ±1 naznačují možnost existence multikolinearity Vzhledem ke vzájemným vztahům jednoduchých korelačních koeficientů s koeficientem mnohonásobné korelace je vhodné používat pro identifikaci multikolinearity jejich kombinaci Párové koeficienty korelace r ij nemají překročit hodnotu 0,8 a žádný z nich nesmí být větší než koeficient mnohonásobné korelace 5

Příklady k procvičení 1 Zjistěte, zda existuje korelace mezi výdaji domácností a výdaji vlády: Rok Výdaje domácností Výdaje vlády 1997 724 801 1 466 681 1998 847 222 1 660 649 1999 932 778 1 785 131 2000 998 254 1 962 483 2001 1 046 326 2 041 353 2002 1 108 838 2 150 058 2003 1 179 384 2 315 255 2004 1 220 633 2 414 669 2005 1 283 147 2 550 754 Zvolte vhodnou regresní funkci pro dané časové řady a odhadněte parametry Ověřte vhodnost zvoleného regresního modelu [Datový soubor: vydajetxt] 2 Datový soubor kurzy2002txt obsahuje směnné kurzy norské koruny (NOK), eura (EUR), britské libry (GBP) a amerického dolaru v roce 2002 Pomocí lineární regrese vyjádřete kurz norské koruny pomocí zbývajících kurzů měn Ověřte vhodnost zvoleného regresního modelu [Datový soubor: kurzy2002txt] 3 Datový soubor phillipstxt o inflaci a nezaměstnanosti v USA od roku 1948 do roku 2003 Inflace je vyjádřena pomocí procentní změny indexu spotřebitelských cen, nezaměstnanost je uvedena v procentech Pomocí lineárního regresního modelu popište závislost inflace na míře nezaměstnanosti Ověřte vhodnost zvoleného regresního modelu [Datový soubor: phillipstxt] 4 Datový soubor intdeftxt obsahuje následující proměnné: i3 tříměsíční úroková sazba T-bill (obligace vydávaná vládou USA), inf roční inflace (index spotřebitelských cen) a def deficit státního rozpočtu vyjádřený jako procento hrubého domácího produktu Sestavte lineární regresní model, ve kterém vysvětlovanou proměnnou je úroková sazba T-bill Určete odhady parametrů modelu [Datový soubor: intdeftxt] 5 Obecná míra plodnosti (gfr) je počet narozených dětí na každých 1000 žen v plodném věku Rovnice gfr t = β 1 + β 2 pe t + β 3 ww2 + β 4 pill t + u t popisuje tuto plodnost jako lineární funkci daňového osvobození (pe) a dvou binárních proměnných Proměnná ww2 nabývá hodnoty 1 mezi lety 1941 až 1945, tedy v době, kdy se USA zapojily do 2 světové války, proměnná pills má hodnotu 1 od roku 1963, kdy se staly přístupné antikoncepční pilulky Odhadněte parametry tohoto regresního modelu Vzhledem k tomu, že sledovaná plodnost může záviset také na zpožděných hodnotách proměnné pe, odhadněte parametry modelu gfr t = β 1 + β 2 pe t + β 3 pe t 1 + β 4 pe t 2 + β 5 ww2 + β 6 pill t + u t [Datový soubor: plodnosttxt] 6