ROBUST 2004 c JČMF 2004 GRAFICKÉ MODELY V ANALÝZE FINANČNÍCH DAT Jitka Zichová Klíčová slova: Grafický model, podmíněná nezávislost. Abstrakt: Grafické modely jsou jedním z nástrojů mnohorozměrné statistické analýzy. Umožňují popis a přehledné znázornění struktury vzájemných závislostí v dané množině proměnných. V poslední době se uplatňují i v oblasti financí, o čemž svědčí například publikace[1],[2],[3]. Článek shrnuje některé aplikace zpracované s použitím českých i zahraničních finančních dat diplomanty oboru Finanční a pojistná matematika na MFF UK v Praze pod vedením autorky příspěvku. 1 Grafický model Uvažujme sloupcový náhodný vektor X = (X 1, X 2,...,X k ) T, indexovou množinu K= {1,2,..., k}agraf G=(K, E),vněmžmnožinavrcholůje K a E označuje množinu hran. Nechť chybějící hrana(i, j) indikuje podmíněnounezávislostnáhodnýchveličin X i a X j připevnýchhodnotáchostatních složekvektoru X,cožznačíme X i X j {X r ; r i, j}.znamenáto,žepro podmíněnéhustotyveličin X i, X j avektoru(x i, X j ) T platí f Xi,X j {X r;r i,j}= f Xi {X r;r i,j}f Xj {X r;r i,j}. Nechť K = A B C.Označme X a podvektorvektoru X obsahující složky X i, i Aaanalogickypodvektory X b a X c sesložkamisindexyzb respektivezc.množinavrcholů Cseparujemnožiny AaB,kdyžvšechny cesty z některého vrcholu i A do některého vrcholu j B obsahují alespoň jedenvrcholzc.separaciinterpretujemetak,ženáhodnévektory X a a X b jsoupodmíněněnezávislépřipevnéhodnotěvektoru X c,t.j. X a X b X c. Úplný graf má všechny dvojice vrcholů spojené hranou. Klika je maximální úplný podgraf, jejím rozšířením o další vrcholy vznikne podgraf, který již není úplný. Řetězový graf má vrcholy uspořádané do bloků, takže K = b 1 b 2 b m pronějaképřirozené m < k.nechť r(j)jeindex bloku obsahujícího vrchol j. Na množině vrcholů existuje částečné uspořádánídefinovanépředpisem i < jkdyž r(i) < r(j), i jkdyž r(i)=r(j). Hrany spojující vrcholy z téhož bloku jsou neorientované zatímco hrany, jež spojují vrcholy z různých bloků, jsou orientované od bloku s nižším indexem kblokusindexemvyšším.nechť K(j)=b 1 b 2 b r(j).chybějícíhrana (i, j), i jznamená,že X i X j {X r ; r K(j), r i, j}. Grafický model s grafem G je systém pravděpodobnostních rozdělení náhodného vektoru X splňujících podmíněné nezávislosti dané grafem G. Speciálním případem je saturovaný model s úplným grafem.
436 Jitka Zichová V praxi se používají systémy normálních rozdělení pro analýzu spojitých dat a systémy rozdělení určených mnohorozměrnou kontingenční tabulkou pro zpracování dat diskrétních. Zkoumání podmíněných nezávislostí v množině proměnných umožňují modely s neorientovanými grafy. Chceme-li vyšetřovat příčinné souvislosti, to jest vztahy mezi soubory závisle a nezávisle proměnných, používáme modely s řetězovými grafy. 2 Selekce modelu Předpokládejme nadále, že máme k dispozici data ve formě n realizací k-rozměrného náhodného vektoru X. Naším cílem je popsat strukturu podmíněných nezávislostí složek vektoru X vhodným grafickým modelem. K tomu účelu byly vypracovány různé selekční algoritmy v rámci věrohodnostního a bayesovského přístupu. Omezíme-li se na věrohodnostní přístup, je základním nástrojem selekčních algoritmů deviance. Pro grafický model s grafem G ji definujeme předpisemdev(g)=2(l S l G ),kde l S jemaximumlogaritmickévěrohodnostní funkcevsaturovanémmodelual G jemaximumlogaritmickévěrohodnostní funkce v modelu s grafem G. Deviance má asymptoticky chí-kvadrát rozdělení, počet stupňů volnosti f závisí na rozdělení dat a zmíníme jej později. Je testovou statistikou pro test modelu s grafem G proti alternativě saturovaného modelu. Selekční algoritmy pracují v krocích spočívajících v postupném ubírání hran počínaje saturovaným modelem s úplným grafem(typ backward) nebo naopak v postupném přidávání hran počínaje grafem bez hran(typ forward). Zřejmějetedytřebauměttestovatmodelsgrafem G 2 protialternativěmodelusgrafem G 1 obsahujícímoproti G 2 navícjednunebovícehran.testovou statistikoujevtakovýchpřípadechdiferencedeviancídev(g 2 ) dev(g 1 ) sasymptotickýmchí-kvadrátrozdělenímof 2 f 1 stupníchvolnosti,kde f 2 jsoustupněvolnostiprodev(g 2 )af 1 jsoustupněvolnostiprodev(g 1 ). Překročí-li deviance respektive diference deviancí kritickou hodnotu příslušného chí-kvadrát rozdělení, zamítáme testovaný model ve prospěch alternativního modelu s grafem s více hranami. Podrobný popis selekčních algoritmů nalezneme v knize[4] a v citovaých diplomových pracích. 3 Gaussovské grafické modely Předpokládejme, že náhodný vektor X má mnohorozměrné normální rozdělenísnulovoustředníhodnotouavariančnímaticí V.Označme D=V 1 inverznívariančnímaticiad ij, i, j=1,2,...,kjejíprvky.lzedokázat,že X i X j {X r ; r i, j}právětehdy,když d ij =0.Deviancemodelusgrafem Gmátvar dev(g)=n{tr(sˆd) ln[det(sˆd)] k}, kde ˆD=ˆV 1 aˆv jemaximálněvěrohodnýodhadvariančnímatice V vmodelu s grafem G. Tento odhad se počítá iteračně aplikací tzv. IPF algoritmu
Grafické modely v analýze finančních dat 437 (Iterative Proportional Fitting), který je popsán např. v[4]. Výběrová varianční matice S je maximálně věrohodným odhadem pro V v saturovaném modelu. Počet stupňů volnosti pro chí-kvadrát rozdělení deviance modelu sgrafem GjerovenpočtuchybějícíchhranvG. Následující příklad byl řešen v diplomové práci[6] s pomocí programu napsaného autorem práce v systému Mathematica. Příklad 1. Analýza vzájemných vztahů českých burzovních indexů. Databáze byla tvořena časovými řadami měsíčních pozorování uzávěrkových kursů odvětvových indexů Burzy cenných papírů Praha z let 1994-2001. Zaměřilijsmesenašesticiodvětví,atovýrobanápojůatabáku(X 1 ),textilní průmysl(x 2 ),hutnictví(x 3 ),elektroprůmysl(x 4 ),služby(x 5 )ainvestiční fondy(x 6 ).Databylatransformovánadiferencemilogaritmů,kterésplnily předpoklady normality a nezávislosti pozorovaných realizací. Podívejme se nejprve na korelační matici indexů pro sledovaná odvětví. Nápoje Textil Hutnictví Elektro Služby Fondy 1 0.33 0.43 0.37 0.33 0.42 1 0.31 0.48 0.33 0.38 1 0.31 0.41 0.32 1 0.42 0.44 1 0.35 1 Naprogramovaný backward algoritmus vybral pro popis vzájemných souvislostí v datech graf 6 4 2 1 5 3 Korelace dvojic odvětví spojených v grafu hranami jsou vytištěny tučně. Zgrafulzečíst,žechováníindexuinvestičníchfondů X 6 výrazněovlivňují zuvažovanýchodvětvívýrobanápojůatabáku X 1 aelektroprůmysl X 4,čemuž odpovídají dvě nejvyšší korelace v posledním sloupci korelační matice. U normálně rozdělených dat však hrany v grafu znamenají nenulové hodnoty parciálních korelací. Vidíme například, že vrcholy 2 a 6 nejsou spojeny hranou,tudížproměnné X 2 a X 6 majínevýznamnouparciálníkorelaci.jejich relativně vysoká korelace 0.38 je způsobena vlivem ostatních proměnných. V Příkladu 2 řešeném v práci[8] ukážeme aplikaci modelu s řetězovým grafem na data podobného charakteru.
438 Jitka Zichová Příklad 2. Chování indexu PX50 v závislosti na odvětvových indexech. Opět máme k dispozici časové řady odvětvových burzovních indexů pro vybraná odvětví a navíc řadu hodnot průřezového indexu PX50 za stejné období.bylasledovánaodvětvívýrobanápojůatabáku(x 1 ),textilníprůmysl(x 2 ),chemickýprůmysl(x 3 ),elektroprůmysl(x 4 ),energetika(x 5 ), dopravaaspoje(x 6 ),služby(x 7 ),sklářskýprůmysl(x 8 ),investičnífondy (X 9 )aindexostatníchodvětví(x 10 ).Závisleproměnnou(Y)jeindexPX50. Stejně jako v Příkladu 1 byly zpracovány diference logaritmů všech proměnných, a to třístupňovým algoritmem pro selekci řetězového grafu popsaným v knize[4] a realizovaným diplomantkou v systému Mathematica. Uveďme nejprve parciální korelace indexu PX50 s oborovými indexy. Statisticky významné parciální korelace na pětiprocentní hladině jsou vytištěny tučně. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 0.15-0.110.14 0.13 0.780.870.09 0.13 0.310.21 Bloknezávisleproměnných b 1 jetvořenveličinami X 1, X 2,...,X 10 ablok b 2 obsahujejedinouzávisleproměnnou Y reprezentujícíindexpx50.vgrafickém modelu pro popis dat nás zajímají především hrany spojující vrchol 11 veličiny Ysvrcholyzbloku b 1.Selekčníalgoritmusnavrhlmodelsgrafemobsahujícímorientovanéhranyprodvojice(X 5, Y),(X 6, Y),(X 9, Y),(X 10, Y). To znamená, že index PX50 je významně ovlivňován indexy energetiky, dopravy a spojů, investičních fondů a indexem ostatních odvětví. Odpovídá to statisticky významným parciálním korelacím. Ze získaného výsledku lze vyjít například při modelování regresní závislosti PX50 na odvětvových indexech. Vybraný grafický model nám oproti regresnímu modelování poskytuje navíc informaci o vzájemných souvislostech v množině nezávisle proměnných, a to prostřednictvímneorientovanýchhranspojujícíchvrcholyzbloku b 1.Podgraf problok b 1 lzepopsatmaticísousednosti,kterámá1namístě(i, j),spojuje-li vrcholypříslušejícíproměnným(x i, X j )hrana,a0vpřípaděnepřítomnosti hrany. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 1 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0
Grafické modely v analýze finančních dat 439 Největší provázanost s ostatními odvětvími vykazují indexy výroby nápojů atabáku X 1,elektroprůmyslu X 4 ainvestičníchfondů X 9,jakukazujítučně vytištěné 1 ve výše uvedené matici. Dalšípříkladbylřešenvpráci[5]abylvěnovánstudiuzávislostimezi několika bloky proměnných. Příklad 3. Analýza odvětvových indexů a indexu IBIX prostřednictvím blokové struktury. Odvětvovéindexybylyrozdělenydobloků b 1, b 2, b 3,unichžlzeusuzovat, že proměnné z bloku s nižším indexem mohou ovlivňovat chování proměnných z bloků s vyšším indexem. Vstup představovaly časové řady diferencílogaritmůdenníchpozorováníindexůzlet1993-1994.blok b 1 obsahovalindexyzemědělství(x 1 ),dřevozpracujícíhoprůmyslu(x 2 ),chemického průmyslu(x 3 )ahutnictví(x 4 ).Vbloku b 2 bylazastoupenaodvětvípotravinářství(x 5 ),textilní průmysl(x 6 ),stavebnictví(x 7 )astrojírenský průmysl(x 8 ).Blok b 3 zahrnovalelektroprůmysl(x 9 )aobchod(x 10 ).Jedináproměnná X 11 vbloku b 4 reprezentovalaprůřezovýindexibix,jenž byl sestavován Investiční a Poštovní bankou. Autor práce naprogramoval zobecněný třístupňový algoritmus pro selekci grafického modelu s řetězovým grafem zahrnujícím více bloků proměnných. Tímto algoritmem byl pro vyšetřovaná data navržen graf, jehož strukturu zde opět naznačíme v maticové formě. X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 X 11 0 0 1 1 * 0 * 0 0 0 0 0 1 1 * * * 0 0 0 0 0 1 * 0 * * 0 0 * 0 * * 0 * * 0 0 0 1 1 1 0 0 * 0 1 1 * 0 0 0 1 0 * * 0 * 0 * 0 0 0 0 * Hvězdička na místě(i, j) představuje orientovanou hranu vedoucí z vrcholu idovrcholu jvblokusvyššímindexem,jedničkanamístě(i, j)pak neorientovanou hranu spojující dva vrcholy téhož bloku. Například vrchol 5 proměnné potravinářství je spojen orientovanými hranami s vrcholy 1, 2, 3, 4 všechodvětvíbloku b 1 aneorientovanýmihranamisvrcholy6,7a8.vysoká 0
440 Jitka Zichová provázanost s ostatními odvětvími způsobuje i vliv proměnné potravinářství X 5 naindexibix.vrchol10proměnnéobchodneníspojensžádným zvrcholůbloku b 1.Vidíme,žeindexobchodujeprostřednictvímorientované hrany ovlivněn pouze chováním indexu stavebnictví s vrcholem 7 v bloku b 2.Dálelzekonstatovat,žehodnotaindexuIBIXjeovlivněnaindexychemického, potravinářského a strojírenského průmyslu, stavebnictví a obchodu, a že všechny čtyři bloky proměnných spolu souvisejí. Největší počet orientovanýchhranjemezibloky b 1 a b 2. 4 Grafické modely pro kategoriální data Nechťnyní X =(X 1, X 2,...,X k ) T představujenáhodnývektorměřených znakůnaurčitémsubjektu,přičemž i-týznaknabýváhodnot0,1,2,..., r i, i=1,2,..., k.označíme-lisymbolem xkonkrétníkombinacisledovaných k znaků, je rozdělení vektoru X dáno k-rozměrnou tabulkou pravděpodobností P(X= x)všechmožnýchkombinací.databázejevtomtopřípadětvořena n subjekty, z nichž každý je popsán k znaky. Četnost kombinace x v datech označíme n(x),přičemž x n(x)=n.deviancemodelusgrafem Gje dev(g)=2 x n(x)ln n(x) nˆp(x), kde ˆp(x) je maximálně věrohodný odhad pravděpodobnosti p(x) v modelu s grafem G a relativní četnost n(x)/n je maximálně věrohodný odhad pro p(x) v saturovaném modelu. Odhady ˆp(x) se opět počítají iteračně pomocí IPF algoritmu. Logaritmicko-lineární rozvoj hustoty lze psát ve tvaru ln p(x)= a K u a (x a ), kdesčítámepřesvšechnypodmnožiny amnožinyvrcholů Ka u a (x a )jsoutzv. u-členy,proněžplatí u a (x a )=u a (x i ; i a)au a (x a )=0,existuje-litakové i a,že x i =0.Početstupňůvolnostiprodeviancijerovenpočtuchybějících u-členů s nenulovými argumenty v logaritmicko-lineárním rozvoji p(x), neboť X i X j {X r ; r i, j}právětehdy,když u a (x a )=0provšechna a K taková,že i, j a. V práci[7] byl řešen problém z oblasti credit scoringu, to jest posuzování bonity žadatelů o úvěry. K dispozici byla databáze klientů jisté německé banky z doby před zavedením Eura. Základním sledovaným znakem je to, zda klientovi byl či nebyl bankou poskytnut úvěr, dalšími znaky je například pohlaví klienta, výše požadovaného úvěru apod. Příklad 4. Stanovení faktorů ovlivňujících přidělení úvěru. Uvažujme následující kategoriální proměnné zaznamenávané u žadatelů obankovníúvěr:úvěr(x 1 )nabývajícíhodnot0(neposkytnut)a1(poskytnut),výšeúvěru(x 2 )shodnotami0(<1500dem),1(1500až5000dem)
Grafické modely v analýze finančních dat 441 a2(>5000dem), úspory(x 3 ) shodnotami0(<100dem),1(100až 1000DEM)a2(>1000DEM),pohlaví(X 4 ),kde0kódujemužea1ženu, ajinýúvěr(x 5 )shodnotami0(ano)a1(ne).posledníproměnnáindikuje, zda žadatel již má přidělen jiný úvěr. Selekční algoritmus naprogramovaný diplomantkou v Mathematice navrhl model s grafem 3 4 1 2 5 Grafnásinformuje,otom,žepřiděleníúvěru X 1 ovlivňujíkroměpohlaví X 4 všechnysledovanéznaky.vrcholy1,2,a3odpovídajícíznakům úvěr, výše úvěru, úspory tvoří kliku dokumentující vzájemnou provázanost vtétotrojiciproměnných.dalšíklikajetvořenavrcholy1,2,a5,ježpředstavujíznakyúvěr,výšeúvěruajinýúvěr.pohlaví X 4 souvisípouzespožadovanouvýšíúvěru X 2.Podíváme-lisenaprocentnípodílženžádajících oúvěrvdanédatabázi,zjistíme,žeseskutečnělišípodlevýšeúvěru: <1500DEM 1500až5000DEM >5000DEM 54 procent 36 procent 30 procent Grafické modely v databázích uvedeného typu mohou například poskytnout bankám informaci o tom, které znaky je důležité u klientů evidovat a které nikoli. Reference [1] Giudici P.(2001). Bayesian data mining with application to benchmarking and credit scoring. Applied Stochastic Models in Business and Industry 17,69 81. [2] Hand D.J., Mc Conway K.J., Stanghellini E.(1997). Graphical models of applicants for credit. IMA Journal of Mathematics Applied in Business andindustry8,143 155. [3] Stanghellini E., Mc Conway K.J., Hand D.J.(1999). A discrete variable chain graph for applicants for credit. Applied Statistics 48, Part 2, 239 251. [4] Whittaker J.(1990). Graphical models in applied multivariate statistics. Wiley, New York. [5] Ambrož Z.(2004). Regresní modely pro analýzu výnosu portfolia. Diplomová práce, KPMS MFF UK, Praha.
442 Jitka Zichová [6] Chýna V.(2002). Grafické modely pro analýzu spojitých finančních dat. Diplomová práce, KPMS MFF UK, Praha. [7] Svobodová B.(2003). Analýza kategoriálních finančních dat. Diplomová práce, KPMS MFF UK, Praha. [8] Zelinková J.(2003). Regrese a grafické modely pro finanční analýzu. Diplomová práce, KPMS MFF UK, Praha. Poděkování: Tato práce je podporována výzkumným záměrem MSM 113200008. Adresa:J.Zichová,KPMSMFFUK,Sokolovská83,18675Praha8 E-mail: zichova@karlin.mff.cuni.cz