Univerzita Karlova v Praze Matematicko-fyzikální fakulta. Miroslav Khýr. bankovních datech

Transkript

1 Univerzita Karlova v Praze Matematicko-fyzikální fakulta BAKALÁŘSKÁ PRÁCE Miroslav Khýr Vyšetřování závislostí v kategoriálních bankovních datech Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Jitka Zichová, Dr. Studijní program: Matematika Studijní obor: Finanční matematika Praha 2015

2 Rád bych poděkoval své vedoucí bakalářské práce, RNDr. Jitce Zichové, Dr., za cenné rady, věcné připomínky a vstřícnost při konzultacích.

3 Prohlašuji, že jsem tuto bakalářskou práci vypracoval samostatně a výhradně s použitím citovaných pramenů, literatury a dalších odborných zdrojů. Beru na vědomí, že se na moji práci vztahují práva a povinnosti vyplývající ze zákona č. 121/2000 Sb., autorského zákona v platném znění, zejména skutečnost, že Univerzita Karlova v Praze má právo na uzavření licenční smlouvy o užití této práce jako školního díla podle 60 odst. 1 autorského zákona. V Praze dne

4 Název práce: Vyšetřování závislostí v kategoriálních bankovních datech Autor: Miroslav Khýr Katedra: Katedra pravděpodobnosti a matematické statistiky Vedoucí bakalářské práce: RNDr. Jitka Zichová, Dr., Katedra pravděpodobnosti a matematické statistiky Abstrakt: Cílem práce je podrobně popsat teorii týkající se logaritmicko - lineárního rozvoje a grafických modelů pro náhodné vektory s diskrétním rozdělením. Tyto vektory mohou modelovat výskyt kategoriálních znaků například v populaci klientů banky. Ukážeme, jak odhadovat jednotlivé pravděpodobnosti realizace sledovaných znaků, k čemuž využijeme logaritmickou věrohodnostní funkci. Grafem podmíněných nezávislostí můžeme znázornit podmíněné nezávislosti diskrétně rozdělených náhodných veličin. Pomocí vyložené teorie, především použitím deviance jako testové statistiky, můžeme zkoumat, jestli data odpovídají zvolenému grafickému modelu. Na konci práce aplikujeme teorii na reálná data a určíme grafický model, který nejlépe odpovídá závislostní struktuře v konkrétní bankovní databázi. Z příslušného grafu je možné vyvodit, jaké znaky jsou na sobě závislé a jaké naopak ne. Klíčová slova: logaritmicko- lineární rozvoj, grafický model, logaritmická věrohodnostní funkce, deviance. Title: Dependence analysis of categorical data from banking Author: Miroslav Khýr Department: Department of Probability and Mathematical Statistics Supervisor: RNDr. Jitka Zichová, Dr., Department of Probability and Mathematical Statistics Abstract: The aim of this work is describing in detail the theory of the log - linear expansion and graphical models for random vectors with a discrete distribution. Such vector can be used for modeling categorical variables for example in a population of borrowers by a bank. We show how to estimate the probability of an individual category. We use a log - likelihood function. Independence graph can represent conditional independence of discretely distributed random variables. Using this theory, especially using deviance as test statistics, we can examine whether same data correspond to the selected graphical model. At the end of this work we apply the described theory to real data and determine the graphical model best fitting the dependence structure in a database from banking. From this graph we can deduce which variables are dependent and which are independent. Keywords: Log - linear expansion, graphical model, log - likelihood function,deviance.

5 Obsah Úvod 2 1 Základní pojmy Náhodné vektory a podmíněná nezávislost Mnohorozměrné diskrétní rozdělení Bernoulliho rozdělení a logaritmicko - lineární rozvoj Obecný logaritmicko - lineární rozvoj Grafické modely Základní pojmy z teorie grafů Grafy podmíněných nezávislostí Grafický logaritmicko - lineární model Věrohodnostní funkce a odhady parametrů Věrohodnostní funkce Deviance Odhady v grafickém modelu Podmíněná nezávislost Trojrozměrné Bernoulliho rozdělení Aplikace na reálná data Model se třemi proměnnými Model s pěti proměnnými Seznam použité literatury 40 Seznam obrázků 41 Seznam tabulek 42 1

6 Úvod V dnešní době je stále větší poptávka po úvěrech. S tím nutně souvisí zvyšující se riziko, že dlužník nebude řádně splácet svůj úvěr, popřípadě že ho nesplatí vůbec. Proto si banky vedou rozsáhlé databáze o svých klientech a o splácení jejich závazků. A právě analýzou takových dat se budeme v této práci zabývat. Cílem bude zjistit, jak sledované znaky jako například věk, stabilita zaměstnání ovlivňují řádné splacení. Tímto můžeme snížit riziko z nesplacení úvěru u nových klientů. K řešení zmíněné problematiky lze použít různé statistické metody, například testování nezávislosti kategoriálních znaků v kontingenčních tabulkách nebo logistickou regresi. V naší práci se zaměříme na jiný, ne tolik známý přístup, a to studium struktury podmíněných nezávislostí v množině znaků prostřednictvím grafických modelů. Jedná se o metodologii, která je popsána v knize [2]. Z ní jsou převzaty definice a věty v následujícím textu. Důkazy jsou oproti literatuře podrobně rozepsány. V první kapitole nejprve zadefinujeme podmíněnou pravděpodobnost a dokážeme pro ni vlastnosti, které budeme používat. Zabýváme se zde Bernoulliho rozdělením, pro které podrobně odvodíme logaritmicko - lineární rozvoj. Odtud přejdeme k obecnému logaritmicko - lineárnímu rozvoji pro diskrétně rozdělený náhodný vektor a ukážeme vztah mezi podmíněnou nezávislostí a u - členy v tomto rozvoji. V kapitole druhé uvedeme základní pojmy z teorie grafů. Pro náhodný vektor zadefinujeme jeho graf podmíněných nezávislostí a ukážeme, že splňuje tři markovské vlastnosti. Také zadefinujeme grafický a hierarchický model logaritmicko - lineárního rozvoje a ukážeme vztah mezi nimi. Dospějeme také k tomu, jaké informace potřebujeme znát k sestavení rozvoje pro daný model. Vše ilustrujeme na příkladech. Třetí kapitola nám dává návod jak testovat shodu grafického modelu s daty. Mimo jiné najdeme vztah pro logaritmickou věrohodnostní funkci zapsanou pomocí u - členů. Pojednáme také o devianci jako testové statistice pro zvolený model. Také odvodíme odhady pravděpodobností ve speciálních případech, například pro náhodný vektor o třech složkách s Bernoulliho rozdělením. Čtvrtou kapitolu využijeme pro analýzu konkrétní databáze bankovních klientů. 2

7 1 Základní pojmy 1.1 Náhodné vektory a podmíněná nezávislost Definice 1.1. Mějme náhodné veličiny X 1,...,X k na stejném pravděpodobnostním prostoru (Ω,A,P) a borelovskou σ - algebru B k na k - rozměrném reálném prostoru R k. Pak definujeme náhodný vektor X = (X 1,...,X k ) jako měřitelné zobrazení z (Ω,A) do (R k,b k ). Uvažujme nyní náhodné vektory X = (X 1,...,X k ) s hustotou f X (x); x R k, Y = (Y 1,...,Y n ) s hustotou f Y (y); y R n, Z = (Z 1,...,Z m ) s hustotou f Z (z); z R m. Sdružené hustoty budeme značit f YZ (y,z) a podobně. Podmíněné hustoty budeme značit f Y X (y x) a podobně, f Y X (y x) = f XY(x,y), (1.1) f X (x) je - li f X (x) > 0. Všechny hustoty uvažujeme vzhledem k vhodným σ - konečným měrám. Definice 1.2. Náhodné vektory Y a Z nazveme nezávislé, když platí pro všechny y R n, z R m. Nadále budeme značit Y Z. f YZ (y,z) = f Y (y)f Z (z) Definice 1.3. Náhodné vektory Y a Z nazveme podmíněně nezávislé při pevné hodnotě náhodného vektoru X, když platí f YZ X (y,z x) = f Y X (y x)f Z X (z x) pro všechny y R n, z R m a x R k takové, že f X (x) > 0. Nadále budeme značit Y Z X. Poznámka 1.1. V případě náhodných vektorů s diskrétními složkami platí Y Z P(Y = y,z = z) = P(Y = y)p(z = z), Y Z X P(Y = y,z = z X = x) = P(Y = y X = x)p(z = z X = x) pro všechny možné y = (y 1,...,y n ), z = (z 1,...,z m ), x = (x 1,...,x k ), takové, že P(X = x) > 0. 3

8 Věta 1.1. Následující tvrzení jsou ekvivalentní definici f Y XZ (y x,z) = f Y X (y x), je - li f XZ (x,z) > 0, f X (x) > f XYZ (x,y,z) = f XY (x,y)f XZ (x,z) f X (x), je - li f X (x) > 0. Důkaz. Pro jednoduchost nebudeme psát argumenty hustot a dokážeme jednotlivé implikace. 1 Necht Y Z X. Použijeme definici 1.3 a rovnost (1.1) pro f YZ X. f YZ X = f Y X f Z X, f YZ X = f XYZ f X = f Y XZf XZ f X = f Y XZ f Z X. Odtud dostáváme f Y X f Z X = f Y XZ f Z X, f Y X = f Y XZ. 1 Necht platí f Y XZ = f Y X. Tuto rovnost dále upravíme pomocí (1.1). f XYZ = f XY, f XZ f X f XYZ f X = f XY f XZ, f X f X f YZ X = f Y X f Z X Y Z X. 2 Necht Y Z X. Vyjdeme z (1.1) a v úpravě použijeme definici 1.3. f XYZ = f YZ X f X = f Y X f Z X f X = f XYf XZ f X. 2 Necht platí f XYZ = f XY f XZ f X. Tuto rovnost upravíme a použijeme (1.1). f XYZ f X = f XY f XZ, f X f X f YZ X = f Y X f Z X Y Z X. Věta 1.2. Náhodné vektory Y a Z jsou podmíněně nezávislé při pevném X, Y Z X, právě tehdy, když existují funkce g a h takové, že f XYZ (x,y,z) = g(x,y)h(x,z) pro všechny hodnoty y R n a z R m a x R k takové, že f X (x) > 0. Důkaz. Dokážeme obě implikace pro náhodné vektory se spojitými složkami. 4

9 Necht Y Z X. Použitím věty 1.1 dostaneme f XYZ (x,y,z) = f XY (x,y)f XZ (x,z) f X (x). Označme si g(x,y) = f XY (x,y) f X (x) a h(x,z) = f XZ (x,z). Potom f XYZ (x,y,z) = g(x,y)h(x,z). Necht existují funkce g a h takové, že f XYZ (x,y,z) = g(x,y)h(x,z). Pro sdruženou hustotu f XYZ (x,y,z) musí platit 1 = f XYZ(x,y,z)dxdydz = g(x,y)dy dx. R m R n R k R n R k R m h(x,z)dz Odtud dostáváme g(x,y)dy h(x,z)dz = f X (x), R n R m a tedy lze například položit Podle předpokladu máme a dále g(x,y) = f XY(x,y), h(x,z) = f XZ (x,z). f X (x) f XYZ (x,y,z) = f XY(x,y) f XZ (x,z) f X (x) f XYZ (x,y,z) f X (x) = f XY(x,y) f XZ (x,z) f X (x) f X (x), neboli vzhledem k (1.1) f YZ X (y,z x) = f Y X (y x)f Z X (z x), což podle definice 1.3 znamená Y Z X. Poznámka 1.2. Věty 1.1 a 1.2 lze zformulovat a dokázat i pro náhodné vektory s diskrétními složkami s využitím poznámky 1.1. Věta 1.3. Necht Z = (Z 1,Z 2 ), Z 1 R p, Z 2 R m p, 0 < p < m, f X (x) > 0. Jestliže Y (Z 1,Z 2 ) X pak Y Z 1 X, Y Z 2 X. Důkaz. Necht platí Y (Z 1,Z 2 ) X. Potom z věty 1.1, bod 2 plyne f XYZ1 Z 2 = f XYf XZ1 Z 2 f X. 5

10 Rovnají - li se funkce, pak se musí rovnat i jejich integrály, pro spojité náhodné vektory tedy máme f XY f XZ1 Z f XYZ1Z 2 dz 2 = 2 dz 2, f X R m p R m p f XYZ1 = f XYf XZ1 f X. Opětovným použitím věty 1.1, bod 2 dostaneme Y Z 1 X. Pro Y Z 2 X lze postupovat analogicky. Poznámka 1.3. Důkaz lze provést i pro diskrétně rozdělené náhodné vektory s využitím poznámky 1.1. Věta 1.4. Necht (X,Y,Z 1,Z 2 ) je náhodný vektor, f X (x) > 0, f XZ1 (x,z 1 ) > 0, f XZ2 (x,z 2 ) > 0. Potom jsou následující tvrzení ekvivalentní. 1. Y (Z 1,Z 2 ) X. 2. Y Z 1 (X,Z 2 ) a Y Z 2 (X,Z 1 ). Důkaz. Dokážeme obě implikace. Použijeme větu 1.1, bod 2 a získané dále upravíme. Postupně dostáváme Z vět 1.3 a 1.1, bod 1 platí Celkem f XYZ1 Z 2 = f XYf XZ1 Z 2 f X, f YZ1 XZ 2 f XZ2 = f Y X f Z1 Z 2 Xf XZ2, f YZ1 XZ 2 = f Y X f Z1 XZ 2. f Y X = f Y XZ2. f YZ1 XZ 2 = f Y XZ2 f Z1 XZ 2. Podle definice 1.3 to znamená Y Z 1 (X,Z 2 ). Analogicky Y Z 2 (X,Z 1 ). Necht platí Y Z 1 (X,Z 2 ) a Y Z 2 (X,Z 1 ). Podle věty 1.2 je Potom platí f XYZ1 Z 2 = g(x,y,z 2 )h(x,z 1,z 2 ), f XYZ1 Z 2 = a(x,y,z 1 )b(x,z 1,z 2 ). (1.2) a(x,y,z 1 ) = g(x,y,z 2)h(x,z 1,z 2 ). b(x,z 1,z 2 ) Levá strana nezávisí na proměnné z 2, aby platila rovnost, ani pravá strana na ní nemůže být závislá. Tedy lze psát a(x,y,z 1 ) = G(x,y)H(x,z 1 ). Dosazením tohoto vztahu do rovnice (1.2) dostáváme f XYZ1 Z 2 = G(x,y)H(x,z 1 )b(x,z 1,z 2 ) = G(x,y)F(x,z 1,z 2 ). Tedy Y (Z 1,Z 2 ) X. 6

11 Důsledek. Necht (Y,Z 1,Z 2 ) je náhodný vektor, f Z1 (z 1 ) > 0, f Z2 (z 2 ) > 0. Pak Y (Z 1,Z 2 ) právě tehdy když Y Z 1 Z 2 a Y Z 2 Z Mnohorozměrné diskrétní rozdělení Necht nyní V = {1,2,...,k} je indexová množina a X = X V = (X 1,...,X k ) je k - dimenzionální náhodný vektor s diskrétními složkami. Rozdělení náhodného vektoru X V je dáno pravděpodobnostmi p(x) = p V (x) = P(X = x) = P(X 1 = x 1,...,X k = x k ), pro něž platí 0 p(x) 1 pro všechna x R k a p(x) = 1. Pro množinu a V x označíme symbolem X a podvektor náhodného vektoru X se složkami X i, i a. Necht X = (X a,x b ) a,b disjunktní a platí V = a b. Označme p V (x) = p ab (x a,x b ) = P(X a = x a,x b = x b ). Pak lze zapsat marginální pravděpodobnosti a podmíněné pravděpodobnosti pokud je p a (x a ) > 0. p a (x a ) = P(X a = x a ) = x b p ab (x a,x b ) (1.3) p b a = P(X b = x b X a = x a ) = p ab(x a,x b ), (1.4) p a (x a ) Tvrzení 1.5. Pro náhodný vektor X = (X a,x b ) platí: 1. x a p a (x a ) = x b p b a (x b x a ) = 1, je - li p a (x a ) > 0. Důkaz. Rozepíšeme jednotlivé sumy. 1. x a p a (x a ) = x a x b p ab (x a,x b ) = x 2. x b p b a (x b x a ) = x b p ab (x a,x b ) p a(x a) = 1 p a(x a) p(x) = 1. p ab (x a,x b ) = 1 p p a(x a) a(x a ) = 1. x b Příklad 1.1. Prodemonstracitvrzení1.5sivezměmenáhodnývektorX = (X 1,X 2 ) s diskrétním rozdělením, kde X 1 a X 2 jsou náhodné veličiny nabývající hodnot 1,...,r a 1,...,s. Sdružené pravděpodobnosti lze zapsat do následující tabulky. Marginální pravděpodobnosti jsou řádkové součty respektive sloupcové součty. Často se používá název kontingenční tabulka. 7

12 X 1 \X 2 1 s 1 p(1,1) p(1,s) p(1.).. r p(r,1) p(r,s) p(r.) p(.1) p(.s) 1 Tabulka 1.1: Kontingenční tabulka. Příklad 1.2. Speciálnímpřípademjesituace,kdyoběsložkyX 1,X 2 mohounabývat pouze dvou hodnot 0 a 1. Náhodný vektor X má potom Bernoulliho rozdělení, kterým se budeme zabývat v další podkapitole. Kontingenční tabulka vypadá následovně. X 1 \X p(0,0) p(0,1) p(0.) 1 p(1,0) p(1,1) p(1.) p(.0) p(.1) 1 Tabulka 1.2: Kontingenční tabulka pro Bernoulliho rozdělení. Použijeme vztahy (1.3), (1.4) k získání marginálních a podmíněných pravděpodobností. Marginální pravděpodobnosti jsou pro x = 0,1. Podmíněné pravděpodobnosti jsou pro x 1 = 0,1, x 2 = 0,1. p(x.) =P(X 1 = x) = p(x,0)+p(x,1), p(.x) =P(X 2 = x) = p(0,x)+p(1,x) P(X 1 = x 1 X 2 = x 2 ) = p(x 1,x 2 ) p(.x 2 ), P(X 2 = x 2 X 1 = x 1 ) = p(x 1,x 2 ) p(x 1.) Uvažujme dále disjunktní množiny a,b,c tak, aby a b c = V, potom X = (X a,x b,x c ) a z definice 1.3 dostaneme X b X c X a právě tehdy, když pokud p a (x a ) > 0. p bc a (x b,x c x a ) = p b a (x b x a )p c a (x c x a ), Tvrzení 1.6. X b X c X a platí právě tehdy, když p abc (x) = p ab(x a,x b )p ac (x a,x c ), p a (x a ) > 0. p a (x a ) Důkaz. Obě implikace plynou přímo z věty

13 1.3 Bernoulliho rozdělení a logaritmicko - lineární rozvoj Uvažujme nejprve pro jednoduchost jednorozměrný případ, kterému se říká alternativní nebo Bernoulliho rozdělení. Je to diskrétní rozdělení modelující náhodný pokus, který má dva možné výsledky. Ty nemusí být stejně pravděpodobné. Pravděpodobnost jednoho výsledku, úspěchu, si označme p (0,1). Potom pravděpodobnost doplňku, neúspěchu, je 1 p. Rozdělení náhodné veličiny X pak lze zapsat ve tvaru p(x) = P(X = k) = p k (1 p) 1 k, k = 0,1. Dále se budeme zabývat dvourozměrným Bernoulliho rozdělením. Mějme náhodný vektor X = (X 1,X 2 ). Obě složky mají alternativní rozdělení. Nosič náhodného vektoru X je kartézský součin (0,1) (0,1). Náhodný pokus má čtyři možné výsledky, označme si jejich pravděpodobnosti P(X = (1,1)) = p(1,1), P(X = (0,1)) = p(0,1), P(X = (1,0)) = p(1,0), P(X = (0,0)) = p(0,0). Pro toto rozdělení můžeme vytvořit kontingenční tabulku, viz příklad 1.2. Stejně jako v jednorozměrném případě lze zapsat rozdělení náhodného vektoru v součinovém tvaru p(x) = P(X = x) = p(1,1) x 1x 2 p(0,1) (1 x 1)x 2 p(1,0) x 1(1 x 2 ) p(0,0) (1 x 1)(1 x 2 ). Nyní tento vztah zlogaritmujeme a dostaneme tzv. logaritmicko - lineární rozvoj logp(x) = x 1 x 2 logp(1,1)+(1 x 1 )x 2 logp(0,1)+x 1 (1 x 2 )logp(1,0) +(1 x 1 )(1 x 2 )logp(0,0). (1.5) Tato reprezentace p(x) se nejvíce používá v logaritmicko - lineárních modelech pro analýzu kategoriálních dat. Pravou stranu (1.5) lze dále upravit. logp(x) = x 1 x 2 logp(1,1)+x 2 logp(0,1) x 1 x 2 logp(0,1)+x 1 logp(1,0) Označme x 1 x 2 logp(1,0)+logp(0,0) x 1 logp(0,0) x 2 logp(0,0) +x 1 x 2 logp(0,0) = logp(0,0)+x 1 {logp(1,0) logp(0,0)}+x 2 {logp(0,1) logp(0,0)} +x 1 x 2 {logp(1,1) logp(0,1) logp(1,0)+logp(0,0)}. u = logp(0,0), u 2 = log p(0,1) p(0,0), Potom dostáváme vztah u 1 = log p(1,0) p(0,0), u 12 = log p(0,0)p(1,1) p(0,1)p(1,0). (1.6) logp(x) = u+u 1 x 1 +u 2 x 2 +u 12 x 1 x 2, (1.7) kde koeficienty u,u 1,u 2,u 12 nazýváme u - členy logaritmicko - lineárního rozvoje. 9

14 Tvrzení 1.7. U - členy logaritmicko - lineárního rozvoje (1.7) lze spočítat z následujících lineárních rovnic logp(0,0) = u, logp(0,1) = u+u 2, logp(1,0) = u+u 1, logp(1,1) = u+u 1 +u 2 +u 12. Důkaz. Použijeme zvolené označení (1.6) a upravíme je. logp(0,0) = u u 1 = log p(1,0) = logp(1,0) logp(0,0) = logp(1,0) u p(0,0) logp(1,0) = u+u 1 u 2 = log p(0,1) = logp(0,1) logp(0,0) = logp(0,1) u p(0,0) logp(0,1) = u+u 2 u 12 = log p(0,0)p(1,1) p(0,1)p(1,0) = logp(1,1) logp(0,1) logp(1,0)+logp(0,0) = logp(1,1) u u 2 u u 1 +u logp(1,1) = u+u 1 +u 2 +u 12 Příklad 1.3. Najdeme logaritmicko - lineární rozvoj pro dvousložkový náhodný vektor X = (X 1,X 2 ) s pravděpodobnostmi P(X = (1,1)) = 0,4; P(X = (1,0)) = 0,2; P(X = (0,1)) = 0,3; P(X = (0,0)) = 0,1. Spočítáme jednotlivé u - členy pomocí (1.6): u = log0,1 = 2,3; u 1 = log 0,2 0,1 = 0,69; u 2 = log 0,3 0,1 = 1,1; u 12 = log 0,1 0,4 0,3 0,2 = 0,41. Potom z (1.7) dostaneme logaritmicko - lineární rozvoj logp(x) = 2,3+0,69x 1 +1,1x 2 0,41x 1 x 2. Uvažujme nyní náhodný vektor X = (X 1,...,X k ), k N, kde má každá složka alternativní rozdělení. Potom náhodný vektor X má k - rozměrné Bernoulliho rozdělení. Uvedeme vztah pro p(x) a logaritmicko - lineární rozvoj pro tento vektor. p(x) = p(v) δ(v,x), v 10

15 součin probíhá přes všechny možné hodnoty v R k, kterých nabývá vektor X, { 1 pro v = x, δ(v,x) = 0 jinak. Zřejmě je δ(v,x) = 1 = r: x r=1 x r s: x s=0 (1 x s ). Proto lze psát logp(x) podobně jako ve vztahu (1.5) a následně pomocí u - členů ve tvaru logp(x) = u+ k u i x }{{} i + =0, i=1 když x i =0 + k i=1 i<j k i=1 k j=1 k j=1 i<j<l u ij x i x j }{{} =0, když r {i,j}: x r=0 k l=1 u ijl x i x j x l }{{} =0, když r {i,j,l}: x r=0 + +u 12...k x 1 x 2...x k }{{} =0, když r {1,2,...,k}: x r=0 (1.8) Poznámka 1.4. Počet u - členů v logaritmicko - lineárním rozvoji (1.8) je k i=0 ( ) k = 2 k. i 1.4 Obecný logaritmicko - lineární rozvoj Vyjdeme z logaritmicko - lineárního rozvoje pro Bernoulliho rozdělení (1.7). Necht vektor X = (X 1,X 2 ) nabývá hodnot (0,1,...,r 1 1) (0,1,...,r 2 1). Potom logaritmicko - lineární rozvoj pro tento vektor lze psát ve tvaru logp(x) = u(x)+u 1 (x)+u 2 (x)+u 12 (x), kde u - členy jsou funkcemi x = (x 1,x 2 ). Přesněji Dále platí: u(x) = u, u 1 (x) = u 1 (x 1 ), u 2 (x) = u 2 (x 2 ), u 12 (x) = u 12 (x 1,x 2 ). u 1 (x 1 ) = 0, když x 1 = 0, u 2 (x 2 ) = 0, když x 2 = 0, Nyní se věnujme obecnému případu. u 12 (x 1,x 2 ) = 0, když r {1,2} : x r = 0. Definice 1.4. Náhodný vektor X = (X 1,...,X k ) má rozdělení dané kontingenční tabulkou p(x), když X i nabývá hodnot 0,1,...,r i 1, i = 1,...,k, p(x) > 0 x {0,1,...,r 1 1} {0,1,...,r 2 1} {0,1,...,r k 1} a p(x) = P(X 1 = x 1,...,X k = x k ) = 1. x x 11

16 Hustota náhodného vektoru X vzhledem k čítací míře na Z k je p(x) = v p(v) δ(v,x), v R k, (1.9) kde δ(v,x) = { 1 pro v = x, 0 jinak. Poznámka 1.5. Hodnoty p(x) pro všechna možná x ve smyslu definice 1.4 vytvoří k - rozměrnou kontingenční tabulku (viz příklady 1.1, 1.2). Logaritmicko - lineární rozvoj lze v tomto případě psát ve tvaru uij (x)+ uijl (x)+ +u 12...k (x), logp(x) = u+ i u i (x)+ i<j i<j<l kde x R k. Jediný rozdíl oproti vztahu (1.8) je, že u - členy jsou nyní obecné funkce vektorového argumentu x. To vede k následující definici. Definice 1.5. Logaritmicko - lineárnírozvoj náhodnéhovektoru X = (X 1,...,X k ) s rozdělením z definice 1.4 definujeme jako logp(x) = α V u α (x α ), (1.10) kde sčítáme přes všechny možné podmnožiny α množiny V = {1,2,...,k} a kde platí: pokud i α: x i = 0 u α (x α ) = 0. Věta 1.8. Mějme náhodný vektor X = (X a,x b,x c ) s rozdělením z definice 1.4 a disjunktní množiny a, b, c splňují a b c = V. Pak X b X c X a právě tehdy, když všechny u α - členy v logaritmicko - lineárním rozvoji jsou pro množinu α takovou, že obsahuje jeden nebo více prvků množiny b a jeden nebo více prvků množiny c, rovny nule. Důkaz. Jedná se o ekvivalenci a tedy dokážeme obě implikace. Pro zjednodušení budeme psát u α (x α ) = u α. Necht X b X c X a. Podle věty 1.2 existují funkce g a h takové, že p(x a,x b,x c ) = g(x a,x b )h(x a,x c ). Tento vztah zlogaritmujeme a dostaneme logp(x a,x b,x c ) = G(x a,x b )+H(x a,x c ), kde G = logg a H = logh. Z definice 1.5 logp(x) = α V u α, tedy G(x a,x b )+H(x a,x c ) = α V u α. Pak ale součet u - členů je roven součtu dvou funkcí, které nejsou funkcemi x b a zároveň x c. Na pravé straně se tedy u α - členy pro α obsahující prvky z b a zároveň z c musí rovnat nule. 12

17 Necht u α - členy obsahující prvky z b a prvky z c jsou nulové. Neboli u α = 0 pokud α a b nebo α a c. Tedy logp(x) = u α + u α. α a b α a cu α α a Označme G = u α, α a b H = α a cu α α a u α. Pak máme logp(x a,x b,x c ) = G(x a,x b )+H(x a,x c ) a podle věty 1.2 dostáváme X b X c X a. 13

18 2 Grafické modely V této kapitole připomeneme základy teorie grafů a ukážeme, jak lze grafy použít pro vyjádření závislostní struktury v množině náhodných veličin. Aplikujeme teorii o logaritmicko - lineárním rozvoji a grafech k vytvoření grafického logaritmicko - lineárního modelu pro mnohorozměrné diskrétní rozdělení. 2.1 Základní pojmy z teorie grafů Definice 2.1. Graf je dvojice G = (V,E), kde V je libovolná množina vrcholů a E je libovolná množina dvojic z V, které nazýváme hrany. Grafy lze rozlišovat orientované a neorientované. Nadále uvažujme pouze neorientované. Množina E je neuspořádaná a hranu mezi vrcholy v i a v j značíme (v i,v j ), v grafu čarou. Pokud jsou dva vrcholy spojeny hranou, označujeme je za sousedy. Hranice vrcholu v i je pak množina všech vrcholů v j takových, že (v i,v j ) E. Značíme ji bd(v i ). Stupněm vrcholu v i v grafu G rozumíme počet hran vycházejících z vrcholu v i. Značíme jej d G (v i ). Definice 2.2. Posloupnost vrcholů P = (v 1,v 2,...,v n ) nazveme cestou, pokud existuje hrana mezi vrcholy (v i,v i+1 ) pro i = 1,2,...,n 1 a žádný z vrcholů se neopakuje. Je zřejmé, že se hrany také nemohou opakovat. Kružnice je speciální případ cesty, kdy v 1 = v n. Vrchol v i nazveme dostupný z vrcholu v j, pokud existuje cesta spojující tyto dva vrcholy. Pokud to platí pro jakékoliv dva vrcholy, pak je graf souvislý. Mějme a V, řekneme, že vrcholy v i a a v j a jsou separované množinou a právě tehdy, když všechny cesty z vrcholu v i do vrcholu v j obsahují alespoň jeden vrchol z množiny a. Definice 2.3. G = (V,E ) je podgraf grafu G = (V,E) pokud V V a E E. Definice 2.4. Graf G nazveme úplný, pokud jsou všechny vrcholy mezi sebou spojené hranami. Klika je maximální úplný podgraf grafu G, to jest takový, že po přidání libovolného vrcholu již není úplný. Na následujícím příkladu se pokusíme demonstrovat popsané pojmy. Příklad 2.1. Mějme graf G = (V,E), kde V = {1,2,3,4,5,6}, E = {(1,4),(1,5),(2,4),(4,5),(5,6)}. Tento graf není souvislý a zároveň není úplný. Z vrcholu 1 do vrcholu 6 existují dvě cesty: P 1 = (1,5,6), P 2 = (1,4,5,6). Podobně existuje více cest 14

19 Obrázek 2.1: Graf k příkladu 2.1. mezi dalšími vrcholy, například mezi 1 a 5. Pouze jedna cesta vede mezi vrcholy 2,4 a 5,6. Do vrcholu 3 nevede žádná cesta. Můžeme najít jednu kružnici C = (1,4,5,1). Hranice vrcholu 1 je bd(1) = {4,5}, hranice vrcholu 3 je prázdná množina. Podgraf G = (V,E ), kde V = {1,5,6} a E = {(1,5),(5,6)} je souvislý ale není úplný, naproti tomu podgraf G = (V,E ), kde V = {1,4,5} a E = {(1,4),(1,5),(4,5)} je souvislý a také úplný. Jedná se zřejmě o kliku. Stupně jednotlivých vrcholů jsou postupně: 2,1,0,3,3,1. Vrcholy 1 a 6 jsou separované množinou vrcholů {4,5}. Věta 2.1. Mějme náhodný vektor X = (X a,x b,x c ), pokud každý vrchol z množiny b je separovaný od vrcholů z množiny c množinou a, platí X b X c X a. Důkaz. Viz [2], str Grafy podmíněných nezávislostí MějmenáhodnývektorX = (X 1,X 2,...,X k )amnožinuvrcholův = {1,...,k}. Vgrafu,jehožvrcholyv i = i,i = 1,2,...,k reprezentujínáhodnéveličinyx 1,...,X k, můžeme vyjadřovat nezávislost a závislost náhodných veličin. Množinu vrcholů, která obsahuje všechny vrcholy kromě i a j budeme značit V\{i,j}. Definice 2.5. Graf G = (V,E) nazveme grafem podmíněných nezávislostí náhodného vektoru X, když hrana mezi vrcholy i a j není obsažena v množině E právě tehdy, když X i X j X V\{i,j}. Také se používá název markovský graf, díky jeho vlastnostem. Markovské vlastnosti jsou: 1. Párová markovská vlastnost Pro každé dva nespojené vrcholy i a j a množinu a = V\{i,j} platí X i X j X a. 2. Lokální markovská vlastnost Pro každý vrchol i z množiny V, a = bd(i) a b = V\({i} a) platí X i X b X a. 15

20 3. Globální markovská vlastnost Pro všechny disjunktní množiny a V, b V, c V, kde a separuje b a c platí X b X c X a. Tvrzení 2.2. Všechny tři markovské vlastnosti, párová, lokální a globální, jsou navzájem ekvivalentní. Důkaz. Dokážeme jednotlivé implikace. 3 2 Stačí si uvědomit, že hranice vrcholu i je vždy separující množinou mezi i a V\({i} a). Odtud plyne lokální markovská vlastnost. 2 1 Mějme graf s množinou vrcholů V = {1,2,...,k} splňující lokální markovskou vlastnost. Tedy pro každý vrchol i V s hranicí vrcholu a = bd(i) a množinou b = V\({i} a) platí X i X b X a. Vezměme libovolný vrchol j b a označme c = b\{j} = V\({i,j} a). Z toho plyne Aplikací věty 1.4 dostáváme X i (X j,x c ) X a. X i X j (X a,x c ) a X i X c (X a,x j ). Ale a c = V\{i,j}, a tedy X i X j X V\{i,j}. 1 3 Použitím věty 2.1 dostáváme přímo požadované. Příklad 2.2. Na následujícím grafu ilustrujeme markovské vlastnosti Obrázek 2.2: Graf k příkladu Z párové markovské vlastnosti platí například X 1 X 2 (X 3,X 4,X 5 ), X 4 X 5 (X 1,X 2,X 3 ). 16

21 2. Z lokální markovské vlastnosti dostáváme například X 5 (X 2,X 4 ) (X 1,X 3 ), X 2 (X 1,X 3,X 5 ) X Z globální markovské vlastnosti získáme například (X 2,X 4 ) (X 1,X 5 ) X 3, (X 1,X 3 ) X 2 X 4. Všech možných grafů v případě k - složkového náhodného vektoru je 2 (k 2), nebot máme dvě možnosti ukaždé hrany - jeobsažena v grafunebo není a celkový počet hran je počet dvouprvkových podmnožin množiny vrcholů V. Příklad 2.3. Ukážeme všechny možné grafy podmíněných nezávislostí v případě náhodného vektoru X = (X 1,X 2,X 3 ). Nezávislost Graf Nezávislost Graf X 1 X 2 X X 1 X 3 X 2 X 2 X 3 X X 1 X 2 X X 1 X 3 X X 2 X 3 X 1 3 X 2 X 3 X X 1 X 2 X X 1 X 3 X 2 3 X 1 X 3 X X 1 X 2 X 1 3 X 2 X 3 X žádná Tabulka 2.1: Tabulka k příkladu Grafický logaritmicko - lineární model Mějme náhodný vektor X = (X 1,...,X k ) s diskrétně rozdělenými složkami, které nabývají konečně mnoha hodnot. V druhé kapitole jsme definovali graf podmíněných nezávislostí pro náhodný vektor. Pokud X i X j X V\{i,j}, pak hrana (i,j) E. Dále víme, že pokud X i X j X V\{i,j}, u α - členy v logaritmicko - lineárním rozvoji jsou pro {i,j} α nulové podle věty 1.8. To nám dává návod, jak z daného grafu zrekonstruovat logaritmicko- lineární rozvoj pravděpodobnosti p(x) a naopak. Definice 2.6. Mějme graf podmíněných nezávislostí G = (V,E), V = {1,...,k} a náhodný vektor X = (X 1,...,X k ) s rozdělením z definice 1.4. Model logaritmicko - lineárního rozvoje (1.10) nazveme grafický model pro náhodný vektor X, pokud α V u α = 0, jestliže {i,j}: {i,j} α a hrana (i,j) E. 17

22 V následujících příkladech nebudeme pro jednoduchost zapisovat argumenty u - členů. Příklad 2.4. PrografG = (V,E),kdeV = {1,2,3,4}aE = {(1,2),(1,3),(1,4),(3,4)} napíšeme logaritmicko - lineární rozvoj Obrázek 2.3: Graf k příkladu 2.4. Můžeme vidět, že X 2 X 3 (X 1,X 4 ) a také X 2 X 4 (X 1,X 3 ). To koresponduje s tím, že hrany (2,3) a (2,4) neleží v množině hran V. Odpovídající grafický model má logaritmicko - lineární rozvoj logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 12 +u 13 +u 14 +u 34 +u 134. Příklad 2.5. Mějme logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 5 +u 6 +u 13 +u 15 +u 16 +u 24 +u 34 +u 35 +u 36 +u 56 +u 135 +u 136 +u 156 +u 356 +u Nakreslíme si graf podmíněných nezávislostí příslušného grafického modelu. Vzhledem k chybějícím u- členům v logaritmicko- lineárním rozvoji získáme obrázek Obrázek 2.4: Graf k příkladu 2.5. Definice 2.7. Logaritmicko - lineární rozvoj (1.10) je hierarchický model, když pro jeho u - členy platí u α = 0 u t = 0, t a. Příklad 2.6. Pro V = {1,2,3,4} a E = {(1,2),(1,3),(1,4),(3,4)} není logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 13 +u 14 +u 34 grafickýmodel,protoženapříkladu 134 = 0,alehrany(1,3),(1,4),(3,4)ležívmnožině hran a z definice 2.6 by mělo být u Model je zřejmě hierarchický. Graf je stejný jako obrázek

23 Obrázek 2.5: Graf k příkladu 2.7. Příklad 2.7. Model s logaritmicko - lineárním rozvojem logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 12 +u 13 +u 23 +u 123 je hierarchický, nebot u 14 = 0, u 24 = 0, u 34 = 0, u 124 = 0, u 234 = 0, u 134 = 0 a u 1234 = 0. Jedná se také o grafický model. Příklad 2.8. Model s rozvojem logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 12 +u 13 +u 123 +u 124 agrafemobrázek2.6neníhierarchický, protožeu 14 = 0,aleu Zdefinice2.6 se nejedná ani o grafický model Obrázek 2.6: Graf k příkladu 2.8. Příklad 2.9. Model s rozvojem logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 12 +u 13 +u 14 +u 23 +u 24 +u 34 je hierarchický, ale není grafický Obrázek 2.7: Graf k příkladu 2.9. Poznámka 2.1. Všechny grafické modely jsou zároveň hierarchické. Stačí si uvědomit, že pokud je v grafickém modelu u ij = 0, pak to znamená, že hrana (i,j) E a tudíž podle definice 2.6 pro všechny u α - členy: {i,j} α musí platit u α = 0. 19

24 Definice 2.8. Mějme logaritmicko - lineární rozvoj (1.10) pro náhodný vektor X. Člen u α nazveme maximální, je - li nenulový a pro každou indexovou množinu β α platí u β = 0. Věta 2.3. Hierarchický logaritmicko lineární model je grafický právě tehdy, když maximální u - členy v logaritmicko - lineárním rozvoji odpovídají klikám v grafu podmíněných nezávislostí. Důkaz. Uvažujme hierarchický model M s logaritmicko - lineárním rozvojem logp(x) = α V u α (x α ), dále pišme u α (x α ) = u α, je - li u α (x α ) 0. Necht G = (V,E) je příslušný graf podmíněných nezávislostí. Necht M je grafický model a u α je maximální u - člen. Z definice 2.6 plyne, že podgraf s vrcholy z množiny α neobsahuje chybějící hrany, tedy je úplný. Pro α = V je u α jediný maximální u - člen a tvrzení je dokázáno. Je - li α V, podle definice 2.8 máme u β = 0, β α. Tedy žádné množině β α nemůže odpovídat úplný graf, odtud plyne, že množině α odpovídá klika v G. Necht maximálním u - členům odpovídají kliky v G. Předpokládejme, že hrana (i,j) E. Kdyby u ij 0, existuje maximální u - člen u β takový, že β {i,j}. Pak by podle předpokladu množině β odpovídala klika v G, což je spor s (i,j) E. Tedy u ij = 0 a dle definice 2.7 též u α = 0, α {i,j}. Z toho dostáváme podle definice 2.6, že M je grafický model. Příklad Budeme demonstrovat definice 2.4, 2.6, 2.7, 2.8 a větu 2.3 na výše zmíněných příkladech. Příklad Maximální u - členy Kliky Hierar. model Graf. model 2.4 {u 12,u 134 } {1,2},{1,3,4} ANO ANO 2.5 {u 24,u 34,u 1356 } {2,4},{3,4} {1,3,5,6} ANO ANO 2.6 {u 2,u 13,u 14,u 34 } {1,2},{1,3,4} ANO NE 2.7 {u 4,u 123 } {1,2,3},{4} ANO ANO 2.8 {u 123,u 124 } {1,2},{1,3} NE NE 2.9 {u 12,u 13,u 14, u 23,u 24,u 34 } {1,2,3,4} ANO NE Tabulka 2.2: Tabulka k příkladu Z věty 2.3 dostáváme, že v případě hierarchického modelu nám stačí k nalezení logaritmicko - lineárního rozvoje (1.10) znát seznam maximálních u - členů. Je více způsobů, jak zmíněný seznam a jeho prvky značit. Budeme používat následující pravidla. 20

25 1. V případě jednoho maximálního u - členu, u ij...k, píšeme M = i.j...k 2. V případě většího počtu maximálních u - členů (u ij,u kl,...), píšeme M = i.j +k.l+... Demonstrujme to na následujících příkladech. logp(x) = u+u 1 +u 2 +u 3 +u 12 +u 13 +u 23 +u 123, potom M = 1.2.3, logp(x) = u+u 1 +u 2 +u 3 +u 4 +u 12 +u 13 +u 23 +u 24 +u 123, potom M = , logp(x) = u+u 1 +u 2, potom M = 1+2. Na množině hierarchických modelů lze zavést následující uspořádání. Mějme modely M 1 a M 2, řekneme M 1 M 2, pokud model M 1 obsahuje všechny maximální u - členy modelu M 2. Obrázek 2.8 udává všechny možné modely M pro náhodný vektor X = (X 1,X 2,X 3 ) Obrázek 2.8: Všechny možné modely M pro náhodný vektor X = (X 1,X 2,X 3 ). Grafické modely jsou tyto. M = M = M = M = M = M = M = M =

26 3 Věrohodnostní funkce a odhady parametrů V praxi často pravděpodobnostní rozdělení p(x) neznáme, ale máme k dispozici data. Naším cílem bude tuto pravděpodobnost odhadnout z pozorovaných hodnot náhodného vektoru X. 3.1 Věrohodnostní funkce Mějme náhodný vektor X = (X 1,...,X k ), který má rozdělení z definice 1.4 s hustotou (1.9). Vezměme N takovýchto náhodných vektorů, jež jsou vzájemně nezávislé. Posloupnost vektorů X 1,...,X N nazýváme náhodný výběr o rozsahu N. Hustotu náhodného výběru vzhledem k součinové čítací míře dostaneme jako součin hustot vektorů X l, l = 1,...,N. Pak maximálně věrohodným odhadem pro p(x) = p je bod p = p(x), ve kterém je hustota náhodného výběru maximální. Označme symbolem n(x) četnost hodnoty x ve výběru, tedy n(x) = N δ(x,x l ), l=1 kde δ(x,x l ) = { 1 pro X l = x, 0 jinak. Platí n(x) = N. Necht x = (x a,x b ), marginální četnost hodnoty x a označme x n a (x a ). Tedy n(x) = n ab (x a,x b ), n a (x a ) = x b n ab (x a,x b ). (3.1) Poznámka 3.1. Hodnoty n(x) pro všechna možná x vytvoří k - rozměrnou tabulku četností. Definice 3.1. Statistika S se nazývá postačující pro parametr p, jestliže podmíněné rozdělení vektoru X = (X 1,...,X k ) při daném S nezávisí na p. Věta 3.1. Mějme náhodný vektor X = (X 1,...,X k ) s hustotou f(x,p) vzhledem k σ - konečné míře µ. Pak statistika S je postačující pro p právě tehdy, existuje - li taková nezáporná měřitelná funkce g(s,s) a taková nezáporná měřitelná funkce h(x), že platí f(x,p) = g[s(x),p]h(x). 22

27 Důkaz. Najdeme v [1], str Věta 3.2. Vlastnosti logaritmické věrohodnostní funkce. 1. Mějme náhodný výběr X 1,...,X N z rozdělení z definice 1.4. Potom logaritmická věrohodnostní funkce tabulky pravděpodobností p(x) = p je l(p;x 1,...,X N ) = x n(x) log p(x). (3.2) 2. Tabulka pozorovaných četností, n(x) = n, je postačující statistikou pro tabulku pravděpodobností p(x) = p a tedy l(p;x 1,...,X N ) = l(p;n). 3. Logaritmická věrohodnostní funkce zapsaná pomocí u - členů je l(u;n) = n α (x α )u α (x α ). (3.3) α x α Důkaz. 1. Mějme náhodný výběr X 1,...,X N z rozdělení z definice 1.4. Hustota tohoto výběru je vzhledem k (1.9). p = p(x 1,...,X N ) = N p(v) δ(v,xl). l=1 v Tento vztah zlogaritmujeme a získáme logaritmickou věrohodnostní funkci logp(x 1,...,X N ) = l(p;x 1,...,X N ) = = x N δ(v,x l )logp(v) l=1 N δ(x,x l ) logp(x) = l=1 x }{{} n(x) 2. Mějme náhodný výběr X 1,...,X N z rozdělení z definice 1.4. v n(x) log p(x). (3.4) p(x 1,...,X N ) = N p(v) δ(v,xl) = v l=1 v N l=1p(v) δ(v,xl) = x p(x) N δ(x,x l ) l=1 = p(x) n(x). x Z věty 3.1 plyne, že tabulka četností, n(x), je postačující statistikou pro p(x). 23

28 3. Použijeme (3.4), tedy l(p;n) = x n(x) log p(x). Podle vztahu (1.10) máme dále l(p;n) = n(x) u α (x α ) = n(x) x α x α x V \α α }{{} = n α(x α) podle (3.1) u α (x α ) = α x α n(x α )u α (x α ). 3.2 Deviance Naším cílem je najít maximálně věrohodný odhad parametru p(x) = p, a to maximalizací logaritmicko věrohodnostní funkce (3.2). Empirickým odhadem parametru p(x) je p(x) = n(x) N. (3.5) Ukážeme, že jde také o maximálně věrohodný odhad. Chceme maximalizovat funkci l(p;n) = n(x) log p(x) x za podmínky x p(x) = 1. Použijeme tedy Lagrangeovu metodu. L(p(x),λ) = x n(x)logp(x)+λ(1 x p(x)), L(p(x),λ) p(x) L(p(x),λ) λ = n(x) λ pro jedno dané x, p(x) = 1 x p(x). Obě derivace položíme rovny nule. n(x) λ = 0, (3.6) p(x) 1 x p(x) = 0. (3.7) Z rovnice (3.6) dostaneme p(x) = n(x). Dosazením tohoto vyjádření do rovnice λ (3.7) odvodíme 0 =1 1 n(x), λ 24 x

29 λ =N. Maximálně věrohodný odhad je tedy p(x) = n(x) N. Poznámka 3.2. Odhad pro p(x) byl konstruován bez omezení ve formě chybějících hran v grafu podmíněných nezávislostí (nulových u - členů v logaritmicko - lineárnímrozvoji). Tedy p(x) = n(x) jeodhadvmodelusúplnýmgrafem,kterému N se též říká saturovaný model. Nyní budeme pracovat s obecným grafickým modelem parametrizovaným tabulkou pravděpodobností p M, jenž má logaritmicko lineární rozvoj v modelu M. Nejprve si nadefinujeme pojem deviance. Definice 3.2. Necht S je model s úplným grafem (saturovaný model) a M je obecný grafický model. Deviance modelu M je dev(m) = 2[l( p;n) l( p M ;n)], kde p a p M jsou maximálně věrohodné odhady v saturovaném modelu a v modelu M. Věta 3.3. Mějme náhodný výběr o rozsahu N z rozdělení z definice 1.4. Potom dev(m) = 2 x n(x) log n(x) N p M (x). (3.8) Důkaz. Použijeme definici 3.2, větu 3.2, vztah (3.5) a získáme dev(m) = 2[l( p;n) l( p M ;n)] = 2[l( n N ;n) l( pm ;n)] [ ] = 2 n(x)log n(x) N n(x)log p M (x) x x [ ( = 2 n(x) log n(x) ) ] N log pm (x) x [ ( ) ] n(x) = 2 n(x) log. N p M (x) x Jak je uvedeno v [2], str. 216, má za platnosti modelu M deviance asymptoticky chí - kvadrát rozdělení o df stupních volnosti, kde df je počet chybějících u - členů s nenulovými argumenty v logaritmicko - lineárním rozvoji modelu M. Tyto u - členy zřejmě obsahují v indexové množině chybějící hrany v grafu modelu M. Devianci je možné použít k testování hypotézy H 0 : data pocházejí z modelu M, proti alternativě H 1 : data pocházejí ze saturovaného modelu. 25

30 Testová statistika bude (3.8). Hypotézu H 0 budeme zamítat na hladině α, pokud dev(m) χ 2 df(1 α), kde χ 2 df (1 α) značí (1 α) - kvantil rozdělení χ2 df. Tento test je pouze asymptotický. K jeho provedení je potřeba mít náhodný výběr dostatečně velkého rozsahu. 3.3 Odhady v grafickém modelu Nyní budeme pracovat s obecným grafickým modelem M s grafem podmíněných nezávislostí G. Věta 3.4. Bud X = (X 1,...,X k ) náhodný vektor s rozdělením z definice 1.4 a strukturou podmíněných nezávislostí danou modelem M. Pak maximálně věrohodný odhad parametru p M a (x a) = p M a je p M a = n a N, (3.9) jestliže a je podmnožina množiny vrcholů tvořící kliku v grafu G. Důkaz. Viz [2], str Dále se zaměříme na speciální případy Podmíněná nezávislost Mějme grafický model M pro náhodný vektor X = (X a,x b,x c ), ve kterém platí X b X c X a.vzhledemkeglobálnímarkovskévlastnostiexistujívšechnyhranyspojujícívrcholyzmnožina,bavrcholyzmnožina,c.pakpříslušnýgrafschematicky lze zakreslit takto: b a c Celý graf obsahuje dvě kliky, a b, a a c. V rámci jednotlivých boxů existují hrany mezi všemi vrcholy v boxu. Použitím vztahu (3.9) dostáváme odhad pravděpodobností v jednotlivých klikách p M ab = n ab N, pm ac = n ac N. Odhady marginálních pravděpodobností jsou podle (3.1) p M a = n a N. Využitím informace o podmíněné nezávislosti a tvrzení 1.6 dostáváme p M abc = p ab p ac p a = n abn ac n a N. (3.10) 26

31 Věta 3.5. Mějme náhodný vektor X = (X a,x b,x c ), kde a,b,c jsou množiny splňující a b c = V = {1,2,...,k}. Necht X b X c X a. Pak dev(x b X c X a ) = 2 x n abc (x)log n abc(x)n a (x) n ab (x)n ac (x). Důkaz. Necht X b X c X a, kde a b c = V. Potom n(x) = n abc (x) a p M = p M abc. Dále stačí použít větu 3.3 a dosadit odhad (3.10). Označme počet hodnot, kterých mohounáhodnévektory X a,x b,x c nabývat, r a,r b, r c. Jak je uvedeno v [2] na straně 223, dev(x b X c X a ) má asymptoticky rozdělení χ 2 r a(r b 1)(r c 1). Poznámka 3.3. Pokud by náhodný vektor X měl k - rozměrné Bernoulliho rozdělení a mohutnosti množin a,b,c byly p,q,r, z věty 3.5 dostáváme dev(x b X c X a ) má asymptoticky rozdělení χ 2 2 p (2 q 1)(2 r 1). Větu 3.5 lze použít k testování podmíněné nezávislosti proti alternativě saturovaného modelu. Její důsledky shrneme do následujících tvrzení. Tvrzení 3.6. Mějme náhodný vektor X = (X b,x c ), kde b c = V. Necht X b X c. Pak dev(x b X c ) = 2 n bc (x)log n bc(x)n n x b (x)n c (x). Označme si počet hodnot, kterých mohou náhodné vektory X b,x c nabývat, r b,r c. Potom má dev(x b X c ) asymptoticky rozdělení χ 2 (r b 1)(r. c 1) Důkaz. Stačí položit a =, n = N. Potom r a = 1. Dosazením do (3.10) dostáváme odhad p M bc = n bn c N 2 a z věty 3.5 získáme dev(x b X c ) = 2 x n bc (x)log n bc(x)n n b (x)n c (x). Zřejmě počet stupňů volnosti je (r b 1)(r c 1). Je možné tedy testovat jak podmíněnou nezávislost, tak nezávislost. PokudmámepronáhodnývektorX = (X 1,...,X k )grafpodmíněnýchnezávislostí s jednou chybějící hranou(i,j), potom z definice 2.5 víme, že náhodné veličiny X i, X j jsou podmíněně nezávislé při pevných hodnotách ostatních složek vektoru X. Tvrzení 3.7. Mějme náhodný vektor X = (X 1,...,X k ). Necht X i X j X V\{i,j}. Pak dev(x i X j X V\{i,j} ) = 2 n V (x)log n V(x)n V\{i,j} (x) n x V\{i} (x)n V\{j} (x). Deviance pak má asymptoticky χ 2 rozdělení s r V\{i,j} (r i 1)(r j 1) stupni volnosti, kde r i je počet možných hodnot, jež nabývá veličina X i a r V\{i,j} je počet hodnot, kterých nabývá vektor X s odebranou i - tou a j - tou složkou. 27

32 Důkaz. Zvolme b = {i}, c = {j} a a = V\{i,j}. Z věty 3.5 získáme dev(x i X j X V\{i,j} ) = 2 x n V (x)log n V(x)n V\{i,j} (x) n V\{i} (x)n V\{j} (x). Zřejmě počet stupňů volnosti je r V\{i,j} (r i 1)(r j 1) Trojrozměrné Bernoulliho rozdělení Mějme nyní náhodný vektor X = (X 1,X 2,X 3 ) s trojrozměrným Bernoulliho rozdělením. Použitím (1.8) dostaneme jeho logaritmicko - lineární rozvoj v saturovaném modelu logp(x) = u+u 1 x 1 +u 2 x 2 +u 3 x 3 +u 12 x 1 x 2 +u 13 x 1 x 3 +u 23 x 2 x 3 +u 123 x 1 x 2 x 3. (3.11) Tvrzení 3.8. U - členy logaritmicko - lineárního rozvoje (3.11) lze spočítat z následujících lineárních rovnic. logp(000) = u logp(110) = u+u 1 +u 2 +u 12 logp(100) = u+u 1 logp(101) = u+u 1 +u 3 +u 13 logp(010) = u+u 2 logp(011) = u+u 2 +u 3 +u 23 logp(001) = u+u 3 logp(111) = u+u 1 +u 2 +u 3 +u 12 +u 13 +u 23 +u 123 Důkaz. Jde o analogii důkazu tvrzení 1.7. Vyjádříme si vztah pro p(x), ten zlogaritmujeme a upravíme. Použijeme podobné označení jako (1.6) a po úpravě dostaneme požadované. Mějme náhodný výběr o rozsahu N tvořený náhodnými vektory X 1,...,X N, jež nabývají hodnot x = (x 1,x 2,x 3 ). Budeme používat následující značení četností n(111) = počet vektorů, které nabyly hodnoty x = (1,1,1) a podobně, n(11.) = počet vektorů, které nabyly hodnoty x 1 = 1, x 2 = 1, n(1.1) = počet vektorů, které nabyly hodnoty x 1 = 1, x 3 = 1 a podobně, n(1..) = počet vektorů, které nabyly hodnoty x 1 = 1 a podobně. Analogicky budeme značit pravděpodobnosti. V příkladu 2.3 jsme ukázali všechny možné grafy podmíněných nezávislostí. Rozdělme tyto grafy do čtyř skupin, podle počtu chybějících hran. Pro každou skupinu pak ukážeme její logaritmicko - lineární rozvoj (1.10), logaritmickou věrohodnostní funkci (3.3), odhady parametrů a počet stupňů volnosti pro devianci. Budeme uvažovat pouze grafické modely. Odvodíme odhady sdružených pravděpodobnostní p(x). Odhady marginálních, případně podmíněných pravděpodobností by se dopočítaly podle (1.3) a (1.4). 28

33 1. Model M = V grafu podmíněných nezávislostí není žádná hrana. Potom jsou všechny složky náhodného vektoru mezi sebou nezávislé. Z definice 2.6 plyne, že v logaritmicko - lineárním rozvoji jsou u 12 = u 13 = u 23 = u 123 = 0 díky chybějícím hranám. Logaritmicko - lineární rozvoj je tedy logp(x) = u+u 1 (x 1 )+u 2 (x 2 )+u 3 (x 3 ). V našem případě jde zjednodušit do tvaru logp(x) = u+u 1 x 1 +u 2 x 2 +u 3 x 3. Logaritmická věrohodnostní funkce v tomto modelu je podle věty 3.2, bod 3 a vzhledem k tomu, že u i x i = 0 pro x i = 0 l(u;n) = Nu+n(1..)u 1 +n(.1.)u 2 +n(..1)u 3. Použitím vztahu (3.9) na jednotlivé vrcholy tvořící kliky dostaneme odhady pravděpodobností Z nezávislosti platí p(x 1..) = n(x 1..) N, p(.x 2.) = n(.x 2.) N, p(..x 3 ) = n(..x 3) N. p(x 1 x 2 x 3 ) = p(x 1..) p(.x 2.) p(..x 3 ) = n(x 1..)n(.x 2.)n(..x 3 ) N 3, pro x 1 = 0,1, x 2 = 0,1, x 3 = 0,1. Počet stupňů volnosti je 4, nebot u 12 = u 13 = u 23 = u 123 = Model M = V grafu podmíněných nezávislostí je pouze jedna hrana, necht je mezi vrcholy 2 a 3. Potom z definice 2.6 musí být u 12 = u 13 = u 123 = 0 v logaritmicko - lineárním rozvoji. Platí X 1 X 2 X 3 a X 1 X 3 X 2. Odtud X 1 (X 2,X 3 ) podle důsledku věty 1.4. Logaritmicko - lineární rozvoj tedy je logp(x) = u+u 1 (x 1 )+u 2 (x 2 )+u 3 (x 3 )+u 23 (x 2,x 3 ). Po zjednodušení pro vektor X logp(x) = u+u 1 x 1 +u 2 x 2 +u 3 x 3 +u 23 x 2 x 3. Logaritmická věrohodnostní funkce v tomto modelu je l(u;n) = Nu+n(1..)u 1 +n(.1.)u 2 +n(..1)u 3 +n(.11)u 23. Použitím vztahu (3.9) na vrchol 1 a na hranu mezi vrcholy 2, 3 tvořící kliky dostaneme odhady p(x 1..) = n(x 1..) N, 29

34 p(.x 2 x 3 ) = n(.x 2x 3 ) N. Z nezávislosti musí platit p(x 1 x 2 x 3 ) = p(x 1..) p(.x 2 x 3 ), neboli p(x 1 x 2 x 3 ) = n(x 1..)n(.x 2 x 3 ) N 2, pro x 1 = 0,1, x 2 = 0,1, x 3 = 0,1. Počet stupňů volnosti je 3, nebot u 12 = u 13 = u 123 = 0. V případě hrany mezi jinými vrcholy postupujeme analogicky. 3. Model M = V grafu jsou dvě hrany, konkrétně (1,2) a (1,3), platí X 2 X 3 X 1. Jde o případ, kterým jsme se zabývali v podkapitole pro a = {1}, b = {2}, c = {3}. Logaritmicko - lineární rozvoj vypadá následovně logp(x) = u+u 1 (x 1 )+u 2 (x 2 )+u 3 (x 3 )+u 12 (x 1,x 2 )+u 13 (x 1,x 3 ). Pro Bernoulliho rozdělení logp(x) = u+u 1 x 1 +u 2 x 2 +u 3 x 3 +u 12 x 1 x 2 +u 13 x 1 x 3. Logaritmická věrohodnostní funkce v tomto modelu je l(u;n) = Nu+n(1..)u 1 +n(.1.)u 2 +n(..1)u 3 +n(11.)u 12 +n(1.1)u 13. Pro odhad použijeme vztah (3.10), tedy p(x 1 x 2 x 3 ) = n(x 1x 2.)n(x 1.x 3 ). n(x 1..)N Počet stupňů volnosti je 2, nebot u 23 = u 123 = 0. V případě hran mezi jinými vrcholy bychom postupovali podobně. 4. Model M = Poslední možností je úplný graf, nechybí v něm žádná hrana. Obecný logaritmicko - lineární rozvoj je logp(x) = u+u 1 (x 1 )+u 2 (x 2 )+u 3 (x 3 )+u 12 (x 1,x 2 )+u 13 (x 1,x 3 )+u 23 (x 2,x 3 ) +u 123 (x 1,x 2,x 3 ). Pro Bernoulliho rozdělení získáme tvar (3.11). Logaritmická věrohodnostní funkce tohoto modelu je l(u;n) = Nu+n(1..)u 1 +n(.1.)u 2 +n(..1)u 3 +n(11.)u 12 +n(1.1)u 13 +n(.11)u 23 +n(111)u 123. K získání odhadů budeme tuto funkci maximalizovat za podmínky p(x) = 1. x 30

35 Použijeme Lagrangeovu metodu. Lagrangeova funkce je ( l(u;n)+λ 1 ) p(x), x což lze pomocí tvrzení 3.8 přepsat do tvaru L(u,u 1,u 2,u 3,u 12,u 13,u 23,u 123,λ) = Nu+n(1..)u 1 +n(.1.)u 2 +n(..1)u 3 +n(11.)u 12 +n(1.1)u 13 +n(.11)u 23 +n(111)u 123 +λ(e u +e u+u 1 +e u+u 2 +e u+u 3 +e u+u 1+u 2 +u 12 +e u+u 1+u 3 +u 13 +e u+u 2+u 3 +u 23 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u 123 1). Tuto funkci zderivujeme podle jednotlivých proměnných. Pro kratší zápis nebudeme uvádět argumenty Lagrangeovy funkce. L λ = eu +e u+u 1 +e u+u 2 +e u+u 3 +e u+u 1+u 2 +u 12 +e u+u 1+u 3 +u 13 +e u+u 2+u 3 +u 23 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u L u = N +λ(eu +e u+u 1 +e u+u 2 +e u+u 3 +e u+u 1+u 2 +u 12 +e u+u 1+u 3 +u 13 +e u+u 2+u 3 +u 23 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u 123 ) L = n(1..)+λ(e u+u 1 +e u+u 1+u 2 +u 12 +e u+u 1+u 3 +u 13 u 1 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u 123 ) L = n(.1.)+λ(e u+u 2 +e u+u 1+u 2 +u 12 +e u+u 2+u 3 +u 23 u 2 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u 123 ) L = n(..1)+λ(e u+u 3 +e u+u 1+u 3 +u 13 +e u+u 2+u 3 +u 23 u 3 +e u+u 1+u 2 +u 3 +u 12 +u 13 +u 23 +u 123 ) L = n(11.)+λ(e u+u 1+u 2 +u 12 +e u+u 1+u 2 +u 3 +u 12+u 13+u 23+u 123 ) u 12 L = n(1.1)+λ(e u+u 1+u 3 +u 13 +e u+u 1+u 2 +u 3 +u 12+u 13+u 23+u 123 ) u 13 L = n(.11)+λ(e u+u 2+u 3 +u 23 +e u+u 1+u 2 +u 3 +u 12+u 13+u 23+u 123 ) u 23 L = n(111)+λe u+u 1+u 2 +u 3 +u 12+u 13+u 23+u 123 u 123 Jednotlivé derivace upravíme pomocí tvrzení 3.8 a položíme rovno nule. 0 = x p(x) 1 0 = N +λ x p(x) 0 = n(1..)+λ[p(100)+p(110)+p(101)+p(111)] 0 = n(.1.)+λ[p(010)+p(110)+p(011)+p(111)] 31

36 0 = n(..1)+λ[p(001)+p(101)+p(011)+p(111)] 0 = n(11.)+λ[p(110)+p(111)] 0 = n(1.1)+λ[p(101)+p(111)] 0 = n(.11)+λ[p(011)+p(111)] 0 = n(111)+λp(111) Z druhé rovnice získáme λ = N, z poslední odhad p(111). Dosadíme do ostatních a vyjádříme postupně jednotlivé odhady sdružených pravděpodobností. p(111) = n(111) N p(011) = n(.11) n(111) N p(101) = n(1.1) n(111) N p(110) = n(11.) n(111) N p(001) = n(..1) n(1.1) n(.11)+n(111) N p(010) = n(.1.) n(11.) n(.11)+n(111) N p(100) = n(1..) n(11.) n(1.1)+n(111) N p(000) = 1 n(111)+n(1..)+n(.1.)+n(..1) n(11.) n(1.1) +n(.11) N Poslední odhad jsme získali ze vztahu p(000) = 1 p(x). Počet stupňů volnosti je 0. x (000) K napočítání deviance pro jednotlivé modely by se využila věta

37 4 Aplikace na reálná data Vtétočástiprácepoužijemedatabázi[4].Jsouvníúdajeotisíci klientech jisté německé banky. U každého klienta jsou zaznamenány různé kategoriální znaky. Naším cílem bude vyšetřit závislostní strukturu ve vybraných podmnožinách sledovaných znaků. Zejména nás zajímá, jak ostatní znaky ovlivňují chování klientů při splácení úvěru. 4.1 Model se třemi proměnnými Nejprve v návaznosti na kapitolu vybereme tři binární proměnné- kredit, věk a stabilitu zaměstnání. Databázi upravíme tak, aby odpovídala následujícímu kódování. 1. Kredit bude zastupovat náhodná veličina X 1, { 1, pokud jedinec řádně splatil úvěr, X 1 = 0, pokud jedinec nesplatil úvěr podle dohodnutých podmínek. 2. Věk bude zastupovat náhodná veličina X 2, { 1, pokud je věk klienta vyšší než 25 let, X 2 = 0, pokud je klient mladší nebo je mu 25 let. 3. Stabilitu zaměstnaní bude zastupovat náhodná veličina X 3, 1, pokud klient pracuje více než jeden rok u stejného zaměstnavatele, X 3 = 0, je - li nezaměstnaný nebo pracuje méně než jeden rok u stejného zaměstnavatele. Vektor X = (X 1,X 2,X 3 ) má trojrozměrné Bernoulliho rozdělení. Pro tento případ jsme si v minulé kapitole podrobně popsali, jak mohou vypadat grafy podmíněných nezávislostí. Ukázali jsme také, jak spočítat odhady pravděpodobností, počet stupňů volnosti a devianci. Použitím programu Mathematica zjistíme odhady pravděpodobností, hodnotu deviance, hodnotu příslušného kvantilu a otestujeme shodu grafů podmíněných nezávislostí s daty. Pro představu uvedeme jednotlivé četnosti n(x). n(111) = 556 n(011) = 201 n(101) = 105 n(110) = 34 n(001) = 76 n(010) = 19 n(100) = 5 n(000) = 4 33

Zobrazit více