Západočeská Univerzita v Plzni Fakulta Aplikovaných Věd Katedra Matematiky

Podobné dokumenty
BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

PRAVDĚPODOBNOST A STATISTIKA

15. T e s t o v á n í h y p o t é z

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

15. T e s t o v á n í h y p o t é z

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

3 Bodové odhady a jejich vlastnosti

Přijímací zkouška na navazující magisterské studium 2014

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Regresní analýza 1. Regresní analýza

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

5. T e s t o v á n í h y p o t é z

y = 0, ,19716x.

PRAVDĚPODOBNOST A STATISTIKA

Odhad parametrů N(µ, σ 2 )

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Apriorní rozdělení. Jan Kracík.

INTEGRÁLY S PARAMETREM

8 Střední hodnota a rozptyl

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Základy počtu pravděpodobnosti a metod matematické statistiky

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

Testování statistických hypotéz

KGG/STG Statistika pro geografy

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Stavový model a Kalmanův filtr

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Odhad parametrů N(µ, σ 2 )

MATEMATICKÁ STATISTIKA

Pravděpodobnost a statistika

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

I. D i s k r é t n í r o z d ě l e n í

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

Výběrové charakteristiky a jejich rozdělení

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

p(x) = P (X = x), x R,

Odhady Parametrů Lineární Regrese

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

8. Normální rozdělení

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

2 ) 4, Φ 1 (1 0,005)

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Základy teorie odhadu parametrů bodový odhad

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Odhady - Sdružené rozdělení pravděpodobnosti

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

oddělení Inteligentní Datové Analýzy (IDA)

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Teorie náhodných matic aneb tak trochu jiná statistika

Definice spojité náhodné veličiny zjednodušená verze

Vlastnosti odhadů ukazatelů způsobilosti

Téma 22. Ondřej Nývlt

5 Parametrické testy hypotéz

Testy. Pavel Provinský. 19. listopadu 2013

Technická univerzita v Liberci

6. T e s t o v á n í h y p o t é z

2 Hlavní charakteristiky v analýze přežití

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

2D transformací. červen Odvození transformačního klíče vybraných 2D transformací Metody vyrovnání... 2

Pravděpodobnost a matematická statistika

12. cvičení z PST. 20. prosince 2017

5. B o d o v é o d h a d y p a r a m e t r ů

4. Aplikace matematiky v ekonomii

AVDAT Nelineární regresní model

ODHADY NÁVRATOVÝCH HODNOT

TLOUŠŤKOVÁ A VÝŠKOVÁ STRUKTURA A JEJÍ MODELOVÁNÍ

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

Pravděpodobnost a aplikovaná statistika

Charakteristika datového souboru

= = 2368

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Aproximace binomického rozdělení normálním

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

Intervalová data a výpočet některých statistik

BAYESOVSKÉ ODHADY V NĚKTERÝCH MODELECH

7 Regresní modely v analýze přežití

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování statistických hypotéz

Transkript:

Západočeská Univerzita v Plzni Fakulta Aplikovaných Věd Katedra Matematiky Bakalářská Práce Odhady parametru zobecněného exponenciálního rozdělení pomocí Bayesovského přístupu Plzeň 27 Lukáš Šašek

Prohlášení Prohlašuji, že jsem bakalářskou práci vypracoval samostatně a výhradně s použitím citovaných pramenů. Tato práce je upravenou verzí bakalářské práce Bayesovské odhady parametru zobecněného exponenciálního rozdělení, kterou jsem vypracoval v roce 25 avšak nebyla obhájena. V Plzni dne...... Lukáš Šašek I

Poděkování Tímto bych chtěl poděkovat vedoucímu bakalářské práce panu Mgr. Michalu Frieslovi, Ph.D. za odborné vedení této práce, cenné rady a nápady, a čas věnovaný této práci. II

Abstrakt Cílem této práce je seznámit se s bayesovským přístupem a aplikovat ho na odhad parametru zobecněného exponenciálního rozdělení nebo na jeho parametrické funkce. Dále pro zvolená apriorní rozdělení popsat odvození odhadů. Pomocí simulace se vyšetří vlastnosti odhadů. Klíčová slova: Bayesovské odhady, zobecněné exponenciální rozdělení,spolehlivostní funkce, ztrátová funkce, Kolmogorov-Smirnov test dobré shody, simulace III

Abstrakt This work explores Bayes estimation of the unknown parameter or parametrical function for the generalized exponencial disribution. For chosen conjugate prior describe descripiton of derived estimations. Examine properties of the derived estimations by simulation study. Keywords: Bayes estimate, generalized exponencial disribution, Kolmogorov-Smirnov goodness of fit test, Loss function, reliability function, simulation IV

Obsah Úvod 2 Zobecněné exponenciální rozdělení 2 3 Bayesovský přístup 4 3. ní funkce............................ 6 3.2 Ztrátová funkce............................... 7 3.3 Odhady................................... 7 3.3. Odhad parametru θ......................... 7 3.3.2 Odhad spolehlivostní funkce.................... 3.3.3 Odhad kvantil GE......................... 3 3.4 Testování shodnosti odhadu........................ 4 4 Simulace 5 4. Popis programu............................... 5 4.2 Zhodnocení výsledků............................ 6 5 Závěr 8 6 Přílohy 9 V

Úvod Předkládaná bakalářská práce popisuje zobecněné exponenciální rozdělení a následně odhady jeho parametrů s užitím bayesovského přístupu. Příloha této práce obsahuje simulaci této problematiky. Tato bakalářská práce je rozdělena na dvě části.v první části je rozebráno zobecněné exponenciální rozdělení a pro zvolená apriorní rozdělení odvození bayesovských odhadů. Druhá část se zabývá simulací problému v programu MATLAB. Na základě simulace jsou vyšetřeny vlastnosti jednotlivých odhadů. Teoretická část začíná popisem zobecněného exponenciálního rozdělení, jeho hustotou, distribuční funkci a jeho využitím. Poté rovnou přistupuje k bayesovskému přístupu, kde je vysvětleno apriorní a aposteriorní rozdělení a vztah mezi nimi. Dále vysvětluje spolehlivostní funkci a čtyři ztrátové funkce. Posledním bodem teoretické části je výpočet odhadů parametrů zobecněného exponenciálního rozdělení θ a R(t) při různých ztrátových funkcích a kvantily daného rozdělení. Simulace, které je věnována druhá část práce, obsahuje tabulky vybraných simulací, které jsou následně vyhodnoceny. Dále jsou z nich odvozeny vlastnosti jednotlivých odhadů.

2 Zobecněné exponenciální rozdělení V této kapitole se budeme zabývat zobecněným exponenciálním rozdělením(ge). Rozdělení bylo poprvé použito autory Gupta a Kundu (999) [7]. GE se hlavně využívá v analýze opotřebení produktu. Pro analýzu takovýchto dat se také velice často užívá Gama a Weibullovo rozdělení viz[]. Nechť X,X 2,...,X n jsou i.i.d(náhodné proměnné z nezávislého stejnoměrného rozdělení), pak distribuční funkce zobecněného exponenciálního rozdělení s parametrem θ >, x >, λ = a středním hodnotou rovnou nule je dána následovně: F (x; θ) = ( e x ) θ, () hustota daného rozdělení je za daných podmínek následující: f(x; θ) = θe x ( e x ) θ. (2) Pro větší názornost jsou na obr. a obr.2 zobrazeny grafy hustoty zobecněného exponenciálního rozdělení i jeho distribuční funkce. Jako první je hustota daného rozdělení. V této práci se počítá s tím, že λ = a proto grafy jsou jen pro danou hodnotu λ. 2

Obr. : Hustota zobecněného exponenciálního rozdělení. Na obrázku 2 je vidět distribuční funkce zobecněného exponenciálního rozdělení. Obr. 2: Distribuční funkce zobecněného exponenciálního rozdělení 3

Zobecněné exponenciální rozdělení má následující momentovou vytvořující funkci: M(t) = E(e tx ) = θ Použitím substituce y = e x získáme ( e xt ) θ e (t )x dx M(t) = θ ( y) α y t dy = Γ(θ + )Γ( t) Γ(θ + t) Pro podrobnější popis viz []. Pokud zderivujeme zlogaritmovanou M(t) a stanovíme t =, získáme střední hodnotu a rozptyl zobecněného exponenciálního rozdělení E(X) = Ψ(θ + ) Ψ() a V ar(x) = Ψ () Ψ (θ ), kde Ψ je digama funkce a Ψ je derivací digama funkce. Zobecněné exponenciální rozdělení je transformací exponenciálního rozdělení. Transformace distribuční funkce je popsána následovně: F (x) = G(x) θ, θ >, kde F(x) je distribuční funkce zobecněného exponenciálního rozdělení a G(x) je exponenciálního rozdělení. Pro hustotu pak platí následující: f(x) = θg(x) θ g(x), kde g(x) = dg(x), g(x) je tedy o hustota exponenciálního rozdělení. dx 3 Bayesovský přístup Bayesovské metody představují jeden ze základních přístupů teoreticko-pravděpodobnostních myšlení i matematicko statistických vyhodnocovacích metod. [3, p. 5] Metody jsou založené na předpokladu, že hodnotu neznámého parametru můžeme vyjádřit pomocí pravděpodobnostního rozdělení viz [3]. Apriorní informaci vyjadřuje hustota daného parametru která je značena π(θ). Tato informace je známa už před testováním a je vytvářena na základě zkušenosti nebo subjektivně, což často vede k diskuzím o správnosti. Je zřejmé, že daná apriorní informace je závislá na pozorovaných X, ale nezávisle získaná, jelikož před pokusem byla zadána. 4

Oproti normálnímu přístupu chápeme f(x; θ) jako podmíněnou pravděpodobnost a je značena jako f(x θ) viz [5]. Pokud nám jde o konkrétní hodnoty odhadu parametru a nepotřebujeme odhady studovat teoreticky, můžeme zvolit apriorní hustotu, která věrně odráží apriorní informace a poté využít simulaci k hledání odhadu pro daná data. Pro zobecněné exponenciální rozdělení s parametrem θ budeme uvažovat stejné apriorní rozdělení jako je uvedeno v článku []. Jedná se tedy o gama rozdělení tj. θ gama(α, β) π(θ) = βα Γ(α) θα e βθ, θ >, (3) kde α >, β >. V případech, kdy α = a β =, apriorní rozdělení přejde v Jeffreysovo apriorní rozdělení viz [], které je dáno následovně: π(θ), θ >. (4) θ K vytvoření odhadů potřebujeme aposteriorní rozdělení parametru θ. Vztah se vyjadřuje pomocí Bayesovy věty. Má-li vektor (X, Y ) sdruženou hustotu f(x, y), pak podmíněná hustota složky Y za podmínky, že X = x, je f(y x) = f(x y)f(y), f(x) kde f(x y) značí podmíněnou hustotu X při daných hodnotách složky Y, f(x) a f(y) jsou marginální hustoty složek [5]. Odtud π(θ x) = f(x θ)π(θ) f(x) f(x θ) π(θ), pro vypočítání aposteriorního rozdělení GE musíme nejprve spočítat V (X, θ). Předpokládejme, že X(x, x 2,, x n ) je napozorovaná životnost n prvků. Pokud se všechny prvky porouchají test skončí. Funkce maximální věrohodnosti je pro zobecněné exponenciální rozdělení je následující: V (X, θ) = n θe x i ( e x i ) θ = i= n ( e = θ n x i ) e x i i= 5 e θ n ln( e x i) i=.

Pro zpřehlednění vytvoříme pomocný parametr s(x) s(x) = n ln( e x i ). i= Po upravení má spolehlivostní funkce následující tvar V (X, θ) = θ n n i= ( e x i e x i Nyní můžeme spočítat aposteriorní rozdělení pro GE. ) e θs(x). (5) = π(θ x) = V (X, θ)) Γ(α, β) = (s(x) + β)α+n θ α +n e (β+s(x))θ, θ >. Γ(α + n) Jedná se tedy o Γ(n + α, β + s(x)). Pokud se jedná o Jeffresovo apriorní rozdělení je aposteriorní rozdělení Γ(n, s(x)). Ze vzorce (5) neboli funkce maximální věrohodnosti vytvoříme odhad, se kterým budeme poměřovat Bayesovské odhady. Odhad má následující tvar ˆθ MLE = n s(x). 3. ní funkce ní funkce udává pravděpodobnost, že bude operace určitou dobu t fungovat bez poruchy. Jedná se tedy o funkci času. Někdy se spolehlivostní funkci říká bezporuchovost. Jedná se o doplněk distribuční funkce. ní funkce se značí R(t),kde t je určitá doba. R(t) = F (t). Pro zobecněné exponenciální rozdělení je potom následující: R(t, θ) = ( e t ) θ. Odhad spolehlivostní funkce metodou maximální věrohodnostní funkce je R(t) MLE = ( e t ) θ MLE. 6

3.2 Ztrátová funkce Ztrátová funkce číselně určuje ztrátu (chybu) při odhadu ˆθ. Dále bude ztrátová funkce označována L(ˆθ, θ). V této práci využijeme čtyři ztrátové funkce. Měříme-li ztrátovou funkci jako rozdíl čtverců parametru θ jedná se o čtvercovou ztrátovou chybu L (ˆθ, θ) = (ˆθ θ) 2, (6) kde ˆθ je odhad a θ je přesná hodnota. Pro absolutní ztrátovou funkci je vzorec následující: L 2 (ˆθ, θ) = ˆθ θ. (7) Další možnou ztrátovou funkcí je logaritmická chyba. L 3 (ˆθ, θ) = Poslední je ztrátová chyba založená na entropii. ( ) ( ) ˆθ ˆθ L 4 (ˆθ, θ) = ln θ θ ( ln ˆθ ) 2 = (ln(ˆθ θ)) 2. (8) θ. (9) 3.3 Odhady V této části budeme odhadovat parametry při ztrátových funkcích, které jsou definovány v druhé kapitole této práce. Nejprve odhadneme samotný parametr θ, poté každému odhadu vytvoříme odhad spolehlivostní funkce při dané ztrátové funkci a nakonec kvantil zobecněného exponenciálního rozdělení. 3.3. Odhad parametru θ Pro různé ztrátové funkce se odhad počítá různým způsobem. 7

První odhad parametru θ je za pomoci ztrátové čtvercové funkce (6). ˆθ je střední hodnota aposteriorního rozdělení π(θ X), které je zde Γ(n + α, β + s((x)). ˆθ = E(θ (X) = E(Γ(n + α, β + s(x))) = = θ (β + s(x))n+α θ n+α e (β+s(x))θ dθ Γ(n + α) Nyní použijeme substituci y = (β + s(x))θ, to znamená dy = (β + s(x))dθ. ( ) y (β + s(x) ˆθ α+n α+n y = β + s(x) Γ(n + α) β + s(x) β + s(x) dy = = y α+n e y dy = Γ(α + n + ) Γ(α + n) (β + s(x)) Γ(α + n) (β + s(x)) Nyní využijeme vztahu gama funkce Γ(x + ) = xγ(x). ˆθ = (α + n)γ(α + n) = n Γ(α + n) (β + s(x)) + α β + s(x). Pokud bychom odhad dělali s Jeffreysovým aposteriorní rozdělením (4) je jeho odhad stejný jako odhad maximální věrohodnosti (MLE). Druhý odhad je za pomoci absolutní ztrátové funkce (7). Jedná se o medián aposteriorního rozdělení (3). m (β + s(x)) n+α θ n+α e (β+s(x))θ dθ =.5 Γ(n + α) Vzorec pro aproximaci mediánu gama rozdělení, při známé střední hodnotě, je vytvořen na základě skutečnosti, že µ/(µ m) je přibližně lineární funkce parametru α, kde µ je střední hodnota gama rozdělení [9]. Medián lze aproximovat následovně: Následně po dosazení = 3α, 8 m µ 3α +, 2 3(n + α).8 ˆθ 2 E(θ (X) 3(n + α) +.2 = = n + α 3(n + α).8 β + s(x) 3(n + α) +.2 = ( ) 2 2 (n + α) = 2 β + s(x) 9(n + α) 8 = m 2(n+α) 2(β + s(x),

kde m 2(n+α) je medián χ 2 rozdělení, kde 2(n+α) jsou stupně volnosti a je zajištěno, že tato hodnota je celé číslo viz []. Další odhad je přes kvadraticko-logaritmickou ztrátovou funkci (8), který získáme následovně: ˆθ 3 = exp[e(lnθ (X))]. Zde vycházíme z faktu, že gama rozdělení je rozdělení z exponenciální třídy a stačí tedy zderivovat vztah E(lnθ (X)) podle (n + α). Po dosazení dostaneme: ˆθ 3 = exp[e(lnθ (X))] =,kde Ψ(x) = d lnγ(x) je digama funkce. dx eψ(n+α) β + s(x)) Poslední odhad je tvořen za pomoci ztrátové funkce vycházející z entropie (9). Jedná se o převrácenou hodnotu střední hodnoty aposteriorního rozdělení, kde θ je umocněna na minus prvou. ˆθ 4 = E(θ (X) = ( (β + s(x))n+α = θ θ n+α e dθ) (β+s(x))θ. Γ(n + α) Dále budeme počítat pouze jmenovatel pro lepší pochopení, znovu použijeme substituci y = (β + s((x)))θ, což znamená dy = (β + s((x)))dθ. ˆθ 4 = ( ) ( ) y (β + s(x) α+n α+n y β + s(x) Γ(n + α) β + s(x) β + s(x dy = (β + s(x) = y α+n 2 e y (β + s(x) dy Γ(α + n ) Γ(α + n) Γ(α + n) a opět využijeme vztahu Γ(x + ) = xγ(x). ˆθ 4 = (β + s(x) β + s(x) Γ(α + n ) = (α + n )Γ(α + n ) n + α. Jelikož postup je psaný pro jmenovatel, musí se výsledek ještě umocnit na minus prvou. ˆθ 4 = n + α β + s(x). 9

3.3.2 Odhad spolehlivostní funkce Nyní máme všechny odhady pro parametr θ. V této části vypočteme pro jednotlivé ztrátové funkce odhad spolehlivostní funkce v čase t. První spolehlivostní funkci odhadneme pro čtvercovou ztrátovou funkci (6). Jedná se o stejný postup jako při odhadu parametru θ při čtvercové ztrátové funkci. To znamená, že je se jedná o střední hodnotu podmíněné pravděpodobnosti spolehlivostní funkce R(t) za podmínky X. = ˆR (t) = E[R(t) X] = ( ( e t ) θ )π(θ s(x))dθ = = ( ( e t ) θ (β + s(x))n+α ) θ n+α e (β+s(x))θ dθ = Γ(n + α) (β + s(x))n+α = ( θ n+α e (β+s(x))θ dθ Γ(n + α) ( e t ) θ (β + s(x))n+α θ n+α e (β+s(x))θ dθ Γ(n + α) = (( e t ) θ (β + s(x))n+α ) θ n+α e (β+s(x))θ dθ. Γ(n + α) Zde jsem využili toho, že ( e t ) θ můžeme přespat následovně: ( e t ) θ = e ln( e t )θ. Z toho vyplývá, že integrál, který počítáme je vlastně vytvořující momentovou funkcí gama rozdělení. Momentová vytvořující funkce má obecný zápis následující: M(t) = e tx f(x)dx. Vytvořující momentová funkce pro gamma rozdělení je následující: ( M(t) = t ) α pro t < β. β Po dosazení našich parametrů gamma rozdělení je odhad spolehlivostní funkce pro čtvercovou ztrátovou funkci následující: ˆR (t) = M θ X [ln( e t )] = [ ln( ] (n+α) e t ). β + s(x)

Další odhad spolehlivostní funkce je pro absolutní ztrátovou funkci (7). Tento odhad je jednoduchý na vytvoření, jelikož ˆθ 2 je mediáqn aposteriorního rozdělení a spolehlivostní funkce je monotonní []. Odhad je pak následující: ˆR 2 (t) = ( e t )ˆθ 2. Třetí odhad je pro logaritmickou čtvercovou ztrátovou funkci (8). Zde si nejprve uvědomíme, že ln[ ( e t ) θ ] můžeme převést na řadu. ln[ ( e t ) θ e mθln( e t ) ] =. m m= Využijeme stejný postup jako u odhadu ˆθ 3. ˆR 3 (t) = exp[ln(e(r(t)) (X))] Pro lepší přehlednost budeme dále počítat pouze exponent. ln( ˆR 3 (t)) = = = ln( ( e t ) θ ) e mθln( et ) m m= e mθln( et ) m= m (β + s(x))n+α θ n+α e (β+s(x))θ dθ = Γ(n + α) (β + s(x))n+α θ n+α e (β+s(x))θ dθ = Γ(n + α) (β + s(x))n+α θ n+α e (β+s(x))θ dθ Γ(n + α) Nyní použijeme substituci y = θ(m ln( e t ) (β + s(x)), to znamená dy = θ(m ln( e t ) (β + s(x))dθ. ln( ˆR ( ) n+α (β + s(x))n+α y 3 (t)) = e y m= m Γ(n + α) m ln( e t ) (β + s(x)) ( ) dy = m ln( e t ) (β + s(x)) (β + s(x))n+α = y n+α e y dy = Γ(n + α) m[β + s(x) mln( e t )] n+α ˆR 3 (t) = exp m= [ (β + s(x)) n+α m= m[β + s(x) mln( e t )] n+α Při výpočtu je ještě důležité zjistit, zda řada obsažená v odhadu konverguje. Využijeme, zde srovnávací kritérium: m= m[β + s(x) mln( e t )] n+α m= m n+α+ ].

Jelikož n + a je vždy větší než jedna, řada konverguje. Nyní provedeme odhad chyby při aproximaci řady konečným součtem viz [8]. Zde využijeme následujícího vztahu. Jestliže existuje řada b k reálných čísel a celé číslo N takové, že ak bk pro k > N, pak a m m= N m= a m m=n+ kde N představuje počet členů řady. Pro danou řadu je vztah následující: N+ m= m[β + s(x) mln( e t )] n+α = ζ(n + α + ) m=n+ N m= b k, (m ln( e t )) n+α+ m ln( e t )) n+α+, kde ζ(n + α + ) je riemannova zeta funkce. V simulaci je za N dosazeno a chyba je ovlivněna parametry α a n. Maximální chyba součtu řady v simulaci při parametrech α a n, které byly využity a jsou vidět v příloze je.43 3. Poslední odhad R(t) je pro entropii ztrátové funkce (9), kde využijeme Maclaurovo řadu ( x) [ ( e t ) θ ] = e mθln( e t). Poté dosadíme do stejného vzorce jako odhad parametru θ při entoropii. m= ˆR 4 (t) = E(R(t) (X)) = = E[( ( e t ) θ ) (X))] Budeme počítat pouze jmenovatel pro lepší pochopení a přehlednost = = = e mθln( e t ) m= e mθln( e t ) m= = ˆR 4 (t) = ( ( e t ) θ ) π(θ X)dθ = ( ( e t ) θ (β + s(x))n+α ) θ n+α e (β+s(x))θ dθ = Γ(n + α) (β + s(x))n+α θ n+α e (β+s(x))θ dθ = Γ(n + α) (β + s(x))n+α Γ(n + α) (β + s(x))n+α θ n+α e (β+s(x))θ dθ = Γ(n + α) e mθln( e t) θ n+α e (β+s(x))θ dθ m= 2

Nyní použijeme substituci y = θ(m ln( e t ) (β + s(x)), to znamená dy = θ(m ln( e t ) (β + s(x))dθ. ˆR 4 (t) = (β + s(x))n+α Γ(n + α) m= ( y mln( e t + (β + s(x)) ) n+α e y mln( e t + (β + s(x) )dy = = (β + s(x))n+α Γ(n + α) m= ˆR 4 (t) [β + s(x) mln( e t )] n+α = (β + s(x))n+α m= y n+α e y dy = [β + s(x) mln( e t )] n+α Jedním z posledních kroků je umocnit vzorec na minus prvou, jelikož jsme počítali jenom jmenovatel. Výsledný odhad je tedy: ˆR 4 (t) = [ (β + s(x)) n+α m= ] [β + s(x) mln( e t )] n+α Nakonec je zde stejný problém jako u odhadu pomocí logaritmické ztrátové chyby. V odhadu je řada, ovšem jedná se o stejnou řadu jako u předchozího odhadu, s tím rozdílem, že se k ní musí přičíst (β + s(x) ). Je to z toho důvodu, že řada začíná od nuly. Maximální chyba součtu řady v simulaci při parametrech α a n, které byly využity a jsou vidět v příloze je.23. 3.3.3 Odhad kvantil GE Nejprve si z daného rozdělení vyjádříme kvantil jako funkci parametru θ tohoto rozdělení, kde q je hodnota kvantilu a p říká o jaký percentil se jedná. q = ln( p θ ) V programu, přiloženém k práci, byly příslušné střední hodnoty odhadů vytvořeny simulačně. Nyní vytvoříme odhad kvantilu pro čtvercovou ztrátovou chybu (6), kde místo parametru θ dosadíme do střední hodnoty ln( p θ ) ˆq = E[q X] = ln( p θ )π(θ X)dθ. 3

Druhý odhad kvantilu bude za pomoci absolutní ztrátové chyby (7), který je stejně jako u spolehlivostní funkce jednodušší, díky jeho monotonnosti q a toho, že ˆθ 2 je medián aposteriorního rozdělení. Odhad je tedy následovný: ˆq 2 = ln( ˆθ 2 a). Odhad kvantilu logaritmické čtvercové ztrátové funkce (8) ˆq 3 = exp[e(ln(q) X)] = exp ln( ln( p θ )π(θ X))dθ Posledním odhadem je kvantil při entropické ztrátové funkci (9). ˆq 4 = ( ) E[q X] = ( ln( p θ )) π(θ X)dθ 3.4 Testování shodnosti odhadu V této části pomocí Kolmogorovova-Smirnovova testu dobré shody vyšetříme validitu hypotézy, která tvrdí, že náhodný výběr X,X 2,...,X n je ze zobecněného exponenciálního rozdělení. Dané rozdělení má distribuční funkci F (x), která je následující: F (x) = ( e x ) θ, kde θ je námi vybraný odhad parametru θ. Budeme tedy testovat nulovou hypotézu H : F (x) = F (x) proti alternativní hypotéze H : F (x) F (x). Proto definujme náhodnou veličinu D n, která se vypočte následovně: D n = sup x (F (x) F n (x)) Hodnota veličiny D n udává maximální rozdíl mezi empirickou distribuční funkcí F n (x) a neznámým rozdělením F (x). Daný test provádíme při zadané hladině významnosti α = 5%. Kolmogorovův-Smirnovův test dobré shody má tabulky kritické hodnoty pro dané hladiny významnosti α. Nulovou hypotézu zamítneme v případě, že dané D n překročí kritickou hodnotu -α. 4

4 Simulace V této kapitole se budeme věnovat simulaci odhadu parametru θ zobecněného exponenciálního rozdělení, které získáme pomocí Bayesovského přístupu při různých ztrátových funkcích, které jsou popsány v předchozích kapitolách. Tato simulace byla vytvořena v programu MATLAB. Spouští se pomocí programu Bayes.m a program je přílohou bakalářské práce. 4. Popis programu V této kapitole se budeme zabývat popisem programu, který je přílohou. Program funguje je následovně:. Programu se musí zadat hodnoty α a β, jelikož apriorní funkcí parametru θ, je gama rozdělení s parametry α a β viz 3. Vygenerujeme tedy z π(θ) parametr θ, který budeme brát jako přesnou hodnotu daného parametru. 2. Díky předchozímu kroku víme hodnotu parametru θ. Vygenerujeme náhodný výběr zobecněného exponenciálního rozdělení o velikosti n, které na začátku zvolíme a zjistíme také jeho kvantil o velikosti jež zadáme před spuštěním programu a jeho spolehlivostní funkci v časech t, kde t je také určeno předem. Vygenerování náhodného výběru je dosazení do distribuční funkce () s pevným parametrem θ a vybrání náhodných X,X 2,...,X n. 3. V následujícím kroku budeme vytvářet odhady parametru θ a spolehlivostní funkci v časech t a také kvantilů, které jsou popsány v kapitole 3. 4. Po vypočtení odhadů použijeme Kolmogorovova-Smirnovova testu dobré shody, který rozhodne, zda jsou odhady vhodnou aproximací zobecněného exponenciálního rozdělení. 5. Z těchto kroků vytvoříme cyklus, který budeme opakovat podle námi vybraného počtu opakování, jež si můžeme zvolit. Pro následující výsledky je počítáno s 5 opakováními. 5

V příloze jsou tabulky, které obsahují nasimulované hodnoty. Jelikož se cyklus opakuje 5 krát, jsou hodnoty v tabulkách průměrné hodnoty, kde t = ;.5; 2 a je počítám dvacátý percentil. V prvním řádku jsou názvy daných odhadů. V prvním sloupci jsou 4 zkratky chyb a to MSE, ABS, LOG a ENT ty ukazují chybu odhadu parametru. MSE je zkratka pro střední čtvercovou chybu počítá následovně : MSE = N N (θ t ˆθ t ) 2. t= ABS je zkratka pro absolutní chybu ABS = N N θ ˆθ t. t= Předposlední je střední logaritmická chyba (LOG) LOG = N Poslední je chyba za pomoci entropie ENT = N n t= ( N ln ˆθ t θ t= ) 2 ( ˆθt ln ˆθ ) t θ t θ t Pro spuštění programu se využije programové prostředí MATLAB. Skript, který slouží ke spuštění, se jmenuje Bayes.m. Počet simulací, velikost náhodného výběru ze zobecněného exponenciálního rozdělení, α a β k vytvoření apriorního rozdělení se musí změnit přímo v kódu programu. Následně výsledek uloží do souboru ba.xlsx. 4.2 Zhodnocení výsledků Z tabulek uvedených v příloze je z Kolmogorovova-Smirnova testu vidět, že odhad pomocí maximální spolehlivostní funkce (MLE) a Bayesovo odhady jsou dobrou aproximací parametru, kvantilu a jeho spolehlivostní funkce. Z tabulek -6 je vidět, že při zvýšení prvků (n) je MLE slabší, jelikož jeho přijetí rychleji klesá. Pro dané α a β jsme zjistili pro parametr θ, že nejlepším odhadem při střední čtvercové chybě (MSE), je zde bayesovský odhad při kvadratické ztrátové funkci. Pokud vezmeme odhad při absolutní chybě je pak nejvhodnějším odhadem bayesovský odhad 6

při kvadraticko-logaritmické ztrátové chybě. Při logaritmické chybě má nejmenší chybu odhad při ztrátové funkci za pomoci entropie a při entropické chybě je znovu nejlepší odhad kvadraticko-logaritmické ztrátové funkce. Pro spolehlivostní funkce jsme zjistili, že při MSE má nejmenší chybu odhad odvozen z kvadratické ztrátové funkce. Nejmenší absolutní chybu má odhad vytvořen z absolutní ztrátové funkce. Pro kvadraticko-logaritmickou chybu jsou nejméně chybové odhady čtvercové a absolutní ztrátové funkce. Pro ENT je nejvhodnější stejnojmenný odhad ztrátové funkce. U kvantilů je nejmenší střední čtvercová chyba v bayesovském odhadu při kvadratické ztrátové funkci. Pro ABS je nejlepší odhad vytvořen z absolutní ztrátové funkce. Pro dané odhady při zadaných parametrech apriorního rozdělení α a β jsme zjistili, že bayesovské odhady podhodnotily parametr θ a odhad metodou maximální věrohodnosti naopak daný parametr nadhodnotil. 7

5 Závěr Cílem této práce bylo seznámit se s bayesovským přístupem a aplikovat ho na odhad parametru zobecněného exponenciálního rozdělení nebo jeho parametrických funkcí, čehož bylo dosaženo v první části této práce. Dále bylo zvoleno gama rozdělení jako apriorní rozdělení pro parametr θ, z kterého byly vytvořeny odhady. Byl vytvořen odhad metodou maximální věrohodnosti a poté odhady při čtyřech různých ztrátových funkcích. Totéž bylo provedeno pro spolehlivostní funkci a pro kvantil byl vytvořen jen odhad při ztrátových funkcích. Simulace byla vytvořena na základě výše uvedených odhadů. Z výsledků simulace byly vyšetřeny vlastnosti odhadů. Simulace byla naprogramována v programu MATLAB a její kód je součástí této práce v elektronické podobě. 8

6 Přílohy Tabulka.: Výsledná tabulka pro n = α = 3 β = 2 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 4958 498 4983 4984 4988 Parametr.597.689.597.597.452.3936 MSE.539.232.232.2384.253 ABS.4356.339.339.3387.345 LOG.74.83.83.87.835 ENT.6.45.45.4273.49 t=.4648.4829.4639.4646.4556.4468 MSE.23.77.77.79.89 ABS.777.69.689.694.74 LOG.56.43.429.426.43 ENT.265.232.232.224.22 t=.5.326.327.36.2994.294.2863 MSE.75.5.5.5.52 ABS. 63.537.536.538.547 LOG.696.574.569.566.574 ENT.37.3.3.298.293 t=2.98.262.9.883.853.795 MSE.43.25.26.26.27 ABS.454.374.374.375.38 LOG.832.67.67.662.672 ENT O.3248.322.337.342.362 9

Tabulka.2: Výsledná tabulka pro n =5 α = 3 β = 2 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 4989 4993 4992 4992 499 Parametr.4933.5666.4875.4875.4553.4228 MSE.2.297.297.35.36 ABS.2876.2524.2524.2525.2553 LOG.524.456.456.452.458 ENT.277.238.238.23.229 t=.459.467.458.4585.4535.4488 MSE.5.42.43.43.44 ABS.546.54.53.56.52 LOG.26.239.238.237.239 ENT.32.24.24.22.2 t=.5.2984.366.2976.2963.2934.2992 MSE.35.27.27.28.28 ABS.434.399.399.4.44 LOG.35.36.35.34.37 ENT.8.64.63.6.58 t=2.89.955.883.868.85. 89 MSE.9.4.4.4.5 ABS.38.278.278.279.282 LOG.44.368.366.366.37 ENT.339.3276.333.3384.3497 2

Tabulka.3: Výsledná tabulka pro n =5 α = 3 β = 2 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 4986 4988 4988 4986 4987 Parametr.547.534.4992.4992.485.479 MSE.663.5622.5622.567.578 ABS.734.639.639.637.645 LOG.2.9.9.9.9 ENT..97.97.96.96 t=.462.4648.46.463.459.457 MSE. 9.7.7.8.8 ABS.34.32.32.33.33 LOG..3... ENT.52.5.5.5.5 t=.5 34..333.2996.299.2978.296 MSE.3.2.2.2.2 ABS.267.257.257.258.28 LOG.37.32.3.32.32 ENT.7.68.67.68.67 t=2 93..926.897.89.883.87 MSE.7.6.6.6.6 ABS.88.8.8.8.79 LOG.6.54.53.53.54 ENT.333.329.334.3337.3385 2

Tabulka.4: Výsledná tabulka pro n = α = 3 β = 4 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 4966 4969 497 497 4973 Parametr.759.8396.754.7542.7253.696 MSE.23.555.555.569.65 ABS.275.693.693.693.724 LOG.68.82.82.88.827 ENT.599.446.446.423.45 t=.285.2978.2792.2768.272.2645 MSE.7.44.44.45.47 ABS.6.59.58.5.52 LOG.75.587.552.58.589 ENT.384.37.3.34.23 t=.5.695.828.686.66.634.58 MSE.36.2.2.2.22 ABS.4.337.337.338.344 LOG.853.682.674.672.684 ENT.465.369.352.352.345 t=2.27.8.2..987.952 MSE.6.8.9.9.9 ABS.267.24.24.25.28 LOG.937.737.728.726.74 ENT.3784.3797.393.423.4267 22

Tabulka.5: Výsledná tabulka pro n =2 α = 3 β = 4 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 495 495 4952 4953 4955 Parametr.7598.7932.753.753.7366.722 MSE.494.322.322.323.34 ABS.434.264.264.268.285 LOG.58.443.443.44.449 ENT.269.232.232.226.225 t=.29.288.2788.2788.2748.277 MSE.3.24.25.25.26 ABS.42.378.378.38.3845 LOG.35.36.34.34.38 ENT.82.65.63.62.6 t=.5.697.752.683.669.654.625 MSE.5.2.2.3.2 ABS.278.25.25.252.255 LOG.42.367.365.365.37 ENT.26.92.89.87.87 t=2.28.66.2.9..98 MSE.7.5.5.5.6 ABS.79.6.6.6.62 LOG.45.397.395.396.42 ENT.384.3845.392.3972.44 23

Tabulka.6: Výsledná tabulka pro n =5 α = 3 β = 4 KS Přesné MLE L L 2 L 3 L 4 přijetí H o 493 4932 4933 4934 4935 Parametr.743.7574.7428.7428.7378.7288 MSE.64.33.33.334.35 ABS.872.82.82.88.82 LOG.25.93.93.95.92 ENT.5.99.98.97.96 t=.2756.279.2757.2752.274.2723 MSE.2.... ABS.259.249.2484.248.249 LOG.45.38.38.39.38 ENT.74.7.7.7.7 t=.5.66.688.63.657.65.638 MSE.6....2 ABS.72.64.64.64.65 LOG.69.6.59.6.6 ENT.86.82.8.8.8 t=2.5.24.7.2.998.99 MSE.3.2.2.2.2 ABS..4.4.3.4 LOG.84.73.72.72.72 ENT.3894.389.3923.3945.4 24

Tabulka.7: Výsledná tabulka pro n = α = 3 β = 2 Přesné L L 2 L 3 L 4 kvantil.42.3997.3929.3725.338 MSE.28.29.227.26 ABS.2.98.2.97 LOG.4876.493.388.497 ENT.4959.443.4555.3772 Tabulka.8: Výsledná tabulka pro n =2 α = 3 β = 2 Přesné L L 2 L 3 L 4 kvantil.3937.398.388.377.366 MSE.2.2.23.32 ABS.87.85.82.85 LOG.295.2455.249.2485 ENT.263.2283.922.992 Tabulka.9: Výsledná tabulka pro n =5 α = 3 β = 2 Přesné L L 2 L 3 L 4 kvantil.3974.3957.394.3894.3829 MSE.5.5.5.53 ABS.524.524.526.534 LOG.3.953.942.2 ENT.774.65.6927.657 25

Tabulka.: Výsledná tabulka pro n = α = 3 β = 4 Přesné L L 2 L 3 L 4 kvantil.456.435.344.228.943 MSE.73.74.79.5 ABS.58.575.586.683 LOG.8977.734.776.744 ENT.725.74.75.78 Tabulka.: Výsledná tabulka pro n =2 α = 3 β = 4 Přesné L L 2 L 3 L 4 kvantil.456.434.383.39.87 MSE.4.42.44.5 ABS.43.429.435.468 LOG.8778.6754.6284.6935 ENT.6934.6747.562.5529 Tabulka.2: Výsledná tabulka pro n =5 α = 3 β = 4 Přesné L L 2 L 3 L 4 kvantil.389.399.377.35.299 MSE.7.7.8.8 ABS.275.273.274.28 LOG.376.279.27.2972 ENT.38.299.22.985 26

Reference [] ASGHARZADEH, A a R REZAEI:. The generalized exponential distribution as a lifetime modul under different loo function data. Science Journal. 29, : 27-225. [2] ANDĚL, J. Matematická statistika. Praha: SNTL, 985. [3] HUŠKOVÁ, M. Bayesovské metody: skripta. Univerzita Karlova, 985. [4] J. Reif: Metody matematické statistiky, Západočeská univerzita, Plzeň, 24. [5] FRIESL, M. Bayesovské odhady v některých modelech. Západočeská univerzita. [6] FERGUSON, T. S. A Bayesian analysis of some nonparametric problems. Ann. Statist.. 973, : 29 23. [7] GUPTA, R a D KUNDU. Generalized Exponential Distributions: Statistical Inferences: Technical Report. 999b. The University of New Brunswick: Saint John. [8] ČVUT. Sčítání a aproximace řad: Přehled metod: Aproximace řad: Přehled metod [online]. [cit. 25-5-27]. Dostupné z:http : //math.f eld.cvut.cz/mt/txte//txc3ebd.htm [9] Gamma distribution. Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2- [cit. 25-5-27]. Dostupné z: http : //en.wikipedia.org/wiki/gamma d istribution 27