3 Bodové odhady a jejich vlastnosti

Podobné dokumenty
Základy teorie odhadu parametrů bodový odhad

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Odhad parametrů N(µ, σ 2 )

5. B o d o v é o d h a d y p a r a m e t r ů

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Příklady - Bodový odhad

Matematická Statistika. Ivan Nagy, Jitka Kratochvílová

Odhady Parametrů Lineární Regrese

Statistika a spolehlivost v lékařství Charakteristiky spolehlivosti prvků I

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Přijímací zkouška na navazující magisterské studium 2014

Nestranný odhad Statistické vyhodnocování exp. dat M. Čada

KGG/STG Statistika pro geografy

STATISTICKÉ ODHADY Odhady populačních charakteristik

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Normální (Gaussovo) rozdělení

Derivace a monotónnost funkce

oddělení Inteligentní Datové Analýzy (IDA)

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

I. D i s k r é t n í r o z d ě l e n í

15. T e s t o v á n í h y p o t é z

Odhady - Sdružené rozdělení pravděpodobnosti

PRAVDĚPODOBNOST A STATISTIKA

5 Parametrické testy hypotéz

p(x) = P (X = x), x R,

Minikurz aplikované statistiky. Minikurz aplikované statistiky p.1

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

AVDAT Klasický lineární model, metoda nejmenších

Vlastnosti odhadů ukazatelů způsobilosti

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

Definice 7.1 Nechť je dán pravděpodobnostní prostor (Ω, A, P). Zobrazení. nebo ekvivalentně

5. Lokální, vázané a globální extrémy

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Přednáška 11, 12. prosince Část 5: derivace funkce

9. přednáška 26. listopadu f(a)h < 0 a pro h (0, δ) máme f(a 1 + h, a 2,..., a m ) f(a) > 1 2 x 1

- funkce, které integrujete aproximujte jejich Taylorovými řadami a ty následně zintegrujte. V obou případech vyzkoušejte Taylorovy řady

Normální (Gaussovo) rozdělení

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

4. Aplikace matematiky v ekonomii

Pravděpodobnost a matematická statistika

5 Časové řady. Definice 16 Posloupnost náhodných veličin {X t, t T } nazveme slabě stacionární, pokud

Regresní analýza 1. Regresní analýza

Náhodné chyby přímých měření

Pravděpodobnost a statistika

INTEGRÁLY S PARAMETREM

Derivace funkce. Přednáška MATEMATIKA č Jiří Neubauer

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

STATISTICKÉ ZJIŠŤOVÁNÍ

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Definice globální minimum (absolutní minimum) v bodě A D f, jestliže X D f

Deskriptivní statistické metody II. Míry polohy Míry variability

Přijímací zkouška na navazující magisterské studium 2017

14. B o d o v é o d h a d y p a r a m e t r ů

8 Střední hodnota a rozptyl

8.3). S ohledem na jednoduchost a názornost je výhodné seznámit se s touto Základní pojmy a vztahy. Definice

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

15. T e s t o v á n í h y p o t é z

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Charakterizace rozdělení

NMSA202 PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA POZNÁMKY O ZKOUŠCE

9 Kolmost vektorových podprostorů

Matematika III. Miroslava Dubcová, Daniel Turzík, Drahoslava Janovská. Ústav matematiky

3.3. EXPONENCIÁLNÍ A LOGARITMICKÁ ROVNICE A NEROVNICE

Průvodce studiem. do bodu B se snažíme najít nejkratší cestu. Ve firmách je snaha minimalizovat

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Výběrové charakteristiky a jejich rozdělení

Bodové odhady parametrů a výstupů

Apriorní rozdělení. Jan Kracík.

Řešení. Označme po řadě F (z) Odtud plyne, že

Testování statistických hypotéz

Praktická statistika. Petr Ponížil Eva Kutálková

8 Coxův model proporcionálních rizik I

KVADRATICKÁ KALIBRACE

I. 7. Diferenciál funkce a Taylorova věta

Přijímací zkouška na navazující magisterské studium 2018

1 Mnohočleny a algebraické rovnice

5. T e s t o v á n í h y p o t é z

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a statistika I KMA/K413

Interpolace, ortogonální polynomy, Gaussova kvadratura

Funkce a limita. Petr Hasil. Podpořeno projektem Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF)

Diferenciální rovnice 1

Logaritmické a exponenciální funkce

7. Derivace složené funkce. Budeme uvažovat složenou funkci F = f(g), kde některá z jejich součástí

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

ZÁKLADNÍ POJMY a analýza výběru

1 Polynomiální interpolace

KFC/SEM, KFC/SEMA Rovnice, nerovnice

LWS při heteroskedasticitě

Definice spojité náhodné veličiny zjednodušená verze

Funkce zadané implicitně

Extrémy funkce dvou proměnných

Transkript:

3 Bodové odhady a jejich vlastnosti 3.1 Statistika (Skripta str. 77) Výběr pořizujeme proto, abychom se (více) dověděli o souboru, ze kterého jsme výběr pořídili. Zde se soustředíme na situaci, kdy známe rozdělení souboru až na jeden nebo více parametrů. Např. víme, že rozdělení souboru je normální, ale neznáme jeho střední hodnotu, případně i rozptyl. Z výběru se snažíme hodnoty těchto neznámých parametrů odhadnout. Předpis, pomocí kterého z výběru vypočteme hodnotu neznámého parametru se nazývá statistika. V souladu s tím je i následující definice. D e f i n i c e 3.1 (Statistika) Statistika T = T (X ) je funkce výběru X. 1. Statistika určená pro odhadování se nazývá odhadová statistika, pro testování testová statistika. 2. Definice neříká nic o tom, jak statistiku volit vzhledem k jejímu cílovému využití (odhad, test). Její vhodnost či nevhodnost budeme zkoumat později. 3.2 Bodový odhad parametru rozdělení (Skripta str. 77) D e f i n i c e 3.2 (Bodový odhad) Sledujeme rozdělení s hustotou pravděpodobnosti f(x; θ) s neznámým parametrem θ. Provedli jsme realizaci náhodného výběru x = (x 1, x 2,..., x n ) z tohoto rozdělení a definovali statistiku T (X ). Bodový odhad ˆθ parametru θ pro realizaci náhodného výběru x je hodnota statistiky T s dosazenou realizací náhodného výběru x ˆθ = T (x ) (15) 1. Pro každou novou realizaci výběru obdržíme jiný bodový odhad. Odtud je zřejmé, že bodový odhad nemůže dát úplně přesnou hodnotu parametru. 2. Vlastní volbu statistiky jsme zatím nechali stranou. Lze pro ni použít metodu momentů nebo maximální věrohodnosti, o které se zmíníme. Statistiku je také možno volit heuristicky, potom je však třeba ověřit její vlastnosti. P ř í k l a d: Odhadujeme parametr střední hodnotu µ. Provedli jsme výběr x = {x 1, x 2,..., x n } = {3, 5, 2, 4, 5}. Protože víme, že střední hodnotu si lze přibližně představit jako průměr všech možných realizací, usoudíme, že jejím vhodným odhadem bude aritmetický průměr x = 1 n n x i. Po dosazení realizace výběru dostaneme x = 19/5. Vlastnosti zvolené statistiky je však třeba ověřit (viz dále). 7

3.3 Vlastnosti bodových odhadů (Skripta str. 78) Vlastnosti bodového odhadu ˆθ vypovídají o vhodnosti použité statistiky T k odhadu hodnoty parametru θ. Uvedeme tři vlastnosti: nestrannost, konzistenci a vydatnost. {{}} Nestrannost 1 D e f i n i c e 3.3 (Nestrannost) Statistika T poskytuje nestranný bodový odhad parametru θ, jestliže její střední hodnota se rovná tomuto parametru E[T ] = θ (16) 1. Střední hodnotu E[T ] je třeba chápat jako průměrování přes všechny možné výběry. Jestliže bychom chtěli naznačit výpočet této střední hodnoty, bylo by třeba postupovat takto: provedeme první výběr, spočteme bodový odhad, provedeme druhý výběr a opět spočteme bodový odhad, atd. Po provedení všech možných výběrů uděláme průměr ze všech jednotlivých bodových odhadů. To je hledaná střední hodnota. 2. Nestrannost říká, že odhad je v průměru (rozumíme přes všechny možné výběry) přesný. P ř í k l a d: Ověříme nestrannost výběrového průměru vzhledem ke střední hodnotě. Máme dokázat, že platí E[X ] = µ. Dosadíme definici výběrového průměru a manipulujeme s operátorem střední hodnoty [ ] 1 E[X ] = E X i = 1 E[X i ] = 1 µ = µ n n n Vychýlení bodového odhadu B(θ) 2 statistiky a odhadovaným parametrem je definováno jako rozdíl mezi střední hodnotou B(θ) = E(T ) θ (17) P o z n á m k a: Z definice nevychýlenosti přímo plyne, že je-li statistika T pro odhad parametru θ nevychýlená, pak vychýlení B(θ) je nulové. Konzistence 3 D e f i n i c e 3.4 (Konzistence) 1 Skripta str. 78 2 Skripta str. 79 3 Skripta str. 79 8

Statistika T dává konzistentní bodový odhad parametru θ, jestliže pro rostoucí rozsah výběru se hodnota statistiky (v pravděpodobnosti) neomezeně blíží skutečnému parametru lim P ( T θ < ɛ) = 1, ɛ > 0 (18) n Tato vlastnost je limitní. Lze ji sledovat jen při zvětšujícím se rozsahu výběru např. změříme 10 hodnot, pak 100, atd. T v r z e n í 3.1 (Kriterium konzistence 4 ) Odhad je konzistentní, jestliže je asymptoticky nestranný, jeho rozptyl jde k nule s rozsahem výběru jdoucím k nekonečnu. Ověření: Plyne z použití Čebyševovy nerovnosti pro obecný odhad. P ř í k l a d: Ověříme konzistenci výběrového průměru vzhledem k odhadu střední hodnoty. Pro důkaz využijeme Čebyševovu nerovnost (??), kterou zapíšeme pro výběrová průměr a střední hodnotu σ 2 Protože lim = 0, je odhad konzistentní. n nɛ2 Vydatnost 5 D e f i n i c e 3.5 (Vydatnost) P ( X µ < ɛ) > 1 σ2 nɛ 2 Pro dvě nestranné statistiky T a U definujeme jako vydatnější tu z nich, která má menší rozptyl D[T ] < D[U] = T je vydatnější než U (19) P o z n á m k a: Pro posouzení dvou statistik, které nejsou nestranné, je třeba zavést středně kvadratickou chybu MSE 6 definovanou vztahem MSE = E[(T θ) 2 ] = D[T ] + (B(θ)) 2 (20) Jako vydatnější definujeme statistiku s menší M SE. (Pro nestranné statistiky M SE přechází na rozptyl a obě definice jsou shodné.) Ze vztahu pro M SE je patrné, že v obecném případě tato charakteristika posuzuje jak rozptyl odhadové statistiky, tak i její vychýlení. M SE bude minimální, jestliže bude minimální rozptyl i vychýlení statistiky. 5 Skripta str. 80 6 Skripta str. 80 9

3.4 Konstrukce bodových odhadů (Skripta str. 82) Řekli jsme co je bodový odhad a jaké u něho sledujeme vlastnosti. Nyní se budeme věnovat otázce, jak lze takový odhad zkonstruovat. Ukážeme dvě základní metody pro konstrukci statistiky, vhodné pro odhad daného parametru. Metoda momentů 7 Tato metoda je velmi jednoduchá, obecně však nedává příliš kvalitní výsledky. Spočívá v porovnání obecných (nebo centrálních) momentů souboru a výběru. Podle toho, kolik parametrů odhadujeme, tolik momentů musíme porovnat. Momenty souboru počítáme s pomocí hustoty pravděpodobnosti souboru f(x, θ). Budou tedy obsahovat neznámý parametr θ. Výběr je množina změřených hodnot. Moment výběru bude tedy číslo. Porovnáním momentů získáme rovnice kde neznámé budou odhadované parametry. Z nich odhad vypočteme. P ř í k l a d: Budeme odhadovat neznámý parametr δ exponenciálního rozdělení s hustotou pravděpodobnosti f(x, δ) = δ exp{ δ x}, δ > 0, x (0, ) z výběru x = [x 1, x 2,..., x n ]. Protože odhadujeme jediný parametr, stačí porovnat první momenty, tj. střední hodnotu souboru (exponenciálního rozdělení) a výběrový průměr změřeného výběru. Střední hodnota souboru je Výběrový průměr je Porovnáním dostaneme E[X] = 0 x f(x, δ) dx = x = 1 x i = číslo. n 1 δ = x ˆδ = 1 x, kde symbolem ˆδ jsme označili bodový odhad parametru δ. 0 x δ exp{ δx}dx = 1/δ. Metoda maximální věrohodnosti 8 Odhad pro obecné rozdělení Tato metoda dává velmi kvalitní výsledky a je často používána. Pro normální rozdělení souboru je ekvivalentní s metodou nejmenších čtverců, o které budeme mluvit v regresní analýze. Metoda je založena na minimalizaci tzv. věrohodnostní funkce nebo jejím logaritmu (což je totéž proč?). 7 Skripta str. 82 8 Skripta str. 82 10

D e f i n i c e 3.6 (Věrohodnostní funkce) Pro rozdělení s hustotou pravděpodobnosti f(x, θ) a realizaci náhodného výběru x = [x 1, x 2,..., x n ] definujeme věrohodnostní funkci L n (θ) vztahem D e f i n i c e 3.7 (Maximálně věrohodný odhad) n L n (θ) = f(x i, θ). (21) Maximálně věrohodným odhadem parametru θ rozdělení f(x, θ) nazveme odhad ˆθ θ, který maximalizuje (logaritmus) věrohodnostní funkce, tj. platí log L n (ˆθ) log L n (θ), θ θ (22) kde θ označuje množinu všech přípustných hodnot parametru θ. Obecný postup při určení maximálně věrohodného odhadu je následující: 1. Sestavíme věrohodnostní funkci tak, že násobíme hustoty pravděpodobnosti souboru a do každé dosadíme za x jeden prvek výběru x i. 2. Je-li to výhodné, věrohodnostní funkci logaritmujeme. Protože řada rozdělení má hustotu pravděpodobnosti ve tvaru exponenciály, bývá logaritmus užitečný pro zjednodušení součinu. Není však nutný. 3. Hledáme maximum logaritmu věrohodnostní funkce. V jednoduchém případě např. pomocí derivace, ve složitějším případě numericky. Bod, kde leží maximum je maximálně věrohodný odhad. Odhad pro exponenciální třídu rozdělení D e f i n i c e 3.8 (Exponenciální třída rozdělení) Řekneme, že hustota pravděpodobnosti patří do exponenciální třídy, jestliže je možno ji zapsat ve tvaru f(x, θ) = exp{q(θ) U(x) + R(θ) + V (x)}, (23) kde Q, R jsou funkcemi jen θ (ne x) a U, V jsou funkcemi jen x (ne θ). P ř í k l a d: Alternativní rozdělení je z exponenciální třídy, nebot platí f(x, π) = π x (1 π) 1 x = exp{log(π x (1 π) 1 x )} = = exp{x log(π) + (1 x) log(1 π)} = exp{[log(π) log(1 π)] x + log(1 π)}. Zde platí: Q = log(π) log(1 π), U = x, R = log(1 π), V = 0. Je-li rozdělení z exponenciální třídy, dostáváme následující jednoduché řešení úlohy maximálně věrohodného odhadu. 11

T v r z e n í 3.2 (Max. věr. odhad pro exponenciální třídu) Pro rozdělení s hustotou pravděpodobnosti f(x, θ) = exp{q(θ) U(x)+R(θ)+V (x)} a realizaci výběru x = [x 1, x 2,..., x n ] je extrém logaritmické věrohodnostní funkce dán řešením rovnice Q (θ) S(x) + n R (θ) = 0, kde Q, R jsou derivace podle θ a S(x) = n U(x i ). Aby nalezený extrém byl maximum, musí být ještě splněna nerovnost Q (θ)s(x) + n R < 0. Ověření: Věrohodnostní funkce je { n n } L n (θ) = exp{q(θ) U(x i ) + R(θ) + V (x i )} = exp (Q(θ) U(x i ) + R(θ) + V (x i )) = { } = exp Q(θ) U(x i ) + nr(θ) + V (x i ). Tento výraz logaritmujeme a se zavedeným značením dostaneme log L n (θ) = Q(θ)S(x) + nr(θ) + V (x i ). Po derivaci podle θ poslední výraz zmizí. Anulováním derivace dostáváme podmínku pro extrém. Podmínka pro maximum je záporná druhá derivace. P ř í k l a d: Metodou maximální věrohodnosti určete odhadovou statistiku pro parametr π alternativního rozdělení. Uvažujeme alternativní rozdělení, jehož exponenciální tvar jsme již odvodili (viz příklad k (23)) a zjistili jsme, že platí Q = log(π/(1 π)), U = x, R = log(1 π), V = 0. Abychom mohli použít tvrzení 3.2, potřebujeme ještě spočítat funkci S příslušné derivace. S = n x i = nx, Q = 1 π(1 π), Q = 2π 1, R π 2 (1 π) = 1 2 1 π, R = 1 (1 π) 2 Podmínka extrému Q S + nr 1 = π(1 π) nx n 1 1 π = 0 ˆπ = x Podmínka maxima (s dosazeným odhadem x = ˆπ) 2ˆπ 1 ˆπ 2 (1 ˆπ) 2 nˆπ n 1 (1 ˆπ) 2 < 0 ˆπ < 1 což je vždy splněno, nebot π = 1 je patologický případ. 12