6. ZÁKLADY STATIST. ODHADOVÁNÍ X={X 1, X 2,..., X n } výběr z rozdělení s F (x, θ), θ={θ 1,..., θ r } - vektor reálných neznámých param. θ Θ R k. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový. 6.1. Bodové odhady T(X) = {T 1 (X),..., T k (X)} odhadová statistika T(x) = {T 1 (x),..., T k (x)} bodový odhad (point estimate) získaný na základě pozorování {x 1, x 2,..., x n }. k = 1. T = T (X) odhadová statistika pro jednorozměrný parametr θ. 6.1.1. Vlastnosti bodových odhadů 1) Nevychýlenost (unbias) T (X) nevychýlený (nestranný, nezkreslený) odhad charakteristiky ZS jestliže E(T ) = θ θ Θ. T (X) vychýlený (bias) if E(T ) θ, θ Θ. Vychýlení (zkreslení) odhadu: B(θ) = E(T ) θ If lim n {E(T ) θ} = 0 = T (X) asymptoticky nevychýlený. 1
2) Konzistence (consistency) T (X) konzistentní (consistent) odhad if lim P ( T θ < ɛ) = 1 ɛ > 0. n Tvrzení. Platí-li pro T (X) lim n B(θ) = 0 a lim n D(T (X)) = 0 = T (X) je konzistentní odhad θ. 3) Vydatnost (efficiency) T (X) vydatný (efficient) (nejlepší nestranný) odhad θ, jestliže má nejmenší rozptyl mezi všemi nestrannými T (X) parametru θ. Výběrová chyba statistiky T (X) : θ T (X) Střední kvadratická chyba (MSE) statistiky T (X) : MSE = E(T (X) θ) 2 =D(T (X))+B 2 (θ) (MSE = (rozptyl odhadu) + (jeho vychýlení) 2 ). Relativní vydatnost dvou nestranných odhadů Necht T a U jsou dva nestranné odhady parametru θ Vydatnost odhadu T vzhledem k odhadu U: e(t, U) = D(U) D(T ). Pro každé dva odhady (vychýlené i nevychýlené) platí: vydatnost odhadu T vzhledem k U = MSE(U) MSE(T ). 2
6.1.2. Metody bodových odhadů 1) Metoda momentů {X 1, X 2,..., X n } je n. z rozdělení F (x, θ), θ Θ. µ k(θ) = EXi k k = 1, 2,..., m, i = 1, 2,...n. Výběrové obecné momenty M k = 1 n n i=1 Xk i, k = 1, 2,..., m. Metoda momentů spočívá v řešení rovnic: µ k(θ) = M k, k = 1, 2,..., m vzhledem k θ při dané realizaci {x 1, x 2,..., x n } Zobecnění na odhad vektoru parametrů {X 1, X 2,..., X n } je n.výběr z rozdělení F (x, θ), θ = (θ 1, θ 2,..., θ r ) Θ R r. µ k(θ 1, θ 2,..., θ r ) = EX k i k = 1, 2,..., m, i = 1, 2,...n. Metoda momentů: µ k(θ 1, θ 2,..., θ r ) = M k, k = 1, 2,..., m vzhledem θ 1, θ 2,..., θ r při dané realizaci {x 1, x 2,..., x n }. 2) Metoda maximální věrohodnosti {X 1, X 2,..., X n } výběr z diskrét. rozd. s pstmi p i = P (X i = x i ) = p(x i, θ), θ Θ. {X 1, X 2,..., X n } výběr ze spoj. rozd. s hustotou f(x, θ), θ Θ. 3
Sdružená hustota n. v. X = (X 1, X 2,..., X n ) : p(x g(x, θ) = 1, θ)p(x 2, θ)...p(x n, θ) v diskr. případě f(x 1, θ)f(x 2, θ)...f(x n, θ) ve spoj. případě l(θ, X) - věrohodnostní funkce (likelihood function) jestliže g(x, θ) je funkcí proměnné θ při pevných hodnotách {x 1, x 2,..., x n }. L(θ, X) = ln l(θ, X) - logaritmická věrohodnostní funkce (log-likelihood function). Maximálně věrohodný odhad parametru θ (MLE maximum likelihood estimate) taková hodnota θ Θ, při které hodnota věrohodnostní funkce je maximální (tj. při dané realizaci {x 1, x 2,..., x n } je nejvěrohodnější ). MLE získáme řešením věrohodnostní rovnice δl(θ, X) δθ = 0 nebo řešením logaritmické věrohodnostní rovnice δl(θ, X) δθ = 0 Zobecnění na odhad vektoru parametrů θ MLE vektoru θ = {θ 1, θ 2,..., θ r } je ur en řešením soustavy věrohodnostních rovnic δl(θ, X) δθ i = 0, i = 1, 2,..., r. 4
6.2. Intervalové odhady Intervalový odhad (confidence-interval estimate) odhad parametru θ pomocí intervalu (θ D, θ H ), který s danou vysokou pstí bude obsahovat skutečnou hodnotu parametru θ. Interval (θ D, θ H ) je intervalem spolehlivosti (IS) (confidence interval) pro θ s koeficientem spolehlivosti (1 α) (confidence level) if θ D, θ H jsou dvě statistiky takové, že platí: P (θ (θ D, θ H )) = 1 α, α (0, 1). (100(1 α)% interval spolehlivosti, konfidenční interval). Jednostranné IS (one-tailed confidence interval) a) Pravostranný IS (one-tailed confidence interval to the right) P (θ < θ H ) = 1 α, P (θ θ H ) = α, b) Levostranný IS (one-tailed confidence interval to the left) P (θ θ D ) = α, P (θ > θ D ) = 1 α. Dvoustranné IS (two-tailed confidence interval) IS pro parametr θ určíme tak, aby P (θ θ D ) = P (θ θ H ) = 1 2 α, P (θ D < θ < θ H ) = 1 α 5
Vztah mezi přesností a spolehlivostí odhadu Spolehlivost odhadu je dána zvolenou pstí. Čím je tato pst větší, tím je i daný odhad spolehlivější. Čím více však roste spolehlivost odhadu (tj. (1 α) roste), tím se zvětšuje i příslušný IS, který udává přesnost odhadu. Mezi přesností a spolehlivostí odhadu při daném výběru existuje nepřímá úměrnost. Doporučené hodnoty: 1 α = 0.95 resp. 0.99 6
6.3. Odhady střední hodnoty, rozptylu a podílu Necht {X 1, X 2,..., X n } je n.výběr z rozdělení: EX i = µ, DX i = σ 2 <, i = 1, 2,...n. 6.3.1 Odhad střední hodnoty µ 1) Bodový odhad pro µ X je odhad pro µ. Střední hodnota X : E(X) = µ Směrodatná odchylka X : D(X) = σ n 2) Intervalový odhad pro µ a) σ známé, normální rozdělení nebo velké n Z statistika: Z = X µ σ n N (0, 1) z interval pro µ : x ± zα 2 σ n, z α : zα/2 ϕ(x)dx = α/2. z α/2 : kritická hodnota N -rozdělení Přípustná chyba odhadu (margin of the error): σ δ = z α/2 n Rozsah výběru n pro odhad µ : n z α/2σ δ 2 7
b) σ neznámé, normální rozdělení nebo velké n T statistika: T = X µ S n t(n 1) t interval pro µ : s x ± t α/2 n t α/2 je - kritická hodnota t- rozdělení o (n 1) stupních volnosti (degree of freedom) (df.). Rozsah výběru n pro odhad µ : s n t α/2 δ kde s je nějaký předběžný odhad s pořízený na základě předchozích informací nebo předvýběru. 2, 8
6.3.2. Odhad rozptylu σ 2 1) Bodový odhad pro σ 2 S 2 = 1 n 1 n i=1 (X i X) 2 je odhad pro σ 2. Střední hodnota S 2 : E(S 2 ) = σ 2 Směrodatná odchylka S 2 : D(S 2 ) = σ 2 2 n 1 2) Intervalový odhad pro σ 2 a) µ neznámé, normální rozdělení χ 2 statistika: χ 2 = (n 1)S2 σ 2 χ 2 (n 1) χ 2 interval pro odhad σ 2 : (n 1)s 2, χ 2 α/2 (n 1)s 2 χ 2 1 α/2 χ 2 α/2, χ 2 1 α/2 - kritické hodnoty χ 2 -rozdělení o n df. Interval není symetrický. b) µ známé, normální rozdělení nereálné 9
6.3.3. Odhad podílu p 1) Bodový odhad pro p Výběrový podíl: ˆp = x v n Střední hodnota ˆp : E(ˆp) = p Směrodatná odchylka ˆp : D(ˆp) = p(1 p) n 2) Intervalový odhad pro p z interval pro p : ˆp ± z α/2 ˆp(1 ˆp) n (Předpoklad: x v 5 n x v 5) Přípustná chyba odhadu: = z α/2 Rozsah výběru n pro odhad p : z α/2 2 ˆp(1 ˆp) n n = p g (1 p g ) n = 0.25 2, zaokrouhleno nahoru na nejbližší celé číslo (p g značí odhad podílu získaný na základě předchozích znalostí nebo dosadíme p g (1 p g ) = 0.25 = max p (0,1) p(1 p)). z α/2 10