Úvod do teorie odhadu Ing. Michael Rost, Ph.D.
Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost nezávislých náhodných veličin X 1, X 2,..., X n, z nichž každá je popsána prostřednictvím stejné hustoty pravděpodobnosti f(x, θ). Přirozené číslo n pak nazveme rozsahem výběru. Množinu všech možných výsledků, tj. realizací náhodného výběru nazveme výběrovým prostorem.
Podstata Obvykle pořizujeme či zpracováváme jeden výběrový soubor. Na jeho základě lze získat konkrétní hodnoty sledovaných charakteristik. Pokud bychom pořizovali další výběry, získali bychom pravděpodobně jiné hodnoty sledovaných charakteristik. Výběrový ukazatel, tj. námi sledovaná charakteristika je tedy náhodnou veličinou. Studium rozdělení těchto charakteristik hraje velkou roli při statistické indukci. K odhadu námi sledovaných charakteristik (statistik) lze použít dva typy odhadů: bodový a intervalový.
Bodový odhad Jestliže odhad nějakého parametru či charakteristiky rozdělení vyjadřujeme za pomoci jediného čísla hovoříme o tzv. bodovém odhadu. Například x je bodovým odhadem střední hodnoty µ. Je zřejmé, že bodový odhad neposkytuje žádnou informaci o kvalitě tohoto odhadu. Neříká nám nic o tom k jakému největšímu rozdílu mezi odhadem a skutečnou hodnotou parametru může dojít. Vzhledem k těmto nedostatkům se často využívá spíše druhého přístupu.
Intervalový odhad Ten spočívá v tom, že odhad vyjádříme pomocí dvou čísel, mezi nimiž se pohybuje skutečná hodnota hledaného parametru s předem zvolenou pravděpodobností. Čísla vymezující tento interval se nazývají dolní a horní mez intervalu spolehlivosti. Interval nazýváme 100(1 α)%-ní konfidenční interval nebo též 100(1 α)%-ní interval spolehlivosti. Číslo 1 α nazýváme koeficientem spolehlivosti. Číslo α pak hladinou významnosti. Spolehlivost odhadu voĺıme sami. Většinou chceme aby byla bĺızko 1 a voĺıme α = 0, 01 nebo častěji α = 0, 05.
Požadavky na kvalitní odhad Necht Θ je vyšetřovaný parametr (může jím být např: µ; σ; ρ; π nebo nějaký jiný parametr). Symbolem Ω označíme množinu všech možných hodnot parametru Θ a nazveme ji parametrickým prostorem. Na odhad parametru Θ klademe jisté požadavky a chceme, aby byl náš odhad tzv. kvalitní. Kvalitním odhadem rozumíme odhad, který splňuje následující požadavky: je nestranný je konzistentní je vydatný
Požadavky na kvalitní odhad je robustní
Nestrannost a konzistentnost Výběrová statistika (charakteristika) T je nestranným odhadem statistiky Θ, je-li Platí-li že, E(T ) = Θ. lim (E(T ) Θ) = 0, n pak je statistika T asymptoticky nestranným odhadem Θ. Za konzistentní odhad statistiky Θ označíme takovou statistiku T která splňuje rovnost lim P( Θ T < ε) = 1. n Jestliže je bodový odhad parametru Θ konzistentním, pak je malá pravděpodobnost toho, že se dopustíme velké chyby v odhadu parametru Θ, tak jak zvyšujeme rozsah výběru.
Vydatnost a robustnost Za vydatný odhad statistiky Θ označíme takovou statistiku T, která má ze všech nestranných odhadů nejmenší rozptyl. Za robustní odhad statistiky Θ označíme takovou statistiku T, u které nemají vychýlené hodnoty způsobené např. hrubou chybou měření příliš velký vliv na kvalitu odhadu.
Oboustranné a jednostranné intervaly spolehlivosti Podstata intervalového odhadu charakteristiky Θ spočívá v určení hodnot (statistik) T D a T H, tak aby platilo P(T D Θ T H ) = 1 α v případě oboustranného intervalu spolehlivosti, nebo resp. P(Θ T H ) = 1 α P(T D Θ) = 1 α v případě jednostranných intervalů spolehlivosti.
Intervaly spolehlivosti pro střední hodnotu V případě, že byl náš výběr získán z rozdělení N(µ; σ 2 ), kde tento rozptyl není znám, je hledaný oboustranný 100(1 α)%-ní interval spolehlivosti parametru µ dán následovně: P ( x s n t 1 α/2 (n 1) < µ < x + s n t 1 α/2 (n 1) ) = 1 α. Hodnota s n je odhadem směrodatné odchylky výběrového průměru a nazývá se standardní chybou. Hodnotu s n t 1 α/2 (n 1) nazýváme přípustnou chybou a označujeme ji pomocí symbolu.
Příklad Pět náhodných výběrů z N(µ = 6, 3; σ 2 = 0, 75 2 ) Pořadí Výběr 1 2 3 4 5 [1] 6.370081 7.083082 6.319876 5.251927 6.179550 [2] 5.701815 6.621196 6.752620 6.931483 6.076879 [3] 7.108537 7.690053 6.041517 6.380603 6.015531 [4] 4.924118 7.603818 6.964778 5.523105 6.864359 [5] 5.992801 5.587519 5.416479 4.729469 7.059191 [6] 6.313111 7.412955 4.745576 6.694711 5.490868 [7] 5.098033 5.085482 6.731250 6.191865 6.571824 [8] 7.005472 6.347151 7.161515 6.862836 7.764430 [9] 5.957509 6.217014 7.356648 5.445307 7.606649 [10] 7.373839 7.255628 4.998509 7.784706 4.891145 T D 5.596391 6.060938 5.590503 5.511593 5.804511 T H 6.772672 7.319841 6.907250 6.847609 7.099574
Grafické znázornění
Grafické znázornění Výbìry 0 20 40 60 80 100 5.5 6.0 6.5 7.0 7.5 C.I 95 %
Jednostranné intervaly spolehlivosti pro střední hodnotu Můžeme rovněž sestrojit pouze jednostranné intervaly spolehlivosti pro střední hodnotu. Lze je zapsat následovně: ( ; x t α (n 1) s ) n nebo ( x t 1 α (n 1) s n ; + ).
Využití intervalu spolehlivosti pro střední hodnotu Interval spolehlivosti pro µ lze využít trojím způsobem: Máme-li k dispozici výběrový soubor, stanovíme si 1 α, provedeme intervalový odhad střední hodnoty a spočítáme přípustnou chybu. Určíme si spolehlivost odhadu spolu s přípustnou chybu a zjišt ujeme jak velký musíme vybrat soubor, abychom při dané spolehlivosti odhadu nepřekročili přípustnou chybu. Postupujeme dle vzorců s = mi=1 (x i ˆx) 2 m 1, n = ( ) 2 st1 α/2 (m 1)
Využití intervalu spolehlivosti pro střední hodnotu Je-li n m, pak je rozsah souboru dostačující. Pokud je n > m je nutno výběr doplnit o n m jednotek. Máme-li k dispozici výběrový soubor, stanovíme si a zjišt ujeme, s jako spolehlivostí 1 α odhadujeme µ.
Intervaly spolehlivosti pro rozptyl a směrodatnou odchylku Pokud čeĺıme situaci, kdy neznáme parametr µ a výběr byl proveden z rozdělení N(µ; σ 2 ), pak je oboustranný interval spolehlivosti pro rozptyl vyjádřen následovně: ( ) (n 1)s 2 (n 1)s2 P χ 2 1 α/2 (n 1) < σ2 < χ 2 (n 1) α/2 = 1 α. Interval ( (n 1)s 2 (n 1)s 2 ) χ 2 1 α/2 (n 1); χ 2 (n 1) α/2 je tedy oboustranným (1 α)100%-ním intervalem spolehlivosti pro parametr σ 2. Drobnou úpravou lze získat intervalový odhad pro směrodatnou odchylku.
Jednostranné intervaly pro rozptyl Obdobně lze získat jednostranné intervaly spolehlivosti. Vyjdeme přitom ze vztahu ( ) P χ 2 (n 1)s2 α(n 1) < σ 2 = 1 α nebo ( (n 1)s 2 P σ 2 < χ 2 1 α (n 1) ) = 1 α.
Příklad Vážením mladých mužů bylo získáno 28 hodnot. 76 84 72 71 81 84 69 83 81 84 75 78 69 75 74 73 83 83 66 78 72 68 77 87 80 76 85 79 Na základě těchto hodnot stanovme: průměrnou hmotnost (bodový odhad) mladých mužů. 95%ní konfidenční interval pro průměrnou hmotnost mladých mužů. kolik pozorování je nutné provést, abychom se nedopustili větší chyby než ±3 Kg?
Příklad bodové odhady rozptylu a směrodatné odchylky. spolehlivost odhadu je-li δ = ±5 Kg a máme k dispozici výše uvedených 28 pozorování. 95%ní konfidenční interval pro rozptyl a směrodatnou odchylku.