STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s výběrem, který konstruujeme tak, aby se co nejvíce podobal celé populaci. Náš výběr je ta nejlepší informace, kterou v daném okamžiku máme. Charakteristiky výběru jsou pak tím nejlepším odhadem charakteristik základní populace. Musíme ale vědět, že pokud použijeme jiný výběr, budou vypočtené charakteristiky nabývat jiných hodnot.
Proto bychom rádi stanovili: 1. jak může odhad sledované charakteristiky kolísat 2. za jakých podmínek bude odhad v přípustných mezích (musíme určit především rozsah výběru) Slovo chyba je v pojetí statistiky neurčitost získané hodnoty a skládá se z: - přirozené biologické neurčitosti - nepřesnosti různých stanovení (měření) konkrétní sledované veličiny - nepřesnosti použitého modelu, který je vždy zjednodušením sledované reality Často se snažíme vyloučit vliv rušivých faktorů, sledovaná veličina může záviset na věku, pohlaví, životním stylu a mnoha dalších faktorech. Obvykle studujeme tak složité objekty, že není možno sledovat všechny vlivy a často ani nejsou známy. Vždy sledujeme jen ty podstatné a zbývající ponecháme schované v náhodné složce. To, které faktory vybrat a které zanedbat, závisí na podstatě řešeného problému a určují se ve spolupráci s odborníkem na zkoumaná data.
Pokud odhadujeme charakteristiky populace, můžeme chybu odhadu zmenšit především zvětšením rozsahu výběru. Variabilitu (nepřesnost) odhadu populační charakteristiky ale nikdy zcela neodstraníme. Když mluvíme o variabilitě jedince, nelze tuto variabilitu zmenšovat, můžeme jen upřesnit představu o její velikosti. Řekněme, že nás zajímá průměrná hodnota porodní hmotnosti - Nejjednodušší model pak popíšeme pomocí populačního průměru μ a náhodné chyby ε i, která symetricky kolísá okolo nuly (modeluje nepřesnost měření) a uvažujeme, že má například normální (Gaussovo) rozložení. - Ve skutečnosti může být ale model mnohem složitější.
Odhady je možno v principu rozdělit do dvou základních skupin: - bodové odhady - intervalové odhady BODOVÉ ODHADY Bodovým odhadem charakteristiky μ rozložení náhodné veličiny X nazveme číslo, které považujeme za nejlepšího reprezentanta odhadované charakteristiky μ. Odhadujeme charakteristiky uvažované populace, např. populační průměr, medián nebo rozptyl apod.
Bodové odhady těchto charakteristik získáme z našeho výběru. Tyto charakteristiky vyběru jsou pak tím nejlepším, co máme k dispozici. Kvalita odhadů populačních charakteristik je dána: - variabilitou veličiny X - rozsahem a reprezentativností výběru - zvoleným modelem - Čím více pozorování máme, tím je odhad hledané charakteristiky populace přesnější, stabilnější - Pokud ale zvolíme neadekvátní model, může dojít k výraznému zkreslení odhadu.
Například pokud sledujeme koncentraci škodlivin v ovzduší, má tato veličina často logaritmicko-normální rozložení - mohou se vyskytovat výrazně odlehlé hodnoty. Použití aritmetického průměru pak dává špatnou informaci. Mnohem vhodnější je geometrický průměr nebo i medián. Bodový odhad je samozřejmě také náhodná veličina, ale odhad je konstruován tak, aby měl co nejmenší náhodnou složku (byl co možná nejpřesnější). Protože všechny odhady jsou opět náhodné veličiny, je užitečné znát i jejich rozložení (vědět, jak hodně mohou kolísat). V obou případech je bodový odhad stejný, ale variabilita střední hodnoty je mnohem menší než variabilita hodnot, ze kterých se střední hodnota počítá.
INTERVALOVÉ ODHADY Intervalové odhady se nesnaží odhadovat jen nejpravděpodobnější hodnotu, ale snaží se o odhad prostoru, kde je možno očekávat skutečnou hodnotu sledované charakteristiky celé populace, ale také očekávanou hodnotu dalšího pozorování. Tento prostor je ohraničený zdola nebo shora na základě námi stanovené pravděpodobnosti. Tuto pravděpodobnost nazýváme hladinou spolehlivosti odhadu. Obvykle ji volíme 0,95 (95%). U statistických testů pak budeme mluvit o doplňku hladiny spolehlivosti - hladině významnosti α (v našem případě 0, 05 = 5%). Je to pravděpodobnost toho, že konstruovaný interval je chybný a neobsahuje skutečnou hodnotu.
Pro správný výpočet intervalového odhadu opět potřebujeme znát typ rozložení náhodné veličiny. V praxi jej často známe z jiných studií, např. měření různých délek v antropometrii mívá obvykle normální (Gaussovo) rozdělení. Pokud takovouto informaci nemáme, musíme sami zvolit typ rozložení a ověřit jeho přijatelnost. Uvažujme porodní hmotnost a pro jednoduchost předpokládejme, že má normální (Gaussovo) rozložení a že známe i jeho průměr μ a rozptyl σ. Chceme sestrojit intervalový odhad - minimální a maximální očekávanou hmotnost dalších dalších narozených dětí. Protože známe rozložení včetně jeho parametrů, potřebujeme ke zjištění intervalu stanovit pouze pravděpodobnost odpovídající dostatečné jistotě.
Stanovíme-li tedy pravděpodobnost 95% jako dostatečnou jistotu, matematický model hustoty pro Gaussovo rozdělení nám umožní na každé straně najít bod, pro který je pravděpodobnost všech menších (větších) hodnot 0,025 (2,5%) a zbývající interval tedy obsahuje 95% hodnot. Pokud by nás zajímalo pouze omezení z jedné strany (např. hranice pro škodlivou koncentraci látky - omezení shora, nebo minimální počet červených krvinek - omezení zdola), hledáme bod, nad (pod) kterým je pravděpodobnost výskytu dalších hodnot = 0,05 (5%). Matematický model hustoty rozložení vypočteme podle toho, zda se zajímáme o intervalový odhad výskytu dalších pozorování nebo o odhad charakteristiky populace (průměru).
Pro intervalový odhad výskytu dalších pozorování použijeme: - průměr a S.D. (běžnou směrodatnou odchylku, standard deviation) pro intervalový odhad charakteristiky populace (průměru) použijeme: - průměr a S.E. (střední chybu průměru, standard error), která je vždy menší. Mezi S.E. a S.D. je vztah S. E. = S. D. n, ze kterého vidíme, že intervalový odhad charakteristiky populace bude užší než intervalový odhad výskytu dalších pozorování.