STATISTICKÉ ODHADY Odhady populačních charakteristik

Podobné dokumenty
Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Normální (Gaussovo) rozdělení

Náhodné veličiny, náhodné chyby

KGG/STG Statistika pro geografy

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Normální (Gaussovo) rozdělení

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Tomáš Karel LS 2012/2013

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Stručný úvod do testování statistických hypotéz

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

= = 2368

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Jednofaktorová analýza rozptylu

You created this PDF from an application that is not licensed to print to novapdf printer (

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Náhodné chyby přímých měření

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

VÝBĚR A JEHO REPREZENTATIVNOST

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Regresní analýza 1. Regresní analýza

Ing. Michael Rost, Ph.D.

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Charakteristika datového souboru

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Ranní úvahy o statistice

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Základy popisné statistiky

8. Normální rozdělení

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

EXPERIMENTÁLNÍ MECHANIKA 2 Přednáška 5 - Chyby a nejistoty měření. Jan Krystek

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

3 Bodové odhady a jejich vlastnosti

Rozdělení náhodné veličiny. Distribuční funkce. Vlastnosti distribuční funkce

Testování statistických hypotéz

Intervalové Odhady Parametrů

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Jevy a náhodná veličina

Biostatistika a matematické metody epidemiologie- stručné studijní texty

Náhodné (statistické) chyby přímých měření

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

STATISTICKÉ ZJIŠŤOVÁNÍ

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Odhad parametrů N(µ, σ 2 )

STATISTICKÝ SOUBOR. je množina sledovaných objektů - statistických jednotek, které mají z hlediska statistického zkoumání společné vlastnosti

Cvičení ze statistiky - 8. Filip Děchtěrenko

Testy statistických hypotéz

Návrh a vyhodnocení experimentu

Základní statistické modely Statistické vyhodnocování exp. dat M. Čada ~ cada

15. T e s t o v á n í h y p o t é z

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

1. Přednáška. Ing. Miroslav Šulai, MBA

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Popisná statistika. Statistika pro sociology

Intervalové Odhady Parametrů II Testování Hypotéz

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Výběrové charakteristiky a jejich rozdělení

Technický experiment, příprava, provedení, hodnocení výsledků

STATISTICKÉ TESTY VÝZNAMNOSTI

PRAVDĚPODOBNOST A STATISTIKA

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Lineární regrese. Komentované řešení pomocí MS Excel

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

Úvod do problematiky měření

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

I. D i s k r é t n í r o z d ě l e n í

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Biostatistika Cvičení 7

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

12. cvičení z PST. 20. prosince 2017

Vybraná rozdělení náhodné veličiny

Pravděpodobnost a matematická statistika

p(x) = P (X = x), x R,

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Statistika, Biostatistika pro kombinované studium. Jan Kracík

KGG/STG Statistika pro geografy

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Statistická teorie učení

Testování statistických hypotéz

Zápočtová práce STATISTIKA I

Definice spojité náhodné veličiny zjednodušená verze

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Transkript:

STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s výběrem, který konstruujeme tak, aby se co nejvíce podobal celé populaci. Náš výběr je ta nejlepší informace, kterou v daném okamžiku máme. Charakteristiky výběru jsou pak tím nejlepším odhadem charakteristik základní populace. Musíme ale vědět, že pokud použijeme jiný výběr, budou vypočtené charakteristiky nabývat jiných hodnot.

Proto bychom rádi stanovili: 1. jak může odhad sledované charakteristiky kolísat 2. za jakých podmínek bude odhad v přípustných mezích (musíme určit především rozsah výběru) Slovo chyba je v pojetí statistiky neurčitost získané hodnoty a skládá se z: - přirozené biologické neurčitosti - nepřesnosti různých stanovení (měření) konkrétní sledované veličiny - nepřesnosti použitého modelu, který je vždy zjednodušením sledované reality Často se snažíme vyloučit vliv rušivých faktorů, sledovaná veličina může záviset na věku, pohlaví, životním stylu a mnoha dalších faktorech. Obvykle studujeme tak složité objekty, že není možno sledovat všechny vlivy a často ani nejsou známy. Vždy sledujeme jen ty podstatné a zbývající ponecháme schované v náhodné složce. To, které faktory vybrat a které zanedbat, závisí na podstatě řešeného problému a určují se ve spolupráci s odborníkem na zkoumaná data.

Pokud odhadujeme charakteristiky populace, můžeme chybu odhadu zmenšit především zvětšením rozsahu výběru. Variabilitu (nepřesnost) odhadu populační charakteristiky ale nikdy zcela neodstraníme. Když mluvíme o variabilitě jedince, nelze tuto variabilitu zmenšovat, můžeme jen upřesnit představu o její velikosti. Řekněme, že nás zajímá průměrná hodnota porodní hmotnosti - Nejjednodušší model pak popíšeme pomocí populačního průměru μ a náhodné chyby ε i, která symetricky kolísá okolo nuly (modeluje nepřesnost měření) a uvažujeme, že má například normální (Gaussovo) rozložení. - Ve skutečnosti může být ale model mnohem složitější.

Odhady je možno v principu rozdělit do dvou základních skupin: - bodové odhady - intervalové odhady BODOVÉ ODHADY Bodovým odhadem charakteristiky μ rozložení náhodné veličiny X nazveme číslo, které považujeme za nejlepšího reprezentanta odhadované charakteristiky μ. Odhadujeme charakteristiky uvažované populace, např. populační průměr, medián nebo rozptyl apod.

Bodové odhady těchto charakteristik získáme z našeho výběru. Tyto charakteristiky vyběru jsou pak tím nejlepším, co máme k dispozici. Kvalita odhadů populačních charakteristik je dána: - variabilitou veličiny X - rozsahem a reprezentativností výběru - zvoleným modelem - Čím více pozorování máme, tím je odhad hledané charakteristiky populace přesnější, stabilnější - Pokud ale zvolíme neadekvátní model, může dojít k výraznému zkreslení odhadu.

Například pokud sledujeme koncentraci škodlivin v ovzduší, má tato veličina často logaritmicko-normální rozložení - mohou se vyskytovat výrazně odlehlé hodnoty. Použití aritmetického průměru pak dává špatnou informaci. Mnohem vhodnější je geometrický průměr nebo i medián. Bodový odhad je samozřejmě také náhodná veličina, ale odhad je konstruován tak, aby měl co nejmenší náhodnou složku (byl co možná nejpřesnější). Protože všechny odhady jsou opět náhodné veličiny, je užitečné znát i jejich rozložení (vědět, jak hodně mohou kolísat). V obou případech je bodový odhad stejný, ale variabilita střední hodnoty je mnohem menší než variabilita hodnot, ze kterých se střední hodnota počítá.

INTERVALOVÉ ODHADY Intervalové odhady se nesnaží odhadovat jen nejpravděpodobnější hodnotu, ale snaží se o odhad prostoru, kde je možno očekávat skutečnou hodnotu sledované charakteristiky celé populace, ale také očekávanou hodnotu dalšího pozorování. Tento prostor je ohraničený zdola nebo shora na základě námi stanovené pravděpodobnosti. Tuto pravděpodobnost nazýváme hladinou spolehlivosti odhadu. Obvykle ji volíme 0,95 (95%). U statistických testů pak budeme mluvit o doplňku hladiny spolehlivosti - hladině významnosti α (v našem případě 0, 05 = 5%). Je to pravděpodobnost toho, že konstruovaný interval je chybný a neobsahuje skutečnou hodnotu.

Pro správný výpočet intervalového odhadu opět potřebujeme znát typ rozložení náhodné veličiny. V praxi jej často známe z jiných studií, např. měření různých délek v antropometrii mívá obvykle normální (Gaussovo) rozdělení. Pokud takovouto informaci nemáme, musíme sami zvolit typ rozložení a ověřit jeho přijatelnost. Uvažujme porodní hmotnost a pro jednoduchost předpokládejme, že má normální (Gaussovo) rozložení a že známe i jeho průměr μ a rozptyl σ. Chceme sestrojit intervalový odhad - minimální a maximální očekávanou hmotnost dalších dalších narozených dětí. Protože známe rozložení včetně jeho parametrů, potřebujeme ke zjištění intervalu stanovit pouze pravděpodobnost odpovídající dostatečné jistotě.

Stanovíme-li tedy pravděpodobnost 95% jako dostatečnou jistotu, matematický model hustoty pro Gaussovo rozdělení nám umožní na každé straně najít bod, pro který je pravděpodobnost všech menších (větších) hodnot 0,025 (2,5%) a zbývající interval tedy obsahuje 95% hodnot. Pokud by nás zajímalo pouze omezení z jedné strany (např. hranice pro škodlivou koncentraci látky - omezení shora, nebo minimální počet červených krvinek - omezení zdola), hledáme bod, nad (pod) kterým je pravděpodobnost výskytu dalších hodnot = 0,05 (5%). Matematický model hustoty rozložení vypočteme podle toho, zda se zajímáme o intervalový odhad výskytu dalších pozorování nebo o odhad charakteristiky populace (průměru).

Pro intervalový odhad výskytu dalších pozorování použijeme: - průměr a S.D. (běžnou směrodatnou odchylku, standard deviation) pro intervalový odhad charakteristiky populace (průměru) použijeme: - průměr a S.E. (střední chybu průměru, standard error), která je vždy menší. Mezi S.E. a S.D. je vztah S. E. = S. D. n, ze kterého vidíme, že intervalový odhad charakteristiky populace bude užší než intervalový odhad výskytu dalších pozorování.