Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Podobné dokumenty
Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Ing. Michael Rost, Ph.D.

6. ZÁKLADY STATIST. ODHADOVÁNÍ. Θ parametrický prostor. Dva základní způsoby odhadu neznámého vektoru parametrů bodový a intervalový.

STATISTICKÉ ODHADY Odhady populačních charakteristik

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 8. Filip Děchtěrenko

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Normální (Gaussovo) rozdělení

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

STATISTICKÉ ZJIŠŤOVÁNÍ

15. T e s t o v á n í h y p o t é z

3 Bodové odhady a jejich vlastnosti

Testování statistických hypotéz

Charakteristika datového souboru

8. Normální rozdělení

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Normální (Gaussovo) rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Základy teorie odhadu parametrů bodový odhad

Pravděpodobnost a statistika

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Testy. Pavel Provinský. 19. listopadu 2013

Testování statistických hypotéz

Pravděpodobnost a matematická statistika

Cvičení ze statistiky - 7. Filip Děchtěrenko

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

12. cvičení z PST. 20. prosince 2017

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Intervalové Odhady Parametrů

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

4EK211 Základy ekonometrie

Výběrové charakteristiky a jejich rozdělení

Téma 22. Ondřej Nývlt

Deskriptivní statistické metody II. Míry polohy Míry variability

15. T e s t o v á n í h y p o t é z

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhad parametrů N(µ, σ 2 )

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Příklady na testy hypotéz o parametrech normálního rozdělení

Odhady Parametrů Lineární Regrese

MATEMATICKÁ STATISTIKA

Testování statistických hypotéz. Obecný postup

5. T e s t o v á n í h y p o t é z

Lineární regrese. Komentované řešení pomocí MS Excel

5. B o d o v é o d h a d y p a r a m e t r ů

Základy teorie pravděpodobnosti

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Regresní analýza 1. Regresní analýza

4EK211 Základy ekonometrie

Limitní věty teorie pravděpodobnosti. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Pravděpodobnost a statistika (BI-PST) Cvičení č. 9

Odhad parametrů N(µ, σ 2 )

PRAVDĚPODOBNOST A STATISTIKA. Odhady parametrů Postačující statistiky

5 Parametrické testy hypotéz

STATISTICKÉ HYPOTÉZY

Statistika, Biostatistika pro kombinované studium. Jan Kracík

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Náhodné chyby přímých měření

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Pravděpodobnost a aplikovaná statistika

Apriorní rozdělení. Jan Kracík.

Intervalové Odhady Parametrů II Testování Hypotéz

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

1. Přednáška. Ing. Miroslav Šulai, MBA

Charakterizace rozdělení

Úvod do problematiky měření

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

5. Odhady parametrů. KGG/STG Zimní semestr

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Tomáš Karel LS 2012/2013

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Základní statistické metody v rizikovém inženýrství

4EK211 Základy ekonometrie

4EK211 Základy ekonometrie

PRAVDĚPODOBNOST A STATISTIKA

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

I. D i s k r é t n í r o z d ě l e n í

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Jednofaktorová analýza rozptylu

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

= = 2368

p(x) = P (X = x), x R,

Transkript:

Úvod do teorie odhadu Ing. Michael Rost, Ph.D.

Náhodný výběr Náhodným výběrem ze základního souboru populace, která je popsána prostřednictvím hustoty pravděpodobnosti f(x, θ), budeme nazývat posloupnost nezávislých náhodných veličin X 1, X 2,..., X n, z nichž každá je popsána prostřednictvím stejné hustoty pravděpodobnosti f(x, θ). Přirozené číslo n pak nazveme rozsahem výběru. Množinu všech možných výsledků, tj. realizací náhodného výběru nazveme výběrovým prostorem.

Podstata Obvykle pořizujeme či zpracováváme jeden výběrový soubor. Na jeho základě lze získat konkrétní hodnoty sledovaných charakteristik. Pokud bychom pořizovali další výběry, získali bychom pravděpodobně jiné hodnoty sledovaných charakteristik. Výběrový ukazatel, tj. námi sledovaná charakteristika je tedy náhodnou veličinou. Studium rozdělení těchto charakteristik hraje velkou roli při statistické indukci. K odhadu námi sledovaných charakteristik (statistik) lze použít dva typy odhadů: bodový a intervalový.

Bodový odhad Jestliže odhad nějakého parametru či charakteristiky rozdělení vyjadřujeme za pomoci jediného čísla hovoříme o tzv. bodovém odhadu. Například x je bodovým odhadem střední hodnoty µ. Je zřejmé, že bodový odhad neposkytuje žádnou informaci o kvalitě tohoto odhadu. Neříká nám nic o tom k jakému největšímu rozdílu mezi odhadem a skutečnou hodnotou parametru může dojít. Vzhledem k těmto nedostatkům se často využívá spíše druhého přístupu.

Intervalový odhad Ten spočívá v tom, že odhad vyjádříme pomocí dvou čísel, mezi nimiž se pohybuje skutečná hodnota hledaného parametru s předem zvolenou pravděpodobností. Čísla vymezující tento interval se nazývají dolní a horní mez intervalu spolehlivosti. Interval nazýváme 100(1 α)%-ní konfidenční interval nebo též 100(1 α)%-ní interval spolehlivosti. Číslo 1 α nazýváme koeficientem spolehlivosti. Číslo α pak hladinou významnosti. Spolehlivost odhadu voĺıme sami. Většinou chceme aby byla bĺızko 1 a voĺıme α = 0, 01 nebo častěji α = 0, 05.

Požadavky na kvalitní odhad Necht Θ je vyšetřovaný parametr (může jím být např: µ; σ; ρ; π nebo nějaký jiný parametr). Symbolem Ω označíme množinu všech možných hodnot parametru Θ a nazveme ji parametrickým prostorem. Na odhad parametru Θ klademe jisté požadavky a chceme, aby byl náš odhad tzv. kvalitní. Kvalitním odhadem rozumíme odhad, který splňuje následující požadavky: je nestranný je konzistentní je vydatný

Požadavky na kvalitní odhad je robustní

Nestrannost a konzistentnost Výběrová statistika (charakteristika) T je nestranným odhadem statistiky Θ, je-li Platí-li že, E(T ) = Θ. lim (E(T ) Θ) = 0, n pak je statistika T asymptoticky nestranným odhadem Θ. Za konzistentní odhad statistiky Θ označíme takovou statistiku T která splňuje rovnost lim P( Θ T < ε) = 1. n Jestliže je bodový odhad parametru Θ konzistentním, pak je malá pravděpodobnost toho, že se dopustíme velké chyby v odhadu parametru Θ, tak jak zvyšujeme rozsah výběru.

Vydatnost a robustnost Za vydatný odhad statistiky Θ označíme takovou statistiku T, která má ze všech nestranných odhadů nejmenší rozptyl. Za robustní odhad statistiky Θ označíme takovou statistiku T, u které nemají vychýlené hodnoty způsobené např. hrubou chybou měření příliš velký vliv na kvalitu odhadu.

Oboustranné a jednostranné intervaly spolehlivosti Podstata intervalového odhadu charakteristiky Θ spočívá v určení hodnot (statistik) T D a T H, tak aby platilo P(T D Θ T H ) = 1 α v případě oboustranného intervalu spolehlivosti, nebo resp. P(Θ T H ) = 1 α P(T D Θ) = 1 α v případě jednostranných intervalů spolehlivosti.

Intervaly spolehlivosti pro střední hodnotu V případě, že byl náš výběr získán z rozdělení N(µ; σ 2 ), kde tento rozptyl není znám, je hledaný oboustranný 100(1 α)%-ní interval spolehlivosti parametru µ dán následovně: P ( x s n t 1 α/2 (n 1) < µ < x + s n t 1 α/2 (n 1) ) = 1 α. Hodnota s n je odhadem směrodatné odchylky výběrového průměru a nazývá se standardní chybou. Hodnotu s n t 1 α/2 (n 1) nazýváme přípustnou chybou a označujeme ji pomocí symbolu.

Příklad Pět náhodných výběrů z N(µ = 6, 3; σ 2 = 0, 75 2 ) Pořadí Výběr 1 2 3 4 5 [1] 6.370081 7.083082 6.319876 5.251927 6.179550 [2] 5.701815 6.621196 6.752620 6.931483 6.076879 [3] 7.108537 7.690053 6.041517 6.380603 6.015531 [4] 4.924118 7.603818 6.964778 5.523105 6.864359 [5] 5.992801 5.587519 5.416479 4.729469 7.059191 [6] 6.313111 7.412955 4.745576 6.694711 5.490868 [7] 5.098033 5.085482 6.731250 6.191865 6.571824 [8] 7.005472 6.347151 7.161515 6.862836 7.764430 [9] 5.957509 6.217014 7.356648 5.445307 7.606649 [10] 7.373839 7.255628 4.998509 7.784706 4.891145 T D 5.596391 6.060938 5.590503 5.511593 5.804511 T H 6.772672 7.319841 6.907250 6.847609 7.099574

Grafické znázornění

Grafické znázornění Výbìry 0 20 40 60 80 100 5.5 6.0 6.5 7.0 7.5 C.I 95 %

Jednostranné intervaly spolehlivosti pro střední hodnotu Můžeme rovněž sestrojit pouze jednostranné intervaly spolehlivosti pro střední hodnotu. Lze je zapsat následovně: ( ; x t α (n 1) s ) n nebo ( x t 1 α (n 1) s n ; + ).

Využití intervalu spolehlivosti pro střední hodnotu Interval spolehlivosti pro µ lze využít trojím způsobem: Máme-li k dispozici výběrový soubor, stanovíme si 1 α, provedeme intervalový odhad střední hodnoty a spočítáme přípustnou chybu. Určíme si spolehlivost odhadu spolu s přípustnou chybu a zjišt ujeme jak velký musíme vybrat soubor, abychom při dané spolehlivosti odhadu nepřekročili přípustnou chybu. Postupujeme dle vzorců s = mi=1 (x i ˆx) 2 m 1, n = ( ) 2 st1 α/2 (m 1)

Využití intervalu spolehlivosti pro střední hodnotu Je-li n m, pak je rozsah souboru dostačující. Pokud je n > m je nutno výběr doplnit o n m jednotek. Máme-li k dispozici výběrový soubor, stanovíme si a zjišt ujeme, s jako spolehlivostí 1 α odhadujeme µ.

Intervaly spolehlivosti pro rozptyl a směrodatnou odchylku Pokud čeĺıme situaci, kdy neznáme parametr µ a výběr byl proveden z rozdělení N(µ; σ 2 ), pak je oboustranný interval spolehlivosti pro rozptyl vyjádřen následovně: ( ) (n 1)s 2 (n 1)s2 P χ 2 1 α/2 (n 1) < σ2 < χ 2 (n 1) α/2 = 1 α. Interval ( (n 1)s 2 (n 1)s 2 ) χ 2 1 α/2 (n 1); χ 2 (n 1) α/2 je tedy oboustranným (1 α)100%-ním intervalem spolehlivosti pro parametr σ 2. Drobnou úpravou lze získat intervalový odhad pro směrodatnou odchylku.

Jednostranné intervaly pro rozptyl Obdobně lze získat jednostranné intervaly spolehlivosti. Vyjdeme přitom ze vztahu ( ) P χ 2 (n 1)s2 α(n 1) < σ 2 = 1 α nebo ( (n 1)s 2 P σ 2 < χ 2 1 α (n 1) ) = 1 α.

Příklad Vážením mladých mužů bylo získáno 28 hodnot. 76 84 72 71 81 84 69 83 81 84 75 78 69 75 74 73 83 83 66 78 72 68 77 87 80 76 85 79 Na základě těchto hodnot stanovme: průměrnou hmotnost (bodový odhad) mladých mužů. 95%ní konfidenční interval pro průměrnou hmotnost mladých mužů. kolik pozorování je nutné provést, abychom se nedopustili větší chyby než ±3 Kg?

Příklad bodové odhady rozptylu a směrodatné odchylky. spolehlivost odhadu je-li δ = ±5 Kg a máme k dispozici výše uvedených 28 pozorování. 95%ní konfidenční interval pro rozptyl a směrodatnou odchylku.