Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr



Podobné dokumenty
KGG/STG Statistika pro geografy

= = 2368

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

STATISTICKÉ ZJIŠŤOVÁNÍ

PRAVDĚPODOBNOST A STATISTIKA

Cvičení ze statistiky - 9. Filip Děchtěrenko

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

STATISTICKÉ ODHADY Odhady populačních charakteristik

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

4ST201 STATISTIKA CVIČENÍ Č. 7

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

INDUKTIVNÍ STATISTIKA

Testování hypotéz. 4. přednáška

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Testování statistických hypotéz

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Regresní analýza 1. Regresní analýza

Normální (Gaussovo) rozdělení

5 Parametrické testy hypotéz

Tomáš Karel LS 2012/2013

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Tomáš Karel LS 2012/2013

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Charakteristika datového souboru

Testy. Pavel Provinský. 19. listopadu 2013

Normální (Gaussovo) rozdělení

Intervalové Odhady Parametrů

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Pravděpodobnost a matematická statistika

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

StatSoft Jak poznat vliv faktorů vizuálně

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testy statistických hypotéz

Lineární regrese. Komentované řešení pomocí MS Excel

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Příklady na testy hypotéz o parametrech normálního rozdělení

Ing. Michael Rost, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Intervalové Odhady Parametrů II Testování Hypotéz

Korelační a regresní analýza

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

8. Normální rozdělení

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

You created this PDF from an application that is not licensed to print to novapdf printer (

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Pravděpodobnost a aplikovaná statistika

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Ilustrační příklad odhadu LRM v SW Gretl

Regresní a korelační analýza

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

12. cvičení z PST. 20. prosince 2017

You created this PDF from an application that is not licensed to print to novapdf printer (

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Bodové a intervalové odhady parametrů v regresním modelu

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Porovnání dvou výběrů

Základní statistické metody v rizikovém inženýrství

Jednofaktorová analýza rozptylu

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Testy nezávislosti kardinálních veličin

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Aproximace binomického rozdělení normálním

KORELACE. Komentované řešení pomocí programu Statistica

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Korelace. Komentované řešení pomocí MS Excel

Jednostranné intervaly spolehlivosti

Regresní a korelační analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

z dat nasbíraných v letech Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

Diagnostika regrese pomocí grafu 7krát jinak

STATISTICKÉ HYPOTÉZY

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

8 Střední hodnota a rozptyl

Regresní a korelační analýza

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Transkript:

StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule navazuje na to, co bylo probráno v minulých dílech newsletteru StatSoft Academy. C o je to interval asi ví každý, je to prostě nějaká oblast řekněme mezi čísly a. Pokud toto jsou omezená čísla, pak mluvíme o intervalu oboustranném, pokud by jedno z čísel bylo nekonečno, pak mluvíme o intervalu jednostranném. No a co určuje interval ve statistickém kontextu? Vždy je to nějaký interval, do kterého padne nějaká hodnota s předem danou pravděpodobností. Jinak a lépe řečeno, interval pokryje hodnotu, o kterou se zajímáme, s danou pravděpodobností. Intervalový odhad Začneme asi nejzákladnějším typem intervalu, s kterým se můžeme ve statistice setkat, tím je takzvaný intervalový odhad. Je jakýmsi doplněním odhadu bodového (o bodových odhadech jsme si říkali v předchozích newsletterech Popisná statistika a Míry variability). No, popravdě jsme přímo pojem bodový odhad nepoužili a trochu se mu vyhnuli, ale je možné si to představit úplně jednoduše, bodový odhad odhaduje danou charakteristiku jako jedno číslo (například bodovým odhadem střední hodnoty může být průměr naměřených hodnot, bodovým odhadem rozptylu může být výběrový rozptyl). Namísto toho intervalový odhad není číslo, ale hned celý interval, ve kterém by měla daná charakteristika (například střední hodnota) ležet s určitou velkou pravděpodobností (pokud je tato pravděpodobnost například 0,95, pak hovoříme o 95% intervalu spolehlivosti). Další pojmy Interval spolehlivosti intervalový odhad nějakého parametru s danou pravděpodobností konfidenční interval pro daný parametr Všechny tyto intervaly tedy v zásadě znamenají to stejné. Jinak se také můžeme setkat s dalšími pojmy: Predikční intervalinterval pro budoucí pozorování, které do něj padne s danou pravděpodobností Kritický obormnožina, kde zamítáme hypotézu většinou je to doplněk k nějakému konfidenčnímu intervalu Proč je intervalový odhad důležitý? Bodový odhad sice udává jako odhad číslo, ale neříká už nic o přesnosti tohoto odhadu a jeho rozptýlenosti. Jako praktický příklad ze života uveďme situaci, kdy odběratel nějakého výrobku sleduje a požaduje zaručení nějaké vlastnosti tohoto výrobku (například takové, které se mohou převozem mírně změnit, ale v zásadě to mohou být i jiné vlastnosti jako velikost výrobku, obsah nějaké sloučeniny), pokud výrobce tuto vlastnost udá jako jedno číslo, nemá téměř šanci se do tohoto čísla trefit a může čelit stížnostem s nedodržením deklarované hodnoty,

pokud ale uvede, že daná vlastnost se pohybuje v mezích odlišná. a s nějakou danou pravděpodobností, pak je situace zcela Intervalový odhad, stejně jako odhad bodový, je založen na informaci z dat, většinou se tedy opírá o nějaké statistiky (funkce vypočítané z dat). Pro konstrukci intervalu opět potřebujeme znát teoretické rozdělení za daty (stejně jako u metod testování hypotéz), abychom mohli stanovit, kde přesně bude mít interval krajní body, aby za tohoto rozdělení pokrýval interval tu správnou předem danou pravděpodobnost. Příklad Uveďme si vše na příkladu, tento příklad je rozšířením příkladu z článku o testování spotřeby automobilu. Připomeňte data tohoto příkladu i vypočtený 95% interval spolehlivosti: Jak již bylo napsáno: v tomto intervalu se bude s 95% pravděpodobností pohybovat skutečná průměrná spotřeba v l/100km (tedy skutečná střední hodnota). Nyní by bylo záhodno vysvětlit, jak přesně jsme tento interval získali. Víme, podle předpokladů na rozdělení dat, že bude mít veličina t rozdělení o intervalu rozdělení o 1 stupních volnosti ( je průměr, je výběrový rozptyl). Tedy bude ležet v ( ) značí kvantil t 1 s pravděpodobností 1, 1 stupních volnosti. Jinak řečeno tedy A teď si stačí jen interval přepsat:. 0 0 0.

Poznámka: Mimochodem, interval lze ještě mírně zjednodušit tím, že, protože t rozdělení je symetrické okolo 0. Zjednodušený interval tedy bude také symetrický (v tomto případě okolo průměru): 0 + Máme tedy intervalový odhad pro střední hodnotu hledáme 95% interval) získáme výsledky z tabulky... Po dosazení reálně naměřených hodnot a hodnoty 0,05 (tedy Poznámka: Možná se divíte, proč je hodnota 1,5 mimo interval, když to má být vlastně. Je to proto, že v příkladu teprve ověřujeme na základě dat, jestli tento předpoklad ( 1,5) opravdu platí. Nicméně pokud by platil, pak 1,5 leží na 95% uvnitř intervalu spolehlivosti. Podle výsledků to tedy spíše vypadá, že data budou pocházet z rozdělení s jinou hodnotou. Co také můžeme dále pozorovat z předchozích vzorců? Shrňme hlavní principy (vlastnosti) tohoto intervalového odhadu (ale i obecně mnoha dalších konstruovaných stejným způsobem tedy většinou těch, založených na průměru): Co kdybychom se podívali na velikost intervalů při různé velikosti. Následující tabulky jsou pro 0,1; 0,05 a 0,01: Je jasně vidět, že nižší značí širší interval (při nižší hodnotě se musí do intervalu vejít více hodnot, tedy je interval širší. Hodnota, tak jak jsme si jej nadefinovali, totiž koresponduje s procentem hodnot mimo interval). Vyšší rozptyl větší šířka intervalu (je pravda, že interval určuje jakousi přesnost, čím menší máme v datech rozptyl, tím přesněji můžeme odhadovat střední hodnotu). Pokud máme stále stejný výběrový rozptyl a stejný průměr, pak se s rostoucím interval zužuje (máme víc dat a tedy přesnější informaci). Průměr určuje střed intervalu (což koresponduje s tím, že vycházíme z průměru, který je bodovým odhadem střední hodnoty). Pro ilustraci jsou tyto vztahy ukázány na následujících obrázcích Poznámka: I když je tato poznámka šedou barvou, je velmi důležitá! Viděli jsme, že s klesajícím se rozšiřuje interval spolehlivosti. Dejme si to nyní do souvislosti s tak často u testů používanou p-hodnotou: v příkladu se spotřebou vyšla p-hodnota 0,0000003. To znamená, že pro 0,0000003 je hranice intervalu přesně na teoretické hodnotě, v našem případě 1,5. Z hlediska teorie testování hypotéz je to nejmenší hladina, na které ještě nezamítáme hypotézu 1,5.

Drobná simulační studie Máte rádi simulační studie? My ano. Zkusíme si tedy úlohu intervalu spolehlivosti pro střední hodnotu nasimulovat. Nagenerovali jsme si 100 náhodných výběrů z normovaného normálního rozdělení každý o 10 pozorováních a udělali pro každý tento výběr intervalový odhad střední hodnoty. Skutečnou střední hodnotu zde známe, je to 0. Výsledek můžete vidět na následujícím obrázku, každá čára přestavuje jeden 95% interval spolehlivosti pro jeden výběr. Z tohoto obrázku je opět vidět základní princip intervalu spolehlivosti: přibližně 95 % intervalů by mělo pokrývat skutečnou střední hodnotu, na základě které byly data generovány (z obrázku je vidět, že některé intervaly nepřekrývají hodnotu 0, která je v obrázku vyznačena zeleně).

Intervaly pro jednotlivé hodnoty V předchozím jsme si ukazovali interval pro střední hodnotu založenou na průměru. Nyní zmíníme jednodušší případ a to interval přímo pro naměřené hodnoty. Jednoduše interval, který má obsahovat nějaké procento dat, bude vymezen kvantily rozdělení těchto dat. Příklad Máme data, která pocházejí z normálního rozdělení se střední hodnotou 0 a rozptylem 1, pak bude hodnota z tohoto rozdělení ležet s pravděpodobností 1 v intervalu,, kde ( ) je kvantil normovaného normálního rozdělení. Je potřeba si uvědomit, že tento interval nezávisí na počtu pozorování, což je hlavní rozdíl oproti intervalům pro střední hodnotu založeným na průměru. Kde můžete na intervaly narazit? Jak jsme již naznačili, s intervaly se ve statistice setkáváme velmi často, proto shrňme úplně to nejběžnější použití: Testování hypotéz: t-testy (viz přesné použití v článku článku o testování spotřeby automobilu) Interval spolehlivosti pro regresní koeficienty (určuje se podle nich důležitost - nenulovost daného regresního koeficientu) Test významnosti Pearsonova korelačního koeficientu (určuje se jím významná nenulovost tohoto koeficientu) Predikční intervaly pro budoucí hodnoty časové řady Atd. Prakticky každý test je založen na kritickém oboru, který odpovídá nějakému intervalu, ten závisí na datech na jejich počtu a hodnotách a také na hladině významnosti.