ÚVOD DO TEORIE ODHADU. Martina Litschmannová, Adéla Vrtková

Podobné dokumenty
ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Zápočtová práce STATISTIKA I

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Charakteristika datového souboru

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Biostatistika Cvičení 7

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Praktická statistika. Petr Ponížil Eva Kutálková

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

8. Normální rozdělení

VŠB Technická univerzita Ostrava BIOSTATISTIKA

STATISTICKÉ ODHADY Odhady populačních charakteristik

KGG/STG Statistika pro geografy

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

VYBRANÁ ROZDĚLENÍ. SPOJITÉ NÁH. VELIČINY Martina Litschmannová

STATISTICKÉ ZJIŠŤOVÁNÍ

Normální (Gaussovo) rozdělení

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Tomáš Karel LS 2012/2013

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

Porovnání dvou výběrů

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Normální (Gaussovo) rozdělení

4ST201 STATISTIKA CVIČENÍ Č. 7

Korelační a regresní analýza

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Lineární regrese. Komentované řešení pomocí MS Excel

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Vybraná rozdělení náhodné veličiny

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně


Návrh a vyhodnocení experimentu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Určete zákon rozložení náhodné veličiny, která značí součet ok při hodu a) jednou kostkou, b) dvěma kostkami, c) třemi kostkami.

UNIVERZITA PARDUBICE

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvod do problematiky měření

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Testování statistických hypotéz

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

VŠB Technická univerzita Ostrava

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Aproximace binomického rozdělení normálním

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a matematická statistika

Minimální hodnota. Tabulka 11

= = 2368

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy teorie pravděpodobnosti

7. Rozdělení pravděpodobnosti ve statistice

Regresní a korelační analýza

Ing. Michael Rost, Ph.D.

Náhodné chyby přímých měření

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Induktivní statistika. z-skóry pravděpodobnost

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Pravděpodobnost a aplikovaná statistika

Odhad parametrů N(µ, σ 2 )

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Inferenční statistika - úvod. z-skóry normální rozdělení pravděpodobnost rozdělení výběrových průměrů

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Kvantily a písmenové hodnoty E E E E-02

Transkript:

ÚVOD DO TEORIE ODHADU Martina Litschmannová, Adéla Vrtková

Obsah Výběrové charakteristiky parametry populace vs. výběrové charakteristiky Úvod do teorie odhadu bodové odhady vs. intervalové odhady intervalové odhady jednovýběrové rozdílů, resp. podílů, parametrů dvou populací

Výběrové charakteristiky vs. parametry populace Parametry populace (obvykle pro jejich značení používáme symboly řecké abecedy) jsou konstanty. Charakteristiky výběru (obvykle značíme latinkou) jsou obvykle různé v závislosti na pořízeném výběru. Jsou to náhodné veličiny. Základní soubor (populace) Výběrový soubor (výběr) střední hodnota μ průměr തX medián x 0, 5 výběrový medián X 0,5 rozptyl σ 2 výběrový rozptyl S 2 směr. odchylka σ výběrová směr. odchylka S pravděpodobnost π rel. četnost π Poznámka: തX, μ Ƹ průměr (obecně, tj. průměr nějakého výběru, náhodná veličina), x ҧ průměr (konkrétní realizace, tj. průměr daného výběru, jedno číslo), p relativní četnost (konkrétní realizace zjištěna z daného výběru)

Úvod do teorie odhadu

Lze určit střední hodnotu životnosti el. součástek? Lze určit účinnost léku? Lze určit, který výrobce vyrábí kvalitněji? Neznáme-li rozdělení náhodné veličiny X, pak parametry náhodné veličiny X nelze většinou přesně určit, lze je jen odhadnout.

Jak odhadnout parametry populace? Bodový odhad - parametr základního souboru aproximujeme jediným číslem Intervalový odhad parametr populace aproximujeme intervalem, v němž s velkou pravděpodobností příslušný populační parametr leží.

Bodový odhad Mějme náhodný výběr X 1, X 2,, X n z určitého rozdělení, které závisí na neznámém parametru θ. Odhadem T parametru θ je pak výběrová charakteristika T X 1, X 2,, X n, která nabývá hodnot blízkých neznámému parametru θ. Vybrané populační parametry a jejich bodové odhady: konstanty obecně značíme θ Základní soubor (populace) Výběrový soubor (výběr) střední hodnota μ průměr തX medián x 0, 5 výběrový medián X 0,5 rozptyl σ 2 výběrový rozptyl S 2 směr. odchylka σ výběrová směr. odchylka S pravděpodobnost π rel. četnost π náhodné veličiny obecně značíme T X

Interval spolehlivosti vs. intervalový odhad Interval spolehlivosti (konfidenční interval) pro parametr θ se spolehlivostí 1 α, kde α 0; 1, je taková dvojice statistik T D, T H, že Intervalový odhad t D, t H P T D θ T H = 1 α. je jednou z realizací intervalu spolehlivosti. V čem spočívá výhoda intervalových odhadů vůči bodovým odhadům? Přinášejí informaci o nejistotě (nepřesnosti) odhadu.

Co je co v terminologii intervalových odhadů? P T D θ T H = 1 α hledaný parametr (konstanta, kterou nejsme schopni přesně určit) spolehlivost odhadu, tj. pravděpodobnost s níž hledaný parametr θ leží v intervalu T D ; T H meze intervalu spolehlivosti (náhodné veličiny)

1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 odhad Co to znamená, že spolehlivost odhadu je 1-α? 108 106 104 102 100 98 96 94 92 realizace Simulace intervalových odhadů střední hodnoty (spolehlivost 0,95) získaných na základě opakovaných výběrů o rozsahu 30 z populace se střední hodnotou 100. 6 intervalů ze 100 neobsahuje skutečnou střední hodnou.

Jaké máme požadavky na interval spolehlivosti? P T D θ T H = 1 α hladina významnosti Co největší spolehlivost odhadu. Co nejmenší šířka intervalu spolehlivosti. (S rostoucí šířkou intervalového odhadu klesá významnost získané informace.) Závěr: S rostoucí spolehlivostí se zvětšuje šířka intervalového odhadu a tím klesá významnost takto získané informace. Nutnost kompromisu α = 05, resp. 0,01nebo 0,10 S rostoucím rozsahem výběru se šířka intervalového odhadu snižuje.

Jaké jsou typy intervalů spolehlivosti? oboustranné P θ < T D = P θ > T H = α 2 Tyto dvě podmínky zaručují, že P T D θ T H = 1 α. jednostranné (odhadujeme-li například délku života nějakého zařízení, je pro nás důležitá pouze dolní mez) levostranné: P θ T D = 1 α pravostranné : P θ T H = 1 α

stejné rozdělení p-sti

hustota pravděpodobnosti Normalita dat častý předpoklad pro metody stat. indukce Normální rozdělení bývá vhodné k popisu náhodných veličin, které lze interpretovat jako aditivní výsledek mnoha nepatrných a vzájemně nezávislých faktorů (např. výška člověka, IQ, délky končetin ). Norm. rozdělení popisuje náhodné veličiny, jejichž hodnoty se symetricky shlukují kolem střední hodnoty a vytvářejí tak charakteristický tvar hustoty pravděpodobnosti známý pod názvem Gaussova křivka. X N μ; σ 2 f x = 1 σ 2π e 1 2 x μ σ 2 střední hodnota rozptyl

Normalita dat častý předpoklad pro metody stat. indukce X N μ; σ 2 f x = 1 σ 2π e 1 2 x μ σ 2 Vliv střední hodnoty μ na pozici Gaussovy křivky Vliv směrodatné odchylky σ na tvar Gaussovy křivky 0,4 stř. hodnota; sm. odchylka 0; 1 0,4 stř. hodnota; sm. odchylka 5; 1 5; 1 5; 3 0,3 0,3 10; 1 5; 5 f(x) 0,2 f(x) 0,2 0,1 0,1 0-5 -1 3 7 11 15 x 0-20 -10 0 10 20 30 x

Pravidlo 3σ Zdroj: http://www.sixsigma-institute.org/six_sigma_dmaic_process_measure_phase_measurement_system.php

Posouzení normality dat na základě explorační analýzy Posouzení na základě číselných charakteristik Výběrová šikmost i špičatost blízká nule (v praxi leží v intervalu 2; 2 ) Posouzení na základě grafických výstupů Histogram Odhad hustoty pravděpodobnosti Odhad distribuční funkce (empirická distribuční funkce) Q-Q graf

Histogram Pozor na zvolené členění - počet tříd!

Odhad hustoty pravděpodobnosti

Q-Q graf

Q-Q graf

Posuzování normality na základě explorační analýzy pro vybrané typy výběrových souborů

Q-Q graf ve tvaru S

Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy? s A = 36 mah s D = 38 mah s2 max 2 382 s min 36 2 1,12 < 2 nepředpokládáme, že výběry pocházejí z populací s různými rozptyly

Jak ověřit shodu rozptylů dvou populací na základě explorační analýzy? s A = 36 mah s B = 15 mah s2 max 2 382 s min 15 2 5,76 > 2 předpokládáme, že výběry pocházejí z populací s různými rozptyly

DĚKUJI ZA POZORNOST!