Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Podobné dokumenty
= = 2368

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

15. T e s t o v á n í h y p o t é z

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Stručný úvod do testování statistických hypotéz

15. T e s t o v á n í h y p o t é z

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

5. T e s t o v á n í h y p o t é z

Testování statistických hypotéz

2 ) 4, Φ 1 (1 0,005)

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení

Aproximace binomického rozdělení normálním

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování statistických hypotéz

Ing. Michael Rost, Ph.D.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování statistických hypotéz

Neparametrické metody

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

NEPARAMETRICKÉ TESTY

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

12. prosince n pro n = n = 30 = S X

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Úvod do analýzy rozptylu

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

12. cvičení z PST. 20. prosince 2017

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

KGG/STG Statistika pro geografy

Testy statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz. 4. přednáška

PRAVDĚPODOBNOST A STATISTIKA

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testování statistických hypotéz. Obecný postup

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Cvičení ze statistiky - 8. Filip Děchtěrenko

Jednostranné intervaly spolehlivosti

Testy. Pavel Provinský. 19. listopadu 2013

4ST201 STATISTIKA CVIČENÍ Č. 7

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Výběrové charakteristiky a jejich rozdělení

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Náhodné veličiny, náhodné chyby

Jana Vránová, 3. lékařská fakulta UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

STATISTICKÉ ODHADY Odhady populačních charakteristik

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Cvičení ze statistiky - 9. Filip Děchtěrenko

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Tomáš Karel LS 2012/2013

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Charakteristika datového souboru

7. Analýza rozptylu.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Jednofaktorová analýza rozptylu

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Neparametrické testy

populace soubor jednotek, o jejichž vlastnostech bychom chtěli vypovídat letní semestr Definice subjektech.

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Statistické testování hypotéz II

Transkript:

Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný parametr) se rovnají určitým hodnotám Alternativní hypotéza opak nulové hypotézy, často je to právě to, co se snažíme prokázat Podle typu obou hypotéz zvolíme rozhodovací kritérium (test, testové kritériu, které závisí na realizovaném náhodném výběru. Dospějeme k některému z možných rozhodnutí: Zamítáme, data (a tedy i test) svědčí proti této hypotéze Nezamítáme, data (a tedy i test) nedávají dostatek důkazů proti Chyby při rozhodování Při rozhodování mohou nastat dva druhy chyby: chyba 1. druhu platí a my ji zamítneme chyba 2. druhu neplatí a my ji nezamítneme Důležitým pojmem je hladina testu. Označujeme ji a její hodnotu volíme (obvykle 0,05). Hladina testu vyjadřuje nejvyšší přípustnou pravděpodobnost chyby 1. druhu. Možné situace představuje tabulka Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Postup při rozhodování Podle toho, co chceme zjistit, zformulujeme a a zvolíme. Pak zvolíme vhodné rozhodovací kritérium. To uděláme tak, že z testů, jejichž hladina je menší než vybereme obvykle ten s nejmenší pravděpodobností chyby 2. druhu. Testy o výběrových souborech Z-test jednovýběrový test střední hodnoty při známém rozptylu Nechť,, je náhodný výběr z rozdělení,, kde známe. Z dříve odvozeného vztahu dostaneme!"# $ %1 2 () Pro hypotézu : proti alternativní hypotéze :, lze použít testovou statistiku -! Na hladině pak zamítáme hypotézu a přikloníme se k alternativní hypotéze, Hypotézu nezamítáme, - "# $ %1 2 ( -.# $ %1 2 ( 1

S tím souvisí závěr testování, že hypotéza může platit. Poznámka pro dost velká! platí tento test dle Centrální limitní věty i pro jiná rozdělení než. t-test jednovýběrový test střední hodnoty při neznámém rozptylu Nechť,, je náhodný výběr z rozdělení,, kde neznáme. Platí, že!~1 / $ Z toho podobně jako u Z-testu plyne /!"1 $ %1 2 () Pro hypotézu : proti alternativní hypotéze :, lze použít testovou statistiku 2! / Na hladině pak zamítáme hypotézu a přikloníme se k alternativní hypotéze, Hypotézu nezamítáme, 2 "1 $ %1 2 ( 2.1 $ %1 2 ( S tím souvisí závěr testování, že hypotéza může platit. Párový t-test Máme-li k dispozici dvě sady dat. Pak se snažíme porovnat jejich střední hodnoty. Označíme vybrané veličiny,3,,,3. Předpokládáme, že hodnoty se stejným indexem nelze považovat za nezávislé (obvykle jsou totiž měřena na jediném objektu). Hodnoty s různými indexy za nezávislé považujeme (obvykle byly měřeny na různých objektech). Tuto situaci nazýváme dvourozměrným náhodným výběrem,3,,,3 takovým, že a 3 tvoří páry, které nelze považovat za nezávislé. Označíme 4 5 6, 7 53 6 Dále položme - 3,,- 3 Předpokládejme, že veličiny - se dají považovat za náhodný výběr z rozdělení,, kde 4 7 Chceme-li testovat hypotézu, že obě sady měření pocházejí z rozdělení o stejné střední hodnotě : 4 7 0 je totéž, jako test hypotézy :0. Test hypotézy : 0 proti alternativní hypotéze :,0 je úlohou jednovýběrového t-testu. Vypočítáme tedy - 1! 9-6, / ; 1!1 9-6- Na hladině zamítáme hypotézu : 4 7 a přikloníme se k alternativní hypotéze : 4, 7, 2-0 / ;!"1 $ %1 2 ( Dvouvýběrový t-test Mějme náhodný výběr,, ~ 4, a náhodný výběr,, < ~ 7,. Oba tyto výběry jsou nezávislé a mají stejný rozptyl. 2

Položme / 4 1!1 9 6, / 7 1 < =1 93 63 / 1!?=2 %!1 / 4?=1 / 7 ( Pro test hypotézy, že obě sady měření pocházejí z rozdělení o stejné střední hodnotě : 4 7 0 proti alternativní hypotéze : 4 7,0 je možno použít statistiku 2 30 / @! =!?= Na hladině zamítáme hypotézu : 4 7 a přikloníme se k alternativní hypotéze : 4, 7, 2 "1 A<$ %1 2 ( Znaménkový test V některých případech nejsou k dispozici výběrové soubory, ale jen informace o tom, kolikrát při velkém počtu nezávislých opakování zkoumaná veličina byla vyšší (+) nebo nižší (-) než nějaká zadaná hodnota. Přitom chceme testovat hypotézu, že medián rozdělení je roven právě té zadané hodnotě. Znaménkový test asymptotický pro velké n Mějme náhodný výběr,, ze spojitého rozdělení s mediánem BC. Platí tedy 6.BC 6 DBC 1 2, E1,,! Chceme testovat hypotézu : BCB proti alternativní hypotéze : BC,B, kde B je zadaná hodnota. Utvoříme rozdíly B, B, B. V tomto souboru rozdílů vynecháme nulové hodnoty a příslušně snížíme!. Dostaneme tak zkoumaný soubor 3. Předpokládáme-li platnost hypotézy, pak pro počet rozdílů s kladným znaménkem je 3~FE!,G1 2. Podle Moivrovy-Laplaceovy věty pro velké! platí 3~! 2,! 4. Lze tedy konstatovat, že při platnosti je J 3! 2 @! 23!! ~0,1 4 Na hladině zamítáme hypotézu : BCB a přikloníme se k alternativní hypotéze : BC,B, Znaménkový test exaktní (přesný) Tento test se používá jen tehdy, je-li! malé a nelze použít Moivrovu-Laplaceovu větu. Vycházíme z předpokladu, že platí-li hypotéza, pak pro počet rozdílů s kladným znaménkem je 3~FE!,G1 2. To znamená, že očekáváme, že zjištěná hodnota 3 bude blízko své střední hodnoty! 2. Zvolíme hladinu testu. Nalezneme největší číslo K a nejmenší číslo K, pro která ještě platí 3K 2, 3"K 2 Na hladině zamítáme hypotézu : BCB a přikloníme se k alternativní hypotéze : BC,B, když 3 K,K 3

Možná použití znaménkového testu Znaménkový test lze použít jako test o mediánu u náhodného výběru,, ze spojitého rozdělení Znaménkový test lze použít i místo jednovýběrového či párového t-testu. Výhodou znaménkového testu je, že u něj není požadováno normální rozdělení výběru. Nevýhodou znaménkového testu je, že u normálně rozděleného výběru je o něco větší chyba 2. druhu proti stejné chybě v t-testu. Jsme-li si jistí normalitou dat, je tudíž vhodnější použít t-test. Test o parametru p binomického rozdělení V některých případech máme k dispozici jen informaci, kolikrát při velkém počtu nezávislých opakování nastal určitý jev. Zajímá nás pravděpodobnost, že daný jev nastane. Budeme tedy testovat hypotézu o pravděpodobnosti. Test o parametru p binomického rozdělení asymptotický Předpokládejme, že máme k dispozici realizaci náhodné veličiny 3~FE!,G, například počet nějakých událostí v! stejných nezávislých pokusech. Chceme testovat hypotézu o pravděpodobnosti p, že událost nastane : GG proti alternativní hypotéze : G,G. Podle Moivrovy-Laplaceovy věty pro velké! platí 3~M! G,! G 1GN Lze tedy konstatovat, že při platnosti je 3! G J O! G 1G ~0,1 Na hladině zamítáme hypotézu : GG a přikloníme se k alternativní hypotéze : G,G, Poznámka Znaménkový test je speciálním případem testu o parametru binomického rozdělení pro G 1 2. Test o parametru p binomického rozdělení exaktní (přesný) Tento test používáme tehdy, je-li! malé. Předpokládejme, že máme k dispozici realizaci náhodné veličiny 3~FE!,G, například počet nějakých událostí v! stejných nezávislých pokusech. Očekáváme tedy, že zjištěná hodnoty 3 bude blízko své střední hodnoty! G. Zvolíme hladinu testu. Nalezneme největší číslo K a nejmenší číslo K, pro která ještě platí 3K 2, 3"K 2 Na hladině zamítáme hypotézu : GG a přikloníme se k alternativní hypotéze : G,G, 3 K,K Jednovýběrový Wilcoxonův test asymptotický Máme veličiny,, ze spojitého rozdělení se symetrickou hustotou s mediánem BC. Chceme testovat hypotézu : BCB proti alternativní hypotéze : BC,B, kde B je zadaná hodnota. Z dalšího zpracování vyloučíme pozorování, pro která je 6 B a příslušně snížíme!. Určíme průměrná pořadí P 6 A hodnot 6 B. 4

Test je založen na součtu pořadí P 6 A, to je těch hodnot 6 B, pro které je 6 B D0, neboli / 9 P 6 A 4 Q $R S T Vypočteme statistiku, která má za platnosti hypotézy : BCB asymptoticky normované normální rozdělení. Takovou statistikou je /!!?1 J 4 @!!?1 2!?1 24 Na hladině zamítáme hypotézu : BCB a přikloníme se k alternativní hypotéze : BC,B, Poznámka Tento test je založen na pořadí hodnot, nepožaduje se normalita. Jde o takzvaný neparametrický test. Nepředpokládáme u něj nějaké dané rozdělení s parametry, které je nutné odhadovat. Stejnou vlastnost má i znaménkový test. Wilcoxonův test je lepší než znaménkový test, protože má menší chybu 2. druhu. Poznámka k výběru testu Volíme-li mezi t-testem (případně párovým) a znaménkovým testem, pak záleží na situaci. Jsme-li si jisti normalitou, je vhodnější t-test, protože má menší chybu 2. druhu. Nemáme-li k dispozici přesná měření, ale jen počet kladných či záporných odchylek od hypotetického mediánu (znaménka), nezbývá, než použít znaménkový test. Pokud data nepocházejí z normálního rozdělení, ale máme k dispozici přesné hodnoty měření, lze použít jednovýběrový Wilcoxonův test. 5