Fisherův exaktní test

Podobné dokumenty
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Přednáška X. Testování hypotéz o kvantitativních proměnných

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Testy nezávislosti kardinálních veličin

Jana Vránová, 3. lékařská fakulta UK

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

12. cvičení z PST. 20. prosince 2017

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Seminář 6 statistické testy

Testování hypotéz o kvalitativních proměnných

Design Experimentu a Statistika - AGA46E

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Analýza dat z dotazníkových šetření

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Uloha B - Kvantitativní test. Radek Kubica A7B39TUR. B1 Radek Kubica Kvantitativní testování Stránka 1

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Cvičení 12: Binární logistická regrese

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

McNemarův test, Stuartův test, Test symetrie

Statistika, Biostatistika pro kombinované studium. Jan Kracík

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Základy biostatistiky (MD710P09) ak. rok 2008/2009

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Příklad: Test nezávislosti kategoriálních znaků

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

2 ) 4, Φ 1 (1 0,005)

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

1.1 Úvod Data Statistická analýza dotazníkových dat 8. Literatura 10

15. T e s t o v á n í h y p o t é z

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Poznámky k předmětu Aplikovaná statistika, 11. téma

15. T e s t o v á n í h y p o t é z

Frekvenční analýza, čtyřpolní tabulky

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testy. Pavel Provinský. 19. listopadu 2013

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Testování uživatelského rozhraní

Statistická analýza jednorozměrných dat

Základy počtu pravděpodobnosti a metod matematické statistiky

KVADRATICKÁ KALIBRACE

Plánovací diář a Google Calendar

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

A7B39TUR Úloha B Kvantitativní testování ZS 2013/2014 Software MS Office Word a Open Office Writer

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

ADDS cvičení 7. Pavlína Kuráňová

PRAVDĚPODOBNOST A STATISTIKA

ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Kvantitativní testování porovnání Alza.cz a Mall.cz

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ADDS cviceni. Pavlina Kuranova

Aplikace 2: Hledání informativních příznaků pro rozpoznávání

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Testování statistických hypotéz

5. T e s t o v á n í h y p o t é z

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

7.1. Podstata testu statistické hypotézy

Příklady na testy hypotéz o parametrech normálního rozdělení

Pravděpodobnost a matematická statistika

Způsoby chození do schodů

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Tomáš Karel LS 2012/2013

KGG/STG Statistika pro geografy

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Ranní úvahy o statistice

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Charakteristika datového souboru

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

8 Coxův model proporcionálních rizik I

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

KGG/STG Statistika pro geografy

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

Transkript:

Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017

Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým rozdělením. Chceme testovat rovnost parametrů binomických rozdělění v řádcích (sloupcích) nebo ekvivalentně nezávislost 2 binomických rozdělení, které přiřazují řádek a sloupec v tabulce. Počet pozorování je moc malý, takže nemůžeme použít limitní χ 2 1 rozdělení 2/17 Karel Kozmík Faktoriálový test

Značení Tabulka: Tabulka četností Z = 1 Z = 2 Σ X=1 n 11 n 12 n 1+ X=2 n 21 n 22 n 2+ Σ n +1 n +2 n Tabulka: Tabulka pravděpodobností Z = 1 Z = 2 Σ X=1 p 11 p 12 p 1+ X=2 p 21 p 22 p 2+ Σ p +1 p +2 1 3/17 Karel Kozmík Faktoriálový test

Způsob testování Budeme předpokládat dopředu zvolené marginální četnosti (n 1+,..., n +2 ) Zjitíme, jaká je pravděpodobnost, že bychom za tohoto předpokladu dostali tabulku s četnostmi, která více odporuje předpokladu nezávislosti, než tabulka s napozorovanými četnostmi n 11, n 12... Tedy počítáme p-hodnotu (a budeme zamítat pro p < α) 4/17 Karel Kozmík Faktoriálový test

Základní vlastnosti Pravděpodobnost, že pro pevné n dostanu danou tabulku (z multinomického rozdělení) P(n 11, n 12, n 21, n 22 ) = n! p n 11 11 n 11!n 12!n 21!n pn 12 12 pn 21 21 pn 22 22 22 Za hypotézy H 0 nezávislosti X a Z (což je ekvivalentní rovnosti rozdělení v řádcích) platí: p ij = p i+ p +j 5/17 Karel Kozmík Faktoriálový test

Výpočet Označíme Q = p n 1+ 1+ pn +1 +1 pn 2+ 2+ pn +2 +2 a za H 0 dostáváme dosazením P(n 11, n 12, n 21, n 22 ) = n! n 11!n 12!n 21!n 22! Q 6/17 Karel Kozmík Faktoriálový test

Výpočet podmíněného rozdělení Pravděpodobnost, že vznikne tabulka s danými marginálními četnostmi R = min(n 1+,n +1 ) i=max(0,n +1 n 2+ ) n! = Q n 1+!n 2+! P(i, n 1+ i, n +1 i, i + n 2+ n +1 ) min(n 1+,n +1 ) i=max(0,n +1 n 2+ ) (n!) 2 = Q n 1+!n 2+!n +1!n +2! ( n1+ i )( n2+ ) n +1 i 7/17 Karel Kozmík Faktoriálový test

Podmíněná pravděpodobnost Tedy dostáváme podmíněnou pravděpodobnost P = P(n 11, n 12, n 21, n 22 ) R = n 1+!n 2+!n +1!n +2! n!n 11!n 12!n 21!n 22 = ( n1+ )( n2+ n 11 ( n ) n +1 n 21 ) Dostáváme tedy hypergeometrické rozdělení. 8/17 Karel Kozmík Faktoriálový test

Měření vzdálenosti od nulové hypotézy Jeden ze způsobů, jak měřit, zda-li tabulka odpovídá předpokladu nezávislosti je zavedení logaritmické interakce ( ) p11 p 22 δ = log p 12 p 21 Odhadem této hodnoty je ( ) n11 n 22 d = log n 12 n 21 Můžeme tedy definovat nulovou hypotézu jako H 0 : δ = 0. Dále oboustrannou alternativní hypotézu H 1 : δ 0 9/17 Karel Kozmík Faktoriálový test

Výpočet p-hodnoty Nyní již víme, jak vypočítat pravděpodobnost, že daná tabulka vznikne a také víme, které tabulky obsahují extrémnější (nebo stejné) hodnoty, než naše zadaná tabulka. Základním způsobem získání p-hodnoty je tedy sečtení pravděpodobností všech tabulek, které mají d d 0, kde d 0 je logaritmická interakce zadané tabulky. Také můžeme jen sečíst pravděpodobnosti menší nebo rovny pravděpodobnosti pozorované tabulky - extrémnější pozorování mají menší pravděpodobnost. 10/17 Karel Kozmík Faktoriálový test

Další možnosti výpočtu p-hodnoty Označme napozorovanou hodnotu n 11 = t 0. Pak za fixních marginálních četností počítáme P(n 11 = t), tedy pravděpodobnost, že na prvním místě je číslo t. Zavedeme další možnost, jak měřit vzdálenost od H 0 P = P [ n11 n 1+n +1 n t 0 n ] 1+n +1 n Odpovídá P(χ 2 χ 2 0 ) pro pozorovanou Pearsonovu statistiku χ2 0. 11/17 Karel Kozmík Faktoriálový test

Další možnosti výpočtu p-hodnoty P = 2min[P(n 11 t), P(n 11 t)] P = min[p(n 11 t), P(n 11 t)] a přičtu nejbližší, ale ne větší, dosažítelnou pst na druhém konci. 12/17 Karel Kozmík Faktoriálový test

Příklad s pitím čaje Tabulka: Fisherův experiment s ochutnáváním čaje Tip, co bylo nalito první Nalito první Mléko Čaj Celkem Mléko 3 1 4 Čaj 1 3 4 Celkem 4 4 Testoval poměr šancí roven 1 proti alternativě, že je větší než 1. P(n 11 3) = 0.243. 13/17 Karel Kozmík Faktoriálový test

Implementace v R fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, control = list(), or = 1, alternative = two.sided, conf.int = TRUE, conf.level = 0.95, simulate.p.value = FALSE, B = 2000) Standardně se p-hodnota počítá součtem všech pravděpodobností, které jsou menší než naše pravděpodobnost pozorované tabulky. 14/17 Karel Kozmík Faktoriálový test

Příklad 2 9 7 3 Fisher s Exact Test for Count Data p-value = 0.02997 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.007109705 0.987959211 sample estimates: odds ratio 0.1093739 Pearson s Chi-squared test with Yates continuity correction X-squared = 3.8222, df = 1, p-value = 0.05058 Warning message: In chisq.test(m) : Chi-squared approximation may be incorrect 15/17 Karel Kozmík Faktoriálový test

Poznámky Fisherův exaktní test není exaktní ve smyslu dosažení přesně hladiny testu, ale ve smyslu použití přesného rozdělení. Proto také název faktoriálnový. Jelikož jde o hypergeometrické rozdělení (diskrétní), hladiny testu nelze přesně skoro nikdy dosáhnout. Fisherův test odpovídá přesně, ale na špatnou otázku. Předpoklad pevných marginálních četností. Menší síla testu. Alternativou je Barnardův test Pro definici p-hodnoty přes vzdálenost lze rozšířit na větší tabulky. 16/17 Karel Kozmík Faktoriálový test

Zdroje Děkuji za pozornost Zdroje: Agresti, A.: Categorical data analysis, Second Edition, Wiley, 2002, Chapter 3.5 Anděl, J.: Statistické metody. Matfyzpress, Praha, 1998. 17/17 Karel Kozmík Faktoriálový test