Katedra pravděpodobnosti a matematické statistiky Karel Kozmík Fisherův exaktní test 4. prosince 2017
Motivace Máme kontingenční tabulku 2x2 a předpokládáme, že četnosti vznikly z pozorování s multinomickým rozdělením. Chceme testovat rovnost parametrů binomických rozdělění v řádcích (sloupcích) nebo ekvivalentně nezávislost 2 binomických rozdělení, které přiřazují řádek a sloupec v tabulce. Počet pozorování je moc malý, takže nemůžeme použít limitní χ 2 1 rozdělení 2/17 Karel Kozmík Faktoriálový test
Značení Tabulka: Tabulka četností Z = 1 Z = 2 Σ X=1 n 11 n 12 n 1+ X=2 n 21 n 22 n 2+ Σ n +1 n +2 n Tabulka: Tabulka pravděpodobností Z = 1 Z = 2 Σ X=1 p 11 p 12 p 1+ X=2 p 21 p 22 p 2+ Σ p +1 p +2 1 3/17 Karel Kozmík Faktoriálový test
Způsob testování Budeme předpokládat dopředu zvolené marginální četnosti (n 1+,..., n +2 ) Zjitíme, jaká je pravděpodobnost, že bychom za tohoto předpokladu dostali tabulku s četnostmi, která více odporuje předpokladu nezávislosti, než tabulka s napozorovanými četnostmi n 11, n 12... Tedy počítáme p-hodnotu (a budeme zamítat pro p < α) 4/17 Karel Kozmík Faktoriálový test
Základní vlastnosti Pravděpodobnost, že pro pevné n dostanu danou tabulku (z multinomického rozdělení) P(n 11, n 12, n 21, n 22 ) = n! p n 11 11 n 11!n 12!n 21!n pn 12 12 pn 21 21 pn 22 22 22 Za hypotézy H 0 nezávislosti X a Z (což je ekvivalentní rovnosti rozdělení v řádcích) platí: p ij = p i+ p +j 5/17 Karel Kozmík Faktoriálový test
Výpočet Označíme Q = p n 1+ 1+ pn +1 +1 pn 2+ 2+ pn +2 +2 a za H 0 dostáváme dosazením P(n 11, n 12, n 21, n 22 ) = n! n 11!n 12!n 21!n 22! Q 6/17 Karel Kozmík Faktoriálový test
Výpočet podmíněného rozdělení Pravděpodobnost, že vznikne tabulka s danými marginálními četnostmi R = min(n 1+,n +1 ) i=max(0,n +1 n 2+ ) n! = Q n 1+!n 2+! P(i, n 1+ i, n +1 i, i + n 2+ n +1 ) min(n 1+,n +1 ) i=max(0,n +1 n 2+ ) (n!) 2 = Q n 1+!n 2+!n +1!n +2! ( n1+ i )( n2+ ) n +1 i 7/17 Karel Kozmík Faktoriálový test
Podmíněná pravděpodobnost Tedy dostáváme podmíněnou pravděpodobnost P = P(n 11, n 12, n 21, n 22 ) R = n 1+!n 2+!n +1!n +2! n!n 11!n 12!n 21!n 22 = ( n1+ )( n2+ n 11 ( n ) n +1 n 21 ) Dostáváme tedy hypergeometrické rozdělení. 8/17 Karel Kozmík Faktoriálový test
Měření vzdálenosti od nulové hypotézy Jeden ze způsobů, jak měřit, zda-li tabulka odpovídá předpokladu nezávislosti je zavedení logaritmické interakce ( ) p11 p 22 δ = log p 12 p 21 Odhadem této hodnoty je ( ) n11 n 22 d = log n 12 n 21 Můžeme tedy definovat nulovou hypotézu jako H 0 : δ = 0. Dále oboustrannou alternativní hypotézu H 1 : δ 0 9/17 Karel Kozmík Faktoriálový test
Výpočet p-hodnoty Nyní již víme, jak vypočítat pravděpodobnost, že daná tabulka vznikne a také víme, které tabulky obsahují extrémnější (nebo stejné) hodnoty, než naše zadaná tabulka. Základním způsobem získání p-hodnoty je tedy sečtení pravděpodobností všech tabulek, které mají d d 0, kde d 0 je logaritmická interakce zadané tabulky. Také můžeme jen sečíst pravděpodobnosti menší nebo rovny pravděpodobnosti pozorované tabulky - extrémnější pozorování mají menší pravděpodobnost. 10/17 Karel Kozmík Faktoriálový test
Další možnosti výpočtu p-hodnoty Označme napozorovanou hodnotu n 11 = t 0. Pak za fixních marginálních četností počítáme P(n 11 = t), tedy pravděpodobnost, že na prvním místě je číslo t. Zavedeme další možnost, jak měřit vzdálenost od H 0 P = P [ n11 n 1+n +1 n t 0 n ] 1+n +1 n Odpovídá P(χ 2 χ 2 0 ) pro pozorovanou Pearsonovu statistiku χ2 0. 11/17 Karel Kozmík Faktoriálový test
Další možnosti výpočtu p-hodnoty P = 2min[P(n 11 t), P(n 11 t)] P = min[p(n 11 t), P(n 11 t)] a přičtu nejbližší, ale ne větší, dosažítelnou pst na druhém konci. 12/17 Karel Kozmík Faktoriálový test
Příklad s pitím čaje Tabulka: Fisherův experiment s ochutnáváním čaje Tip, co bylo nalito první Nalito první Mléko Čaj Celkem Mléko 3 1 4 Čaj 1 3 4 Celkem 4 4 Testoval poměr šancí roven 1 proti alternativě, že je větší než 1. P(n 11 3) = 0.243. 13/17 Karel Kozmík Faktoriálový test
Implementace v R fisher.test(x, y = NULL, workspace = 200000, hybrid = FALSE, control = list(), or = 1, alternative = two.sided, conf.int = TRUE, conf.level = 0.95, simulate.p.value = FALSE, B = 2000) Standardně se p-hodnota počítá součtem všech pravděpodobností, které jsou menší než naše pravděpodobnost pozorované tabulky. 14/17 Karel Kozmík Faktoriálový test
Příklad 2 9 7 3 Fisher s Exact Test for Count Data p-value = 0.02997 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.007109705 0.987959211 sample estimates: odds ratio 0.1093739 Pearson s Chi-squared test with Yates continuity correction X-squared = 3.8222, df = 1, p-value = 0.05058 Warning message: In chisq.test(m) : Chi-squared approximation may be incorrect 15/17 Karel Kozmík Faktoriálový test
Poznámky Fisherův exaktní test není exaktní ve smyslu dosažení přesně hladiny testu, ale ve smyslu použití přesného rozdělení. Proto také název faktoriálnový. Jelikož jde o hypergeometrické rozdělení (diskrétní), hladiny testu nelze přesně skoro nikdy dosáhnout. Fisherův test odpovídá přesně, ale na špatnou otázku. Předpoklad pevných marginálních četností. Menší síla testu. Alternativou je Barnardův test Pro definici p-hodnoty přes vzdálenost lze rozšířit na větší tabulky. 16/17 Karel Kozmík Faktoriálový test
Zdroje Děkuji za pozornost Zdroje: Agresti, A.: Categorical data analysis, Second Edition, Wiley, 2002, Chapter 3.5 Anděl, J.: Statistické metody. Matfyzpress, Praha, 1998. 17/17 Karel Kozmík Faktoriálový test