Přednáška X. Testování hypotéz o kvantitativních proměnných

Podobné dokumenty
Testování hypotéz o kvalitativních proměnných

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jana Vránová, 3. lékařská fakulta UK

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

12. cvičení z PST. 20. prosince 2017

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Testy. Pavel Provinský. 19. listopadu 2013

Přednáška IX. Analýza rozptylu (ANOVA)

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

KGG/STG Statistika pro geografy

y = 0, ,19716x.

15. T e s t o v á n í h y p o t é z

Fisherův exaktní test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jednofaktorová analýza rozptylu

Kontingenční tabulky, korelační koeficienty

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

15. T e s t o v á n í h y p o t é z

Normální (Gaussovo) rozdělení

LIMITNÍ VĚTY DALŠÍ SPOJITÁ ROZDĚLENÍ PR. 8. cvičení

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

You created this PDF from an application that is not licensed to print to novapdf printer (

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

McNemarův test, Stuartův test, Test symetrie

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Normální (Gaussovo) rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

= = 2368

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

5. T e s t o v á n í h y p o t é z

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a aplikovaná statistika

Charakteristika datového souboru

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Tomáš Karel LS 2012/2013

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

2 ) 4, Φ 1 (1 0,005)

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Stručný úvod do testování statistických hypotéz

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Tomáš Karel LS 2012/2013

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Poznámky k předmětu Aplikovaná statistika, 11. téma

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Testování statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Příklad: Test nezávislosti kategoriálních znaků

Náhodná veličina a rozdělení pravděpodobnosti

Výběrové charakteristiky a jejich rozdělení

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a matematická statistika

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Příklady na testy hypotéz o parametrech normálního rozdělení

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování hypotéz o parametrech regresního modelu

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Statistické metody uţívané při ověřování platnosti hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Analýza dat z dotazníkových šetření

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

KGG/STG Statistika pro geografy

4ST201 STATISTIKA CVIČENÍ Č. 7

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statistická analýza jednorozměrných dat

INDUKTIVNÍ STATISTIKA

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Transkript:

Přednáška X. Testování hypotéz o kvantitativních proměnných Testování hypotéz o podílech Kontingenční tabulka, čtyřpolní tabulka Testy nezávislosti, Fisherůvexaktní test, McNemarůvtest Testy dobré shody pro ověření rozdělení pravděpodobnosti

Opakování analýza rozptylu Proč je výhodnější provést srovnání průměrů spojité veličiny u více než dvou skupin pomocí analýzy rozptylu než pomocí testů pro všechny dostupné dvojice sledovaných skupin? Jak lze řešit situaci, kdy chceme provést více testů zároveň?

Opakování princip analýzy rozptylu Jaký je princip analýzy rozptylu? Jaké jsou předpoklady analýzy rozptylu?

Opakování normalita dat Jak můžeme seriózně ověřit normalitu dat?

. Motivace

Matematická biologie modré oči

Studenti matematické biologie s modrýma očima Budeme sledovat podíl studentů matematické biologie (současných i bývalých), kteří mají modré oči. Náhodná veličina A modrá barva očí alternativní náhodná veličina. A 0 když student má modré oči když student nemá modré oči P( A ) π P( A 0) π Náhodná veličina X počet studentů matematické biologie s modrýma očima binomická náhodná veličina. Je to součet n alternativních veličin. X n i Ai X ~ Bi( n, π ) Odhad parametru π: ˆ π p X / n

Studenti matematické biologie s modrýma očima Budeme sledovat podíl studentů matematické biologie, kteří mají modré oči. Výsledky v tabulce: Modrá barva očí Jiná barva očí Celkem Studenti matematické biologie (současní i bývalí) 7 43 60 Odhad parametru π: ˆ π p X / n 7 / 60 0,83

Studenti matematické biologie s modrýma očima Budeme se zajímat o to, jestli podíl studentů matematické biologie, kteří mají modré oči, souvisí s obdobím studia. Výsledky v tabulce: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 3 4 Bývalí 6 8 Celkem 7 43 60

. Testování hypotéz o podílech

Co nás bude zajímat? Binární data jsou v medicíně i biologii častá výskyt ano/výskyt ne, úspěch/neúspěch, Kromě bodového odhadu nás může zajímat Interval spolehlivosti pro parametr π Test o parametru π proti konstantě π 0 Test o parametru π ve dvou souborech

Aproximace na normální rozdělení Pravděpodobnost, že náhodná veličina X bude při své realizaci rovna hodnotě k lze přesně stanovit pomocí vzorce: n P( X k π π k k n k ) ( ) Pro větší n (a tedy větší rozsah možných hodnot k) je jednodušší použít aproximaci normálním rozdělením. Vychází z CLV součty se pro dostatečné n chovají normálně. Předpokladem aproximace na normální rozdělení je součin np i n( p) větší než 5, nebo ještě lépe součin np i n( p) větší než 0. Pak platí: X nπ Z ~ N(0,) nπ ( π )

Proč np i n( p) větší než 5? Souvisí s množstvím informace nutné pro dosažení tvaru normálního rozdělení nutné pro vhodnost, respektive přesnost aproximace. Pro π 0,5 je jednodušší dosáhnout tvar normálního rozdělení než pro π 0, nebo π 0,9. Pro π hodně blízká 0 nebo není aproximace vhodná.

Interval spolehlivosti pro podíl Máme n studentů Matematické biologie a mezi nimi x s modrýma očima. Rozdělení pravděpodobnosti odhadu parametru π: ˆ π p x / n E ( p) E( x / n) E( x) / n nπ / n π D( p) D( x / n) D( x) / n nπ ( π ) / n π ( π ) / n Při konstrukci intervalu spolehlivosti neznáme hodnotu π, proto je logické ji v odhadu rozptylu (a SE) nahradit odhadem p: SE ( p) D( p) p( p) / n Při splnění podmínek pro aproximaci normálním rozdělením má 00( α)% IS tvar: p z SE p) p ± z p( p) / n ± α / ( α /

Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 7 s modrýma očima. Modrá barva očí Jiná barva očí Celkem Studenti matematické biologie (současní i bývalí) 7 43 60 Odhad parametru π: ˆ π p X / n 7 / 60 Chceme sestrojit 95% IS pro parametr π. 0,83 Splnění podmínek pro aproximaci normálním rozdělením: np 60*0,83 7 n( p) 60*( 0,83) 43 Pak SE( p) D( p) p( p) / n 0,83( 0,83) / 60 0,058 95% IS: p ± z α / SE( p) 0,83±,96*0,058 (0,69;0,397)

Test pro podíl u jednoho výběru Chceme testovat rovnost odhadu parametru π získaného na náhodném výběru n jedinců předem dané hodnotě π 0 : Při splnění podmínek pro aproximaci normálním rozdělením víme, že platí: Z p π SE( p) To za platnosti H 0 znamená: p π π ( π ) / n H 0 : π π 0 ~ N(0,) Z p π 0 p π 0 ~ N(0,) SE p) π ( π ) / n ( 0 0 Vypočteme hodnotu testové statistiky a nulovou hypotézu zamítáme podle toho, jakou máme alternativu a hladinu významnosti α. Pro alternativu Z > z α H : π π 0 zamítáme H 0 když /

Příklad s modrýma očima Chceme testovat na hladině významnosti α0,05 rovnost odhadu parametru π získaného na výběru 60 matematických biologů předem dané hodnotě π 0 0,40: H 0 : π 0,4 Splnění podmínek pro aproximaci normálním rozdělením máme ověřeno. Testová statistika: p π p π 0 Z SE( p) π 0( π 0) / n Srovnání s kvantilem: 0,83 0,400 0,4( 0,4) / 60 0 Z,85 < z α / z0, 975,96,85 Nezamítáme H 0 : π 0,40.

Je rozdíl mezi IS a testem? Pokud ano, v čem?

Je rozdíl mezi IS a testem? Ano je Konstrukce IS: Test H 0 : SE ( p) p( p) / n SE p) π ( ) / n ( 0 π 0 Binomické rozdělení má různou variabilitu pro různé hodnoty π největší je pro π 0,5, směrem k 0 a variabilita klesá. Neplatí ekvivalence mezi intervalem spolehlivosti a testem proti π 0 jako tomu bylo v případě průměru jako odhadu střední hodnoty.

IS pro podíl ve dvou souborech Máme n studentů Matematické biologie a mezi nimi x s modrýma očima, x je současných a x je již vystudovaných. Zajímá nás interval spolehlivosti pro rozdíl podílů studentů s modrýma očima ve skupině současných a již vystudovaných studentů: π π. Podmínky pro aproximaci normálním rozdělením musí být splněny v obou výběrech. Rozdělení pravděpodobnosti odhadu parametru π v jednotlivých souborech: x x ˆ π p ˆ π p n n Při splnění podmínek pro aproximaci normálním rozdělením má 00( α)% IS tvar: p SE p ( p p) D( p) + D( p) n + n ( p ) p ( p ) p p ± z α / SE( p p) p p ± z α / n + n ( p ) p ( p )

Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 7 s modrýma očima, je současných a 6 je již vystudovaných. Chceme 95% IS pro π π. Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 3 4 Bývalí 6 8 Celkem 7 43 60 Splnění podmínek pro aproximaci normálním rozdělením dáno tabulkou. Odhady: π p x / n / 4 0,6 π p x / n 6 /8 0, 333 ˆ p ( p ) p ( p ) 0,6( 0,333( ( ) 0,6) SE p p n + n 4 + 8 ˆ 0,333) 0,30 95% IS pro π π : p p ± z α / SE( p p) 0,07±,96*0,30 ( 0,36;0,84)

Test pro podíl ve dvou výběrech Chceme testovat rovnost odhadu parametru π získaného na dvou náhodných výběrech n a n jedinců: H 0 : π π π Nejlepším odhadem parametru π je za platnosti H 0 : ˆ π p r n + r + n Odhady pro jednotlivé výběry: Při splnění podmínek pro aproximaci normálním rozdělením (musí být splněny v obou souborech zároveň) víme, že platí: kde p( p) p( p) SE ( p p ) + p( p)( + n n n n Z p p ~ (0,) ( ) N SE p p Pro alternativu H : π π zamítáme H 0 když Z > z α / ˆ π p x / n ˆ π p x / n )

Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 7 s modrýma očima, je současných a 6 je již vystudovaných. Testujeme Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 3 4 Bývalí 6 8 Celkem 7 43 60 Odhady: ˆ π p 0,83 H 0 : π π π π p 0,6 π p 0, 333 ˆ ˆ SE( p p) p( p)( ) 0,83( 0,83)( n + 4 + 8) 0,7 n Testová statistika: p p Z SE( p p ) / 0, 975 0,6 0,333 0,7 0,56 Z 0,56 < z α z,96 Nezamítáme H 0.

3. Analýza kontingenčních tabulek

Kontingenční tabulka Frekvenční sumarizace dvou nominálních nebo ordinálních veličin pomocí tabulky. Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y. Speciální případ: tabulka čtyřpolní tabulka. Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace onemocnění a roku diagnózy. Období Lokalizace Horní končetina Dolní končetina Trup Hlava a krk Celkem 994 000 50 03 6 7 76 00 005 06 57 30 54 67 006 009 5 4 36 5 65 Celkem 7 40 74 3 58

Kontingenční tabulka hypotézy Kontingenční tabulky umožňují testování různých hypotéz: Nezávislost (Pearsonův chí kvadrát test) Jeden výběr, dvě charakteristiky obdoba nepárového uspořádání Př.: studenti matematické biologie modré oči období studia Shoda struktury (Pearsonův chí kvadrát test) Více výběrů, jedna charakteristika obdoba nepárového uspořádání Př.: pacienti s IM v několika nemocnicích věková struktura Symetrie (McNemarův test) Jeden výběr, opakovaně jedna charakteristika obdoba párového uspořádání Př.: stromy posouzení jejich stavu ve dvou sezónách

Značení Proměnné reprezentujeme diskrétními náhodnými veličinami X a Y. Označme n ij počet subjektů, pro které platí, že Xi a Yj (i,..., r; j,..., c). Marginální četnosti: Celkový počet subjektů: c r. j ij. i r c n i n n i j n ij n j n ij Relativní četnosti lze vztahovat: Vzhledem k celkovému n Vzhledem k řádkovým součtům n i. p p ij r ij n n ij ij / n / n i. Vzhledem k sloupcovým součtům n.j p c ij n ij / n. j

Pointa testu pro kontingenční tabulku Celkem 7 studentů s modrýma očima 8,3 %. Pokud modré oči nesouvisí s obdobím studia, mělo by stejné zastoupení modrookých platit i v rámci skupin očekávaná četnost za platnosti H 0 o nezávislosti: eij ni. n. j / n Ekvivalentně lze nezávislost vyjádřit následovně: Z toho plyne: e ij n n i.. j npi. p. j n n n Očekávané četnosti v příkladu s modrýma očima: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní,9 30, 4 Bývalí 5,,9 8 Celkem 7 43 60 n i. n n p ij pi. p. j. j

Příklad melanomy Období veličina X Horní končetina Y Lokalizace veličina Y Dolní končetina Y Trup Y 3 Hlava a krk Y 4 Celkem 994 000 X 50 n 03 n 6 n 3 7 n 4 76 n. 00 005 X 06 n 57 n 30 n 3 54 n 4 67 n. 006 009 X 3 5 n 3 4 n 3 36 n 33 5 n 34 65 n 3. Celkem 7 n. 40 n. 74 n.3 3 n.4 58 n Období veličina X Horní končetina Y Lokalizace veličina Y Dolní končetina Y Trup Y 3 Hlava a krk Y 4 Celkem 994 000 X 8. % 37.3 % 4.03 %.54 % 00 % 00 005 X 6.9 % 5.04 % 49.44 % 8.6 % 00 % 006 009 X 3 8.40 %.7 % 50.56 % 8.3 % 00 % Celkem 7.74 % 6.3 % 48.56 % 7.40 % 00 %

Pearsonův chí kvadrát test nezávislosti Založen na myšlence srovnání pozorovaných a očekávaných četností jednotlivých hodnot, kterých nabývá náhodná veličina X. Pozorované četnosti jednotlivých variant Xi a Yj nám vyjadřují n ij. Za platnosti nulové hypotézy lze očekávané četnosti jednotlivých variant Xi a Yj vypočítat pomocí: Karl Pearson odvodil, že statistika má za platnosti H 0 chí kvadrát rozdělení s (r )(c ) stupni volnosti: Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α, když Χ χ ( r )( c ) ( α) e ij ni n n n r c ( nij eij ) Χ e i j.. j n n i. ij n n. j Χ χ ~ ( r )( c )

Předpoklady Pearsonova chí kvadrát testu Nezávislost jednotlivých pozorování Alespoň 80 % buněk musí mít očekávanou četnost (e ij ) větší než 5 00 % buněk musí mít očekávanou četnost (e ij ) větší než

Příklad melanomy Období veličina X Horní končetina Y Lokalizace veličina Y Dolní končetina Y Trup Y 3 Hlava a krk Y 4 Celkem 994 000 X 50 n 03 n 6 n 3 7 n 4 76 n. 00 005 X 06 n 57 n 30 n 3 54 n 4 67 n. 006 009 X 3 5 n 3 4 n 3 36 n 33 5 n 34 65 n 3. Celkem 7 n. 40 n. 74 n.3 3 n.4 58 n Období veličina X Horní končetina Y Lokalizace veličina Y Dolní končetina Y Trup Y 3 Hlava a krk Y 4 Celkem 994 000 X e 48.95 e 7.6 e 3 34.03 e 4 0.4 76 00 005 X e.0 e 64.96 e 3 304.47 e 4 46.37 67 006 009 X 3 e 3 0.85 e 3 64.43 e 33 303.50 e 34 46. 65 Celkem 7 40 74 3 58

Příklad melanomy Χ Př.: Sumarizace pacientů diagnostikovaných s melanomem dle lokalizace onemocnění a roku diagnózy. Testová statistika: Výpočet: (50 48,95) 48,95 (30 304,47) + 304,47 (03 7,6) + 7,6 (54 46,37) + 46,37 r c ( nij eij ) Χ e (6 34,03) + 34,03 (5 0,85) + 0,85 i j ij (7 0,4) + 0,4 (4 64,43) + 64,43 (06,0) +,0 (36 303,50) + 303,50 (57 64,96) + 64,96 (5 46,) + 46, + 30,4 Kritická hodnota: χ( r )( c ) ( α) χ(6) (0,05),59 Χ χ (6) (0,05) Zamítáme H 0 o nezávislosti.

Příklad s modrýma očima Máme 60 studentů Matematické biologie a mezi nimi 7 s modrýma očima, je současných a 6 je již vystudovaných. Testujeme nezávislost. Testová statistika: Výpočet: Χ (,9),9 r c ( nij eij ) Χ e i j (3 30,) + 30, ij (6 5,) + 5, (,9) +,9 0,3 Kritická hodnota: χ( r )( c ) ( α) χ() (0,05) 3,84 Χ < χ () (0,05) Nezamítáme H 0 o nezávislosti.

4. Čtyřpolní tabulky

Co je čtyřpolní tabulka Nejjednodušší možná kontingenčí tabulka, kdy obě sledované veličiny mají pouze dvě kategorie. Příklad z. přednášky: Zajímá nás přesnost vyšetření jater ultrazvukem, tedy schopnost vyšetření UTZ identifikovat maligní ložisko v pacientových játrech. Přesnost je vztažena k histologickému ověření odebrané tkáně. Vyšetření UTZ Histologické ověření Maligní Benigní Celkem Maligní 3 34 Benigní 3 4 7 Celkem 35 6 6 Zde jsme závislost neověřovali, ale dokonce předpokládali!

Asociace ve čtyřpolní tabulce Můžeme rozhodovat o závislosti/nezávislosti dvou sledovaných veličin nyní. Můžeme rozhodovat i o míře (těsnosti) této závislosti příští přednáška. Veličina X Veličina Y Y Y Celkem X a b a +b X c d c+ d Celkem a+ c b+ d n Při rozhodování o nezávislosti můžeme použít Pearsonůvchí kvadrát test, ale pro malá n je standardem v klinických analýzách tzv. Fisherův exaktní test ( Fisher exact test ).

Fisherůvexaktní test Určen zejména pro čtyřpolní tabulky, je vhodný i pro tabulku s malými četnostmi pro ty, které nesplňují předpoklad Pearsonova testu. Založen na výpočtu přesné p hodnoty, která zde hraje roli testové statistiky. Pointa je ve výpočtu pravděpodobnosti, se kterou bychom získali čtyřpolní tabulky stejně nebo více odchýlené od nulové hypotézy při zachování marginálních četností. Pravděpodobnost konkrétní tabulky (s pevně zvolenou hodnotou a při zachování marginálních četností) lze získat: p a a+ c b+ d a b n a+ b Pointa spočítáme p a všech možných tabulek při zachování marginálních četností a výsledná p hodnota je součtem p a menších nebo stejných jako p a, která přísluší pozorované tabulce. ( a + b)!( a + c)!( c + d)!( b + d)! n! a! b! c! d!

Příklad s modrýma očima Sledujeme vztah modrých očí a období studia matematické biologie. Pomocí Fisherova exaktního testu chceme testovat H 0 o nezávislosti. Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní 3 4 Bývalí 6 8 Celkem 7 43 60 Pravděpodobnost pozorované tabulky: p a ( a + b)!( a + c)!( c + d)!( b + d)! n! a! b! c! d! 4!7!8!43! 60!!3!6!! 0,05 Tento výsledek sám o sobě znamená, že nezamítáme H 0, protože p a > 0,05.

Příklad s modrýma očima Vypočítejme pravděpodobnosti pro jednotlivé možnosti kontingenční tabulky: Studenti BIMAT Modrá barva očí Jiná barva očí Celkem Současní a b 4 Bývalí c d 8 Celkem 7 43 60 p a a+ c b+ d a b n a+ b ( a + b)!( a + c)!( c + d)!( b + d)! n! a! b! c! d!

Příklad s modrýma očima Možnosti a b c d p a. 0 4 7 4,6 0 4. 4 6,7 0 3. 40 5 3,8 0 9 4. 3 39 4 4 9, 0 8 5. 4 38 3 5,5 0 6 6. 5 37 6 4, 0 5 7. 6 36 7 4,3 0 4 8. 7 35 0 8 0,003 9. 8 34 9 9 0,05 0. 9 33 8 0 0,050. 0 3 7 0,. 3 6 0,05 3. 30 5 3 0,45 4. 3 9 4 4 0,0 5. 4 8 3 5 0, 6. 5 7 6 0,039 7. 6 6 7 0,008 8. 7 5 0 8 6,6 0 4 p a 0,45 0,755 Nezamítáme H 0

Fisherův Pearsonůvtest Pearsonůvchí kvadrát test lze použít na jakoukoliv kontingenční tabulku, ALE je nutné hlídat předpoklady: 80 % e ij větších než 5 u čtyřpolní tabulky to znamená 00 %. Nedodržení předpokladů pro Pearsonůvchí kvadrát test může stejně jako u t testu a analýzy rozptylu vést k nesmyslným závěrům! Situace s malými n ij a tedy i e ij jsou ale v medicíně i biologii velmi časté Fisherůvexaktní test je klíčový pro hodnocení čtyřpolních tabulek.

Test hypotézy o symetrii McNemarův test Mám 0 pacientů, u každého opakovaně sleduji výskyt otoků před podáním a po podání léku. Která tabulka je správně? Před podáním léku Po podání léku Celkem Bez otoku (úspěch) 7 9 S otokem (neúspěch) 3 8 Celkem 0 0 40 Po podání bez otoku Po podání s otokem Celkem Před podáním bez otoku 5 7 Před podáním s otokem 7 6 3 Celkem 8 0

McNemarůvtest Je to obdoba párového testu (test symetrie pro čtyřpolní tabulku). Zaměřuje se pouze na pozorování, u kterých jsme při opakovaném měření zaznamenali rozdílné výsledky za platnosti H 0 by jejich četnosti (označeny b a c) měly být stejné. Testová statistika pro čtyřpolní tabulku: Za platnosti H 0 má statistika chí kvadrát rozdělení s stupněm volnosti. Nulovou hypotézu o nezávislosti X a Y zamítáme na hladině významnosti α, když Χ χ ( α) Χ ( b c b + c ) Testová statistika pro obecnou kontingenční tabulku: Χ ( nij n ji ) i< j nij + n ji

Příklad McNemarův test Mám 0 pacientů, u každého opakovaně sleduji ústup otoků po podání léku A aléku B. Zajímá mě rozdíl v četnosti otoků. Po podání bez otoku Po podání s otokem Celkem Před podáním bez otoku 5 7 Před podáním s otokem 7 6 3 Celkem 8 0 Testová statistika pro čtyřpolní tabulku: Χ ( b c) b + c ( 7) + 7,78 Kritická hodnota: χ ( α) χ (0,05) ( ) () 3,84 Χ < χ () (0,05) Nezamítáme H 0 o tom, že není rozdíl ve výskytu otoků před a po podání léku.

5. Testy o rozdělení náhodné veličiny

Testy o rozdělení náhodné veličiny Kolmogorovův Smirnovovůvtest založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající rozdělení, které chceme testovat. K S test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi. Pearsonův chí kvadrát test chí kvadrát test dobré shody i pro testování shody s teoretickým rozdělením je založen na myšlence srovnání pozorovaných a očekávaných četností jednotlivých hodnot, kterých nabývá náhodná veličina X. Q Q plot zobrazuje proti sobě kvantily pozorovaných hodnot a kvantily teoretického rozdělení pravděpodobnosti.

Chí kvadrát test dobré shody Předpokládejme, že náhodná veličina X může nabývat r různých hodnot B, B,,B r, každé s pravděpodobností p, p,, p r s tím, že r p i i Uvažujme n pozorování náhodné veličiny X: pokud je pravděpodobnostní model správný, měl by se počet pozorování jednotlivých variant, ν i, blížit r hodnotě np i s tím, že ν n i i

Chí kvadrát test dobré shody Označme pozorovanou četnost ité varianty náhodné veličiny o i ( observed ) a očekávanou četnost ité varianty náhodné veličiny e i ( expected ). Opět platí, že statistika má za platnosti H 0 chí kvadrát rozdělení s r stupni volnosti: Nulovou hypotézu o shodě rozdělení veličiny X s předpokládaným rozdělením zamítáme na hladině významnosti α, když Χ r ( oi i ) i e e i Χ Χ χ( r ) χ ~ ( r ) ( α) Když H 0 specifikuje pouze typ rozdělení, ale ne jeho parametry, pak musí být tyto parametry odhadnuty z pozorovaných hodnot. Za každý takto odhadnutý parametr se počet stupňů volnosti testové statistiky snižuje o.

Chí kvadrát test pro spojité veličiny Spojitá veličina samozřejmě může nabývat nespočetně mnoho hodnot v určitém intervalu. Chí kvadrát test dobré shody lze použít i pro spojité veličiny, které však musíme kategorizovat rozdělit obor možných hodnot do r disjunktních intervalů. B B B r B r

Příklad melanom a normální rozdělení Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení. N( μ 56,, σ 8,4) Věk (roky) Věk i tý interval o i e i o i e i 0,0 8,3 0 0.30 0.30 8,3 6,7 5.30.70 6,7 5,0 0 3.30 6.70 5,0 33,3 67 53.09 3.9 33,3 4,7 39 46.4 7.4 4,7 50,0 43 79.3 36.3 50,0 58,3 336 367.95 3.95 58,3 66,7 357 335.43.57 66,7 75,0 67.46 55.54 75,0 83,3 96 9.6 3.84 83,3 9,7 6 7.76.76 9,7 00,0 0 6.70 6.70

Příklad melanom a normální rozdělení Chceme zjistit, jestli věk u pacientů s melanomem vykazuje normální rozdělení. N( μ 56,, σ 8,4) Χ r i ( o i e e i 56,6 df r 9 i ) Odhad parametrů μ a σ z dat. Χ 56,6 χ p < 0,00 ( r ) ( α) χ (9) (0,05) 6,9 Věk (roky) Zamítáme H 0 o normalitě rozdělení věku pacientů s melanomem.

Příklad Poissonovo rozdělení Chceme ověřit, že počet pacientů, kteří přijdou ve všední den na zubní pohotovost se řídí Poissonovým rozdělením. Jednotkou času bude 30 minut. Celkem byly zaznamenány údaje za 00 půlhodinových úseků. H 0 : Počet příchodů pacientů během 30 minut má Poissonovo rozdělení. H : Počet příchodů pacientů během 30 minut nemá Poissonovo rozdělení. Neznáme parametr λ, je třeba ho odhadnout z dat: r ˆ λ x n (79 0 + 88 + K+ 0 ) i i xi n 00 S odhadem λ lze vypočítat pravděpodobnosti pro jednotlivé hodnoty X: Kvůli splnění předpokladu pro aproximaci na normální rozdělení sloučíme kategorie 8, 9, 0 a pacientů. p i P( X xi λ e xi ) x! i λ 3364 00,80

Příklad Poissonovo rozdělení Počet pacientů Pozorovaná četnost Očekávaná četnost x i o i e i np i 0 79 7,97 88 04,3 8 86,05 3 75 66,98 4 96 86,89 5 4 04,66 6 45 48,84 7 0 9,54 8 a více 9,75 Celkem 00 00 Χ df r 9 Χ r i ( o e e ) r 7 8,50 < i i i χ( r ) 8,50 ( α) χ (7) Nezamítáme H 0 o tom, že data pochází z výběru s Poissonovým rozdělením pravděpodobnosti. (0,05) 4,07

Poděkování Rozvoj studijního oboru Matematická biologie PřFMU Brno je finančně podporován prostředky projektu ESF č. CZ..07/..00/07.038 Víceoborová inovace studia Matematické biologie a státním rozpočtem České republiky