Jana Vránová, 3. lékařská fakulta UK

Podobné dokumenty
Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Analýza dat z dotazníkových šetření

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

12. cvičení z PST. 20. prosince 2017

Testování statistických hypotéz

KGG/STG Statistika pro geografy

Přednáška X. Testování hypotéz o kvantitativních proměnných

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kontingenční tabulky, korelační koeficienty

Ranní úvahy o statistice

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Cvičení ze statistiky - 8. Filip Děchtěrenko

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

4ST201 STATISTIKA CVIČENÍ Č. 7

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Testy statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

You created this PDF from an application that is not licensed to print to novapdf printer (

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování statistických hypotéz

Neparametrické metody

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

Jednofaktorová analýza rozptylu

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Testování hypotéz o kvalitativních proměnných

Náhodný vektor. Náhodný vektor. Hustota náhodného vektoru. Hustota náhodného vektoru. Náhodný vektor je dvojice náhodných veličin (X, Y ) T = ( X

Regresní a korelační analýza

Kontingenční tabulky, korelační koeficienty

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Statistická analýza jednorozměrných dat

Základy biostatistiky (MD710P09) ak. rok 2008/2009

Fisherův exaktní test

Poznámky k předmětu Aplikovaná statistika, 11. téma

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

4EK211 Základy ekonometrie

Úvod do analýzy rozptylu

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

6. Lineární regresní modely

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Základy biostatistiky (MD710P09) ak. rok 2007/2008

= = 2368

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Normální (Gaussovo) rozdělení

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Aproximace binomického rozdělení normálním

Pearsonův korelační koeficient

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

15. T e s t o v á n í h y p o t é z

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Regresní a korelační analýza

Testy. Pavel Provinský. 19. listopadu 2013

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

TECHNICKÁ UNIVERZITA V LIBERCI

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz a měření asociace mezi proměnnými

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Aplikovaná statistika v R - cvičení 2

Normální (Gaussovo) rozdělení

Jednofaktorová analýza rozptylu

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Výběrové charakteristiky a jejich rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Náhodné veličiny, náhodné chyby

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

STATISTICKÉ HYPOTÉZY

15. T e s t o v á n í h y p o t é z

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Transkript:

Jana Vránová, 3. lékařská fakulta UK

Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace může být klasifikován podle dvou rozdílných faktorů (kritérií) A a B. Faktor A má r tříd (úrovní) a faktor B má s tříd Označme n ij počet prvků z výběru o rozsahu n, které podle znaku A patří do třídy A i a podle znaku B do třídy B j Označme n i. počet prvků z výběru, které patří do třídy A i a n.j počet prvků patřící do B j

Zřejmě platí: r s s r n = n, n = n, n = n, n = n ij. j. j ij i. i. i= 1 j= 1 j= 1 i= 1 pokračování Kontingenční tabulka: Třídy B 1 B 2 B s Součty řádkové A 1 A 2... A r n 11 n 12 n 1s n 21 n 22 n 2s......... n r1 n r2 n rs Součty sloupcové n.1 n.2 n.s n n 1. n 2.... n r.

Čísla n i., resp. n.j někdy nazýváme marginálními řádkovými resp. sloupcovými součty kontingenční tabulky Kontingenční tabulky někdy doplňujeme řádkovými resp. sloupcovými procenty, které vztahují v procentech četnosti n ij v políčkách k marginálním řádkovým resp. sloupcovým součtům Také můžeme četnosti n ij vyjádřit v procentech vzhledem k celkovému rozsahu výběru n pokračování Poté co jsme sestrojili tabulku četností můžeme zkoumat vzájemný vztah obou faktorů A a B

pokračování Hypotézy o vzájemném vztahu faktorů A a B se definují v pojmech stochastické nezávislosti, a to pomocí určitých podmínek. Tyto podmínky indikují, že čísla n ij /n i., resp. n ij /n.j (řádkové resp. sloupcové četnosti) jsou pro všechna čísla i, resp. j až na náhodné odchylky konstantní Pokud jeden z faktorů kontrolujeme během výběru např. faktor A pak tento faktor určuje r disjunktních subpopulací W 1, W 2,, W r z populace W hypotézu nezávislosti můžeme popsat jako hypotézu homogenity faktoru B vzhledem k faktoru A

Úrovně faktoru A rozdělují populaci W do r disjunktních subpopulací W 1, W 2,, W r a každý prvek z W i je klasifikován do jedné ze tříd B Nechť je P ij relativní četnost prvků subpopulace W i, které jsou v j té třídě faktoru B HYPOTÉZA HOMOGENITY: P1j = P2 j =... = Prj pro všechna j = 1, 2,..., s což znamená, že pro každou třídu j má být relativní četnost prvků v dané třídě stejná pro všechny subpopulace Jako hypotézu homogenity můžeme interpretovat problémy, kdy zkoumáme shodu rozdělení znaku v několika různých populacích TESTY DOBRÉ SHODY

Pacient Ošetření zemřel vyléčen Řádkové součty Původní léčba 15 85 100 Nová léčba 4 77 81 Sloupcové součty 19 162 181 Srovnání dvou léčebných metod: H 0 : Léčebný efekt obou metod je stejný P 1 = P 2 H 1 : Léčebný efekt obou metod není stejný, P 1 P 2 a speciálně H 1 : Léčebný efekt nové metody je lepší. P 1 >P 2

Máme populaci W a každá osoba této populace je klasifikována podle dvou faktorů A a B Zkoumáme,zdali hodnoty faktoru A neovlivňují rozložení faktoru B a naopak H 0 : Oba znaky jsou stochasticky nezávislé. Tuto hypotézu ověřujeme pravděpodobnostmi p ij, což jsou pravděpodobnosti, že na osobě naměříme zároveň faktor A v kategorii i a faktor B v kategorii j. Nechť p i., resp. p.j je pravděpodobnost v Populaci W, že faktor A nabude hodnoty i, resp. faktor B hodnoty j Potom platí: HYPOTÉZA NEZÁVISLOSTI: s r p = p p p = p, p = p ij i.. j i. ij j. ij j= 1 i= 1 Které platí pro všechna i a j (i = 1, 2,, r; j = 1, 2,, s) Hypotézu nezávislosti nahrazujeme v případě spojitých veličin hypotézou nulového korelačního koeficientu, když příslušné znaky nejsou normálně rozložené

A věk B trvání horečky (dny) 1 4 5 6 7 8 9 12 Řádkové součty Pod 30 24 76 69 27 196 30 45 7 38 32 9 86 Nad 45 7 70 82 55 214 Sloupcové součty 38 184 183 91 496 Máme pacienty, kteří jsou podrobeni novému druhu léčby. Na každém z nich se změří náhodné veličiny věk (A) a délka trvání teplot ve dnech (B) H 0 : Trvání teplot je nezávislé na věku

Tabulka r x s Tabulka 2 x 2

Nejdříve vypočteme očekávané frekvence m ij v políčku i, j za předpokladu, že platí nulová hypotéza: mij = ni. n. j / n, i = 1,2,..., r; j = 1,2,..., s Tento vzoreček vyplývá ze zápisu hypotézy nezávislosti pro pravděpodobnosti p ij. Potom spočteme testovací statistika χ 2 podle vzorce: 2 χ nebo rs, ( ) = n m / m ij, = 1 2 ij ij ij r 2 s 2 χ = n 1/ ni. nij / n. j 1 i= 1 j= 1

pokračování Hodnotu χ 2 srovnáme s kritickou hodnotou χ 2 rozdělení o stupních volnosti (r 1).(s 1) na zvolené hladině významnosti. Jestliže hodnota χ 2 je větší než tabulková hodnota, hypotézu zamítáme. Tento test můžeme použít při dostatečném počtu pozorování Pro extrémně málo obsazené kontingenční tabulky jiné testy Jestliže zamítneme hypotézu homogenity anebo nezávislosti, můžeme tabulku dále analyzovat a hledat způsob, kterým je nulová hypotéza porušena ( ) / K tomu nám slouží normalizované reziduální hodnoty n m m, které opět vyneseme do ij ij ij tabulky (opět typu r x s) Příčinu nehomogenity můžeme najít tak, že zopakujeme výpočet pro tabulku zredukovanou o sloupce a řádky, které představují kandidáty pro nehomogenitu. Jestliže test nevyjde signifikantně je podezření potvrzeno. Nebo vybereme 4 symetricky od sebe položená políčka, která vždy po 2 leží v jedné řádce nebo sloupci a vzniklou tabulku 2 x 2 opět otestujeme Signifikance testu indikuje zdroj poruchy modelu nezávislosti. Prokázaná závislost stejně jako v korelační analýze nedokazuje kauzální vztah faktorů

pokračování Pro měření síly vztahu v kontingenční tabulce se nejčastěji používá korigovaný koeficient kontingence podle Pearsona: CC kde kor = CC CC max ( χ ) max ( ) = χ / + = 1 / 2 2 CC n a CC m m Přičemž m je větší z obou čísel r a s. Platí, že CC kor je v intervalu (0,1); při nulové hodnotě v tabulce není žádný vztah, jestliže koeficient má hodnot 1, je v ní vztah úplný

Pro výpočet χ 2 statistiky platí: ( ) 2 n ad bc χ = a+ b c+ d a+ c b+ d ( )( )( )( ) Počet stupňů volnosti = 1 V tabulce 2 x 2 lze uvažovat o směru poruchy nulové hypotézy jednostranný nebo dvoustranný test Tabulka musí být dostatečně obsazena aby χ 2 test platil za kritérium používáme následující dva vztahy ( ) a+ b c+ d > 5 nebo a+ b> 5, c+ d > a+ c / 3 Tabulku s menším obsazením opět počítáme Fisherovým exaktním testem

pokračování Pro měření síly vztahu dvou alternativních znaků bylo navrženo mnoho koeficientů Tyto koeficienty nabývají hodnot 0, když oba faktory jsou nezávislé, a záporné nebo kladné hodnoty, jestliže faktory jsou záporně nebo kladně asociovány Dva alternativní faktory A a B jsou spolu kladně asociovány, když platí jedna ze dvou ekvivalentních podmínek: 1. p > p p, kde p = p + p a p = p + p 11 1..1 1. 11 12.1 11 21 ( = = ) > ( = = ) 2. p A 1, za podmínky B 1 p A 1, za podmínky B 2 Jestliže nerovnosti jsou obrácené, mluvíme o záporné asociaci Všechny zavedené koeficienty asociace jsou pouze deskriptivní a nemají žádnou reálnou interpretaci

Vhodnou mírou asociace je funkce tzv. poměru křížových součinů odds ratio: k p p p ( 1 p ) ( 1 ) 11 22 1 1 = = p12 p21 p2 p2 pokračování Logaritmus tohoto výrazu je koeficient, který nabývá hodnoty 0, když faktory jsou nezávislé, a hodnoty záporné resp. kladné, když faktory jsou spolu kladně resp. záporně asociovány. Test nezávislosti v tabulce 2 x 2 je testem, že koeficient k je roven jedničce Při testu nezávislosti v tabulce r x s provádíme ve skutečnosti globální test ne závislosti ve všech (r 1)(s 1) nezávislých čtyřpolních tabulkách, které můžeme sestavit z jednotlivých políček

2 χ 2 χ 2 181(15.77 4.85) = = 100.81.19.162 = 4,82 > 2, 7 4,82 Zamítáme hypotézu homogenity se statistickou jistotou 95% Prokázali jsme, že při nové metodě klesá úmrtí 2 1 2 2 2 1 2 2 2 χ = 496.[ ( 24 /196 + 7 / 86 + 7 / 214) + ( 76 /196 + 38 / 86 + 70 / 214) + 38 184 1 2 2 2 1 2 2 2 ( 69 /196 + 32 / 86 + 82 / 214) + ( 27 /196 + 9 / 86 + 55 / 214) 1] 183 91 2 χ = 24,939 > 16,81 Zamítáme hypotézu nezávislosti na hladině významnosti 1% Při dané léčbě má věk pacienta vliv na trvání horečky

Na zkoumaných prvcích souboru sledujeme alternativní znak (hodnoty + a ) dvakrát před a po pokusu. Máme zjistit, zda došlo k signifikantní změně v rozdělení znaku Poměr četností v obou kategoriích alternativního znaku se bude mezi oběma měřeními měnit velikost změny posuzujeme McNamarovým testem, a to tak, že uvažujeme, kolik osob z prvního šetření přejde ve druhém šetření do jiné kategorie uvažovaného znaku Získáme tabulku: II. šetření I. šetření Zajímá nás zdali čísla b, c vykazují pouze náhodné diference. Pouze tyto četnosti rozhodují o tom, zda je charakteristika ve druhém šetření odlišně rozdělena od prvního. Jestliže poměr c/b = 1, pak zřejmě je rozložení znaku stejné. McNamarova statistika (s 1 stupněm volnosti): 2 χ ( b c) 2 = b + c + 1

děkuji za pozornost