Jana Vránová, 3. lékařská fakulta UK
Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace může být klasifikován podle dvou rozdílných faktorů (kritérií) A a B. Faktor A má r tříd (úrovní) a faktor B má s tříd Označme n ij počet prvků z výběru o rozsahu n, které podle znaku A patří do třídy A i a podle znaku B do třídy B j Označme n i. počet prvků z výběru, které patří do třídy A i a n.j počet prvků patřící do B j
Zřejmě platí: r s s r n = n, n = n, n = n, n = n ij. j. j ij i. i. i= 1 j= 1 j= 1 i= 1 pokračování Kontingenční tabulka: Třídy B 1 B 2 B s Součty řádkové A 1 A 2... A r n 11 n 12 n 1s n 21 n 22 n 2s......... n r1 n r2 n rs Součty sloupcové n.1 n.2 n.s n n 1. n 2.... n r.
Čísla n i., resp. n.j někdy nazýváme marginálními řádkovými resp. sloupcovými součty kontingenční tabulky Kontingenční tabulky někdy doplňujeme řádkovými resp. sloupcovými procenty, které vztahují v procentech četnosti n ij v políčkách k marginálním řádkovým resp. sloupcovým součtům Také můžeme četnosti n ij vyjádřit v procentech vzhledem k celkovému rozsahu výběru n pokračování Poté co jsme sestrojili tabulku četností můžeme zkoumat vzájemný vztah obou faktorů A a B
pokračování Hypotézy o vzájemném vztahu faktorů A a B se definují v pojmech stochastické nezávislosti, a to pomocí určitých podmínek. Tyto podmínky indikují, že čísla n ij /n i., resp. n ij /n.j (řádkové resp. sloupcové četnosti) jsou pro všechna čísla i, resp. j až na náhodné odchylky konstantní Pokud jeden z faktorů kontrolujeme během výběru např. faktor A pak tento faktor určuje r disjunktních subpopulací W 1, W 2,, W r z populace W hypotézu nezávislosti můžeme popsat jako hypotézu homogenity faktoru B vzhledem k faktoru A
Úrovně faktoru A rozdělují populaci W do r disjunktních subpopulací W 1, W 2,, W r a každý prvek z W i je klasifikován do jedné ze tříd B Nechť je P ij relativní četnost prvků subpopulace W i, které jsou v j té třídě faktoru B HYPOTÉZA HOMOGENITY: P1j = P2 j =... = Prj pro všechna j = 1, 2,..., s což znamená, že pro každou třídu j má být relativní četnost prvků v dané třídě stejná pro všechny subpopulace Jako hypotézu homogenity můžeme interpretovat problémy, kdy zkoumáme shodu rozdělení znaku v několika různých populacích TESTY DOBRÉ SHODY
Pacient Ošetření zemřel vyléčen Řádkové součty Původní léčba 15 85 100 Nová léčba 4 77 81 Sloupcové součty 19 162 181 Srovnání dvou léčebných metod: H 0 : Léčebný efekt obou metod je stejný P 1 = P 2 H 1 : Léčebný efekt obou metod není stejný, P 1 P 2 a speciálně H 1 : Léčebný efekt nové metody je lepší. P 1 >P 2
Máme populaci W a každá osoba této populace je klasifikována podle dvou faktorů A a B Zkoumáme,zdali hodnoty faktoru A neovlivňují rozložení faktoru B a naopak H 0 : Oba znaky jsou stochasticky nezávislé. Tuto hypotézu ověřujeme pravděpodobnostmi p ij, což jsou pravděpodobnosti, že na osobě naměříme zároveň faktor A v kategorii i a faktor B v kategorii j. Nechť p i., resp. p.j je pravděpodobnost v Populaci W, že faktor A nabude hodnoty i, resp. faktor B hodnoty j Potom platí: HYPOTÉZA NEZÁVISLOSTI: s r p = p p p = p, p = p ij i.. j i. ij j. ij j= 1 i= 1 Které platí pro všechna i a j (i = 1, 2,, r; j = 1, 2,, s) Hypotézu nezávislosti nahrazujeme v případě spojitých veličin hypotézou nulového korelačního koeficientu, když příslušné znaky nejsou normálně rozložené
A věk B trvání horečky (dny) 1 4 5 6 7 8 9 12 Řádkové součty Pod 30 24 76 69 27 196 30 45 7 38 32 9 86 Nad 45 7 70 82 55 214 Sloupcové součty 38 184 183 91 496 Máme pacienty, kteří jsou podrobeni novému druhu léčby. Na každém z nich se změří náhodné veličiny věk (A) a délka trvání teplot ve dnech (B) H 0 : Trvání teplot je nezávislé na věku
Tabulka r x s Tabulka 2 x 2
Nejdříve vypočteme očekávané frekvence m ij v políčku i, j za předpokladu, že platí nulová hypotéza: mij = ni. n. j / n, i = 1,2,..., r; j = 1,2,..., s Tento vzoreček vyplývá ze zápisu hypotézy nezávislosti pro pravděpodobnosti p ij. Potom spočteme testovací statistika χ 2 podle vzorce: 2 χ nebo rs, ( ) = n m / m ij, = 1 2 ij ij ij r 2 s 2 χ = n 1/ ni. nij / n. j 1 i= 1 j= 1
pokračování Hodnotu χ 2 srovnáme s kritickou hodnotou χ 2 rozdělení o stupních volnosti (r 1).(s 1) na zvolené hladině významnosti. Jestliže hodnota χ 2 je větší než tabulková hodnota, hypotézu zamítáme. Tento test můžeme použít při dostatečném počtu pozorování Pro extrémně málo obsazené kontingenční tabulky jiné testy Jestliže zamítneme hypotézu homogenity anebo nezávislosti, můžeme tabulku dále analyzovat a hledat způsob, kterým je nulová hypotéza porušena ( ) / K tomu nám slouží normalizované reziduální hodnoty n m m, které opět vyneseme do ij ij ij tabulky (opět typu r x s) Příčinu nehomogenity můžeme najít tak, že zopakujeme výpočet pro tabulku zredukovanou o sloupce a řádky, které představují kandidáty pro nehomogenitu. Jestliže test nevyjde signifikantně je podezření potvrzeno. Nebo vybereme 4 symetricky od sebe položená políčka, která vždy po 2 leží v jedné řádce nebo sloupci a vzniklou tabulku 2 x 2 opět otestujeme Signifikance testu indikuje zdroj poruchy modelu nezávislosti. Prokázaná závislost stejně jako v korelační analýze nedokazuje kauzální vztah faktorů
pokračování Pro měření síly vztahu v kontingenční tabulce se nejčastěji používá korigovaný koeficient kontingence podle Pearsona: CC kde kor = CC CC max ( χ ) max ( ) = χ / + = 1 / 2 2 CC n a CC m m Přičemž m je větší z obou čísel r a s. Platí, že CC kor je v intervalu (0,1); při nulové hodnotě v tabulce není žádný vztah, jestliže koeficient má hodnot 1, je v ní vztah úplný
Pro výpočet χ 2 statistiky platí: ( ) 2 n ad bc χ = a+ b c+ d a+ c b+ d ( )( )( )( ) Počet stupňů volnosti = 1 V tabulce 2 x 2 lze uvažovat o směru poruchy nulové hypotézy jednostranný nebo dvoustranný test Tabulka musí být dostatečně obsazena aby χ 2 test platil za kritérium používáme následující dva vztahy ( ) a+ b c+ d > 5 nebo a+ b> 5, c+ d > a+ c / 3 Tabulku s menším obsazením opět počítáme Fisherovým exaktním testem
pokračování Pro měření síly vztahu dvou alternativních znaků bylo navrženo mnoho koeficientů Tyto koeficienty nabývají hodnot 0, když oba faktory jsou nezávislé, a záporné nebo kladné hodnoty, jestliže faktory jsou záporně nebo kladně asociovány Dva alternativní faktory A a B jsou spolu kladně asociovány, když platí jedna ze dvou ekvivalentních podmínek: 1. p > p p, kde p = p + p a p = p + p 11 1..1 1. 11 12.1 11 21 ( = = ) > ( = = ) 2. p A 1, za podmínky B 1 p A 1, za podmínky B 2 Jestliže nerovnosti jsou obrácené, mluvíme o záporné asociaci Všechny zavedené koeficienty asociace jsou pouze deskriptivní a nemají žádnou reálnou interpretaci
Vhodnou mírou asociace je funkce tzv. poměru křížových součinů odds ratio: k p p p ( 1 p ) ( 1 ) 11 22 1 1 = = p12 p21 p2 p2 pokračování Logaritmus tohoto výrazu je koeficient, který nabývá hodnoty 0, když faktory jsou nezávislé, a hodnoty záporné resp. kladné, když faktory jsou spolu kladně resp. záporně asociovány. Test nezávislosti v tabulce 2 x 2 je testem, že koeficient k je roven jedničce Při testu nezávislosti v tabulce r x s provádíme ve skutečnosti globální test ne závislosti ve všech (r 1)(s 1) nezávislých čtyřpolních tabulkách, které můžeme sestavit z jednotlivých políček
2 χ 2 χ 2 181(15.77 4.85) = = 100.81.19.162 = 4,82 > 2, 7 4,82 Zamítáme hypotézu homogenity se statistickou jistotou 95% Prokázali jsme, že při nové metodě klesá úmrtí 2 1 2 2 2 1 2 2 2 χ = 496.[ ( 24 /196 + 7 / 86 + 7 / 214) + ( 76 /196 + 38 / 86 + 70 / 214) + 38 184 1 2 2 2 1 2 2 2 ( 69 /196 + 32 / 86 + 82 / 214) + ( 27 /196 + 9 / 86 + 55 / 214) 1] 183 91 2 χ = 24,939 > 16,81 Zamítáme hypotézu nezávislosti na hladině významnosti 1% Při dané léčbě má věk pacienta vliv na trvání horečky
Na zkoumaných prvcích souboru sledujeme alternativní znak (hodnoty + a ) dvakrát před a po pokusu. Máme zjistit, zda došlo k signifikantní změně v rozdělení znaku Poměr četností v obou kategoriích alternativního znaku se bude mezi oběma měřeními měnit velikost změny posuzujeme McNamarovým testem, a to tak, že uvažujeme, kolik osob z prvního šetření přejde ve druhém šetření do jiné kategorie uvažovaného znaku Získáme tabulku: II. šetření I. šetření Zajímá nás zdali čísla b, c vykazují pouze náhodné diference. Pouze tyto četnosti rozhodují o tom, zda je charakteristika ve druhém šetření odlišně rozdělena od prvního. Jestliže poměr c/b = 1, pak zřejmě je rozložení znaku stejné. McNamarova statistika (s 1 stupněm volnosti): 2 χ ( b c) 2 = b + c + 1
děkuji za pozornost