Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Epidemiologické ukazatele Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly c d c+d Celkem a+c b+d n Exponovaní Neexponovaní Incidence exponovaných Incidence neexponovaných a I E = a + c I b = N b + d Incidenci většinou přepočítáváme na 1 000, 10 000 nebo 100 000 osob. 1 3 Záznam epidemiologických dat Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly c d c+d Celkem a+c b+d n Exponovaní Neexponovaní a, b, c, d... pozorované (absolutní) četnosti v jednotlivých skupinách Epidemiologické ukazatele Relativní riziko I RR = I odhaduje sílu asociace mezi rizikovým faktorem a nemocí vyjadřuje, kolikrát častěji se může nemoc vyvinout v populaci exponovaných ve srovnání s populací neexponovaných E N n = a + b + c + d 4
Epidemiologické ukazatele Atributivní riziko AR = I E I N část incidence exponované populace, která může být vysvětlena pouze přítomností rizikového faktoru umožňuje odhalit stupeň maximálního poklesu výskytu onemocnění u exponované populace v případě, že umíme odstranit vliv rizikového faktoru Volba hladiny významnosti - hladina významnosti souvisí s chybami, kterých se při rozhodnutí můžeme dopustit: Rozhodnutí Nezamítneme H0 (nevýznamný výsledek) Zamítneme H0 (významný výsledek) H0 platí Správné rozhodnutí Chyba I. druhu (α) Skutečnost H1 platí Chyba II. druhu (β) Správné rozhodnutí - hladina významnosti (a) je předepsaná hodnota, kterou pravděpodobnost chyby I. druhu nesmí překročit 5 Obvykle a = 0,05 (zamítáme na 5% hladině - významný výsledek) nebo a = 0,01 (zamítáme na hladině 1% - vysoce významný výsledek) 7 Příklad Chceme ověřit, zda progresivní polyartritida (PAP) souvisí s výskytem antigenu HLA-DR4. Domníváme se, že ano (to je naše medicínská hypotéza). Sestavíme tedy nulovou a alternativní hypotézu (nezapomeňte, že nulovou hypotézu volíme opačně, než je dokazované tvrzení). Tedy: H 0 : PAP nesouvisí s výskytem HLA-DR4 H 1 : PAP souvisí s výskytem HLA-DR4 6 Sběr r dat -tato fáze je velmi důležitá a měla by být konzultována se statistikem -sebraný vzorek dat musí být objektivní, reprezentativní a dostatečně velký Př. (pokračování): Nasbíraná data pozorované četnosti ve čtyřpolní tabulce Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 Ne 50 184 34 Celkem 96 1 308 8
Volba vhodného testu Rozhodnutí o platnosti nebo neplatnosti hypotézy činíme na základě aplikace vhodného statistického testu. Každý statistický test je charakterizován testovou statistikou - funkcí, která ze sesbíraných dat "vytvoří" jedno číslo. Př.: = ( pozorovaná četnost - očekávaná četnost) očekávaná četnost ~ ( df ) Příklad (pokračov ování) Výpočet očeko ekávaných hodnot: Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 Ne 50 184 34 Celkem 96 1 308 Výskyt antigenu je rozdělen v poměru 96:1. V případě platnosti hypotézy nezávislosti obou znaků očekáváme, že ve stejném poměru budou rozděleny i skupiny s PAP a bez PAP. Tedy pro skupinu (PAP-Ano, HLA-DR4-Ano): Očekávaný počet = 96/308. 74 = 3 9 11 Krok 5: Výpočet hodnoty testové statistiky Sesbíraná data je třeba zpracovat a dosadit do předpisu testové statistiky. Naměř ěřené a očeko ekávané hodnoty Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 3 51 Ne 50 184 34 73 161 Celkem 96 1 308 Červeně jsou vyznačeny četnosti očekávané v případě, že platí hypotéza nezávislosti. Po dosazení: = 43,61 10 1
Krok 5: Určen ení kritické hodnoty Po dosazení naměřených hodnot do testové statistiky zamítáme hypotézu, pokud výsledná hodnota přesáhne jistou mez, nazývanou kritická hodnota.? Jak tuto hodnotu určit? Kritickou hodnotou testu je takové číslo, které testová statistika překročí v případě, že nulová hypotéza je pravdivá, s pravděpodobností nejvýše α. P H 0 ( T k α ) α Statistická a klinická významnost Statistická významnost Je-li statistický test zamítnut (významný) na předepsané hladině α (hladina významnosti). Klinická významnost Je-li efekt významný z hlediska klinické praxe (např. překročení prahové hodnoty). G Pojmy statistické a klinické významnosti bývají často ztotožňovány. Toto ztotožnění je však třeba provádět opatrně, neboť bývá nepřesné. Kritické hodnoty jsou tabelovány. 13 15 Příklad (dokončen ení) Kontingenční tabulky Testová statistika: Testové kriterium: Rozhodnutí: H 0 zamítáme na hladině 5% = 43,61 1 α ( 1) = 3, 84 = 43,61 3,84 = 1 0,05 ( 1) Zjistili jsme významnou souvislost mezi výskytem antigenu HLA-DR4 a PAP na 5% hladině. - kontingenční tabulky slouží ke studování vztahů mezi dvěma znaky Kontingenční tabulka r x s: Znak Znak 1 Kategorie 1... Kategorie s Kategorie 1 n 11... n 1s n1............ Kategorie r n r1... n rs nr n 1... n s n 14 - kontingenční tabulka typu x se nazývá čtyřpolní tabulka 16
Test hypotézy o shodnosti struktur -test shodnosti pravděpodobnostní struktury nějakého znaku za různých podmínek Př.: Stejná věková struktura pacientů ve dvou nemocnicích. -tzv. -test dobré shody použitý na kontingenční tabulku Příklad (dokončen ení) H 0 : H 1 : Pravděpodobnosti skupin jsou v jednotlivých krajích stejné. Nulová hypotéza neplatí. Testová statistika: 3 4 n ij = n n ~ = n n i= 1 j= 1 i.. j (( 3-1. )( 4 1) ) ( 6) Testové kriterium: 1 0,05 ( 6) 17 Rozhodnutí: = 10,45 < 1,59 = 1 0,05 ( 6) H 0 tedy nelze zamítnout na 5% hladině. 19 Příklad Studie percentuálních zastoupení krevních skupin ve třech krajích severního Skotska. Je ve všech krajích stejné percentuelní zastoupení krevních skupin? Oblast A B 0 AB Celkem Eskdale 33 6 56 5 100 Annadale 54 14 5 5 15 Nithdale 98 35 115 5 53 Celkem 185 55 3 15 478 Dosažen ená hladina významnosti Alternativní postup při rozhodnutí o platnosti či neplatnosti hypotézy: Určíme pravděpodobnost p, s jakou bychom mohli obdržet pozorovaná data nebo data stejně nebo více odporující nulové hypotéze za předpokladu, že je nulová hypotéza pravdivá, tato hodnota se nazývá dosažená hladina významnosti.! Čím menší p, tím méně důvěryhodné je H 0. Pro účely statistické analýzy volíme hladinu významnosti α a zamítneme H 0, je-li: p <α 18 0
McNemarův test Máme náhodný n výběr r 18 pacientů,, kteří byli léčeni l dvěma různými r antihypertenzivy A, B. Každý pacient dostával po dobu jednoho měsíce m léka A a po odeznění jeho případných padných účinků po dobu jednoho měsíce lék l k B. Výsledek byl klasifikován jako úspěch nebo neúsp spěch. Pravidla statistického rozhodování hladina testu α : pravděpodobnost podobnost chyby 1. druhu, tj.. zamítnut tnutí platné nulové hypotézy kritický obor : výsledky pokusu, při p i nichž se zamítá nulová hypotéza síla testu (1-β):: pravděpodobnost podobnost zamítnut tnutí nulové hypotézy, jestliže e nulová hypotéza neplatí kritický obor i hladina testu se volí před pokusem, nezávisle na jeho výsledku 1 3 Obecný postup při p i testování hypotéz Formulujeme nulovou hypotézu H 0 a alternativu H 1. Zvolíme hladinu významnosti α. Získáme data. Vybereme vhodný statistický test. Spočteme hodnotu testového kritéria. ria. Najdeme v tabulkách příslup slušnou kritickou hodnotu. Provedeme statistické rozhodování následujícím způsobem: Je-li hodnota testového kritéria ria většív než kritická hodnota, zamítneme nulovou hypotézu H 0 ve prospěch alternativy H 1 na hladině významnosti α. Dosažen ená hladina testu Hladinu testu α volíme předem p (nesmí záviset na datech) Dosažen ená hladina ( p value ) je nejmenší hladina, na které bychom při p i daných datech nulovou hypotézu zamítli Dosažen ená hladina ( p value ) je pravděpodobnost podobnost našeho výsledku a všech v výsledků ještě méně podporujících ch nulovou hypotézu Jednoduché pravidlo: p value < α H 0 zamítáme me 4
815 Obecné schéma statistického rozhodování Skutečnost Rozhodnutí H 0 platí H 0 neplatí H 0 zamítnout chyba 1. druhu a správně H 0 nezamítnout správně chyba. druhu b 5 Chyba 1.a. druhu (α,( β) H 0 x H 1 H 0 H 1 b a 6