analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Podobné dokumenty
Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Jana Vránová, 3. lékařská fakulta UK

Testy. Pavel Provinský. 19. listopadu 2013

Testování statistických hypotéz

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Testování statistických hypotéz. Obecný postup

Aproximace binomického rozdělení normálním

Testování statistických hypotéz

Testování statistických hypotéz

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

PRAVDĚPODOBNOST A STATISTIKA

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Ing. Michael Rost, Ph.D.

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

4ST201 STATISTIKA CVIČENÍ Č. 7

Testy statistických hypotéz

Charakteristika datového souboru

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Náhodné veličiny, náhodné chyby

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Cvičení ze statistiky - 8. Filip Děchtěrenko

Stručný úvod do testování statistických hypotéz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

2 ) 4, Φ 1 (1 0,005)

Normální (Gaussovo) rozdělení

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

= = 2368

Statistika, Biostatistika pro kombinované studium. Jan Kracík

12. cvičení z PST. 20. prosince 2017

Normální (Gaussovo) rozdělení

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Ranní úvahy o statistice

ÚVOD DO TESTOVÁNÍ HYPOTÉZ. Martina Litschmannová

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

5 Parametrické testy hypotéz

Testování hypotéz Biolog Statistik: Matematik: Informatik:

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

Přednáška X. Testování hypotéz o kvantitativních proměnných

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

7.1. Podstata testu statistické hypotézy

You created this PDF from an application that is not licensed to print to novapdf printer (

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testování hypotéz. 4. přednáška

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

TECHNICKÁ UNIVERZITA V LIBERCI

Statistické metody uţívané při ověřování platnosti hypotéz

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Základy biostatistiky (MD710P09) ak. rok 2008/2009

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Přednáška VII. Úvod do testování hypotéz

Pravděpodobnost a aplikovaná statistika

STATISTICKÉ HYPOTÉZY

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Jednofaktorová analýza rozptylu

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

12. prosince n pro n = n = 30 = S X

Metodologie pro Informační studia a knihovnictví 2

Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

STATISTICKÉ TESTY VÝZNAMNOSTI

Epidemiologické metody

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KORELACE. Komentované řešení pomocí programu Statistica

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Testování hypotéz o kvalitativních proměnných

KGG/STG Statistika pro geografy

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Zápočtová práce STATISTIKA I

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Cvičení ze statistiky - 9. Filip Děchtěrenko

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

5. T e s t o v á n í h y p o t é z

Technická univerzita v Liberci

15. T e s t o v á n í h y p o t é z

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Tomáš Karel LS 2012/2013

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Transkript:

Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. 1 Záznam epidemiologických dat Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly c d c+d Celkem a+c b+d n Exponovaní Neexponovaní a, b, c, d n = a + b + c + d... pozorované (absolutní) četnosti v jednotlivých skupinách Epidemiologické ukazatele Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly c d c+d Celkem a+c b+d n Exponovaní Neexponovaní Incidence exponovaných Incidence neexponovaných I a = E a + c I b = N b + d Incidenci většinou přepočítáváme na 1 000, 10 000 nebo 100 000 osob. 3 1

Epidemiologické ukazatele Relativní riziko I RR = E I N odhaduje sílu asociace mezi rizikovým faktorem a nemocí vyjadřuje, kolikrát častěji se může nemoc vyvinout v populaci exponovaných ve srovnání s populací neexponovaných 4 Epidemiologické ukazatele Atributivní riziko AR = I E I N část incidence exponované populace, která může být vysvětlena pouze přítomností rizikového faktoru umožňuje odhalit stupeň maximálního poklesu výskytu onemocnění u exponované populace v případě, že umíme odstranit vliv rizikového faktoru 5 Příklad Chceme ověřit, zda progresivní polyartritida (PAP) souvisí s výskytem antigenu HLA-DR4. Domníváme se, že ano (to je naše medicínská hypotéza). Sestavíme tedy nulovou a alternativní hypotézu (nezapomeňte, že nulovou hypotézu volíme opačně, než je dokazované tvrzení). Tedy: H 0 : PAP nesouvisí s výskytem HLA-DR4 H 1 : PAP souvisí s výskytem HLA-DR4 6

Volba hladiny významnosti - hladina významnosti souvisí s chybami, kterých se při rozhodnutí můžeme dopustit: Rozhodnutí H0 platí Skutečnost H1 platí Nezamítneme H0 (nevýznamný výsledek) Zamítneme H0 (významný výsledek) Správné rozhodnutí Chyba I. druhu (α) Chyba II. druhu (β) Správné rozhodnutí - hladina významnosti (a) je předepsaná hodnota, kterou pravděpodobnost chyby I. druhu nesmí překročit Obvykle a = 0,05 (zamítáme na 5% hladině - významný výsledek) nebo a = 0,01 (zamítáme na hladině 1% - vysoce významný výsledek) 7 Sběr r dat -tato fáze je velmi důležitá a měla by být konzultována se statistikem -sebraný vzorek dat musí být objektivní, reprezentativní a dostatečně velký Př. (pokračování): Nasbíraná data pozorované četnosti ve čtyřpolní tabulce Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 Ne 50 184 34 Celkem 96 1 308 8 Volba vhodného testu Rozhodnutí o platnosti nebo neplatnosti hypotézy činíme na základě aplikace vhodného statistického testu. Každý statistický test je charakterizován testovou statistikou - funkcí, která ze sesbíraných dat "vytvoří" jedno číslo. Př.: χ = ( pozorovaná četnost - očekávaná četnost) očekávaná četnost ~ χ ( df ) 9 3

Krok 5: Výpočet hodnoty testové statistiky Sesbíraná data je třeba zpracovat a dosadit do předpisu testové statistiky. 10 Příklad (pokračov ování) Výpočet očeko ekávaných hodnot: Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 Ne 50 184 34 Celkem 96 1 308 Výskyt antigenu je rozdělen v poměru 96:1. V případě platnosti hypotézy nezávislosti obou znaků očekáváme, že ve stejném poměru budou rozděleny i skupiny s PAP a bez PAP. Tedy pro skupinu (PAP-Ano, HLA-DR4-Ano): Očekávaný počet = 96/308. 74 = 3 11 Naměřené a očekávané hodnoty Antigen HLA-DR4 Výskyt PAP Ano Ne Celkem Ano 46 8 74 3 51 Ne 50 184 34 73 161 Celkem 96 1 308 Červeně jsou vyznačeny četnosti očekávané v případě, že platí hypotéza nezávislosti. Po dosazení: χ = 43,61 1 4

Krok 5: Určen ení kritické hodnoty Po dosazení naměřených hodnot do testové statistiky zamítáme hypotézu, pokud výsledná hodnota přesáhne jistou mez, nazývanou kritická hodnota.? Jak tuto hodnotu určit? Kritickou hodnotou testu je takové číslo, které testová statistika překročí v případě, že nulová hypotéza je pravdivá, s pravděpodobností nejvýše α. P H 0 ( T k α ) α Kritické hodnoty jsou tabelovány. 13 Příklad (dokončen ení) Testová statistika: Testové kriterium: χ = 43,61 χ χ1 α ( 1) = 3, 84 Rozhodnutí: χ = 43,61 3,84 = χ 1 0,05 ( 1) H 0 zamítáme na hladině 5% Zjistili jsme významnou souvislost mezi výskytem antigenu HLA-DR4 a PAP na 5% hladině. 14 Statistická a klinická významnost Statistická významnost Je-li statistický test zamítnut (významný) na předepsané hladině α (hladina významnosti). Klinická významnost Je-li efekt významný z hlediska klinické praxe (např. překročení prahové hodnoty). G Pojmy statistické a klinické významnosti bývají často ztotožňovány. Toto ztotožnění je však třeba provádět opatrně, neboť bývá nepřesné. 15 5

Kontingenční tabulky - kontingenční tabulky slouží ke studování vztahů mezi dvěma znaky Kontingenční tabulka r x s: Znak Znak 1 Kategorie 1... Kategorie s Kategorie 1 n11... n1s n1............ Kategorie r nr1... nrs nr n 1... n s n - kontingenční tabulka typu x se nazývá čtyřpolní tabulka 16 Test hypotézy o shodnosti struktur -test shodnosti pravděpodobnostní struktury nějakého znaku za různých podmínek Př.: Stejná věková struktura pacientů ve dvou nemocnicích. -tzv. χ -test dobré shody použitý na kontingenční tabulku 17 Příklad Studie percentuálních zastoupení krevních skupin ve třech krajích severního Skotska. Je ve všech krajích stejné percentuelní zastoupení krevních skupin? Oblast A B 0 AB Celkem Eskdale 33 6 56 5 100 Annadale 54 14 5 5 15 Nithdale 98 35 115 5 53 Celkem 185 55 3 15 478 18 6

Příklad (dokončen ení) H 0 : H 1 : Pravděpodobnosti skupin jsou v jednotlivých krajích stejné. Nulová hypotéza neplatí. Testová statistika: Testové kriterium: 3 4 nij χ = n n~ χ = n n i= 1 j= 1 i.. j χ χ (( 3-1. )( 4 1) ) χ ( 6) 1 0,05 ( 6) Rozhodnutí: χ = 10,45 < 1,59 = χ 1 0,05 ( 6) H 0 tedy nelze zamítnout na 5% hladině. 19 Dosažen ená hladina významnosti Alternativní postup při rozhodnutí o platnosti či neplatnosti hypotézy: Určíme pravděpodobnost p, s jakou bychom mohli obdržet pozorovaná data nebo data stejně nebo více odporující nulové hypotéze za předpokladu, že je nulová hypotéza pravdivá, tato hodnota se nazývá dosažená hladina významnosti.! Čím menší p, tím méně důvěryhodné je H 0. Pro účely statistické analýzy volíme hladinu významnosti α a zamítneme H 0, je-li: p <α 0 McNemarův test Máme náhodný n výběr r 18 pacientů,, kteří byli léčeni l dvěma různými r antihypertenzivy A, B. Každý pacient dostával po dobu jednoho měsíce m léka A a po odeznění jeho případných padných účinků po dobu jednoho měsíce lék l k B. Výsledek byl klasifikován jako úspěch nebo neúsp spěch. 1 7

Obecný postup při p i testování hypotéz Formulujeme nulovou hypotézu H 0 a alternativu H 1. Zvolíme hladinu významnosti α. Získáme data. Vybereme vhodný statistický test. Spočteme hodnotu testového kritéria. ria. Najdeme v tabulkách příslup slušnou kritickou hodnotu. Provedeme statistické rozhodování následujícím způsobem: Je-li hodnota testového kritéria ria většív než kritická hodnota, zamítneme nulovou hypotézu H 0 ve prospěch alternativy H 1 na hladině významnosti α. Pravidla statistického rozhodování hladina testu α : pravděpodobnost podobnost chyby 1. druhu, tj.. zamítnut tnutí platné nulové hypotézy kritický obor : výsledky pokusu, při p i nichž se zamítá nulová hypotéza síla testu (1-β):: pravděpodobnost podobnost zamítnut tnutí nulové hypotézy, jestliže e nulová hypotéza neplatí kritický obor i hladina testu se volí před pokusem, nezávisle na jeho výsledku 3 Dosažen ená hladina testu Hladinu testu α volíme předem p (nesmí záviset na datech) Dosažen ená hladina ( p value ) je nejmenší hladina, na které bychom při p i daných datech nulovou hypotézu zamítli Dosažen ená hladina ( p value ) je pravděpodobnost podobnost našeho výsledku a všech v výsledků ještě méně podporujících ch nulovou hypotézu Jednoduché pravidlo: p value < α H 0 zamítáme me 4 8

815 Obecné schéma statistického rozhodování Skutečnost Rozhodnutí H 0 platí H 0 neplatí H 0 zamítnout H 0 nezamítnout chyba 1. druhu a správně správně chyba. druhu b 5 Chyba 1.a. druhu (α,( β) H 0 x H 1 H 0 H 1 b a 6 9