Vztah pravděpodobnosti, statistiky a biostatistiky

Podobné dokumenty
Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

1. Úvod do genetických algoritmů (GA)

Matematický ústav Slezské univerzity v Opavě Učební texty k přednášce ALGEBRA II, letní semestr 2000/2001 Michal Marvan

Teorie pravěpodobnosti 1

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Ranní úvahy o statistice

Počet pravděpodobnosti

Inženýrská statistika pak představuje soubor postupů a aplikací teoretických principů v oblasti inženýrské činnosti.

analýzy dat v oboru Matematická biologie

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Reprezentace přirozených čísel ve Fibonacciho soustavě František Maňák, FJFI ČVUT, 2005

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Usuzování za neurčitosti

TECHNICKÁ UNIVERZITA V LIBERCI

2 Hlavní charakteristiky v analýze přežití

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Náhodný jev a definice pravděpodobnosti

1. Statistická analýza dat Jak vznikají informace Rozložení dat

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistika (KMI/PSTAT)

Popisná statistika kvantitativní veličiny

3. Podmíněná pravděpodobnost a Bayesův vzorec

= = 2368

Statistické vyhodnocení průzkumu funkční gramotnosti žáků 4. ročníku ZŠ

Jednofaktorová analýza rozptylu

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

SPRÁVNÁ INTERPRETACE INDIKÁTORŮ KVALITY MAMOGRAFICKÉHO SCREENINGU. Májek, O., Svobodník, A., Klimeš, D.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Úvodem Dříve les než stromy 3 Operace s maticemi

3. SEMINÁŘ MĚŘENÍ FREKVENCE NEMOCÍ V POPULACI

III. Úplná pravděpodobnost. Nezávislé pokusy se dvěma výsledky. Úplná pravděpodobnost Nezávislé pokusy se dvěma výsledky Náhodná veličina

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Pravděpodobnost a její vlastnosti

ρ = 0 (nepřítomnost volných nábojů)

PRAVDĚPODOBNOST JE. Martina Litschmannová

Pro zvládnutí této kapitoly budete potřebovat 4-5 hodin studia.

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Pravděpodobnost, náhoda, kostky

Zahrnutí alelického dropoutu

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Základy matematické analýzy

8 Coxův model proporcionálních rizik I

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Diagnostika regrese pomocí grafu 7krát jinak

Cvičení ze statistiky - 8. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

Pravděpodobnost a statistika

Rekonstrukce křivek a ploch metodou postupné evoluce

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Základy teorie pravděpodobnosti

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Úvod do problematiky měření

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Informační a znalostní systémy

VEKTORY. Obrázek 1: Jediný vektor. Souřadnice vektoru jsou jeho průměty do souřadných os x a y u dvojrozměrného vektoru, AB = B A

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

7. Rozdělení pravděpodobnosti ve statistice

Pravděpodobnost Podmíněná p. Úplná p. III. Pravděpodobnost. III. Pravděpodobnost Statistika A (ZS 2015)

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Přednáška X. Testování hypotéz o kvantitativních proměnných

3. Cíle a základní metodické nástroje finanční analýzy

Motivace. Náhodný pokus, náhodný n jev. pravděpodobnost. podobnostní charakteristiky diagnostických testů, Bayesův vzorec. Prof.RND. RND.

Základy počtu pravděpodobnosti a metod matematické statistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Lineární regrese. Komentované řešení pomocí MS Excel

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Epidemiologické metody

Manuál pro zaokrouhlování

TEORIE PRAVDĚPODOBNOSTI. 2. cvičení

Management rekreace a sportu. 10. Derivace

Zadání a řešení testu z matematiky a zpráva o výsledcích přijímacího řízení do magisterského navazujícího studia od podzimu 2016

Statistická teorie učení

PRAVDĚPODOBNOST A STATISTIKA 1

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Obsah přednášky Jaká asi bude chyba modelu na nových datech?

Pilotní ověření standardizace na agendě živnostenského podnikání. Projekt A121

ANALÝZA A KLASIFIKACE DAT

Požadavky k opravným zkouškám z matematiky školní rok

OR (odds ratio, poměr šancí) nebo též relativní riziko RR. Validita vyšetření nádorových markerů. Validita (určuje kvalitu testu)v % = SP/ SP+FP+FN+SN

Moderní systémy pro získávání znalostí z informací a dat

pravděpodobnosti Pravděpodobnost je teorií statistiky a statistika je praxí teorie pravděpodobnosti.

Hodnocení populačního přežití pacientů diagnostikovaných s C20 v ČR Projekt Diagnóza C20 - vzdělávání, výzkum a lékařská praxe

Normální (Gaussovo) rozdělení

MOCNINY A ODMOCNINY. Standardy: M M PYTHAGOROVA VĚTA. Standardy: M M

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Úloha - rozpoznávání číslic

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Transkript:

Vztah pravděpodobnosti, statistiky a biostatistiky V této kapitole dáme biostatistiku do kontextu s teorií pravděpodobnosti, z níž biostatistika společně se statistikou vycházeí Cílem e zavést důležité pomy ako sou podmíněná pravděpodobnost a Bayesův vzorec a ukázat, že s pomocí ednoduchých výpočtů lze řešit i biologicky a klinicky významné problémy Předpokládané výstupy z výuky: 1 Student umí definovat biostatistiku a eí vztah ke statistice, pravděpodobnosti a analýze dat 2 Student zvládá výpočet podmíněné pravděpodobnosti a Bayesova vzorce 3 Student rozumí významu podmíněné pravděpodobnosti v hodnocení statistických hypotéz 4 Student e schopen vypočítat hodnoty senzitivity a specificity a prediktivní hodnoty pro diagnostický test 5 Student umí aplikovat výpočet prediktivních hodnot v populacích s různou prevalencí sledované nemoci 1 Úvod Jak iž bylo řečeno v úvodní kapitole, biostatistika e vědní disciplínou, která primárně vychází ze statistiky, nicméně eich hranice nesou ostré Biostatistika e navíc často zaměňována s analýzou dat, se kterou může mít společný cíl a někdy i metodiku Rozdíly mezi těmito třemi oblastmi lze shrnout následovně: Statistika (statistics) e primárně zaměřena na teoretické aspekty, respektive na vývo metod a algoritmů Nicméně i vývo ve statistice byl a e motivován reálnými problémy, cílem e však zeména eich adekvátní teoretické řešení Statistika navíc zásadně souvisí s teorií pravděpodobnosti Rozdíl mezi nimi e však v předpokládaných vstupech a výstupech Zatímco cílem statistiky e získání informace o cílové populaci na základě pozorovaného experimentálního vzorku, v teorii pravděpodobnosti se ptáme na pravděpodobnost získání konkrétního možného výsledku, známe-li danou strukturu cílové populace Biostatistika (biostatistics) představue propoení znalosti statistických metod a dané problematiky v řešení biologických a klinických úloh Biostatistika také zahrnue metodický vývo, nicméně vždy e primárně orientována na řešení konkrétního biologického a medicínského problému, e tedy zaměřena převážně prakticky Analýza dat (data analysis) e velmi obecná oblast, která nemusí být nutně spoována se statistickými metodami a která prostupue různými odvětvími Zahrnue komplexní postupy pro získávání informací z dat, včetně eich zpracování a přípravy, tedy čištění dat, analýzu odlehlých pozorování a kódování dat Metody analýzy dat mohou i nemusí mít matematický základ, často se např setkáváme v analýze dat s metodami a algoritmy dolování dat

2 Podmíněná pravděpodobnost a Bayesův vzorec Jedním ze základních konceptů v biostatistice, který ednoznačně propoue teorii pravděpodobnosti, statistiku a biostatistiku, e podmíněná pravděpodobnost, která, ak už název napovídá, vyadřue pravděpodobnost ednoho evu za podmínky nastání evu druhého Praktické ukázce použití podmíněné pravděpodobnosti v biostatistice se věnue další část této kapitoly o vyhodnocování diagnostických testů Abychom však mohli definovat podmíněnou pravděpodobnost, uvažume dva evy A a B s tím, že ev B má nenulovou pravděpodobnost, tedy > 0 Pak podmíněnou pravděpodobnost evu A za podmínky nastoupení evu B definueme vztahem A A = (21) S pomem podmíněná pravděpodobnost úzce souvisí i další důležité pomy, ako sou nezávislost dvou evů a Bayesův vzorec (Bayes formula) Nezávislostí dvou evů ednoduše myslíme skutečnost, kdy výsledek příznivý pro eden z evů niak neovlivňue pravděpodobnost nastání evu druhého Výpočetně to znamená, že pravděpodobnost společného nastoupení obou evů, opět řekněme označených A a B, lze získat pomocí součinu ednotlivých pravděpodobností Pro nezávislé evy A a B tedy platí P ( A = S použitím tohoto vztahu, respektive eho dosazením do (21) lze nezávislost mezi evy A a B vyádřit následovně: P ( A = = (22) Zaměníme-li ve vztahu (21) evy A a B, budeme-li tedy chtít vyádřit pravděpodobnost evu B za podmínky nastoupení evu A, dostaneme výraz, kde v čitateli bude opět figurovat pravděpodobnost společného nastoupení evů A a B, tedy A Pravděpodobnost A následně vyádříme s pomocí vztahu (21) ako P ( A = A, což vede ke vztahu, který e označován ako Bayesův vzorec: A A P ( B = = (23) Tento výraz lze dále rozvést vyádřením pravděpodobnosti evu A,, s pomocí matematické věty o celkové pravděpodobnosti, která má v případě, že máme úplný systém dvou evů, označme e B a C, tvar P ( = A + A C) C) Využití věty o celkové pravděpodobnosti vede k vyádření Bayesova vzorce ve tvaru A B = (24) A + A C) C) V biostatistice se nečastěi setkáváme se situací, kdy evy B a C představuí dvě navzáem se vylučuící hypotézy (vždy e v platnosti pouze edna z těchto hypotéz), což sou tvrzení, že

něco existue/neexistue, platí/neplatí, případně že se něco rovná/nerovná Jev A pak představue něaký výsledek experimentu, nečastěi v podobě dat, na ehož základě se rozhodueme, zda platí spíše hypotéza B nebo C Logicky se tedy snažíme kvantifikovat pravděpodobnosti P ( B a P ( C Můžeme-li rozdělit základní prostor dokonce na k po dvou disunktních podmnožin tzv systém hypotéz (H i, i = 1,, k), pro které opět platí, že eich sednocením e celý základní prostor, pak pravděpodobnost platnosti konkrétní z nich, např hypotézy H, za podmínky nastání evu A lze pomocí Bayesova vzorce získat ako A H ) A H ) H ) H = = k A H ) H ) i= 1 i i (25) 3 Senzitivita, specificita a prediktivní hodnoty Neběžněší situací, při níž se setkáváme s ednoduchou aplikací podmíněné pravděpodobnosti, e statistické hodnocení správnosti diagnostických testů, kdy sou diagnostické schopnosti testu validovány proti skutečně verifikovanému stavu testovaných osob Srovnáváme tedy výsledky testu (pozitivní/negativní) proti skutečně prokazatelné přítomnosti/nepřítomnosti nemoci Pro tuto situaci byla navržena sada ukazatelů správnosti, které představuí číselné ohodnocení testu ve vztahu k eho chybovosti [1] Definici těchto ukazatelů provedeme na základě značení, v němž proti sobě sumarizueme výsledky diagnostického testu, pozitivní výsledek (označen ako A + ) a negativní výsledek (označen ako A - ), a skutečnou přítomnost nemoci, nemoc přítomna (označeno ako H + ) a nemoc nepřítomna (označeno ako H - ) Kvantifikovat skutečnou přítomnost onemocnění není vždy ednoduché, zde však tento fakt budeme považovat za bernou minci Prvními dvěma ukazateli správnosti testu sou tzv senzitivita testu a specificita testu, které definueme pomocí podmíněné pravděpodobnosti následovně: senzitivita testu (test sensitivity) e eho schopnost rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když e osoba skutečně nemocná; specificita testu (test specificity) e eho schopnost rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná Pomocí výše zavedeného značení definueme senzitivitu a specificitu ako Senzitivita: P ( A H ) = a /( a + c), Specificita: P ( A H ) = d /( b + d) (26) Druhými dvěma ukazateli sou tzv prediktivní hodnoty, které také definueme pomocí podmíněné pravděpodobnosti: prediktivní hodnota pozitivního testu (predictive value of positive test) e pravděpodobnost, že osoba e skutečně nemocná, když test vyde ako pozitivní; a naopak prediktivní hodnota negativního testu (predictive value of negative test) e pravděpodobnost, že osoba skutečně není nemocná, když eí test vyde ako negativní Pomocí výše zavedeného značení definueme prediktivní hodnoty ako Prediktivní hodnota pozitivního testu: a /( a + b), Prediktivní hodnota negativního testu: d /( c + d) (27)

Příklad 1 Hodnotíme přesnost vyšetření ater ultrazvukem, respektive schopnost vyšetření ultrazvukem identifikovat postižené ložisko v pacientových átrech Přesnost e vztažena k laboratornímu ověření odebrané tkáně Výsledky sou dány tabulkou 1 Tabulka 1 Sumarizace výsledků ultrazvukového vyšetření ater vzhledem k laboratornímu ověření Výsledek ultrazvuku Histologické ověření postižení ater Ložisko přítomno (H + ) Ložisko nepřítomno (H - ) Celkem Pozitivní (A + ) 32 2 34 Negativní (A - ) 3 24 27 Celkem 35 26 61 Výpočet senzitivity a specificity testu e následuící: Senzitivita testu: P ( A H ) = a /( a + c) = 32/35 = 0, 914, (28) Specificita testu: P ( A H ) = d /( b + d) = 24/ 26 = 0, 923 (29) Obdobně vypočítáme i obě prediktivní hodnoty testu Prediktivní hodnota pozitivního testu: a /( a + b) = 32/34 = 0, 941, (210) Prediktivní hodnota negativního testu: d /( c + d) = 24/ 27 = 0, 889 (211) Z hlediska interpretace e vhodné poznamenat, že senzitivita a specificita sou spíše populační ukazatele, neboť vycházeí ze znalosti skutečné přítomnosti/nepřítomnosti onemocnění, kterou však u konkrétního testovaného pacienta stoícího v ordinaci s výsledkem testu neznáme Více než testované osoby (potenciální pacienty) tak senzitivita a specificita zaímaí lékaře, kteří mohou tyto dva ukazatele velmi dobře použít pro srovnání diagnostické správnosti dvou různých testů Naopak prediktivní hodnoty vycházeí z konkrétního výsledku testu (pozitivní/negativní) a sou tak zaímavé především pro pacienty Ty totiž v případě konkrétního testu istě zaímá, aká e pravděpodobnost, že danou nemoc skutečně maí (respektive nemaí) ve chvíli, kdy im eich vlastní test vyšel pozitivně (respektive negativně) Otázkou e, aké hodnoty senzitivity a specificity sou dostatečné pro to, abychom označili daný test ako kvalitní nebo eště lépe ako kvalitněší než testy, které sou aktuálně dostupné Odpověď není ednoduchá, neboť do značné míry závisí na stavu poznání dané oblasti a na dosažitelné správnosti dostupných testů V určité oblasti mohou být hodnoty nad 60 % vítězstvím, v iné se diagnostika blíží v obou ukazatelích hodnotě 100 %, což znamená, že se téměř nevyskytuí falešně pozitivní a falešně negativní výsledky V každé oblasti existuí obektivní limity dané úrovní diagnostiky Nicméně relevanci odhadu specificity a senzitivity určue také kvalita experimentu, a to především ve dvou aspektech: 1 Dostatečná velikost experimentálního vzorku zvyšue kvalitu a přesnost provedených odhadů Při malém n roste pravděpodobnost, že některé specifické pacienty nezachytíme a odhady specificity a senzitivity budou zkreslené

2 Musí být zaručena reprezentativnost vzorku vzhledem k rozdělení četností v tabulce Je-li například podíl nemocných a zdravých edinců v obecné populaci 1:4, měl by být takto ideálně zachován i ve výběrovém souboru, získáváme tím realistický základ pro posouzení skutečných ukazatelů testu Jednoduchým a přitom v odborné literatuře málo využívaným způsobem, ak vyádřit kvalitu odhadu senzitivity a specificity, e výpočet eich intervalu spolehlivosti Všechny čtyři definované ukazatele totiž představuí neznámé parametry, které sou příslušné danému diagnostickému testu a které maí formu podílu Jeich bodové odhady vypočtené na základě výběrových souborů tak můžeme ednoduše doplnit 100(1 α)% intervalem spolehlivosti s pomocí postupu, který e blíže popsán v části Testování hypotéz o kvalitativních proměnných Zaímavou vlastností obou prediktivních hodnot e fakt, že úzce souvisí s prevalencí sledované nemoci (nebo obecně vlastnosti) v cílové populaci Budeme-li ednoduše uvažovat konkrétní časový okamžik (konkrétní datum), lze prevalenci vyádřit ako procento pacientů s danou nemocí počítané ze všech osob v cílové populaci Abychom mohli demonstrovat závislost pozitivní a negativní prediktivní hodnoty na prevalenci onemocnění (označme i ako H + ), pak 1 H + ) = H - )), e nutno e nedříve vyádřit pomocí Bayesova vzorce a hodnot senzitivity a specificity následovně: + ( A H ) H ) P H A ) =, + + A H ) H ) + A H ) H ) (212) ( A H ) H ) P H A ) = + A H ) H ) + A H ) H + ) (213) Odvození vztahů (212) a (213) e základním cvičením z podmíněné pravděpodobnosti, necháváme ho proto na laskavém čtenáři ako cvičení Vliv prevalence nemoci na prediktivní hodnoty nelépe ukážeme na příkladu Příklad 2 Vypočtěme pozitivní a negativní prediktivní hodnotu diagnostického testu na HIV pozitivitu, u kterého výrobce garantue 98% senzitivitu a 99% specificitu Jako první uvažume výpočet těchto ukazatelů v zemi s vysokou prevalencí HIV pozitivity (např ihoafrické země) a předpokládeme H + ) = 0,2 Prediktivní hodnoty pak sou následuící: 0,98 0,20 = 0,961, 0,98 0,20 + (1 0,99) (1 0,20) (214) 0,99 (1 0,20) = 0,995 0,99 (1 0,20) + (1 0,98) 0,20 (215) Vidíme tedy, že v zemi s relativně vysokou prevalencí HIV pozitivity má kvalitní test (respektive test s vysokou senzitivitou a specificitou) velkou vypovídací hodnotu, tedy osoby s pozitivním testem (respektive negativním testem) maí vysokou pravděpodobnost, že sou skutečně HIV pozitivní (respektive HIV negativní) Nyní uvažume výpočet prediktivních hodnot v zemi s nízkou prevalencí HIV pozitivity (např evropské země) a předpokládeme H + ) = 0,002 Hodnoty se po přepočtu změní takto:

0,98 0,002 = 0,164, 0,98 0,002 + (1 0,99) (1 0,002) (216) 0,99 (1 0,002) = 0,999 0,99 (1 0,002) + (1 0,98) 0,002 (217) Máme-li zemi s nízkou prevalencí HIV pozitivity, e vidět, že kvalitní test má velmi dobrou vypovídací schopnost pro osoby, imž vyšel negativní výsledek testu, neboť na 99,9 % sou tyto osoby opravdu HIV negativní Na druhou stranu osoba, íž vyšel pozitivní výsledek testu, má i při použití kvalitního diagnostického testu pravděpodobnost pouze 16,4 %, že e skutečně HIV pozitivní Příklad k řešení: 1 Osoba X má všechny typické příznaky chřipky Pravděpodobnost, že se edná o klasickou chřipku e 0,7 (ev, prasečí chřipku 0,2 (ev, ptačí chřipku 0,05 (ev C) a dosud neznámou formu 0,05 (ev D) Diagnostický test prokázal, že klasická chřipka to není Jaká e nyní pravděpodobnost, že se edná o novou formu chřipky? [Výsledek: P = 0,167] Doporučená literatura: 1 Pagano M, Gauvreau K Principles of biostatistics 2 nd edition, Brooks/Cole, Cengage Learning, Belmont, 2000 2 Zvárová J Základy statistiky pro biomedicínské obory Nakladatelství Karolinum, Praha, 2004