Vztah pravděpodobnosti, statistiky a biostatistiky

Vztah pravděpodobnosti, statistiky a biostatistiky V této kapitole dáme biostatistiku do kontextu s teorií pravděpodobnosti, z níž biostatistika společně se statistikou vycházeí Cílem e zavést důležité pomy ako sou podmíněná pravděpodobnost a Bayesův vzorec a ukázat, že s pomocí ednoduchých výpočtů lze řešit i biologicky a klinicky významné problémy Předpokládané výstupy z výuky: 1 Student umí definovat biostatistiku a eí vztah ke statistice, pravděpodobnosti a analýze dat 2 Student zvládá výpočet podmíněné pravděpodobnosti a Bayesova vzorce 3 Student rozumí významu podmíněné pravděpodobnosti v hodnocení statistických hypotéz 4 Student e schopen vypočítat hodnoty senzitivity a specificity a prediktivní hodnoty pro diagnostický test 5 Student umí aplikovat výpočet prediktivních hodnot v populacích s různou prevalencí sledované nemoci 1 Úvod Jak iž bylo řečeno v úvodní kapitole, biostatistika e vědní disciplínou, která primárně vychází ze statistiky, nicméně eich hranice nesou ostré Biostatistika e navíc často zaměňována s analýzou dat, se kterou může mít společný cíl a někdy i metodiku Rozdíly mezi těmito třemi oblastmi lze shrnout následovně: Statistika (statistics) e primárně zaměřena na teoretické aspekty, respektive na vývo metod a algoritmů Nicméně i vývo ve statistice byl a e motivován reálnými problémy, cílem e však zeména eich adekvátní teoretické řešení Statistika navíc zásadně souvisí s teorií pravděpodobnosti Rozdíl mezi nimi e však v předpokládaných vstupech a výstupech Zatímco cílem statistiky e získání informace o cílové populaci na základě pozorovaného experimentálního vzorku, v teorii pravděpodobnosti se ptáme na pravděpodobnost získání konkrétního možného výsledku, známe-li danou strukturu cílové populace Biostatistika (biostatistics) představue propoení znalosti statistických metod a dané problematiky v řešení biologických a klinických úloh Biostatistika také zahrnue metodický vývo, nicméně vždy e primárně orientována na řešení konkrétního biologického a medicínského problému, e tedy zaměřena převážně prakticky Analýza dat (data analysis) e velmi obecná oblast, která nemusí být nutně spoována se statistickými metodami a která prostupue různými odvětvími Zahrnue komplexní postupy pro získávání informací z dat, včetně eich zpracování a přípravy, tedy čištění dat, analýzu odlehlých pozorování a kódování dat Metody analýzy dat mohou i nemusí mít matematický základ, často se např setkáváme v analýze dat s metodami a algoritmy dolování dat

2 Podmíněná pravděpodobnost a Bayesův vzorec Jedním ze základních konceptů v biostatistice, který ednoznačně propoue teorii pravděpodobnosti, statistiku a biostatistiku, e podmíněná pravděpodobnost, která, ak už název napovídá, vyadřue pravděpodobnost ednoho evu za podmínky nastání evu druhého Praktické ukázce použití podmíněné pravděpodobnosti v biostatistice se věnue další část této kapitoly o vyhodnocování diagnostických testů Abychom však mohli definovat podmíněnou pravděpodobnost, uvažume dva evy A a B s tím, že ev B má nenulovou pravděpodobnost, tedy > 0 Pak podmíněnou pravděpodobnost evu A za podmínky nastoupení evu B definueme vztahem A A = (21) S pomem podmíněná pravděpodobnost úzce souvisí i další důležité pomy, ako sou nezávislost dvou evů a Bayesův vzorec (Bayes formula) Nezávislostí dvou evů ednoduše myslíme skutečnost, kdy výsledek příznivý pro eden z evů niak neovlivňue pravděpodobnost nastání evu druhého Výpočetně to znamená, že pravděpodobnost společného nastoupení obou evů, opět řekněme označených A a B, lze získat pomocí součinu ednotlivých pravděpodobností Pro nezávislé evy A a B tedy platí P ( A = S použitím tohoto vztahu, respektive eho dosazením do (21) lze nezávislost mezi evy A a B vyádřit následovně: P ( A = = (22) Zaměníme-li ve vztahu (21) evy A a B, budeme-li tedy chtít vyádřit pravděpodobnost evu B za podmínky nastoupení evu A, dostaneme výraz, kde v čitateli bude opět figurovat pravděpodobnost společného nastoupení evů A a B, tedy A Pravděpodobnost A následně vyádříme s pomocí vztahu (21) ako P ( A = A, což vede ke vztahu, který e označován ako Bayesův vzorec: A A P ( B = = (23) Tento výraz lze dále rozvést vyádřením pravděpodobnosti evu A,, s pomocí matematické věty o celkové pravděpodobnosti, která má v případě, že máme úplný systém dvou evů, označme e B a C, tvar P ( = A + A C) C) Využití věty o celkové pravděpodobnosti vede k vyádření Bayesova vzorce ve tvaru A B = (24) A + A C) C) V biostatistice se nečastěi setkáváme se situací, kdy evy B a C představuí dvě navzáem se vylučuící hypotézy (vždy e v platnosti pouze edna z těchto hypotéz), což sou tvrzení, že

něco existue/neexistue, platí/neplatí, případně že se něco rovná/nerovná Jev A pak představue něaký výsledek experimentu, nečastěi v podobě dat, na ehož základě se rozhodueme, zda platí spíše hypotéza B nebo C Logicky se tedy snažíme kvantifikovat pravděpodobnosti P ( B a P ( C Můžeme-li rozdělit základní prostor dokonce na k po dvou disunktních podmnožin tzv systém hypotéz (H i, i = 1,, k), pro které opět platí, že eich sednocením e celý základní prostor, pak pravděpodobnost platnosti konkrétní z nich, např hypotézy H, za podmínky nastání evu A lze pomocí Bayesova vzorce získat ako A H ) A H ) H ) H = = k A H ) H ) i= 1 i i (25) 3 Senzitivita, specificita a prediktivní hodnoty Neběžněší situací, při níž se setkáváme s ednoduchou aplikací podmíněné pravděpodobnosti, e statistické hodnocení správnosti diagnostických testů, kdy sou diagnostické schopnosti testu validovány proti skutečně verifikovanému stavu testovaných osob Srovnáváme tedy výsledky testu (pozitivní/negativní) proti skutečně prokazatelné přítomnosti/nepřítomnosti nemoci Pro tuto situaci byla navržena sada ukazatelů správnosti, které představuí číselné ohodnocení testu ve vztahu k eho chybovosti [1] Definici těchto ukazatelů provedeme na základě značení, v němž proti sobě sumarizueme výsledky diagnostického testu, pozitivní výsledek (označen ako A + ) a negativní výsledek (označen ako A - ), a skutečnou přítomnost nemoci, nemoc přítomna (označeno ako H + ) a nemoc nepřítomna (označeno ako H - ) Kvantifikovat skutečnou přítomnost onemocnění není vždy ednoduché, zde však tento fakt budeme považovat za bernou minci Prvními dvěma ukazateli správnosti testu sou tzv senzitivita testu a specificita testu, které definueme pomocí podmíněné pravděpodobnosti následovně: senzitivita testu (test sensitivity) e eho schopnost rozpoznat skutečně nemocné osoby, tedy pravděpodobnost, že test bude pozitivní, když e osoba skutečně nemocná; specificita testu (test specificity) e eho schopnost rozpoznat osoby bez nemoci, tedy pravděpodobnost, že test bude negativní, když osoba není nemocná Pomocí výše zavedeného značení definueme senzitivitu a specificitu ako Senzitivita: P ( A H ) = a /( a + c), Specificita: P ( A H ) = d /( b + d) (26) Druhými dvěma ukazateli sou tzv prediktivní hodnoty, které také definueme pomocí podmíněné pravděpodobnosti: prediktivní hodnota pozitivního testu (predictive value of positive test) e pravděpodobnost, že osoba e skutečně nemocná, když test vyde ako pozitivní; a naopak prediktivní hodnota negativního testu (predictive value of negative test) e pravděpodobnost, že osoba skutečně není nemocná, když eí test vyde ako negativní Pomocí výše zavedeného značení definueme prediktivní hodnoty ako Prediktivní hodnota pozitivního testu: a /( a + b), Prediktivní hodnota negativního testu: d /( c + d) (27)

Příklad 1 Hodnotíme přesnost vyšetření ater ultrazvukem, respektive schopnost vyšetření ultrazvukem identifikovat postižené ložisko v pacientových átrech Přesnost e vztažena k laboratornímu ověření odebrané tkáně Výsledky sou dány tabulkou 1 Tabulka 1 Sumarizace výsledků ultrazvukového vyšetření ater vzhledem k laboratornímu ověření Výsledek ultrazvuku Histologické ověření postižení ater Ložisko přítomno (H + ) Ložisko nepřítomno (H - ) Celkem Pozitivní (A + ) 32 2 34 Negativní (A - ) 3 24 27 Celkem 35 26 61 Výpočet senzitivity a specificity testu e následuící: Senzitivita testu: P ( A H ) = a /( a + c) = 32/35 = 0, 914, (28) Specificita testu: P ( A H ) = d /( b + d) = 24/ 26 = 0, 923 (29) Obdobně vypočítáme i obě prediktivní hodnoty testu Prediktivní hodnota pozitivního testu: a /( a + b) = 32/34 = 0, 941, (210) Prediktivní hodnota negativního testu: d /( c + d) = 24/ 27 = 0, 889 (211) Z hlediska interpretace e vhodné poznamenat, že senzitivita a specificita sou spíše populační ukazatele, neboť vycházeí ze znalosti skutečné přítomnosti/nepřítomnosti onemocnění, kterou však u konkrétního testovaného pacienta stoícího v ordinaci s výsledkem testu neznáme Více než testované osoby (potenciální pacienty) tak senzitivita a specificita zaímaí lékaře, kteří mohou tyto dva ukazatele velmi dobře použít pro srovnání diagnostické správnosti dvou různých testů Naopak prediktivní hodnoty vycházeí z konkrétního výsledku testu (pozitivní/negativní) a sou tak zaímavé především pro pacienty Ty totiž v případě konkrétního testu istě zaímá, aká e pravděpodobnost, že danou nemoc skutečně maí (respektive nemaí) ve chvíli, kdy im eich vlastní test vyšel pozitivně (respektive negativně) Otázkou e, aké hodnoty senzitivity a specificity sou dostatečné pro to, abychom označili daný test ako kvalitní nebo eště lépe ako kvalitněší než testy, které sou aktuálně dostupné Odpověď není ednoduchá, neboť do značné míry závisí na stavu poznání dané oblasti a na dosažitelné správnosti dostupných testů V určité oblasti mohou být hodnoty nad 60 % vítězstvím, v iné se diagnostika blíží v obou ukazatelích hodnotě 100 %, což znamená, že se téměř nevyskytuí falešně pozitivní a falešně negativní výsledky V každé oblasti existuí obektivní limity dané úrovní diagnostiky Nicméně relevanci odhadu specificity a senzitivity určue také kvalita experimentu, a to především ve dvou aspektech: 1 Dostatečná velikost experimentálního vzorku zvyšue kvalitu a přesnost provedených odhadů Při malém n roste pravděpodobnost, že některé specifické pacienty nezachytíme a odhady specificity a senzitivity budou zkreslené

2 Musí být zaručena reprezentativnost vzorku vzhledem k rozdělení četností v tabulce Je-li například podíl nemocných a zdravých edinců v obecné populaci 1:4, měl by být takto ideálně zachován i ve výběrovém souboru, získáváme tím realistický základ pro posouzení skutečných ukazatelů testu Jednoduchým a přitom v odborné literatuře málo využívaným způsobem, ak vyádřit kvalitu odhadu senzitivity a specificity, e výpočet eich intervalu spolehlivosti Všechny čtyři definované ukazatele totiž představuí neznámé parametry, které sou příslušné danému diagnostickému testu a které maí formu podílu Jeich bodové odhady vypočtené na základě výběrových souborů tak můžeme ednoduše doplnit 100(1 α)% intervalem spolehlivosti s pomocí postupu, který e blíže popsán v části Testování hypotéz o kvalitativních proměnných Zaímavou vlastností obou prediktivních hodnot e fakt, že úzce souvisí s prevalencí sledované nemoci (nebo obecně vlastnosti) v cílové populaci Budeme-li ednoduše uvažovat konkrétní časový okamžik (konkrétní datum), lze prevalenci vyádřit ako procento pacientů s danou nemocí počítané ze všech osob v cílové populaci Abychom mohli demonstrovat závislost pozitivní a negativní prediktivní hodnoty na prevalenci onemocnění (označme i ako H + ), pak 1 H + ) = H - )), e nutno e nedříve vyádřit pomocí Bayesova vzorce a hodnot senzitivity a specificity následovně: + ( A H ) H ) P H A ) =, + + A H ) H ) + A H ) H ) (212) ( A H ) H ) P H A ) = + A H ) H ) + A H ) H + ) (213) Odvození vztahů (212) a (213) e základním cvičením z podmíněné pravděpodobnosti, necháváme ho proto na laskavém čtenáři ako cvičení Vliv prevalence nemoci na prediktivní hodnoty nelépe ukážeme na příkladu Příklad 2 Vypočtěme pozitivní a negativní prediktivní hodnotu diagnostického testu na HIV pozitivitu, u kterého výrobce garantue 98% senzitivitu a 99% specificitu Jako první uvažume výpočet těchto ukazatelů v zemi s vysokou prevalencí HIV pozitivity (např ihoafrické země) a předpokládeme H + ) = 0,2 Prediktivní hodnoty pak sou následuící: 0,98 0,20 = 0,961, 0,98 0,20 + (1 0,99) (1 0,20) (214) 0,99 (1 0,20) = 0,995 0,99 (1 0,20) + (1 0,98) 0,20 (215) Vidíme tedy, že v zemi s relativně vysokou prevalencí HIV pozitivity má kvalitní test (respektive test s vysokou senzitivitou a specificitou) velkou vypovídací hodnotu, tedy osoby s pozitivním testem (respektive negativním testem) maí vysokou pravděpodobnost, že sou skutečně HIV pozitivní (respektive HIV negativní) Nyní uvažume výpočet prediktivních hodnot v zemi s nízkou prevalencí HIV pozitivity (např evropské země) a předpokládeme H + ) = 0,002 Hodnoty se po přepočtu změní takto:

0,98 0,002 = 0,164, 0,98 0,002 + (1 0,99) (1 0,002) (216) 0,99 (1 0,002) = 0,999 0,99 (1 0,002) + (1 0,98) 0,002 (217) Máme-li zemi s nízkou prevalencí HIV pozitivity, e vidět, že kvalitní test má velmi dobrou vypovídací schopnost pro osoby, imž vyšel negativní výsledek testu, neboť na 99,9 % sou tyto osoby opravdu HIV negativní Na druhou stranu osoba, íž vyšel pozitivní výsledek testu, má i při použití kvalitního diagnostického testu pravděpodobnost pouze 16,4 %, že e skutečně HIV pozitivní Příklad k řešení: 1 Osoba X má všechny typické příznaky chřipky Pravděpodobnost, že se edná o klasickou chřipku e 0,7 (ev, prasečí chřipku 0,2 (ev, ptačí chřipku 0,05 (ev C) a dosud neznámou formu 0,05 (ev D) Diagnostický test prokázal, že klasická chřipka to není Jaká e nyní pravděpodobnost, že se edná o novou formu chřipky? [Výsledek: P = 0,167] Doporučená literatura: 1 Pagano M, Gauvreau K Principles of biostatistics 2 nd edition, Brooks/Cole, Cengage Learning, Belmont, 2000 2 Zvárová J Základy statistiky pro biomedicínské obory Nakladatelství Karolinum, Praha, 2004