Lékařská biofyzika, výpočetní technika I

Podobné dokumenty
Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování statistických hypotéz

Charakterizace rozdělení

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Zápočtová práce STATISTIKA I

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Výběrové charakteristiky a jejich rozdělení

KGG/STG Statistika pro geografy

Motivace. Náhodný pokus, náhodný n jev. Pravděpodobnostn. podobnostní charakteristiky diagnostických testů, Bayesův vzorec

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Pravděpodobnost a matematická statistika

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Charakteristika datového souboru

Definice spojité náhodné veličiny zjednodušená verze

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

I. D i s k r é t n í r o z d ě l e n í

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

p(x) = P (X = x), x R,

Tomáš Karel LS 2012/2013

Intervalové Odhady Parametrů

Počet pravděpodobnosti

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Téma 22. Ondřej Nývlt

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Číselné charakteristiky

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

Cvičení ze statistiky - 8. Filip Děchtěrenko

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

STATISTICKÉ ZJIŠŤOVÁNÍ

Obecné, centrální a normované momenty

Minimální hodnota. Tabulka 11

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Vybraná rozdělení náhodné veličiny

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Biostatistika Cvičení 7

Normální (Gaussovo) rozdělení

Regresní analýza 1. Regresní analýza

Praktická statistika. Petr Ponížil Eva Kutálková

Analýza dat na PC I.

Charakterizují kvantitativně vlastnosti předmětů a jevů.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Uni- and multi-dimensional parametric tests for comparison of sample results

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA

Normální (Gaussovo) rozdělení

Manuál pro zaokrouhlování

1 Klasická pravděpodobnost. Bayesův vzorec. Poslední změna (oprava): 11. května 2018 ( 6 4)( 43 2 ) ( 49 6 ) 3. = (a) 1 1 2! + 1 3!

Základy pravděpodobnosti a statistiky. Popisná statistika

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Náhodná veličina a rozdělení pravděpodobnosti

Pravděpodobnost a aplikovaná statistika

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Příklady na testy hypotéz o parametrech normálního rozdělení

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

5. Odhady parametrů. KGG/STG Zimní semestr

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Mnohorozměrné metody, metody klasifikace

Přednáška. Další rozdělení SNP. Limitní věty. Speciální typy rozdělení. Další rozdělení SNP Limitní věty Speciální typy rozdělení

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

12. cvičení z PST. 20. prosince 2017

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

STATISTICKÉ ODHADY Odhady populačních charakteristik

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Někdy lze výsledek pokusu popsat jediným číslem, které označíme X (nebo jiným velkým písmenem). Hodíme dvěma kostkami jaký padl součet?

Základy biostatistiky

Pravděpodobnost a statistika I KMA/K413

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

Intervalové Odhady Parametrů II Testování Hypotéz

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

STATISTICKÉ TESTY VÝZNAMNOSTI

TECHNICKÁ UNIVERZITA V LIBERCI

Chyby měření 210DPSM

Dobrovolná bezdětnost v evropských zemích Estonsku, Polsku a ČR

You created this PDF from an application that is not licensed to print to novapdf printer (

Mnohorozměrná statistická data

PRAVDĚPODOBNOST A STATISTIKA

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

VYUŽITÍ PRAVDĚPODOBNOSTNÍ METODY MONTE CARLO V SOUDNÍM INŽENÝRSTVÍ

Kurz Biostatistiky pro zaměstnance FNO

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Přednáška II. Vztah pravděpodobnosti, statistiky a biostatistiky

Motivace. Náhodný pokus, náhodný n jev. pravděpodobnost. podobnostní charakteristiky diagnostických testů, Bayesův vzorec. Prof.RND. RND.

PRAVDĚPODOBNOST A STATISTIKA. Bayesovské odhady

Transkript:

Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Hana Tomášková (Ing. Ph.D.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Obsah přednášky 3: Senzitivita a specificita, prediktivní hodnota Normální rozdělení vlastnosti, příklad Výpočet intervalů spolehlivosti Velikost výběru

Senzitivita a specificita Označení výsledků diagnostické testu ve vztahu k diagnóze Skutečnost Výsledek test Nemocný (N+) Zdravý (N -) Pozitivní (T + ) SP FP Negativní (T - ) FN SN SP-správně pozitivní, FP falešně poz., FN falešně negativní, SN správně neg. Senzitivita pravděpodobnost pozitivního výsledku testu u osoby s nemocí P(T+ N+) = SP/(SP +FN) Specificita pravděpodobnost negativního výsledku testu u osoby bez nemocí P(T - N -) = SN/(SN +FP)

Prediktivní hodnota Pokud je v testovacím souboru stejné zastoupení nemocných osob, jaký je jejich podíl v populaci, potom platí pro výpočet prediktivních hodnot následující vztahy: Pozitivní prediktivní hodnota pravděpodobnost, že osoba s pozitivním výsledkem testu má nemoc P(N+ T+) = SP/(SP +FP) Negativní prediktivní hodnota pravděpodobnost, že osoba s negativním výsledkem testu je bez nemocí P(N- T-) = SN/(SN +FN) Výsledek test Skutečnost Nemocný (N+) Zdravý (N -) Pozitivní (T + ) SP FP Negativní (T - ) FN SN

Věta o úplné pravděpodobnosti A i A j = i j, i, j = 1,2,, k A A Ak = 1 2 P( A i ) > 0 U k PC ( ) = P C A P A i i i= 1 ( ) ( )

Bayesova věta: PA ( C) j = k i= 1 PC ( A) PA ( ) j PC A PA ( ) ( ) i j i ( ) ( ) PA ( C) = P A C PC ( ) = PC A PA ( ) j j j j ( C) P A j = ( ) PC A PA ( ) j PC ( ) j

Bayesův vzorec Pokud v testovacím je jiný podíl nemocných osob, než je jejich zastoupení v populaci, tak se pro prediktivní hodnotu musí použít Bayesův vzorec se skutečnou prevalencí nemoci. Bayesův vzorec pro pozitivní prediktivní hodnotu: + + + + + + + PT ( N ) PT ( N ). PN ( ) PN ( T ) = = + + + + + PT ( ) PT ( N ). PN ( ) + PT ( N ). PN ( ) Bayesův vzorec pro negativní prediktivní hodnotu: PT ( N ) PT ( N ). PN ( ) PN ( T ) = = + + PT ( ) PT ( N ). PN ( ) + PT ( N ). PN ( ) P(N + ) -pravděpodobnost výskytu nemoci v populaci, ze které byla osoba vybrána. Nazývá se prevalence nemoci (podíl osob s nemocí ve zkoumané populaci). Jev N - je jevem opačným k jevu N + a jeho pravděpodobnost se vypočte + P( N ) = 1 P( N )

Bayesův vzorec - příklad Provádělo se ověřování kvality nového testu pro diagnostiku poruchy sluchu. Test byl ověřován u osob, u nichž byl stav sluchu vyšetřen dříve podrobnými klinickými postupy. Skutečnost test N+ N- T+ 50 300 T- 25 870 Celkem 75 1170 Senzitivita P(T+/N+)= 50/75= 0.67 Specificita P(T-/N-)= 870/1170= 0.74

Bayesův vzorec - příklad Prediktivní hodnoty Pozitivní pred. hodnota Pozitivní pred. hodnota P(N+) 0,3 P(N+) 0,12 P(N-) 0,7 P(N-) 0,88 P(T+/N-) 0,256 P(T+/N-) 0,256 P(N+/T+) 52,70% P(N+/T+) 26,17% Negativní pred. hodnota Negativní pred. hodnota P(T-/N+) 0,33 P(T-/N+) 0,33 P(N-/T-) 83,88% P(N-/T-) 94,24% P(N+) - prevalence

Normální rozdělení N(µ, σ 2 ) X má normální rozdělení se stř. hodn. µ a rozptylem σ 2 f 1 x µ 1 ( ) 2 σ ( x) = e σ 2π Příklad: π=3,141, e=2,718 U souboru 183 mužů nás zajímalo jak vypadá pravděpodobnostní rozdělení pro změřenou výšku. Počet 183 Aritmetický průměr 175,2 Směrodatná odchylka 6,3 Šikmost 0,08 Špičatost 2,91 2 95% populace 175,2±1,96*6,3: ( 162,9 187,5 ) 99% populace 175,2±2,58*6,3 : 158,9 191,5 )

N(175,2;6,3 2 ) výška f(x) 155 0,000370902 156 0,000609284 157 0,000975974 158 0,001524456 159 0,002321929 160 0,003448584.......... 188 0,008040769 189 0,00575131 190 0,00401138 191 0,002728216 192 0,001809345 193 0,001170097 194 0,000737871 195 0,000453729 196 0,000272064 197 0,000159075

Normální rozdělení N(µ, σ 2 ) -vlastnosti 68 % plochy pod křivkou je v intervalu (µ - σ, µ + σ) 95 % plochy pod křivkou je v intervalu (µ - 1,96 σ, µ + 1,96 σ) 99 % plochy pod křivkou je v intervalu (µ - 2,58 σ, µ + 2,58 σ)

BODOVÉ A INTERVALOVÉ ODHADY Na základě sledování určitého znaku v reprezentativním výběru z příslušné populace můžeme odhadnout, jaká je hodnota znaku v celé populaci. Statistické charakteristiky z výběrových souborů - bodové odhady. Odpovídající charakteristiky v základním souboru - parametry populace a značí se písmeny řecké abecedy.

Příklad Odhady parametrů populace Aritmetický průměr z výběru ( ) o rozsahu n je tedy bodovým odhadem populačního střední hodnoty µ. x Výběrová charakteristika se liší od skutečné neznámé hodnoty příslušného parametru v definovaném základním souboru - výběrová chyba. Výběrová chyba vzniká vlivem náhodných výkyvů závisejících na tom, které prvky ze základního souboru budou do výběru zařazeny.

Příklad V soboru 180 mužů ve věku 45 60 let byla naměřena průměrná hladina HDL cholesterolu (mmol/l). Tento soubor byl náhodně rozdělen na dvě části. Soubor ar. průměr sm. odchylka Celý (n = 180) 1,34 0,31 Výběr 1 (n = 90) 1,30 0,28 Výběr 2 (n = 90) 1,38 0,34 Jak je vidět z tabulky, průměrné hodnoty se nepatrně liší.

Intervaly spolehlivosti Intervalový odhad je interval, ve kterém je s velkou pravděpodobností populační parametr obsažen. Tento interval se nazývá interval spolehlivosti (IS). Lze zvolit, s jakou pravděpodobností má být zaručeno, že interval spolehlivosti skutečně obsahuje neznámý parametr populace. Např. 95% IS pro střední hodnotu je rozmezí, ve kterém je střední hodnota obsažena s pravděpodobností 0,95.

Intervalový odhad střední hodnotu Se stanoví na základě výběrového průměru ( ) a střední chyby tohoto průměru (s e ): 95 % ± IS : x t0, 975s e kde t 0,975 je kvantil Studentova (t) rozdělení pro (n-1) stupňů volnosti, n je rozsah výběru. Obecně se vyhledává kvantil (1-α/2), α je zvolená pravděpodobnost chyby. n>30 - kvantil normálního rozdělení: 95 % IS : x ± 1, 96 s e 99 % IS : x ± 2, 58 s e x

Intervalový odhad Příklad: Ve vzorku 120 mužů vybraných z populace mužů ČR ve věku 35 44 let, bez chronické nemoci, byl výběrový průměr indexu BMI = 26, výběrová směrodatná odchylka 2,49. Řešení: Výběrový průměr = 26, střední chyba průměru s e = 2,49/ 120. 95%IS = 26±1,96.0,23 = 26±0,45 (25,55; 26,45) Můžeme říci, že průměrná hodnota BMI populace mužů ČR ve věku 35 44 let se bude nacházet v intervalu od 25,55 do 26,45 s 95% pravděpodobností.

Intervalový odhad populační pravděpodobnosti n - rozsah náhodného výběru r - počet lidí s danou vlastností p = r/n - relativní četnost výskytu vlastnosti ve výběru 95% interval spolehlivosti pro populační pravděpodobnost π 95% IS : p ± 1,96 p(1 n p)

Příklad V náhodně vybraném souboru 190 studentů středních škol kouřilo 68 chlapců. Řešení: p = 68/190 = 0,358, tj. 35,8%. 0,358(1 0,358) 95% IS : 0,358 ± 1,96 = 0,358 ± 0,068 190 (0,290;0,426) Tento odhad vyjádřený v procentech říká, že procento středoškoláků kuřáků v populaci studentů středních škol je s 95% spolehlivostí v rozmezí 29,0 % až 42,6%.

Příklad IS v publikaci Rev Saude Publica. 2010 Oct;44(5):901-11. Self-rated health among adults in Southern Brazil. [Article in English, Portuguese] Peres MA, Masiero AV, Longo GZ, da Rocha GC, Matos IB, Najnie K, de Oliveira MC, de Arruda MP, Peres KG. Abstract OBJECTIVE: To analyze factors associated with self-rated health in adults. METHODS: A population-based, cross-sectional study was performed with a sample of 2,051 adults aged between 20 and 59 years, in the city of Lages (168,382 inhabitants), Southern Brazil, in 2007. Household questionnaires were applied to obtain data on self-rated health, socioeconomic and demographic conditions, smoking habit, lifestyle and self-reported morbidities. Blood pressure, weight, height and abdominal circumference were measured. multivariable analysis was performed using Poisson regression, adjusted for the sampling design effect and stratified by sex.

RESULTS: Prevalence of positive self-rated health was 74.2% (95% CI: 71.3;77.0), significantly higher in men (82.3%, 95%CI: 79.3;85.0) than in women (66.9%, 95%CI: 63.2;70.7). Poorer, less educated and older men showed higher prevalences of negative selfrated health. After adjustment, high blood pressure levels and reporting chest wheezing were strongly associated with negative selfrated health in men. Prevalence of negative self-assessment was higher in poorer, less educated and older women and in those who showed abdominal obesity. High blood pressure levels, diabetes, chest wheezing and shortness of breath remained associated with the outcome after adjustment in women. The number of morbidities selfreported by women and men showed an association with negative self-rated health. CONCLUSIONS: Women and individuals who were older, poorer or less educated considered their health condition to be fair or poor. The higher the number of self-reported morbidities, the greater the proportion of individuals with negative self-rated health; the effect of morbidities was greater in women.

Intervalový odhad a velikost vzorku Příklad Ze souboru 30 studentek LF kouří 5 dívek. kuřáci r D - výběrová chyba % kuřáků 95% IS n p 5 30 17% 13% 3% 30% 17 100 17% 7% 9% 24% 50 300 17% 4% 12% 21% 83 500 17% 3% 13% 20% 167 1 000 17% 2% 14% 19% 1667 10 000 17% 1% 15,9% 17,4% Sledujeme vztah mezi přesností výsledků a rozsahem výběru.

Stanovení požadovaného rozsahu výběru Pokud máme předepsánu velikost výběrové chyby D můžeme odvodit požadovaný rozsah výběru. Odhad výběrové chyby je: D = t s n t je kvantil Studentova t rozdělení (n>30 - Normálního rozdělení). Z uvedeného výrazu, pak můžeme vyjádřit odhad potřebného rozsahu výběru n = t 2 D s 2 2

Příklad Jaký by měl být rozsah výběru, kdyby průměrný index BMI u mužů bez chronické nemoci ve věku 55 64 let měl být se spolehlivostí 0,95 odhadnut tak, aby jeho výběrová chyba byla nejvýše 0,4? Bodový odhad populační směrodatné odchylky, vypočítaný ze vzorku této populace, je 2,98. Řešení: Za hodnotu kvantilu pro spolehlivost 0,95 dosadíme t = 1,96, protože se předpokládá, že požadovaný rozsah výběru bude větší než 30. Požadovaná výběrová chyba D = 0,4 a směrodatná odchylka s = 2,98. Pro směrodatnou odchylku je většinou znám pouze její odhad z tzv. předvýběru nebo z literárních údajů. 1,96 Požadovaný rozsah výběru je n = = 213 2 0,4 2,98 2 2