Statistika v biomedicísk ském m výzkumu a ve zdravotictví Prof. RNDr. Jaa Zvárov rová,, DrSc. EuroMISE Cetrum Ústav iformatiky AV ČR R v.v.i. Proč se používaj vají statistické metody v biomedicíě Biomedicísk ské obory se rychle kvatifikují Pláov ováí, prováděí a iterpretadce výsledků biomedicísk ského výzkumu se stále více stávaj vají závislými a statistické metodologii Statistika proiká do literatury v biomedicíských oborech. 3 Literatura Edice Biomedicísk ská statistika vydáva vaá a Uiverzitě Karlově v Praze, Karolium Zvárov rová,, J.: Základy statistiky pro biomedicísk ské obory I. Karolium, Uiverzita Karlova v Praze, Praha 00 http:// //www.euromise.cz/ Statistika popisá statistika shromažďováí, uspořádáí a popis souborů dat přehledá sumarizace iformací (apř. ČSÚ) iduktiví statistika a základě vzorku (výběru) se sažíme odvodit obecá tvrzeí o celku - závěry jsou zatížey statistickou chybou spolehlivost závěrů je staovea objektivě 4
Obsah a výzam statistiky - schéma Výběr Výběr výběr část populace, kterou sledujeme v rámci výzkumu Druhy výběru: Populace reprezetativí výběr výběr, který svojí strukturou odpovídá struktuře populace selektiví výběr výběr, jehož struktura eodpovídá struktuře populace - -zkresleí výsledků rozsah výběru počet prvků populace zahrutých do výběru 5 7 Populace populace (základí soubor) přesě určea výčtem ebo vlastostmi prvků určeé výčtem (apř. demografické populace) -koečý rozsah vymezeé vlastostmi (apř. všechy možé výsledky pokusu v daých experimetálích podmíkách) -ekoečý rozsah Kostrukce výběru záměrý výběr expertí hledisko, často subjektiví áhodý výběr prostý mechaický oblastí (stratifikovaý) G Data tvoří základ každého výzkumu, při ěmž jsou použity statistické metody. Jejich kvalita určuje kvalitu výsledků. 6 8
Zaky Předmětem statistického výzkumu jsou zaky, tj. určit ité vlastosti objektů sledovaých. kvatitativí zak sledovaou vlastost je možé změřit a vyjádřit číslem Př.: tělesá výška, počet sourozeců Kvalitativí pozorováí Jméo pacieta Rodiý stav Rod. stav - kód Riziko povoláí Kód rizika Novák svobodý 0 středí Kubíček žeatý velké Bláhová rozvedeá malé 0 Roubal rozvedeý středí Kratochvílová svobodá 0 malé 0 Zemaová ovdovělá 3 malé 0 Novotá vdaá středí Žitý svobodý 0 velké kvalitativí zak vlastost je vyjádřea slově Př.: rodiý stav, stupeň bolesti 9 Kvalitativí zaky omiál lí rozděle leí do tříd t d bez uspořádáí Př.: rodiý stav:{svobodý, svobodý, žeatý, vdovec, rozvedeý, druh} ordiál lí rozděle leí do tříd t d s uspořádáím Př.: stupeň bolesti: {žádá bolest, malá bolest, střed edě silá bolest, velmi silá bolest} Kvalitativí zaky se pro účely aalýzy mohou kódovat. k Absolutí a relativí četosti Absolutí četost... počet pozorováí v daé skupiě Př.: počet svobodých osob ve výběru (v ašem příkladu 3) Relativí četost relativí četost m počet pozorováí m absolutí četost Př.: relativí četost svobodých ve výběru je 3/8 0,375 0
Kvatitativí zaky spojité diskrét tí Př.: výška, hmotost, kocetrace roztoku Př.: počet úmrtí,, počet sourozeců Kvatitativí zaky - míry polohy Modus (výběrový)... hodota, která se v souboru dat vyskytuje ejčastěji Př.: Co je modus v ásledujících výsledcích zjišťováí krevích skupi: A, 0, 0, B, B, AB, A, A, 0, 0, 0, AB, B, 0, B, A, 0, AB, 0, 0, B, 0, A? Řešeí: Výsledky měřeí shreme do tabulky: kreví skupia četost výskytu A 5 B 5 AB 3 0 0 Modem je tedy kreví skupia 0. 3 5 Kvatitativí zaky - míry polohy hodoty charakterizující středí"" hodotu zaku Aritmetický průměr x i x i Př.: Vypočtěte průměr ásledujících výsledků vyšetřeí: 39, 4, 73, 67, 4, 55. Kvatitativí zaky - míry polohy Mediá (výběrový)... v seřazeém souboru je to taková hodota, která soubor rozděluje a dvě stejě velké části Př.: Co je mediáem v ásledujících měřeích výšek dětí: 5, 7, 9,, 4, 8, 50? Řešeí: Řešeí: x 6 x i i 300 50 6 4 6
Kvatitativí zaky - míry rozptýleosti R x max x mi Normál lí rozděle leí Rozptyl s i i ( x x) x x i i Směrodatá odchylka s s 7 9 Kvatily 00P% kvatil x P je číslo, které odděluje 00P% % ejmeší ších hodot zaku. Zámé kvatily: Percetily Decily Kvartily Mediá Prostá tabulka Tělesá výška v cm 30 40 36 4 39 33 49 5 39 36 38 4 7 47 39 35 4 43 3 46 5 46 4 4 3 4 4 Skupiová tabulka Střed třídího itervalu Počet dětí 5 30 3 35 4 40 45 4 50 3 Celkem 7 8 0
Rozděleí chlapců ve věku 9,5-0 let podle tělesé výšky ( délka třídího itervalu 5 cm ) Číslo třídy Střed třídy Absolutí četost Souči Relativí četost Relativí kumulativí i x i i ix i četost i/ 0 3 560 0,0040 0,0040 5 95 875 0,094 0,0334 3 30 44 53 80 0,8 0,65 4 35 880 8 800 0,74 0,4339 5 40 03 4 80 0,335 0,7474 6 45 58 84 390 0,80 0,975 7 50 99 9 850 0,066 0,989 8 55 9 4 495 0,0090 0,998 9 60 6 960 0,009,0000 celkem - 33 447 570,0000 - Histogram - výška chlapců absolutí èetost absolutí èetost 00 500 00 450 000 400 900 800 350 700 300 600 50 500 00 00 400 50 300 50 00 00 00 HISTOGRAM HISTOGRAM délka itervalu 5 cm délka Délka itervalu cm cm 00 50 50 6,5 0,5 6,5 3,5 36,5 4,5 46,5 5,5 56,5 6,5 6,5 0,5 4,5 8,5 3,5 36,5 40,5 44,5 48,5 5,5 56,5 60,5 6,5,5 8,5 34,5 40,5 46,5 5,5 58,5 výška v cm výška v cm výška v cm 3 Histogram - výška chlapců Normál lí rozděle leí absolutí èetost absolutí èetost HISTOGRAM HISTOGRAM délka itervalu 5 cm Délka itervalu cm 00 500 00 450 000 900 400 800 350 700 300 600 50 500 00 400 300 50 00 00 00 50 0 6,5 0,5 6,5 3,5 36,5 4,5 46,5 5,5 56,5 6,5 6,5,5 8,5 34,5 40,5 výška v cm 46,5 5,5 58,5 výška v cm 4
-4-0 4 Normál lí rozděle leí Vliv populačí směrodat rodaté odchylky a tvar ormál lího rozděle leí Normálí rozděleí se týká populace, ikoli výběru. V případě ormálího rozděleí průměr, modus a mediá splývají. Normálí rozděleí je plě určeou dvěma parametry: -populačím průměrem µ a -populačí směrodatou odchylkou. 5 7 Vliv populačího průměru ru a tvar ormál lího rozděle leí Výzam parametrů 0.0 0. 0. 0.3 0.4 µ střed edí hodota (poloha, populačí průměr, r, těžt ěžiště), modus i mediá µ < µ, 0.0 0. 0. 0.3 0.4-4 - 0 4 směrodat rodatá odchylka (míra variability, kocetrace) rozptyl (populačí rozptyl) 6 µ µ, < 8
Obecé ormál lí rozděle leí µ 3,59 % µ 34,3 % 34,3 %,8 %,8 % 3,59 % µ µ+ µ+ X ~ N ( µ, ) (stadardizace) X µ x µ x µ P ( X x) P Φ Z X µ ~ N(0,) Normál lí rozděle leí 0. 0 0. 0. 0. 3 0. 4 - - 34,3 % 34,3 %,8 %,8 % 3,59 % 3,59 % 0 součet spousty epatrých ezávislých příspěvků epřesost esost měřm ěřeí délkové rozměry ry částí lidského tělat objemy, kocetrace zpravidla aža po trasformaci relativí četost při p velkém m počtu pokusů 9 3 Hustota N (μ, ) Hustota logaritmicko-orm ormálího rozděle leí 0,60 0,45 0,30 0,5 0,00 Hustota N(0,) 99,73% 68,7% 95,45% µ 3 µ µ µ+ µ+ µ+3 0 e+00 e-04 e-04 3 e-04 6000 8000 0000 000 4000 6000 30 3
Odhad populačího průměru ru Statistická teorie:? "Nejlepším odhadem populačího průměru µ je výběrový průměr." Nakolik odhad vystihuje skutečou hodotu µ? Vypovídací hodotu odhadu posuzujeme podle délky itervalu spolehlivosti. Iterval spolehlivosti... iterval, v ěmž s 95% pravděpodobostí leží ezámý populačí průměr µ. Příklad: Průměrá výška dětí: -pro 5 pozorováí můžeme tvrdit, že průměrá výška leží s 95% pravděpodobostí v itervalu (8; 48) - pro 85 pozorováí získáme iterval (38,; 38,9) Iterval spolehlivosti pro µ průměr r x přiblip ibližě orm pro velké má pr rozděle leí N ( µ, ) ormálí x µ α P < z α / P x z α / < µ < x + z α / při i opakovaém m pořizov izováí výběrů obsahuje asi 00(-α) ) % itervalů populačí průměr µ 33 35 Rozděle leí výběrov rového průměru ru áhodý výběr: : za stálých podmíek ezávisle provedeá opakovaá měřeí stejé vlastosti výšky áhod hodě vybraých desetiletých hochů x,x,,x mají stejé rozděle leí: µ - populačí průměr, r, - populačí rozptyl pro velké potom přiblip ibližě Bodový a itervalový odhad pro μ u rozděle Bodový odhad 95%% iterval i spolehlivosti X leí N(μ, ) X ~ N µ, X,96 ; X +,96 x xi ~ N µ, i x délka itervalu: přesost p odhadu 34 36
Rozsah výběru Příklad: : Chceme kostruovat 95 % iterval spolehlivosti pro průměrou rou hodou cholesterolu s délkou d +-+ 0, mmol/l, rozptyl hladiy cholesterolu je,5. Řešeí: X,96,5,5,96 ; X +,96,5 0, (,96 *,5 / 0,) 50 37 Statistická a kliická výzamost Možost Statistická výzamost Kliická výzamost a e možá b e možá c ao možá d ao ao e e e f ao e 38