1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy
Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které byly nalezeny téměř mrtvé, bez známek života. Všechna další vyšetření negativní, zotavily se během několika dnů.... téměř ztracené Normální děti LTV... dlouhodobá proměnlivost tepové frekvence (rozdíl mezi min. a max. hodnotami novorozenecké tepové frekvence). Téměř 5.0, 7.0, 7.67, 8.17, 8.33, 8.83, 9.17, 9.33, 9.33, ztracené 9.67, 11.0,11.67, 13.33, 13.83, 14.17, 15.17, 15.50, 17.33, 18.0, 20.60, 21.17, 22.33, 22.67, 23.00, 24.67 Normální 11.33, 13.67, 14.33, 17.33, 17.83, 19.0, 20.67, 22.33, 27.83, 29.0, 31.17, 31.33, 32.0, 32.5, 35.0 Liší se téměř ztracené děti od normálních z hlediska LTV? 2 / 33
Statistika 3 / 33 Rozlišení LTV mezi skupinami není jednoznačné: téměř ztracené děti : (5,00 24,67) normální děti: (11,33 35,00) Liší se alespoň v průměru? (13,70 resp. 23,69) Je tento rozdíl pouze náhodný, nebo zde existuje nějaké systematické posunutí?
Statistika 4 / 33 Popisná (deskriptivní) Určitým způsobem popisuje nebo shrnuje data, která máme Popisné chrakteristiky (průměr, medián,... ), grafy (histogram, krabicový diagram, bodový graf,... ) Omezuje svá tvrzení na daná data, nečiní si nárok zobecňovat, dělat závěry Induktivní Na základě dat se snaží zobecnit pozorování na větší soubor, populaci Pracuje s náhodou, odhady, testy Velkou roli zde hraje správná interpretace Ve většině prací se setkáme s obojím.
Měřítko 5 / 33 Na statistických jednotkách sledujeme jejich vlastnosti - hodnoty znaků ve zvoleném měřítku Kvalitativní (zpravidla vyjádřené slovem, znakem,... ) nula-jedničkové (jev nastal/nenastal, pacient přežil/nepřežil) nominální (několik kategorií, např. krevní skupina, pohlaví - faktor) ordinální (kategorie jsou jistým způsobem řezené, např. bolest je silná, mírná, žádná) Kvantitativní (vyjádřené číslem) intervalové (spojité, nabývají hodnoty z nějakého intervalu, např. výška, LTV) diskrétní (ordinální, počet pacientů, kteří navštíví ambulanci během jednoho dne)
Pravděpodobnost I 6 / 33 Náhodný pokus - pokus, jehož výsledek není předem určený Náhodný jev - výsledek náhodného pokusu Pravděpodobnost náhodného jevu A, P(A) - míra častosti výskytu jevu A, naděje, že nastane 0 P(A) 1
Pravděpodobnost II 7 / 33 Klasická definice pravděpodobnosti n stejně pravděpodobných elementárních jevů ω 1, ω 2,..., ω n z toho m elementárních jevů příznivých jevu A P(A) = m n Např. hod kostkou A... padne sudé číslo Elementární jevy: padne 1,2,3,4,5,6, všechny s pravděpodobností 1 6 P(A) = 3 6 = 1 2 Ovšem máme-li spojitý znak, tato definice nestačí. Potřebujeme obecnější koncept.
Náhodná veličina 8 / 33 Číselně vyjádřený výsledek náhodného pokusu. Teoretický pojem. Nevíme výsledek, známe jenom možné hodnoty a jejich pravděpodobnosti (rozdělení). Např. náhodná veličina je LTV obecně. Její realizace: naměříme ji u konkrétního dítěte. Populace (nekonečná) Náhodná veličina X Příště Výběr Výběr pozorování x 1,... x n Výběr Jiná pozorování x 1,... x n
Rozdělení náhodné veličiny 9 / 33 Diskrétní Model pro počty případů Dané pravděpodobnosti hodnot Např. P(nově narozené dítě je chlapec)=0,52, P(nově narozené dítě je dívka)=0,48 Spojité Např. Normální (Gaussovo), X N(µ, σ 2 ) f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x
Normální rozdělení 10 / 33 Tzv. Gaussova křivka je hustota (vyjádřena přesným matematickým vzorcem) Určuje s jakou pravděpodobností může náhodná veličina X nabýt hodnoty z daného intervalu To je dáno plochou pod křivkou f(x) 0.0 0.1 0.2 0.3 0.4 4 3 2 1 0 1 2 3 4 x
Normální rozdělení II Má dva parametry Střední hodnota µ - určuje bod, kolem kterého je tato hustota symetrická Rozptyl σ 2 - určuje jak moc jsou hodnoty rozpýlené kolem tohoto bodu N(0,1) N(1,1) N(0,2) f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x 11 / 33
Jiná spojitá rozdělení 12 / 33 Avšak normální rozdělení není zdaleka jediné spojité rozdělení. Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) 0.0 1.0 2.0 f(x) 1 0 µ 1 2 0 µ 2 4 6 8 0.0 0.4 0.8 a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) 0.0 0.2 4 2 0 2 4 c) f(x) 0.00 0.10 0 5 10 15 20 d)
Charakteristiky rozdělení 13 / 33 Střední hodnota (expectation, mean value) Diskrétní rozdělení Vážený průměr - váhy pravděpodobnosti, s jakými nabýváme daných hodnot Spojité rozdělení Funkci vah plní hustota µ = EX = x 1 p 1 + x 2 p 2 + + x n p n EX = xf (x)dx
Charakteristiky rozdělení II 14 / 33 Rozptyl (variance) Lze říci, že je to průměrná druhá mocnina odchylky hodnot od střední hodnoty Diskrétní rozdělení σ 2 = var (X ) = E(X EX ) 2. σ 2 = var (X ) = (x 1 µ) 2 p 1 + (x 2 µ) 2 p 2 + + (x n µ) 2 p n. σ... směrodatná odchylka (standard deviation, SD), něco jiného než směrodatná chyba (standard error, SE), viz dále
Jiná spojitá rozdělení 15 / 33 Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) 0.0 1.0 2.0 f(x) 1 0 µ 1 2 0 µ 2 4 6 8 0.0 0.4 0.8 a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) 0.0 0.2 4 2 0 2 4 c) f(x) 0.00 0.10 0 5 10 15 20 d)
Další charakteristiky 16 / 33 Kvantily Medián x... číslo, které oddělí polovinu možných hodnot P(X x) = 1 2 Kvartily... čísla, která oddělí čtvrtiny možných hodnot Dolní kvartil q 1... P(X q 1 ) = 1 4 Horní kvartil q 3... P(X q 3 ) = 3 4 Decily (desetiny), percentily (setiny)
Popisná statistika 17 / 33 Shrnuje to, co máme v datech. První, ne však jediný krok k tomu, abychom mohli něco usoudit o dané náhodné veličině. Míry polohy Průměr x = x 1 + x 2 + + x n n (Výběrový) medián... prostřední hodnota { x[ n+1 x = 2 ] n liché 1 2 (x [ n 2 ] + x [ n 2 +1] ) n sudé, (Výběrové) kvartily... analogicky
Grafické znázornění dat 18 / 33 Krabicový diagram (boxplot) Znázornění rozdělení spojité veličiny Medián... příčka obdélníka Horní resp. dolní kvartil - kratší strany obdélníka Tykadla - od kvartilu k minimu resp. maximu, pokud není odlehlé Odlehlé pozorování - je dál, než zpravidla 3 2 (q 3 q 1 ) 5 10 15 20
Krabicový diagram 19 / 33 Příklad Znázornění dat o LTV pro téměř ztracené děti. Nevykreslovat jednotlivá pozorování (zvlášt u objemnějších dat nepřehledné), ale krabicový diagram. LTV 5 10 15 20 25 Bodový graf LTV Krabicový diagram 5 10 15 20 25
Grafické znázornění dat Histogram - znázornění intervalových četností spojité veličiny Rozmezí všech možných hodnot (osa x) rozdělíme na malé intervaly, ke každému spočítáme, kolik pozorování do něj padne, to vyneseme na osu y Data: 1.48, 1.11 1.00, 0.62, 0.59, 0.55, 0.51 0.48, 0.39, 0.28, 0.26, 0.18 0.00, 0.06, 0.24, 0.24 0.68, 0.97 1.29, 1.45 Histogram of x Frequency 0 1 2 3 4 5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 x 20 / 33
Histogram Druhá možnost: vynést na osu y relativní četnosti (počet pozorování v intervalu dělený celk. počtem pozorování). Při dostatečném počtu pozorování aproximuje hustotu rozdělení Data z rozdělení N(0, 1). Histogram of x Histogram of x Frequency 0 5 10 15 20 Density 0.0 0.2 0.4 2 1 0 1 2 2 1 0 1 2 21 / 33
Další grafy 22 / 33 Bar plot Grafické znázorněné četností (počtů hodnot) kvalitativního znaku Příklad Zjistili jsme krevní skupinu ve vzorku 100 pacientů. 0 A B AB 28 36 27 9
Induktivní statistika 23 / 33 Snažíme se zobecnit to, co pozorujeme na konkrétních stat. jednotkách. Odhadnout parametry (vlastnosti) rozdělení náhodné veličiny. Odhadem střední hodnoty je zpravidla průměr Odhadem rozptylu je zpravidla výběrový rozptyl atd. Kdybychom však daný pokus opakovali, dostaneme určitě jiný průměr, tj. jiný odhad střední hodnoty. Proto nás zajímá přesnost našeho bodového odhadu, tj. představa, jak jsme nanejvýš daleko od skutečné střední hodnoty.
Odhad střední hodnoty Sledujeme náhodnou veličinu, která má v populaci rozdělení X N(23, 8 2 ). 3 náhodné výběry o rozsahu 10, 50 a 1000. Histogram of x1 Density 0.00 0.06 5 10 15 20 25 30 35 40 x1 Histogram of x2 Density 0.00 0.04 5 10 15 20 25 30 35 40 x2 Histogram of x3 Density 0.00 0.03 5 10 15 20 25 30 35 40 x3 24 / 33
25 / 33 Průměr: x 1 = 20, 17 x 2 = 22, 69 x 3 = 23, 14 Průměr je tedy také náhodná veličina... Naštěstí známe její vlastnosti: Je-li X N(µ, σ 2 ) a máme-li výběr o velikosti n X N(µ, σ2 n ) Průměr kolísá kolem skutečné střední hodnoty µ, je jejím odhadem. Známe-li jenom průměr, moc to nepomůže, protože nevíme, jak daleko je tento odhad od skutečné střední hodnoty. σ n... směrodatná chyba (standard error, SE), SD průměru
Interval spolehlivosti 26 / 33 Kromě bodového odhadu střední hodnoty vhodné uvádět i intervalový odhad. Interval, který pokryje skutečnou střední hodnotu s předem stanovenou pravděpodobností Většinou se volí 95 % nebo 90 %, případně 99 %. Lze ukázat, že 95% interval spolehlivosti je ( x 1, 96 σ n, x + 1, 96 σ n ). z = 1, 96 kritická hodnota standardizovaného normálního rozdělení
Kritická hodnota Kritická hodnota standardizovaného normálního rozdělení, tj. 97,5% kvantil. z = 1, 96 f(x) 0.0 0.1 0.2 0.3 0.4 95% 2.5% 2.5% 4 3 2 1 0 1 2 3 4 x 27 / 33
Interval spolehlivosti 28 / 33 Směrodatnou odchylku však většinou neznáme, nahrazujeme ji proto odhadem s. Lze ukázat, že 95% interval spolehlivosti pak je x ± t(n 1) s n t(n 1)... kritická hodnota studentova rozdělení o n 1 stupních volnosti. Studentovo rozdělení... podobné normálnímu, pro větší n (> 100) téměř identické.
Příklad 29 / 33 Intervalové odhady v předchozím příkladě vyšly následovně: 1.výběr: (15,28, 25,07) 2.výběr: (20,55, 24,82) 3.výběr: (22,64, 23,64) Čím více pozorování, tím užší interval spolehlivosti (přesnější odhad) Čím menší směrodatná odchylka, tím užší interval spolehlivosti (přesnější odhad) Čím menší přesnost požadujeme, tím...?
Testování hypotéz 30 / 33 Nulová hypotéza Formulujeme hypotézu o hodnotě parametru (často právě o střední hodnotě). Např. Střední hodnota LTV u téměř ztracených dětí je stejná jako u zdravých. Zpravidla je to opak toho, co chceme ukázat. Alternativní hypotéza Je doplňkem nulové. Tj. žádná jiná hodnota parametru (než která je obsažena v těchto dvou hypotézách) nepřichází v úvahu. Např. Střední hodnoty LTV u téměř ztracených dětí a u zdravých se liší.
Možná rozhodnutí 31 / 33 Hypotézu otestujeme na datech. Avšak musíme ohlídat náhodu. Předem si stanovíme hladinu testu α, tedy pravděpodobnost, se kterou si dovolíme udělat chybný závěr. Většinou α = 5 %. Rozhodnutí Skutečnost H 0 zamítneme H 0 nezamítneme H 0 platí Chyba 1. druhu (α) Správné rozhodnutí H 0 neplatí Správné rozhodnutí Chyba 2. druhu (β) Nemůžeme minimalizovat obě (jsou proti sobě). Proto fixujeme α, tradičně α = 5 %, β už je tím dané. Sílu testu (1 β) můžeme ovlivnit velikostí výběru.
Logika testování 32 / 33 Test Předpokládáme, že platí H 0. Z dat spočítáme testovou statistiku (např. průměr). Spočítáme pravděpodobnost, že bychom za H 0 pozorovali naše data nebo data stejně či více extrémní.... dosažená hladina významnosti, p hodnota Pokud p hodnota α, H 0 zamítáme, jinak H 0 nezamítáme.
Literatura 33 / 33 Zvára, K.: Biostatistika. Karolinum, Praha, 2003 Zvárová, J.: Základy statistiky pro biomedicínské obory. Karolinum, Praha, 2002