Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Podobné dokumenty
Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 76

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Normální (Gaussovo) rozdělení

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Charakteristika datového souboru

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou. z knihy [2].

Zápočtová práce STATISTIKA I

Normální (Gaussovo) rozdělení

Testování statistických hypotéz

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ ODHADY Odhady populačních charakteristik

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Stručný úvod do testování statistických hypotéz

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování statistických hypotéz

Tomáš Karel LS 2012/2013

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Aproximace binomického rozdělení normálním

Základy popisné statistiky

Praktická statistika. Petr Ponížil Eva Kutálková

Náhodná veličina a rozdělení pravděpodobnosti

Aplikovaná statistika v R

Inovace bakalářského studijního oboru Aplikovaná chemie

Pravděpodobnost a matematická statistika

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

PRAVDĚPODOBNOST A STATISTIKA

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Pravděpodobnost a aplikovaná statistika

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

prosince oboustranný symetrický 95% interval spolehlivosti pro střední hodnotu životnosti τ. X i. X = 1 n.. Podle CLV má veličina

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

12. cvičení z PST. 20. prosince 2017

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Základy pravděpodobnosti a statistiky. Popisná statistika

Jevy a náhodná veličina

Popisná statistika. Statistika pro sociology

Testy. Pavel Provinský. 19. listopadu 2013

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci


Základní statistické metody v rizikovém inženýrství

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Náhodné veličiny, náhodné chyby

Ing. Michael Rost, Ph.D.

Ranní úvahy o statistice

Analýza dat na PC I.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Jana Vránová, 3. lékařská fakulta UK

Základy popisné statistiky

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Intervalové Odhady Parametrů

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Základy biostatistiky

Testy statistických hypotéz

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Testování statistických hypotéz

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

8. Normální rozdělení

Základy teorie pravděpodobnosti

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Pravděpodobnost a aplikovaná statistika

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

4EK211 Základy ekonometrie

Náhodné (statistické) chyby přímých měření

Statistika pro geografy

= = 2368

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Chyby měření 210DPSM

Informační technologie a statistika 1

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Testování statistických hypotéz. Obecný postup

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

15. T e s t o v á n í h y p o t é z

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Téma 2: Pravděpodobnostní vyjádření náhodných veličin

Transkript:

1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy

Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které byly nalezeny téměř mrtvé, bez známek života. Všechna další vyšetření negativní, zotavily se během několika dnů.... téměř ztracené Normální děti LTV... dlouhodobá proměnlivost tepové frekvence (rozdíl mezi min. a max. hodnotami novorozenecké tepové frekvence). Téměř 5.0, 7.0, 7.67, 8.17, 8.33, 8.83, 9.17, 9.33, 9.33, ztracené 9.67, 11.0,11.67, 13.33, 13.83, 14.17, 15.17, 15.50, 17.33, 18.0, 20.60, 21.17, 22.33, 22.67, 23.00, 24.67 Normální 11.33, 13.67, 14.33, 17.33, 17.83, 19.0, 20.67, 22.33, 27.83, 29.0, 31.17, 31.33, 32.0, 32.5, 35.0 Liší se téměř ztracené děti od normálních z hlediska LTV? 2 / 33

Statistika 3 / 33 Rozlišení LTV mezi skupinami není jednoznačné: téměř ztracené děti : (5,00 24,67) normální děti: (11,33 35,00) Liší se alespoň v průměru? (13,70 resp. 23,69) Je tento rozdíl pouze náhodný, nebo zde existuje nějaké systematické posunutí?

Statistika 4 / 33 Popisná (deskriptivní) Určitým způsobem popisuje nebo shrnuje data, která máme Popisné chrakteristiky (průměr, medián,... ), grafy (histogram, krabicový diagram, bodový graf,... ) Omezuje svá tvrzení na daná data, nečiní si nárok zobecňovat, dělat závěry Induktivní Na základě dat se snaží zobecnit pozorování na větší soubor, populaci Pracuje s náhodou, odhady, testy Velkou roli zde hraje správná interpretace Ve většině prací se setkáme s obojím.

Měřítko 5 / 33 Na statistických jednotkách sledujeme jejich vlastnosti - hodnoty znaků ve zvoleném měřítku Kvalitativní (zpravidla vyjádřené slovem, znakem,... ) nula-jedničkové (jev nastal/nenastal, pacient přežil/nepřežil) nominální (několik kategorií, např. krevní skupina, pohlaví - faktor) ordinální (kategorie jsou jistým způsobem řezené, např. bolest je silná, mírná, žádná) Kvantitativní (vyjádřené číslem) intervalové (spojité, nabývají hodnoty z nějakého intervalu, např. výška, LTV) diskrétní (ordinální, počet pacientů, kteří navštíví ambulanci během jednoho dne)

Pravděpodobnost I 6 / 33 Náhodný pokus - pokus, jehož výsledek není předem určený Náhodný jev - výsledek náhodného pokusu Pravděpodobnost náhodného jevu A, P(A) - míra častosti výskytu jevu A, naděje, že nastane 0 P(A) 1

Pravděpodobnost II 7 / 33 Klasická definice pravděpodobnosti n stejně pravděpodobných elementárních jevů ω 1, ω 2,..., ω n z toho m elementárních jevů příznivých jevu A P(A) = m n Např. hod kostkou A... padne sudé číslo Elementární jevy: padne 1,2,3,4,5,6, všechny s pravděpodobností 1 6 P(A) = 3 6 = 1 2 Ovšem máme-li spojitý znak, tato definice nestačí. Potřebujeme obecnější koncept.

Náhodná veličina 8 / 33 Číselně vyjádřený výsledek náhodného pokusu. Teoretický pojem. Nevíme výsledek, známe jenom možné hodnoty a jejich pravděpodobnosti (rozdělení). Např. náhodná veličina je LTV obecně. Její realizace: naměříme ji u konkrétního dítěte. Populace (nekonečná) Náhodná veličina X Příště Výběr Výběr pozorování x 1,... x n Výběr Jiná pozorování x 1,... x n

Rozdělení náhodné veličiny 9 / 33 Diskrétní Model pro počty případů Dané pravděpodobnosti hodnot Např. P(nově narozené dítě je chlapec)=0,52, P(nově narozené dítě je dívka)=0,48 Spojité Např. Normální (Gaussovo), X N(µ, σ 2 ) f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x

Normální rozdělení 10 / 33 Tzv. Gaussova křivka je hustota (vyjádřena přesným matematickým vzorcem) Určuje s jakou pravděpodobností může náhodná veličina X nabýt hodnoty z daného intervalu To je dáno plochou pod křivkou f(x) 0.0 0.1 0.2 0.3 0.4 4 3 2 1 0 1 2 3 4 x

Normální rozdělení II Má dva parametry Střední hodnota µ - určuje bod, kolem kterého je tato hustota symetrická Rozptyl σ 2 - určuje jak moc jsou hodnoty rozpýlené kolem tohoto bodu N(0,1) N(1,1) N(0,2) f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x f(x) 0.0 0.1 0.2 0.3 0.4 4 2 0 2 4 x 11 / 33

Jiná spojitá rozdělení 12 / 33 Avšak normální rozdělení není zdaleka jediné spojité rozdělení. Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) 0.0 1.0 2.0 f(x) 1 0 µ 1 2 0 µ 2 4 6 8 0.0 0.4 0.8 a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) 0.0 0.2 4 2 0 2 4 c) f(x) 0.00 0.10 0 5 10 15 20 d)

Charakteristiky rozdělení 13 / 33 Střední hodnota (expectation, mean value) Diskrétní rozdělení Vážený průměr - váhy pravděpodobnosti, s jakými nabýváme daných hodnot Spojité rozdělení Funkci vah plní hustota µ = EX = x 1 p 1 + x 2 p 2 + + x n p n EX = xf (x)dx

Charakteristiky rozdělení II 14 / 33 Rozptyl (variance) Lze říci, že je to průměrná druhá mocnina odchylky hodnot od střední hodnoty Diskrétní rozdělení σ 2 = var (X ) = E(X EX ) 2. σ 2 = var (X ) = (x 1 µ) 2 p 1 + (x 2 µ) 2 p 2 + + (x n µ) 2 p n. σ... směrodatná odchylka (standard deviation, SD), něco jiného než směrodatná chyba (standard error, SE), viz dále

Jiná spojitá rozdělení 15 / 33 Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) 0.0 1.0 2.0 f(x) 1 0 µ 1 2 0 µ 2 4 6 8 0.0 0.4 0.8 a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) 0.0 0.2 4 2 0 2 4 c) f(x) 0.00 0.10 0 5 10 15 20 d)

Další charakteristiky 16 / 33 Kvantily Medián x... číslo, které oddělí polovinu možných hodnot P(X x) = 1 2 Kvartily... čísla, která oddělí čtvrtiny možných hodnot Dolní kvartil q 1... P(X q 1 ) = 1 4 Horní kvartil q 3... P(X q 3 ) = 3 4 Decily (desetiny), percentily (setiny)

Popisná statistika 17 / 33 Shrnuje to, co máme v datech. První, ne však jediný krok k tomu, abychom mohli něco usoudit o dané náhodné veličině. Míry polohy Průměr x = x 1 + x 2 + + x n n (Výběrový) medián... prostřední hodnota { x[ n+1 x = 2 ] n liché 1 2 (x [ n 2 ] + x [ n 2 +1] ) n sudé, (Výběrové) kvartily... analogicky

Grafické znázornění dat 18 / 33 Krabicový diagram (boxplot) Znázornění rozdělení spojité veličiny Medián... příčka obdélníka Horní resp. dolní kvartil - kratší strany obdélníka Tykadla - od kvartilu k minimu resp. maximu, pokud není odlehlé Odlehlé pozorování - je dál, než zpravidla 3 2 (q 3 q 1 ) 5 10 15 20

Krabicový diagram 19 / 33 Příklad Znázornění dat o LTV pro téměř ztracené děti. Nevykreslovat jednotlivá pozorování (zvlášt u objemnějších dat nepřehledné), ale krabicový diagram. LTV 5 10 15 20 25 Bodový graf LTV Krabicový diagram 5 10 15 20 25

Grafické znázornění dat Histogram - znázornění intervalových četností spojité veličiny Rozmezí všech možných hodnot (osa x) rozdělíme na malé intervaly, ke každému spočítáme, kolik pozorování do něj padne, to vyneseme na osu y Data: 1.48, 1.11 1.00, 0.62, 0.59, 0.55, 0.51 0.48, 0.39, 0.28, 0.26, 0.18 0.00, 0.06, 0.24, 0.24 0.68, 0.97 1.29, 1.45 Histogram of x Frequency 0 1 2 3 4 5 1.5 1.0 0.5 0.0 0.5 1.0 1.5 x 20 / 33

Histogram Druhá možnost: vynést na osu y relativní četnosti (počet pozorování v intervalu dělený celk. počtem pozorování). Při dostatečném počtu pozorování aproximuje hustotu rozdělení Data z rozdělení N(0, 1). Histogram of x Histogram of x Frequency 0 5 10 15 20 Density 0.0 0.2 0.4 2 1 0 1 2 2 1 0 1 2 21 / 33

Další grafy 22 / 33 Bar plot Grafické znázorněné četností (počtů hodnot) kvalitativního znaku Příklad Zjistili jsme krevní skupinu ve vzorku 100 pacientů. 0 A B AB 28 36 27 9

Induktivní statistika 23 / 33 Snažíme se zobecnit to, co pozorujeme na konkrétních stat. jednotkách. Odhadnout parametry (vlastnosti) rozdělení náhodné veličiny. Odhadem střední hodnoty je zpravidla průměr Odhadem rozptylu je zpravidla výběrový rozptyl atd. Kdybychom však daný pokus opakovali, dostaneme určitě jiný průměr, tj. jiný odhad střední hodnoty. Proto nás zajímá přesnost našeho bodového odhadu, tj. představa, jak jsme nanejvýš daleko od skutečné střední hodnoty.

Odhad střední hodnoty Sledujeme náhodnou veličinu, která má v populaci rozdělení X N(23, 8 2 ). 3 náhodné výběry o rozsahu 10, 50 a 1000. Histogram of x1 Density 0.00 0.06 5 10 15 20 25 30 35 40 x1 Histogram of x2 Density 0.00 0.04 5 10 15 20 25 30 35 40 x2 Histogram of x3 Density 0.00 0.03 5 10 15 20 25 30 35 40 x3 24 / 33

25 / 33 Průměr: x 1 = 20, 17 x 2 = 22, 69 x 3 = 23, 14 Průměr je tedy také náhodná veličina... Naštěstí známe její vlastnosti: Je-li X N(µ, σ 2 ) a máme-li výběr o velikosti n X N(µ, σ2 n ) Průměr kolísá kolem skutečné střední hodnoty µ, je jejím odhadem. Známe-li jenom průměr, moc to nepomůže, protože nevíme, jak daleko je tento odhad od skutečné střední hodnoty. σ n... směrodatná chyba (standard error, SE), SD průměru

Interval spolehlivosti 26 / 33 Kromě bodového odhadu střední hodnoty vhodné uvádět i intervalový odhad. Interval, který pokryje skutečnou střední hodnotu s předem stanovenou pravděpodobností Většinou se volí 95 % nebo 90 %, případně 99 %. Lze ukázat, že 95% interval spolehlivosti je ( x 1, 96 σ n, x + 1, 96 σ n ). z = 1, 96 kritická hodnota standardizovaného normálního rozdělení

Kritická hodnota Kritická hodnota standardizovaného normálního rozdělení, tj. 97,5% kvantil. z = 1, 96 f(x) 0.0 0.1 0.2 0.3 0.4 95% 2.5% 2.5% 4 3 2 1 0 1 2 3 4 x 27 / 33

Interval spolehlivosti 28 / 33 Směrodatnou odchylku však většinou neznáme, nahrazujeme ji proto odhadem s. Lze ukázat, že 95% interval spolehlivosti pak je x ± t(n 1) s n t(n 1)... kritická hodnota studentova rozdělení o n 1 stupních volnosti. Studentovo rozdělení... podobné normálnímu, pro větší n (> 100) téměř identické.

Příklad 29 / 33 Intervalové odhady v předchozím příkladě vyšly následovně: 1.výběr: (15,28, 25,07) 2.výběr: (20,55, 24,82) 3.výběr: (22,64, 23,64) Čím více pozorování, tím užší interval spolehlivosti (přesnější odhad) Čím menší směrodatná odchylka, tím užší interval spolehlivosti (přesnější odhad) Čím menší přesnost požadujeme, tím...?

Testování hypotéz 30 / 33 Nulová hypotéza Formulujeme hypotézu o hodnotě parametru (často právě o střední hodnotě). Např. Střední hodnota LTV u téměř ztracených dětí je stejná jako u zdravých. Zpravidla je to opak toho, co chceme ukázat. Alternativní hypotéza Je doplňkem nulové. Tj. žádná jiná hodnota parametru (než která je obsažena v těchto dvou hypotézách) nepřichází v úvahu. Např. Střední hodnoty LTV u téměř ztracených dětí a u zdravých se liší.

Možná rozhodnutí 31 / 33 Hypotézu otestujeme na datech. Avšak musíme ohlídat náhodu. Předem si stanovíme hladinu testu α, tedy pravděpodobnost, se kterou si dovolíme udělat chybný závěr. Většinou α = 5 %. Rozhodnutí Skutečnost H 0 zamítneme H 0 nezamítneme H 0 platí Chyba 1. druhu (α) Správné rozhodnutí H 0 neplatí Správné rozhodnutí Chyba 2. druhu (β) Nemůžeme minimalizovat obě (jsou proti sobě). Proto fixujeme α, tradičně α = 5 %, β už je tím dané. Sílu testu (1 β) můžeme ovlivnit velikostí výběru.

Logika testování 32 / 33 Test Předpokládáme, že platí H 0. Z dat spočítáme testovou statistiku (např. průměr). Spočítáme pravděpodobnost, že bychom za H 0 pozorovali naše data nebo data stejně či více extrémní.... dosažená hladina významnosti, p hodnota Pokud p hodnota α, H 0 zamítáme, jinak H 0 nezamítáme.

Literatura 33 / 33 Zvára, K.: Biostatistika. Karolinum, Praha, 2003 Zvárová, J.: Základy statistiky pro biomedicínské obory. Karolinum, Praha, 2002