Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 76

Rozměr: px
Začít zobrazení ze stránky:

Download "Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 76"

Transkript

1 1 / 76 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy

2 Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které byly nalezeny téměř mrtvé, bez známek života. Všechna další vyšetření negativní, zotavily se během několika dnů.... téměř ztracené Normální děti LTV... dlouhodobá proměnlivost tepové frekvence (rozdíl mezi min. a max. hodnotami novorozenecké tepové frekvence). Téměř 5.0, 7.0, 7.67, 8.17, 8.33, 8.83, 9.17, 9.33, 9.33, ztracené 9.67, 11.0,11.67, 13.33, 13.83, 14.17, 15.17, 15.50, 17.33, 18.0, 20.60, 21.17, 22.33, 22.67, 23.00, Normální 11.33, 13.67, 14.33, 17.33, 17.83, 19.0, 20.67, 22.33, 27.83, 29.0, 31.17, 31.33, 32.0, 32.5, 35.0 Liší se téměř ztracené děti od normálních z hlediska LTV? 2 / 76

3 Statistika 3 / 76 Rozlišení LTV mezi skupinami není jednoznačné: téměř ztracené děti : (5,00 24,67) normální děti: (11,33 35,00) Liší se alespoň v průměru? (13,70 resp. 23,69) Je tento rozdíl pouze náhodný, nebo zde existuje nějaké systematické posunutí?

4 Statistika 4 / 76 Popisná (deskriptivní) Určitým způsobem popisuje nebo shrnuje data, která máme Popisné chrakteristiky (průměr, medián,... ), grafy (histogram, krabicový diagram, bodový graf,... ) Omezuje svá tvrzení na daná data, nečiní si nárok zobecňovat, dělat závěry Induktivní Na základě dat se snaží zobecnit pozorování na větší soubor, populaci Pracuje s náhodou, odhady, testy Velkou roli zde hraje správná interpretace Ve většině prací se setkáme s obojím.

5 Měřítko 5 / 76 Na statistických jednotkách sledujeme jejich vlastnosti - hodnoty znaků ve zvoleném měřítku Kvalitativní (zpravidla vyjádřené slovem, znakem,... ) nula-jedničkové (jev nastal/nenastal, pacient přežil/nepřežil) nominální (několik kategorií, např. krevní skupina, pohlaví - faktor) ordinální (kategorie jsou jistým způsobem řezené, např. bolest je silná, mírná, žádná) Kvantitativní (vyjádřené číslem) intervalové (spojité, nabývají hodnoty z nějakého intervalu, např. výška, LTV) diskrétní (ordinální, počet pacientů, kteří navštíví ambulanci během jednoho dne)

6 Pravděpodobnost I 6 / 76 Náhodný pokus - pokus, jehož výsledek není předem určený Náhodný jev - výsledek náhodného pokusu Pravděpodobnost náhodného jevu A, P(A) - míra častosti výskytu jevu A, naděje, že nastane 0 P(A) 1

7 Pravděpodobnost II 7 / 76 Klasická definice pravděpodobnosti n stejně pravděpodobných elementárních jevů ω 1, ω 2,..., ω n z toho m elementárních jevů příznivých jevu A P(A) = m n Např. hod kostkou A... padne sudé číslo Elementární jevy: padne 1,2,3,4,5,6, všechny s pravděpodobností 1 6 P(A) = 3 6 = 1 2 Ovšem máme-li spojitý znak, tato definice nestačí. Potřebujeme obecnější koncept.

8 Náhodná veličina 8 / 76 Číselně vyjádřený výsledek náhodného pokusu. Teoretický pojem. Nevíme výsledek, známe jenom možné hodnoty a jejich pravděpodobnosti (rozdělení). Např. náhodná veličina je LTV obecně. Její realizace: naměříme ji u konkrétního dítěte. Populace (nekonečná) Náhodná veličina X Příště Výběr Výběr pozorování x 1,... x n Výběr Jiná pozorování x 1,... x n

9 Rozdělení náhodné veličiny 9 / 76 Diskrétní Model pro počty případů Dané pravděpodobnosti hodnot Např. P(nově narozené dítě je chlapec)=0,52, P(nově narozené dítě je dívka)=0,48 Spojité Např. Normální (Gaussovo), X N(µ, σ 2 ) f(x) x

10 Normální rozdělení 10 / 76 Tzv. Gaussova křivka je hustota (vyjádřena přesným matematickým vzorcem) Určuje s jakou pravděpodobností může náhodná veličina X nabýt hodnoty z daného intervalu To je dáno plochou pod křivkou f(x) x

11 Normální rozdělení II Má dva parametry Střední hodnota µ - určuje bod, kolem kterého je tato hustota symetrická Rozptyl σ 2 - určuje jak moc jsou hodnoty rozpýlené kolem tohoto bodu N(0,1) N(1,1) N(0,2) f(x) x f(x) x f(x) x 11 / 76

12 Jiná spojitá rozdělení 12 / 76 Avšak normální rozdělení není zdaleka jediné spojité rozdělení. Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) f(x) 1 0 µ µ a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) c) f(x) d)

13 Charakteristiky rozdělení 13 / 76 Střední hodnota (expectation, mean value) Diskrétní rozdělení Vážený průměr - váhy pravděpodobnosti, s jakými nabýváme daných hodnot Spojité rozdělení Funkci vah plní hustota µ = EX = x 1 p 1 + x 2 p x n p n EX = xf (x)dx

14 Charakteristiky rozdělení II 14 / 76 Rozptyl (variance) Lze říci, že je to průměrná druhá mocnina odchylky hodnot od střední hodnoty Diskrétní rozdělení σ 2 = var (X ) = E(X EX ) 2. σ 2 = var (X ) = (x 1 µ) 2 p 1 + (x 2 µ) 2 p (x n µ) 2 p n. σ... směrodatná odchylka (standard deviation, SD), něco jiného než směrodatná chyba (standard error, SE), viz dále

15 Jiná spojitá rozdělení 15 / 76 Rovnomìrné, Ro[0,1] Exponenciální, Exp(1) f(x) f(x) 1 0 µ µ a) b) Studentovo, 5 st. volnosti χ 2, 5 st. volnosti f(x) c) f(x) d)

16 Další charakteristiky 16 / 76 Kvantily Medián x... číslo, které oddělí polovinu možných hodnot P(X x) = 1 2 Kvartily... čísla, která oddělí čtvrtiny možných hodnot Dolní kvartil q 1... P(X q 1 ) = 1 4 Horní kvartil q 3... P(X q 3 ) = 3 4 Decily (desetiny), percentily (setiny)

17 Popisná statistika 17 / 76 Shrnuje to, co máme v datech. První, ne však jediný krok k tomu, abychom mohli něco usoudit o dané náhodné veličině. Míry polohy Průměr x = x 1 + x x n n (Výběrový) medián... prostřední hodnota { x[ n+1 x = 2 ] n liché 1 2 (x [ n 2 ] + x [ n 2 +1] ) n sudé, (Výběrové) kvartily... analogicky

18 Grafické znázornění dat 18 / 76 Krabicový diagram (boxplot) Znázornění rozdělení spojité veličiny Medián... příčka obdélníka Horní resp. dolní kvartil - kratší strany obdélníka Tykadla - od kvartilu k minimu resp. maximu, pokud není odlehlé Odlehlé pozorování - je dál, než zpravidla 3 2 (q 3 q 1 )

19 Krabicový diagram 19 / 76 Příklad Znázornění dat o LTV pro téměř ztracené děti. Nevykreslovat jednotlivá pozorování (zvlášt u objemnějších dat nepřehledné), ale krabicový diagram. LTV Bodový graf LTV Krabicový diagram

20 Grafické znázornění dat Histogram - znázornění intervalových četností spojité veličiny Rozmezí všech možných hodnot (osa x) rozdělíme na malé intervaly, ke každému spočítáme, kolik pozorování do něj padne, to vyneseme na osu y Data: 1.48, , 0.62, 0.59, 0.55, , 0.39, 0.28, 0.26, , 0.06, 0.24, , , 1.45 Histogram of x Frequency x 20 / 76

21 Histogram Druhá možnost: vynést na osu y relativní četnosti (počet pozorování v intervalu dělený celk. počtem pozorování). Při dostatečném počtu pozorování aproximuje hustotu rozdělení Data z rozdělení N(0, 1). Histogram of x Histogram of x Frequency Density / 76

22 Další grafy 22 / 76 Bar plot Grafické znázorněné četností (počtů hodnot) kvalitativního znaku Příklad Zjistili jsme krevní skupinu ve vzorku 100 pacientů. 0 A B AB

23 Induktivní statistika 23 / 76 Snažíme se zobecnit to, co pozorujeme na konkrétních stat. jednotkách. Odhadnout parametry (vlastnosti) rozdělení náhodné veličiny. Odhadem střední hodnoty je zpravidla průměr Odhadem rozptylu je zpravidla výběrový rozptyl atd. Kdybychom však daný pokus opakovali, dostaneme určitě jiný průměr, tj. jiný odhad střední hodnoty. Proto nás zajímá přesnost našeho bodového odhadu, tj. představa, jak jsme nanejvýš daleko od skutečné střední hodnoty.

24 Odhad střední hodnoty Sledujeme náhodnou veličinu, která má v populaci rozdělení X N(23, 8 2 ). 3 náhodné výběry o rozsahu 10, 50 a Histogram of x1 Density x1 Histogram of x2 Density x2 Histogram of x3 Density x3 24 / 76

25 25 / 76 Průměr: x 1 = 20, 17 x 2 = 22, 69 x 3 = 23, 14 Průměr je tedy také náhodná veličina... Naštěstí známe její vlastnosti: Je-li X N(µ, σ 2 ) a máme-li výběr o velikosti n X N(µ, σ2 n ) Průměr kolísá kolem skutečné střední hodnoty µ, je jejím odhadem. Známe-li jenom průměr, moc to nepomůže, protože nevíme, jak daleko je tento odhad od skutečné střední hodnoty. σ n... směrodatná chyba (standard error, SE), SD průměru

26 Interval spolehlivosti 26 / 76 Kromě bodového odhadu střední hodnoty vhodné uvádět i intervalový odhad. Interval, který pokryje skutečnou střední hodnotu s předem stanovenou pravděpodobností Většinou se volí 95 % nebo 90 %, případně 99 %. Lze ukázat, že 95% interval spolehlivosti je ( x 1, 96 σ n, x + 1, 96 σ n ). z = 1, 96 kritická hodnota standardizovaného normálního rozdělení

27 Kritická hodnota Kritická hodnota standardizovaného normálního rozdělení, tj. 97,5% kvantil. z = 1, 96 f(x) % 2.5% 2.5% x 27 / 76

28 Interval spolehlivosti 28 / 76 Směrodatnou odchylku však většinou neznáme, nahrazujeme ji proto odhadem s. Lze ukázat, že 95% interval spolehlivosti pak je x ± t(n 1) s n t(n 1)... kritická hodnota studentova rozdělení o n 1 stupních volnosti. Studentovo rozdělení... podobné normálnímu, pro větší n (> 100) téměř identické.

29 Příklad 29 / 76 Intervalové odhady v předchozím příkladě vyšly následovně: 1.výběr: (15,28, 25,07) 2.výběr: (20,55, 24,82) 3.výběr: (22,64, 23,64) Čím více pozorování, tím užší interval spolehlivosti (přesnější odhad) Čím menší směrodatná odchylka, tím užší interval spolehlivosti (přesnější odhad) Čím menší přesnost požadujeme, tím...?

30 Testování hypotéz 30 / 76 Nulová hypotéza Formulujeme hypotézu o hodnotě parametru (často právě o střední hodnotě). Např. Střední hodnota LTV u téměř ztracených dětí je stejná jako u zdravých. Zpravidla je to opak toho, co chceme ukázat. Alternativní hypotéza Je doplňkem nulové. Tj. žádná jiná hodnota parametru (než která je obsažena v těchto dvou hypotézách) nepřichází v úvahu. Např. Střední hodnoty LTV u téměř ztracených dětí a u zdravých se liší.

31 Možná rozhodnutí 31 / 76 Hypotézu otestujeme na datech. Avšak musíme ohlídat náhodu. Předem si stanovíme hladinu testu α, tedy pravděpodobnost, se kterou si dovolíme udělat chybný závěr. Většinou α = 5 %. Rozhodnutí Skutečnost H 0 zamítneme H 0 nezamítneme H 0 platí Chyba 1. druhu (α) Správné rozhodnutí H 0 neplatí Správné rozhodnutí Chyba 2. druhu (β) Nemůžeme minimalizovat obě (jsou proti sobě). Proto fixujeme α, tradičně α = 5 %, β už je tím dané. Sílu testu (1 β) můžeme ovlivnit velikostí výběru.

32 Logika testování 32 / 76 Test Předpokládáme, že platí H 0. Z dat spočítáme testovou statistiku (např. průměr). Spočítáme pravděpodobnost, že bychom za H 0 pozorovali naše data nebo data stejně či více extrémní.... dosažená hladina významnosti, p hodnota Pokud p hodnota α, H 0 zamítáme, jinak H 0 nezamítáme.

33 Jednovýběrový t-test 33 / 76 H 0 : µ = µ 0 H 1 : µ µ 0 Testová statistika T = X µ 0 s n Velké hodnoty T vypovídají proti H 0 : Porovnáme s kritickou hodnotou. Zamítáme, je-li T > t n 1 ( α 2 ). Pro velké n nahrazujeme t n 1 ( α 2 ) kvantilem normálního rozdělení z( α 2 ). Předpoklady rozdělení sledované veličiny je blízké normálnímu nezávislá pozorování

34 Jednovýběrový t-test Příklad Naměřili jsme LTV pouze u téměř ztracených dětí. Předpokládejme, že víme, že střední hodnota LTV u zdravých dětí je 23. Je možné říci, že se téměř ztracené děti z hlediska LTV liší od normálních? H 0 : µ = 23 H 1 : µ 23 T = 13, ,82 26 = 8, 13 T < t 25 (0, 025) = 2, 06 zamítáme H 0. Software, publikace: uvádí se p-hodnota, v tomto případě p = 1, < 0, 001. Lepší, než uvést pouze výsledek testu. Dává představu, jak daleko jsme od kritické hodnoty. 34 / 76

35 Jednostranný t-test 35 / 76 Předpokládejme však, že bychom už předem veděli, že téměř ztracené děti rozhodně nemohou mít LTV větší než děti zdravé. H 0 : µ = µ 0 H 1 : µ < µ 0 Testová statistika stejná T = X µ 0 s, n avšak sledujeme pouze, o kolik je průměr menší než střední hodnota. Malé hodnoty T vypovídají proti H 0 ; zamítáme, je-li T < t n 1 (α). Předpoklady stejné jako u oboustranného t-testu. Je silnější, protože reflektuje apriorní informaci. Ta ale musí být podložená. Nelze nejprve zjistit hodnotu T statistiky, a potom volit typ t-testu.

36 Dvouvýběrový t-test 36 / 76 Příklad Naměřili jsme LTV u skupiny téměř ztracených dětí a u skupiny normálních dětí. Je možné říci, že se LTV v těchto dvou skupinách v průměru liší? H 0 : µ A = µ B H 1 : µ A µ B Testová statistika T = X A X B var( X A X B ) = X A X B na n B s n A + n B Velké hodnoty T vypovídají proti H 0. Porovnáme s kritickou hodnotou. Zamítáme, je-li T > t na +n B 2( α 2 ).

37 Dvouvýběrový t-test 37 / 76 Předpoklady Nezávislá pozorování (mezi skupinami i uvnitř skupin) Rozdělení sledované veličiny je v každé skupině blízké normálnímu V obou skupinách je shodný rozptyl Pokud tyto předpoklady nejsou splněny, nelze t-test použít! Je nutné použít jiné nástroje, např. existuje úprava t-testu, která nevyžaduje shodnost rozptylů.

38 Dvouvýběrový t-test Příklad Naměřili jsme LTV u skupiny téměř ztracených dětí a u skupiny normálních dětí. Je možné říci, že se LTV v těchto dvou skupinách v průměru liší? H 0 : µ A = µ B H 1 : µ A µ B x A = 13,70 x B = 23,69 T = 4, 62 T < t 39 (0, 025) = 2, 02 zamítáme H 0. p = 4, < 0, 001 Pozn.: Dvouvýběrový t-test má také jednostrannou a oboustrannou verzi. 38 / 76

39 Párový t-test Příklad U každého z pacientů byl zjištěn krevní tlak před podáním a dvě hodiny po podání farmaka. Ovlivňuje podání farmaka krevní tlak? Naměřené hodnoty před: 206, 205, 205, 198, 191, 185,186, 172, 168, 165, 158 Naměřené hodnoty po: 187, 178, 202, 197, 173, 167, 184, 166, 155, 125, 162 H 0 : µ pred = µ po H 1 : µ pred µ po X pred = 185, 36 Xpo = 172, 36 Použijeme dvouvýběrový t-test: p-hodnota=0,07 39 / 76

40 Párový t-test Příklad U každého z pacientů byl zjištěn krevní tlak před podáním a dvě hodiny po podání farmaka. Ovlivňuje podání farmaka krevní tlak? Naměřené hodnoty před: 206, 205, 205, 198, 191, 185,186, 172, 168, 165, 158 Naměřené hodnoty po: 187, 178, 202, 197, 173, 167, 184, 166, 155, 125, 162 H 0 : µ pred = µ po H 1 : µ pred µ po X pred = 185, 36 Xpo = 172, 36 Použijeme dvouvýběrový t-test: p-hodnota=0,07 CHYBA! 40 / 76

41 Párový t-test 41 / 76 Pozorování před a po závislá (dvojice měření na jednom jedinci). Záležitost designu studie. Definujeme rozdíly D i = Pred i Po i, na ně použijeme jednovýběrový t-test. H 0 : µ d = µ pred µ po = 0 H 1 : µ d = µ pred µ po 0 X d 0 n s d = 13 0 = 3, 29, 13,09 11 p-hodnota = 0, 004 zamítáme H 0

42 ANOVA Příklad 20 pacientů, kteří podstoupili operaci srdce, bylo náhodně rozděleno do tří skupin. 50% oxidu dusného a 50% kyslíkové směsi 24 hodin 50% oxidu dusného a 50% kyslíkové směsi během operace a 35 50% kyslíku 24 hodin? Koncentrace soli kyseliny listové v červených krvinkách? 42 / 76

43 ANOVA 43 / 76 Bodový graf koncentrace soli kyseliny listové v jednotlivých skupinách Koncentrace skupina

44 ANOVA 44 / 76 První nápad: Porovnat všechny dvojice dvouvýběrovými t-testy. Skupina 1 vs Skupina 2 Skupina 1 vs Skupina 3 Skupina 2 vs Skupina 3

45 ANOVA 45 / 76 První nápad: Porovnat všechny dvojice dvouvýběrovými t-testy. Skupina 1 vs Skupina 2 Skupina 1 vs Skupina 3 Skupina 2 vs Skupina 3 Problém: Má-li každý test pravděpodobnost chybného pozitivního výsledku 5 %, výsledná pravděpodobnost, že dostaneme alespoň jeden chybný pozitivní výsledek je větší než 5 % (cca 14 %). Pozn.: Problém mnohonásobného testování je obecnější...

46 ANOVA 46 / 76 H 0 : µ 1 = µ 2 = µ 3 H 1 : neplatí H 0 (Alespoň jedna skupina se liší) Testová statistika porovnává variabilitu mezi skupinami a variabilitu uvnitř skupin. F = Velké hodnoty F svědčí proti H 0. Předpoklady: variabilita mezi skupinami variabilita uvnitř skupin. nezávislá pozorování (mezi skupinami i uvnitř skupin) rozdělení sledované veličiny je v každé skupině blízké normálnímu ve všech skupinách je shodný rozptyl

47 ANOVA Příklad 20 pacientů, kteří podstoupili operaci srdce, bylo náhodně rozděleno do tří skupin. 50% oxidu dusného a 50% kyslíkové směsi 24 hodin 50% oxidu dusného a 50% kyslíkové směsi během operace a 35 50% kyslíku 24 hodin? Koncentrace soli kyseliny listové v červených krvinkách? p-hodnota= 0,015 zamítáme H 0. Která skupina se však liší od které? 47 / 76

48 Bonferroniho korekce 48 / 76 Která skupina se však liší od které? Provedeme porovnání všech dvojic skupin dvouvýběrovým t-testem. Avšak použijeme Bonferroniho korekci - za signifikantní považujeme výsledek, kdy je. p < α počet skupin Skupina 1 vs Skupina 2: p = 0, 006 < 0, 0167 Skupina 1 vs Skupina 3: p = 0, 095 > 0, 0167 Skupina 2 vs Skupina 3: p = 0, 368 > 0, 0167 Významný rozdíl je mezi průměry skupin 1 a 2, ale ne mezi ostatními.

49 ANOVA 49 / 76 Bodový graf koncentrace soli kyseliny listové v jednotlivých skupinách Koncentrace skupina

50 Wilcoxonův test 50 / 76 Neparametrická analogie t-testu. Použijeme, pokud není splněn předpoklad o normálním rozdělení dat (ale spojité). H 0 : Medián x = 0 H 1 : Medián x 0 Postup Určíme pořadí R + i hodnot X i. Určíme součet těch pořadí, kde bylo X i > 0, označíme jej W. Položíme Z = W n(n + 1)/4 n(n + 1)(2n + 1)/24

51 Neparametrické analogie parametrických testů 51 / 76 rozdělení normální spojité parametr střední hodnota medián jeden jednovýběrový jednovýběrový výběr t-test Wilcoxon výběr dvojic párový t-test Wilcoxon dva nezávislé dvouvýběrový Mann-Whitney výběry t-test (Kolmogorov-Smirnov) k nezávislých analýza rozptylu Kruskal-Wallis výběrů (ANOVA)

52 Analýza kategoriálních dat Příklad Ve vyšetřované populaci jsou krevní skupiny 0, A, B a AB v poměru 35 %, 35 %, 20 % a 10 %. Ve vzorku pacientů byly počty osob s krevními skupinami po řadě 28, 36, 27, 9. Lze považovat tento výběr za reprezentativní vzhledem k výskytu krevních skupin? Zde testujeme rozdělení kategorického znaku. 52 / 76

53 Analýza kategoriálních dat 53 / 76 H 0 : Kategorický znak má předpokládané rozdělení. H 1 : Kategorický znak nemá předpokládané rozdělení. Testová statistika porovnává napozorované četnosti (N 1, N 2,..., N k ) jednotlivých kategorií (je jich k) s teoretickými. Teoretické pravděpodobnosti: π 1, π 2,..., π k Teoretické četnosti pro n pozorování: nπ 1, nπ 2,..., nπ k χ 2 = (N 1 n π 1 ) 2 n π 1 + (N 2 n π 2 ) 2 n π (N k n π k ) 2 n π k Velké hodnoty mluví proti H 0. Testovou statistiku porovnáváme s kritickou hodnotou χ 2 k 1 (α).

54 Test dobré shody Příklad Ve vyšetřované populaci jsou krevní skupiny 0, A, B a AB v poměru 35 %, 35 %, 20 % a 10 %. Ve vzorku pacientů byly počty osob s krevními skupinami po řadě 28, 36, 27, 9. Lze považovat tento výběr za reprezentativní vzhledem k výskytu krevních skupin? χ 2 = (28 35) (36 35) (27 20) (9 10)2 35 = 3, 98 p-hodnota=0,24 nezamítáme H / 76

55 Nezávislost dvou kategorických znaků Příklad Očkování proti chřipce se účastnilo 460 dospělých. 240 dostalo očkovací látku, 220 placebo. Chřipkou onemocnělo 20 z očkovací skupiny a 80 z kontrolní skupiny. Je to dostatečný důkaz o tom, že je očkovací látka účinná? Sestavíme kontingenční tabulku Chřipka Očkování Placebo Celkem Ano Ne Celkem / 76

56 Nezávislost dvou kategorických znaků 56 / 76 H 0 : Dva znaky jsou na sobě nezávislé. H 1 : Dva znaky nejsou nezávislé. Testová statistika porovnává napozorované četnosti v kontingenční tabulce (r s) s očekávanými: Očekávaná četnost = součet v řádku součet ve sloupci celkový počet pozorování χ 2 = (pozorovaná četnost očekávaná četnost) 2 očekávaná četnost Velké hodnoty mluví proti H 0. Testovou statistiku porovnáváme s kritickou hodnotou χ 2 (r 1)(s 1) (α).

57 Nezávislost dvou kategorických znaků 57 / 76 Chřipka Očkování Placebo Celkem Ano Ne Celkem χ 2 = (20 52, 2)2 + 52, 2 (80 47, 8)2 + 47, 8 ( , 8)2 ( , 2) , 8 172, 2 p-hodnota= 7, < 0, 001 zamítáme H 0.!Tento test je možné použít jsou-li všechny napozorované četnosti 5!

58 Korelace 58 / 76 Závislost znaků kategorický vs spojitý kategorický vs kategorický spojitý vs spojitý

59 Korelace 59 / 76 Kovariance... zobecnění rozptylu cov(x, Y ) = E(X µ X )(Y µ Y ). Pearsonův korelační koeficient ( X µx ρ X,Y = cov, Y µ ) Y = cov(x, Y ). σ Y var X var Y σ X... normovaná kovariance Výběrový korelační koeficient r XY = 1 ρ X,Y 1 (Xi X )(Y i Ȳ ) (Xi X ) 2 (Y i Ȳ )2.

60 Korelační koeficient 60 / 76 Vyjadřuje míru lineární závislosti.

61 Co korelace je/není 61 / 76 Nemá kategorie ANO/NE (korelují/nekorelují) - je to míra korelace Vyjadřuje míru lineární závislosti, na jiné není citlivý Lineární závislost nepopíše (nedá rovnici pro přímku) Nezachycuje složitější formy závislosti (více veličin) Test: H 0 : ρ XY = 0 H 1 : ρ XY 0 Možno použít pro normálně rozdělené náhodné veličiny. Neparametrická analogie: Spearmanův korelační koeficient (založen na pořadí)

62 Regrese 62 / 76 Odhadne rovnici pro přímku v případě lineární závislosti.

63 Kde korelace nestačí Příklad U mladých mužů vyšetřujeme závislost procenta tuku na výšce. Avšak procento tuku závisí zajisté i na hmotnosti. 63 / 76

64 Kde korelace nestačí 64 / 76 Zkoumat závislost procenta tuku na výšce bez uvážení hmotnosti postrádá smysl (ve většině případů). Při zkoumání závislosti procenta tuku na výšce adjustujeme na hmotnost Jak při dané hmotnosti závisí procento tuku na výšce? Hmotnost je matoucí (confounding) proměnná.

65 Kde korelace nestačí 65 / 76 Regrese se pokouší najít rovnici: V našem příkladě Výsledek EY = β 0 + β 1 x β p x p, E tuk = β 0 + β 1 výška + β 2 hmotnost. E tuk = 11, 327 0, 262 výška + 0, 624 hmotnost, S rostoucí výškou při dané hmotnosti klesá procento tuku. Konkrétně: při pevně stanovené hmotnosti s každým centimetrem je procento tuku o 0,262 menší.

66 Zavádějící faktor (confounding) 66 / 76 Vztah mezi konzumací kávy a rakovinou plic u žen Studie případů a kontrol (nemocnice na Bulovce) Poměr šancí (odds ratio): Pití kávy Onemocnění Celkem Ano Ne Denně Zřídka Celkem ÔR = = 1, 7 Interval spolehlivosti pro ÔR: (0, 76; 1, 51)

67 Avšak musíme vzít v úvahu vliv kouření. Kouření má vliv na výskyt rakoviny plic Osoby, které pijí kávu, také často kouří Kuřačky Pití kávy Onemocnění Celkem Ano Ne Denně Zřídka Celkem ÔR = 0, 71 int.spol. (0, 42; 1, 18) Nekuřačky Pití kávy Onemocnění Celkem Ano Ne Denně Zřídka Celkem ÔR = 0, 56 int.spol. (0, 31; 1, 02) Sumární poměr šancí: 0,64 67 / 76

68 68 / 76 Kouření je asociováno s rakovinou. Kouření Případy Kontroly Celkem Ano Ne Celkem ÔR = 5, 70 (4, 08; 8, 00) Kouření je asociováno s pitím kávy. Pití kávy Kouření Denně Zřídka Celkem Ano Ne Celkem ÔR = 3, 25 (2, 18; 4, 85)

69 Simpsonův paradox 69 / 76 Šance výskytu rakoviny plic v závislosti na konzumaci kávy při současné kontrole vlivu kouření a bez kontroly

70 Slováček, L.: Transplantace krvetvorných buněk a kvalita života. Triton, / 76

71 71 / 76

72 Časté chyby v používání statistiky (příklady) 72 / 76 Nevhodný nebo nepromyšlený design studie, malá velikost výběru (malá síla) Špatné rozdělení do skupin (randomizace, nevhodná kontrolní skupina), matoucí faktory Non-response, vyloučení ze studie Použití nevhodného přístupu/testu pro danou hypotézu Nesplnění předpokladů pro použití testu (parametrické testy, např. ANOVA) Mnohonásobné testování Data torturing ( If you torture your data long enough, they will tell you whatever you want to hear. ) Nedostačující prezentace výsledků, chybné interpretace...

73 Plánování studie 73 / 76 Nelze sesbírat data, a potom teprve hledat, jaké metody analýzy použít. Při plánování studie je mimo jiné třeba: Formulovat na základě medicínské hypotézy hypotézu statistickou Navrhnout efektivní design studie Určit optimální velikost výběru Naplánovat vlastní statistickou analýzu (apriori)

74 Sběr dat 74 / 76 Malá studie: např. Excel Velká studie: speciální software Ulehčení práce, vyvarování se chybám, překlepům

75 Měření 75 / 76 Lépe několik konkrétních znaků, které opravdu potřebujeme znát, než desítky měření (odvádí pozornost) Problém chybějících pozorování ( děravá data někdy téměř nepoužitelná) Forma záznamu (kódování), přesnost,...

76 Literatura 76 / 76 Zvára, K.: Biostatistika. Karolinum, Praha, 2003 Zvárová, J.: Základy statistiky pro biomedicínské obory. Karolinum, Praha, 2002

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33 1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které

Více

Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou. z knihy [2].

Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou. z knihy [2]. Principy medicíny založené na důkazech a základy vědecké přípravy 1 MÉNĚ NEŽ MINIMUM ZE STATISTIKY Michaela Šedová 1 Úvod Při přípravě tohoto semináře jsem se opírala nejen o zkušenosti své, ale také o

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK. ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

Jednostranné intervaly spolehlivosti

Jednostranné intervaly spolehlivosti Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT Patrícia Martinková Ústav informatiky AV ČR martinkova@cs.cas.cz www.cs.cas.cz/martinkova 1.LF UK, 22. a 30. března 2017 Motivace 1 Velké množství (medicínských

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

Příklady na testy hypotéz o parametrech normálního rozdělení

Příklady na testy hypotéz o parametrech normálního rozdělení Příklady na testy hypotéz o parametrech normálního rozdělení. O životnosti 75W žárovky (v hodinách) je známo, že má normální rozdělení s = 5h. Pro náhodný výběr 0 žárovek byla stanovena průměrná životnost

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Aplikovaná statistika v R - cvičení 2

Aplikovaná statistika v R - cvičení 2 Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu K čemu slouží statistika Popisuje velké soubory dat pomocí charakteristických čísel (popisná statistika). Hledá skryté zákonitosti v souborech

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Mějme kategoriální proměnné X a Y. Vytvoříme tzv. kontingenční tabulku. Budeme tedy testovat hypotézu

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy Relativní riziko a poměr šancí Princip korelace dvou náhodných veličin Korelační koeficienty Pearsonůva Spearmanův Korelace a kauzalita

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Kontingenční tabulky, korelační koeficienty

Kontingenční tabulky, korelační koeficienty Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel 973 442029 email:jirineubauer@unobcz Budeme předpokládat, že X a Y jsou kvalitativní náhodné veličiny, obor hodnot X obsahuje r hodnot (kategorií,

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

Pravděpodobnost a matematická statistika

Pravděpodobnost a matematická statistika Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D. Program Statistica Base 9 Mgr. Karla Hrbáčková, Ph.D. OBSAH KURZU obsluha jednotlivých nástrojů, funkce pro import dat z jiných aplikací, práce s popisnou statistikou, vytváření grafů, analýza dat, výstupní

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží Zdeněk Karpíšek Jsou tři druhy lží: lži, odsouzeníhodné lži a statistiky. Statistika je logická a přesná metoda, jak nepřesně

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum I. ÚVOD vv této přednášce budeme hovořit o jednovýběrových a dvouvýběrových testech týkajících se střední hodnoty

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

Náhodná veličina a rozdělení pravděpodobnosti

Náhodná veličina a rozdělení pravděpodobnosti 3.2 Náhodná veličina a rozdělení pravděpodobnosti Bůh hraje se světem hru v kostky. Jsou to ale falešné kostky. Naším hlavním úkolem je zjistit, podle jakých pravidel byly označeny, a pak toho využít pro

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III Vysoká škola báňská - Technická univerzita Ostrava 27. listopadu 2017 Typy statistických znaků (proměnných) Typy proměnných: Kvalitativní proměnná (kategoriální, slovní,... ) Kvantitativní proměnná (numerická,

Více

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) 5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) Cílem tématu je správné posouzení a výběr vhodného testu v závislosti na povaze metrické a kategoriální veličiny. V následující

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Statistické metody uţívané při ověřování platnosti hypotéz

Statistické metody uţívané při ověřování platnosti hypotéz Statistické metody uţívané při ověřování platnosti hypotéz Hypotéza Domněnka, předpoklad Nejčastěji o rozdělení, středních hodnotách, závislostech, Hypotézy ve vědeckém výzkumu pracovní, věcné hypotézy

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27 Obsah 1 Testování statistických hypotéz 2

Více

Analýza dat na PC I.

Analýza dat na PC I. CENTRUM BIOSTATISTIKY A ANALÝZ Lékařská a Přírodovědecká fakulta, Masarykova univerzita Analýza dat na PC I. Popisná analýza v programu Statistica IBA výuka Základní popisná statistika Popisná statistika

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Informační technologie a statistika 1

Informační technologie a statistika 1 Informační technologie a statistika 1 přednášející: konzul. hodiny: e-mail: Martin Schindler KAP, tel. 48 535 2836, budova G po dohodě martin.schindler@tul.cz naposledy upraveno: 21. září 2015, 1/33 Požadavek

Více

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Základy popisné statistiky Anotace Realitu můžeme popisovat různými typy dat, každý z nich se specifickými vlastnostmi, výhodami, nevýhodami a vlastní sadou využitelných statistických metod -od binárních

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

Vybrané partie z biostatistiky

Vybrané partie z biostatistiky 1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum Kontakt: Literatura: Obecné informace Zvárová, J.: Základy statistiky pro biomedicínskéobory I. Vydavatelství

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

Základy biostatistiky

Základy biostatistiky Základy biostatistiky Veřejné zdravotnictví 3.LF UK Viktor Hynčica Úvod se statistikou se setkáváme denně ankety proč se statistika začala používat ve zdravotnictví skupinový přístup k léčení celé populace

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Základy pravděpodobnosti a statistiky. Popisná statistika

Základy pravděpodobnosti a statistiky. Popisná statistika Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod. Příklad ze života Cimrman, Smoljak/Svěrák,

Více

6. Lineární regresní modely

6. Lineární regresní modely 6. Lineární regresní modely 6.1 Jednoduchá regrese a validace 6.2 Testy hypotéz v lineární regresi 6.3 Kritika dat v regresním tripletu 6.4 Multikolinearita a polynomy 6.5 Kritika modelu v regresním tripletu

Více

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D. Zpracování náhodného výběru popisná statistika Ing. Michal Dorda, Ph.D. Základní pojmy Úkolem statistiky je na základě vlastností výběrového souboru usuzovat o vlastnostech celé populace. Populace(základní

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více

Popisná statistika. Statistika pro sociology

Popisná statistika. Statistika pro sociology Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31 Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více