Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou. z knihy [2].

Rozměr: px
Začít zobrazení ze stránky:

Download "Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou. z knihy [2]."

Transkript

1 Principy medicíny založené na důkazech a základy vědecké přípravy 1 MÉNĚ NEŽ MINIMUM ZE STATISTIKY Michaela Šedová 1 Úvod Při přípravě tohoto semináře jsem se opírala nejen o zkušenosti své, ale také o práce jiných. Většina příkladů v tomto textu pochází bud z přednášek a cvičení doc. Zváry [1], nebo z knihy, jejíž autorkou je prof. Zvárová [2]. Publikace těchto dvou autorů vřele doporučuji k hlubšímu prostudování. Začněme příkladem převzatým z knihy [2]. Příklad 1. Byla provedena studie syndromu náhodného úmrtí dětí. Ta se zaměřila na dvě skupiny. První tvořily děti, které byly nalezeny téměř mrtvé, bez známek života. Všechna další vyšetření byla negativní, zotavily se během několika dnů. Tuto skupinu jsme nazvali téměř ztracené. Druhou skupinu tvořily normální děti. U každého dítěte byla zjištěna dlouhodobá proměnlivost tepové frekvence (LTV, definována jako rozdíl mezi min. a max. hodnotami novorozenecké tepové frekvence). Údaje jsou zaznamenané v tabulce 1. Tabulka 1: Naměřené hodnoty LTV pro téměř ztracené a normální děti ve studii syndromu náhodného úmrtí dětí Téměř 9.33, 15.5, 21.17, 13.83, 24.67, 18.0, 9.33, 7.00, 8.83, 5.0 ztracené 20.6, 22.67, 14.17, 11.0, 9.33, 13.33, 11.67, 8.17, 9.17, 23.00, 7.67, 9.67, 17.33, 22.33, 8.33, Normální 29.00, 17.33, 17.83, 11.33, 14.33, 31.33, 20.67, 27.83, 32.0, 19.0, 32.5, 22.33, 35.0, 31.17, Ve studii z příkladu 1 bychom chtěli zjistit, zda se téměř ztracené děti nějak liší od normálních z hlediska LTV. Na první pohled vidíme, že rozlišení mezi skupinami není jednoznačné, ve skupině téměř ztracených dětí jsou hodnoty LTV od 5,00 do 24,67, ve skupině normálních dětí jsou hodnoty LTV od 11,33 do 35,00. Zajímáme se tedy o to, zda se tyto skupiny liší alespoň v průměru. A v průměru se skutečně liší, téměř ztracené děti mají průměrné LTV menší než děti normální (13.70 resp ). Problém je v tom, že nemůžeme vědět, zda je tento rozdíl pouze náhodný (tj. kdybychom zopakovali tentýž pokus s jinými dětmi, mohli bychom dostat i opačný vztah), nebo zda zde existuje nějaké systematické

2 Principy medicíny založené na důkazech a základy vědecké přípravy 2 posunutí, trend, který náhodný není (tj. podobné výsledky bychom dostali vždy při opakování pokusu). K tomuto rozlišení bychom měli postupně dospět. Protože zde chceme pracovat s pojmem náhody, dostáváme se na pole teorie pravděpodobnosti a matematické statistiky. Abychom její závěry dokázali dobře interpretovat, je potřeba pochopit způsobu uvažování, který je v tomto oboru obvyklý, naučit se číst statistické výsledky a umět rozlišit, co statistika umí a co neumí (bohužel, často jí bud pohrdáme, anebo ji naopak stavíme do role věštecké koule). Tento text si neklade za cíl stát se minikurzem statistiky. K tomu je možné doporučit citovanou literaturu. Raději než výčtem všech možných statistických pojmů, metod a testů budeme spíš na příkladech ilustrovat způsob statistického uvažování, ze kterého všechny popsané postupy vychází. To by snad mělo ulehčit jak četbu odborné medicínské literatury, tak komunikaci se statistikem v případě vlastního výzkumu. Je však potřeba začít od začátku... Statistika popisná versus induktivní Je podstatný rozdíl mezi popisnou (deskriptivní) a induktivní statistikou. Popisná statistika Určitým způsobem popisuje, charakterizuje data. Shrnuje databázi jednotlivých pozorování do nějaké přehledné formy, ukazuje, co vlastně máme. Používá k tomu popisné chrakteristiky (průměr, medián,... ), grafy (histogram, krabicový diagram, bodový graf,... ). Omezuje svá tvrzení na daná data, nečiní si nárok zobecňovat, dělat závěry. Induktivní statistika Na základě dat se snaží zobecnit pozorování na větší soubor, populaci. Pracuje s náhodou, odhady, testy. Velkou roli zde hraje správná interpretace. Ve většině prací se setkáme s oběma typy. Publikace zpravidla obsahují tabulky charakterizující populaci, která byla zařazena do studie (aby bylo např. vidět, že je reprezentativní). Většinou ale také uvádí výsledky statistických testů a mají ambici své výsledky zobecnit (např. tvrdit, že daný lék účinkuje nejen u konkrétních pacientů, kteří byli zařazeni do studie, ale že by účinkoval i u ostatních). Ujasněme si nejprve pár základních pojmů.

3 Principy medicíny založené na důkazech a základy vědecké přípravy 3 Měřítko Studii provádíme tak, že na statistických jednotkách sledujeme jejich vlastnosti; hodnoty znaků ve zvoleném měřítku. Měřítko je Kvalitativní (zpravidla vyjádřené slovem, znakem,... ) nula-jedničkové (jev nastal/nenastal, např. pacient přežil/nepřežil) nominální (několik kategorií, např. krevní skupina) - v literatuře se můžeme setkat s pojmem faktor ordinální (kategorie jsou jistým způsobem řazené, např. bolest je silná, mírná, žádná) Kvantitativní (vyjádřené číslem) intervalové (spojité, nabývají hodnoty z nějakého intervalu, např. výška, LTV) diskrétní (ordinální, např. počet pacientů, kteří navštíví ambulanci během jednoho dne) Pravděpodobnost Předpokládáme, že během studie realizujeme náhodný pokus, tedy pokus, jehož výledek není předem znám. Výsledek tohoto pokusu nazveme náhodný jev (označme ho A). Nás zajímá pravděpodobnost tohoto náhodného jevu, P(A). Je to míra častosti výskytu jevu A, naděje, že nastane. Tato míra je vyjádřena číslem v interavalu [0, 1]. V případě nemožného jevu A je P(A) = 0, v případě jistého jevu A je P(A) = 1. Na střední škole jsme se zřejmě setkali s klasickou definicí pravděpodobnosti: Množinu možných výsledků pokusu rozdělíme na n stejně pravděpodobných elementárních jevů ω 1, ω 2,..., ω n. Z toho m elementárních jevů je příznivých jevu A. Potom P (A) = m n. Příklad 2. Házení kostkou Jev A: padne sudé číslo Elementární jevy: padne 1, 2, 3, 4, 5, 6, všechny s pravděpodobností 1 6 P (A) = 3 6 = 1 2

4 Principy medicíny založené na důkazech a základy vědecké přípravy 4 Ovšem máme-li intervalový (spojitý) znak, tato definice nestačí. Můžeme dostat nekonečně mnoho výsledků a tím by se ve jmenovateli objevilo. Proto potřebujeme obecnější koncept. Náhodná veličina Náhodná veličina je číselně vyjádřený výsledek náhodného pokusu. Je to teoretický pojem. Snaží se postihnout fakt, že výsledek náhodného pokusu neznáme, přesto však něco víme o tom, jakých hodnot sledovaný znak může nabýt a s jakou pravděpodobností je skutečně zpozorujeme. Tomuto seznamu nebo popisu náhodné veličiny se říká rozdělení. Např. náhodná veličina je dlouhodobá proměnlivost tepové frekvence u novorozenců obecně. Její realizací je potom hodnota, kterou naměříme u konktrétního dítěte. Můžeme říci, že náhodná veličina je model, nějaký předpis, kterým se řídí jistá populace. Tu nikdy nemůžeme pozorovat celou (nikdy nenaměříme LTV u všech dětí na světě), pozorujeme však náhodný výběr z této populace (děti, které se narodily v naší porodnici v době, kdy studie probíhala) a z toho se snažíme usoudit o celé populaci. Do těchto úvah je nutné započítat náhodu, tedy to, že kdybychom studii opakovali na jiných dětech, dostali bychom jiná čísla, přestože bychom realizovali tu stejnou náhodnou veličinu (se stejným rozdělením). Statistika se tedy snaží odhadovat jisté parametry rozdělení náhodné veličiny, případně testovat hypotézy o těchto parametrech. Rozdělení náhodné veličiny Jsou dva základní typy rozdělení náhodné veličiny. Diskrétní je modelem pro počty případů, je to seznam pravděpodobností, se kterými daný znak nabývá jednotlivých hodnot. Např. rozdělení náhodné veličiny pohlaví nově narozeného dítěte je dáno pravděpodobností, že to bude dívka (řekněme 0,48), a pravděpodobností, že to bude chlapec (0,52). Druhou možností je rozdělení spojité. Nejznámějším rozdělením z této kategorie je oprávněně normální (Gaussovo). Tomu se budeme věnovat více. Známá Gaussova křivka (viz obr. 1a) je ve skutečnosti hustotou tohoto rozdělení, která má své přesné matematické vyjádření. Určuje, s jakou pravděpodobností může náhodná veličina X nabýt hodnoty z daného intervalu. To je dáno plochou pod touto křivkou. Obrázek 1b ukazuje, jaká je pravděpodobost, že dostaneme pozorování z intervalu (0, 1), má-li daná náhodná veličina standardní normální rozdělení. Hustota nám tak pomáhá vyjádřit, že rozdělení dané náhodné veličiny není rovnoměrné, tj. že např. nemůžeme nabýt hodnoty z intervalu (2.5, 3.5) se stejnou pravděpodobností jako hodnoty z intervalu (0, 1). Z vlastností hustoty vyplývá, že plocha pod celou touto křivkou musí být 1.

5 Principy medicíny založené na důkazech a základy vědecké přípravy 5 Obrázek 1: Hustota standardního normálního rozdělení (a) a znázornění pravděpodobnosti P (X (0, 1)) (b) Normální rozdělení je charakterizováno dvěma parametry: Střední hodnota µ určuje bod, kolem kterého je hustota symetrická. Rozptyl σ 2 určuje, jak moc jsou hodnoty rozpýlené kolem tohoto bodu. Skutečnost, že náhodná veličina má normální rozdělení se střední hodnotou µ a rozptyl σ 2, zapisujeme X N(µ, σ 2 ). Obrázek 2 znázorňuje normální rozdělení s různými parametry. Standardním normálním rozdělením se nazývá rozdělení N(0, 1). N(0,1) N(1,1) N(0,2) f(x) x a) f(x) x b) f(x) x c) Obrázek 2: Hustota normálního rozdělení; a) N(0,1), b) N(1,1), c) N(0,2)

6 Principy medicíny založené na důkazech a základy vědecké přípravy 6 Obrázek 3: Hustoty rovnoměrného (a), exponenciálního (b), studentova (c) a χ 2 rozdělení (d) s vyznačenými středními hodnotami (µ). Normální rozdělení však není zdaleka jediné spojité rozdělení. Příklady hustot dalších rozdělení jsou na obrázku 3. Často např. koncentrace látek mívají rozdělení výrazně zešikmené. Většina výsledků je však ve statistice odvozena pro normální rozdělení, proto bývá častým předpokladem jejich platnosti právě normalita dat. Pokud ta není splněná, závěry nemusí být správné. Jedním řešením tohoto problému může být např. transformace dat, čímž původní rozdělení přiblížíme normálnímu a dostaneme platné výsledky. Často se používá logaritmus naměřených hodnot.

7 Principy medicíny založené na důkazech a základy vědecké přípravy 7 Charakteristiky rozdělení Vrat me se ještě k charakteristikám rozdělení náhodné veličiny. Střední hodnota je charakteristikou polohy rozdělení. V případě diskrétního rozdělení je střední hodnota µ váženým průměrem možných hodnot. Váhami jsou pravděpodobnosti, s jakými jich můžeme nabýt µ = EX = x 1 p 1 + x 2 p x n p n. V případě spojitého rozdělení ji definujeme podobně, funkci vah plní hustota EX = xf(x)dx. Hustota normálního rozdělení je symetrická kolem své střední honoty. U ostatních rozdělení to tak nemusí být (jak je vidět na obrázku 3). Rozptyl je charakteristikou variability dat. Lze říci, že je to průměrná druhá mocnina odchylky hodnot od střední hodnoty Pro diskrétní rozdělení ji zapíšeme σ 2 = var (X) = E(X EX) 2. σ 2 = var (X) = (x 1 µ) 2 p 1 + (x 2 µ) 2 p (x n µ) 2 p n. V publikacích se často uvádí směrodatná odchylka (standard deviation, SD) σ, což je odmocnina rozptylu. Další charakteristiky Další charakteristikou, která pro nás může být zajímavá, jsou kvantily. Medián x je číslo, které oddělí polovinu možných hodnot: P (X x) = 1 2. Je ho také možné chápat jako míru polohy. Někdy může polohu dat charakterizovat lépe než střední hodnota. Kvartily x jsou čísla, která oddělí čtvrtiny možných hodnot: Dolní kvartil q 1... P (X q 1 ) = 1 4 Horní kvartil q 3... P (X q 3 ) = 3 4. Desetiny hodnot od sebe potom oddělují decily, setiny percentily.

8 Principy medicíny založené na důkazech a základy vědecké přípravy 8 2 Popisná statistika Až dosud byla řeč o vlastnostech náhodné veličiny, tedy o teoretickém konceptu, který v praxi nikdy nepozorujeme. První, ne však jediný krok k tomu, abychom mohli něco usoudit o dané náhodné veličině, je popisná statistika. Shrnuje to, co máme v datech. Míry polohy Předpokládejme, že máme n pozorování. Mezi míry polohy dat patří Průměr x = x 1 + x x n n (Výběrový) medián... prostřední hodnota dat, formálně zapíšeme { x[ n+1 x = 2 ] n liché 1 (x 2 [ n 2 ] + x [ n 2 +1] ) n sudé, kde x [n] značí n-tou nejmenší hodnotu. (Výběrové) kvartily... analogicky Míry variability Mírou variability je především výběrový rozptyl s 2 = (x 1 x) 2 + (x 2 x) (x n x) 2. n 1 Z něj potom můžeme určit výběrovou směrodatnou odchylku s. Grafické znázornění dat Krabicový diagram zachycuje rozdělení spojité veličiny v podobě obdélníku, kde je Medián znázorněn příčkou obdélníka Horní resp. dolní kvartil znázorněn kratšími stranami obdélníka Tykadla vykreslena od kvartilu k minimu resp. maximu, pokud není odllehlé Odlehlé pozorování znázorněno samostatně. Za odlehlé pozorování se zpravidla považuje takové, které je dál než 3 2 (q 3 q 1 ), kde q 3 a q 1 je horní a dolní kvartil.

9 Principy medicíny založené na důkazech a základy vědecké přípravy 9 Obrázek 4: Grafické znázornění naměřených hodnot LTV pro skupinu téměř ztracených dětí ; pomocí bodového grafu (a) a krabicového diagramu (b). Příklad 3. Kdybychom chtěli znázornit data, která máme o LTV pro skupinu téměř ztracených dětí, nebudeme vykreslovat jednotlivá pozorování jako na obrázku 4a), protože to je zvlášt u objemnějších dat velmi nepřehledné, ale použijeme krabicový diagram, viz obrázek 4b). Histogram znázorňuje intervalové četnosti spojité veličiny. Rozmezí všech možných hodnot (osa x) rozdělíme na malé intervaly, ke každému intervalu spočítáme, kolik pozorování do něj padne, a to vyneseme na osu y. Druhou možností je vynést na osu y relativní četnosti (počet pozorování v intervalu vydělený celkovým počtem pozorování). Histogram by měl při dostatečném počtu pozorování aproximovat hustotu rozdělení. Příklad 4. Data byla uměle vygenerována z rozdělení N(0, 1). Příslušný histogram je zobrazen na obrázku 5. Je blízký hustotě normálního rozdělení. Sloupcový graf znázorňuje četnosti (počty hodnot) kvalitativního znaku. Příklad 5. Zjistili jsme krevní skupinu ve vzorku 100 pacientů. Sloupcový graf je na obr. 6. Skupina 0 A B AB Počet

10 Principy medicíny založené na důkazech a základy vědecké přípravy 10 Histogram of x Histogram of x Frequency Density x x Obrázek 5: Histogram pro data pocházející z rozdělení N(0, 1); zobrazení pomocí absolutních četností (a) a relativních četností (b). Obrázek 6: Sloupcový graf zastoupení krevních skupin u 100 pacientů.

11 Principy medicíny založené na důkazech a základy vědecké přípravy 11 Histogram of x1 Density x1 Histogram of x2 Density x2 Histogram of x3 Density x3 Obrázek 7: Histogramy pro náhodné výběry pocházející z normálního rozdělení N(23, 8 2 ) o velikosti 10(x 1 ), 50(x 2 ) a 1000(x 3 ). 3 Induktivní statistika Jak už bylo řečeno, induktivní statistika se snaží zobecnit to, co pozorujeme na konkrétních statistických jednotkách. Jedním z jejích úkolů je odhadnout parametry (vlastnosti) rozdělení náhodné veličiny. Odhadem střední hodnoty je zpravidla průměr. Odhadem rozptylu je zpravidla výběrový rozptyl. Kdybychom daný pokus opakovali, dostaneme určitě jiný průměr, tj. jiný odhad střední hodnoty. Proto nás zajímá přesnost našeho bodového odhadu, tj. představa, jak jsme nanejvýš daleko od skutečné střední hodnoty. 3.1 Odhady Odhad střední hodnoty Příklad 6. Předpokládejme, že sledujeme náhodnou veličinu, která má v populaci rozdělení X N(23, 8 2 ). Provedeme 3 náhodné výběry o rozsahu 10, 50 a Histogramy pro tyto tři výběry jsou na obrázku 7. Průměry vyšly x 1 = 20, 17, x 2 = 22, 69, x 3 = 23, 14.

12 Principy medicíny založené na důkazech a základy vědecké přípravy 12 Obrázek 8: Kvantily normálního rozdělení z(0, 025) a z(0, 975). Průměr X je tedy také vlastně náhodná veličina. Naštěstí známe její vlastnosti. Je-li X N(µ, σ 2 ) a máme-li výběr o velikosti n, X N(µ, σ2 n ). Průměr tedy bude kolísat kolem skutečné střední hodnoty µ, je jejím odhadem. Avšak pokud bychom znali jenom průměr, moc nám to nepomůže, protože nevíme, jak daleko je tento náš odhad od skutečné střední hodnoty. Interval spolehlivosti Proto je vhodné kromě bodového odhadu střední hodnoty uvádět i intervalový odhad. Je to interval, který pokryje skutečnou střední hodnotu s předem stanovenou pravděpodobností, většinou se volí 90 nebo 95 %, případně 99 %. Lze ukázat, že 95% interval spolehlivosti má následující podobu: ( x 1, 96 σ n, x + 1, 96 σ n ). Konstanta z(0, 025) = 1, 96 je 97, 5% kvantil standardizovaného normálního rozdělení. Pro X N(0, 1) platí, že P ( X > 1, 96) = 0, 05, viz obr. 8. Kdybychom chtěli určit jiný než 95% interval spolehlivosti, stačí nahradit číslo 1, 96 příslušným kvantilem normálního rozdělení.

13 Principy medicíny založené na důkazech a základy vědecké přípravy 13 Směrodatnou odchylku většinou neznáme, nahrazujeme ji proto odhadem s. Tím však přinášíme další nejistotu a musíme použít upravený vzorec pro 95% interval spolehlivosti x ± t (n 1) (0, 025) s, n kde t (n 1) (0, 025) je 97, 5% kvantil (kritická hodnota) studentova rozdělení o n 1 stupních volnosti. Studentovo rozdělení je velmi podobné normálnímu, při větším počtu pozorování (nad 100) je možné používat kvantily normálního rozdělení. Tyto vzorečky pravděpodobně v běžné praxi používat nebudeme, statistický software nám rovnou prozradí interval spolehlivosti. Je však dobré vědět, jak k němu dospěl. Příklad 7. Intervalové odhady v příkladě 6 vyšly následovně: 1.výběr: (15,28, 25,07) 2.výběr: (20,55, 24,82) 3.výběr: (22,64, 23,64) Všechny pokrývají skutečnou střední hodnotu, která byla 23. Na závěr uved me několik tvrzení. Čím větší počet pozorování, tím užší interval spolehlivosti (přesnější odhad). Čím menší směrodatná odchylka, tím užší interval spolehlivosti (přesnější odhad). Čím menší přesnost požadujeme, tím užší interval spolehlivosti obdržíme. 3.2 Testování hypotéz V testování hypotéz je klíčovou záležitostí jejich správná formulace. To nemusí být jednoduchý krok, protože statistická hypotéza není totéž co hypotéza medicínská. Tzv. nulová hypotéza (H 0 ) je většinou tvrzení o hodnotě parametru (často právě o střední hodnotě). Např. Střední hodnota LTV u zdravých a téměř ztracených dětí je stejná. Zpravidla je to opak toho, co chceme ukázat. Alternativní hypotéza (H 1 ) je doplňkem nulové. Tedy žádná jiná hodnota parametru (než ta, která je obsažena v těchto dvou hypotézách) není možná. K uvedenému příkladu by alternativní hypotéza byla: Střední hodnota LTV u zdravých a téměř ztracených dětí není stejná.

14 Principy medicíny založené na důkazech a základy vědecké přípravy 14 Logika testování Hypotézu chceme otestovat na datech. Avšak stále tu máme náhodu. Tu se pokusíme ohlídat. Předem si stanovíme hladinu testu α, tedy pravděpodobnost, se kterou si dovolíme udělat chybný závěr. Většinou se volí α = 0, 05. Při testování postupujeme následovně. Předpokládáme, že platí H 0. Z dat spočítáme testovou statistiku (např. průměr). Spočítáme pravděpodobnost, že bychom za H 0 pozorovali naše data nebo data stejně či více extrémní. Tato pravděpodobnost se je tzv. dosažená hladina významnosti, neboli p hodnota. Bude-li p hodnota menší nebo rovna předem zvolené hladině testu α, H 0 zamítáme, bude-li velká, H 0 nezamítáme. Možná rozhodnutí Následující tabulka uvádí všechny možnosti, jak naše rozhodnutí může dopadnout. Rozhodnutí Skutečnost H 0 zamítneme H 0 nezamítneme H 0 platí Chyba 1. druhu (α) Správné rozhodnutí H 0 neplatí Správné rozhodnutí Chyba 2. druhu (β) Lze se dopustit dvou chyb. Chyba prvního druhu nastane, pokud zamítneme nulovou hypotézu, přestože ve skutečnosti platí. Chyby druhého druhu se dopustíme v případě, že nezamítneme nulovou hypotézu, přestože neplatí. Není možné minimalizovat obě chyby najednou, nebot jdou proti sobě. Čím je menší chyba prvního druhu, tím je větší chyba druhého druhu a opačně. Proto fixujeme chybu prvního druhu (α), tradičně α = 5%, chyba druhého druhu (β) už je tím daná. Sílu testu (1 β) můžeme ovlivnit velikostí výběru. Při malém výběru se tedy může stát, že se kvůli malé síle nepodaří zamítnout H 0, přestože neplatí. Jednovýběrový t-test Jednovýběrový t-test testuje hypotézu o střední hodnotě rozdělení, konkrétně to, zda je rovna nějaké dané hodnotě µ 0. H 0 : µ = µ 0 H 1 : µ µ 0

15 Principy medicíny založené na důkazech a základy vědecké přípravy 15 Protože se střední hodnota odhaduje průměrem, je testová statistika následující T = X µ 0 s. n Vajadřuje rozdíl mezi napozorovanou a předpokládanou střední hodnotou, který vztahuje k variabilitě dat. Je vidět, že velké hodnoty T vypovídají proti H 0 (rozdíl mezi tím, co jsme očekáváli a co jsme napozorovali, je příliš velký). Díky tomu, že známe rozdělení testové statistiky T, můžeme stanovit tzv. kritickou hodnotu. Za platnosti H 0 by T měla kritickou hodnotu překročit s pravděpodobností α. V tomto případě je kritickou hodnotou kvantil studentova rozdělení o n 1 stupních volnosti, značíme t n 1 ( α). Hypotézu H 2 0 tedy zamítáme, je-li T > t n 1 ( α ). Pro 2 velké n nahrazujeme t n 1 ( α) kvantilem normálního rozdělení z( α). 2 2 Abychom jednovýběrový t-test mohli použít, musí být splněny následující předpoklady: Rozdělení sledované veličiny je blízké normálnímu Pozorování jsou navzájem nezávislá (tj. nejsou zde opakovaná měření od jedné osoby apod.) Příklad 8. Naměřili jsme LTV pouze u téměř ztracených dětí. Předpokládejme, že víme, že střední hodnota LTV u zdravých dětí je 23. Je možné říci, že se téměř ztracené děti z hlediska LTV liší od normálních? H 0 : µ = 23 H 1 : µ 23 13, 7 23 T = 5,82 = 8, T < t 25 (0, 025) = 2, 06, tedy zamítáme H 0. V softwaru a publikacích často najdeme jako výsledek testu uvedenou p- hodnotu. V tomto případě je p = 1, Pokud je p-hodnota takto malá, píše se zpravidla p < 0, 001. Uvést p-hodnotu je lepší než sdělit pouze výsledek testu (H 0 zamítnuta/nezamítnuta). Dává to představu, jak daleko jsme od kritické hodnoty. Jednostranný t-test Předpokládejme však, že bychom už předem věděli, že téměř ztracené děti rozhodně nemohou mít LTV větší než děti zdravé. H 0 : µ = µ 0 H 1 : µ < µ 0

16 Principy medicíny založené na důkazech a základy vědecké přípravy 16 Testová statistika je v tomto případě stejná T = X µ 0 s, n avšak sledujeme pouze, o kolik je průměr menší než střední hodnota. Malé hodnoty T vypovídají proti H 0, zamítáme ji, je-li T < t n 1 (α). Pro velké n nahrazujeme kvantil studentova rozdělení t n 1 (α) kvantilem normálního rozdělení z(α). Předpoklady zde jsou stejné jako u oboustranného t-testu. Jednostranný test je silnější, protože reflektuje apriorní informaci. Tato informace ovšem musí být podložená. Nelze nejprve zjistit výsledek T statistiky, a potom volit typ t-testu. Dvouvýběrový t-test Jak název napovídá, dvouvýběrový t-test porovnává dvě skupiny A a B, konkrétně jejich střední hodnoty. H 0 : µ A = µ B H 1 : µ A µ B Testová statistika porovnává průměry: T = X A X B se( X A X B ) = X A X B s na n B n A + n B. Velké hodnoty T vypovídají proti H 0. Zamítáme ji, pokud je T > t na +n B 2( α 2 ). Dvouvýběrový t-test smíme použít, jsou-li splněny následující předpoklady Rozdělení sledované veličiny je v každé skupině blízké normálnímu. Pozorování jsou navzájem nezávislá (mezi skupinami i uvnitř skupin). V obou skupinách je shodný rozptyl. Pokud splněny nejsou, je nutné použít jiné nástroje, např. existuje úprava t-testu, která nevyžaduje shodnost rozptylů. Příklad 9. Naměřili jsme LTV u skupiny téměř ztracených dětí a u skupiny normálních dětí. Je možné říci, že se LTV v těchto dvou skupinách v průměru liší? H0 : µ z = µ n H 1 : µ z µ n T = 13, 70 23, , = 4, 62 T < t 39 (0, 025) = 2, 02, p = 4, < 0, 001, tudíž zamítáme H 0. Dvouvýběrový t-test má také samozřejmě jednostrannou a oboustrannou verzi.

17 Principy medicíny založené na důkazech a základy vědecké přípravy 17 Párový t-test Příklad 10. U každého z pacientů byl zjištěn krevní tlak před podáním a dvě hodiny po podání farmaka. Ovlivňuje podání farmaka krevní tlak? [2] Naměřené hodnoty před: 206, 205, 205, 198, 191, 185,186, 172, 168, 165, 158 Naměřené hodnoty po: 187, 178, 202, 197, 173, 167, 184, 166, 155, 125, 162 Možná by nás napadlo použít jednostranný dvouvýběrový t-test: H 0 : µ pred = µ po H 1 : µ pred > µ po Dostali bychom p = 0, 07 a H 0 bychom nezamítli, tj. neprokázali bychom účinnnost léku. Chyba je zde v tom, že pozorování před a po podání léku jsou závislá (máme zde dvojice měření provedené na jednom pacientovi). Není tedy splněn jeden z předpokladů dvouvýběrového t-testu. Vyplývá to už z designu studie musíme to zohlednit. Definujeme rozdíly D i = P red i P o i a použijeme (jednostranný) jednovýběrový t-test. H 0 : µ d = µ pred µ po = 0 H 1 : µ d = µ pred µ po > 0 X d 0 n s d = ,09 = 3, 29, 11 p-hodnota = 0, 004 zamítáme H 0, účinnnost léku jsme prokázali. Pozn. Na posouzení lékaře však zůstává, jestli průměrné snížení tlaku o 13 mm Hg je výsledek významný nejen statisticky, ale i klinicky. ANOVA Příklad 11. Následující studie je uvedena v [2]. 20 pacientů, kteří podstoupili operaci srdce, bylo náhodně rozděleno do tří skupin. Pacienti, kteří dostali 50% oxidu dusného a 50% kyslíkové směsi 24 hodin Pacienti, kteří dostali 50% oxidu dusného a 50% kyslíkové směsi během operace Pacienti, kteří dostali 35 50% kyslíku 24 hodin Liší se střední koncentrace soli kyseliny listové v červených krvinkách v těchto skupinách? Data jsou zobrazena na obr. 9.

18 Principy medicíny založené na důkazech a základy vědecké přípravy 18 Koncentrace skupina Obrázek 9: Koncentrace soli kyseliny listové v červených krvinkách ve třech skupinách pacientů. První nápad, který bychom dostali, by byl porovnat všechny dvojice dvouvýběrovými t-testy: Skupina 1 vs Skupina 2 Skupina 1 vs Skupina 3 Skupina 2 vs Skupina 3 Opět bychom se však dopustili chyby. Má-li každý test pravděpodobnost chybného pozitivního výsledku 5%, výsledná pravděpodobnost, že dostaneme alespoň jeden chybný pozitivní výsledek, je větší než 5% (konkrétně v případě tří porovnání cca 14%). Poznámka Zde narážíme na obecnější problém tzv. mnohonásobného testování. To je častá chyba mnoha odborných publikací. Představme si, že bychom měli dvě skupiny pacientů podle zjištěné alely v určitém genetickém lokusu. Na všech pacientech bychom uskutečnili měření desítek parametrů. Je téměř jisté, že by nám vyšel nějaký statisticky signifikantní výsledek pouze náhodnou. Totéž platí o podskupinách jedinců zařazených do studie. Skoro určitě bychom našli nějak definovanou podskupinu (např. pouze ženy, pouze lidé středního věku, pouze lidé s nízkými hodnotami celkového cholesterolu,... ), ve které je výsledek signifikantní, i když pro celou skupinu signifikantní není.

19 Principy medicíny založené na důkazech a základy vědecké přípravy 19 Problém porovnání více skupin řešíme metodou analýzy rozptylu (ANOVA). Tu si zde pouze nastíníme, nebot nemáme dostatek prostoru si ji vysvětlit podrobněji. ANOVA testuje hypotézu o rovnosti středních hodnot ve všech k skupinách najednou. H 0 : µ 1 = µ 2 = = µ k H 1 : Neplatí H 0 (Alespoň jedna skupina se liší.) Testová statistika porovnává variabilitu mezi skupinami a variabilitu uvnitř skupin F = variabilita mezi skupinami variabilita uvnitř skupin. Velké hodnoty F svědčí proti H 0. Opět je potřeba, aby data splňovala následující předpoklady: Rozdělení sledované veličiny je v každé skupině blízké normálnímu. Pozorování jsou navzájem nezávislá (mezi skupinami i uvnitř skupin). Ve všech skupinách je shodný rozptyl. Příklad 12. Test rovnosti středních hodnot koncentrace soli kyseliny listové v popsaných skupinách pacientů dává p-hodnotu 0.015, H 0 tedy zamítáme. Která skupina se však liší od které? Pro zodpovězení této otázky nyní provedeme porovnání všech dvojic skupin dvouvýběrovým t-testem. Problém mnohonásobného testování ošetříme tzv. Bonferroniho korekcí - za signifikantní budeme považovat výsledek, kdy je p-hodnota < α. V našem příkladě tedy provedeme tři k porovnání: Skupina 1 vs Skupina 2: p = < Skupina 1 vs Skupina 3: p = > Skupina 2 vs Skupina 3: p = > Můžeme tedy tvrdit, že významný rozdíl je mezi průměry skupin 1 a 2, ale ne mezi ostatními. Wilcoxonův test Wilcoxonův test považujeme za neparametrickou analogii t-testu. Můžeme jej použít ve stejné situaci jako t-test, má však tu výhodu, že je platný i když je porušen předpoklad o normálním rozdělení dat (musí však být spojité). Jeho nevýhodou je to, že má menší sílu, to znamená, že za předpokladu normality by měl mít t-test přednost. Tentokrát testujeme hypotézu o mediánu:

20 Principy medicíny založené na důkazech a základy vědecké přípravy 20 H 0 : Medián x = 0 H 1 : Medián x 0 Následujeme tyto kroky: Určíme pořadí R + i hodnot X i. Určíme součet těch pořadí, kde bylo X i > 0, označíme jej W. Položíme Z = W n(n + 1)/4 n(n + 1)(2n + 1)/24 Vysoké hodnoty Z vypovídají proti H 0. Neparametrické analogie parametrických testů Pro úplnost uved me alespoň názvy neparametrických alternativ k ostatním testům. rozdělení normální spojité parametr střední hodnota medián jeden jednovýběrový jednovýběrový výběr t-test Wilcoxon výběr dvojic párový t-test Wilcoxon dva nezávislé dvouvýběrový Mann-Whitney výběry t-test (Kolmogorov-Smirnov) k nezávislých analýza rozptylu Kruskal-Wallis výběrů (ANOVA) Analýza kategoriálních dat Až dosud jsme se zabývali hodnocením intervalové proměnné. Zabývejme se nyní kategorickými znaky. Příklad 13. Ve vyšetřované populaci jsou krevní skupiny 0, A, B a AB v poměru 35 %, 35 %, 20 % a 10 %. Ve vzorku pacientů byly počty osob s krevními skupinami po řadě 28, 36, 27, 9. Lze považovat tento výběr za reprezentativní vzhledem k výskytu krevních skupin? [1] Zde chceme testovat hypotézu o rozdělení kategorického znaku. H 0 : Kategorický znak má předpokládané rozdělení. H 1 : Kategorický znak nemá předpokládané rozdělení. Předpokládejme, že má testovaný znak k kategorií. Testová statistika porovnává napozorované četnosti (N 1, N 2,..., N k ) jednotlivých kategorií s teoretickými.

21 Principy medicíny založené na důkazech a základy vědecké přípravy 21 Jsou-li teoretické pravděpodobnosti π 1, π 2,..., π k, teoretické četnosti pro n pozorování musí být nπ 1, nπ 2,..., nπ k. Určíme statistiku χ 2 = (N 1 n π 1 ) 2 n π 1 + (N 2 n π 2 ) 2 n π (N k n π k ) 2 n π k. Velké hodnoty χ 2 vypovídají proti H 0. Testovou statistiku porovnáváme s kritickou hodnotou χ 2 k 1 (α). Příklad 14. V našem příkladě dostáváme χ 2 = (28 35) (36 35) (27 20) (9 10)2 35 = 3, 98, p-hodnota=0.24, nezamítáme H 0, výběr můžeme považovat za reprezentativní. Nezávislost dvou kategorických znaků Umíme také testovat hypotézu o nezávislosti dvou znaků. Příklad 15. V [2] je uveden následující příklad. Očkování proti chřipce se účastnilo 460 dospělých. Z nich 240 dostalo očkovací látku, 220 placebo. Chřipkou onemocnělo 20 z očkovací skupiny a 80 z kontrolní skupiny. Je to dostatečný důkaz o tom, že je očkovací látka účinná? Sestavíme tzv. kontingenční tabulku. Chřipka Očkování Placebo Celkem Ano Ne Celkem V tomto příkladě chceme otestovat nulovou hypotézu, že onemocnění chřipkou je nezávislé na tom, zda byla osoba očkovaná. Zamítnutím H 0 ukážeme, že onemocnění je očkováním ovlivněno. Obecně testujeme hypotézy o dvou kategorických znacích (mohou mít i více kategorií než dvě.) H 0 : Dva znaky jsou na sobě nezávislé. H 1 : Dva znaky nejsou nezávislé. Testová statistika porovnává napozorované četnosti v kontingenční tabulce (r s) s očekávanými: Očekávaná četnost = součet v řádku součet ve sloupci celkový počet pozorování

22 Principy medicíny založené na důkazech a základy vědecké přípravy 22 χ 2 = (pozorovaná četnost očekávaná četnost) 2. očekávaná četnost Velké hodnoty χ 2 mluví proti H 0. Testovou statistiku porovnáváme s kritickou hodnotou χ 2 (r 1)(s 1) (α). Příklad V uvedeném příkladě 15 to bude χ 2 = (20 52, 17)2 + 52, 17 (80 47, 83)2 + 47, 83 ( , 83)2 ( , 17) , , 17 = 53, 0 p-hodnota= 7, < 0, 001, nezamítáme H 0. Upozornění: Tento test dává spolehlivé výsledky jen pokud jsou napozorované četnosti dostatečně velké, obvykle se udává, že by měly být větší nebo rovno 5. Korelace Umíme již posuzovat závislost spojitého znaku na kategorickém (porovnávání střední hodnoty dvou nebo více skupin), závislost dvou kategorických znaků, neumíme však hodnotit závislost dvou spojitých znaků. Teoretickou mírou zachycující lineární závislost dvou náhodných veličin je kovariance cov(x, Y ) = E(X µ X )(Y µ Y ). Vidíme, že se jedná o jakési zobecnění rozptylu. Měla by vystihovat, jak moc spolu se tyto dvě náhodně veličiny mění. Protože kovariance závisí na zvoleném měřítku, definujeme Pearsonův korelační koeficient ( X µx ρ X,Y = cov σ X, Y µ Y σ Y ) = cov(x, Y ) var Xvar Y. Je to kovariance normovaná rozptylem těchto dvou náhodných veličin. Tím dostaneme bezrozměrné číslo 1 ρ X,Y 1. Na obrázku 10 je vidět, že kladná korelace znamená přímou, zatímco záporná nepřímou závislost. Čím je koeficient v absolutní hodnotě větší, tím je závislost užší. Výběrový korelační koeficient, tedy odhad Pearsonova korelačního koeficientu je (Xi r XY = X)(Y i Ȳ ) (Xi X) 2 (Y i Ȳ. )2

23 Principy medicíny založené na důkazech a základy vědecké přípravy 23 Obrázek 10: Korelační koeficienty. Co korelace je a co není Často se stává, že slovo korelovat se používá jako kdyby mělo pouze dvě kategorie: bud něco koreluje, nebo ne. V oblasti statistiky je však korelace mírou závislosti, tedy je to číslo z intervalu [ 1, 1]. Korelační koeficient vyjařuje míru lineární závislosti dvou veličin. Je-li nulový, neznamená to, že spolu veličiny nesouvisí. Může totiž být mezi nimi jiný než lineární vztah. Korelační koeficient nám lineární závislost nepopíše (nedá rovnici pro přímku) a navíc neumí zachytit složitější formy závislosti. V literatuře se často ke korelačnímu koeficientu uvádí p-hodnota. Ta se týká hypotézy o nulovosti korelačního koeficientu: H 0 : ρ XY = 0 H 1 : ρ XY 0 Používá se test, který je platný pro normálně rozdělené náhodné veličiny. Poznamenejme, že výsledek tohoto testu říká pouze, zda je korelační koeficient roven nule či nikoliv. Pro větší výběry se tak i jeho malá hodnota bude signifikantně lišit od nuly, což však prakticky nemusí nic znamenat. Neparametrickou analogií Pearsonova korelačního koeficientu je Spearmanův korelační koeficient (založen na pořadí). Regrese Lépe nám v měření závislosti dvou i více kvantitativních znaků poslouží lineární regrese. Protože se jedná o rozsáhlé a pokročilejší téma, nebudeme se jí zabývat

24 Principy medicíny založené na důkazech a základy vědecké přípravy 24 Obrázek 11: Regresní přímka podrobně, pokusíme se pouze zachytit její význam. Nejprve zkoumejme vztah mezi dvěma spojitými veličinami, kdy jedna z nich je tzv. nezávisle proměnná x, která řídí (s nějakými odchylkami) závisle proměnnou Y. Umíme odhadnout, zda je lineární vztah mezi těmito dvěma veličinami, a pokud ano, najdeme rovnici pro přímku, tj. model této závislosti (viz obrázek 11). Je podstatné, že tímto způsobem umíme popsat i složitější závislosti mezi více proměnnými. Příklad 16. U mladých mužů jsme vyšetřovali závislost procenta tuku na výšce [1]. Avšak procento tuku závisí zajisté i na hmotnosti. Bodové grafy vykreslující procento tuku proti hmotnosti a výšce a příslušné korelační koeficienty jsou na obrázku 12. Povšimněme si především, že korelační koeficint mezi procentem tuku a výškou je kladný. Znamenalo by to, že čím je muž vyšší, tím má i větší procento tuku. To je však způsobeno tím, že korelační koeficient v tomto případě zcela ignoruje hmotnost, která však s výškou zřejmě souvisí. Potom se informace o hmotnosti objeví i v informaci o výšce a dostaneme překvapivý závěr. Je vidět, že takový přístup postrádá smysl (ve většině případů). Při vyšetřování závislosti procenta tuku na výšce tedy potřebujeme adjustovat na hmotnost, tj. popsat, jak při dané hmotnosti závisí procento tuku na výšce. V tomto kontextu je hmotnost tzv. matoucí (confounding) proměnná. Hledáme rovnici EY = β 0 + β 1 x β p x p,

25 Principy medicíny založené na důkazech a základy vědecké přípravy 25 Obrázek 12: Procento tuku v závislosti na hmotnosti a výšce. což je v našem příkladě E tuk = β 0 + β 1 výška + β 2 hmotnost. Pokoušíme se vysvětlit naměřené hodnoty tuku hodnotami výšky a hmotnosti. Toto vysvětlení nikdy nebude úplné, ale někdy mohou nezávislé (vysvětlující) proměnné pomoci vysvětlit variabilitu závislé proměnné z podstatné části. V uvedeném příkladě dostaneme následující rovnici E tuk = 11, 327 0, 262 výška + 0, 624 hmotnost, která (nyní již ve shodě s intuicí) říká, že při dané hmotnosti s rostoucí výškou klesá procento tuku (přesněji řečeno jeho střední hodnota), konkrétně při pevně stanovené hmotnosti s každým centimetrem je procento tuku v průměru o 0,262 menší. 4 Závěrem Při plánování studie se často aspekt statistické analýzy podceňuje. Autoři se domnívají, že je možné nejprve sesbírat data, a potom teprve hledat, jaké metody analýzy použít, v nouzi potom přijít za statistikem, aby s tím něco udělal. Může se však docela snadno stát, že ani při nejlepší vůli už s tím nic udělat nejde. Proto se doporučuje konzultace se statistikem už v prvních fázích přípravy. Pomůže např. formulovat na základě medicínské hypotézy hypotézu statistickou,

26 Principy medicíny založené na důkazech a základy vědecké přípravy 26 navrhnout efektivní design studie, určit optimální velikost výběru, upozornit na možná úskalí, která si nestatistik nemusí uvědomit, a hlavně naplánovat vlastní statistickou analýzu. Ta má být stanovená apriory, neměla by být přizpůsobena výsedkům, které dostáváme. V neposlední řadě stojí za zvážení i otázka sběru dat. Pokud se jedná o malou studii (řádově desítky pozorování), je možné k záznamu použít obyčejnou tabulku např. v Excelu. Pokud by mělo jít o rozsáhlejší databázi, bude vhodné uvažovat o jiném softwarovém vybavení, někdy speciálně šitém na míru. Vhodné nástroje pro sběr dat nejen ulehčí práci, ale pomohou se vyvarovat i mnoha technickým chybám, přepisům apod. Podstatnou otázkou také je, jaké hodnoty sledovat, co všechno měřit. Vhodnější je se zaměřit na několik konkrétních znaků, které opravdu potřebujeme znát, než provádět desítky měření pro jistotu. V druhém případě je totiž odvedena pozornost od podstatného a vzniká nepřiměřená zátěž pro personál, což může vést k tomu, že mnoho měření chybí. To do statistické analýzy přináší velké problémy, někdy jsou taková děravá data téměř nepoužitelná. Je nutné dobře promyslet, v jaké formě hodnoty zaznamenávat (při slovních vyjádření kategorických znaků se např. vyplatí zavést kódování apod.), s jakou přesností a mnoho dalšího. Literatura [1] Zvára, K.: Biostatistika. Karolinum, Praha, 2003 [2] Zvárová, J.: Základy statistiky pro biomedicínské obory. Karolinum, Praha, 2002

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33 1 / 33 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které

Více

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 76

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 76 1 / 76 Méně než minimum ze statistiky Michaela Šedová KPMS MFF UK Principy medicíny založené na důkazech a základy vědecké přípravy Příklad Studie syndromu náhodného úmrtí dětí. Dvě skupiny: Děti, které

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457. 0 cvičení z PST 5 prosince 208 0 (intervalový odhad pro rozptyl) Soubor (70, 84, 89, 70, 74, 70) je náhodným výběrem z normálního rozdělení N(µ, σ 2 ) Určete oboustranný symetrický 95% interval spolehlivosti

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27 Obsah 1 Testování statistických hypotéz 2

Více

Cvičení ze statistiky - 8. Filip Děchtěrenko

Cvičení ze statistiky - 8. Filip Děchtěrenko Cvičení ze statistiky - 8 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Centrální limitní věta Laplaceho věta (+ korekce na spojitost) Konfidenční intervaly

Více

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz POPISNÉ STATISTIKY - OPAKOVÁNÍ jedna kvalitativní

Více

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

MÍRY ZÁVISLOSTI (KORELACE A REGRESE) zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky

Více

Jednostranné intervaly spolehlivosti

Jednostranné intervaly spolehlivosti Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

STATISTICKÉ ODHADY Odhady populačních charakteristik

STATISTICKÉ ODHADY Odhady populačních charakteristik STATISTICKÉ ODHADY Odhady populačních charakteristik Jak stanovit charakteristiky rozložení sledované veličiny v základní populaci? Populaci většinou nemáme celou k dispozici, musíme se spokojit jen s

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 8. KAPITOLA STATISTICKÉ TESTOVÁNÍ HYPOTÉZ 22.11.2016 Opakování: CLV příklad 1 Zadání: Před volbami je v populaci státu 52 % příznivců

Více

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr StatSoft Intervalový odhad Dnes se budeme zabývat neodmyslitelnou součástí statistiky a to intervaly v nejrůznějších podobách. Toto téma je také úzce spojeno s tématem testování hypotéz, a tedy plynule

Více

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

MATEMATICKÁ STATISTIKA.   Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci MATEMATICKÁ STATISTIKA Dana Černá http://www.fp.tul.cz/kmd/ Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci Matematická statistika Matematická statistika se zabývá matematickým

Více

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2 Teoretické rozložení-matematické

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 7 Jak hodnotit vztah spojitých proměnných

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum I. ÚVOD vv této přednášce budeme hovořit o jednovýběrových a dvouvýběrových testech týkajících se střední hodnoty

Více

Korelace. Komentované řešení pomocí MS Excel

Korelace. Komentované řešení pomocí MS Excel Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne

Více

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT Patrícia Martinková Ústav informatiky AV ČR martinkova@cs.cas.cz www.cs.cas.cz/martinkova 1.LF UK, 22. a 30. března 2017 Motivace 1 Velké množství (medicínských

Více

Příklady na testy hypotéz o parametrech normálního rozdělení

Příklady na testy hypotéz o parametrech normálního rozdělení Příklady na testy hypotéz o parametrech normálního rozdělení. O životnosti 75W žárovky (v hodinách) je známo, že má normální rozdělení s = 5h. Pro náhodný výběr 0 žárovek byla stanovena průměrná životnost

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test Testování hypotéz proces, kterým rozhodujeme, zda přijmeme nebo zamítneme nulovou hypotézu

Více

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení 2 Zpracování naměřených dat Důležitou součástí každé experimentální práce je statistické zpracování naměřených dat. V této krátké kapitole se budeme věnovat určení intervalů spolehlivosti získaných výsledků

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Cvičení ze statistiky - 9. Filip Děchtěrenko

Cvičení ze statistiky - 9. Filip Děchtěrenko Cvičení ze statistiky - 9 Filip Děchtěrenko Minule bylo.. Dobrali jsme normální rozdělení Tyhle termíny by měly být známé: Inferenční statistika Konfidenční intervaly Z-test Postup při testování hypotéz

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

Pravděpodobnost a matematická statistika

Pravděpodobnost a matematická statistika Pravděpodobnost a matematická statistika Příklady k přijímacím zkouškám na doktorské studium 1 Popisná statistika Určete aritmetický průměr dat, zadaných tabulkou hodnot x i a četností n i x i 1 2 3 n

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 14.10 až 15.40 hod. http://www1.osu.cz/~tvrdik

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Lineární regrese. Komentované řešení pomocí MS Excel

Lineární regrese. Komentované řešení pomocí MS Excel Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních

Více

Testy statistických hypotéz

Testy statistických hypotéz Testy statistických hypotéz Statistická hypotéza je jakýkoliv předpoklad o rozdělení pravděpodobnosti jedné nebo několika náhodných veličin. Na základě náhodného výběru, který je reprezentativním vzorkem

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. 1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový

Více

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě

Více

Korelační a regresní analýza

Korelační a regresní analýza Korelační a regresní analýza Analýza závislosti v normálním rozdělení Pearsonův (výběrový) korelační koeficient: r = s XY s X s Y, kde s XY = 1 n (x n 1 i=0 i x )(y i y ), s X (s Y ) je výběrová směrodatná

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Náhodné veličiny, náhodné chyby

Náhodné veličiny, náhodné chyby Náhodné veličiny, náhodné chyby Máme náhodnou veličinu X, jejíž vlastnosti zkoumáme. Pokud známe její rozložení (např. z nějaké dřívější studie) nebo alespoň předpokládáme znalost rozložení, můžeme ji

Více

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin EuroMISE Centrum Kontakt: Literatura: Obecné informace Zvárová, J.: Základy statistiky pro biomedicínskéobory I. Vydavatelství

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. 1 Záznam epidemiologických dat Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly

Více

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA 2018 4. dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1 Typy proměnných nominální (nominal) o dvou hodnotách lze říci pouze

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní ..08 8cv7.tex 7. cvičení - transformace náhodné veličiny Definice pojmů a základní vzorce Je-li X náhodná veličina a h : R R je měřitelná funkce, pak náhodnou veličinu Y, která je definovaná vztahem X

Více

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11 Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 5. Odhady parametrů základního souboru Mgr. David Fiedor 16. března 2015 Vztahy mezi výběrovým a základním souborem Osnova 1 Úvod, pojmy Vztahy mezi výběrovým a základním

Více

Základy popisné statistiky

Základy popisné statistiky Základy popisné statistiky Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 8. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 26 Obsah 1 Základy statistického zpracování dat 2

Více

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry Testování hypotéz Obecný postup 1. Určení statistické hypotézy 2. Určení hladiny chyby 3. Výpočet

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení f x = 1 2 exp x 2 2 2 f(x) je funkce hustoty pravděpodobnosti, symetrická vůči poloze maxima x = μ μ střední hodnota σ směrodatná odchylka (tzv. pološířka křivky mezi inflexními

Více

5 Parametrické testy hypotéz

5 Parametrické testy hypotéz 5 Parametrické testy hypotéz 5.1 Pojem parametrického testu (Skripta str. 95-96) Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f(x, θ). První tvrzení (které většinou

Více

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E Testování statistických hypotéz z a analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Epidemiologické ukazatele Rizikový faktor Populace Přítomen Nepřítomen Celkem Nemocní a b a+b Kontroly

Více

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika Pravděpodobnost a aplikovaná statistika MGR. JANA SEKNIČKOVÁ, PH.D. 2. KAPITOLA PODMÍNĚNÁ PRAVDĚPODOBNOST 3. KAPITOLA NÁHODNÁ VELIČINA 9.11.2017 Opakování Uveďte příklad aplikace geometrické definice pravděpodobnosti

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.) Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 4. až 5.4 hod. http://www.osu.cz/~tvrdik

Více

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Stručný úvod do vybraných zredukovaných základů statistické analýzy dat Statistika nuda je, má však cenné údaje. Neklesejme na mysli, ona nám to vyčíslí. Z pohádky Princové jsou na draka Populace (základní

Více

Vybrané partie z biostatistiky

Vybrané partie z biostatistiky 1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův

Více

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika vektory Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 202 Založeno na materiálech doc. Michala Kulicha Náhodný vektor často potřebujeme

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Praktická statistika. Petr Ponížil Eva Kutálková

Praktická statistika. Petr Ponížil Eva Kutálková Praktická statistika Petr Ponížil Eva Kutálková Zápis výsledků měření Předpokládejme, že známe hodnotu napětí U = 238,9 V i její chybu 3,3 V. Hodnotu veličiny zapíšeme na tolik míst, aby až poslední bylo

Více