Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Podobné dokumenty
INDUKTIVNÍ STATISTIKA

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Ranní úvahy o statistice

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Přednáška X. Testování hypotéz o kvantitativních proměnných

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jana Vránová, 3. lékařská fakulta UK

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Epidemiologické ukazatele. lních dat. analýza kategoriáln. Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat. a I E

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Pravděpodobnost a matematická statistika

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Normální (Gaussovo) rozdělení

Cvičení ze statistiky - 8. Filip Děchtěrenko

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

You created this PDF from an application that is not licensed to print to novapdf printer (

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Normální (Gaussovo) rozdělení

Aproximace binomického rozdělení normálním

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Základní statistické metody v rizikovém inženýrství

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4ST201 STATISTIKA CVIČENÍ Č. 7

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz o parametrech regresního modelu

Regresní a korelační analýza

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Testování statistických hypotéz

Aplikovaná statistika v R - cvičení 2

KGG/STG Statistika pro geografy

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Tomáš Karel LS 2012/2013

Regresní a korelační analýza

Základy biostatistiky

Tomáš Karel LS 2012/2013

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Náhodné veličiny, náhodné chyby

Korelace. Komentované řešení pomocí MS Excel

12. cvičení z PST. 20. prosince 2017

Statistické metody uţívané při ověřování platnosti hypotéz

Charakteristika datového souboru

Testování hypotéz. 4. přednáška

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Testování hypotéz o parametrech regresního modelu

Korelační a regresní analýza

Cvičení ze statistiky - 9. Filip Děchtěrenko

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

STATISTICKÉ ODHADY Odhady populačních charakteristik

4EK211 Základy ekonometrie

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a aplikovaná statistika

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Výběrové charakteristiky a jejich rozdělení

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Zápočtová práce STATISTIKA I

Testy. Pavel Provinský. 19. listopadu 2013

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Ing. Michael Rost, Ph.D.

Náhodné (statistické) chyby přímých měření

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Regresní a korelační analýza

TECHNICKÁ UNIVERZITA V LIBERCI

ANALÝZA ZÁVISLOSTI. Martina Litschmannová

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Počet pravděpodobnosti

Neparametrické metody

Statistická analýza jednorozměrných dat

Náhodné chyby přímých měření

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

KGG/STG Statistika pro geografy

Testování statistických hypotéz

Testování hypotéz o kvalitativních proměnných

Návrh a vyhodnocení experimentu

Regresní a korelační analýza

Transkript:

Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II

Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2

Teoretické rozložení-matematické modely rozložení Kvantitativní spojité veličiny Výběrové rozložení - určeno třídními intervaly, četnostmi velikost výběru, výběrový průměr, rozptyl výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno frekvenční křivkou (hustota pravděpodobnosti), průměrem a rozptylem základního souboru Parametry konstanty

Teoretické rozložení-matematické modely rozložení Kvalitativní nominální,diskrétní veličiny Výběrové rozložení - určeno výčtem četností (absolutní, relativní) možných hodnot výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno výčtem pravděpodobností jednotlivých hodnot pravděpodobnostní funkce Parametry konstanty

Normální (Gaussovo) rozložení Zásadní pro spojité kvantitativní veličiny 1 2 e ( x ) 2 32 34 36 38 40 42 44 46 48

Normální (Gaussovo) rozložení 1 2 e ( x ) 2 = < = <

Normální (Gaussovo) rozložení praktický význam směrodatné odchylky 1 2 e ( x ) 2

Teoretické rozložení pro nespojité, diskrétní znaky Nejjednodušší případ alternativní znak (ANO,NE) Rozložení četnosti výskytu jevu Binomické rozdělení Příklad: 30 myší, π -pravděpodobnost úmrtí Jaká je pravděpodobnost, že z 30-ti myší zahyne x P 30 x x 30x ( x) (1 ) Obecně pro n : n P( x) x x nx (1 ) n k Kombinační číslo udává počet kombinací k prvků z n možných n k n! k!( n k)! n! n( n 1) ( n 2) ( n 3)... 1

Binomické rozložení 0 10 20 30 π=0,5 π=0,1 π=0,9

Poissonovo rozložení Nespojitá náhodná veličina nabývající pouze celočíselné hodnoty 0,4 0,35 0,3 0,25 x e x! 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 λ=1 λ=2 λ=5 λ=10

Statistické odhady Cíl : odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik Bodové odhady Odhadujeme neznámý parametr jedním číslem (bodem) Př.: odhad průměru základního souboru pomocí výběrového průměru Intervalové odhady kolem bodového odhadu utvoříme interval, který s předem zvolenou vysokou pravděpodobností pokryje odhadovaný parametr Interval spolehlivosti, konfidenční interval 95-procentní, 99-procentní

Intervalový odhad průměru základního souboru Základní soubor x x 1 2 xn x 3 výběry x 4 x 5 x, x 2, x x 1 3, 4... bodové odhady - jaké je jejich rozložení?

(Intervalový odhad průměru základního souboru Kvantitativní veličina má normální rozložení (, ) výběrové průměry x x x 1, 2, 3,... xk Mají normální rozdělení : )σμσnnn > 30 střední chyba aritmetického průměru

Intervalový odhad průměru základního souboru Výběrový průměr se neodchýlí od průměru základního souboru o více než 1,96 / n s pravděpodobností 0,95 95%-ní interval spolehlivosti pro průměr základního sx1,96 n-souboru199%-ní interval spolehlivosti pro průměr základního sx2,58 n-souboru1s výběrová standardní odchylka

100 náhodných výběrů z jedné populace 95%-ní interval spolehlivosti s x 1.96 n 1 Celkový průměr

100 náhodných výběrů z jedné populace Interval s x n 1 Celkový průměr

Statistické testování hypotéz Jde o prověření nejrůznějších předpokladů a domněnek, které vyplývají ze stanovených cílů výzkumu, např: zda se 2 soubory liší v průměru nějakého znaku zda výskyt nějaké nemoci závisí na kouření zda lék A je účinnější než lék B Jednoduchý příklad Chceme ověřit hypotézu, zda pravděpodobnost úmrtí pokusné myši po vystavení určité nákaze je p=0.3 Připravíme pokus : 10 myší vystavíme nákaze a zjistíme počet uhynulých Podle počtu uhynulých myší x musíme rozhodnout, zda hypotéza o úhynu platí JAK??? Pokud skutečně platí, že pravděpodobnost úhynu je 0.3 jde o binomické rozložení s parametry n=10 a p=0,3

Binomické rozložení Pravděpodobnost úhynu x myší z 10ti, při pravděpodobnosti smrti p=0,3 π=0,3 počet uhynulých 10 0,3 x x 10 x 0 1 pravděpodobnost (1 0,3) 0,02825 0,12106 2 3 4 5 0,23347 0,26683 0,20012 0,10292 P=0,96 P=0,04 6 7 8 9 10 0,03676 0,009 0,00144 0,00014 0,00001 0 10 π=0,3

Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 pokud počet uhynulých x = 0, 7, 8, 9, 10 : Pravděpodobnost uhynutí není p=0.3 ----> nastal jev za platnosti hypotézy H 0 málo pravděpodobný ( p=0.04) hypotézu zamítáme pokud počet uhynulých x = 1, 2, 3, 4, 5 : Pravděpodobnost uhynutí může být p=0,3 ----> hypotézu nezamítáme, pravděpodobnost tohoto výsledku je vysoká (p=0.96)!!! Neznamená to přijetí hypotézy!!! Statistické testy mohou testované hypotézy pouze vyvracet, ne dokazovat

Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 Rizika rozhodování Hypotézu zamítáme, ale platí --> chyba 1.druhu pravděpodobnost chyby 1. druhu = hladina významnosti = 0.05 = 0.01 Hypotézu nezamítáme, ale neplatí --> chyba 2.druhu pravděpodobnost chyby 2. druhu rozhoduje o síle testu

Významnost statistického testu Hypotézu nezamítáme - test není statisticky významný pozorované odchylky od hypotézy je možno vysvětlit pouhou náhodou důvodem může být i to, že rozdíl je tak malý, že na jeho prokázání nestačí použitý rozsah souboru. Hypotézu zamítáme - test je statisticky významný pozorované odchylky od hypotézy není možno vysvětlit pouhou náhodou odchylka od hypotézy je tak velká, že při opakování šetření bychom s velkou pravděpodobností hypotézu opět zamítli

Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n 1, x1, s1 2, x 2, s 2 Předpoklady: n 1, n 2 > 30, rozložení dat zhruba normální,stejné rozptyly, nezávislé výběry Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 Za platnosti H 0 : ( x 1 x 2) rozdíly kolísají kolem nuly podle normálního rozložení se směrodatnou odchylkou - střední chyba rozdílu dvou průměrů : s x s s 2 2 1x 2 x 1 x 2 z vlastností normálního rozložení plyne, že s pravděpodobností 0.95 leží v intervalu 1.96sx1 x 2

Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n2, x 2, s 1, x1, s1 2 Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 U test ( t test) : u x 1 x 2 s x 1 x 2 u > 1.96 rozdíl je statisticky významný na hladině = 0.05 u > 2.58 rozdíl je statisticky významný na hladině = 0.01

Testování hypotéz test závislosti 2 kvalitativních znaků Kontingenční tabulky četnost pozorovaná četnost očekávaná H 0 typ nádoru nezávisí na jeho lokalizaci A typ nádoru závisí na jeho lokalizaci

Kontingenční tabulky Pokud platí H 0 : P( A 1 B 1 ) = P(A 1 ). P(B 1 )..atd. = (44 / 152). (85 / 152) Očekávaná četnost = (44/152). (85/152). 152 = 24,6 2-test nezávislosti = pozorované - očekávané očekávané 2

Kontingenční tabulky 2= n ij - e e ij ij 2 = 9,25 Platnost testované hypotézy prověříme srovnáním s kritickou hodnotou - závisí na velikosti tabulky

n 2= ij - eij e Kontingenční tabulky ij 2 = 9,25 Protože vypočítaná hodnota 2 je menší než 5%-ní kritická hodnota (9,49) testovanou hypotézu nezamítáme

Vztah dvou kvalitativních veličin Kontingenční tabulka multiplikativní míry a Nemoc Riziko exponovaných Rexp a b Exp. + - c + a b a+b Riziko neexponovaných Rnexp c d - c d c+d Relativní riziko a a+c b+d N a b a( c d) RR c c( a b) c d Šance na onemocnění Poměr šancí (křížový poměr) Exp. Neexp. a a b ad a c O a b O OR exp neexp. b b d c bc a b d Multiplikativní míry Nezávisí-li nemocnost na expozici je RR= 1=OR

Vztah dvou kvalitativních veličin Šance na onemocnění Poměr šancí (křížový poměr) a ad OR b c bc d Interpretace: Odds ratio = 1 nezávisí onemocnění na expozici Odds ratio > 1 pozitivní asociace větší šance onemocnět u exponovaných Odds ratio < 1 negativní asociace větší šance onemocnět u skupiny neexponovaných

Vztah spojitých veličin Dvě spojité veličiny Histogram je 3-rozměrný graf

Historie analýzy vztahu spojitých veličin 1886 Francis Galton - model lineární regrese Vztah výšky otce a syna y x - nezávisle proměnná y - závisle proměnná i jednotlivá pozorování reziduum odchylka od modelu y i α βx i ε i Výška syna 160 170 180 190 0 160 165 170 175 180 185 190 195 Výška otce x

Jak je model regrese konstruován? Hledáme α a β tak, aby reziduální rozptyl s e 1 N 2 N í 1 byl minimální 2 y α βx i i e i i té residuum y i ( α βxi ) = skutečnost - odhad

Nekauzální vztah - korelace Pearsonův koeficient lineární korelace r r N i1 N i1 x x y y N 2 x x x x -1 r 1 i i i1 i i 2 Výška syna 150 160 170 180 190 200 160 165 170 175 180 185 190 195 Výška otce

Tvary závislostí Pearsonův koeficient lineární korelace r r =1,000 r =-1,000 r =0,000 r =0,934 r =0,967 r =0,857 r =-0,143 r =0,608