Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

HTML
DOWNLOAD

Rozměr: px

Začít zobrazení ze stránky:

Download "Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II"

Rostislav Vítek
před 8 lety
Počet zobrazení:

1 Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II

2 Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2

3 Teoretické rozložení-matematické modely rozložení Kvantitativní spojité veličiny Výběrové rozložení - určeno třídními intervaly, četnostmi velikost výběru, výběrový průměr, rozptyl výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno frekvenční křivkou (hustota pravděpodobnosti), průměrem a rozptylem základního souboru Parametry konstanty

4 Teoretické rozložení-matematické modely rozložení Kvalitativní nominální,diskrétní veličiny Výběrové rozložení - určeno výčtem četností (absolutní, relativní) možných hodnot výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno výčtem pravděpodobností jednotlivých hodnot pravděpodobnostní funkce Parametry konstanty

5 Normální (Gaussovo) rozložení Zásadní pro spojité kvantitativní veličiny 1 2 e ( x )

6 Normální (Gaussovo) rozložení 1 2 e ( x ) 2 = < = <

7 Normální (Gaussovo) rozložení praktický význam směrodatné odchylky 1 2 e ( x ) 2

8 Teoretické rozložení pro nespojité, diskrétní znaky Nejjednodušší případ alternativní znak (ANO,NE) Rozložení četnosti výskytu jevu Binomické rozdělení Příklad: 30 myší, π -pravděpodobnost úmrtí Jaká je pravděpodobnost, že z 30-ti myší zahyne x P 30 x x 30x ( x) (1 ) Obecně pro n : n P( x) x x nx (1 ) n k Kombinační číslo udává počet kombinací k prvků z n možných n k n! k!( n k)! n! n( n 1) ( n 2) ( n 3)... 1

9 Binomické rozložení π=0,5 π=0,1 π=0,9

10 Poissonovo rozložení Nespojitá náhodná veličina nabývající pouze celočíselné hodnoty 0,4 0,35 0,3 0,25 x e x! 0,2 0,15 0,1 0, λ=1 λ=2 λ=5 λ=10

11 Statistické odhady Cíl : odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik Bodové odhady Odhadujeme neznámý parametr jedním číslem (bodem) Př.: odhad průměru základního souboru pomocí výběrového průměru Intervalové odhady kolem bodového odhadu utvoříme interval, který s předem zvolenou vysokou pravděpodobností pokryje odhadovaný parametr Interval spolehlivosti, konfidenční interval 95-procentní, 99-procentní

12 Intervalový odhad průměru základního souboru Základní soubor x x 1 2 xn x 3 výběry x 4 x 5 x, x 2, x x 1 3, 4... bodové odhady - jaké je jejich rozložení?

13 (Intervalový odhad průměru základního souboru Kvantitativní veličina má normální rozložení (, ) výběrové průměry x x x 1, 2, 3,... xk Mají normální rozdělení : )σμσnnn > 30 střední chyba aritmetického průměru

14 Intervalový odhad průměru základního souboru Výběrový průměr se neodchýlí od průměru základního souboru o více než 1,96 / n s pravděpodobností 0,95 95%-ní interval spolehlivosti pro průměr základního sx1,96 n-souboru199%-ní interval spolehlivosti pro průměr základního sx2,58 n-souboru1s výběrová standardní odchylka

15 100 náhodných výběrů z jedné populace 95%-ní interval spolehlivosti s x 1.96 n 1 Celkový průměr

16 100 náhodných výběrů z jedné populace Interval s x n 1 Celkový průměr

17 Statistické testování hypotéz Jde o prověření nejrůznějších předpokladů a domněnek, které vyplývají ze stanovených cílů výzkumu, např: zda se 2 soubory liší v průměru nějakého znaku zda výskyt nějaké nemoci závisí na kouření zda lék A je účinnější než lék B Jednoduchý příklad Chceme ověřit hypotézu, zda pravděpodobnost úmrtí pokusné myši po vystavení určité nákaze je p=0.3 Připravíme pokus : 10 myší vystavíme nákaze a zjistíme počet uhynulých Podle počtu uhynulých myší x musíme rozhodnout, zda hypotéza o úhynu platí JAK??? Pokud skutečně platí, že pravděpodobnost úhynu je 0.3 jde o binomické rozložení s parametry n=10 a p=0,3

18 Binomické rozložení Pravděpodobnost úhynu x myší z 10ti, při pravděpodobnosti smrti p=0,3 π=0,3 počet uhynulých 10 0,3 x x 10 x 0 1 pravděpodobnost (1 0,3) 0, , , , , ,10292 P=0,96 P=0, , ,009 0, , , π=0,3

19 Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 pokud počet uhynulých x = 0, 7, 8, 9, 10 : Pravděpodobnost uhynutí není p= > nastal jev za platnosti hypotézy H 0 málo pravděpodobný ( p=0.04) hypotézu zamítáme pokud počet uhynulých x = 1, 2, 3, 4, 5 : Pravděpodobnost uhynutí může být p=0,3 ----> hypotézu nezamítáme, pravděpodobnost tohoto výsledku je vysoká (p=0.96)!!! Neznamená to přijetí hypotézy!!! Statistické testy mohou testované hypotézy pouze vyvracet, ne dokazovat

20 Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 Rizika rozhodování Hypotézu zamítáme, ale platí --> chyba 1.druhu pravděpodobnost chyby 1. druhu = hladina významnosti = 0.05 = 0.01 Hypotézu nezamítáme, ale neplatí --> chyba 2.druhu pravděpodobnost chyby 2. druhu rozhoduje o síle testu

21 Významnost statistického testu Hypotézu nezamítáme - test není statisticky významný pozorované odchylky od hypotézy je možno vysvětlit pouhou náhodou důvodem může být i to, že rozdíl je tak malý, že na jeho prokázání nestačí použitý rozsah souboru. Hypotézu zamítáme - test je statisticky významný pozorované odchylky od hypotézy není možno vysvětlit pouhou náhodou odchylka od hypotézy je tak velká, že při opakování šetření bychom s velkou pravděpodobností hypotézu opět zamítli

22 Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n 1, x1, s1 2, x 2, s 2 Předpoklady: n 1, n 2 > 30, rozložení dat zhruba normální,stejné rozptyly, nezávislé výběry Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 Za platnosti H 0 : ( x 1 x 2) rozdíly kolísají kolem nuly podle normálního rozložení se směrodatnou odchylkou - střední chyba rozdílu dvou průměrů : s x s s 2 2 1x 2 x 1 x 2 z vlastností normálního rozložení plyne, že s pravděpodobností 0.95 leží v intervalu 1.96sx1 x 2

23 Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n2, x 2, s 1, x1, s1 2 Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 U test ( t test) : u x 1 x 2 s x 1 x 2 u > 1.96 rozdíl je statisticky významný na hladině = 0.05 u > 2.58 rozdíl je statisticky významný na hladině = 0.01

24 Testování hypotéz test závislosti 2 kvalitativních znaků Kontingenční tabulky četnost pozorovaná četnost očekávaná H 0 typ nádoru nezávisí na jeho lokalizaci A typ nádoru závisí na jeho lokalizaci

25 Kontingenční tabulky Pokud platí H 0 : P( A 1 B 1 ) = P(A 1 ). P(B 1 )..atd. = (44 / 152). (85 / 152) Očekávaná četnost = (44/152). (85/152). 152 = 24,6 2-test nezávislosti = pozorované - očekávané očekávané 2

26 Kontingenční tabulky 2= n ij - e e ij ij 2 = 9,25 Platnost testované hypotézy prověříme srovnáním s kritickou hodnotou - závisí na velikosti tabulky

27 n 2= ij - eij e Kontingenční tabulky ij 2 = 9,25 Protože vypočítaná hodnota 2 je menší než 5%-ní kritická hodnota (9,49) testovanou hypotézu nezamítáme

28 Vztah dvou kvalitativních veličin Kontingenční tabulka multiplikativní míry a Nemoc Riziko exponovaných Rexp a b Exp. + - c + a b a+b Riziko neexponovaných Rnexp c d - c d c+d Relativní riziko a a+c b+d N a b a( c d) RR c c( a b) c d Šance na onemocnění Poměr šancí (křížový poměr) Exp. Neexp. a a b ad a c O a b O OR exp neexp. b b d c bc a b d Multiplikativní míry Nezávisí-li nemocnost na expozici je RR= 1=OR

29 Vztah dvou kvalitativních veličin Šance na onemocnění Poměr šancí (křížový poměr) a ad OR b c bc d Interpretace: Odds ratio = 1 nezávisí onemocnění na expozici Odds ratio > 1 pozitivní asociace větší šance onemocnět u exponovaných Odds ratio < 1 negativní asociace větší šance onemocnět u skupiny neexponovaných

30 Vztah spojitých veličin Dvě spojité veličiny Histogram je 3-rozměrný graf

31 Historie analýzy vztahu spojitých veličin 1886 Francis Galton - model lineární regrese Vztah výšky otce a syna y x - nezávisle proměnná y - závisle proměnná i jednotlivá pozorování reziduum odchylka od modelu y i α βx i ε i Výška syna Výška otce x

32 Jak je model regrese konstruován? Hledáme α a β tak, aby reziduální rozptyl s e 1 N 2 N í 1 byl minimální 2 y α βx i i e i i té residuum y i ( α βxi ) = skutečnost - odhad

33 Nekauzální vztah - korelace Pearsonův koeficient lineární korelace r r N i1 N i1 x x y y N 2 x x x x -1 r 1 i i i1 i i 2 Výška syna Výška otce

34 Tvary závislostí Pearsonův koeficient lineární korelace r r =1,000 r =-1,000 r =0,000 r =0,934 r =0,967 r =0,857 r =-0,143 r =0,608

Podobné dokumenty

INDUKTIVNÍ STATISTIKA

10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ