Základy biostatistiky II Veřejné zdravotnictví 3.LF UK - II
Teoretické rozložení-matematické modely rozložení Naměřená data Výběrové rozložení Teoretické rozložení 1 e 2 x 2
Teoretické rozložení-matematické modely rozložení Kvantitativní spojité veličiny Výběrové rozložení - určeno třídními intervaly, četnostmi velikost výběru, výběrový průměr, rozptyl výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno frekvenční křivkou (hustota pravděpodobnosti), průměrem a rozptylem základního souboru Parametry konstanty
Teoretické rozložení-matematické modely rozložení Kvalitativní nominální,diskrétní veličiny Výběrové rozložení - určeno výčtem četností (absolutní, relativní) možných hodnot výběrové charakteristiky liší se pro jednotlivé výběry Teoretické rozložení určeno výčtem pravděpodobností jednotlivých hodnot pravděpodobnostní funkce Parametry konstanty
Normální (Gaussovo) rozložení Zásadní pro spojité kvantitativní veličiny 1 2 e ( x ) 2 32 34 36 38 40 42 44 46 48
Normální (Gaussovo) rozložení 1 2 e ( x ) 2 = < = <
Normální (Gaussovo) rozložení praktický význam směrodatné odchylky 1 2 e ( x ) 2
Teoretické rozložení pro nespojité, diskrétní znaky Nejjednodušší případ alternativní znak (ANO,NE) Rozložení četnosti výskytu jevu Binomické rozdělení Příklad: 30 myší, π -pravděpodobnost úmrtí Jaká je pravděpodobnost, že z 30-ti myší zahyne x P 30 x x 30x ( x) (1 ) Obecně pro n : n P( x) x x nx (1 ) n k Kombinační číslo udává počet kombinací k prvků z n možných n k n! k!( n k)! n! n( n 1) ( n 2) ( n 3)... 1
Binomické rozložení 0 10 20 30 π=0,5 π=0,1 π=0,9
Poissonovo rozložení Nespojitá náhodná veličina nabývající pouze celočíselné hodnoty 0,4 0,35 0,3 0,25 x e x! 0,2 0,15 0,1 0,05 0 1 3 5 7 9 11 13 15 17 19 21 23 λ=1 λ=2 λ=5 λ=10
Statistické odhady Cíl : odhadnout neznámé parametry základního souboru pomocí výběrových charakteristik Bodové odhady Odhadujeme neznámý parametr jedním číslem (bodem) Př.: odhad průměru základního souboru pomocí výběrového průměru Intervalové odhady kolem bodového odhadu utvoříme interval, který s předem zvolenou vysokou pravděpodobností pokryje odhadovaný parametr Interval spolehlivosti, konfidenční interval 95-procentní, 99-procentní
Intervalový odhad průměru základního souboru Základní soubor x x 1 2 xn x 3 výběry x 4 x 5 x, x 2, x x 1 3, 4... bodové odhady - jaké je jejich rozložení?
(Intervalový odhad průměru základního souboru Kvantitativní veličina má normální rozložení (, ) výběrové průměry x x x 1, 2, 3,... xk Mají normální rozdělení : )σμσnnn > 30 střední chyba aritmetického průměru
Intervalový odhad průměru základního souboru Výběrový průměr se neodchýlí od průměru základního souboru o více než 1,96 / n s pravděpodobností 0,95 95%-ní interval spolehlivosti pro průměr základního sx1,96 n-souboru199%-ní interval spolehlivosti pro průměr základního sx2,58 n-souboru1s výběrová standardní odchylka
100 náhodných výběrů z jedné populace 95%-ní interval spolehlivosti s x 1.96 n 1 Celkový průměr
100 náhodných výběrů z jedné populace Interval s x n 1 Celkový průměr
Statistické testování hypotéz Jde o prověření nejrůznějších předpokladů a domněnek, které vyplývají ze stanovených cílů výzkumu, např: zda se 2 soubory liší v průměru nějakého znaku zda výskyt nějaké nemoci závisí na kouření zda lék A je účinnější než lék B Jednoduchý příklad Chceme ověřit hypotézu, zda pravděpodobnost úmrtí pokusné myši po vystavení určité nákaze je p=0.3 Připravíme pokus : 10 myší vystavíme nákaze a zjistíme počet uhynulých Podle počtu uhynulých myší x musíme rozhodnout, zda hypotéza o úhynu platí JAK??? Pokud skutečně platí, že pravděpodobnost úhynu je 0.3 jde o binomické rozložení s parametry n=10 a p=0,3
Binomické rozložení Pravděpodobnost úhynu x myší z 10ti, při pravděpodobnosti smrti p=0,3 π=0,3 počet uhynulých 10 0,3 x x 10 x 0 1 pravděpodobnost (1 0,3) 0,02825 0,12106 2 3 4 5 0,23347 0,26683 0,20012 0,10292 P=0,96 P=0,04 6 7 8 9 10 0,03676 0,009 0,00144 0,00014 0,00001 0 10 π=0,3
Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 pokud počet uhynulých x = 0, 7, 8, 9, 10 : Pravděpodobnost uhynutí není p=0.3 ----> nastal jev za platnosti hypotézy H 0 málo pravděpodobný ( p=0.04) hypotézu zamítáme pokud počet uhynulých x = 1, 2, 3, 4, 5 : Pravděpodobnost uhynutí může být p=0,3 ----> hypotézu nezamítáme, pravděpodobnost tohoto výsledku je vysoká (p=0.96)!!! Neznamená to přijetí hypotézy!!! Statistické testy mohou testované hypotézy pouze vyvracet, ne dokazovat
Statistické testování hypotéz - základní pojmy Testovaná hypotéza (nulová) H 0.. p = 0,3 Alternativní hypotéza A.. p 0,3 Rizika rozhodování Hypotézu zamítáme, ale platí --> chyba 1.druhu pravděpodobnost chyby 1. druhu = hladina významnosti = 0.05 = 0.01 Hypotézu nezamítáme, ale neplatí --> chyba 2.druhu pravděpodobnost chyby 2. druhu rozhoduje o síle testu
Významnost statistického testu Hypotézu nezamítáme - test není statisticky významný pozorované odchylky od hypotézy je možno vysvětlit pouhou náhodou důvodem může být i to, že rozdíl je tak malý, že na jeho prokázání nestačí použitý rozsah souboru. Hypotézu zamítáme - test je statisticky významný pozorované odchylky od hypotézy není možno vysvětlit pouhou náhodou odchylka od hypotézy je tak velká, že při opakování šetření bychom s velkou pravděpodobností hypotézu opět zamítli
Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n 1, x1, s1 2, x 2, s 2 Předpoklady: n 1, n 2 > 30, rozložení dat zhruba normální,stejné rozptyly, nezávislé výběry Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 Za platnosti H 0 : ( x 1 x 2) rozdíly kolísají kolem nuly podle normálního rozložení se směrodatnou odchylkou - střední chyba rozdílu dvou průměrů : s x s s 2 2 1x 2 x 1 x 2 z vlastností normálního rozložení plyne, že s pravděpodobností 0.95 leží v intervalu 1.96sx1 x 2
Testování hypotéz srovnání průměrů Testuji, zda se 2 soubory liší v průměru nějakého znaku: 1.soubor 2.soubor. n n2, x 2, s 1, x1, s1 2 Hypotéza H 0 : 1 = 2 = Hypotéza A : 1 2 U test ( t test) : u x 1 x 2 s x 1 x 2 u > 1.96 rozdíl je statisticky významný na hladině = 0.05 u > 2.58 rozdíl je statisticky významný na hladině = 0.01
Testování hypotéz test závislosti 2 kvalitativních znaků Kontingenční tabulky četnost pozorovaná četnost očekávaná H 0 typ nádoru nezávisí na jeho lokalizaci A typ nádoru závisí na jeho lokalizaci
Kontingenční tabulky Pokud platí H 0 : P( A 1 B 1 ) = P(A 1 ). P(B 1 )..atd. = (44 / 152). (85 / 152) Očekávaná četnost = (44/152). (85/152). 152 = 24,6 2-test nezávislosti = pozorované - očekávané očekávané 2
Kontingenční tabulky 2= n ij - e e ij ij 2 = 9,25 Platnost testované hypotézy prověříme srovnáním s kritickou hodnotou - závisí na velikosti tabulky
n 2= ij - eij e Kontingenční tabulky ij 2 = 9,25 Protože vypočítaná hodnota 2 je menší než 5%-ní kritická hodnota (9,49) testovanou hypotézu nezamítáme
Vztah dvou kvalitativních veličin Kontingenční tabulka multiplikativní míry a Nemoc Riziko exponovaných Rexp a b Exp. + - c + a b a+b Riziko neexponovaných Rnexp c d - c d c+d Relativní riziko a a+c b+d N a b a( c d) RR c c( a b) c d Šance na onemocnění Poměr šancí (křížový poměr) Exp. Neexp. a a b ad a c O a b O OR exp neexp. b b d c bc a b d Multiplikativní míry Nezávisí-li nemocnost na expozici je RR= 1=OR
Vztah dvou kvalitativních veličin Šance na onemocnění Poměr šancí (křížový poměr) a ad OR b c bc d Interpretace: Odds ratio = 1 nezávisí onemocnění na expozici Odds ratio > 1 pozitivní asociace větší šance onemocnět u exponovaných Odds ratio < 1 negativní asociace větší šance onemocnět u skupiny neexponovaných
Vztah spojitých veličin Dvě spojité veličiny Histogram je 3-rozměrný graf
Historie analýzy vztahu spojitých veličin 1886 Francis Galton - model lineární regrese Vztah výšky otce a syna y x - nezávisle proměnná y - závisle proměnná i jednotlivá pozorování reziduum odchylka od modelu y i α βx i ε i Výška syna 160 170 180 190 0 160 165 170 175 180 185 190 195 Výška otce x
Jak je model regrese konstruován? Hledáme α a β tak, aby reziduální rozptyl s e 1 N 2 N í 1 byl minimální 2 y α βx i i e i i té residuum y i ( α βxi ) = skutečnost - odhad
Nekauzální vztah - korelace Pearsonův koeficient lineární korelace r r N i1 N i1 x x y y N 2 x x x x -1 r 1 i i i1 i i 2 Výška syna 150 160 170 180 190 200 160 165 170 175 180 185 190 195 Výška otce
Tvary závislostí Pearsonův koeficient lineární korelace r r =1,000 r =-1,000 r =0,000 r =0,934 r =0,967 r =0,857 r =-0,143 r =0,608