Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 4. až 5.4 hod. http://www.osu.cz/~tvrdik
Přednáška 4 Testování hypotéz Testování statistických hypotéz Párové testy příklad ze života Reálná klinická data
Abychom z výběru mohli usuzovat o populaci: jasně vymezit (definovat) populaci, o níž chceme vědět dosud nepoznané pravdy zařídit, aby výběr tuto populaci opravdu reprezentoval (náhodný výběr jedinců z populace, všichni stejnou šanci) mít dostatečný rozsah výběru (počet řádků ve výběrovém souboru) ~ kvalita nových pravd
Náhodný výběr v matematické statistice n náhodných veličin jsou nezávislé všechny mají stejné rozdělení mat. statistika nám říká, jaké úsudky o celé populaci můžeme udělat z náhodného výběru výběrový soubor je realizací náhodného výběru, z toho spočítáme hodnoty výběrových charakteristik
Vstupní data x začátek, x po půl roce 4 36 8 6 6 4 5 36 9 5 3 3 7 4 3 35 33 7 8 3 3 3 7 5 38 4 6 4 4 5 4 3 9 5 4 6 3 3 4 7 5 3 5 4 9 4 5 5 8 34 4 6 8 4 8 39 38 7 5 3 3 6 6 8 63 37 8 6 9 5 3 3 3 5 4 3 4 5 46 55 3 4 3 35 5 3 36 3 83 7 33 38 3 4 Inko Inko Vref Vref Qmax Qmax F F ID
Cíle výzkumu posoudit, zda léčení pacientům pomáhá tzn., zda vysoké hodnoty se léčením snížily, případně nízké hodnoty zvýšily, záleží na měřené veličině chceme získat takové tvrzení o celé populaci, ne jen o 6 sledovaných pacientech
Rozdíly x-x -.38 5.3 -.3 -.6 průměr - 8-4 6-5 - 8 4 4 - - - 3 - -4-3 - 3-4 -5 - -3-9 9-3 5-6 - 8-7 - -4 6-55 9-3 5-6 4-3 -9 3-5 -4-3 -5 - Inko Vref Qmax F ID
Testování hypotéz testujeme (většinou) tvrzení o parametru populace tvrzení je nutno předem zformulovat najít odpovídající test, podle kterého se na základě informace z výběrového souboru, zda tvrzení přijímáme nebo zamítneme.
Formulace našeho problému: Výzkumná hypotéza: Léčení pomáhá (má vliv) Statistická hypotéza H Léčení nemá vliv analogie presumpce neviny Zamítnutí H znamená potvrzení výzkumné hypotézy
Testování hypotéz SKUTEČNOST (nám neznámá) NAŠE ROZHODNUTÍ: H : nezamítáme H : zamítáme Tvrzení H je pravdivé SPRÁVNÉ CHYBA I. druhu Tvrzení H je nepravdivé CHYBA II. druhu SPRÁVNÉ
Normální rozdělení s parametry µ, sigma ^
Studentovo t -rozdělení
Jednovýběrový t-test Máme náhodný výběr n nezávislých náhodných veličin normálně rozdělených, tj. Xi ~ N( µσ, ), i =,,, n Testujeme H, že střední hodnota µ je rovna nějaké dané hodnotě µ. proti alternativě H, že µ µ (oboustranná alternativa) Za platnosti nulové hypotézy má statistika T rozdělení podle následujícího vztahu T = X s/ µ n ~ t n
Jednovýběrový t-test část H: µ = µ H: µ µ Testová statistika T = X s/ Hladina významnosti α kritický obor µ n ~ t n
Kritický obor t -rozdělení f (x) p / p / x (, ( /) [ ( /), n α n α ) W t t +
Párový t-test Jednovýběrový t-test, ale pro rozdíly x x: T p = s D D / n
Výsledky párových t-testů: prum_dif s_dif t p F -.6 4.5 -.986.66 QMAX -.3 8. -.555.587 Vref 5.3 86.5.36.34 Inko -.38 3. -,83,87
Kritický obor t -rozdělení f (x) p / p / x (, ( /) [ ( /), n α n α ) W t t +
Rozdíly x-x ID 3 4 5 6 7 8 9 3 4 5 6 průměr Inko - - - - - -3 - - - - -.38
INKO - histogram
INKO histogram, ID=6 vypuštěno
Párový t-test n=6 d6 d sd t p - -,4 3, -,83,87 n=5, ID=6 vypuštěno d6 d sd t p miss -,7, -,47,7 Paradox větší rozdíl není významný, menší rozdíl je významný Nebyly splněny předpoklady normální rozdělení
Alternativy párového t-testu Jednovýběrový Wilcoxonův test založen na pořadí odchylek Znaménkový (binomický) test založen na počtu kladných nebo záporných změn
prum_dif smodch_dif z p Inko*) -.38 3..374.8 *) Rozdíly hodnot veličiny INKO po a před léčbou silně porušovaly předpoklad normálního rozdělení, což vylučovalo využití párového t-testu. Proto byl užit párový Wilcoxonův test, hodnota z-statistiky s korekcí na spojitost ve sloupci t je vyznačena kurzívou, podobně i dosažená úroveň významnosti ve sloupci p.
Binomické rozdělení model hodu n mincemi, na každé padne lev s pravděpodobností p, pravděpodobnost, že na n mincích padne k lvů n PY ( = k) = p k ( p) k n k
Pravděpodobnostní funkce binomického rozdělení n =, p =,5
Rozdíly x-x ID 3 4 5 6 7 8 9 3 4 5 6 Inko - - - - - -3 - - - -
Binomický (znaménkový) test počet + : počet : počet : 4 (nebere se v úvahu) H: p =.5 H: p >.5 (jednostranná alternativa) Testové kriterium: počet Z binomického rozdělení se spočítá pravděpodobnost, že za platnosti H dosáhneme nebo větší, tj. nebo
= = = = = = z k n n z k n k n n z k k k n k n k n z P Z ) ( n = z = P(Z>=) = P(Z<=) =.93 Zamítáme H.