Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Podobné dokumenty
6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

NEPARAMETRICKÉ METODY

Odhady parametrů 1. Odhady parametrů

Pravděpodobnost a aplikovaná statistika

Pravděpodobnost a aplikovaná statistika

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Náhodný výběr 1. Náhodný výběr

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Intervalové odhady parametrů některých rozdělení.

PRAVDĚPODOBNOST A STATISTIKA

12. N á h o d n ý v ý b ě r

Intervalové odhady parametrů

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

Deskriptivní statistika 1

Pravděpodobnostní model doby setrvání ministra školství ve funkci

V. Normální rozdělení

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

8. Analýza rozptylu.

Pravděpodobnost a aplikovaná statistika

0,063 0,937 0,063 0, P 0,048 0,078 0,95. = funkce CONFIDENCE.NORM(2α; p(1 p)

Testování statistických hypotéz

P2: Statistické zpracování dat

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

17. Statistické hypotézy parametrické testy

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

vají statistické metody v biomedicíně

vají statistické metody v biomedicíně Literatura Statistika v biomedicínsk nském výzkumu a ve zdravotnictví

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

Závislost slovních znaků

Teorie chyb a vyrovnávací počet. Obsah:

8. Odhady parametrů rozdělení pravděpodobnosti

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

} kvantitativní znaky. korelace, regrese. Prof. RNDr. Jana Zvárov. Obecné principy

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Kvantily. Problems on statistics.nb 1

Kapitola 6. : Neparametrické testy o mediánech

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

13 Popisná statistika

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

Úloha II.S... odhadnutelná

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

2 STEJNORODOST BETONU KONSTRUKCE

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

a další charakteristikou je četnost výběrového souboru n.

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení

MOŽNOSTI STATISTICKÉHO POSOUZENÍ KVANTITATIVNÍCH VÝSLEDKŮ POŽÁRNÍCH ZKOUŠEK PRO POTŘEBY CERTIFIKACE A POSUZOVÁNÍ SHODY VÝROBKŮ

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

2. Náhodná veličina. je konečná nebo spočetná množina;

Testování statistických hypotéz

Pravděpodobnostní modely

8. cvičení 4ST201-řešení

1. Základy počtu pravděpodobnosti:

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Pravděpodobnost vs. statistika. Data. Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými

UPLATNĚNÍ ZKOUŠEK PŘI PROHLÍDKÁCH MOSTŮ

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY. Statistické chyby v medicínském výzkumu

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

Základy statistiky. Zpracování pokusných dat Praktické příklady. Kristina Somerlíková

Popisná statistika. Zdeněk Janák 9. prosince 2007

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ Fakulta strojního inženýrství. Matematika IV. Semestrální práce

Nejistoty měření. Aritmetický průměr. Odhad směrodatné odchylky výběrového průměru = nejistota typu A

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

Náhodný výběr, statistiky a bodový odhad

Úloha III.S... limitní

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

8.2.1 Aritmetická posloupnost

PRAVDĚPODOBNOST A STATISTIKA

8.2.1 Aritmetická posloupnost I

10.3 GEOMERTICKÝ PRŮMĚR

1 ROVNOMĚRNOST BETONU KONSTRUKCE

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

Národní informační středisko pro podporu jakosti

Statistika. Statistické funkce v tabulkových kalkulátorech MSO Excel a OO.o Calc

Teorie odhadů 2 Teorie odhadů... 3 Odhad parametrů... 4

PRAVDĚPODOBNOST A STATISTIKA

4. B o d o v é o d h a d y p a r a m e t r ů

FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE

Elementární zpracování statistického souboru

7. Odhady populačních průměrů a ostatních parametrů populace

REGRESNÍ DIAGNOSTIKA. Regresní diagnostika

Pevnost a životnost - Hru III 1. PEVNOST a ŽIVOTNOST. Hru III. Milan Růžička, Josef Jurenka, Zbyněk Hrubý.

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

Přednáška 7, 14. listopadu 2014

Národní informační středisko pro podporu kvality

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

3. Charakteristiky a parametry náhodných veličin

8. cvičení 4ST201. Obsah: Neparametrické testy. Chí-kvadrát test dobréshody Kontingenční tabulky Analýza rozptylu (ANOVA) Neparametrické testy

Transkript:

Předáška VIII. Testováí hypotéz o kvatitativích proměých Úvodí pozámky Testy o parametrech rozděleí Testy o parametrech rozděleí Permutačí testy

Opakováí hypotézy Co jsou to hypotézy a jak je staovujeme? Nulová hypotéza Alterativí hypotéza

Opakováí co se při rozhodováí může stát Popište možé výsledky testováí hypotéz a uveďte, jak ozačujeme jejich pravděpodobosti. Rozhodutí H 0 platí Skutečost H 0 eplatí H 0 ezamíteme A B H 0 zamíteme C D

Opakováí z test pro jede výběr Při populačím epidemiologickém průzkumu se zjistilo, že průměrý objem prostaty u mužů je 3,73 ml (SD = 8, ml). Na hladiě výzamosti testu α = 0,05 chceme ověřit, jestli se muži ad 70 let liší od celé populace. Máme áhodý výběr o velikosti = 00 a výběrový průměr 36,60 ml. Chceme ověřit platost H : μ 3,73 proti H : μ 3, 73 0 = Platí li H 0, pak X ~ N( μ 3,73, σ =,8) (předpokládáme, že záme σ) = Z CLV víme, že by mělo platit: X σ μ ~ N(0,) / Pokud tedy výběrový průměr patří do rozděleí N( μ 3,73, σ =,8) = eměla by jeho hodota být vzhledem k tomuto rozděleí ijak extrémí.

. Úvodí pozámky

Spojité diskrétí áhodé veličiy Budeme se zabývat hodoceím spojitých áhodých veliči (mohou abývat jakýchkoliv hodot v určitém rozmezí). Příklady: výška, váha, vzdáleost, čas, teplota. Uvedeé testy lze ale použít i pro hodoceí diskrétích áhodých veliči ale musí to být odůvoditelé (apř. velký počet možých hodot). Příklady: počet krevích buěk, počet hospitalizací, počet krvácivých epizod za rok.

Parametrické a eparametrické testy Parametrické testy zabývají se testováím tvrzeí o ezámých parametrech rozděleí pravděpodobosti, kterým se řídí uvažovaá áhodá veličia. Vyžadují růzé předpoklady, miimálě specifikaci rozděleí. Neparametrické testy tyto procedury jsou ezávislé (ebo téměř ezávislé) a kokrétím rozděleí pravděpodobosti áhodé veličiy. Vyžadují méě předpokladů apř. symetrii rozděleí. Na druhou strau mají meší sílu ( o free luch ). Testováí vpřípadě chybě určeého rozděleí pravděpodobosti testové statistiky může vést kmylým závěrům zdůvodu erelevatí p hodoty, respektive p hodoty staoveé chybou úvahou.

Postup při statistickém testováí. Formulujeme ulovou hypotézu H 0.. Formulujeme alterativí hypotézu H. Alterativí hypotéza u parametrických testů může být oboustraá ebo jedostraá. 3. Zvolíme testovou statistiku jako kritérium pro rozhodutí o ulové hypotéze (statistiku volíme tak, abychom byli schopi odvodit rozděleí pravděpodobosti této statistiky při platosti ulové hypotézy). 4. Hodotu testové statistiky vypočítáme a základě pozorovaých hodot: x, x,, x. 5. Na základě rozděleí testové statistiky určíme kritický obor (obor hodot, kdy zamítáme H 0 ). 6. Zjistíme, zda hodota testové statistiky leží v oboru kritických hodot: pokud ao, zamítáme ulovou hypotézu, pokud e, ezamítáme ulovou hypotézu. Alterativě můžeme zjistit p hodotu výsledku.

. Testy o parametrech rozděleí

O co jde? Chceme srovat sledovaou charakteristiku áhodé veličiy s předem daou hodotou (kostatou, předpokladem). Test o průměru při zámém rozptylu z test Test o průměru při ezámém rozptylu t test Neparametrický test pro výběr Wilcoxoův test Test o rozdílu párových (závislých) pozorováí párový t test Test o rozptylu ormálího rozděleí Spolu s výsledkem testu by měly být reportováy i itervaly spolehlivosti pro sledovaou charakteristiku (průměr/rozptyl).

Test o průměru při zámém rozptylu z test Předpokládáme realizaci áhodého výběru o rozsahu : x, x,, x. Předpokládáme ormalitu dat: X i ~ N( μ, σ ) velmi silý předpoklad (silější ež CLV, eřeší totiž jdoucí do ekoeča). H 0 : μ = μ 0 : μ μ0 Testujeme, zda data áhodého výběru pochazí z rozděleí se stejou středí hodotou jako je předpokládaá hodota μ 0 (kostata). Předpokládáme, že záme parametr σ. H : μ < μ H H : μ > μ0 0 Víme, že za platosti H 0 platí: X ~ Testová statistika: Z = X σ N( μ, μ ~ N(0,) / σ )

Test o průměru při zámém rozptylu z test Nulovou hypotézu zamítáme a hladiě výzamosti α, když výsledá hodota Z statistiky je větší (ebo meší) ež kritická hodota (příslušý kvatil) rozděleí N(0,). Větší ebo meší závisí a předem zvoleé alterativě. Alterativa Zamítáme H 0 když Alterativa H : μ μ 0 Z H : μ > μ 0 Z Zamítáme H 0 když > z α / > z α α / α α / 90 % 95 % 99 % Alterativa Zamítáme H 0 když H : μ < μ 0 Z < z α z 0,005 =,58,58 = z 0,995 z 0,05 =,96,96 = z 0,975 z 0,050 =,64,64 = z 0,950

Test o průměru při ezámém rozptylu t test Předpokládáme realizaci áhodého výběru o rozsahu : x, x,, x. Předpokládáme ormalitu dat: X i ~ N( μ, σ ) velmi silý předpoklad (silější ež CLV, eřeší totiž jdoucí do ekoeča). H 0 : μ = μ 0 : μ μ0 Testujeme, zda data áhodého výběru pochazí z rozděleí se stejou středí hodotou jako je předpokládaá hodota μ 0 (kostata). Nezáme hodotu parametru σ musíme ho odhadout pomocí výběrové směrodaté odchylky (s). Víme, že za platosti H 0 platí: Dále využijeme statistiku K: Testová statistika: H : μ < μ H H : μ > μ0 0 X ~ N( μ, K = ( ) s ~ χ ( ) σ = Z X μ T = ~ t( ) K /( ) s / σ ) Z = ~ X μ N σ / (0,)

Test o průměru při ezámém rozptylu t test Nulovou hypotézu zamítáme a hladiě výzamosti α, když výsledá hodota T statistiky je větší (ebo meší) ež kritická hodota (příslušý kvatil) rozděleí t( ). Větší ebo meší závisí a předem zvoleé alterativě. Alterativa Zamítáme H 0 když Alterativa H : μ μ 0 T H : μ > μ 0 T Zamítáme H 0 když ( ) > t α / ( ) > t α α / α α / 90 % 95 % 99 % Alterativa Zamítáme H 0 když H : μ < μ 0 T ( ) < t α Kvatily t rozděleí závisí kromě α i a velikosti vzorku ( ).

Příklad t test pro jede výběr Chceme srovat průměrý eergetický příjem skupiy že ve věku 30 let s doporučeou hodotou (775 kj). Průměrý eergetický příjem skupiy že byl 6753,6 kj se směrodatou odchylkou s = 4, kj. Přibližá ormalita dat byla ověřea graficky. Nulovou a alterativí hypotézu vyjádříme jako: H 0 : μ = μ 0 H : μ μ0 Testová statistika: Její realizace: T = ( X μ) /( s / ) ~ t( ) t = ( 6753,6 775) /(4,/ ) =,8 Absolutí hodotu t srováme s kvatilem t rozděleí s 0 stupi volosti. t =,8 >,8 = t = t α Zamítáme H 0 0 0,975 /

Příklad iterpretace výsledku t =,8 >,8 = t = t α Zamítáme H 0 0 0,975 / Na hladiě výzamosti α = 0,05 můžeme říci, že sledovaá skupia že měla statisticky výzamě ižší eergetický příjem ež je doporučeá deí hodota 775 kj.

Neparametrický test pro výběr Wilcoxoův test Předpokládáme realizaci áhodého výběru o rozsahu : x, x,, x. Předpokládáme symetrii dat (daleko slabší předpoklad ež ormalita dat) ulová hypotéza se týká mediáu ~ H 0 : x = x0 H : x x0 ~ Pricip Wilcoxoova testu je takový, že spočítáme diferece x, x,, x od x 0 a podíváme se, jestli je zhruba ½ diferecí kladých a ½ záporých. To je ekvivaletí s tím, že zhruba polovia hodot x, x,, x je meších ež x 0 a polovia hodot x, x,, x je větších ež x 0. Spočítáme diferece (ulové vyhodíme): i i 0 () () ( ) Diferece seřadíme podle velikosti absolutích hodot: y < y < K < y y = x x

Neparametrický test pro výběr Wilcoxoův test Spočítáme diferece (ulové vyhodíme): Diferece seřadíme podle velikosti absolutích hodot: Jako R i ozačíme pořadí diferece y i. y i = x i x 0 y() < y() < K < y( ) Testovací statistika: kde mi( S S + = + y > 0, S R i ) a S = i y i < 0 R i Pro malá (cca do 30) lze kritickou hodotu pro statistiku mi(s +,S ) odpovídající zvoleému α ajít v tabulkách je li výsledá hodota mi(s +,S ) meší ebo rova kritické hodotě, zamítáme H 0. Pro větší lze rozděleí testové statistiky mi(s +,S ) aproximovat ormálím + rozděleím s parametry: E(mi( S, S )) = ( + ) / 4 D(mi( S +, S )) = ( + )( + ) / 4

Příklad Wilcoxoův test pro jede výběr Chceme srovat průměrý eergetický příjem skupiy že ve věku 30 let s doporučeou hodotou (775 kj). Nulovou a alterativí hypotézu vyjádříme jako: Žea Deí eergetický příjem v kj Diferece od hodoty 775 kj ~ H 0 : x = x0 H : x x0 Pořadí absolutí hodoty diferece 560 465 5470 55 0 3 5640 085 9 4 680 545 8 5 6390 335 7 6 655 0 6 7 6805 90 4 8 755 0,5 9 755 0,5 Zamítáme H 0 0 830 505 3 8770 045 5 ~

Příklad Wilcoxoův test pro jede výběr Výpočet testové statistiky: S + = Ri = 8 a S = R y > 0 i y i < 0 i = 58 mi( S +, S ) = 8 Kritická hodota z tabulek pro = : w ( α) = w (0,05) = 0 Výsledá hodota statistiky mi(s +,S ) je meší ež 0: Zamítáme H 0

Pozámka Parametrické a eparametrické testy emusí vycházet stejě. Důvody:. Nesplěé předpoklady parametrického testu.. Malá síla eparametrického testu. Je li však dobře specifiková pravděpodobostí model a je li dostatek dat, bude to vycházet stejě. Měli bychom preferovat parametrické testy, ALE pouze po důkladém ověřeí jejich předpokladů!

Párový t test Předpokládáme realizaci dvourozměrého áhodého vektoru o rozsahu : (máme dvojice hodot, které patří k sobě) Předpokládáme dvourozměré ormálí rozděleí: Nulovou a alterativí hypotézu vyjádříme jako: Párový problém převedeme a případ jedoho výběru ebudeme počítat s dvojicemi hodot, ale s rozdíly: Následě testujeme, zda je průměr hodot d, d,, d růzý od předpokládaé hodoty d 0. y x y x y x,,, K 0 0 : d H = μ μ, ~ σ σ μ μ N Y X i i 0 : d H μ μ 0 : d H < μ μ 0 : d H > μ μ i i i y x d =

Párový t test Dále postupujeme jako při t testu pro jede výběr. Testová statistika má tvar: d d0 T = ~ t( ) s / d Nulovou hypotézu zamítáme a hladiě výzamosti α, když výsledá hodota T statistiky je větší (ebo meší) ež kritická hodota (příslušý kvatil) rozděleí t( ). Alterativa H Zamítáme H 0 když : μ μ d0 ( ) T > t α / Alterativa H : μ μ > d ( ) Zamítáme H 0 když T > t α Alterativa H : μ μ < d ( ) Zamítáme H 0 když T < t α 0 0 H : μd d 0 H : μ > d d 0 H : μ < d d 0

Příklad párový t test Wiebe a Bortolotti (00) zkoumali žluté zbarveí ocasího peří datlů zlatých. Všimli si, že ěkteří ptáci mají jedo ocasí pero jiak zbarveé ež ta ostatí chtěli vědět, jestli je odchylka ve žlutém zbarveí statisticky výzamá. Měřeou veličiou byl yellowess idex ( idex žlutosti ) Pták Idex pro Idex pro typické pero atypické pero Rozdíl (d) A 0.55 0.34 0.069 B 0.3 0.85 0.08 C 0.9 0.99 0.09 D 0.85 0.44 0.04 E 0.045 0.07 0.08 F 0.05 0.039 0.04 G 0.05 0.64 0.49 H 0.003 0.077 0.080 I 0.05 0.07 0.03 J 0.00 0.69 0.89 K 0.03 0.096 0.9 L 0.040 0.330 0.370 M 0.040 0.346 0.386 N 0.050 0.9 0.4 O 0.055 0.8 0.83 P 0.058 0.8 0.40

Příklad párový t test Pracoví hypotéza: Je odchylka ve žlutém zbarveí statisticky výzamá?. Nulová hypotéza a alterativa: Za platosti H 0 předpokládáme: d Vypočteé statistiky: d = d H : μ 0 H : μ 0 0 = ~ N(0, σ 0,37 a s = 0,35 ) > Testová statistika: t = d d s / 0,37 0 0,35/ 6 0 = = 4,06 Absolutí hodotu t srováme s kvatilem t rozděleí s 5 stupi volosti. t = 4,06 >,75 = t = t α Zamítáme H 0 5 0,95

3. Testy o parametrech rozděleí

Testy pro dva výběry Chceme srovat sledovaou charakteristiku áhodé veličiy ve dvou ezávislých skupiách. Test o rozdílu průměru dvou ezávislých výběrů t test pro dva výběry (při stejých rozptylech) Test o shodosti rozptylů dvou ezávislých výběrů F test Welchova korekce pro t test při estejých rozptylech Neparametrický test pro výběry Ma Whiteyho test Spolu s výsledkem testu by měly být reportováy i itervaly spolehlivosti pro pozorovaé rozdíly v průměrech/mediáech či podíl rozptylů.

T test pro dva výběry při stejých rozptylech Máme realizaci. áhodého výběru o rozsahu : x, x,, x a a í ezávislou realizaci. áhodého výběru o rozsahu : y, y,, y. Předpokládáme ormalitu dat: a stejý rozptyl (i když ezámý) X Y i i ~ N( μ, σ ) ~ N( μ, σ ) Testujeme, zda áhodé výběry pochazí z rozděleí se středími hodotami, které se liší o předpokládaou hodotu c (kostata). H 0 : μ μ = c H : μ μ c H : μ μ < c H : μ μ > c Nezáme hodotu parametru σ, ale předpokládáme, že je stejý pro oba výběry parametr musíme odhadout pomocí vážeého průměru odhadů rozptylu v jedotlivých výběrech: s * ( = ) s + ( ) s +

T test pro dva výběry při stejých rozptylech Víme, že za platosti H 0 platí: X Y ~ N( c, σ ( + )) Testová statistika: T X Y c = ~ t( + s + * ) Větší ebo meší závisí a předem zvoleé alterativě. Alterativa H : μ μ c Zamítáme H 0 když T Alterativa H : μ μ > c Zamítáme H 0 když T Alterativa H : μ μ < c Zamítáme H 0 když T ( ) > t α / ( ) > t α ( ) < t α

Příklad t test pro dva výběry Máme paciety se špatě kotrolovaou hypertezí sledujeme účiek ACE ihibitoru (ACE I) a atagoisty pro agiotesi II receptor (AIIA) a sížeí diastolického tlaku (TKd) těchto pacietů po 6 měsících od zahájeí léčby. Nulová a alterativí hypotéza: H μ μ 0 H μ μ 0 0 : = : Nulová hypotéza vyjadřuje stejý účiek obou léků a sížeí TKd. Pacieti léčeí ACE I: Pacieti léčeí AIIA: = 96 x =,7 mmhg s = 9,96 mmhg = 887 y =,8 mmhg s = 9,79 mmhg Vážeý odhad parametru σ : s s ( ) s + ( ) s (96 )9,96 + (887 )9,79 * = + = 96+ 887 * = 9,88 = 97,54

Příklad t test pro dva výběry Víme, že za platosti H 0 platí: X Y ~ N(0, σ ( 96 + 887)) Testová statistika: t = x y s + c * =,7,8 0 9,88 + 96 887 = 0,3 Absolutí hodotu t srováme s kvatilem t rozděleí s 38 stupi volosti (zde již klidě můžeme použít kvatil rozděleí N(0,)). = 0,3 <,96 = z0,975 = z α / t Nezamítáme H 0 Na hladiě výzamosti α = 0,05 elze prokázat rozdíl mezi ACE I a AIIA ve sížeí diastolického tlaku u pacietů se špatě kotrolovaou hypertezí.

Předpoklady t testu pro dva výběry Normalita pozorovaých hodot obou áhodých výběrů velmi silý předpoklad. Nuto otestovat ebo alespoň graficky ověřit (histogram, box plot). Stejý rozptyl áhodé veličiy v obou srovávaých skupiách také silý předpoklad. Opět uto otestovat ebo alespoň graficky ověřit (histogram, box plot).

Ověřeí předpokladu o stejých rozptylech F test Máme realizaci. áhodého výběru o rozsahu : x, x,, x a a í ezávislou realizaci. áhodého výběru o rozsahu : y, y,, y. Předpokládáme ormalitu dat: (středí hodoty ezáme) X Y i i ~ N( μ, σ ) ~ N( μ, σ ) Testujeme, zda áhodé výběry pochazí z rozděleí se stejým rozptylem. H 0 : σ = σ H : σ σ H : σ < σ H : σ > σ Testová statistika: F = s s Za platosti H 0 má F statistika Fisherovo rozděleí se stupi volosti ( ) a ( ).

Ověřeí předpokladu o stejých rozptylech F test Víme, že za platosti H 0 platí: F ~ F(, Hodotu F statistiky tedy srováváme s kvatily ) F (, α / ) a F (, α / ) Větší ebo meší závisí a předem zvoleé alterativě. Alterativa Zamítáme H 0 když F < F Alterativa Zamítáme H 0 když F > F Alterativa H H H : σ σ : σ > σ : σ < σ Zamítáme H 0 když F < F (, α / (, α ) (, α ) ) ebo F > F (, α / )

Příklad F test Máme dvě skupiy dětí s hypotyreózou: prví skupia jsou děti s mírými symptomy, druhá skupia jsou děti s výrazými symptomy. Chceme srovat hladiu tyroxiu v séru. Můžeme si dovolit použít t test pro dva výběry? H H 0 : σ = σ : σ < σ Hladia tyroxiu v séru (mol/l) Míré symptomy ( = 9) Výrazé symptomy ( = 7) 34 5 45 8 49 8 55 4 58 60 59 84 60 96 6 86 Průměr 56,4 4, SD 4, 37,48

Příklad F test Hladia tyroxiu v séru (mol/l) Míré symptomy ( = 9) Výrazé symptomy ( = 7) Průměr 56,4 4, SD 4, 37,48 Testová statistika: F = s s (4,) (37,48) = = 0,44 Hodotu F srováme s α kvatilem F rozděleí s 8 a 6 stupi volosti. (8,6) (, ) F = 0,44 < 0,79 = F0,05 = Fα Zamítáme H 0

Stejé rozptyly? Myslíte si, že jsou stejé rozptyly obou souborů v praxi časté? Pokud e, zkuste vymyslet příklad

Welchova korekce pro estejé rozptyly Welch (937) avrhl korekci pro výpočet T statistiky se zohleděím estejých rozptylů. Víme, že za platosti H 0 platí: Testová statistika: Počet stupňů volosti NENÍ rove +, ale třeba ho staovit ásledově: Kritické hodoty pro zamítutí H 0 lze odvodit stejě, jako v případě t testu pro dva výběry se stejým rozptylem. ) / ( ) / ( )] / ( ) / [( + + = s s s s ν ), ( ~ c N Y X σ + σ ) ( ~ ν t c Y X T s s + =

Neparametrický test pro výběry Ma Whiteyho test Máme realizaci. áhodého výběru o rozsahu : x, x,, x a a í ezávislou realizaci. áhodého výběru o rozsahu : y, y,, y. X i ~ F( x) ~ F( y) Předpokládáme stejé rozděleí dat v obou souborech (slabší předpoklad ež ormalita dat) ulová hypotéza se týká distribučích fukcí. H : F( x) = F( ) H : F( x) F( ) 0 y Y i y Poita Ma Whiteyho testu: pokud x i a y j pochází ze stejého rozděleí, pak by pravděpodobost P(x i > y j ) měla být zhruba 50 %. To je ekvivaletí tomu, že při srováí všech dvojic x i a y j bude v případě cca 50 % dvojic meší x i a aopak.

Neparametrický test pro výběry Ma Whiteyho test Pro výpočet ejprve seřadíme všecha pozorováí podle velikosti (jako by byly z jedoho vzorku) a přiřadíme jedotlivým hodotám jejich pořadí. Statistikou T ozačíme součet pořadí v. skupiě. Testové statistiky: U ( + ) = + T U = U Větší z hodot U a U ásledě srováme s kritickou hodotou z tabulek (v případě oboustraého testu). Je li kritická hodota meší, H 0 zamítáme. Pro jedostraý test uvažujeme dle ulové hypotézy pouze buď statistiku U ebo U. Pro vzorky s >0 a >0 lze rozděleí statistiky U aproximovat ormálím rozděleím s charakteristikami: E( U ) = D( U ) = ( + + )

Příklad Ma Whiteyho test Máme dvě skupiy dětí s hypotyreózou: prví skupia jsou děti s mírými symptomy, druhá skupia jsou děti s výrazými symptomy. Chceme srovat hladiu tyroxiu v séru (t test pro dva výběry eí vhodý) H : F( x) = F( ) H : F( x) F( ) 0 y y Hladia tyroxiu v séru (mol/l) Míré symptomy ( = 9) Výrazé symptomy ( = 7) 34 5 45 8 49 8 55 4 58 60 59 84 60 96 6 86 Průměr 56,4 4, SD 4, 37,48

Příklad Ma Whiteyho test Seřadíme všecha pozorováí podle velikosti a přiřadíme jedotlivým hodotám jejich pořadí. Součet pořadí v. skupiě: T = 84,5. Skupia = 9 Skupia = 7 Pořadí 5 8 8 3 4 4 34 5 45 6 49 7 55 8 58 9 59 0 60,5 60,5 6 3 84 4 86 5 96 6 9(9 + ) U = 9 *7 + 84,5 = 63 + 45 84,5 = 3,5 U = 9*7 3,5 = 39,5 max(u,u ) = 39,5. Srováme s kritickou hodotou z tabulek (pozor a správé tabulky): max( U, U ) = 39,5 < 5 = U (9,7) 0,05() Nezamítáme H 0 = U (, ) α (/ )

Příklad Ma Whiteyho test Zdá se vám te výsledek správý? Pokud e, čemu to lze přisoudit?

4. Permutačí testy

Pricip permutačích testů Permutačí testy jsou eparametrickými testy, ale místo pořadí pracují s pozorovaými hodotami. Pricipem permutačího testováí je srováí pozorovaé testové statistiky stestovými statistikami, které by bylo možo teoreticky získat ze stejého datového souboru, když by přiřazeí jedotlivých pozorovaých hodot do sledovaých skupi bylo áhodé. Permutačí test je tedy založe a výpočtu všech možých hodot testové statistiky, které lze získat opakovaým přeskupeím původího souboru dat tak, že vrámci každého opakováí zůstae zachová jak celkový počet pozorováí (celkové ), tak počet pozorováí áležících do jedotlivých skupi (apř. a ).

Výpočet permutačích testů Výsledou p hodotu pak odhademe jako podíl počtu testových statistik, které byly v absolutí hodotě větší ež původí pozorovaá testová statistika (tedy představují extrémější výsledky experimetu), k celkovému počtu provedeých permutací. Tedy odhad p hodoty lze vyjádřit ásledově: # t p = i : t i M t = m M, i =, K, M Permutačí testy jsou velmi oblíbeé v hodoceí geomických a proteomických dat.

Příklad permutačí test pro dva výběry Srováí hmotosti dvou skupi pacietů. = 7 x A = 74,5 kg sa = 9,49 kg = 8 x B = 87, kg sb = 6,95 kg H 0 : μ μ = c H : μ μ c Pro permutačí test použijeme T statistiku pro dva výběry. Zvolíme hladiu výzamosti testu: α = 0,05. Pro = 7 a = 8 je možost provést celkem 6435 jediečých permutací. Kategorie pacieta Hmotost pacieta (kg) A 9,5 A 79,8 A 66, A 70,7 A 63,4 A 77,7 A 7,9 B 83,9 B 9, B 85,4 B 99, B 77,5 B 80,8 B 9,6 B 86,

Příklad permutačí test pro dva výběry Kategorie pacieta Hmotost pacieta (kg) Pořadí permutace 3 6435 A 9,5 A B B B A 79,8 B B B B A 66, A A A A A 70,7 A B A B A 63,4 B B A A A 77,7 B B B A A 7,9 B A A B B 83,9 A B A A B 9, B B A A B 85,4 A A B A B 99, A A B A B 77,5 A A A B B 80,8 B A B B B 9,6 B B B B B 86, B A B B Testová statistika,900 0,49 0,34 3,06 0,798

Příklad permutačí test pro dva výběry Srováí hmotosti dvou skupi pacietů: A ab. Pro výpočet p hodoty permutačího testu je potřeba ásledující:. Hodota původí testové statistiky: t =,900. Celkový počet provedeých permutací: M = 6435 3. Počet permutací, kdy je absolutí hodota testové statistiky t i, i =,, M, větší ebo rova původí testové statistice t =,900. Zde je m = 59. Pak p hodotu můžeme odhadout ásledově: p = M m = 59 = 6435 0,009 Výsledá p hodota je meší ež zvoleá hladia výzamosti testu α = 0,05. Zamítáme H 0

Permutačí test pro dva výběry Iterpretace výsledé p hodoty je zde stejá jako pro klasický t test. Velkou výhodou permutačího testováí je fakt, že jej lze použít pro jakoukoliv testovou statistiku. Klíčovým předpokladem je zaměitelosti pozorovaých hodot v obou srovávaých skupiách oba soubory by eměly mít výrazě odlišou variabilitu (proto bychom eměli permutačí test použít a příklad s hypotyreózou). Při malém (cca 0 0) je poměrě malý také počet dostupých permutací, což může vést k epřesému odhadu p hodoty. Při 000 permutacích je ejmeší dosažitelá p hodota 0,00, 00 000 permutací umožňuje dosáhout p hodoty až 0,0000.

Poděkováí Rozvoj studijího oboru Matematická biologie PřFMU Bro je fiačě podporová prostředky projektu ESF č. CZ..07/..00/07.038 Víceoborová iovace studia Matematické biologie a státím rozpočtem České republiky