RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Podobné dokumenty
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Přednáška IX. Analýza rozptylu (ANOVA)

Neparametrické metody

NEPARAMETRICKÉ TESTY

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Jednofaktorová analýza rozptylu

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Testování statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Neparametrické testy

Cvičení 9: Neparametrické úlohy o mediánech

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Jednostranné intervaly spolehlivosti

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

, Brno Hanuš Vavrčík Základy statistiky ve vědě

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Vzorová prezentace do předmětu Statistika

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ADDS cviceni. Pavlina Kuranova

Úvod do analýzy rozptylu

Návod na vypracování semestrálního projektu

Testy statistických hypotéz

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

KORELACE. Komentované řešení pomocí programu Statistica

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

= = 2368

Stručný úvod do testování statistických hypotéz

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Vybrané partie z biostatistiky

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Analýza dat na PC I.

Cvičení 12: Binární logistická regrese

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Vysoká škola ekonomická v Praze

Statistické testování hypotéz II

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

KGG/STG Statistika pro geografy

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

4ST201 STATISTIKA CVIČENÍ Č. 7

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Seminář 6 statistické testy

Pearsonův korelační koeficient

Normální (Gaussovo) rozdělení

Přednáška X. Testování hypotéz o kvantitativních proměnných

Normální (Gaussovo) rozdělení

Základní statistické metody v rizikovém inženýrství

Neparametrické metody v systému STATISTICA

Průzkumová analýza dat

Korelace. Komentované řešení pomocí MS Excel

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Statistické metody uţívané při ověřování platnosti hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

STATISTICKÉ TESTY VÝZNAMNOSTI

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a aplikovaná statistika

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

15. T e s t o v á n í h y p o t é z

Testování hypotéz. 4. přednáška

Testování statistických hypotéz. Obecný postup

Testy. Pavel Provinský. 19. listopadu 2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Charakteristika datového souboru

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Transkript:

Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy

Blok 3 Jak a kdy použít parametrické a neparametrické testy I. 2

Osnova 1. Dvouvýběrové testy 2. F-test 3. Neparametrické testy 3

Parametrické a neparametrické testy pro kvantitativní data přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční hodnotou jednovýběrové testy: Jednovýběrový t-test, jednovýběrový z-test Wilcoxonův test 2 skupiny dat párově párové testy: Párový t-test Wilcoxonův test, znaménkový test 2 skupiny dat nepárově dvouvýběrové testy: Dvouvýběrový t-test Mannův-Whitneyův test, mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test 4

1. Dvouvýběrové testy 5

Dvouvýběrové ( Two-Sample ) testy Srovnávají navzájem dva nezávislé vzorky ( two samples ). V testu jsou srovnávány dvě rozložení hodnot. Otázka položená v testu může být opět vztažena k průměru, rozptylu, podílu hodnot i dalším statistickým parametrům popisujícím vzorek. Parametrické dvouvýběrové testy, kterým se budeme věnovat: dvouvýběrový t-test (test o rozdílu průměrů dvou nezávislých vzorků) F-test (test o shodnosti rozptylů dvou nezávislých vzorků) 6

Dvouvýběrový t-test Srovnáváme dvě skupiny dat, které jsou na sobě nezávislé mezi objekty neexistuje vazba. Příklady: srovnání objem hipokampu u mužů a u žen, srovnání kognitivního výkonu podle dvou kategorií věku. 3 2 1 x 1 x 2 Předpoklad: normalita dat v OBOU skupinách, shodnost (homogenita) rozptylů v obou skupinách x1 - x2 - c Testová statistika: T =, kde s je vážená směrodatná odchylka, 1 1 s + * n 1 n 2 0 Pacienti Kontroly c je konstanta, o kterou se rozdíl průměrů má lišit (většinou rovna 0) 7

Ověření normality dat Graficky: histogram krabicový graf (box-plot) Q-Q graf Testy normality: Shapirův-Wilkův test Kolmogorovův-Smirnovův test Testy nejsou vždy nejlepším nástrojem! Vždy je důležité se podívat i očima! Pokud o sledované veličině prokazatelně víme, že v cílové populaci nabývá normální rozdělení (např. výška lidské postavy), ale v daném souboru normální rozdělení nepotvrdíme, pak s naším náhodným výběrem není něco v pořádku např. není reprezentativní. 8

Ověření normality graficky krabicový graf a histogram Normální rozdělení Log-normální rozdělení 9

Ověření normality graficky krabicový graf a histogram Normální rozdělení s odlehlými hodnotami Rovnoměrně spojité rozdělení 10

Ověření normality graficky Q-Q graf Q-Q graf proti sobě zobrazuje kvantily pozorovaných hodnot a kvantily teoretického rozdělení pravděpodobnosti (zde normálního rozdělení). V případě shody leží všechny body na přímce. Normální rozdělení: 11

Ověření normality graficky Q-Q graf 1. Log-normální rozdělení 2. Normální rozdělení s odlehlými hodnotami 3. Rovnoměrně spojité rozdělení 1. 2. 3. 12

Ověření normality pomocí testů Shapirův-Wilkův test v podstatě se jedná o proložení seřazených hodnot regresní přímkou vzhledem k očekávaným hodnotám normálního rozdělení. Má tedy přímý vztah k Q-Q plotu vyhodnocuje, jak moc se Q-Q plot liší od ideální přímky. Doporučován pro menší vzorky, může být moc přísný pro velké vzorky. Kolmogorovův-Smirnovovův test založen na srovnání výběrové distribuční funkce s teoretickou distribuční funkcí odpovídající normálnímu rozdělení. K-S test hodnotí maximální vzdálenost mezi těmito dvěma distribučními funkcemi. V praxi se používá korekce dle Lillieforse. 13

Ověření shody (homogenity) rozptylů Grafické ověření krabicový graf, histogram. F-test (testování shody rozptylů dvou vzorků) Leveneův test často používaný (testování shody rozptylů dvou a více vzorků) Bartlettův test 14

Dvouvýběrový t-test Příklad: Chceme srovnat, zda se liší objem putamenu podle pohlaví. Tzn. hypotézy budou mít tvar: H x - x 0 a H x - x 0 Postup: 0 : 1 2 = 1. Popisná sumarizace objemu putamenu podle pohlaví. 1 : 1 2 2. Ověření normality hodnot v OBOU skupinách pomocí histogramu (tzn. vykreslíme histogram zvlášť pro muže a zvlášť pro ženy). 3. Ověření shodnosti rozptylů vizuálně pomocí krabicových grafů. 4. Aplikujeme statistický test (v softwaru STATISTICA: t-test, independent, by groups). 5. Nulovou hypotézu zamítneme nebo nezamítneme: p=0,097 > 0,05 nezamítáme nulovou hypotézu Neprokázali jsme rozdíl objemu putamenu podle pohlaví (na hladině významnosti α=0,05.) 15

Úkol 3. Zadání: Zjistěte, zda se liší objem thalamu podle pohlaví (nezapomeňte ověřit předpoklady). Řešení: 16

2. F-test 17

F-test Srovnáváme rozptyly (variabilitu) dvou skupin dat, které jsou na sobě nezávislé (mezi objekty neexistuje vazba). F-test patří mezi dvouvýběrové parametrické testy. Příklady: srovnání variability objemu hipokampu u pacientů s AD a kontrol. Použití: ověření předpokladu shodnosti (homogenity) rozptylů u dvouvýběrového t-testu. 3 2 1 0 Pacienti Kontroly Předpoklad: normalita dat v OBOU skupinách. 2 s1 Testová statistika: F =, kde s 2 1 je rozptyl prvního výběru a s 2 2 je rozptyl 2 druhého výběru s2 18

F-test Příklad: Chceme srovnat, zda se liší variabilita objemu thalamu podle pohlaví. 2 2 Tzn. hypotézy budou mít tvar: H s = s a Postup: 0 : M Z 2 2 1 : M Z 1. Ověření normality hodnot v OBOU skupinách pomocí histogramu (tzn. vykreslíme histogram zvlášť pro muže a zvlášť pro ženy). 2. Vykreslení krabicových grafů, které nám napoví, zda máme očekávat shodu nebo neshodu rozptylů. 3. Aplikujeme statistický test (F-test je součástí dvouvýběrového t-testu v softwaru STATISTICA (tedy zvolíme t-test, independent, by groups)). 4. Nulovou hypotézu zamítneme nebo nezamítneme: p=0,487 > 0,05 nezamítáme nulovou hypotézu Neprokázali jsme rozdíl ve variabilitě objemu thalamu podle pohlaví (na hladině významnosti α=0,05.) H s s 19

3. Neparametrické testy 20

Parametrické a neparametrické testy pro kvantitativní data přehled Typ srovnání Parametrický test Neparametrický test 1 skupina dat s referenční hodnotou jednovýběrové testy: Jednovýběrový t-test, jednovýběrový z-test Wilcoxonův test 2 skupiny dat párově párové testy: Párový t-test Wilcoxonův test, znaménkový test 2 skupiny dat nepárově dvouvýběrové testy: Dvouvýběrový t-test Mannův-Whitneyův test, mediánový test Více skupin nepárově: ANOVA Kruskalův- Wallisův test 21

Neparametrické testy Nemají předpoklady o rozdělení vstupních dat, je tedy možné je použít při asymetrickém rozdělení nebo odlehlých hodnotách. Používání neparametrických testů je bezpečnější. Mají však menší sílu, protože dochází k redukci informační hodnoty původních dat z důvodu, že neparametrické testy nevyužívají původní hodnoty, ale nejčastěji pouze jejich pořadí ( rank ). Menší sílu testu je možné vykompenzovat větší velikostí vzorku. Neparametrické testy: Wilcoxonův test jednovýběrový i párový test Znaménkový test párový test Mannův-Whitneyův test dvouvýběrový test Mediánový test dvouvýběrový test 22

Wilcoxonův test Neparametrická alternativa jednovýběrového i párového t-testu a z-testu. Je testem o mediánu hypotézy mají tvar: H : ~ x = c a H : ~ x 0 1 c Princip Wilcoxonova testu: 1. Spočítáme diference všech hodnot x 1, x 2,, x n od c. 2. Podíváme se, jestli je zhruba ½ diferencí kladných a ½ záporných. (To je ekvivalentní s tím, že zhruba polovina hodnot x 1, x 2,, x n je menších než c a polovina hodnot x 1, x 2,, x n je větších než c). Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože nehodnotíme velikost diferencí, ale pouze, zda je zhruba ½ z nich kladných a ½ záporných. 23

Wilcoxonův test jako párový test Příklad: Chceme srovnat, zda se liší MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie. ~ ~ Tzn. hypotézy budou mít tvar: H : d 0 a H : d 0 Postup: 1. Ověření existence vazby mezi oběma skupinami dat pomocí tečkového grafu. 2. Vykreslení histogramu nové proměnné s rozdíly MMSE skóre, abychom viděli, že u rozdílů není splněn předpoklad normálního rozdělení proto použijeme neparametrický test. 3. Aplikujeme statistický test. 0 = 1 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 zamítáme nulovou hypotézu Rozdíl MMSE skóre u pacientů s MCI při vstupu do studie a 2 roky po zahájení studie je statisticky významný. 24

Wilcoxonův test jako jednovýběrový test Příklad: Chceme zjistit, zda se hodnoty MMSE skóre u 197 pacientů s Alzheimerovou chorobou v našem souboru liší od populačního mediánu 27,5. Tzn. hypotézy budou mít tvar: H : ~ x 27,5 a H : ~ x 27, 5 Postup: 0 = 1 1. Vykreslíme histogram a spočítáme popisnou statistiku, abychom viděli, že u MMSE skóre u pacientů s AD není splněn předpoklad normálního rozdělení proto použijeme neparametrický test. 2. Aplikujeme statistický test (Software STATISTICA neumožňuje počítat jednovýběrový Wilcoxonův test přímo. Lze to však obejít vytvořením nové proměnné, která ve všech řádcích bude mít hodnotu 27,5, a použitím párového Wilcoxonova testu). 3. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 zamítáme nulovou hypotézu Medián MMSE skóre u pacientů s AD v našem souboru se statisticky významně liší od populačního mediánu. 25

Úkol 4. Zadání: Zjistěte, zda se liší váha u mužů v našem souboru od populačního mediánu 75 kg. Řešení: 26

Mannův-Whitneyův (U) test Někdy nazýván jako dvouvýběrový Wilcoxonův test. Neparametrická alternativa dvouvýběrového t-testu. Testuje se, zda jsou srovnatelné distribuční funkce (tzn. zda mediány obou výběrů jsou srovnatelné). Hypotézy mají tvar: H : F( x) = F( ) a H : F( x) F( ) 0 y 1 y Princip Mannova-Whitneyova testu: 1. Všechny hodnoty z obou výběrů dohromady (tedy n 1 +n 2 hodnot) uspořádáme vzestupně podle velikosti každé hodnotě přiřadíme pořadí. 2. Spočítáme součet pořadí hodnot prvního výběru a součet pořadí hodnot druhého výběru. 3. Na základě těchto dvou součtů vypočteme testové statistiky. Je zřejmé, že odlehlé hodnoty nebudou v tomto testu problém, protože pracujeme s pořadími namísto původních hodnot. 27

Mannův-Whitneyův (U) test Příklad: Chceme srovnat, zda se liší objem hipokampu podle pohlaví. Tzn. hypotézy budou mít tvar: H : F( x) = F( ) a H : F( x) F( ) Postup: 1. Popisná sumarizace objemu hipokampu podle pohlaví. 2. Vykreslení histogramů objemu hipokampu u mužů a u žen, abychom viděli, že není splněn předpoklad normálního rozdělení proto použijeme neparametrický test. 3. Aplikujeme statistický test. 0 y 1 y 4. Nulovou hypotézu zamítneme nebo nezamítneme: p<0,001 < 0,05 zamítáme nulovou hypotézu Objem hipokampu je u mužů a u žen statisticky významně odlišný. 28

Úkol 5. Zadání: Zjistěte, zda se liší MMSE skóre u kontrolních subjektů a pacientů s AD. Řešení: 29

Poznámka 1 Všechny dosud uvedené testy se zabývají hodnocením spojitých náhodných veličin (mohou nabývat jakýchkoliv hodnot v určitém rozmezí). Příklady: výška, váha, vzdálenost, čas, teplota. Uvedené testy lze ale použít i pro hodnocení diskrétních náhodných veličin ale musí to být odůvodnitelné (např. velký počet možných hodnot). Příklady: počet krevních buněk, počet hospitalizací, počet krvácivých epizod za rok. 30

Poznámka 2 Parametrické a neparametrické testy nemusí vycházet stejně. Důvody: 1. Nesplněné předpoklady parametrického testu. 2. Malá síla neparametrického testu. Jsou-li však splněny předpoklady parametrického testu a je-li dostatek dat, bude to vycházet stejně. Měli bychom preferovat parametrické testy, ALE pouze po důkladném ověření jejich předpokladů! 31

Úkol 6. Zadání: Chceme ověřit, zda se liší objem jednotlivých mozkových struktur podle pohlaví. Vykreslete histogramy a rozmyslete si, jaký test (jaké testy) byste použili. 32

Poděkování Příprava výukových materiálů předmětu DSAN01 Analýza dat pro Neurovědy byla finančně podporována prostředky projektu FRVŠ č. 942/2013 Inovace materiálů pro interaktivní výuku a samostudium předmětu Analýza dat pro Neurovědy