ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Podobné dokumenty
ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PŘÍPRAVA BAKALÁŘSKÉ PRÁCE 4. METODIKA A VÝSLEDKY

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení 12: Binární logistická regrese

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Návod na vypracování semestrálního projektu

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

NEPARAMETRICKÉ TESTY

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

= = 2368

Seminář 6 statistické testy

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Neparametrické metody

Cvičení 9: Neparametrické úlohy o mediánech

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

Seminář 6 statistické testy

Jednostranné intervaly spolehlivosti

Statistické testování hypotéz II

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Jednofaktorová analýza rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Vysoká škola ekonomická v Praze

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

KGG/STG Statistika pro geografy

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

Intervaly spolehlivosti

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

Y n = I[X i > m 0 ],

Statistické metody uţívané při ověřování platnosti hypotéz

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Matematická statistika Zimní semestr

4ST201 STATISTIKA CVIČENÍ Č. 7

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Vybrané partie z biostatistiky

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Přednáška X. Testování hypotéz o kvantitativních proměnných

ADDS cvičení 7. Pavlína Kuráňová

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Přednáška IX. Analýza rozptylu (ANOVA)

Matematická statistika Zimní semestr

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Tomáš Karel LS 2012/2013

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Porovnání dvou výběrů

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

15. T e s t o v á n í h y p o t é z

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

Úvod do analýzy rozptylu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Analýza a prezentace dat. Název Data analysis and presentation Způsob ukončení * přednášek týdně 2 hod.

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

12. cvičení z PST. 20. prosince 2017

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Neparametrické testy

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Tomáš Karel LS 2012/2013

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Vysoká škola Báňská Technická univerzita Ostrava Fakulta metalurgie a materiálového inženýrství Katedra kontroly a řízení jakosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Cvičení ze statistiky - 9. Filip Děchtěrenko

15. T e s t o v á n í h y p o t é z

Neparametrické metody v systému STATISTICA

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

ADDS cviceni. Pavlina Kuranova

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Transkript:

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

PRINCIPY STATISTICKÉ INFERENCE identifikace závisle proměnné identifikace kontextu / hypotézy rozdíly ve skupinách = závislost na příslušnosti ke skupině? závislost na hodnotě jiné proměnné? jakého typu je? závislost na čase? opakovaná měření?... identifikace parametru/principu typ (spojitá, kategoriální, předpoklad rozdělení...) parametr polohy? rozptylu? kovariance (nezávislost)? výběr vhodné techniky

PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní populační parametr (o čem je hypotéza) populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr jednovýběrový t-test jednovýběrový Wilcoxonův test znaménkový test test proporcí výběr dvojic párový t-test párový Wilcoxonův test znaménkový test McNemarův test dvouvýběrový t-test Mann-Whitney (dvouvýběrový Wilcoxon) Kolmogorov-Smirnov Fisherův exaktní test c2-test analýza rozptylu (jednoduché třídění, F-test) Kruskal-Wallis Fisherův exaktní test c2-test lineární regrese zobecněná lineární regrese (speciální případy) jádrová regrese (kernel smoothing)... logistická regrese multinomiální logistická regrese dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření smíšená lineární regrese (mixed models) smíšená zobecněná lineární regrese

PŘEHLED TESTŮ V R rozdělení normální spojité alternativní / diskrétní populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr t.test(x) wilcox.test(x) prop.test(x,n,p = 0.5) prop.test(x,n) výběr dvojic t.test(x,y, paired = T) wilcox.test(x,y, paired = T) mcnemar.test(x,y) t.test(x,y) wilcox.test(x,y) fisher.test(x,y) chisq.test(x,y) lm(y~x) kruskal.test(x,group) fisher.test(x,y) chisq.test(x,y) lm(y~x) glm(y~x,family= binomial,gaussian,gamma, inverse.gaussian,poisson, quasi,...) ksmooth(x,y,...) glm(y~x,family=binomial) populační parametr (o čem je hypotéza) dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření lme(y~x,random = ~1 ID) glmer(y~x+(1 ID),family=...)

PŘEHLED TESTŮ V R: Y ZÁVISLÁ, X NEZÁVISLÁ rozdělení normální spojité alternativní / diskrétní populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr t.test(y) wilcox.test(y) prop.test(k,n,p = 0.5) prop.test(k,n) výběr dvojic t.test(y1,y2,paired = T) wilcox.test(y1,y2, paired = T) mcnemar.test(y1,y2) t.test(y1,y2) wilcox.test(y1,y2) fisher.test(x,y) chisq.test(x,y) lm(y~x) kruskal.test(y,x) fisher.test(x,y) chisq.test(x,y) lm(y~x) glm(y~x,family= binomial,gaussian,gamma, inverse.gaussian,poisson, quasi,...) ksmooth(x,y,...) glm(y~x,family=binomial) populační parametr (o čem je hypotéza) dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření lme(y~x,random = ~1 ID) glmer(y~x+(1 ID),family=...)

JEDNOVÝBĚROVÉ TESTY Modelový příklad: výška desetiletých chlapců v roce 1961 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147 m51 = 136.1 t-test umíme z minula: znaménkový test (sign test) kolik chlapců v roce 1961 je menších než populační průměr 1951? pokud průměr stejný, mělo by to být půl napůl, pokud vyšší, bude malých méně 130, 140, 136, 141, 139, 133, 149, 151, 139, 136, 138, 142, 127, 139, 147 totéž jako udělat pro každého rozdíl mezi jeho výškou a m51 a sečíst počet minusů 5 z 15 = 33%, p = 0.20 (jednostranná), nezamítáme oproti t-testu hodně hrubé, ale zase nepotřebuje jiný předpoklad než spojitost pokud je někde 0, vyhodíme měření úplně

JEDNOVÝBĚROVÉ TESTY Wilcoxonův pořadový test (Wilcoxon signed rank test) předpoklad spojité a symetrické stejně jako u znaménkového: uděláme rozdíl mezi výškou každého chlapce a m51, ignorujeme nuly, zbude Nr pozorování pamatujeme si znaménko (sgn) seřadíme si hodnoty vzestupně a nahradíme je pořadím tím přestane záležet na rozdělení jako takovém!! testová statistika rozdělení poloha 0, kritická hodnota v tabulkách / počítač pro Nr 10 má Z-skór přibližně normální rozdělení, případně Yatesova korekce

PÁROVÉ TESTY Máme dvojice provázaných pozorování, jednotlivé dvojice na sobě nezávislé výška otce a syna v dospělosti měření jednoho metabolitu dvěma různými způsoby měření před a po terapii Testujeme, zda se parametr polohy měření ve dvojici liší. Použijeme jednovýběrový test na rozdíl ve dvojici, testujeme, zda je poloha rozdílu 0. t-test (průměr rozdílů je nula, normální nemusí být měření, stačí rozdíly) znaménkový test (polovina rozdílů je záporných) Wilcoxonův párový test (medián rozdílů je 0)

DVOUVÝBĚROVÉ TESTY NX nezávislých pozorování X, NY nezávislých pozorování Y, výběry jsou také navzájem nezávislé (zajistí způsob pořízení dat) chceme vědět, zda X a Y mají stejné rozdělení (ne nutně konkrétní) vědět, zda je jedno rozdělení větší než druhé (tzv. stochasticky dominantní, speciální případ je stejné s vyšším parametrem polohy) nebo stejné má za předpokladu normálního rozdělení se stejným rozptylem různou (nebo stejnou) střední hodnotu

DVOUVÝBĚROVÉ TESTY dvouvýběrový t-test předpoklad normálního rozdělení a stejného rozptylu (pro velká NX a NY není normalita tak podstatná) testujeme shodnost mx = my

DVOUVÝBĚROVÉ TESTY dvouvýběrový t-test

DVOUVÝBĚROVÉ TESTY Wilcoxonův dvouvýběrový test (Mann-Whitneyův)

DVOUVÝBĚROVÉ TESTY Kolmogorov-Smirnovův test

GOODNES-OF-FIT TESTY Kolmogorov-Smirnov je typ tzv. goodnes-of-fit testu Jak dobře odpovídají naše data nějakému jinému typu dat? mají dvě sady dat stejné rozdělení? (tedy nejen třeba polohu) mají data normální rozdělení? Shapiro-Wilkův test jsou pozorované četnosti stejné jako kdyby pocházely z nějakého konkrétního diskrétního rozdělení? c2-test

GOODNES-OF-FIT TESTY c2-test principem testu je porovnání vzdálenosti mezi pozorovanou hodnotou a očekávanou hodnotou čím větší vzdálenost, tím nepravděpodobnější je, že pochází z očekávaného rozdělení O = observed, E = expected, nahoře vzdálenost, dole měřítko má c2 rozdělení se stupni volnosti podle typu úlohy příklady: test Hardy-Weinbergova ekvilibria porovnání dvou křivek přežívání test v kontingenční tabulce (probereme později)

POROVNÁNÍ VÍCE VÝBĚRŮ

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

ANALÝZA ROZPTYLU

DĚKUJI ZA POZORNOST www.biostatisticka.cz