ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Podobné dokumenty
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

PŘÍPRAVA BAKALÁŘSKÉ PRÁCE 4. METODIKA A VÝSLEDKY

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Cvičení 12: Binární logistická regrese

Návod na vypracování semestrálního projektu

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Základy biostatistiky (MD710P09) ak. rok 2007/2008

Základy biostatistiky (MD710P09) ak. rok 2008/2009

1. Číselné posloupnosti - Definice posloupnosti, základní vlastnosti, operace s posloupnostmi, limita posloupnosti, vlastnosti limit posloupností,

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Jana Vránová, 3. lékařská fakulta UK

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvodem Dříve les než stromy 3 Operace s maticemi

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistické metody uţívané při ověřování platnosti hypotéz

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Přednáška X. Testování hypotéz o kvantitativních proměnných

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pokročilejší metody: výběr. Začínáme otázkami na povahu vysvětlované proměnné a končíme otázkami na povahu vysvětlujících proměnných

Kontingenční tabulky, korelační koeficienty

Porovnání dvou výběrů

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

Intervaly spolehlivosti

Fisherův exaktní test

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

KGG/STG Statistika pro geografy

Jana Vránová, 3. lékařská fakulta, UK Praha

Tomáš Karel LS 2012/2013

Testy dobré shody TESTY DOBRÉ SHODY (angl. goodness-of-fit tests), : veličiny X, Y jsou nezávislé nij eij

INDUKTIVNÍ STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Statistické testování hypotéz II

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Jednostranné intervaly spolehlivosti

Kontingenční tabulky, korelační koeficienty

Seminář 6 statistické testy

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Aplikovaná statistika v R - cvičení 2

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Analýza dat z dotazníkových šetření

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

KGG/STG Statistika pro geografy

Korelační a regresní analýza

12. cvičení z PST. 20. prosince 2017

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Úvod do analýzy rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tomáš Karel LS 2012/2013

Testy o proporci a testy v multinomickém rozdělení

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Jednofaktorová analýza rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ADDS cviceni. Pavlina Kuranova

Pravděpodobnost a aplikovaná statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Poznámky k předmětu Aplikovaná statistika, 11. téma

Kontingenční tabulky a testy shody

Náhodná veličina a rozdělení pravděpodobnosti

Cvičení ze statistiky - 5. Filip Děchtěrenko

Pravděpodobnost a matematická statistika

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Cvičení 9: Neparametrické úlohy o mediánech

Matematická statistika Zimní semestr Testy o proporci

Předmluva S o u h rn... 89

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Aplikovaná statistika v R - cvičení 3

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Transkript:

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz

PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní populační parametr (o čem je hypotéza) populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr jednovýběrový t-test jednovýběrový Wilcoxonův test znaménkový test test proporcí výběr dvojic párový t-test párový Wilcoxonův test znaménkový test McNemarův test dvouvýběrový t-test Mann-Whitney (dvouvýběrový Wilcoxon) Kolmogorov-Smirnov Fisherův exaktní test c2-test analýza rozptylu (jednoduché třídění, F-test) Kruskal-Wallis Fisherův exaktní test c2-test lineární regrese zobecněná lineární regrese (speciální případy) jádrová regrese (kernel smoothing)... logistická regrese multinomiální logistická regrese dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření smíšená lineární regrese (mixed models) smíšená zobecněná lineární regrese

PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní populační parametr (o čem je hypotéza) populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr jednovýběrový t-test jednovýběrový Wilcoxonův test znaménkový test test proporcí výběr dvojic párový t-test párový Wilcoxonův test znaménkový test McNemarův test dvouvýběrový t-test Mann-Whitney (dvouvýběrový Wilcoxon) Kolmogorov-Smirnov Fisherův exaktní test c2-test analýza rozptylu (jednoduché třídění, F-test) Kruskal-Wallis Fisherův exaktní test c2-test lineární regrese zobecněná lineární regrese (speciální případy) jádrová regrese (kernel smoothing)... logistická regrese multinomiální logistická regrese dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření smíšená lineární regrese (mixed models) smíšená zobecněná lineární regrese

PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní populační parametr (o čem je hypotéza) populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr jednovýběrový t-test jednovýběrový Wilcoxonův test znaménkový test test proporcí výběr dvojic párový t-test párový Wilcoxonův test znaménkový test McNemarův test dvouvýběrový t-test Mann-Whitney (dvouvýběrový Wilcoxon) Kolmogorov-Smirnov Fisherův exaktní test c2-test analýza rozptylu (jednoduché třídění, F-test) Kruskal-Wallis Fisherův exaktní test c2-test lineární regrese zobecněná lineární regrese (speciální případy) jádrová regrese (kernel smoothing)... logistická regrese multinomiální logistická regrese dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření smíšená lineární regrese (mixed models) smíšená zobecněná lineární regrese

HODNOCENÍ KVALITATIVNÍCH ZNAKŮ znaky v nominálním měřítku (neuspořádané hodnoty) existují techniky i pro ordinální měřítko: více struktury = přesněji zacílené testy příklady počet osob s krevní skupinou A, B, AB, 0 počet dětí narozených v jednotlivých měsících v roce v Praze vzdělání matky novorozence (ZŠ, SŠ, VŠ) statistické jednotky třídíme podle hodnoty znaku do k neslučitelných skupin výsledkem je k-tice (náhodný vektor) četností modelem pro tento vektor je multinomické rozdělení

MULTINOMICKÉ ROZDĚLENÍ důležitý předpoklad!

HODNOCENÍ KVALITATIVNÍCH ZNAKŮ Co nás zajímá? A. u jedné proměnné: jsou pravděpodobnosti výskytu jednotlivých kategorií takové, jaké očekáváme? ekvivalent otázky na polohu spojitého rozdělení test typu goodness-of-fit B. u dvou (nebo více) populací: jsou pravděpodobnosti výskytu jednotlivých kategorií u obou skupin stejné? ekvivalent otázky na stejný parametr polohy (dvouvýběrový test) test homogenity C. dvou proměnných (znaků): jsou na sobě závislé? ekvivalent korelačního koeficientu nebo regrese test nezávislosti

c -TEST 2 ve všech třech případech vede na c2-test porovnání vzdálenosti mezi pozorovanou hodnotou a očekávanou hodnotou nezapomeň, že očekávané četnosti musí být alespoň 5

A. TEST DOBRÉ SHODY chisq.test(x = c(56,72,54,18),p = c(0.35,0.35,.20,.10))

A. TEST DOBRÉ SHODY 2.8 4.9 chisq.test(x = c(56,72,54,18),p = c(0.35,0.35,.20,.10))

B. TEST HOMOGENITY tedy jakoby ve skutečnosti pocházejí z jedné populace

B. TEST HOMOGENITY

B. TEST HOMOGENITY splněn předpoklad použití testu chisq.test(rbind(c(121,120,79,33),c(118,95,121,30)))

A1. HYPOTÉZA O STRUKTUŘE očekávané četnosti zatím vycházely z populačních dat nebo přímo z naměřených dat co když chceme testovat nějakou vlastnost, strukturu? příklad: Hardy-Weinbergova rovnováha fenotypy AA, Aa, aa předpoklad (který testujeme) je, že odpovídají rozložení genotypů za předpokladu nezávislého křížení a absence selekce jaké očekáváme rozložení? pravděpodobnosti parametrizujeme četností jedné z alel násobení pravděpodobností je ta nezávislost

METODA MAXIMÁLNÍ VĚROHODNOSTI multinomické rozdělení 2x četnost AA + 1x četnost Aa děleno počtem všech alel tedy počet alel A na počet všech míst pro alely

A1. HYPOTÉZA O STRUKTUŘE 1 st. volnosti, nelze použít chisq.test, napsat nebo v balíku

C. TESTOVÁNÍ NEZÁVISLOSTI DVOU ZNAKŮ řádky sloupce

C. TESTOVÁNÍ NEZÁVISLOSTI DVOU ZNAKŮ

C. TESTOVÁNÍ NEZÁVISLOSTI DVOU ZNAKŮ lze na to nahlížet i jako na populaci nekuřáků atd.

D. TESTOVÁNÍ SYMETRIE ( PÁROVOST )

D. TESTOVÁNÍ SYMETRIE ( PÁROVOST )

2x2 TABULKA

2x2 TABULKA Princip Fisherova testu: pravděpodobnost vzniku konkrétní tabulky při pevných marginálních četnostech

FISHERŮV EXAKTNÍ TEST pravděpodobnost realizace tabulky II.:

RR = RISK RATIO = PODÍL RIZIK 20 a více odběrů 10 a méně odběrů onkologické onemocnění a c nemá onkol. onemocnení b d a+b c+d celkem R 20 = riziko o.o., pokud 20 a více odběrů = a / (a+b) R 10 = riziko o.o, pokud 10 a méně odběrů = c / (c+d) RR = risk ratio = podíl rizik = R 20 / R 10 RR < 1... riziko je menší pro osoby s 20 a více odběry RR > 1... riziko je větší pro osoby s 20 a více odběry data slouží k odhadu skrytého skutečného RR odhad je vždy zatížený možností náhody = je tu možnost chyby

RR = RISK RATIO = PODÍL RIZIK 20 a více odběrů 10 a méně odběrů onkologické onemocnění 31 14 nemá onkol. onemocnení 236 251 celkem 267 265 R 20 = riziko o.o., pokud 20 a více odběrů = 31 / 267 = 11.6 % R 10 = riziko o.o, pokud 10 a méně odběrů = 14 / 265 = 5.3 % RR = risk ratio = R 20 / R 10 = 2.2 RR > 1... riziko je větší pro osoby s 20 a více odběry RR < 1... riziko je menší pro osoby s 20 a více odběry 95 % konfidenční interval 1.2 4.0, p-hodnota = 0.008 data slouží k odhadu skrytého skutečného RR odhad je vždy zatížený možností náhody = je tu možnost chyby

OR = ODDS RATIO = PODÍL ŠANCÍ 20 a více odběrů 10 a méně odběrů onkologické onemocnění a c nemá onkol. onemocnení b d a+b c+d celkem O 20 = šanci mít o.o. při 20 a více odběrech = a : b (tedy a / b) O 10 = šanci mít o.o. při 10 a méně odběrech = c : d (tedy c / d) OR = odds ratio = podíl šancí = O 20 / O 10 = ad / bc OR < 1... šance je menší pro osoby s 20 a více odběry OR > 1... šance je větší pro osoby s 20 a více odběry pro vzácné jevy je OR dobré přiblížení RR vhodný vždy když nemáme výběr z populace a při modelování

OR = ODDS RATIO = PODÍL ŠANCÍ 20 a více odběrů 10 a méně odběrů onkologické onemocnění 31 14 nemá onkol. onemocnení 236 251 celkem 267 265 R 20 = riziko o.o., pokud 20 a více odběrů = 31 / 236 = 0.13136 R 10 = riziko o.o, pokud 10 a méně odběrů = 14 / 251 = 0.05577 RR = risk ratio = R 20 / R 10 = 2.355 RR > 1... riziko je větší pro osoby s 20 a více odběry RR < 1... riziko je menší pro osoby s 20 a více odběry 95 % konfidenční interval 1.2 4.0, p-hodnota = 0.008 data slouží k odhadu skrytého skutečného RR odhad je vždy zatížený možností náhody = je tu možnost chyby

PŘEHLED TESTŮ rozdělení normální spojité alternativní / diskrétní populační parametr (o čem je hypotéza) populační průměr populační medián (distribuční funkce) pravděpodobnost jevu / (ne)závislost / poměr šancí jeden výběr jednovýběrový t-test jednovýběrový Wilcoxonův test znaménkový test test proporcí výběr dvojic párový t-test párový Wilcoxonův test znaménkový test McNemarův test dvouvýběrový t-test Mann-Whitney (dvouvýběrový Wilcoxon) Kolmogorov-Smirnov Fisherův exaktní test c2-test analýza rozptylu (jednoduché třídění, F-test) Kruskal-Wallis Fisherův exaktní test c2-test lineární regrese zobecněná lineární regrese (speciální případy) jádrová regrese (kernel smoothing)... logistická regrese multinomiální logistická regrese dva nezávislé výběry (třídění na dvě kategorie / závislost na binární proměnné) k nezávislých výběrů (závislost na kategoriální proměnné) závislost na spojité proměnné opakovaná měření smíšená lineární regrese (mixed models) smíšená zobecněná lineární regrese

OR = ODDS RATIO = PODÍL ŠANCÍ má vlastnost nemá vlastnost má onemocnění a c nemá onemocnění b d a+b c+d celkem Omá = šance mít o. když má vlastnost = a : b (tedy a / b) Onemá = šance mít o. když nemá vlastnost = c : d (tedy c / d) OR = odds ratio = podíl šancí = Omá / Onemá = ad / bc OR < 1... šance je menší pro osoby, které mají podmínku OR > 1... šance je větší pro osoby, které mají podmínku pro vzácné jevy je OR dobré přiblížení RR vhodný vždy když nemáme výběr z populace a při modelování

OD OR K LOGISTICKÉ REGRESI Y/X má onemocnění nemá onemocnění celkem má vlastnost nemá vlastnost P(Y = 1, X = 1) = π1 P(Y = 1, X = 0) = π0 P(Y = 0, X = 1) = 1 - π1 P(Y = 0, X = 0) = 1 - π0 P(X = 1) P(X = 0) OY X = 1 = šance mít o. když má vlastnost = π1 / (1 - π1 ) OY X = 0 = šance mít o. když nemá vlastnost = π0 / (1 - π0 ) πi / (1 - πi ) nabývá hodnot mezi 0 a + předpokládáme, že není πi nulová log(πi / (1 - πi )) nabývá hodnot mezi - a + to už se dá dobře modelovat nějakou křivkou!

LOGISTICKÁ REGRESE Y je binární proměnná, Y1,.., Yn nezávislé, má binomiální rozdělení B(ni,πi) nebo také potom

LOGISTICKÁ REGRESE X může být binární, kategoriální, faktor nebo spojitá z modelu logistické regrese vypadávají přímo log(or) v podobě koeficientů b hodnota b vyjadřuje podíl šancí pro osobu s hodnotou vysvětlující proměnné x+1 oproti osobě s x (za podmínky, že všechno ostatní je stejné, jako v obvyklé regresi) b < 0 odpovídá OR < 1, b > 0 odpovídá OR > 1 konfidenční, intervaly, testy nulovosti b,... odhady optimalizací podle metody maximální věrohodnosti

LOGISTICKÁ REGRESE - PŘÍKLAD plánování těhotenství různí charakteristiky matky primipara věk rodičky vzdělání rodičky podrobnější ukázky viz cvičení 7a.R

DĚKUJI ZA POZORNOST www.biostatisticka.cz