Cvičení z biostatistiky 06

Podobné dokumenty
ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Cvičení z biostatistiky 03

Cvičení 12: Binární logistická regrese

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

(Poslední změna: 14. dubna 2018)

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Analýza dat na PC I.

Vzorová prezentace do předmětu Statistika

Cvičení z biostatistiky 01

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

INDUKTIVNÍ STATISTIKA

4. Zpracování číselných dat

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. Komentované řešení pomocí MS Excel

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Porovnání dvou výběrů

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

KORELACE. Komentované řešení pomocí programu Statistica

ADDS cviceni. Pavlina Kuranova

Základní popisné statistiky a grafy

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Tomáš Karel LS 2012/2013

Třídění statistických dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Korelace. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Popisná statistika. Statistika pro sociology

Úvodem Dříve les než stromy 3 Operace s maticemi

Pravděpodobnost a aplikovaná statistika

MATEMATICKÁ STATISTIKA 1 ( )

Pravděpodobnost a matematická statistika

Matematická statistika Zimní semestr

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Přednáška XI. Asociace ve čtyřpolní tabulce a základy korelační analýzy

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Vybrané partie z biostatistiky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základní popisné statistiky a grafy

Statistika pro geografy

Charakteristika datového souboru

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

You created this PDF from an application that is not licensed to print to novapdf printer (

příklad: předvolební průzkum Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008 příklad: souvisí plánované těhotenství se vzděláním?

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Návod na vypracování semestrálního projektu

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Matematická statistika Zimní semestr

Měření závislosti statistických dat

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Tomáš Karel LS 2012/2013

Mnohorozměrná statistická data

Bodové odhady parametrů a výstupů

Číselné charakteristiky

Informační technologie a statistika 1

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Tomáš Karel LS 2012/2013

Metodologie pro ISK II

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Testy. Pavel Provinský. 19. listopadu 2013

Mnohorozměrná statistická data

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Lineární regrese. Komentované řešení pomocí MS Excel


Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Zápočtová práce STATISTIKA I

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Jednovýběrové testy. Komentované řešení pomocí MS Excel

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

3.4 Určení vnitřní struktury analýzou vícerozměrných dat

Číselné charakteristiky a jejich výpočet

STATISTICKÉ PROGRAMY

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Pearsonův korelační koeficient

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Kontingenční tabulky, korelační koeficienty

Plánování experimentu

Jana Vránová, 3. lékařská fakulta UK

Transkript:

Cvičení z biostatistiky 06 Poslední úprava dokumentu: 16. března 2017. Opakování na větším datovém souboru 1 Úvod Datový soubor Kojeni.csv obsahuje údaje (hodnoty oddělené středníky) o 99 matkách a jejich dětech (data získala Mgr. P. Hajná při přípravě své diplomové práce). Najdeme zde následující proměnné: trvani pocet.deti Vzdelani por.hmotnost por.delka Prs hmotnost delka vyska.m vyska.o Otec vek.m vek.o Dudlik Plan Porodnice Koj24 HochL hoch Hoch délka kojení v prvních 24 týdnech po porodu (týdny); o kolikáté dítě matky jde; vzdělání matky (základní/maturita/vš); porodní hmotnost dítěte (g); porodní délka dítětete (cm); dítě bylo do půl hodiny po porodu přiloženo k prsu (0=ne, 1=ano); hmotnost dítěte ve 24. týdnu po porodu (g); délka dítěte ve 24. týdnu po porodu (cm); výška matky (cm); výška otce (cm); otec u porodu (0=ne, 1=ano); věk matky (roky); věk otce (roky); dítě mělo dudlík (0=ne, 1=ano); dítě bylo podle matky plánované (0=ne, 1=ano); rozlišení dvou porodnic, v nichž byla pořizována data (1=Praha, 2=okresní město); matka kojila ještě ve 24. týdnu po porodu (0=ne, 1=ano); dítě je hoch (FALSE=ne, TRUE=ano); dítě je hoch (0=ne, 1=ano); pohlaví dítěte (dívka/hoch). 1) Načtěte data do R, datovou tabulku nazvěte Kojeni. Menu RStudia: File y Import Dataset y from CSV y Browse... y Name Kojeni Delimiter Semicolon (středník) First Row as Names Nebo příkazem: Kojeni <- read.csv2("./data/kojeni.csv", header=true) 2) Zatím si nezajišt ujte přímý přístup k jednotlivým proměnným v datech, tj. nespouštějte příkaz attach(kojeni). 1

2 Základní popisná statistika 1) Udělejme si představu o charakteristikách jednotlivých proměnných tím, že pro ně spočítáte základní popisné statistiky. Popisné statistiky pro všechny proměnné datového souboru spočteme pomocí příkazu: summary(kojeni) 3 Úprava dat 1) Zjistěme četnosti jednotlivých stupňů vzdělání matky: table(kojeni$vzdelani) 2) Jak vidíme, ve výstupu jsou nevhodně srovnané skupiny (maturita, VŠ, základní). Změňme uspořádání skupin ve vnitřním uložení dat. Kojeni <- transform(kojeni, Vzdelani = factor(vzdelani, levels=c("zakladni", "maturita", "VS"))) Anebo: Kojeni$Vzdelani <- factor(kojeni$vzdelani, levels=c("zakladni", "maturita", "VS")) 3) Znovu spočtěte četnosti jednotlivých stupňů vzdělání matky. 4) K nula-jedničkovým proměnným Prs, Otec, Dudlik, Plan, Koj24 vytvořme factorové protějšky nazvané fprs, fotec, fdudlik, fplan, fkoj24 nabývající hodnot ne, ano. Kojeni$fPrs <- factor(kojeni$prs, labels=c("ne", "ano")) Kojeni$fOtec <- factor(kojeni$otec, labels=c("ne", "ano")) Kojeni$fDudlik <- factor(kojeni$dudlik, labels=c("ne", "ano")) Kojeni$fPlan <- factor(kojeni$plan, labels=c("ne", "ano")) Kojeni$fKoj24 <- factor(kojeni$koj24, labels=c("ne", "ano")) Nebo pomocí příkazu transform: Kojeni <- transform(kojeni, fprs=factor(kojeni$prs, labels=c("ne", "ano"))) a ostatní proměnné analogicky. 5) K proměnné Porodnice vytvořte faktorovou proměnnou fporodnice, jež bude nabývat hodnot Praha, okres. 6) Pro kontrolu znovu spočtěte základní popisné statistiky pro všechny proměnné datového souboru Kojeni. 6 Mají hodnoty ve sloupci Plan rozumnou interpretovatelnost? Pokud ano, jakou? 6 Mají hodnoty ve sloupci Porodnice rozumnou interpretovatelnost? Pokud ano, jakou? 6 Nabývá-li nějaká proměnná pouze dvou hodnot, je lepší ji v datech kódovat jako 0, 1 nebo spíše jako 1, 2? Nebo ještě jinak? 7) Pro pozdější použití si uložme datovou tabulku Kojeni (včetně všech dnes vytvořených proměnných) v R-kovém datového formátu (přípona RData). save(kojeni, file = "./data/kojeni.rdata") 2

4 Tvar rozdělení kvantitativního znaku 1) Umožněme přímý přístup k jednotlivým proměnným datové tabulky Kojeni. Spust te ze skriptového okna příkaz attach(kojeni) 2) Nakresleme normální QQ graf pro věk matek (vek.m) qqnorm(vek.m, pch=16, col="red", xlab="teoreticke kvantily N(0, 1)", ylab="kvantily veku matek", main="normalni QQ graf (vek matek)") qqline(vek.m, lty=6, col="darkblue") 6 Co si myslíte o rozdělení věku matek. Lze předpokládat normalitu? 3) Nakresleme histogram věku matek (přeškálovaný tak, aby odhadoval hustotu). hist(vek.m, prob=true, col="slateblue", xlab="vek matky", ylab="hustota", main="histogram (vek matek)") Pro porovnání lze pak do histogramu přidat hustotu normálního rozdělení, jehož parametry odhadneme z dat curve(dnorm(x,mean(vek.m),sd(vek.m)), col="red", add=true) 4) Spočtěme výběrovou šikmost a špičatost pro věk matek. Pro připomenutí: a 3 = 1 n a 4 = 1 n n i=1 n i=1 ( xi x ) 3 (výběrová šikmost), ( xi x ) 4 3 (výběrová špičatost). 6 Veličiny z i = x i x (i = 1,..., n) se někdy nazývají z-skóry a v R je lze získat pomocí funkce scale. Výběrovou šikmost a špičatost proto snadno spočteme pomocí následujících příkazů: mean(scale(vek.m)^3) mean(scale(vek.m)^4) - 3 ## sikmost ## spicatost 6 Jakých hodnot (přibližně) by výběrová šikmost a špičatost měla nabývat, jestliže bychom mohli předpokládat normalitu rozdělení věku matek? 6 Co lze usuzovat z kladné a co ze záporné šikmosti? 5) Nakreslete normální QQ graf a histogram a spočtěte výběrovou šikmost a špičatost pro hmotnost ve 24. týdnu (hmotnost). 6 Co lze soudit o tvaru rozdělení hmotnosti ve 24. týdnu? 6) Nakreslete normální QQ graf a histogram a spočtěte výběrovou šikmost a špičatost pro výšku otců (vyska.o). 6 Co lze soudit o tvaru rozdělení výšky otců? 3

5 Popisná statistika: kvantitativní a kvalitativní znak 1) Spočtěme základní popisné statistiky pro věk matek (vek.m) v závislosti na místu porodu (fporodnice). tapply(vek.m, fporodnice, summary) tapply(vek.m, fporodnice, sd) tapply(vek.m, fporodnice, var) tapply(vek.m, fporodnice, length) ### smer. odchylky ### rozptyly ### pocty pozorovani 2) Nakresleme krabičkové grafy pro věk matek, ze kterých půjdou snadno porovnat základní charakteristiky rozdělení věku matek v Praze a v okresním městě. plot(vek.m ~ fporodnice, col=c("brown4", "palegreen"), xlab="misto porodu", ylab="vek matek") 6 Domníváte se, že se věková struktura rodících matek liší mezi Prahou a okresem? 6 Později budeme zkoumat odlišnost populačních průměrů věku matek mezi Prahou a okresem pomocí dvouvýběrových testů (t-test, Wilcoxonův test). 3) Spočtěte základní popisné statistiky pro věk matek (vek.m) v závislosti na vzdělání (Vzdelani). 4) Nakreslete krabičkové grafy pro věk matek, ze kterých půjdou snadno porovnat základní charakteristiky rozdělení věku matek v závislosti na vzdělání. 6 Domníváte se, že věk rodící matky závisí na vzdělání? 6 Později budeme zkoumat závislost věku matky na vzdělání pomocí vícevýběrových testů (analýza rozptylu, Kruskalův-Wallisův test). 5) Spočtěte základní popisné statistiky pro věk otců (vek.o) v závislosti na vzdělání matky (Vzdelani) 6) Nakreslete krabičkové grafy pro věk otců, z kterých půjdou snadno porovnat základní charakteristiky rozdělení věku otců v závislosti na vzdělání matky. 6 Domníváte se, že věk otce závisí na vzdělání matky? 6 Popisná statistika: dva kvalitativní znaky 1) Spočtěme kontingenční tabulku pro vzdělání matky (Vzdelani) a plánování dítěte (fplan) a s ní související podmíněné relativní četnosti (podmiňujme vzděláním). table(vzdelani, fplan) prop.table(table(vzdelani, fplan), margin=1) * 100 2) Zobrazme spočtené podmíněné relativní četnosti ve formě sloupcového grafu. plot(fplan ~ Vzdelani, col=c("red", "darkgreen"), xlab="vzdelani matky", ylab="planovane dite") 6 Domníváte se, že pravděpodobnost jevu, že dítě je plánované, závisí na vzdělání matky? 6 Později budeme zkoumat závislost pravděpodobnosti plánovaného rodičovství na vzdělání matky pomocí χ 2 (chí kvadrát) testu nezávislosti. 3) Spočtěte kontingenční tabulku pro vzdělání matky (Vzdelani) a pohlaví dítěte (Hoch) a s ní související podmíněné relativní četnosti (podmiňujte vzděláním). 4) Zobrazte spočtené podmíněné relativní četnosti ve formě sloupcového grafu. 6 Domníváte se, že pohlaví dítěte závisí na vzdělání matky? 4

7 Popisná statistika: dva kvantitativní znaky 1) Spočtěme korelační koeficient mezi hmotností a délkou dítěte ve 24. týdnu (hmotnost a delka). cor(hmotnost, delka) 2) Nakresleme bodový graf závislosti hmotnosti na délce. plot(hmotnost ~ delka, col="red", pch=16, xlab="delka (cm)", ylab="hmotnost (kg)") 3) Nakresleme bodový graf závislosti hmotnosti na délce, ve kterém dále odlišíme chlapce a dívky. divky <- which(hoch=="divka") # kde jsou v datech dívky hosi <- which(hoch=="hoch") # kde jsou v datech hoši plot(delka[divky], hmotnost[divky], col="violet", pch=6, xlab="delka (cm)", ylab="hmotnost (kg)") points(delka[hosi], hmotnost[hosi], col="darkblue", pch=17) Do grafu přidáme legendu legend("bottomright", legend=c("divka", "Chlapec"), col=c("violet","darkblue"), pch=c(6,17)) 6 Domníváte se, že hmotnost nějakým způsobem závisí na délce? 6 Domníváte se, že případná závislost hmotnosti na délce je jiná pro chlapce a jiná pro dívky? 6 Později budeme zkoumat závislost hmotnosti na délce a případné odlišnosti v této závislosti s ohledem na pohlaví pomocí lineární regrese. 4) Uložte si skript a zavřete RStudio. 5