Cvičení z biostatistiky 03

Podobné dokumenty
Cvičení z biostatistiky 06

Cvičení z biostatistiky 01

Ovládání Open Office.org Calc Ukládání dokumentu : Levým tlačítkem myši kliknete v menu na Soubor a pak na Uložit jako.

Velmi stručný návod jak dostat data z Terminálu Bloomberg do R

PRÁCE S TEXTOVÝM EDITOREM 6.4 TEXTOVÉ POLE

Vzorce. Suma. Tvorba vzorce napsáním. Tvorba vzorců průvodcem

(Poslední změna: 14. dubna 2018)

Tabulkový kalkulátor

Základní popisné statistiky a grafy

Formátování pomocí stylů

Formuláře. Téma 3.2. Řešený příklad č Zadání: V databázi formulare_a_sestavy.accdb vytvořte formulář pro tabulku student.

Zpracování chybějících dat a dat mimo rozsah

OFF - LINE. PRO ZAČÁTEČNÍKY Zdroje textů a obrázků

Pracovat budeme se sestavou Finanční tok. S ostatními se pracuje obdobně. Objeví se předdefinovaná sestava. Obrázek 1

METODICKÝ POKYN PRÁCE S MS PowerPoint - POKROČILÍ. Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky.

Základní popisné statistiky a grafy

Beton 3D Výuková příručka Fine s. r. o. 2010

Hodnocení soutěžních úloh

Semestrální práce Mozaika aneb Co všechno umí pan Voronoi

CZ.1.07/2.2.00/ )

MS SQL Server 2008 Management Studio Tutoriál

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Obsah. při vyšetření pacienta. GDT souboru do programu COSMED Omnia GDT souboru z programu COSMED Omnia a zobrazení výsledků měření v programu MEDICUS

Zadání soutěžních úloh

Gymnázium Ostrava Hrabůvka, příspěvková organizace Františka Hajdy 34, Ostrava Hrabůvka

Návod k aplikaci DPH Kontrol

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Při vytváření šablony vytváříte soubor (POTX), ve kterém jsou zaznamenány všechny úpravy kombinace předlohy

František Hudek. červenec 2012

Návod pro obsluhu přístroje ZEEnit 650 Stanovení kadmia v kapalném vzorku pomocí ETAAS

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Google Apps. dokumenty 4. verze 2012

Soutěž: Nejméně kliknutí

Tomáš Karel LS 2012/2013

Nápověda k aplikaci GraphGUI

Vytvoření tabulky: V následujícím okně si editujete okno tabulky. Vyzkoušejte si viz podklad Cv_09_Podklad_tabulka.xls a Cv_09_Tabulka.dwg.

Tento dokument popisuje instalaci a používání elektronické cvičebnice Styx.

Ignijet_2007 Externí monitor

INFORMATIKA PRO ZŠ. Ing. Veronika Šolcová

Výsledný graf ukazuje následující obrázek.

Stručný návod na program COMSOL, řešení příkladu 6 z Tepelných procesů.

Matematická statistika Zimní semestr

Zadání soutěžních úloh

Popis ovládání. Po přihlášení do aplikace se objeví navigátor. Navigátor je stromově seřazen a slouží pro přístup ke všem oknům celé aplikace.

2017 CARAT "New design"

Úvodní příručka. Správa souborů Kliknutím na kartu Soubor můžete otevřít, uložit, vytisknout a spravovat své soubory Wordu.

Úvod do problematiky ÚPRAVY TABULKY

43 HTML šablony. Záložka Šablony v systému

Vítá vás Corel PHOTO-PAINT, výkonná aplikace pro úpravu rastrových obrázků, která umožňuje retušovat fotografie a vytvářet originální grafiku.

Excel tabulkový procesor

Modul 6. Multimediální prezentace

INFORMATIKA. aplikační software pro práci s informacemi TSUNAMI. Pracovní list pro žáky. Gymnázium K. V. Raise, Hlinsko, Adámkova 55

Postup instalace přídavného modulu pro Aktuální zůstatky (CBA) v programu MultiCash KB (MCC)

Jeden z mírně náročnějších příkladů, zaměřený na úpravu formátu buňky a především na detailnější práci s grafem (a jeho modifikacemi).

SCIA.ESA PT. Export a import souborů DWG a DXF

Nápověda k aplikaci EA Script Engine

J2 sklad a cenovky. Ovládání programu. Program spustíte pomocí ikony J2 sklad na ploše počítače.

CZ.1.07/2.2.00/ )

Začínáme pracovat s tabulkovým procesorem MS Excel

Nápověda k systému CCS Carnet Mini

MIDAM Simulátor Verze 1.5

Prezentace (Presentation) - ECDL / ICDL Sylabus 6.0

HLEDEJCENY.mobi. Obsah. Mobilní verze e-shopu. Důvody instalace

Program slouží k provozní evidenci chemických látek, směsí, archivaci bezpečnostních listů a tvorbě rychlých přehledů.

Nápověda ke cvičení 5

generi biotech nastavení real-time PCR cykleru Applied Biosystems 7300 a 7500 Fast Real-Time System (Applied Biosystems)

Doklady, u kterých dodavatelé použijí ustanovení 92a zákona o DPH, je třeba do programu zapsat následovně:

MALUJEME. ZÁKLADNÍ VZDĚLÁVÁNÍ, INFORMAČNÍ A KOMUNIKAČNÍ TECHNOLOGIE, 1. STUPEŇ ZŠ. Autor prezentace Mgr. Hana Nová

Závěrečná práce. AutoCAD Inventor (Zadání D1)

Pracovní text a úkoly ke cvičením MF002

Konvertor diakritiky 3. Instalace

Vyúčtování daně z příjmu ve Mzdách Profi 2015

Na obrázku níže je vidět jedno z možných nastavení umístění grafu Ve sloupci pro graf. Spuštění první plovoucí sady. Spuštění druhé plovoucí sady

INFORMATIKA MS WORD TVORBA VLASTNÍHO STYLU

Grafy v R. Barvy. kódu. Doporučuji využívat předdefinovaných palet, dostupné jsou tyto: heat

EXCEL IV. část. 7. Vzorce a funkceuložení, tisk a doplňky 8. Používané zkratky. Zpracoval: Ing. Pavel branšovský. pro potřebu VOŠ a SŠSE

Free and open source v geoinformatice. Příloha 2 - Praktické cvičení gvsig

Svolávací systém Uživatelský manuál

Export tabulky výsledků

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 4. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Pokyny pro žáky k testování písemné zkoušky na počítači

Školní kolo soutěže Mladý programátor 2013, kategorie A, B. Úloha č. 1 - Baltík v zoo

Reliance 3 design OBSAH

Manuál k programu KaraokeEditor

MS Excel 3: Pokročilý kurz

Tabulkový procesor Excel tvorba grafů v Excelu

Connect Genius V2. Instalace programu.

1. Nastavení dokumentu

Nastavení stránky : Levým tlačítkem myši kliknete v menu na Soubor a pak na Stránka. Ovládání Open Office.org Draw Ukládání dokumentu :

Y n = I[X i > m 0 ],

Tvorba digitálního modelu terénu

Popisná statistika. Komentované řešení pomocí MS Excel

STATISTICA Téma 1. Práce s datovým souborem

Základní nastavení textového editoru Word 8.0 (Microsoft Office 97)

Základní popis Toolboxu MPSV nástroje

Multimediální prezentace MS PowerPoint I

Efekty počítačové prezentace

Cvičení software Groma základní seznámení

Příručka pro aplikaci KSnapshot

Projektová dokumentace GED 2006

Transkript:

Cvičení z biostatistiky 03 Poslední úprava dokumentu: 14. března 2017. Popisná statistika pro dvě kvantitativní proměnné 1 Úvod 1) Nemáte-li z minula uložen datový soubor Deti23 v R formátu (soubor Deti23.RData), zkopírujte ho ze složky V:\turcicova\data do své složky J:\biostat\data. 2) Spust te RStudio z nabídky. 3) Do skriptového okna napište a následně spust te následující příkazy pro úklid : rm(list=ls()) setwd("j:/biostat") 4) Pomocí horní nabídky si uložte právě vytvářený skriptový soubor: File y Save as... 5) Načtěte data Deti23, která máme od minula uložena v R formátu v souboru Deti23.RData. 6 Bud v Menu nahoře: File y Open file... a potvrdit soubor Deti23.RData ze složky J:\biostat\data. Do you want to load the R data file into the global environment? Yes 6 Nebo příkazem: load("./data/deti23.rdata") 6) Prohlédněte si data a ujistěte se, že jsou správně načtena. nebo View(Deti23) print(deti23) 7) Zajistěte si přímý přístup k jednotlivým proměnným datového souboru Deti23. Ze skriptového okna spust te příkaz: attach(deti23) 1

2 Kovariance a korelace 1) Výběrová kovariance mezi váhou a délkou dítěte. 6 Ze skriptového okna spust te příkaz: cov(vaha, delka) 2) Korelační koeficient mezi váhou a délkou. cor(vaha, delka) 3) Ruční výpočet těchto veličin (tj. pomocí vzorečku z přednášky) by vypadal takto: 6 Výběrová kovariance: n <- nrow(deti23) sxy <- sum((vaha - mean(vaha)) * (delka -mean(delka))) / (n - 1) print(sxy) 6 Korelační koeficient: rxy <- sxy / (sd(vaha) * sd(delka)) print(rxy) 3 Grafické zobrazení dvourozměrných kvantitativních dat 1) Bodový graf váhy proti délce. plot(delka, vaha) 6 Úpravou příkazu lze obrázek dále zkrášlovat: plot(delka, vaha, 6 V argumentu pch si můžete zkusit změnit třináctku za libovolné číslo od 0 do 25. 6 V argumentu col můžete použít i jinou barvu. Seznam předdefinovaných barev se objeví, spustíte-li příkaz colors() 2) Dále obrázek vylepšeme přidáním nadpisu: plot(delka, vaha, main="závislost váhy na délce", 3) V nadpisu nemusí být pouze text. Dejme do nadpisu hodnotu korelačního koeficientu. plot(delka, vaha, main=cor(delka, vaha), 4) Pokračujme ve vylepšení obrázku tím, že korelační koeficient v nadpisu zaokrouhlíme na smysluplný počet desetinných míst. plot(delka, vaha, main=round(cor(delka, vaha), 2), 5) Další zlepšení, v nadpise se objeví r = hodnota korelačního koeficientu. plot(delka, vaha, main=paste("r =", round(cor(delka, vaha), 2)), 2

6) V dalším kroku si pomocí barev a symbolů rozlišíme chlapce a dívky. Připomínám, že pohlaví udávají proměnná hoch (1 pro chlapce, 0 pro dívku), respektive proměnná Gender ( M pro chlapce, F pro dívky). 6 Na naší úrovni je asi nejprůhlednější následující konstrukce: divky <- which(gender=="f") # kde jsou v datech dívky hosi <- which(gender=="m") # kde jsou v datech hoši plot(delka[divky], vaha[divky], col="purple", pch=16, main=paste("r =", round(cor(delka, vaha), 2)), xlab="delka (cm)", ylab="vaha (kg)") points(delka[hosi], vaha[hosi], col="darkblue", pch=17) Příkaz plot otevírá nové grafické okno a vykresluje do něj. Příkaz points přidává body do již existujícícho grafu. 6 Následující dvě konstrukce jsou méně průhledné, ale oceníte je u proměnných s velkým počtem kategorií, kdy by bylo postupné vykreslování pomocí points zdlouhavé. 6 barevné odlišení s využitím číselné proměnné hoch barvy <- c("purple", "darkblue") symboly <- c(16, 17) plot(delka, vaha, col=barvy[hoch+1], pch=symboly[hoch+1], main=paste("r =", round(cor(delka, vaha), 2)), xlab="delka (cm)", ylab="vaha (kg)") 6 barevné odlišení s využitím faktorové proměnné Gender barvy <- c(f="purple", M="darkblue") symboly <- c(f=16, M=17) plot(delka, vaha, col=barvy[gender], pch=symboly[gender], main=paste("r =", round(cor(delka, vaha), 2)), xlab="delka (cm)", ylab="vaha (kg)") Příkazy z bodu 5) si rozhodně nemusíte pamatovat! Stačí pouze vědět, že existují a v případě potřeby si je dohledáte. 7) Úplně nakonec přidáme do obrázku též legendu. legend(69, 13, legend=c("divka", "Chlapec"), col=barvy, pch=symboly) 4 Souvislost mezi bodovým grafem a korelačním koeficientem Podívejme se nyní, jak spolu souvisí mrak bodů v bodovém grafu a korelační koeficient. 1) Načteme si knihovnu s demo ukázkami library(teachingdemos) Ukázku na korelaci spustíme příkazem: run.cor2.examp(n=100) 6 V okénku Correlation Demo manipulujte s hodnotou korelačního koeficientu a dívejte se, co se stane s mrakem bodů na obrázku. 3

5 Vztah mezi věkem otce a věkem matky 1) Spočtěte korelační koeficient mezi věkem otce a věkem matky. cor(vekmatky, vekotce) 2) Nakreslete bodový graf věku otce proti věku matky. rveky <- round(cor(vekmatky, vekotce), 2) plot(vekmatky, vekotce, xlab="vek matky", ylab="vek otce", pch=16, col="slateblue", main=paste("r =", rveky)) 3) Přidejme do grafu přímku y = x. To jest, pro body na přímce máme oba rodiče stejného věku. abline(0, 1, col="red", lty=4) 6 Příkaz abline(a, b) kreslí přímku y = a + b x. 6 Do hodnoty argumentu lty můžete vložit libovolnou hodnotu od 1 do 6 a získáte pokaždé jiný typ čáry. 4) Zjistíme, pro které děti je otec stejně starý jako matka: which(vekmatky == vekotce) 5) Indexy zajímavých pozorování lze přidat do grafu. Spust te ze skriptového okna příkaz identify(vekmatky, vekotce) 6 Levým tlačítkem myši označte v obrázku zajímavá pozorování. 6 Až budete mít body označené, klikněte na tlačítko Finish v pravém horním rohu (nebo stistkněte Esc). 6 U vybraných pozorování se vám zobrazí indexy. 6 Tento postup lze opakovat. 6) Můžeme též vypsat hodnoty všech veličin z dat, u kterých je otec stejně starý jako matka: subset(deti23, vekmatky == vekotce) 7) Zjistíme, pro které děti je otec mladší či stejně starý jako matka a vypíšeme jednotlivá pozorování: which(vekmatky >= vekotce) subset(deti23, vekmatky >= vekotce) 6 Pravděpodobnostní (QQ) diagram 6 Mnohé metody, s nimiž se ještě potkáme, předpokládají u kvantitativních dat, že odpovídají normálnímu (Gaussovu) rozdělení. 6 Shodu rozdělení dat s předpokládaným rozdělením lze graficky posoudit pomocí pravděpodobnostního (QQ) grafu. 4

1) Nakresleme normální QQ graf pro váhu dítěte (vaha): qqnorm(vaha) qqline(vaha) 6 Připomeňte si z přednášky, čemu odpovídají x-ové a y-ové souřadnice nakreslených bodů. 6 Ukazuje obrázek na nenormalitu rozdělení váhy dětí? 2) Nakreslete normální QQ graf pro věk otců (vekotce). 6 Ukazuje obrázek na nenormalitu rozdělení věku otců? 7 Vytvoření podmnožiny dat Někdy je potřeba zpracovávat pouze podmnožinu dat, jež splňuje nějakou podmínku (např. zajímají nás pouze dívky, nebo pouze děti vyšší než nějaký limit apod.) Bude proto potřeba umět vybrat si z dat podmnožinu splňující určitou podmínku (to už umíme, viz příkaz subset) a poté tuto podmnožinu uložit. 1) V případě, že chceme podmnožinu původních dat ukládat a dále s ní pracovat, doporučuji odpojit přístup k proměnným původních dat (vyhnete se tak možným nedorozumněním plynoucím ze shodných názvů proměnných ve dvou datech původních a podmnožiny). 2) detach(deti23) Řekněme, že dále budeme chtít pracovat pouze s dětmi, u nichž je otec starší než matka. Vytvořenou podmnožinu si budeme chtít uložit do datové tabulky DetiOsM. DetiOsM <- subset(deti23, vekotce > vekmatky) 3) Tuto podmnožinu si můžete uložit (ale není to nutné, nebudeme ji už dále potřebovat) pomocí známého příkazu: save(detiosm, file = "./data/detiosm.rdata") 5

4) Pokud bychom chtěli dále pracovat s tímto nově vytvořeným datovým souborem, bylo by šikovné zajistit si přímý přístup k jeho proměnným: attach(detiosm) 5) My se ale vrátíme k našim původním datům budeme dále pracovat se všemi dětmi. Odpojte tedy data DetiOsM a umožněte přístup k Deti23: detach(detiosm) attach(deti23) 6) Sami si můžete zkusit vytvořit nebo se alespoň podívat na (podmnožinu nebudete nikam ukládat) následující podmnožiny: (a) Děti, u kterých je otec jinak starý než matka. (b) Děti, u kterých je otec o alespoň 5 let starší než matka. (c) Děti, u kterých se věk rodičů liší o právě jeden rok. (d) Dívky. (e) Dívky, které mají otce staršího než matku. (f) Děti, které mají délku nejvýše 74 cm nebo nejméně 79 cm. Nápověda: Ke specifikaci jednotlivých podmnožin si vybírejte z následujících logických výrazů (Subset expression): 6 Gender == "F" 6 vekotce - vekmatky > 4 6 hoch!= 1 6 hoch == 0 6 Gender!= "M" 6 vekotce!= vekmatky 6 delka <= 74 delka >= 79 6 vekotce - vekmatky >= 5 6!(delka > 74 & delka < 79) 6 Gender == "F"& vekotce > vekmatky 6 abs(vekotce - vekmatky) == 1 Poznámka: Jestliže s vytvořenou podmnožinou neplánujete dále pracovat (tj. jenom vás zajímá, jak vypadá), není potřeba provádět dokola detach(deti23), attach(deti23). 8 Konec práce Než zavřete všechna okna, nezapomeňte si uložit poslední změny ve skriptovém souboru: File y Save nebo klávesovou skratkou Ctrl-s. 6