RNDr. Marie Forbelská, Ph.D. 1

Podobné dokumenty
M cvičení : GLM01a (Toxic Chemical Production Data)

M cvičení : GLM03a (The Working Activities of Bees)

M praktikum : M0130pr03

M cvičení : M6120cv02 (Práce s daty v R)

M cvičení : GLM04b (Vztah mezi Poissonovým a

velkou variabilitou: underdispersion, overdispersion)

O čem bych tu rád povídal...

Pracovní text a úkoly ke cvičením MF002

Lineární regrese. Komentované řešení pomocí MS Excel

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Cvičení z biostatistiky 03

Výsledný graf ukazuje následující obrázek.

Ukázka knihy z internetového knihkupectví

Popisná statistika. Komentované řešení pomocí MS Excel

M cvičení : GLM01b (Porodní hmotnost novorozenců)

Testy nezávislosti kardinálních veličin

Pravidla pro tvorbu tabulek a grafů v protokolech z laboratoří fyziky

M cvičení : GLM05b (Trojrozměrné kontingenční tabulky)

Základní popisné statistiky a grafy

Základní popisné statistiky a grafy

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Úkol 12. Přemysl Bejda. 22. března SAS slouží pro statistiky, jeho využití není příliš flexibilní, protože v něm nelze psát vlastní procedury.

Lineární algebra s Matlabem cvičení 3

Pokročilé metody geostatistiky v R-projektu

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

UNIVERZITA PARDUBICE. Fakulta elektrotechniky a informatiky. Data mining a project R Martina Kršíková

Cvičení z biostatistiky 06

Cvičení 11. Klasifikace. Jan Přikryl. 14. března 2018 ČVUT FD

František Hudek. červenec 2012

MĚŘENÍ STATISTICKÝCH ZÁVISLOSTÍ

f(x) = ax + b mocnin (čili čtverců, odtud název metody) odchylek proložených hodnot od naměřených hodnot byl co (ax i + b y i ) 2 2(ax i + b y i ).

KORELACE. Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Free and open source v geoinformatice. Příloha 3 - Praktické cvičení R Studio

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

Tutoriál programu ADINA

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Regresní analýza 1. Regresní analýza

Zdokonalování gramotnosti v oblasti ICT. Kurz MS Excel kurz 6. Inovace a modernizace studijních oborů FSpS (IMPACT) CZ.1.07/2.2.00/28.

Kalibrace a limity její přesnosti

8 ANALÝZA ČASOVÝCH ŘAD SEZÓNNÍ SLOŽKA

Kinematika rektifikace oblouku (Sobotkova a Kochaňského), prostá cykloida, prostá epicykloida, úpatnice paraboly.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Odhad parametrů N(µ, σ 2 )

MS Excel grafická prezentace dat

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Aplikovaná statistika v R - cvičení 2

František Hudek. červenec 2012

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Stručný návod k programu Octave

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Dopravní plánování a modelování (11 DOPM )

Návod pro práci s SPSS

Tvorba grafů v programu ORIGIN

MS SQL Server 2008 Management Studio Tutoriál

KVADRATICKÁ KALIBRACE

Derivace funkcí více proměnných

Grafická prezentace a numerické modelování geochemických dat Základy programovacího jazyka R (II.)

3.2 3DgrafyvMaple 106 KAPITOLA 3. UŽITÍ MAPLE PŘI ŘEŠENÍ KVADRIK

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Odhad - Problémy se sdruženým rozdělením pravděpodobnosti

Bodové odhady parametrů a výstupů

Úvodem Dříve les než stromy 3 Operace s maticemi

Národníinformačnístředisko pro podporu jakosti

Nápověda ke cvičení 5

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

Projekt OPVK - CZ.1.07/1.1.00/ Matematika pro všechny. Univerzita Palackého v Olomouci

Tvorba interaktivních dokumentů v Maple

Bodové a intervalové odhady parametrů v regresním modelu

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Téma: Práce se základními objekty, výplní a obrysem

(Poslední změna: 14. dubna 2018)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

VYUŽITÍ MATLAB WEB SERVERU PRO INTERNETOVOU VÝUKU ANALÝZY DAT A ŘÍZENÍ JAKOSTI

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Vybrané statistické metody. You created this PDF from an application that is not licensed to print to novapdf printer (

Základy práce v programovém balíku Corel

Metoda nejmenších čtverců Michal Čihák 26. listopadu 2012

Regresní a korelační analýza

Předmluva 9 Obsah knihy 9 Typografické konvence 10 Informace o autorovi 10 Poděkování 10

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

zpracováním dat, o kterém jsme hovořili v předchozí kapitole, úzce souvisí grafy.

RNDr. Marie Forbelská, Ph.D. 1

MS EXCEL. MS Excel

Název DUM: VY_32_INOVACE_2B_16_ Tvorba_grafů_v_MS_Excel_2007

Pojem a úkoly statistiky

Globální extrémy. c ÚM FSI VUT v Brně. 10. ledna 2008

2. Bodové a intervalové rozložení četností

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

X37SGS Signály a systémy

Grafy v R. Barvy. kódu. Doporučuji využívat předdefinovaných palet, dostupné jsou tyto: heat

Analýza dat na PC I.

Cvičení 9: Neparametrické úlohy o mediánech

4EK211 Základy ekonometrie

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Algoritmizace prostorových úloh

Transkript:

RNDr. Marie Forbelská, Ph.D. 1 M61 3. cvičení : M61cv03 (Základy grafiky v R) A. Úrovně grafiky: High-level je vhodná pro tvorbu jednoduchých grafů, patří sem funkce jako plot\verb, hist, dotplot atd. Low-level umožňuje mnohem více nastavení jednotlivých prvků grafu, dokreslování různých objektů do grafu (kruhy, text, body, matematické křivky atd.) Interaktivní grafika dovoluje interaktivně přidávat data do grafu a zpětně informace extrahovat. Pomocí příkazu demo(graphics) (popř. demo(image)) podívejte se na pár příkladů. V případě, že jsou tyto grafy nedostačující, existuje celá řada dalších knihoven, které obsahují velké množství dalších typů grafů (např. balíčky grid, lattice, iplots, misc3d, rgl, scatterplot3d. Existuje celá řada balíčků pro práci s mapami, např. sp, maps, maptools, rgdal, RgoogleMaps atd. B. Na adrese http://www.math.muni.cz/~kolacek/vyuka/vypsyst/navod_r.pdf. máte k dispozici materiál, ve kterém si prostudujte především 8. kapitolu. C. Příklady: Příklad 1 Popis dat je v souboru toxic.txt, samotná data jsou uložena v souboru toxic.dat. Nejprve načteme popisný soubor pomocí příkazu readlines. Díky tomu, že je příkaz v závorkách, ihned se zobrazí obsah proměnné popis. > filetxt <- paste(data.library, "toxic.txt", sep = "") > con <- file(filetxt) > (popis <- readlines(con)) [1] "" [2] "==============================" [3] "Artificial data record the volume of a toxic chemical " [4] "that is produced as a by-product in a certain industrial" [5] "manufacturing process." [6] "" [7] "The file toxic.dat contains these variables:" [8] "" [9] " The volume of toxic by-product produced (in litres)" [10] " The temperature of the manufacturing process (in^oc)" [11] "CAT The weight of catalyst (in kg)" [12] "METHOD The method used to produce the chemical (qualitative)" > close(con)

2 Lineární statistické modely II (3. cvičení) Nyní načteme datový soubor toxic.dat pomocí příkazu read.table. Příkazem str vypíšeme strukturu datového rámce a nakonec i jeho obsah: > filedat <- paste(data.library, "toxic.dat", sep = "") > data <- read.table(filedat, header = TRUE) > str(data) data.frame : 8 obs. of 4 variables: $ : int 39 26 36 22 18 32 26 $ : int 90 85 70 80 80 85 90 85 $ CAT : num 1.5 1 1.5 2 1 2.5 1 2 $ METHOD: Factor w/ 2 levels "A","B": 1 1 2 1 2 2 1 2 > data CAT METHOD 1 90 1.5 A 2 39 85 1.0 A 3 26 70 1.5 B 4 36 80 2.0 A 5 22 80 1.0 B 6 18 85 2.5 B 7 32 90 1.0 A 8 26 85 2.0 B Jazyk R má k dispozici celou řadu grafů, pomocí kterých lze data znázornit. Vytvoříme nejprve dva grafy vedle sebe (viz parametr mfrow=c(1,2)), a to vždy pomocí high-level příkazu plot. Kromě toho použijeme low-level příkazy points, grid a legend. > LA <- data$method == "A" > LB <- data$method == "B" > par(mfrow = c(1, 2)) > plot(data$ ~ data$, type = "n", ylim = c(0, 50), xlab = "Temperature (in^oc)", ylab = "Volume of toxic by-product", main = "") > points(data$[la], data$[la], pch = 21, col = "darkred", bg = "red", cex = 1.5) > points(data$[lb], data$[lb], pch = 22, col = "darkgreen", bg = "green", cex = 1.5) > grid(nx = NULL, ny = NULL, col = "grey", lty = 2) > legend("bottomleft", paste("method", c("a", "B")), col = c("darkred", "darkgreen"), pch = 21:22, ncol = 2, cex = 1, pt.bg = c("red", "green"), pt.cex = 1.5) > plot(data$ ~ data$cat, type = "n", ylim = c(0, 50), xlab = "The weight of catalyst (in kg)", ylab = "Volume of toxic by-product", main = popis[1]) > points(data$cat[la], data$[la], pch = 21, col = "darkred", bg = "red", cex = 1.5) > points(data$cat[lb], data$[lb], pch = 22, col = "darkgreen", bg = "green", cex = 1.5) > grid(nx = NULL, ny = NULL, col = "grey", lty = 2) > legend("bottomleft", paste("method", c("a", "B")), col = c("darkred", "darkgreen"), pch = 21:22, ncol = 2, cex = 1, pt.bg = c("red", "green"), pt.cex = 1.5)

RNDr. Marie Forbelská, Ph.D. 3 Volume of toxic by product 0 10 40 50 METHOD A METHOD B Volume of toxic by product 0 10 40 50 METHOD A METHOD B 1.0 1.5 2.0 2.5 Temperature (in^oc) The weight of catalyst (in kg) Obrázek 1: Dva bodové grafy vedle sebe pomocí příkazu plot. Všimněte si, jaký graf dostaneme, použijeme li jednoduchý příkaz > plot(data) 1.0 1.4 1.8 CAT 1.0 1.5 2.0 2.5 1.0 1.4 1.8 METHOD 1.0 1.5 2.0 2.5 Obrázek 2: Maticové bodové grafy pomocí příkazu plot.

4 Lineární statistické modely II (3. cvičení) Další možností je vykreslit maticový bodový graf pomocí příkazu pairs. Díky volbě pch=21 (vyplněný znak) a především s využitím bg=as.numeric(data$method) se nám podařilo barevně odlišit obě dvě metody. > pairs( ~ + CAT, data = data, pch = 21, bg = as.numeric(data$method), cex = 1.5, main = popis[1]) CAT 1.0 1.5 2.0 2.5 1.0 1.5 2.0 2.5 Obrázek 3: Maticové bodové grafy pomocí příkazu pairs. Příkaz plot lze použít i k vykreslení krabicových grafů, a to díky faktu, že že jedna z uvažovaných proměnných je typu faktor. > plot(data$ ~ data$method, main = popis[1], horizontal = TRUE, ylab = substr(popis[9], 9, nchar(popis[9])), xlab = "Methods", col = "steelblue1")

RNDr. Marie Forbelská, Ph.D. 5 Methods A B The volume of toxic by product produced (in litres Obrázek 4: Krabičkový graf pro dle metod pomocí příkazu plot. Příklad 2 Zůstaneme u datového souboru z předešlého příkladu. Ukážeme si vykreslení bodového grafu pomocí speciálních grafů z knihovy lattice, která obsahuje velmi sofistikované grafy vhodné pro práci s datovými soubory, které obsahují vedle spojitých proměnných také celou řadu kategoriálních proměnných. Vykreslíme nyní bodový graf pomocí příkazu splom z knihovny lattice. Prostudujte si tento příkaz pomocí nápovědy, tj. například pomocí příkazu?splom. Chceme-li u těchto sofistikovaných grafů přidat legendu (díky specifikacím uvedených u parametru key), je třeba ošetřit, aby se tiskly stejné symboly ve stejných barvách jak v legendě, tak v jednotlivých panelech (viz grafická systémová proměnná superpose.symbol). > trellis.par.set(col.whitebg()) > super.sym <- trellis.par.get("superpose.symbol") > super.sym$pch <- c(21, 22) > super.sym$cex <- rep(1.5, length(super.sym$pch)) > graf <- splom(~data[1:3], groups = METHOD, data = data, pch = c(21, 22), cex = 1.5, bg = c(1, 2), panel = panel.superpose, as.table = T, key = list(title = popis[1], columns = 2, cex = 1.5, points = Rows(super.sym, 1:2), text = list(paste("method", levels(data$method)))))

6 Lineární statistické modely II (3. cvičení) METHOD A METHOD B 2.5 2.0 2.5 2.0 CAT 1.5 90 80 85 90 1.0 1.5 1.0 85 80 80 75 70 75 80 70 Scatter Plot Matrix Obrázek 5: Maticové bodové grafy pomocí příkazu splom z knihovny lattice. Velmi frekventovaným typem grafu z knihovny lattice je graf vytvořený příkazem xyplot. Ukážeme jeho různé využití. Nejprve vytvoříme graf, který pro každou metodu vytvoří samostatný panel. Body (volba "p" u parametru type) navíc proložíme regregresní přímkou (volba "r" u parametru type). Volba "g" u parametru type znamená nastavení parametru grid (mřížka). Dále si všimněme, že název každého panelu jsme rozšířili o slovo Method (viz nastavení parametrů u volby strip). > trellis.par.set(col.whitebg()) > graf <- xyplot( ~ METHOD, data = data, as.table = T, type = c("g", "p", "r"), main = popis[1], cex = 1.15, strip = strip.custom(factor.levels = paste("method", levels(data$method))))

RNDr. Marie Forbelská, Ph.D. 7 Method A Method B Obrázek 6: Dvoupanelový bodový graf (spolu s proloženou regresní přímkou) pomocí příkazu xyplot z knihovny lattice. Nyní vytvoříme graf pouze s jedním panelem, ale obě metody rozlišíme graficky, a to tak, že přidáme volbu group=method. Body (volba "p" u parametru type) opět proložíme regregresní přímky (volba "r" u parametru type). > trellis.par.set(col.whitebg()) > super.sym <- trellis.par.get("superpose.symbol") > super.sym$pch <- c(0, 1) > super.sym$cex <- rep(1.15, length(super.sym$pch)) > graf <- xyplot( ~, group = METHOD, data = data, type = c("g", "p", "r"), pch = c(0, 1), cex = 1.5, bg = c(1, 2), panel = panel.superpose, key = list(title = popis[1], columns = 2, cex = 1.15, points = Rows(super.sym, 1:2), text = list(paste("method", levels(data$method)))))

8 Lineární statistické modely II (3. cvičení) Method A Method B Obrázek 7: Jednopanelový bodový graf (spolu s proloženou regresní přímkou) pomocí příkazu xyplot z knihovny lattice. Dalším zajímavým grafem je tzv. dotplot. Volba "a" (average) u parametru type způsobí, že do grafu se zakreslí úsečka spojující výběrové průměry proměnné obou metod. > graf <- dotplot( ~ METHOD, data = data, type = c("p", "a"), main = popis[1]) A B Obrázek 8: Bodový graf (spolu se spojnicí skupinových průměrů) pomocí příkazu dotplot z knihovny lattice.

RNDr. Marie Forbelská, Ph.D. 9 Vzhledem k tomu, že u metody B dva body splývají, provedeme jejich náhodné posunutí (rozmítnutí) pomocí parametru jitter.x. > graf <- dotplot( ~ METHOD, data = data, type = c("p", "a"), main = popis[1], jitter.x = TRUE) A B Obrázek 9: Rozmítnutý (jittered) bodový graf (spolu se spojnicí skupinových průměrů) pomocí příkazu dotplot z knihovny lattice. D. Úkol: Napište příkazy v jazyku R tak, aby vznikl následující graf. Otazníky nahrad te skutečnými hodnotami. Návod: text týkající se procent doplňte pomocí příkazu mtext. Hustota N(0,1) 0.0 0.1 0.2 0.3 0.4? %? %? %? %? %? %? %? % 4 2 0 2 4 Obrázek 10: Hustota standardizovaného normálního rozdělení