Základní popisné statistiky a grafy

Podobné dokumenty
Základní popisné statistiky a grafy

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Pracovní text a úkoly ke cvičením MF002

Jednovýběrové testy: t-test, Kolmogorovův-Smirnovův test

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Testy o proporci a testy v multinomickém rozdělení

Y n = I[X i > m 0 ],

Popisná statistika. Statistika pro sociology

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Popisná statistika. Komentované řešení pomocí MS Excel

Analýza dat na PC I.

Zápočtová práce STATISTIKA I

Matematická statistika Zimní semestr

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Matematická statistika Zimní semestr

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Matematická statistika Zimní semestr

Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Statistika pro geografy

Charakteristika datového souboru

Nejčastější chyby v explorační analýze

Cvičení z biostatistiky 06

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Aplikovaná statistika v R

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Metodologie pro ISK II

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Matematická statistika Zimní semestr Testy o proporci

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Cvičení z NSTP

Kontingenční tabulky, testy dobré shody a analýza rozptylu (ANOVA)

Testy nezávislosti kardinálních veličin

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Číselné charakteristiky

Přijímací zkouška na navazující magisterské studium 2014

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Renáta Bednárová STATISTIKA PRO EKONOMY

Základy popisné statistiky

z Matematické statistiky 1 1 Konvergence posloupnosti náhodných veličin

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Praktická statistika. Petr Ponížil Eva Kutálková

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD


Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základy popisné statistiky

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Porovnání dvou výběrů

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Tomáš Karel LS 2012/2013

y = 0, ,19716x.

TECHNICKÁ UNIVERZITA V LIBERCI

Číselné charakteristiky a jejich výpočet

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

M praktikum : M0130pr03

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Výpočet pravděpodobností

Základy teorie pravděpodobnosti

Simulace. Simulace dat. Parametry

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pojem a úkoly statistiky

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Informační technologie a statistika 1

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Vzorová prezentace do předmětu Statistika

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

KORELACE. Komentované řešení pomocí programu Statistica

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

StatSoft Jak se pozná normalita pomocí grafů?

Normální (Gaussovo) rozdělení

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kontingenční tabulky a testy shody

MATEMATICKÁ STATISTIKA - XP01MST

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

SEMESTRÁLNÍ PRÁCE Z X37SAS Zadání č. 7

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

STATISTICKÉ ODHADY Odhady populačních charakteristik

Pravděpodobnost a matematická statistika

Vzorová písemka č. 1 (rok 2015/2016) - řešení

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

23. Matematická statistika

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Funkce kotangens

Náhodná veličina a rozdělení pravděpodobnosti

Transkript:

Základní popisné statistiky a grafy 20.11.2018 Úvodní nastavení. Ve svém domovském adresáři si založte speciální adresář nmsa331 na toto cvičení. Z internetové stránky www.karlin.mff.cuni.cz/~hudecova/education/ si stáhněte datový soubor Hosi.txt a uložte si jej do adresáře nmsa331. Můžete si také stáhnout zdrojový kód k dnešnímu cvičení cviceni8.r. Otevřete si program R Studio. Změňte si pracovní adresář pomocí Session Set working directory Choose directory na Váš právě založený adresář nmsa331 nebo napište přímo setwd("h:/nmsa331") Pomocí File Open.. si otevřete soubor cviceni8.r. Během dnešního cvičení můžete bud jen postupně spouštět řádky tohoto souboru nebo pracovat samostatněji a psát si vlastní zdrojový kód na základě tohoto pdf. Nechejte si vypsat seznam objektů, které jsou aktivní: ls() a případně proved te před další prací vyčištění rm(list=ls()) Základní operace v programu R 1. R používáme bud tak, že píšeme příkazy přímo do okna Console nebo (což je preferováno) si příkazy píšeme do zvláštního souboru a odtud je spouštíme. 2. Použijte R jako kalkulačku a spočítejte následující výrazy: 1 + 1, 2 3, 34, 3, log(10), exp(10), sin ( π 2 ). Nechte si vypsat nápovědu k funkci log tak, že zadáte?log. Stejným způsobem si lze zavolat nápovědu ke každé funkci v R. 3. Posloupnost čísel můžeme v R zadat různými způsoby. Vyzkoušejte následující: c(5,6,7,8,9,10) 5:10 (5:10)/5 seq(1,2,by=0.2) seq(1,2,length=10) rep(1,5) 4. Do vektoru nazvaného x si uložíme počty bodů ze zápočtové písemky u chlapců a do y počty bodů u dívek. x=c(55, 60, 63, 64, 67, 68, 75, 75, 84, 86, 87, 95) y=c(20, 63, 64, 70, 75, 82, 87) 1

Pomocí funkcí min, max, mean si spočítejte minimální, maximální a průměrné počty bodů. Kolik máme na cvičení chlapců a kolik dívek? (Použijte funkci length). Procentuální úspěšnost u chlapců a dívek zvlášt bychom spočítali jako mean(x>=60) mean(y>=60) Spočtěte si podobným způsobem, kolik procent studentů dosáhlo lepšího výsledku než Vy. (Společný vektor všech bodů bez rozlišení pohlaví získáte jako z=c(x,y).) Práce s daty popisné statistiky 4. Načtěte si data Hosi.txt. Bud naklikáním pomocí Import data set nebo pomocí příkazu Hosi=read.table("Hosi.txt",header=TRUE) 5. Základní prohlídka dat: Na data můžeme nahlédnout kliknutím na jejich název v seznamu proměnných vpravo nahoře. Užitečné příkazy jsou head(hosi) dim(hosi) summary(hosi) Můžeme vidět, že v datech máme následující proměnné: porodní hmotnost v g, porodní délku v cm, věk matky, věk otce, hmotnost dítěte v 1 roce v g, délku v 1 roce a pořadové číslo dítěte. 6. Dále nás bude zajímat pouze porodní hmotnost. Můžeme předpokládat, že data odpovídají realizaci náhodného výběru. Pro jednoduchost si je uložíme do vektoru hmot a do n si uložíme rozsah výběru. hmot= Hosi$por.hmot (n=length(hmot)) 7. Spočítejte si základní charakteristiky polohy: minimum, maximum, průměr. 8. Spočtěte si medián pomocí funkce median. Pozor ale, R počítá výběrový medián trochu jinak než bylo zavedeno na přednášce (viz dále u kvantilů). 9. Spočítejte si základní charakteristiky variability pomocí funkcí var, sd. Uvědomte si, v jakých jednotkách jsou tyto kvantity a která z nich je tedy vhodnější pro prezentaci v případném výstupu. Variabilitu můžeme ještě charakterizovat rozpětím, které získáme jako rozdíl minima a maxima. 10. Budeme počítat výběrové kvantily porodní hmotnosti. Jak je známo z přednášky, existuje více definic výběrových kvantilů. Zjistíme si, jak je počítá R?quantile 2

Připomeňme si, že na přednášce byly výběrové kvantily definované tak, že pro α (0, 1) je û n (α) = X (kα), kde k α = αn, pokud αn je celé číslo, a k α = nα + 1 pokud αn není celé číslo. Odtud vyčteme, že defaultně je nastaven jiný postup, než jaký byl na přednášce. Pro naše případy tedy budeme používat nastavení type=1. Spočteme si tedy několik výběrových kvantilů (kvant <- quantile(hmot, prob = c(0.1, 0.25, 0.5, 0.75, 0.9), type=1)) Pro α = 0.25 ověříme, že to opravdu odpovídá definici z přednášky: quantile(hmot,prob=0.25,type=1) sort(hmot)[floor(n*0.25)+1] Pro α = 0.99 vyzkoušejte zadat různé typy ve funkci quantile (1 až 9) a porovnejte výsledky. 11. Můžeme si nechat vykreslit obrázek empirické distribuční funkce a její souvislost s výběrovými kvantily: plot.stepfun(ecdf(hmot), verticals=true, do.points=false, ylab=expression(f[n](x)), main="empiricka distribucni funkce") abline(h=0.1, col="blue") abline(h=0.25, col="blue") abline(h=0.5, col="blue") abline(h=0.75, col="blue") abline(h=0.9, col="blue") lines(rep(kvant[1], 2), c(-1,0.1), col="red") lines(rep(kvant[2], 2), c(-1,0.25), col="red") lines(rep(kvant[3], 2), c(-1,0.5), col="red") lines(rep(kvant[4], 2), c(-1,0.75), col="red") lines(rep(kvant[5], 2), c(-1,0.9), col="red") text(rep(2000,5), c(0.1,0.25,0.5,0.75,0.9)+0.02, labels=c(0.1,0.25,0.5,0.75,0.9), col="blue") Funkce ecdf počítá empirickou distribuční funkci. Tu si pak můžeme vykreslit (funkce plot nebo plot.stepfun porovnejte výsledky) nebo můžeme chtít její hodnotu v nějakém bodě. Např. pro 4000 zjistíme výsledek ecdf(hmot)(4000). Připomeňte si, co touto kvantitou odhadujeme. 12. Další charakteristikou variability, založenou na kvantilech, je mezikvartilové rozpětí, které je rozdílem třetího a prvního kvartilu. Můžeme si ho spočítat pomocí funkce IQR. Toto číslo je pro popis dat někdy užitečnější než směrodatná odchylka. Uložte si ho do proměnné iqr a vyzkoušejte, že funkce IQR skutečně počítá to, co má. Popisné grafy 14. Tzv. krabicový graf nám graficky znázorňuje některé popisné statistiky a také nám dává určitou představu o tvaru zkoumaného rozdělení boxplot(hmot, ylab="porodni hmotnost [g]") 3

Pomocí porovnání s popisnými statistikami hmotnosti summary(hmot) zkuste přijít na to, co je na grafu znázorněno. Příkaz abline(h=3140) nám např. vykreslí horizontální čáru s y souřadnicí 3140. Ověřte tímto způsobem, že v tomto našem případě horní a dolní fousy odpovídají hodnotám Q3 + 1.5 IQR a Q1 1.5IQR. Proč právě 1.5 násobek? V případě výběru z N(0, 1) by mezi fousy měla ležet následující proporce dat: pnorm(qnorm(0.75)+1.5*(qnorm(0.75)-qnorm(0.25))) - pnorm(qnorm(0.25)-1.5*(qnorm(0.75)-qnorm(0.25))) V případě jiných rozdělení už to však neplatí! 15. Kdybychom chtěli vědět, které hodnoty leží mimo fousy a jaká je jejich relativní četnost: bobj = boxplot(hmot) sort(bobj$out) length(bobj$out)/n Proměnná bobj je typu list. Pomocí funkce names(bobj) se můžeme nechat vypsat její složky. Vyzkoušejte a nechte si vypsat bobj$stat 16. Samostatně si vykreslete boxploty počtů bodů z písemky. Co jsou zde fousy boxplotu? Jak tedy obecně popíšeme vzhled boxplotu? 17. Nyní se budeme zabývat histogramem, který nám slouží jako odhad hustoty rozdělení. hist(hmot) hist(hmot, prob = TRUE, xlab = "Porodni hmotnost [g]", main = "Histogram") Jaký je rozdíl mezi výše uvedenými dvěma obrázky? 18. U histogramu je poměrně zásadní počet uvažovaných intervalů. Porovnejte: par(mfrow=c(1,2)); hist(hmot, prob = TRUE, breaks=seq(1750, 5100, by=10), main = "Delka intervalu 10"); hist(hmot, prob = TRUE, breaks=seq(1500, 5500, by=1000), main = "Delka intervalu 1000"); par(mfrow=c(1,1)); 19. Funkce hist používá následující výpočet intervalů histogramu: Nejprve se použije tzv. Sturgesovo pravidlo, které říká, že optimální počet intervalů je roven horní celé části z log 2 (n) plus jedna. Pak se použije funkce, která vytvoří hezké intervaly (k <- ceiling(1+log2(length(hmot)))) pretty(hmot, k) 4

Srovnáme tento výsledek s tím, co dělá funkce hist. Opět si uložíme celý objekt (typu list) do proměnné hobj a podíváme se na jeho složky. hobj <- hist(hmot, prob = TRUE) hobj$breaks hobj$counts Spočtěte si pomocí funkce length kolik tedy máme v histogramu sloupců. 20. Porovnáme histogram našich dat s hustotou normálního rozdělení, které by mělo střední hodnotu rovnou průměru našich dat a směrodatnou odchylku rovnou výběrové směrodatné odchylce. xbar <- mean(hmot) smodch <- sd(hmot) xgrid <- seq(xbar - 3.5*smodch, xbar + 3.5*smodch, length = 500) fxgrid <- dnorm(xgrid, mean = xbar, sd = smodch) hist(hmot, prob = TRUE, xlab = "Porodni hmotnost [g]", main = "") lines(xgrid, fxgrid, col = "red", lwd = 2) Nebo to lze provést následovně: hist(hmot,prob=true, xlab = "Porodni hmotnost [g]", main = "") curve(dnorm(x,mean=mean(hmot),sd=sd(hmot)),from=min(hmot),to=max(hmot), add=t,col="red",lwd=2) 21. V budoucnu nás bude často zajímat, zda můžeme data považovat za náhodný výběr z normálního rozdělení. Z grafických metod můžeme použít výše uvedené srovnání histogramu s hustotou, ale z něho někdy nevidíme velmi dobře, jak nám normální rozdělení sedí v krajích. Proto je vhodnější se podívat se na tzv. Q-Q graf. qqnorm(hmot, cex=0.2) qqline(hmot) Q-Q graf obecně srovnává výběrové kvantily spočtené z dat (osa y) s teoretickými kvantily nějakého rozdělení. Zde v případě normálního Q-Q grafu odpovídají y souřadnice přímo uspořádaným datům a x-ové souřadnice kvantilům standardizovaného normálního rozdělení. V případě, že data pocházejí z normálního rozdělení, tak by body měly ležet na přímce. Umíte to teoreticky zdůvodnit? 22. Vykreslíme si Q-Q graf počtu bodů z písemky (bez rozlišení) a necháme si vypsat souřadnice bodů z=c(x,y) qqnorm(z) qqline(z) Pro n > 10 jsou kvantily na ose x počítané na hladině i 1/2 n ppoints. pro i = 1,..., n. Viz také funkce 5

Samostatná práce 1. Spočítejte si základní popisné statistiky (charakteristiky polohy i variability) pro počet bodů z písemky (bez rozlišení, zda jde o chlapce nebo dívku). 2. Spočítejte výběrový 90% kvantil podle definice z přednášky. Kolik studentů má více bodů než je hodnota tohoto kvantilu? 3. Spočítejte si výběrový 95% kvantil pomocí funkce quantile i přímo podle definice z přednášky. Máte shodný výsledek? 4. Vykreslete si empirickou distribuční funkci počtu bodů. Vyznačte v ní 90% kvantil. 5. Nakreslete si histogram počtu bodů. Přidejte do obrázku hustotu normálního rozdělení s vhodnými parametry. 6. Vykreslete si vedle sebe do jednoho obrázku boxplot počtu bodů chlapců a dívek. 7. Vyrobte ručně Q-Q graf počtu bodů z písemky, tj. bez použití funkcí qqnorm a qqline. 8. Generování pseudonáhodných čísel: Podíváme se na to, že i data generovaná přímo z normálního rozdělení nemusí pro malé n vypadat ideálně : n=50 data=rnorm(n,mean=20,sd=1) hist(data,prob=t) curve(dnorm(x,mean=mean(data),sd=sd(data)),from=min(data),to=max(data), add=true,col="red") qqnorm(data) qqline(data) Zkuste zvyšovat n a dívat se, jaké obrázky dostáváte. 9. Proved te podobný postup jako v 8. pro exponenciální rozdělení. Použijte funkci rexp(n,rate=1). 6