Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Podobné dokumenty
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Náhodná veličina a rozdělení pravděpodobnosti

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Návod na vypracování semestrálního projektu

Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

Zápočtová práce STATISTIKA I

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Analýza dat na PC I.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB Technická univerzita Ostrava

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

(Poslední změna: 14. dubna 2018)

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Cvičení 12: Binární logistická regrese

Přednáška. Diskrétní náhodná proměnná. Charakteristiky DNP. Základní rozdělení DNP

KGG/STG Statistika pro geografy

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Charakterizace rozdělení

Vybraná rozdělení náhodné veličiny

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Pravděpodobnost a aplikovaná statistika

Charakteristika datového souboru

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

pravděpodobnosti, popisné statistiky

Manuál pro zaokrouhlování

Téma 22. Ondřej Nývlt

Výběrové charakteristiky a jejich rozdělení

Praktická statistika. Petr Ponížil Eva Kutálková

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Inovace bakalářského studijního oboru Aplikovaná chemie

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

P13: Statistické postupy vyhodnocování únavových zkoušek, aplikace normálního, Weibullova rozdělení, apod.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Analýza dat s využitím MS Excel

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Tomáš Karel LS 2012/2013

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Základy pravděpodobnosti a statistiky. Popisná statistika

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

PRAVDĚPODOBNOST A STATISTIKA

I. D i s k r é t n í r o z d ě l e n í

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

VŠB Technická univerzita Ostrava BIOSTATISTIKA

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =


Přednáška X. Testování hypotéz o kvantitativních proměnných

p(x) = P (X = x), x R,

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

ROZDĚLENÍ SPOJITÝCH NÁHODNÝCH VELIČIN

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

VŠB Technická univerzita Ostrava

Definice spojité náhodné veličiny zjednodušená verze

Základy teorie pravděpodobnosti

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

MATEMATICKÁ STATISTIKA

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

ADDS cviceni. Pavlina Kuranova

Průzkumová analýza dat

Tématické okruhy pro státní závěrečné zkoušky. magisterské studium

Nejčastější chyby v explorační analýze

Diskrétní náhodná veličina

Pravděpodobnost a statistika I KMA/K413

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Diskrétní náhodná veličina. November 12, 2008

Transkript:

Pracovní adresář getwd() # výpis pracovního adresáře setwd("c:/moje/pracovni") # nastavení pracovního adresáře setwd("c:\\moje\\pracovni") # nastavení pracovního adresáře Nápověda?funkce # nápověda pro funkci funkce help(funkce) # nápověda pro funkci funkce Instalování a načtení nového balíčku install.packages("novy") # instalace balíčku jménem novy library(novy) # načte balíček jménem novy Importování datového souboru data = read.csv2(file="c:/martina/sta1/data/aku.csv data = read.csv2(file="http://am-nas.vsb.cz/lit40/data/aku.csv") data = readworkbook("c:/martina/sta1/data/aku.xlsx",sheet=1, startrow=4,colnames=true,cols=2:9) # balíček openxlsx Práce s datovým souborem data.s<-stack(data.tab) # převod z tabulky data.tab do standardního datového formátu a uložení do dat. rámce data.s data.s.bezna<-na.omit(data.s) # odstranění chybějících hodnot (NA) ze data.s a uložení do dat. rámce data.s.bezna data.tab<-unstack(data.s) # převod ze standardního datového formátu data.s (v prvním sloupci musí být hodnoty proměnné (numeric), ve druhém sloupci id (factor)) do tabulky a uložení do data.tab data.mat=data.matrix(data.data.frame) # Do proměnné data.mat (datový typ matrix) se uloží tabulka zapsaná v proměnné data.data.frame (datový typ data.frame) Obecnější způsob převodu dat z tabulky do standardního dat. formátu data.s=reshape(data.tab, # dat. rámec, který bude převáděn do std. dat. formátu direction="long", varying=c("a","b"), v.names="hodnoty", times=c("sk.a","sk.b"), timevar="skupina") 1

# direction - parameter určující long nebo wide formát (nutno nastavit na "long") # varying - názvy proměnných, které mají být zařazeny do sloupce hodnot (values) # v.names - pojmenování sloupce hodnot (values names) # times - varianty id (jaké id bude přiřazeno hodnotám ze sloupců uvedených v parametru varying) # timevar - pojmenování proměnné, v níž je uvedeno id Způsob převodu párových dat z tabulky do standardního dat. formátu data.s=reshape(data.tab, # dat. rámec, který bude převáděn do std. dat. formátu direction="long", varying=list(c("pred.a","před.b"),c("po.a","po.b")) v.names=c("hodnoty.pred","hodnoty.po") times=c("sk.a","sk.b"), timevar="skupina") Rozdělení pravděpodobnosti Pro každé rozdělení pravděpodobnosti nabízí R několik funkcí, které mají speciální prefixy (první znaky názvu): r # generování náhodných výběrů d # hustota pravděpodobnosti f(x), pravděpodobnostní funkce P(X = x) p # kumulativní pravděpodobnostní funkce P(X x) q # kvantilová funkce F 1 (x) (Pozor! Distribuční funkce je v R definována jako F(x) = P(X x).) Diskrétní rozdělení pravděpodobnosti -binom # binomické rozdělení -hyper # hypergeometrické rozdělení -nbinom # negativně binomické rozdělení (Pozor! V R je definováno jako počet neúspěchů před k-tým úspěchem.) -geom # geometrické rozdělení (Pozor! V R je definováno jako počet neúspěchů před prvním úspěchem.) -pois # Poissonovo rozdělení Spojitá rozdělení pravděpodobnosti -unif # rovnoměrné rozdělení -norm # normální rozdělení -exp # exponenciální rozdělení -weibull # Weibullovo rozdělení -lnorm # logaritmicko-normální rozdělení -t # Studentovo rozdělení -chisq # Chí-kvadrát rozdělení -f # Fisherovo-Snedecorovo rozdělení 2

Explorační analýza Kategoriální proměnná (proměnná barva, která je uložena v souboru my.data) summary(my.data$barva) # tabulka četností proměnné barva barplot(summary(my.data$barva)) # sloupcový graf pie(summary(my.data$barva)) # výsečový graf Kvantitativní proměnná (proměnná vyska, která je uložena v souboru my.data) summary(my.data$vyska) # míry polohy (minimum, dolní kvartil, medián, průměr, horní kvartil, maximum) proměnné vyska length(my.data$vyska) # rozsah min(my.data$vyska) # minimum mean(my.data$vyska) # průměr quantile(my.data$vyska,0.03) # 3% kvantil max(my.data$vyska) # maximum sd(my.data$vyska) # směrodatná odchylka 100*sd(my.data$vyska)/mean(my.data$vyska) # variační koeficient (%) skewness(my.data$vyska) # šikmost (balíček moments) kurtosis(my.data$vyska) # špičatost (balíček moments Pozor! Nejde o normovanou špičatost. Pro výpočet normované špičatosti je nutno odečíst 3. Zajištění toho, že f-ce kurtosis bude volána z balíčku moments: moments::kurtosis(my.data$vyska)) boxplot(my.data$vyska) # krabicový graf hist(my.data$vyska) # histogram qqnorm(my.data$vyska) # QQ-graf pro posouzení normality plot(density(my.data$vyska)) # jádrový odhad hustoty pravděpodobnosti hist(my.data$vyska,freq=false,density=-1) lines(density(my.data$vyska)) # histogram + odhad hustoty Kvantitativní proměnná dle tříd (pro každou statistickou jednotku jsou v souboru my.data uvedeny atributy vyska(numeric) a skupina(factor) data ve standardním datovém formátu) Poznámka: Doporučujeme kategoriální proměnnou (factor) před vlastní analýzou překódovat na číselné hodnoty (tj. každé variantě proměnné přiřadit číselný kód 1, 2, 3, ). tapply(my.data$vyska,my.data$skupina,mean) # průměr proměnné vyska pro každou variantu proměnné skupina (směrodatnou odchylku, min, max, šikmost a špičatost určíte obdobně) tapply(my.data$vyska,my.data$skupina,quantile,probs=0.25) # dolní kvartil proměnné vyska pro každou variantu proměnné skupina (obdobně určíte libovolné kvantily) boxplot(split(my.data$vyska,my.data$skupina)) # vícenásobný krabicový graf 3

Statistická indukce pro jednu proměnnou Ověření normality shapiro.test(my.data$vyska) # Shapirův-Wilkův test aplikovaný na proměnnou vyska Test o směrodatné odchylce / rozptylu vartest(my.data$vyska,sigma.squared=400,alternative="two.sided", conf.level=0.95) # jednovýběrový oboustranný test o směr. odchylce/rozptylu aplikovaný na proměnnou vyska (H 0 : σ = 400, H A : σ 400 ) + oboustranný 95% intervalový odhad střední hodnoty, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} (balíček EnvStats) Test o střední hodnotě t.test(my.data$vyska,mu=5,alternative="two.sided",conf.level=0.95) # jednovýběrový oboustranný t-test aplikovaný na proměnnou vyska (H 0 : μ = 5, H A : μ 5 ) + oboustranný 95% intervalový odhad střední hodnoty, parametr alternative může nabývat hodnot { two.sided, less, greater } Testy o mediánu wilcox.test(my.data$vyska,mu=5,alternative="two.sided",conf.level= 0.95,conf.int=TRUE) # jednovýběrový oboustranný Wilcoxonův test aplikovaný na proměnnou vyska (H 0 : x 0.5 = 5, H A : x 0.5 5 ) + oboustranný 95% intervalový odhad mediánu, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} signmedian.test(my.data$vyska,mu=5,alternative="two.sided",conf.le vel=0.95,conf.int=true) # jednovýběrový oboustranný znaménkový test aplikovaný na proměnnou vyska (H 0 : x 0.5 = 5, H A : x 0.5 5 ) + oboustranný 95% intervalový odhad mediánu, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} Test o parametru binomického rozdělení binom.test(20,120,0.18,alternative="two.sided",conf.level=0.95) # jednovýběrový oboustranný Clopperův-Pearsonův test parametru binomického rozdělení (H 0 : π = 0.18, H A : π 0.18 ) + 95% Clopperův-Pearsonův intervalový odhad parametru binomického rozdělení pro p = 20, parametr alternative může nabývat hodnot 200 {"two.sided", "less", "greater"} 4

Statistická indukce pro dvě nezávislé proměnné (standardní datový formát) Kvantitativní proměnná dle tříd (pro každou statistickou jednotku jsou v souboru my.data uvedeny atributy vyska(numeric) a skupina(factor) data ve standardním datovém formátu, atribut skupina nabývá dvou variant) Ověření normality tapply(my.data$vyska,my.data$skupina,shapiro.test) # test normality proměnné vyska pro každou variantu proměnné skupina Test o shodě rozptylů var.test(my.data$vyska~my.data$skupina,ratio=1,alternative="two.si ded",conf.level=0.95) # test poměru rozptylů (H 0 : σ 1 2 σ2 = 1, H A : σ 2 1 2 σ2 1 ) + 2 oboustranný 95% intervalový odhad poměru rozptylů, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} Testy o shodě středních hodnot t.test(my.data$vyska~my.data$skupina,mu=0,var.equal=true,alternati ve="two.sided",conf.level=0.95) # dvouvýběrový t-test (H 0 : μ 1 μ 2 = 0, H A : μ 1 μ 2 0 ) + oboustranný 95% intervalový odhad rozdílu středních hodnot pro homoskedasticitní data, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} t.test(my.data$vyska~my.data$skupina,mu=0,var.equal=false,alternat ive="two.sided",conf.level=0.95) # Aspinové-Welchův test (H 0 : μ 1 μ 2 = 0, H A : μ 1 μ 2 0 ) + oboustranný 95% intervalový odhad rozdílu středních hodnot pro heteroskedasticitní data, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} Testy o shodě mediánů wilcox.test(my.data$vyska~my.data$skupina,mu=0,alternative="two.si ded",conf.int=true,conf.level=0.95) # Mannův-Whitneyův test (H 0 : x 0,51 x 0,52 = 0, H A : x 0,51 x 0,52 0 ) + oboustranný 95% intervalový odhad rozdílu mediánů, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} Testy o shodě parametrů dvou binomických rozdělení prop.test(c(10,20),c(1000,2100),conf.level=0.95,alternative="two.s ided",conf.level=0.95) # Pearsonův chí kvadrát test shody parametrů dvou binomických rozdělení s Yatesovou korekcí (H 0 : π 1 π 2 = 0, H A : π 1 π 2 0, kde p 1 = 10 1000, p 2 = 20 2100 ) + oboustranný 95% intervalový odhad rozdílu parametrů dvou binomických rozdělení, parametr alternative může nabývat hodnot {"two.sided", "less", "greater"} 5

Statistická indukce pro tři a více nezávislé proměnné (standardní datový formát) Kvantitativní proměnná dle tříd (pro každou statistickou jednotku jsou v souboru my.data uvedeny atributy vyska(numeric) a skupina(factor) data ve standardním datovém formátu, atribut skupina nabývá tří nebo více variant) Ověření normality tapply(my.data$vyska,my.data$skupina,shapiro.test) # test normality proměnné vyska pro každou variantu proměnné skupina Vícevýběrové testy shody rozptylů bartlett.test(my.data$vyska~my.data$skupina) # Bartlettův test levenetest(my.data$vyska~my.data$skupina) # Leveneův test (balíček car) ANOVA anova<-aov(my.data$vyska~my.data$skupina) # do proměnné anova se uloží výsledky testu ANOVA summary(anova) # tabulka ANOVA (v proměnné anova musí být uložen výstup funkce aov) TukeyHSD(anova) # Tukeyho post hoc analýza (v proměnné anova musí být uložen výstup funkce aov) plot(tukeyhsd(anova)) # grafická prezentace Tukeyho post hoc analýzy oneway.test(my.data$vyska~my.data$skupina) # ANOVA s Welchovou korekcí (pro heteroskedasticitní data s normálním rozdělením) Kruskalův-Wallisův test kruskal.test(my.data$vyska~my.data$skupina) # Kruskalův-Wallisův test dunn.test(my.data$vyska,my.data$skupina,method= "bonferroni") # Dunnové post hoc analýza s Bonferroniho korekcí (balíček dunn.test) 6

Analýza závislosti dvou kategoriálních proměnných (kontingenční tabulky) Pro každou statistickou jednotku jsou v souboru my.data uvedeny atributy vaha(factor) a nemoc(factor) data ve standardním datovém formátu, atribut vaha nabývá variant {nizka,normalni}, atribut onemocneni nabývá variant {ano,ne} Tabulka sdružených četností data<-table(my.data$vaha,my.data$nemoc,dnn=c("váha","onemocnění")) # kontingenční tabulka (tabulka sdružených četností) nebo data<-matrix(c(12,23,45,54),nrow=2, byrow=false) # přímé zadání kontingenční tabulky (bez popisu řádků a sloupců) vaha\nemoc ano ne nizka 12 45 normalni 23 54 rownames(data)<- c("nizka","normalni") # popisky řádků v kontingenční tabulce colnames(data)<- c("ano","ne") # popisky sloupců v kontingenční tabulce Chí-kvadrát test nezávislosti (s Yatesovou korekcí) reseni<-chisq.test(data) # uložení výsledků chí-kvadrát testu nezávislosti s Yatesovou korekcí do proměnné reseni, v proměnné data musí být uložena tabulka sdružených četností reseni # výsledek testu (v proměnné reseni musí být uložen výstup funkce chisq.test) reseni$observed # pozorované četnosti O i (v proměnné reseni musí být uložen výstup funkce chisq.test) reseni$expected # očekávané četnosti E i (v proměnné reseni musí být uložen výstup funkce chisq.test) reseni$residuals # rozdíl mezi pozorovanými a očekávanými četnostmi O i E i (v proměnné reseni musí být uložen výstup funkce chisq.test) Mozaikový graf mosaicplot(data,color=true,xlab="váha", ylab="onemocnění") # mozaikový graf, v proměnné data musí být uložena tabulka sdružených četností Míry kontingence cramersv(data) # Cramerovo V, v proměnné data musí být uložena tabulka sdružených četností (balíček lsr) 7

Speciální metody pro asociační tabulky epi.2by2(data, conf.level=0.95) # Chí-kvadrát test nezávislosti, bodový a 95% intervalový odhad poměru šancí a relativního rizika (balíček epir), v proměnné data musí být uložena asociační tabulka v obvyklém formátu (1. řádek exponovaná populace, 1. sloupec výskyt jevu), POZOR! Tabulka musí být uložena jako datový typ matice (matrix) data=data.matrix(data.z.data.frame) # Do proměnné data (datový typ matrix) se uloží tabulka zapsaná v proměnné data.z.data.frame (datový typ data.frame) Testy dobré shody observed<-c(979,1002,1015,980,1040,984) # uložení pozorovaných četností do proměnné observed expected<-c(1/6,1/6,1/6,1/6,1/6,1/6) # uložení očekávaných pravděpodobností do proměnné expected chisq.test(observed,p=expected,rescale.p=true) # chí-kvadrát test dobré shody pozorovaných četností a teoretických pravděpodobností 8