Popisná statistika. Komentované řešení pomocí programu R. Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Podobné dokumenty
Testy nezávislosti kardinálních veličin

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. Komentované řešení pomocí MS Excel

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Zápočtová práce STATISTIKA I

Metodologie pro ISK II

Charakteristika datového souboru

Informační technologie a statistika 1

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky a jejich výpočet

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Praktická statistika. Petr Ponížil Eva Kutálková

STANOVENÍ SPOLEHLIVOSTI GEOTECHNICKÝCH KONSTRUKCÍ. J. Pruška, T. Parák

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Protokol č. 1. Tloušťková struktura. Zadání:

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

Vícerozměrná rozdělení

KORELACE. Komentované řešení pomocí programu Statistica

Zadání Máme data hdp.wf1, která najdete zde: Bodová předpověď: Intervalová předpověď:

Vybrané partie z biostatistiky

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika


Korelace. Komentované řešení pomocí MS Excel

V roce 1998 se v Liberci oženili muži a vdaly ženy v jednotlivých věkových skupinách v následujících počtech:

Základní popisné statistiky a grafy

Vyhodnocení úvodních testů z chemie a matematiky

Příklady ke čtvrtému testu - Pravděpodobnost

MATEMATICKÁ STATISTIKA - XP01MST

Základy popisné statistiky

Mnohorozměrná statistická data

Základní popisné statistiky a grafy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Stavový model a Kalmanův filtr

Neparametrické metody

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mnohorozměrná statistická data

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Regresní a korelační analýza

Zákon velkých čísel stanovení empirické pravděpodobnosti

SOUHRNNÁ ZPRÁVA PRO ŠKOLU Maturita nanečisto 2007 Výsledky zkoušek společné a profilové části maturitní zkoušky

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Statistika - charakteristiky variability

Jednovýběrové testy. Komentované řešení pomocí MS Excel

Aplikovaná statistika v R

Náhodný vektor a jeho charakteristiky

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Regresní a korelační analýza

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Příklady k prvnímu testu - Matlab

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

Základy pravděpodobnosti a statistiky. Popisná statistika

Pravděpodobnost a aplikovaná statistika

Poznámky k předmětu Aplikovaná statistika, 4. téma

Popisná statistika. Statistika pro sociology

Pomůcka pro cvičení: 3. semestr Bc studia

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Poznámky k předmětu Aplikovaná statistika, 4. téma

Metodologie pro Informační studia a knihovnictví 2

TECHNICKÁ UNIVERZITA V LIBERCI

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

(Poslední změna: 14. dubna 2018)

1. Přednáška. Ing. Miroslav Šulai, MBA

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

AVDAT Klasický lineární model, metoda nejmenších

Statistická analýza dat v psychologii

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

AVDAT Náhodný vektor, mnohorozměrné rozdělení

AVDAT Mnohorozměrné metody metody redukce dimenze

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Metodologie pro Informační studia a knihovnictví 2

Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

MATEMATIKA III V PŘÍKLADECH

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Aplikovaná statistika v R - cvičení 2

Pravděpodobnost a aplikovaná statistika

Dotazy tvorba nových polí (vypočítané pole)

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Cvičení ze statistiky - 3. Filip Děchtěrenko

Stochastické signály (opáčko)

Základní statistické pojmy

Lineární regrese. Komentované řešení pomocí MS Excel

PRAVDĚPODOBNOST A STATISTIKA

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

Transkript:

Komentované řešení pomocí programu R Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Načtení vstupních dat Máme k dispozici data o počtech bodů z 1. a 2. zápočtového testu z Matematiky I v zimním semestru 2015/2016 a to za všechny 762 studenty, kteří psaly oba testy. Vstupní data se nacházejí v souboru "data-popisna_statistika.csv". Předpokládejme, že data jsou uložena na disku F ve složce Aplikovana_statistika. Načtení vstupních dat do pracovního objektu DATA a vypsání na obrazovku provedeme příkazem DATA<-read.csv("f:\data-popisna_statistika.csv", header=false) DATA Student.ka. X1..PP X2.PP 1 1 43 65 2 2 37 43 3 3 27 7 4 4 33 70 5 5 41 19......

Jak vidíme, v R se nám automaticky očíslovaly řádky, nebudeme proto první sloupec vůbec potřebovat. Tento sloupec můžeme jednoduše odstranit příkazem DATA<-DATA[,-1] Poznámka: Napíšeme-li "DATA<-DATA..." znamená to, že přímo měníme objekt DATA. Samozřejmě bychom mohli vytvořit z objektu DATA úplně jiný objekt. Obdobně se dá odstranit i nějaký sloupec. Například budeme-li chtít odstranit i tý řádek v objektu DATA, použijeme příkaz DATA<-DATA[-i,].

Povšimněme si názvu jednotlivých datových sloupců. Pro přehlednost je můžeme přejmenovat names(data)=c("bodypp1","bodypp2") DATA bodypp1 bodypp2 1 43 65 2 37 43 3 27 7 4 33 70 5 41 19 6 55 34 7 82 50 8 48 52 9 19 11...

Kvantily a výběrový průměr Podívejme se na kvartily a horní a dolní decil quantile(data$bodypp1,c(0.1,0.25,0.5,0.75,0.9)) 10% 25% 50% 75% 90% 16.0 30.0 45.0 65.0 78.9 quantile(data$bodypp2,c(0.1,0.25,0.5,0.75,0.9)) 10% 25% 50% 75% 90% 8.0 21.0 39.0 56.0 71.0 Obecně, chceme-li určit u% kvantil bodů z první písemky, použijeme příkaz quantile(data$bodypp1,u) Chceme-li jich vypsat více najednou, zapíšeme je do vektoru c(), jak je to provedeno na začátku tohoto slidu. Ke spočtení výběrového průměru použijeme příkaz mean. Ten lze použít jak přímo na množinu DATA, tak i na její jednotlivé soupce. mean(data) bodypp1 bodypp2 46.57087 39.45013

Rozptyl, směrodatná odchylka a variační koeficient Rozptyl var(data$bodypp1) [1] 539.7092 var(data$bodypp2 [1] 553.6618 Kdybychom použili příkaz var přímo na celý objekt DATA, obdrželi bychom kovarianční matici. Směrodatná odchylka Příkaz lze opět použít rovnou na celý objekt DATA (ale i zvlášt ) sd(data) bodypp1 bodypp2 23.23164 23.53002 Poznámka: Směrodatnou odchylku by šlo samozřejmě spočítat i ručně jako druhou odmocninu z rozptylu: sqrt(var(data$bodypp1)) [1] 23.23164

Variační koeficient Je dán vztahem V = σ X. Spočítáme jej z definice var_koeficient<-sd(data)/mean(data) bodypp1 bodypp2 0.4988450 0.5964497

Variační, decilové a kvartilové rozpětí Variační rozpětí var_rozpeti<-c(max(data$bodypp1)-min(data$bodypp1),max(data$bodypp2)-min(data$bodypp2)) var_rozpeti [1] 100 100 Decilové rozpětí decilove_rozpeti<-c(quantile(data$bodypp1,0.9)-quantile(data$bodypp1,0.1), + quantile(data$bodypp2,0.9)-quantile(data$bodypp2,0.1)) decilove_rozpeti 90% 90% 62.9 63.0 Ono + na začátku druhého řádku posledního sloupce vypíše editor sám, pokud příkaz přeteče na další řádek.

Kvartilové rozpětí kvartilove_rozpeti<-c(quantile(data$bodypp1,0.75)-quantile(data$bodypp1,0.25), + quantile(data$bodypp2,0.75)-quantile(data$bodypp2,0.25)) kvartilove_rozpeti 75% 75% 35 35

Výběrová kovariance a korelční koeficient Kovarianční matici spočteme příkazem cov(data) bodypp1 bodypp2 bodypp1 539.7092 371.1645 bodypp2 371.1645 553.6618 Připomeňme si, že na hlavní diagonále matice jsou výběrové rozptyly jednotlivých bodů z paralelkových testů. Pearsonův výběrový korelační koeficient (respektive korelační matici) spočteme příkazem "corr" cor(data, method="pearson") bodypp1 bodypp2 bodypp1 1.0000000 0.6789914 bodypp2 0.6789914 1.0000000 Poznámka: Argument method značí typ korelačního koeficientu, který počítáme. V R jsou ve standardní nabídce jeste koeficienty "spearman"a "kendall".

- Boxplot boxplot(data) 0 20 40 60 80 100 bodypp1 bodypp2

- Histogramy hist(data$body) hist(data$dochazka) Histogram of DATA$bodyPP1 Histogram of DATA$bodyPP2 Frequency 0 20 40 60 80 100 120 Frequency 0 20 40 60 80 100 120 0 20 40 60 80 100 DATA$bodyPP1 0 20 40 60 80 100 DATA$bodyPP2

- Bodový graf plot(data,col="red") bodypp2 0 20 40 60 80 100 0 20 40 60 80 100 bodypp1