Datový soubor X1 1, 5, 7, 8, 9, 10, 11, 12, 12.5, 13, 14, 15, 16, 17, 18, 20, 24

Podobné dokumenty
Analýza dat na PC I.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Zápočtová práce STATISTIKA I

Vliv odlehlých hodnot, korelační koeficient, mnohonásobná regrese

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Popisná statistika. Komentované řešení pomocí MS Excel

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Metodologie pro ISK II

Testy nezávislosti kardinálních veličin

ÚKOL ,77 5,00 5 2,531,003,056 -,869,113

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Metodologie pro Informační studia a knihovnictví 2

Charakteristika datového souboru

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistika pro geografy

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Metodologie pro Informační studia a knihovnictví 2

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Popisná statistika kvantitativní veličiny

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Popisná statistika. Statistika pro sociology

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pracovní text a úkoly ke cvičením MF002

Metoda Monte Carlo a její aplikace v problematice oceňování technologií. Manuál k programu

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Manuál pro zaokrouhlování

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Aplikovaná statistika v R

Protokol č. 1. Tloušťková struktura. Zadání:

Porovnání dvou výběrů

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Nejčastější chyby v explorační analýze

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Vzorová prezentace do předmětu Statistika

KORELACE. Komentované řešení pomocí programu Statistica

Národníinformačnístředisko pro podporu jakosti

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Návrhy dalších možností statistického zpracování aktualizovaných dat

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Nadstavba pro statistické výpočty Statistics ToolBox obsahuje více než 200 m-souborů které podporují výpočty v následujících oblastech.

VŠB Technická univerzita Ostrava BIOSTATISTIKA

STATISTICA Téma 1. Práce s datovým souborem

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Uni- and multi-dimensional parametric tests for comparison of sample results

Průzkumová analýza dat

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Statistická analýza dat v psychologii

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Opakování: Nominální proměnná více hodnotová odpověď.

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Vzorová písemka č. 1 (rok 2015/2016) - řešení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pomůcka pro cvičení: 3. semestr Bc studia

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Náhodné chyby přímých měření

Jevy a náhodná veličina

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základy popisné statistiky

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Minimální hodnota. Tabulka 11

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

STATISTICKÉ CHARAKTERISTIKY


Tabulka 1. Výběr z datové tabulky

KAPITOLA 9 - POKROČILÁ PRÁCE S TABULKOVÝM PROCESOREM

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Číselné charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

TECHNICKÁ UNIVERZITA V LIBERCI

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

1.1.3 Práce s kalkulátorem

Statistická analýza jednorozměrných dat

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Základy popisné statistiky

Jednofaktorová analýza rozptylu

Grafy opakování a prohloubení Při sestrojování grafu označíme tabulku a na kartě Vložit klikneme na zvolený graf

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Transkript:

Výpočet základních statistických veličin; Vlastnosti směrodatné odchylky a střední chyby průměru; Změna charakteristik variability (disperze) vlivem odlehlých (extrémních) hodnot; Explorační analýza dat - vizualizace dat frekvenčními histogramy a krabicovými diagramy, percentile plots; Test normality dat. Datový soubor 1, 5, 7, 8, 9, 10, 11, 12, 12.5, 13, 14, 15, 16, 17, 18, 20, 24 Po vytvoření nové datové sestavy (SDF1) zadáme hodnoty nové proměnné pomocí příkazového řádku. SDF1$<-c(1, 5, 7, 8, 9, 10, 11, 12, 12.5, 13, 14, 15, 16, 17, 18, 20, 24) 1. Základní statistické veličiny Pro výpočet základních charakteristik volíme menu: Statistics>Data Summaries>Summary Statistics. Zvolíme jméno datové sestavy, vybereme proměnné a na záložce Statistics zaškrtneme požadované veličiny. V případě nejasností klávesa F1 aktivuje nápovědu spojenou s daným dialogovým oknem a ke každému políčku je dostupné vysvětlení.

Výsledek se zobrazí v okně "Report Window" *** Summary Statistics for data in: SDF1 *** numeric matrix: 16 rows, 1 columns. Min: 1.0000000 1st Qu.: 9.0000000 Mean: 12.5000000 Median: 12.5000000 3rd Qu.: 16.0000000 Max: 24.0000000 Total N: 17.0000000 NA's : 0.0000000 Variance: 32.5000000 Std Dev.: 5.7008771 Sum: 212.5000000 SE Mean: 1.3826658 LCL Mean: 9.5688795 spodní hranice konfidenčního intervalu pro průměr UCL Mean: 15.4311205 horní hranice konfidenčního intervalu pro průměr Skewness: 0.0000000 Kurtosis: 0.1665207 Pokud nás zajímá pouze průměr, medián, suma či kvantily..., můžeme tyto funkce volat přímo z příkazového řádku. Pro průměr proměnné píšeme mean (SDF1$, na.rm=t), kde na.rm=t značí, aby S+ vyloučil z výpočtu všechna prázdná pole (pole NA). Pokud v příkazovém řádku napíšeme pouze jméno funkce, vypíše se nám její syntaxe, volitelné a přednastavené parametry. Ještě je třeba před zadáním příkazu dát vědět S+, že daná sestava existuje, použijeme příkaz attach (SDF1). To je třeba použít po každé změně sestavy. Pokud pracujeme s nabídkami z menu, S+ si aktualizuje sestavu sám. > mean function(x, trim = 0, na.rm = F) V případě, že chceme nalézt co o funkci říká nápověda, stačí zadat např. help(quantile).

Chování směrodatné odchylky a střední chyby průměru a tím i šíře konfidenčního intervalu pro průměr v závislosti na počtu měření si ukážeme na datovém souboru X2, což je zdvojený datový soubor. Data buď zkopírujeme pod sebe, či v příkazovém řádku napíšeme: SDF1$X2<-rep(SDF1$, 2); používáme vestavěnou funkci pro opakování rep s parametry: co opakuji, kolikrát. Opět nezapomeňte použít attach (SDF1). *** Summary Statistics for data in: SDF1 *** numeric matrix: 15 rows, 2 columns. X2 Min: 1.0000000 1.00000000 1st Qu.: 9.0000000 9.00000000 Mean: 12.5000000 12.50000000 Median: 12.5000000 12.50000000 3rd Qu.: 16.0000000 16.00000000 Max: 24.0000000 24.00000000 Total N: 17.0000000 34.00000000 NA's : 17.0000000 0.00000000 Std Dev.: 5.7008771 5.61383572 Sum: 212.5000000 425.00000000 SE Mean: 1.3826658 0.96276488 LCL Mean: 9.5688795 10.54124012 UCL Mean: 15.4311205 14.45875988 Skewness: 0.0000000 0.00000000 Kurtosis: 0.1665207-0.04713542 Charakteristiky polohy (aritmetický průměr, medián a kvartily) jsou u obou proměnných samozřejmě stejné. Směrodatná odchylka se také téměř nezměnila, ale při výpočtu se zdvojnásobila jak suma čtverců odchylek, tak i jmenovatel (z 16 na 33). Dvojnásobný počet měření však výrazně zmenšil střední chybu průměru (z 1.38 na 0.96) a tím i konfidenční interval pro průměr. Střední chyba průměru je směrodatnou odchylkou rozdělení výběrových průměrů. Toto je pouze PŘÍKLAD a tedy NIKDY nezdvojujeme datový soubor za účelem zvýšení přesnosti odhadu!!! 2. Vliv extrémních a odlehlých hodnot na charakteristiky variability Vytvoření nové proměnné s extrémní hodnotou (poslední hodnotu 24 jsme nahradili 40). Využijeme funkce volání určité hodnoty v rámci proměnné pomocí hranaté závorky. Nejdříve zkopírujeme do X3 a pak přepíšeme poslední (desátou hodnotu) na 40. Píšeme tedy: SDF1$X3<-SDF1$ SDF1$X3[10]<-40

Spočítáme souhrny pro a X3 *** Summary Statistics for data in: SDF1 *** numeric matrix: 13 rows, 2 columns. X3 Min: 1.000000 1.000000 1st Qu.: 9.000000 9.000000 Mean: 12.500000 13.441176 Median: 12.500000 12.500000 3rd Qu.: 16.000000 16.000000 Max: 24.000000 40.000000 Total N: 34.000000 17.000000 NA's : 17.000000 0.000000 Std Dev.: 5.700877 8.399930 Sum: 212.500000 228.500000 SE Mean: 1.382666 2.037282 LCL Mean: 9.568879 9.122331 UCL Mean: 15.431121 17.760022 Souhrny ukazují, že charakteristiky polohy jsou ovlivněny jen málo. Medián a kvartily jsou stejné (symetrie souboru se nezměnila, změnili jsme jednu krajní hodnotu), průměr se trochu zvýšil. Variabilita souboru se však zvýšila výrazně, spolu se směrodatnou odchylkou vyrostla střední chyba průměru a rozšířil se tím i interval spolehlivosti pro průměr. Z toho vyplývá, že extrémní hodnota zvýšila variabilitu datového souboru a tedy snížila přesnost odhadu statistických parametrů. V případě, kdy chceme při jakémkoli výpočtu vyloučit nějakou hodnotu či jejich skupinu z použitého vektoru, S+ nabízí elegantní možnost. Například spočteme průměr pro vektor X3 bez poslední hodnoty (tj. bez sedmnáctého čísla). Příkaz voláme: mean (SDF1$X3 [-17]) kdy v hranaté závorce mínus značí, že hodnoty odpovídající podmínce (v tomto případě sedmnácté číslo souboru) nezahrneme do výpočtu. Příkaz mean (SDF1$X3 [1:10]) naopak spočte průměr z prvních deseti hodnot. Hodnoty 3. Vizualizace dat Pro získání základního přehledu o datech nám slouží grafické zobrazení datových souborů. Používáme histogramy četností, krabicové diagramy (box (and whisker) plots) a pravděpodobnostní grafy (Normal Probability Plots či Q-Q Plots). Grafy jsou v S+ k dispozici pod nabídkou Graph>2D Plot..., kde máme na výběr typy os použité v grafu (levé podokno) a typ grafu (pravé podokno). Pro histogram četností máme k dispozici graf bez a s čárou denzity rozdělení.

Proměnnou, pro kterou histogram zobrazujeme, zadáváme do pole "x Column". Záložka "Options" umožňuje navolit počet sloupců, šíři intervalů, rozsah histogramu. 0.06 0.04 0.02 0.00 0 5 10 15 20 25 Krabicové diagramy jsou grafy, které zobrazují medián (středová čára), kvartily (hrany krabice), minimum a maximum a případně i odlehlé hodnoty. Odlehlé hodnoty jsou zde definovány jako hodnoty, které jsou mimo 1.5 mezikvartilové rozmezí. V S+ jsou k dispozici v menu Graph>2D Plots... Plot Type: Box Plot (x, grouping-optional). Proměnné zadáváme do pole "y Column" (můžeme i více proměnných). Pokud máme proměnnou kódovanou pomocí jiné, zadáváme kódující proměnnou do pole "x Column". 40 Outlier 30 20 10 Maximum 75 % kvantil Medián 25 % kvantil 0 Minimum 1 2

Grafy typu Probability Plots / Q-Q-Plots znázorňují, do jaké míry je rozdělení našeho datového souboru blízké normálnímu rozdělení. Čím je datový soubor bližší normálnímu rozdělení, tím více se hodnoty blíží přímce (ta odpovídá normálnímu rozdělení). Na osu x jsou vyneseny percentily normálního rozdělení a na y ose jsou sledované hodnoty. V S+ je tento graf pod nabídkou Graph>2D Plot...>QQ Normal with Line (x). Sledovanou proměnnou opět zadáváme do pole "y Column". 25 40 20 30 15 X3 20 10 5 10 0 0-2 -1 0 1 2 Normal Distribution -2-1 0 1 2 Normal Distribution Q-Q graf pro proměnnou ukazuje, že datový soubor odpovídá normálnímu rozdělení. Avšak pro proměnnou X3 je normalita výrazně narušena odlehlou hodnotou. 4. Test normality Pro některé statistické analýzy je potřeba splnit určité předpoklady. Nejčastějším je podmínka, aby data odpovídala normálnímu rozdělení. Spolu s grafickým zobrazením dat (histogramy, krabicové diagramy a Q-Q diagramy) můžeme použít pro spojité proměnné Kolmogorovův- Smirnovův test. V S+ je dostupný z menu Statistics>Compare Samples>One Sample>Kolmogorov-Smirnov GOF... V následném dialogu vybereme sledovanou proměnnou. Průměr a SD nevyplňujeme, S+ automaticky doplní odhadnutý průměr testované proměnné.

Výsledek testu normality z okna "Results" ukazuje hodnotu testovací statistiky "ks" a výslednou dosaženou hladinu významnosti. Zde v tomto případě je p hodnota 0.5, což znamená, že dle K-S testu má náš testovaný soubor atributy normálního rozdělení. One sample Kolmogorov-Smirnov Test of Composite Normality data: in SDF1 ks = 0.0533, p-value = 0.5 alternative hypothesis: True cdf is not the normal distn. with estimated parameters sample estimates: mean of x standard deviation of x 12.5 5.700877 Testy normality jsou však značně nespolehlivé pokud je počet měření malý (menší než cca 100). Proto je vždy vhodné ověřit si rozložení dat souboru vizuální kontrolou grafických zobrazení. Tento materiál byl vytvořen na základě textů a příkladů P. Sklenáře pro kurz biostatistiky v NCSS.

Příloha: Vybrané funkce pro práci s vektory max(x) maximum vektoru x min (x) minimum vektoru x sum (x) součet všech hodnot vektoru x mean (x) aritmetický průměr vektoru x median (x) medián vektoru x range (x) vektor obsahující min a max stdev (x) směrodatná odchylka var (x) variance sort (x) setřídí vektor x rank(x) vytvoří vektor pořadí jednotlivých hodnot vektoru x quantile (x) vektor obsahující min, 25% kvantil, medián, 75% kvantil a maximum colmean (x) sloupcové průměry pro datovou sestavu (x) colvar (x)... rowmean (x) řádkové průměry pro datovou sestavu (x)... Mocniny a odmocniny: 2 2 píšeme 2^2 odmocninu píšeme jako mocninu zlomku, tedy třetí odmocnina osmi: 8^(1/3) Porovnávání hodnot: píšeme <= >= = == Odpovědí programu je dvojice hodnot T (true, 1) a F (false, 0) Některé další funkce: log (x, n) logaritmus x o základu n log (x) přirozený logaritmus log10(x) logaritmus o základu 10 exp (x) e x sqrt (x) druhá odmocnina x cos (x), sin (x), tan(x) trigonometrické fce acos (x), asin (x), atan(x) abs (x) absolutní hodnota x floor (x) největší celé číslo menší než x ceiling (x) nejmenší celé číslo větší než x trunc (x) nejbližší celé číslo mezi x a 0 round (x, digits=0) zaokrouhlí x na celé číslo dělení se zbytkem: 21 % / % 4 5 zjištění zbytku (tzv. modulo) 21 % % 4 1

Příklady použití: vytvoříme vektor x obsahující čísla 1 až 10 x<-1:10 součet všech hodnot: sum(x) Pozor! Pokud chceme použít součet čísel splňujících určité kritérium (např. čísla menší než 5), pak voláme: sum(x[x<5]) Zadání sum(x<5) vyvolá počet hodnot, která splňují námi zadané kritérium.