Základy popisné statistiky

Podobné dokumenty
Organizační pokyny k přednášce. Matematická statistika. Přehled témat. Co je statistika?

Organizační pokyny k přednášce. Matematická statistika. Co je statistika? Přehled témat

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Popisná statistika. Statistika pro sociology

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Základy popisné statistiky

Statistika pro geografy

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Informační technologie a statistika 1

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

23. Matematická statistika

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Popisná statistika kvantitativní veličiny

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Zápočtová práce STATISTIKA I

Číselné charakteristiky


Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základy pravděpodobnosti a statistiky. Popisná statistika

Základní statistické charakteristiky

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Analýza dat na PC I.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Metodologie pro ISK II

Populace vs. data. popisná (deskriptivní) popis konkrétních dat. letní semestr

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Číselné charakteristiky a jejich výpočet

STATISTICKÉ CHARAKTERISTIKY

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Renáta Bednárová STATISTIKA PRO EKONOMY

Aplikovaná statistika v R

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Mnohorozměrná statistická data

MATEMATIKA III V PŘÍKLADECH

Popisná statistika. Komentované řešení pomocí MS Excel

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Základy biostatistiky

TECHNICKÁ UNIVERZITA V LIBERCI

Pojem a úkoly statistiky

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Mnohorozměrná statistická data

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Tabulka 1. Výběr z datové tabulky

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Charakteristika datového souboru

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Praktická statistika. Petr Ponížil Eva Kutálková

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

letní semestr Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Metodologie pro Informační studia a knihovnictví 2

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Třídění statistických dat

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Deskriptivní statistika (kategorizované proměnné)

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Průzkumová analýza dat

Kartografické stupnice. Přednáška z předmětu Tematická kartografie (KMA/TKA) Otakar Čerba Západočeská univerzita

VŠB Technická univerzita Ostrava BIOSTATISTIKA

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Metodologie pro Informační studia a knihovnictví 2

Kontingenční tabulky v Excelu. Představení programu Statistica

Statistika - charakteristiky variability

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Masarykova univerzita, Přírodovědecká fakulta

Aplikovaná statistika pro učitele a žáky v hodinách zeměpisu aneb jak využít MS Excel v praxi. Geografický seminář 30. března 2011 Pavel Bednář

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvod do statistické metodologie

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

S E M E S T R Á L N Í

Chyby měření 210DPSM

Matematická statistika

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

Jevy a náhodná veličina

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Transkript:

Základy popisné statistiky V této kapitole se seznámíme se základy popisné statistiky, představíme si základní pojmy a budeme si je ilustrovat na praktických příkladech. Kapitola je psána formou volného textu, přesnou matematickou formulaci je možno nalézt např. v [1]. Zadání následujícího příkladu bude sloužit ilustraci představených pojmů a budeme se na něj v dalším odkazovat. Ilustrační příklad. V chemické laboratoři byl zjišt ován obsah alkoholu ve 30 různých vzorcích vín dodaných různými producenty vína. Výsledky obsahu alkoholu v procentech byly následující 13, 20; 13, 16; 14, 37; 13, 24; 14, 20; 14, 39; 14, 06; 14, 83; 13, 86; 14, 10; 14, 12; 13, 75; 14, 75; 14, 38; 13, 63; 14, 30; 13, 83; 14, 19; 13, 64; 14, 06; 12, 93; 13, 71; 12, 85; 13, 50; 13, 05; 13, 39; 13, 30; 13, 87; 14, 02; 13, 73. Co je to statistika? Statistika je věda o získávání, zpracování a interpretaci informace obsažené v empirických pozorováních skutečného světa (např. v naměřených datech, průzkumech... ) Jinak lze říci, že statistika je věda o zkoumání reality na základě napozorovaných dat. Statistiku dělíme na popisnou a induktivní. Popisná neboli deskriptivní statistika se zabývá popisem konkrétních dat, kdy několika čísly a obrázky stručně vystihneme to důležité. Závěry můžeme vyvozovat pouze o daných 1

datech, nelze je zobecňovat. Induktivní neboli konfirmatorní statistika umožňuje na základě dat odpovídat na obecné otázky o populaci a získané závěry lze zobecnit. Statistika má aplikace v přírodních vědách v biologii, chemii, fyzice, meteorologii, medicíně, genetice, farmakologii atd. Uplatňuje se také v ekonomii v makro a mikroekonomii, v bankovnictví a pojišt ovnictví. Dále v technických vědách jako je telekomunikace, doprava, počítače, strojírenství, kontrola jakosti, řízení a organizace výroby a dalších. V neposlední řadě také ve společenských vědách, především v sociologii, behaviorálních vědách, archeologii, lingvistice, antropologii... Statistika v chemii. Experiment je důležitým nástrojem výzkumu. V průběhu výzkumu bývají tvořeny složité fyzikálně-chemické modely a experiment slouží k jejich ověření. Statistické zpracování výsledků je pak součástí prakticky veškerého výzkumu. Statistické úlohy bývají nejčastěji ve formě plánování experimentu, detekci systematických chyb a tvorbě kalibračních přímek. Statistika se uplatňuje také v analytické chemii, optimalizaci a kontrole kvality v průmyslových výrobách. Dále bývají statisticky porovnány různé laboratoře, přístroje či podmínky. V dalším textu se budeme zabývat pouze pojmy z popisné statistiky. Co je popisná statistika. Z experimentálních měření získáváme data a ta chceme stručně a výstižně popsat. K tomuto účelu slouží popisná statistika. Popis konkrétního datového souboru je nedílnou součástí každé analýzy. Data. Data jsou výsledkem pozorování nebo měření, které provádíme na nezávislých subjektech. Měříme nebo zjišt ujeme hodnoty znaku, veličin, vlastností, například koncentrace určité látky, hmotnost, teplota, zabarvení, atd. Na jednom subjektu můžeme měřit více znaků. Výsledky zapisujeme do datové tabulky. Pozorování na jednotlivých subjektech jsou vetšinou v řádcích, jednotlivé měřené veličiny ve sloupcích. Statistickou analýzu provádíme většinou pomocí specializovaných statistických softwarů, pro příklad uved me programy R, Statistica, SPSS, SAS atd. 2

Příkladem datového souboru jsou naměřené hodnoty obsahu alkoholu ve vzorcích vína z našeho lustračního příkladu. Měřítka znaků. na Měřítka můžeme dělit více způsoby. Prvním dělením je nominální jejich hodnoty jsou pouze označením různých kategorií (pohlaví, politický názor, barva, odrůda,... ), ordinální jsou to uspořádané nominální hodnoty (vzdělání, spokojenost v práci (stupnice 1 až 5), stupeň bolesti,... ), intervalové u nich lze uvažovat jejich rozdíly, ale nelze se ptát kolikrát (rok narození, teplota ve stupních Celsia,... ), poměrové většina veličin, které měříme (hmotnost, koncentrace, velikost, čas,... ). Jiné dělení měřítek může být na kvalitativní neboli kategoriální faktory existuje jen několik možných hodnot (kategorií) a zajímají nás četnosti jednotlivých hodnot, přičemž uvažovat charakteristiky jako průměr nemá smysl, kvantitativní neboli spojité jejich hodnoty jsou čísla, zajímají nás charakteristiky polohy (průměr), variability atd. Kvalitativní veličiny Míry polohy Průměr. vypočteme jako Při výpočtu průměru x pozorujeme hodnoty x 1,..., x n. Průměr x = x 1 +... + x n n = 1 n n x i. (1) Někdy také bývá užitečné určit maximum a minimum zadaných hodnot. 3

Varianční řada. Při tvorbě variační řady postupujeme tak, že původní hodnoty x 1,..., x n uspořádáme podle velikosti. Varianční řada x (1) x (2)... x (n) (2) je neklesající posloupnost vytvořená z naměřených hodnot, přičemž x 1 minimum, x n je maximum. Je důležité uvědomit si rozdíl mezi x 1 a x (1). je Medián. Medián x dělí data na dvě poloviny tak, že polovina je menší (nebo rovna) než x a polovina vetší (nebo rovna) než x. Medián je tedy prostřední hodnota. Výpočet mediánu provádíme podle následujícího vzorce x = x ( n+1 ( ) 1 x 2 ( n 2 ) + x ( n 2 +1) 2 ) je-li n liché, je-li n sudé. Kvantily. způsobem. Kvantily neboli percentily můžeme charakterizovat následujícím α 100 % kvantil je hodnota taková, že α 100 % hodnot v datech je menší nebo rovno a zbytek je vetší nebo rovno. Například 50 % kvantil je medián. Dolní kvartil Q 1 = 25 % kvantil, je hodnota taková, že čtvrtina hodnot je menších (nebo rovných) a tři čtvrtiny jsou vetší (nebo stejné). Horní kvartil Q 3 = 75 % kvantil, je hodnota taková že tři čtvrtiny hodnot jsou menší (nebo rovné) a čtvrtina je vetší (nebo stejná). Úlohy z praxe, které využívají kvantilů mohou být například jaký obsah vápníku v krevním séru se považuje za nízký, tedy takový, jehož výskyt je u maximálně 5 % zdravých lidí, růstové křivky u dětí, jimiž zjišt ujeme, zda není dítě extrémně malé nebo extrémně velké. Příklad 1. V Motivačním příkladu určete pro hodnoty obsahu alkoholu průměr, variační řadu hodnot, minimum, maximum a medián. 4

Řešení. Připomeňme, že hodnoty byly x 1 = 13, 20; x 2 = 13, 16; x 3 = 14, 37; x 4 = 13, 24; x 5 = 14, 20; x 6 = 14, 39; x 7 = 14, 06; x 8 = 14, 83; x 9 = 13, 86; x 10 = 14, 10; x 11 = 14, 12; x 12 = 13, 75; x 13 = 14, 75; x 14 = 14, 38; x 15 = 13, 63; x 16 = 14, 30; x 17 = 13, 83; x 18 = 14, 19; x 19 = 13, 64; x 20 = 14, 06; x 21 = 12, 93; x 22 = 13, 71; x 23 = 12, 85; x 24 = 13, 50; x 25 = 13, 05; x 26 = 13, 39; x 27 = 13, 30; x 28 = 13, 87; x 29 = 14, 02; x 30 = 13, 73. Průměr x vypočteme podle vztahu (1) jako x = 1 30 30 Varianční řada je tvaru x i = 1 (13, 20 +... + 13, 73) = 13, 814. 30 12, 85; 12, 93; 13, 05; 13, 16; 13, 20; 13, 24; 13, 30; 13, 39; 13, 50; 13, 63; 13, 64; 13, 71; 13, 73; 13, 75; 13, 83; 13, 86; 13, 87; 14, 02; 14, 06; 14, 06; 14, 10; 14, 12; 14, 19; 14, 20; 14, 30; 14, 37; 14, 38; 14, 39; 14, 75; 14, 83. Minimum je hodnota 12,85, maximum pak 14,83. Medián najdeme podle části vzorce pro n sudé, tedy Míry variabily. x = 1 2 (x (15) + x (16) ) = 1 (13, 83 + 13, 86) = 13, 845. 2 Míry variability měří rozptýlení neboli variabilitu či nestejnost. Rozptyl. Rozptyl můžeme charakterizovat jako průměrný čtverec vzdálenosti od průměru. Spočteme jej podle vzorce ( s 2 = 1 n n ) (x i x) 2 = 1 x 2 i n x 2. (3) n 1 n 1 Rozměrem je druhá mocnina původních jednotek. 5

Směrodatná odchylka Směrodatná odchylka je charakterizována jako odmocnina z rozptylu. Spočteme ji podle vzorce s = s 2 = 1 n (x i x) 2. (4) n 1 Směrodatná odchylka má stejný fyzikální rozměr jako původní data. Existuje řada dalších popisných charakteristik (šikmost, špičatost, specializované popisné statistiky,... ). Ve statistické indukci slouží popisné statistiky jako odhady neznámých parametrů. Příklad 2. V Ilustračním příkladu spočtěte pro zadaná data směrodatnou odchylku a rozptyl. Řešení. Využijeme výsledků vypočtených v Příkladu 1. Dostáváme Odtud 30 x 2 i = 5732, 319 a x 2 = 190, 817. s 2 = 1 (5732, 31930 190, 817) = 0, 269. 29 Směrodatnou odchylku potom vypočteme jako s = 0, 269 = 0, 519. Grafické nástroje popisné statistiky. Zmíníme se zde o dvou grafických nástrojích popisné statistiky a to o histogramu a krabicovém diagramu neboli boxplotu. Histogram. Histogram dává nahlédnout, jak jsou jednotlivé hodnoty znaku v našich datech rozloženy, tedy které hodnoty se objevují často a které ojediněle. Histogram vytvoříme tak, že interval I = [a; b], jenž pokrývá celé rozmezí dat, rozdělíme na K navazujících stejně velkých podintervalů A k, kde k = 1,..., K a všechny budou délky h = b a. S výjimkou prvního je K bereme je například zprava uzavřené. Označíme n k počet pozorování, které padly do A K. Histogram je pak grafické znázornění intervalových četností n K, neboli každému A K odpovídá obdélník, jehož výška je rovna n K. 6

Krabicový diagram. Krabicový diagram nemá úplně závaznou definici. Obvykle je v něm zakreslen výběrový medián a kvartily. Krabice je tvořena tak, že horní a dolní okraj určují výběrové kvartily Q 1 a Q 3, uprostřed se nachází čára určující výběrový medián. Vousy ukazují rozmezí dat od kvartilu k minimu či maximu, není-li odlehlé. Odlehlé pozorování je takové, které je dál než 3(Q 2 3 Q 1 ) od bližšího kvartilu. Příklad 3. Pro hodnoty obsahu alkoholu z Motivačního příkladu nakreslete histogram. Řešení. Postupujeme tak, že zvolíme a = 12, 5, b = 15, K = 5 h = 0, 5. k interval A k četnost n k 1 [12, 5,13] 2 2 [13, 13,5] 7 3 [13,5, 14] 8 4 [14, 14,5] 11 5 [14,5, 15] 2 7

Literatura [1] BUDÍKOVÁ, Marie, MIKOLÁŠ Štěpán, LERCH Tomáš : Základní statistické metody., Vydání první. Brno: Masarykova univerzita, 2005. ISBN 80-210-3886. [2] BUDÍKOVÁ Marie : Studijní materiály předmětu PřF:MAS01 [online]. [cit. 2014-01-09]. Dostupné z: https://is.muni.cz/auth/el/ 1431/podzim2014/MAS01/um/50490616/ [3] HUDECOVÁ Šárka: Matematická statistika [online]. [cit. 2014-01-09]. Dostupné z: http://www.karlin.mff.cuni.cz/~hudecova/ education/download/chem_predn/popisna_tisk.pdf 8