Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Podobné dokumenty
Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Charakteristika datového souboru

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky a jejich výpočet

Popisná statistika. Statistika pro sociology

Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zápočtová práce STATISTIKA I

Základy popisné statistiky

MATEMATIKA III V PŘÍKLADECH

Mnohorozměrná statistická data

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Číselné charakteristiky


TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Mnohorozměrná statistická data

Metodologie pro ISK II

Statistika I (KMI/PSTAT)

Základy pravděpodobnosti a statistiky. Popisná statistika

Praktická statistika. Petr Ponížil Eva Kutálková

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

STATISTICKÉ CHARAKTERISTIKY

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Informační technologie a statistika 1

Základní statistické charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Statistika pro gymnázia

Popisná statistika kvantitativní veličiny

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Základy popisné statistiky

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Základní statistické pojmy

Aplikovaná statistika v R

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Analýza dat na PC I.

Popisná statistika. Komentované řešení pomocí MS Excel

Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Výběrové charakteristiky a jejich rozdělení

23. Matematická statistika

Tomáš Karel LS 2012/2013

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Průzkumová analýza dat

Jevy a náhodná veličina

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Náhodná veličina a rozdělení pravděpodobnosti

Základní analýza dat. Úvod

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Pojem a úkoly statistiky

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Statistika. zpracování statistického souboru

PRAVDĚPODOBNOST A STATISTIKA 1 Metodický list č 1.

Příloha podrobný výklad vybraných pojmů

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Nejčastější chyby v explorační analýze

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

a způsoby jejího popisu Ing. Michael Rost, Ph.D.

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Statistická analýza dat v psychologii

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Charakterizace rozdělení

Metodologie pro Informační studia a knihovnictví 2

Obecné momenty prosté tvary

Třídění statistických dat

Statistika v současnosti

Základy biostatistiky

Předmět studia: Ekonomická statistika a analytické metody I, II

Pravděpodobnost a statistika

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

Minimální hodnota. Tabulka 11

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Metodologie pro Informační studia a knihovnictví 2

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Renáta Bednárová STATISTIKA PRO EKONOMY

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Popisná statistika Jaroslav MAREK Univerzita Palackého Přírodovědecká fakulta Katedra matematické analýzy a aplikací matematiky Tomkova 40, 779 00 Olomouc Hejčín tel. 585634606 marek@inf.upol.cz pondělí 16. 3. 2009 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 1 / 62

Spojitý kvantitiativní statistický znak 6400 7975 8434 9059 9808 9876 10015 10349 10560 10805 10825 10884 10923 11143 11429 12000 12420 12956 13075 13213 13243 13630 13804 13809 13899 14390 14406 14569 14890 14906 14928 15243 15300 15908 15963 16075 16343 16451 16983 17473 17825 17875 17962 18563 19849 20016 20102 20377 22012 22865 25416 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 2 / 62

Spojitý kvantitiativní statistický znak Pravidla pro dělení n pozorování do k tříd a) k 5 log n b) k n c) (Sturgesovo pravidlo) k 1 + 3,3 log n v našem případě pro n = 51 dostáváme ad a) 5 log 51 = 5 1,70757. = 8,5 ad b) 51. = 7,14 ad c) 1 + 3,3 log 51. = 6,635 variační obor 19016 = 25416 6400 rozdělíme na 7 stejných intervalů o délce 19016/7. = 2717. = 2800 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 3 / 62

Jednorozměrný statistický soubor s jedním znakem střed četnost kumul.četnost č. interval intervalu abs. rel. abs. rel. 1. 6100 8900 7500 3 0.059 3 0.059 2. 8900 11700 10300 12 0.235 15 0.294 3. 11700 14500 13100 12 0.235 27 0.529 4. 14500 17300 15900 12 0.235 39 0.764 5. 17300 20100 18700 7 0.137 46 0.901 6. 20100 22900 21500 4 0.079 50 0.980 7. 22900 25700 24300 1 0.020 51 1.000 součet 51 1,000 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 4 / 62

Znázornění četností Polygon četností Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 5 / 62

Znázornění četností Polygon četností Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 6 / 62

Znázornění četností Polygon četností Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 7 / 62

Znázornění četností Polygon četností Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 8 / 62

Zhuštění údajů Ke zhuštění údajů o kvantitativním statistickém znaku (respektive o nespojitém znaku s velkým počtem variant) máme dvě cesty: přes intervalové rozdělení četností přes konstrukci měr (polohy, variability, šikmosti a špičatosti), které mohou být založeny na tzv. kvantilech Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 9 / 62

Kvantily a druhy kvantilů Kvantilem resp. fraktilem (lat. fractus = zlomený) nazýváme hodnotu kvantitativního statistického znaku (nejčastěji spojitého) určenou tak, že hodnoty, které jsou menší (stejné) než ona, tvoří určitou stanovenou část rozsahu souboru, např. 0,1,5,20,25,40,50,95%. Příslušné kvantily nějakého kvantitativního znaku můžeme značit x 0.5, x 1, x 2, x 10, x 20, x 25, x 40, x 50, x 95 apod. přes intervalové rozdělení četností přes konstrukci měr (polohy, variability, šikmosti a špičatosti), které mohou být založeny na tzv. kvantilech Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 10 / 62

Kvantily a druhy kvantilů Nejpoužívanější kvantily: x 50 člení soubor na dvě stejně velké poloviny, tedy 50%-ní kvantil, nazývá se medián neboli prostřední hodnota (lat. medius = prostřední) kvantily menší než x 50 se nazývají dolní kvantily větší než x 50 se nazývají horní kvartily (lat. quartus = čtvrtý) decily (lat. decilus = desátý) kvintily (lat. quintus = pátý) percentily, které rozdělují uspořádanou řadu hodnot znaku na 100 stejně četných částí Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 11 / 62

Kvantily a druhy kvantilů Nalezení některých kvantilů v našich datech medián je 26. člen řady setříděných hodnot znaku dolní kvartil x 25 bude člen, jehož pořadové číslo je n+1 je 10923, 4 = 52 4 = 13, což horní kvartil x 75 bude člen, jehož pořadové číslo je 3 n+1 4 = 3 52 4 = 39, což je 16983. Kdyby měla řada 136 členů, pak by n+1 4 = 34,25 a za dolní kvartil by bylo nutné stanovit některou hodnotu ležící mezi hodnotami s pořadovým číslem 34 a 35. Nabízí se 2 řešení: a) průměr 34 a 35 hodnoty b) 34. člen řady násobený 0.75 + 35. člen řady násobený 0.25 4 = 137 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 12 / 62

Spojitý kvantitiativní statistický znak 6400 7975 8434 9059 9808 9876 10015 10349 10560 10805 10825 10884 10923 11143 11429 12000 12420 12956 13075 13213 13243 13630 13804 13809 13899 14390 14406 14569 14890 14906 14928 15243 15300 15908 15963 16075 16343 16451 16983 17473 17825 17875 17962 18563 19849 20016 20102 20377 22012 22865 25416 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 13 / 62

Kvantily a druhy kvantilů Nalezení některých kvantilů v našich datech první decil x 10 bude hodnota, která odpovídá prvku s pořadovým číslem n+1 10 = 52 10 = 5,2, získáme x 10 = 9808+9876 2 = 9842 druhý decil x 20 bude hodnota, která odpovídá prvku s pořadovým číslem 2 n+1 10 = 2 52 10 = 10,4, získáme x 20 = 10805+10825 2 = 10815 poslední decil x 90 bude hodnota, která odpovídá prvku s pořadovým číslem 9 n+1 10 = 9 52 10 = 46,8, získáme x 90 = 20016+20102 2 = 20059 Ověřte, že x 30 = 11714.5, x 40 = 13228, x 50 = 14390, x 60 = 15090.5, x 70 = 16209, x 80 = 17850 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 14 / 62

Obecný vztah pro stanovení přibližné hodnoty kvantilu pomocí interpolace x i x d = i i d x h x d i h i d kde i je relativní kumulativní četnost x d je dolní hranice intervalu, x h je horní hranice intervalu, x i = x d + i i d i h i d (x h x d ) označme délku intervalu x h x d jako h a relativní třídní četnost v procentech i h i d jako ni n 100 lze předchozí vztah psát jako x i = x d + i i d n i n 100h např. medián x 50 = 11700 + 50 29.4 23.5 2800 = 14155.6 dolní kvartil x 25 = 8900 + 25 5.9 23.5 2800 = 11176.4 horní kvartil x 75 = 14500 + 75 52.9 23.5 2800 = 17132 první decil x 10 = 8900 + 10 5.9 2800 = 9387.2 23.5 Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 15 / 62

Jaroslav MAREK (UP Olomouc) Obrázek: Popisná statistika Boxplot pondělí 16. 3. 2009 16 / 62 Grafy Krabicový diagram (Box plot) V popisné statistice se často pracuje s tzv. krabicovým diagramem.

Krabicový diagram (Box plot) Krabicový diagram nám umožňuje posoudit symetrii a variabilitu námi zvolených dat a existenci extrémních hodnot. Význam boxplotu objasníme na dalším obrázku. Nejprve je ale třeba zavést následující pojmy: dolní vnitřní hradba: x 25 1,5R Q, horní vnitřní hradba: x 75 + 1,5R Q, dolní vnější hradba: x 25 3R Q, horní vnější hradba: x 75 + 3R Q. Kvartilové rozpětí je R Q = x 75 x 25. Symbol křížku v obrázku označuje extrémní hodnoty, které leží za vnějšími hradbami. Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 17 / 62

Krabicový diagram (Box plot) Obrázek: Konstrukce boxplotu Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 18 / 62

Grafy Hvězdicový diagram Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 19 / 62

Grafy Hvězdicový diagram Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 20 / 62

Momenty Zatímco kvantily kvantitiativního statistického znaku x jsou vždy určité konkrétní jednotlivé hodnoty znaku (nebo jen z několika blízkých hodnot znaků určené) jsou momenty vždy funkcemi všech hodnot daného znaku v daném souboru. Mějme jednorozměrný statistický soubor o rozsahu n. k-tý moment kvantitativního statistického znaku je obecně definován jako am x,k = 1 n n (x i a) k i kde x i, i = 1, 2,..., n jsou jednotlivé hodnoty kvantitativního statistického znaku, a je nějaká konstanta k je přirozené číslo vyjadřující stupeň momentu Symbol na levé straně rovnice čteme jako k-tý moment z x kolem a. Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 21 / 62

Obecné momenty Pro a = 0 dostáváme k-tý moment x kolem nuly (kolem počátku) a moment nazýváme k-tý obecný moment x 0m x,k = 1 n n xi k. Nejpoužívanější je 1. obecný moment, který se nazývá střední hodnota: 0m x,1 = 1 n i n x i = x. Podobně pracujeme s vyššími obecnými momenty i 0m x,2 = 1 n n xi 2, 0 m x,3 = 1 n i n xi 3, 0 m x,4 = 1 n i n xi 4, i atd. Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 22 / 62

Centrální momenty Učiníme-li aritmetický průměr počátkem neboli centrem (středem) počítání, dostaneme k-tý centrální moment. Do vzorce pro moment dosadíme a = x: xm x,k = 1 n n (x i x) k. Nejpoužívanější je 2. centrální moment, který se nazývá rozptyl a je dán vztahem: i xm x,2 = 1 n n (x i x) 2. i Jaroslav MAREK (UP Olomouc) Popisná statistika pondělí 16. 3. 2009 23 / 62