Popisná statistika. Statistika pro sociology

Podobné dokumenty
Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Základy pravděpodobnosti a statistiky. Popisná statistika

Statistika pro geografy

Renáta Bednárová STATISTIKA PRO EKONOMY


Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Základy popisné statistiky

Analýza dat na PC I.

Číselné charakteristiky

Informační technologie a statistika 1

Popisná statistika kvantitativní veličiny

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

23. Matematická statistika

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Charakteristika datového souboru

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Aplikovaná statistika v R

Zápočtová práce STATISTIKA I

Číselné charakteristiky a jejich výpočet

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

Mnohorozměrná statistická data

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Mnohorozměrná statistická data

Základy popisné statistiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Základní statistické charakteristiky

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Popisná statistika. Komentované řešení pomocí MS Excel

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Statistika I (KMI/PSTAT)

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Třídění statistických dat

Statistika pro gymnázia

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Kontingenční tabulky v Excelu. Představení programu Statistica

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Metodologie pro ISK II

Pojem a úkoly statistiky

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Statistika. zpracování statistického souboru

STATISTICKÉ CHARAKTERISTIKY

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Metodologie pro Informační studia a knihovnictví 2

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Jevy a náhodná veličina

Praktická statistika. Petr Ponížil Eva Kutálková

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Náhodná veličina a rozdělení pravděpodobnosti

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Pravděpodobnost a statistika

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Metodologie pro Informační studia a knihovnictví 2

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Nejčastější chyby v explorační analýze

Statistika I (KMI/PSTAT)

Základní statistické pojmy

Základní pojmy a cíle statistiky 1

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Tomáš Karel LS 2012/2013

Matematická statistika

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Základy štatistiky. Charakteristiky štatistického znaku

KOMBINATORIKA, PRAVDĚPODOBNOST, STATISTIKA. Charakteristiky variability. Mgr. Jakub Němec. VY_32_INOVACE_M4r0120

Pracovní list č. 3 Charakteristiky variability

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Základní analýza dat. Úvod

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Deskriptivní statistika (kategorizované proměnné)

Minimální hodnota. Tabulka 11

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

Škály podle informace v datech:

Příloha podrobný výklad vybraných pojmů

STATISTICKÉ ODHADY Odhady populačních charakteristik

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Transkript:

Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31

Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky Charakteristiky polohy Charakteristiky variability 4 Znázornění dat Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 2 / 31

Základní pojmy Populace (základní soubor) větší skupina individuí, kterou se snažíme charakterizovat Náhodný výběr menší skupina individuí, kterou jsme vybrali náhodně a pomocí které charakterizujeme populaci Statistický znak vlastnost individua, kterou měříme nebo zjišt ujeme Populační charakteristika charakteristika sledované vlasnosti (např. průměrná výška,... ) celé populace Výběrová charakteristika charakteristika náhodného výběru, pomocí ní odhadujeme hodnotu populační charakteristiky Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 4 / 31

Typy statistických dat Základní typy dat kvalitativní data slovní vyjádření, můžeme nahradit číselnou hodnotou nominální data (víceškálová, kategoriální) přiřazené číselné hodnoty nejsou uspořádatelné (barva vlasů, rodinný stav, národnost,... ). Speciální případ jsou binární (alternativní, dichotomická) data (muž/žena, zaměstnaný/nezaměstnaný,... ) ordinální data původně slovní charakter, číselná realizace je uspořádatelná, ale není zde jednotné měřítko (klasifikace, dosažené vzdělání,... ) kvantitativní data přirozená číselná charakteristika intervalová stupnice mezi jednotkami je konstantní rozdí, ale 0 je relativní (stupně teploty, dny v roce,... ) poměrová stupnice má zde význam určovat poměr dvou hodnot, smysluplná nula (výška, váha,... ) Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 6 / 31

Výběrové charakteristiky Naměřili jsme n hodnot x 1, x 2,..., x n, počet prvků souboru n je tzv. rozsah souboru. Pro lepší zpracování data uspořádáme: x (1) x (2) x (n) a dostaneme uspořádaný soubor hodnot Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 8 / 31

Výběrové charakteristiky Příklad 1: Naměřili jsme 11 hodnot 64, 66, 60, 97, 68, 63, 97, 85, 73, 72, 87 Setřid te tento soubor a označte jednotlivé hodnoty pomocí x i a x (i), i = 1,... 11 Řešení: x 1 = 64, x 2 = 66, x 3 = 60, x 4 = 97, x 5 = 68, x 6 = 63, x 7 = 97, x 8 = 85, x 9 = 73, x 10 = 72, x 11 = 87 x (1) = 60, x (2) = 63, x (3) = 64, x (4) = 66, x (5) = 68, x (6) = 72, x (7) = 73, x (8) = 85, x (9) = 87, x (10) = 97, x (11) = 97 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 9 / 31

Výběrové charakteristiky Četnosti Počet výskytu n j hodnoty x j se nazývá četnost Součet všech četností dává rozsah n Podíl n j n se nazývá relativní četnost Součet relativních četností dává hodnotu 1 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 10 / 31

Výběrové charakteristiky Příklad 2: Máme hodnoty 1, 1, 2, 2, 2, 3, 3 a 4. Sestavte tabulku četností a relativních četností. Řešení: x j 1 2 3 4 n j 2 3 2 1 n j n 0,25 0,375 0,25 0,125 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 11 / 31

Aritmetický průměr Výběrové charakteristiky Charakteristiky polohy Klasický výpočet: x = 1 n n i=1 x i = x 1 + x 2 + + x n n Výpočet pomocí četností: x = 1 n k x j n j j=1 Aritmetický průměr je velice citlivý na odlehlé hodnoty. Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 12 / 31

Výběrové charakteristiky Charakteristiky polohy Příklad 3: Spočtěte průměr hodnot z příkladu 1 a 2. Řešení: x 1 = 64 + 66 + 60 + 97 + 68 + 63 + 97 + 85 + 73 + 72 + 87 = 11 = 832 = 75, 636 11 x 2 = 1 2 + 2 3 + 3 2 + 4 1 8 = 18 8 = 2.25 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 13 / 31

p-kvantil Výběrové charakteristiky Charakteristiky polohy p-kvantil (výběrový p-kvantil) { x([np]+1) np [np] x p = 1 2 (x (np) + x (np+1) ) np = [np], kde [a] značí celou část z a a 0 < p < 1. Speciální případy: 0,5-kvantil = Medián 50 % hodnot leží pod touto hodnotou a 50 % nad 0,25-kvantil resp. 0,75-kvantil = dolní resp. horní kvartil 0,1-kvantil, 0,2-kvantil,... = decily Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 14 / 31

Výběrové charakteristiky Charakteristiky polohy Příklad 4: Určete medián a oba kvartily hodnot z příkladu 1. Řešení: medián: n = 11, p = 0, 5 n p = 5, 5 np [np] (5, 5 5) x 0.5 = x (5+1) = x (6) = 72 dolní kvartil: n = 11, p = 0, 25 n p = 2, 75 np [np] (2, 75 2) x 0.25 = x (2+1) = x (3) = 64 horní kvartil: n = 11, p = 0, 75 n p = 8, 25 np [np] (8, 25 2) x 0.75 = x (8+1) = x (9) = 87 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 15 / 31

Výběrové charakteristiky Charakteristiky polohy Geometrický průměr x G = n n i=1 X i Používá se např. u průměrování procent. Harmonický průměr x H = 1 1 n n i=1 1 x i Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké. Modus nejčastější hodnota ve statistickém souboru dat Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 16 / 31

Výběrové charakteristiky Charakteristiky variability Rozptyl zjednodušeně řečeno je to průměrná odchylka od průměru. s 2 = 1 n 1 n (x i x) 2 = 1 n n 1 ( xi 2 nx 2 ) i=1 Vzorec pro výpočet pomocí četností: s 2 = 1 n 1 i=1 k ( xj x ) 2 nj Směrodatná odchylka odmocnina z rozptylu s = s 2 Mezikvartilové rozpětí j=1 r Q = x 0,75 x 0,25 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 17 / 31

Výběrové charakteristiky Charakteristiky variability Příklad 5: Spočtěte rozptyl hodnot příkladu 1 oběma způsoby. Řešení: s 2 = 1 ( (64 75, 636) 2 + (66 75, 636) 2 + (60 75, 636) 2 +... 10 + (72 75, 636) 2 + (87 75, 636) 2) = 184, 05 s 2 = 1 [ (64 2 + 66 2 + 60 2 + + 72 2 + 87 2 ) 11 75, 636 2] = 184, 05 10 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 18 / 31

Znázornění dat 67 53 62 66 53 64 51 63 62 60 66 60 61 56 55 54 55 61 64 63 64 56 63 57 68 67 61 64 66 63 65 61 64 64 64 66 61 64 63 67 60 68 53 68 68 52 62 60 67 57 60 68 63 54 67 61 68 61 68 61 67 61 62 52 61 61 66 61 67 62 65 66 49 66 56 61 62 67 68 56 61 68 61 67 63 60 65 66 60 67 64 56 68 58 63 68 61 68 59 56 68 66 61 58 50 67 55 62 68 60 66 62 68 60 49 63 68 68 52 51 59 65 67 63 63 66 67 57 58 65 66 63 57 67 66 59 67 61 60 63 58 61 53 67 66 65 61 64 61 66 62 60 50 57 60 68 68 65 68 65 65 62 67 68 67 68 60 66 67 62 62 65 55 57 65 64 64 64 57 59 56 68 59 67 54 58 65 57 61 66 52 68 63 54 68 57 68 Věk 68 57 64 68 63 67 62 64 67 63 65 61 65 58 58 68 55 63 57 67 62 62 67 58 51 53 60 59 63 58 68 49 65 55 64 58 61 49 62 62 63 58 59 67 54 68 67 64 58 65 66 64 67 60 54 67 68 66 66 53 65 66 55 65 57 57 63 66 62 68 60 62 53 63 68 62 68 65 59 64 65 54 49 64 60 68 61 68 57 65 55 58 68 62 62 60 68 60 62 62 64 65 58 67 51 64 67 66 62 49 63 68 57 62 66 64 61 68 54 65 60 68 54 66 68 66 61 60 63 65 67 66 68 67 55 55 59 60 62 64 65 66 68 64 67 65 49 51 57 65 65 66 65 64 64 62 56 59 62 63 61 66 64 63 67 62 57 58 68 51 64 64 67 66 54 65 49 64 67 67 67 68 68 60 60 68 65 66 59 65 60 62 65 67 62 65 56 58 68 66 63 62 62 53 66 67 62 58 62 68 65 63 66 63 65 65 65 65 57 59 61 66 63 66 64 57 59 64 64 65 67 65 55 49 63 66 68 66 60 64 62 59 63 64 67 50 60 64 58 65 64 59 64 67 62 60 65 67 61 65 64 67 58 65 66 65 67 56 65 67 58 62 63 67 51 65 67 68 68 61 62 68 65 57 67 67 65 64 58 50 68 63 68 60 67 66 49 61 61 64 68 61 66 nezaměstnaných mužů starších 49 let (výběr z CPS Current Population Survey, USA 1989) Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 20 / 31

Znázornění dat Tabulka četností nezaměstnaných mužů x j 49 50 51 52 53 54 55 56 57 58 n j 10 4 7 4 8 10 11 10 20 21 x j 59 60 61 62 63 64 65 66 67 68 n j 15 29 34 40 33 42 50 42 52 58 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 21 / 31

Znázornění dat Bodový graf Používá se zejména pro znázornění závislosti dvou znaků d 10 20 30 40 50 60 50 55 60 65 e Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 22 / 31

Znázornění dat Spojnicový graf průběhy časových řad, znázornění četností (polygon četností) d 10 20 30 40 50 60 50 55 60 65 e Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 23 / 31

Znázornění dat Sloupcový graf 60 50 40 30 20 10 0 45 50 55 60 65 70 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 24 / 31

Znázornění dat Intervalové rozdělení četností Data jsou bud přirozeně škatulkována do intervalů, nebo tyto intervaly můžeme vytvářet: < 50 50 55 55 60 60 65 65 10 33 Histogram 77 of a 178 202 Frequency 0 50 100 150 200 45 50 55 60 65 70 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 25 / 31

Znázornění dat Je vidět, že sloupcový diagram se mění v závislosti na tom, kterou stranu intervalu uvažujeme uzavřenou 50 50 55 55 60 60 65 > 65 14 40 Histogram 95 of a 199 152 Frequency 0 50 100 150 200 45 50 55 60 65 70 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 26 / 31

Znázornění dat nebo na počtu vytvořených sloupců < 60 60 Histogram 120 380 of a Frequency 0 100 200 300 40 50 60 70 80 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 27 / 31

Znázornění dat Šířka sloupců je volena např. pomocí Sturgesova pravidla h = xmax x min 1+3,3 log n, což v našem případě dává h = 68 49 1 + 3, 3 log 500. = 1, 918. x j 49 51 53 55 57 59 61 63 65 67 n j 14 11 18 21 41 44 74 75 92 110 120 100 80 60 40 20 0 45 50 55 60 65 70 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 28 / 31

Znázornění dat Kruhový (koláčový) graf zachycuje strukturu souboru 55 60 60 65 50 55 <50 >=65 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 29 / 31

Krabicový diagram Znázornění dat (box plot, box and whisker plot, vousatá krabička) Krabička je ohraničena hodnotami kvartilů a je zobrazen medián. Vousky znázorňují hodnoty, které nejsou od jednotlivých kvartilů vzdálené o více jak 1,5 násobek R Q. Jednotlivě jsou vyznačena pozorování, která jsou ve větší vzdálenosti. 50 55 60 65 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 30 / 31

Znázornění dat Příklad 6: Nakreslete krabicový diagram pro hodnoty z příkladu 1. Řešení: Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 31 / 31