Popisná statistika Jitka Kühnová Statistika pro sociology 24. září 2014 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 1 / 31
Outline 1 Základní pojmy 2 Typy statistických dat 3 Výběrové charakteristiky Charakteristiky polohy Charakteristiky variability 4 Znázornění dat Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 2 / 31
Základní pojmy Populace (základní soubor) větší skupina individuí, kterou se snažíme charakterizovat Náhodný výběr menší skupina individuí, kterou jsme vybrali náhodně a pomocí které charakterizujeme populaci Statistický znak vlastnost individua, kterou měříme nebo zjišt ujeme Populační charakteristika charakteristika sledované vlasnosti (např. průměrná výška,... ) celé populace Výběrová charakteristika charakteristika náhodného výběru, pomocí ní odhadujeme hodnotu populační charakteristiky Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 4 / 31
Typy statistických dat Základní typy dat kvalitativní data slovní vyjádření, můžeme nahradit číselnou hodnotou nominální data (víceškálová, kategoriální) přiřazené číselné hodnoty nejsou uspořádatelné (barva vlasů, rodinný stav, národnost,... ). Speciální případ jsou binární (alternativní, dichotomická) data (muž/žena, zaměstnaný/nezaměstnaný,... ) ordinální data původně slovní charakter, číselná realizace je uspořádatelná, ale není zde jednotné měřítko (klasifikace, dosažené vzdělání,... ) kvantitativní data přirozená číselná charakteristika intervalová stupnice mezi jednotkami je konstantní rozdí, ale 0 je relativní (stupně teploty, dny v roce,... ) poměrová stupnice má zde význam určovat poměr dvou hodnot, smysluplná nula (výška, váha,... ) Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 6 / 31
Výběrové charakteristiky Naměřili jsme n hodnot x 1, x 2,..., x n, počet prvků souboru n je tzv. rozsah souboru. Pro lepší zpracování data uspořádáme: x (1) x (2) x (n) a dostaneme uspořádaný soubor hodnot Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 8 / 31
Výběrové charakteristiky Příklad 1: Naměřili jsme 11 hodnot 64, 66, 60, 97, 68, 63, 97, 85, 73, 72, 87 Setřid te tento soubor a označte jednotlivé hodnoty pomocí x i a x (i), i = 1,... 11 Řešení: x 1 = 64, x 2 = 66, x 3 = 60, x 4 = 97, x 5 = 68, x 6 = 63, x 7 = 97, x 8 = 85, x 9 = 73, x 10 = 72, x 11 = 87 x (1) = 60, x (2) = 63, x (3) = 64, x (4) = 66, x (5) = 68, x (6) = 72, x (7) = 73, x (8) = 85, x (9) = 87, x (10) = 97, x (11) = 97 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 9 / 31
Výběrové charakteristiky Četnosti Počet výskytu n j hodnoty x j se nazývá četnost Součet všech četností dává rozsah n Podíl n j n se nazývá relativní četnost Součet relativních četností dává hodnotu 1 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 10 / 31
Výběrové charakteristiky Příklad 2: Máme hodnoty 1, 1, 2, 2, 2, 3, 3 a 4. Sestavte tabulku četností a relativních četností. Řešení: x j 1 2 3 4 n j 2 3 2 1 n j n 0,25 0,375 0,25 0,125 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 11 / 31
Aritmetický průměr Výběrové charakteristiky Charakteristiky polohy Klasický výpočet: x = 1 n n i=1 x i = x 1 + x 2 + + x n n Výpočet pomocí četností: x = 1 n k x j n j j=1 Aritmetický průměr je velice citlivý na odlehlé hodnoty. Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 12 / 31
Výběrové charakteristiky Charakteristiky polohy Příklad 3: Spočtěte průměr hodnot z příkladu 1 a 2. Řešení: x 1 = 64 + 66 + 60 + 97 + 68 + 63 + 97 + 85 + 73 + 72 + 87 = 11 = 832 = 75, 636 11 x 2 = 1 2 + 2 3 + 3 2 + 4 1 8 = 18 8 = 2.25 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 13 / 31
p-kvantil Výběrové charakteristiky Charakteristiky polohy p-kvantil (výběrový p-kvantil) { x([np]+1) np [np] x p = 1 2 (x (np) + x (np+1) ) np = [np], kde [a] značí celou část z a a 0 < p < 1. Speciální případy: 0,5-kvantil = Medián 50 % hodnot leží pod touto hodnotou a 50 % nad 0,25-kvantil resp. 0,75-kvantil = dolní resp. horní kvartil 0,1-kvantil, 0,2-kvantil,... = decily Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 14 / 31
Výběrové charakteristiky Charakteristiky polohy Příklad 4: Určete medián a oba kvartily hodnot z příkladu 1. Řešení: medián: n = 11, p = 0, 5 n p = 5, 5 np [np] (5, 5 5) x 0.5 = x (5+1) = x (6) = 72 dolní kvartil: n = 11, p = 0, 25 n p = 2, 75 np [np] (2, 75 2) x 0.25 = x (2+1) = x (3) = 64 horní kvartil: n = 11, p = 0, 75 n p = 8, 25 np [np] (8, 25 2) x 0.75 = x (8+1) = x (9) = 87 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 15 / 31
Výběrové charakteristiky Charakteristiky polohy Geometrický průměr x G = n n i=1 X i Používá se např. u průměrování procent. Harmonický průměr x H = 1 1 n n i=1 1 x i Používá se, jsou-li hodnoty znaku nerovnoměrně rozloženy kolem aritmetického průměru, nebo když jsou hodnoty extrémně nízké či vysoké. Modus nejčastější hodnota ve statistickém souboru dat Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 16 / 31
Výběrové charakteristiky Charakteristiky variability Rozptyl zjednodušeně řečeno je to průměrná odchylka od průměru. s 2 = 1 n 1 n (x i x) 2 = 1 n n 1 ( xi 2 nx 2 ) i=1 Vzorec pro výpočet pomocí četností: s 2 = 1 n 1 i=1 k ( xj x ) 2 nj Směrodatná odchylka odmocnina z rozptylu s = s 2 Mezikvartilové rozpětí j=1 r Q = x 0,75 x 0,25 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 17 / 31
Výběrové charakteristiky Charakteristiky variability Příklad 5: Spočtěte rozptyl hodnot příkladu 1 oběma způsoby. Řešení: s 2 = 1 ( (64 75, 636) 2 + (66 75, 636) 2 + (60 75, 636) 2 +... 10 + (72 75, 636) 2 + (87 75, 636) 2) = 184, 05 s 2 = 1 [ (64 2 + 66 2 + 60 2 + + 72 2 + 87 2 ) 11 75, 636 2] = 184, 05 10 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 18 / 31
Znázornění dat 67 53 62 66 53 64 51 63 62 60 66 60 61 56 55 54 55 61 64 63 64 56 63 57 68 67 61 64 66 63 65 61 64 64 64 66 61 64 63 67 60 68 53 68 68 52 62 60 67 57 60 68 63 54 67 61 68 61 68 61 67 61 62 52 61 61 66 61 67 62 65 66 49 66 56 61 62 67 68 56 61 68 61 67 63 60 65 66 60 67 64 56 68 58 63 68 61 68 59 56 68 66 61 58 50 67 55 62 68 60 66 62 68 60 49 63 68 68 52 51 59 65 67 63 63 66 67 57 58 65 66 63 57 67 66 59 67 61 60 63 58 61 53 67 66 65 61 64 61 66 62 60 50 57 60 68 68 65 68 65 65 62 67 68 67 68 60 66 67 62 62 65 55 57 65 64 64 64 57 59 56 68 59 67 54 58 65 57 61 66 52 68 63 54 68 57 68 Věk 68 57 64 68 63 67 62 64 67 63 65 61 65 58 58 68 55 63 57 67 62 62 67 58 51 53 60 59 63 58 68 49 65 55 64 58 61 49 62 62 63 58 59 67 54 68 67 64 58 65 66 64 67 60 54 67 68 66 66 53 65 66 55 65 57 57 63 66 62 68 60 62 53 63 68 62 68 65 59 64 65 54 49 64 60 68 61 68 57 65 55 58 68 62 62 60 68 60 62 62 64 65 58 67 51 64 67 66 62 49 63 68 57 62 66 64 61 68 54 65 60 68 54 66 68 66 61 60 63 65 67 66 68 67 55 55 59 60 62 64 65 66 68 64 67 65 49 51 57 65 65 66 65 64 64 62 56 59 62 63 61 66 64 63 67 62 57 58 68 51 64 64 67 66 54 65 49 64 67 67 67 68 68 60 60 68 65 66 59 65 60 62 65 67 62 65 56 58 68 66 63 62 62 53 66 67 62 58 62 68 65 63 66 63 65 65 65 65 57 59 61 66 63 66 64 57 59 64 64 65 67 65 55 49 63 66 68 66 60 64 62 59 63 64 67 50 60 64 58 65 64 59 64 67 62 60 65 67 61 65 64 67 58 65 66 65 67 56 65 67 58 62 63 67 51 65 67 68 68 61 62 68 65 57 67 67 65 64 58 50 68 63 68 60 67 66 49 61 61 64 68 61 66 nezaměstnaných mužů starších 49 let (výběr z CPS Current Population Survey, USA 1989) Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 20 / 31
Znázornění dat Tabulka četností nezaměstnaných mužů x j 49 50 51 52 53 54 55 56 57 58 n j 10 4 7 4 8 10 11 10 20 21 x j 59 60 61 62 63 64 65 66 67 68 n j 15 29 34 40 33 42 50 42 52 58 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 21 / 31
Znázornění dat Bodový graf Používá se zejména pro znázornění závislosti dvou znaků d 10 20 30 40 50 60 50 55 60 65 e Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 22 / 31
Znázornění dat Spojnicový graf průběhy časových řad, znázornění četností (polygon četností) d 10 20 30 40 50 60 50 55 60 65 e Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 23 / 31
Znázornění dat Sloupcový graf 60 50 40 30 20 10 0 45 50 55 60 65 70 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 24 / 31
Znázornění dat Intervalové rozdělení četností Data jsou bud přirozeně škatulkována do intervalů, nebo tyto intervaly můžeme vytvářet: < 50 50 55 55 60 60 65 65 10 33 Histogram 77 of a 178 202 Frequency 0 50 100 150 200 45 50 55 60 65 70 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 25 / 31
Znázornění dat Je vidět, že sloupcový diagram se mění v závislosti na tom, kterou stranu intervalu uvažujeme uzavřenou 50 50 55 55 60 60 65 > 65 14 40 Histogram 95 of a 199 152 Frequency 0 50 100 150 200 45 50 55 60 65 70 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 26 / 31
Znázornění dat nebo na počtu vytvořených sloupců < 60 60 Histogram 120 380 of a Frequency 0 100 200 300 40 50 60 70 80 a Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 27 / 31
Znázornění dat Šířka sloupců je volena např. pomocí Sturgesova pravidla h = xmax x min 1+3,3 log n, což v našem případě dává h = 68 49 1 + 3, 3 log 500. = 1, 918. x j 49 51 53 55 57 59 61 63 65 67 n j 14 11 18 21 41 44 74 75 92 110 120 100 80 60 40 20 0 45 50 55 60 65 70 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 28 / 31
Znázornění dat Kruhový (koláčový) graf zachycuje strukturu souboru 55 60 60 65 50 55 <50 >=65 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 29 / 31
Krabicový diagram Znázornění dat (box plot, box and whisker plot, vousatá krabička) Krabička je ohraničena hodnotami kvartilů a je zobrazen medián. Vousky znázorňují hodnoty, které nejsou od jednotlivých kvartilů vzdálené o více jak 1,5 násobek R Q. Jednotlivě jsou vyznačena pozorování, která jsou ve větší vzdálenosti. 50 55 60 65 Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 30 / 31
Znázornění dat Příklad 6: Nakreslete krabicový diagram pro hodnoty z příkladu 1. Řešení: Jitka Kühnová (GSTAT) Popisná statistika 24. září 2014 31 / 31