Škály podle informace v datech: Různé typy dat znamenají různou informaci, resp. různé množství informace Data nominální Rovná se? x 1 = x 2 Data ordinální Větší, menší? x 1 < x 2 Data intervalová O kolik? má smysl měřit rozdíl Data poměrová Kolikrát? má smysl měřit podíl Údaje měřitelné na škále vyššího typu můžeme vždy degradovat a zobrazit na škále nižšího typu. Připouštíme tím ztrátu informace, ale většinou je to v zájmu přehlednosti dat. Děláme to v případě, kdy má změřená hodnota stejnou vypovídací schopnost jako např. ordinální vyjádření znaku (hladina protilátek v krvi +++, +,...) Je to nevyhnutelné v případě měření každého spojitého znaku - musíme zvolit konečnou jednotku měření (přesnost měření)
TŘÍDĚNÍ DAT je základní způsob zpracování dat. Při statistickém šetření potřebujeme roztřídit (uspořádat) velké množství dat do skupin podle jednoho či více zvolených statistických znaků. Třídící znak volíme podle účelu šetření.: věk respondentů pohlaví zdravotní stav daný určitým kritériem Třídící znak musí být zvolen tak, aby každá statistická jednotka mohla být jednoznačně zařazena do některé skupiny skupiny byly určitým způsobem vyvážené a homogenní
Důvody, způsoby a principy třídění dat
Určení hodnoty veličiny Hodnotu, kterou náhodná veličina nabyla, zjišťujeme načítáním - DATA DISKRÉTNÍ měřením - DATA SPOJITÁ DISKRÉTNÍ DATA - Čárkovací a jiné metody //// //// /// 13 hodnot 4, 8, 10 hodnot
Příklad jednoduchého třídění dat DATA: zjistíme četnost (počty) jednotlivých hodnot 3, 4, 3, 5, 2, 3, 4, 2, 3, 5, 3, 4, 2, 5, 3, 3, 3, 4, 5, 2, 2, 2, 3, 3, 4, 4, 4, 3, 3, 4 x i n i 2 //// / 6 3 //// //// // 12 4 //// /// 8 5 //// 4 n = 30 Pravděpodobnost jevu: vypočteme jako podíl n i /n x i 2 3 4 5 celkem p i 0,2 0,4 0,27 0,13 1,0
Metoda Lodyha a List (Stem & Leaf) DATA: 55, 70, 71, 70, 65, 63, 58, 56, 82, 64, 65, 75, 76, 68, 63, 69, 65, 51 lodyha desítky listy jednotky 5 1568 6 33455589 7 00156 8 2 1. sloupec - lodyha (angl. STEM) - číslice na místě desítek 2. sloupec - list (angl. LEAF) - číslice na místě jednotek vše uspořádáno vzestupně, tvar připomíná histogram
Metoda Lodyha a List (Stem & Leaf) - příklad 1 16 07 17 0355555588 18 0000222333333355777777778888 19 22335777888 20 000022233788 21 00035778 22 0002335578 23 023578 24 00228 25 26 23 27 28 08 29 0 30 7 31 32 33 2337 34 25 35 0077 36 00008 37 23577 38 233333558 39 2225577 40 0000003357788888 41 002233555577778 42 033355557788 43 00233333555577778 44 0222233555778 45 0000000023333357778888 46 00002333577 47 00000023578 48 000000223358 49 00333 50 037 51 0 Sloučení skupin 16 070355555588 18 000022233333335577777777888822335777888 20 00002223378800035778 22 0002335578023578 24 00228 26 23 28 080 30 7 32 2337 34 250077 36 0000823577 38 2333335582225577 40 0000003357788888002233555577778 42 03335555778800233333555577778 44 02222335557780000000023333357778888 46 0000233357700000023578 48 00000022335800333 50 0370
Metoda Lodyha a List (Stem & Leaf) - příklad 2 4 355566666777788899999 5 00000111111222223333333444444444555555666677788889999999 6 00000022223334444555667899 7 00001111123333333444444555555556666666667777777777778888888888888889 8 00000000111111111111122222222222233333333333333444444444455555566666 9 000000123346 Rozdělení skupin 4 3 4 55566666777788899999 5 00000111111222223333333444444444 5 555555666677788889999999 6 00000022223334444 6 555667899 7 00001111123333333444444 7 555555556666666667777777777778888888888888889999999999 8 000000001111111111111222222222222333333333333334444444444 8 55555566666677888888999 9 00000012334 9 6
Způsoby a výsledky třídění dat TŘÍDĚNÍ DAT PODLE POČTU TŘÍDÍCÍCH ZNAKŮ jednostupňové (podle věku respondentů) dvoustupňové (podle 2 veličin výsledkem je kontingenční tabulka) vícestupňové (pohlaví, věk, vzdělání, ) TŘÍDĚNÍ DAT PODLE TYPU TŘÍDĚNÍ prosté intervalové Výsledkem třídění je tabulka obsahující NADPIS (jaká data, kdy a kde bylo šetření provedeno) HLAVIČKU (obsah sloupců) LEGENDU (obsah řádků) VLASTNÍ DATA
PROSTÉ TŘÍDĚNÍ je-li třídící znak kategoriální nebo numerický s malým počtem hodnot PŘÍKLAD Pozorováním hnízd jistého druhu ptáků ve vymezené lokalitě byly zjištěny následující počty mláďat v jednotlivých hnízdech: 3, 4, 3, 5, 2, 3, 4, 2, 3, 5, 3, 4, 2, 5, 3, 3, 3, 4, 5, 2, 2, 2, 3, 3, 4, 4, 3, 3, 4, 4 Lokalita A kde, kdy i x i n i 1 2 6 2 3 12 3 4 8 4 5 4 Celkem hnízd n = 30
Tabulka četností diskrétní veličiny Hodnotu n i nazýváme absolutní četnost (nebo jen četnost) a vyjadřuje kolikrát se hodnota x i vyskytuje v datech. Pořadí hodnoty Hodnota (počet mláďat) Absolutní četnost i x i n i 1 2 6 2 3 12 3 4 8 4 5 4 Celkem n hodnot 30
Tabulka četností diskrétní veličiny Hodnotu n i nazýváme absolutní četnost (nebo jen četnost) a vyjadřuje kolikrát se hodnota x i vyskytuje v datech. k Platí vztah n =, kde k je počet různých hodnot x i i= 1 n i Pořadí hodnoty Hodnota (počet mláďat) Absolutní četnost i x i n i 1 2 6 2 3 12 3 4 8 4 5 4 Celkem n hodnot 30
Tabulka četností diskrétní veličiny Hodnotu n i nazýváme absolutní četnost (nebo jen četnost) a vyjadřuje kolikrát se hodnota x i vyskytuje v datech. k Platí vztah n =, kde k je počet různých hodnot x i i= 1 Vypočteme relativní četnosti v lokalitě A: n i Pořadí hodnoty Hodnota (počet mláďat) Absolutní četnost Relativní četnost f i = n i n i x i n i f i 1 2 6 6/30 = 0,20 2 3 12 12/30 = 0,40 3 4 8 8/30 = 0,27 4 5 4 4/30 = 0,13 Celkem n hodnot 30 30/30 = 1
Tabulka četností diskrétní veličiny Hodnotu n i nazýváme absolutní četnost (nebo jen četnost) a vyjadřuje kolikrát se hodnota x i vyskytuje v datech. k Platí vztah n =, kde k je počet různých hodnot x i i= 1 n i Vypočteme relativní a kumulativní četnosti v lokalitě A: Pořadí hodnoty Hodnota (počet mláďat) Absolutní četnost Absolutní kumulativní četnost Relativní četnost f i = n i n Relativní kumulativní četnost i x i n i N i f i F i 1 2 6 6 6/30 = 0,20 0,20 2 3 12 18 12/30 = 0,40 0,60 3 4 8 26 8/30 = 0,27 0,87 4 5 4 30 4/30 = 0,13 1,00 Celkem n hodnot 30 30/30 = 1
SKUPINOVÉ (INTERVALOVÉ) TŘÍDĚNÍ DAT je-li třídící znak numerická proměnná s velkým počtem hodnot, musíme nejprve data rozdělit do určitých intervalů (skupin). Je důležité správně stanovit počet třídících intervalů Přibližný počet intervalů můžeme stanovit některým pravidlo pro výpočet přibližného počtu intervalů, např. Sturgesovo pravidlo: k = 1 + 3,3 log n, kde n je rozsah souboru Dále musíme vhodně zvolit hranice a střed intervalů (střední hodnota reprezentuje daný interval) U spojitých znaků musíme určit, která mez do intervalu patří a která ne (horní, dolní) U diskrétních znaků se snažíme za střed intervalu volit celé číslo
SKUPINOVÉ (INTERVALOVÉ) TŘÍDĚNÍ DAT Příklad 1: V ročníku je 56 dětí. Jejich výkony ve sprintu na 60 m se pohybují od 8,20 s do 21,4 s. Časy jsou uvedeny v desítkové soustavě a přesnost měřením je na 1 desetinné místo. Navrhněte vhodný počet intervalů a formu intervalového rozdělení. Řešení: počet intervalů k = 1 + 3,3 log (56) = 1 + 3,3*1,75 = 1 + 5,8 ~ 7 intervaly (21,4 8,2 )/ 7 = 1,886 ~ 1,9 ~ 2,0 Intervalů bude 7 a každý bude mít šířku 2 sekundy
SKUPINOVÉ (INTERVALOVÉ) TŘÍDĚNÍ DAT Předpokládejme, že časy dětí odpovídají této tabulce a jsou vypočteny relativní četnosti. Doplňte absolutní a relativní kumulativní četnosti u jednotlivých tříd časů. Čas Střed intervalu Počet dětí <8-10) 9 4 0,07 <10-12) 11 8 0,14 <12-14) 13 18 0,32 <14-16) 15 12 0,21 <16-18) 17 9 0,16 <18-20) 19 4 0,07 <20-22) 21 1 0,02 Celkem 56 0,99 Proč je součet relativních četností 0,99? Kumulativní četnost absolutně relativně absolutní relativní
SKUPINOVÉ (INTERVALOVÉ) TŘÍDĚNÍ DAT Příklad 2: Ve firmě je 120 zaměstanců a jejich příjem se pohybuje od 5.000,- Kč pracovnice na úklid až po 41.000,- ambiciózního zástupce vedoucího. 120 zaměstnanců má tyto příjmy: 1 zaměstnanec: 5 000, 2: 8 900, 3: 12 680, 7: 14 500, 5: 16 900, 19: 18 250, 12: 19 450, 8: 20 120, 7: 21 320, 4: 22 560, 9: 22 890, 3: 23 130, 11: 23 800, 12: 24 100, 6: 24 760, 1: 25.000, 4: 25 230, 3: 25 800, 1: 28 100, 1: 29 000, 1: 41 000 Navrhněte vhodný počet intervalů a formu intervalového rozdělení. Řešení: počet intervalů k = 1 + 3,3 log (120) = 1 + 3,3*2,08 = 1 + 6,9 = 8 šířka intervalu ( 41 000 5 000 )/ 8 = 4500 Kč
SKUPINOVÉ (INTERVALOVÉ) TŘÍDĚNÍ DAT Dolňte tabulku podle zadání: 1 zaměstanec 5 000, 2: 8 900, 3: 12 680, 7: 14 000, 5: 16 900, 19: 18 500, 12: 19 450, 8: 20 120, 7: 21 320, 4: 22 560, 9: 22 890, 3: 23 030, 11: 23 800, 12: 24 100, 6: 24 760, 1: 25.000, 4: 25 230, 3: 25 800, 1: 28 100, 1: 29 000, 1: 41 000 Interval rozpětí platu Střed intervalu Počet pracovníků Kumulativní četnost absolutně relativně absolutní relativní <5.000-9.500) 7.250 3 0,025 3 0,025 <9.500-14.000) 11.750 3 0,025 6 0,05 <14.000-18.500) 16.250 12 0,1 18 0,15 <18.500-23.000) 20.750 <23.000-27.500) 25.250 <27.500-32.000) <32.000-36.500) <36.500-41.000> 38.750 Celkem 120 1,00 120 1,00
Grafické zobrazení diskrétní veličiny - sloupcový graf Příklad počtu mláďat zkoumaného druhu ptáků v lokalitě A Lokalita A kde, kdy i x i n i 1 2 6 2 3 12 3 4 8 4 5 4 Celkem 30 Absolutní četnosti 12 10 8 6 4 2 0 Počet mláďat - v lokalitě A 2 3 4 5 Diskrétní veličinu často zobrazujeme graficky pomocí SLOUPCOVÉHO GRAFU na základě ABSOLUTNÍCH POČTŮ
Grafické zobrazení diskrétní veličiny - sloupcový graf Stejný příklad počtu mláďat v lokalitě A - vypočteme relativní četnosti Lokalita A Počet mláďat Četnost absol. relat. 1 2 6 0,20 2 3 12 0,40 3 4 8 0,27 4 5 4 0,13 Celkem 30 1,00 Relativní četnosti 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 Počet mláďat v lokalitě A 0 2 3 4 5 Diskrétní veličinu můžeme zobrazit graficky pomocí SLOUPCOVÉHO GRAFU RELATIVNÍCH ČETNOSTÍ.
Grafické porovnání Př. 2 Pozorováním hnízd stejného druhu ptáků v lokalitě B byly zjištěny následující počty mláďat: (pro přehlednost uspořádáno do tabulky) Lokalita B i x i n i 1 2 12 2 3 25 3 4 15 4 5 8 Celkem n=60 Nakreslete v Excelu společný graf absolutních četností pro populaci ptáků v obou lokalitách. Nakreslete v Excelu společný graf relativních četností pro populaci ptáků v obou lokalitách.
Grafické porovnání absolutních a relativních četností Porovnání absolutních četností počtu mláďat v lokalitě A a B Absolutní četnosti 25 20 15 10 5 0 2 3 4 5 Počty mláďat lokalita A lokalita B Porovnání relativních četností počtu mláďat v lokalitě A a B Relativní četnosti 0,5 0,4 0,3 0,2 0,1 0,0 2 3 4 5 Počty mláďat lokalita A lokalita B
Grafické zobrazení spojité veličiny - histogram Délka narozených dětí... Počty narozených dětí 90 80 70 60 50 40 30 20 10 0 35 38 41 44 47 50 53 56 59 délka v cm
Grafické zobrazení diskrétní veličiny - sloupcový graf Virová hepatitida A - porovnání krajů v letech 1997-2009: relativní počty hlášení za 1.- 30. kalendářní týden 20,0 15,0 10,0 5,0 0,0 Kraj Praha Středočeský Jihočeský Plzeňský Karlovarský Ústecký Kraj Praha Středočeský Jihočeský Plzeňský Karlovarský Ústecký Liberecký Královo-hradecký Pardubický Vysočina Jihomoravský Olomoucký Zlínský Moravskoslezský Liberecký Královo-hradecký Pardubický Vysočina Jihomoravský Olomoucký Zlínský Moravskoslezský 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Grafické zobrazení diskrétní veličiny - sloupcový graf Onemocnění virovou hepatitidou A do 30. týdne vykázání a porovnání s rokem 2007 a 2008 za stejné období Počty onemocn ění 60 50 40 30 20 Rok 2007 1.-30. kt Rok 2008 1.-30. kt Rok 2009 1.-30. kt 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Týdny vykázání
Grafické zobrazení diskrétní veličiny - histogram Onemocnění VHA (dg. B15) za 1.- 26. týden vykázání v roce 2009 a porovnání s 1.- 53. týdnem výkázání v roce 2008 180 Rok 2008 Rok 2009 Klouzavý průměr/2 (Rok 2009) Klouzavý průměr/2 (Rok 2008) 160 160 152 140 140 Četnost hlášených onemocnění 120 100 80 80 73 104105 76 94 82 60 40 20 0 58 51 46 41 37 33 30 23 26 30 24 26 23 19 14 0 2 1 2 5 1 0 1 2 1 1 1 1 4 2 1 3 1 2 3 3 8 7 12 7 12 17 13 12 171923 19 22 1617 15 7 1114 9 6 3 3 3 3 8 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 58 51 45 3434 48 29 Týdny vykázání
Grafické zobrazení - sloupcový a koláčový graf Četnosti onemocnění VHA v ČR podle věku (37. kt) 55 50 45 40 35 30 25 20 15 10 5 0 IV-narko, drogy Bezdomovec Jiné riziko Epidemie Nezaměst., neprac. Bez rizika 1-4 5-9 10-14 15-19 20-24 25-34 35-44 45-54 55-64 65-74 75 + Česká republika Praha Středočeský kraj Ostatní kraje Věková kategorie 15-24 let IV-narko, drogy Bezdomovec Jiné riziko Epidemie Nezaměst., neprac. Bez rizika věk. kat. 15-24 věk. kat. 15-24 věk. kat. 15-24
Grafické zobrazení - spojnicový graf 35000 Hepatitida A (B15) ČR, 1976-2007, počet případů 30000 25000 20000 15000 10000 5000 0 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006
Grafické zobrazení - mapa četností podle okresů ČR VHA 2008, kumulativně do 40. kt. počty případů
Odkaz na článek Grafy a tabulky ve statistice (aneb Na co ve výuce obvykle není čas) Josef Tvrdík Katedra informatiky, Přírodovědecká fakulta Ostravské university Abstrakt: V článku jsou uvedeny některé jednoduché zásady a doporučení pro vhodnou prezentaci statistických výsledků, zejména tabulek a grafů. Tyto zásady a doporučení vycházejí z literatury a ze zkušeností z aplikací statistiky v různých oborech. Některé chyby v prezentaci výsledků jsou podrobně diskutovány a je také doporučeno vhodnější řešení.