Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 1 9.6 TŘÍDĚNÍ PODLE JEDNOHO NESPOJITÉHO ČÍSELNÉHO ZNAKU Na následujícím příkladu si vysvětlíme problematiku třídění podle jednoho nespojitého číselného znaku, kdy: je k dispozici větší počet prvků číselné hodnoty se opakují. Pro potřeby třídění sestavíme četnostní tabulku 9.4, neboli tabulku rozdělení četností. Ta podává informaci o četnosti výskytu jednotlivých variant (obměn) znaku v souboru. Předpokládejme, že pracovník podniku Alfa Blatná, který spravuje podnikovou databázi, exportoval do tabulkového procesoru všechny pracovníky podniku s některými sledovanými atributy (vlastnostmi), které jsou vypsané v tabulce 9.1. Tuto tabulku budeme používat pro všechny další příklady Tabulka 9.1: Zaměstnanci malé organizace Alfa Blatná k 30. 6. 2012 Číslo pracovníka Příjmení Pohlaví Titul Stav Počet vyživovaných dětí Pracovní kategorie Hrubá měsíční mzda za červen Zbývá dní dovolené 1 Adam 1 1 0 Dělník 15 000 4 2 Bartoš 1 2 1 Dělník 12 000 8 3 Beneš 1 2 4 Dělník 24 000 9 4 Berka 1 3 0 Provozní 23 000 6 5 Bláha 1 Ing. 2 2 Technický 27 000 5 6 Bohuš 1 2 0 Dělník 18 000 7 7 Bouše 1 2 1 Dělník 17 000 4 8 Boušová 2 2 2 Hospodářský 32 000 5
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 2 9 Bůbal 1 2 1 Dělník 18 000 6 10 Bureš 1 2 4 Technický 20 000 9 11 Burešová 2 2 0 Provozní 24 000 5 12 Burgerová 2 2 2 Dělník 24 000 7 13 Černá 2 1 0 Dělník 14 000 3 14 Daněk 1 1 1 Dělník 19 000 6 15 Dlask 1 2 0 Dělník 18 000 6 16 Dobeš 1 2 3 Dělník 18 000 4 17 Drobník 1 RNDr. Bc. 2 2 Hospodářský 40 000 9 18 Erb 1 1 2 Dělník 16 000 3 19 Fichtner 1 2 1 Dělník 16 000 6 20 Gál 1 2 1 Hospodářský 14 000 4 21 Gott 1 2 6 Dělník 29 000 5 22 Havel 1 2 0 Hospodářský 28 000 4 23 Házová 2 2 0 Dělník 10 000 3 24 Hejral 1 2 0 Technický 19 000 6 25 Hrubín 1 2 4 Dělník 18 000 3 26 Hubač 1 2 2 Dělník 18 000 8 27 Hupová 2 2 2 Provozní 17 000 4 28 Hus 1 JUDr. 2 3 Hospodářský 34 000 5 29 Janda 1 2 1 Dělník 19 000 8 30 Janků 1 2 0 Dělník 18 000 4 31 Janků 2 3 3 Provozní 14 000 3 32 Jarý 1 2 1 Dělník 19 000 6 33 Jiřinec 1 2 2 Dělník 18 000 4 34 Jonáš 1 2 3 Dělník 27 000 8 35 Kobosil 1 2 1 Hospodářský 30 000 5 36 Korousová 2 2 2 Dělník 14 000 8 37 Kos 1 2 2 Dělník 21 000 7 38 Koucký 1 2 2 Dělník 23 000 7 39 Kulíšek 1 2 1 Dělník 16 000 6 40 Lahodný 1 2 1 Dělník 24 000 4
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 3 41 Lahodová 2 2 3 Dělník 14 000 3 42 Líbenková 2 Mgr. 2 0 Hospodářský 12 000 5 43 Lín 1 2 3 Dělník 12 000 6 44 Linka 1 Doc. 2 2 Hospodářský 23 000 7 45 Líný 1 Mgr. 2 1 Technický 24 000 8 46 Mahel 1 2 2 Dělník 20 000 6 47 Masaryk 1 2 1 Dělník 18 000 6 48 Mocová 2 2 3 Dělník 17 000 5 49 Moravec 1 2 2 Technický 22 500 5 50 Nezval 1 2 3 Dělník 17 000 7 51 Nohavica 1 2 2 Technický 23 000 6 52 Novák 1 2 5 Dělník 19 000 6 53 Novák 1 2 2 Dělník 21 000 7 54 Nováková 2 2 0 Dělník 17 000 6 55 Ondráš 1 2 4 Dělník 17 000 5 56 Prádler 1 2 1 Hospodářský 19 000 5 57 Rus 1 3 2 Technický 20 000 7 58 Svoboda 1 1 2 Technický 21 000 7 59 Tatar 1 1 2 Technický 16 000 5 60 Tomšů 1 4 3 Technický 17 000 9 Celkem x x x 106 x 1 194 500 x Vysvětlivky: Pohlaví Kód muž 1 žena 2 Stav Kód svobodný/á 1 vdaná/ženatý 2 vdova/vdovec 3 rozvedený/á 4
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 4 Příklad 9.3: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku počet vyživovaných dětí na jednotlivé třídy. Současně doplníme procento pracovníků s daným počtem dětí. Dále vytvoříme histogram rozdělení četnosti pracovníků v závislosti na počtu vyživovaných dětí. b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají 0 dětí, 0 až 1 dítě, 0 až 2 děti, 0 až 3 děti atd. Vytvoříme graf (histogram) kumulativní četnosti pracovníků v závislosti na počtu vyživovaných dětí. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Řešení: Ad a) U číselného znaku nastávají tyto problémy: Na první pohled neznáme počet tříd. V našem případě nevíme, od jakého počtu dětí do jakého počtu dětí se budeme pohybovat. Proto musíme ve sloupci "Počet vyživovaných dětí" nejprve zjistit minimum a maximum. Do skupinové tabulky pak doplníme i všechny hodnoty celých čísel ležící mezi minimem a maximem. Minimum a maximum zjistíme z tabulky 9.1 buď ručně, anebo výpočtem v MS Excel. Pohledem vidíme, že v tab. 9.1 je nejmenší počet dětí 0 a nejvyšší počet dětí je 6. Při výpočtu v MS Excel jde o funkci MIN a MAX. =MIN(oblast) =MAX(oblast) kde oblast je oblast buněk v tabulce 9.1, kde se nalézá sloupec Počet vyživovaných dětí. Například: =MIN(F24:F83) =MAX(F24:F83) Proto ve skupinové tabulce označíme legendu názvem Počet dětí a v legendě uvedeme čísla 0, 1, 2, 3, 4, 5, 6, což jsou jednotlivé obměny (varianty) nespojitého číselného znaku počet dětí.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 5 U nás x 1 = 0, x 2 = 1, x 3 = 2, x 4 = 3, x 5 = 4, x 6 = 5, x 7 = 6. Legendu uzavřeme řádkem "Celkem", kdy sečteme počty pracovníků s daným počtem dětí. V hlavičce tabulky bude prozatím: počet pracovníků s daným počtem dětí absolutně, počet pracovníků s daným počtem dětí v procentech. Počet pracovníků s 0 vyživovanými dětmi zjistíme: buď ručně, zjistíme, že počet znaků 0 v tabulce 9.1 je 12, anebo MS Excel. Do tabulky 9.4 do sloupce Počet pracovníků absolutně k řádku 0 dětí napíšeme: =COUNTIF(oblast;0) kde oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec Počet vyživovaných dětí a znak 0 znamená, že v oblasti hledáme počet nul. Například: =COUNTIF(F$24:F$83;0) Zjistíme počet pracovníků, kteří nemají žádné vyživované dítě, je 12. Podobně ručně či v MS Excel zjistíme, že počet pracovníků, kteří mají jedno vyživované dítě, je 14. Dvě vyživované děti má 19 pracovníků, tři děti má 9 pracovníků, čtyři děti mají 4 pracovníci, pět a šest dětí má 1 pracovník. V řádku Celkem ve sloupci Počet pracovníků absolutně sečteme pracovníky s různým počtem dětí. Výsledek musí být 60, což je počet pracovníků. Ve sloupci "Počet pracovníků v %" jde o známá poměrná čísla struktury. Spočítáte je jednoduše podle příkladu 9.1. Tabulka vypadá takto:
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 6 Tab. 9.4: Třídění pracovníků firmy Alfa Blatná dle počtu vyživovaných dětí k 30. 6. 2012 Počet dětí Počet pracovníků absolutně v % kumulativně kumulativně v % 0 12 20,0 12 20,0 1 14 23,3 26 43,3 2 19 31,7 45 75,0 3 9 15,0 54 90,0 4 4 6,7 58 96,7 5 1 1,7 59 98,3 6 1 1,7 60 100,0 Celkem 60 100,0 x x Histogram rozdělení četnosti statistických jednotek (prvků souboru) v závislosti na počtu obměn statistického znaku se tvoří pomocí sloupcového grafu, kde výška sloupce (hodnota y) představuje: buď počet (absolutní četnost) statistických jednotek v závislosti na určité obměně statistického znaku, který tvoří proměnnou na ose x. anebo relativní počet (relativní četnost v % nebo v poměrných číslech) statistických jednotek v závislosti na určité obměně statistického znaku, který tvoří proměnnou na ose x. V našem příkladě jde o histogram rozdělení četnosti pracovníků v závislosti na počtu vyživovaných dětí, který se tvoří pomocí sloupcového grafu, kde výška sloupce (hodnota y) představuje: buď počet (absolutní četnost) pracovníků v závislosti na různém počtu vyživovaných dětí, který tvoří proměnnou na ose x, anebo relativní počet (relativní četnost v % nebo v poměrných číslech) pracovníků v závislosti na různém počtu dětí, který tvoří proměnnou na ose x. Histogram rozdělení absolutní četnosti pracovníků v závislosti na různém počtu dětí, který tvoří proměnnou na ose x, vytvoříme sloupcovým grafem ze sloupce Počet pracovníků absolutně. Na ose x budou hodnoty z legendy tabulky 9.4, kde je počet dětí od 0 do 6. Histogram rozdělení absolutní četnosti pracovníků v závislosti na různém počtu dětí je v grafu 9.1. Z grafu vidíme: Počet pracovníků narůstá s počtem vyživovaných dětí až do počtu 2 dětí. Nejvyšší počet pracovníků má na sebe napsané 2 vyživované děti. Od počtu 2 vyživovaných dětí do 5 počet pracovníků klesá.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 7 Tzn., že nejvíce pracovníků má střední počet dětí. Menší počet dětí i větší počet dětí má na sebe napsaný již menší počet pracovníků. S tím souvisí obálka grafu, která připomíná tvarem horu nebo zvon. Jedná se o asymetrickou Gaussovu křivku, o které se zmíníme ještě později. Histogram relativní četnosti pracovníků v závislosti na různém počtu dětí (který tvoří proměnnou na ose x) vytvoříme sloupcovým grafem ze sloupce Počet pracovníků v %. Na ose x budou hodnoty z legendy tabulky 9.4, kde je počet dětí od 0 do 6. Histogram rozdělení relativní četnosti pracovníků v závislosti na různém počtu dětí je v grafu 9.2. Tvar grafu s relativní četností je stejný, jako u grafu s absolutní četností. Jen místo počtů pracovníků jsou procenta pracovníků s daným počtem dětí.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 8 Ad b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají 0 dětí, 0 až 1 dítě, 0 až 2 děti, 0 až 3 děti atd. Vytvoříme graf (histogram) kumulativní četnosti pracovníků v závislosti na počtu vyživovaných dětí. Do hlavičky tabulky 9.4 doplníme sloupce: počet pracovníků s daným počtem dětí kumulativně, kam doplníme kumulativní četnost, počet pracovníků s daným počtem dětí kumulativně v procentech. Kumulativní četnost vytvoříme takto: Do sloupce Počet pracovníků kumulativně na první řádek opíšeme počet pracovníků, kteří nemají žádné vyživované dítě, tj. opíšeme číslo 12. Na druhý řádek sečteme počet pracovníků s 0 dětmi a s 1 vyživovaným dítětem, tj. 12 + 14 = 26. Na třetí řádek sečteme počet pracovníků s 0 dětmi, s 1 vyživovaným dítětem i se 2 vyživovanými dětmi, tj. 12 + 14 + 19 = 26 + 19 = 45. V kumulaci vždy sečítáme předchozí součet a k němu sečteme další počet pracovníků s vyšším počtem dětí. Další řádky vypočítejte sami. V řádku Celkem ve sloupci Počet pracovníků kumulativně i Počet pracovníků kumulativně v % dáme symbol x, neboť hodnota v tomto řádku nemá smysl. Graf kumulativní četnosti pracovníků v závislosti na počtu vyživovaných dětí vytvoříme sloupcovým grafem ze sloupce tabulky 9.4 Počet pracovníků kumulativně. Na ose x budou hodnoty 0, 0-1, 0-2 až 0-6. Kumulativní četnosti pracovníků v závislosti na počtu vyživovaných dětí je zobrazena v grafu 9.3. Z grafu vidíme, že počet pracovníků, kteří mají od minima (0) po nějaký počet dětí narůstá nejprve rychleji, pak pomaleji k hodnotě 60, kdy 0 až 6 dětí má všech 60 pracovníků.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 9 Ad c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. Snadno spočítáme, že: 12 pracovníků, kteří mají 0 vyživovaných dětí ze 60 pracovníků, je 20 %, 26 pracovníků, kteří mají 0 až 1 vyživované dítě ze 60 pracovníků, je 43,3 %, 45 pracovníků, kteří mají 0 až 2 vyživované děti ze 60 pracovníků, je 75 %, ostatní výsledky jsou v tabulce 9.4 ve sloupci Počet pracovníků kumulativně v %. Graf relativní kumulativní četnosti pracovníků v závislosti na počtu vyživovaných dětí vytvoříme sloupcovým grafem ze sloupce tabulky 9.4 Počet pracovníků kumulativně v %. Na ose x budou hodnoty 0, 0-1, 0-2 až 0-6. Ad d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Slovní popis pro první řádek tabulky: Nula vyživovaných dětí má 12 pracovníků ze 60, což je 20 % pracovníků. Slovní popis pro druhý řádek tabulky: Jedno vyživované dítě má 14 pracovníků ze 60, což je 23,3 % pracovníků. Nula až jedno vyživované dítě má 26 pracovníků ze 60, což je 43,3 % pracovníků. Slovní popis pro třetí řádek tabulky: Dvě vyživované děti má 19 pracovníků ze 60, což je 31,7 % pracovníků. Nula až dvě vyživované děti má 45 pracovníků ze 60, což je 75 % pracovníků.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 10 Úkol 9.3: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku Zbývá dní dovolené na jednotlivé třídy. Současně doplníme procento pracovníků s danými zbylými dny dovolené. Dále vytvoříme histogram rozdělení četnosti pracovníků v závislosti na počtu zbylých dní dovolené. b) Do skupinové tabulky doplníme kumulativní četnost. Vytvoříme graf kumulativní četnosti pracovníků v závislosti na počtu zbylých dní dovolené. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Závěr pro třídění podle jednoho nespojitého číselného znaku Pro potřeby třídění jsme sestavili četnostní tabulku 9.4, neboli tabulku rozdělení četností. Ta podává informaci o četnosti výskytu jednotlivých variant (obměn) znaku v souboru. Označme: x i, kde i = 1, 2,... k jsou jednotlivé obměny (varianty) nespojitého číselného znaku n i, kde i = 1, 2,... k jsou absolutní četnosti odpovídající obměnám. Rozdělení četností lze vyjádřit způsobem uvedeným v následující tabulce: Tabulka rozdělení četností Obměna znaku x i Četnost Kumulativní četnost absolutní n i relativní p i absolutní n i relativní p i x 1 n 1 p 1 n 1 p 1 x 2 n 2 p 2 n 1 + n 2 p 1 + p 2 x k n k p k n i = n p i = 1=100 % Celkem n i = n p i = 1 =100 % x x V řádku Celkem je symbolem suma zobrazen součet absolutních četností i relativních četností (jako poměrné číslo nebo v %). Ve sloupci kumulativní četnost je naznačeno, že kumulativní četnost vzniká jako postupný součet absolutních četností, jak jsme si ukázali v příkladu.
Statistické třídění dle jednoho nespojitého číselného znaku Aleš Drobník strana 11 PŘÍKLADY V EXCELU Praktické provedení třídění v MS Excel je v příkladech: 21TrideniDleJednohoCiselnehoZnakuNespojitehoNeresene.xlsx zde je neřešený příklad. 21TrideniDleJednohoCiselnehoZnakuNespojitehoResene.xlsx zde je ten samý příklad řešený. 21TrideniDleJednohoCiselnehoZnakuNespojitehoUkol.xlsx zde je nový neřešený příklad. OPAKOVACÍ OTÁZKY 1. Jak postupujeme při třídění podle jednoho číselného znaku nespojitého?