Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 1 9.7 TŘÍDĚNÍ PODLE JEDNOHO SPOJITÉHO ČÍSELNÉHO ZNAKU. INTERVALOVÉ ROZDĚLENÍ ČETNOSTI Problematiku třídění podle jednoho spojitého číselného znaku si vysvětlíme na následujícím příkladu. Předpokládejme, že pracovník podniku Alfa Blatná, který spravuje podnikovou databázi, exportoval do tabulkového procesoru všechny pracovníky podniku s některými sledovanými atributy (vlastnostmi), které jsou vypsané v tabulce 9.1. Tuto tabulku budeme používat i pro tento příklad. Tabulka 9.1: Zaměstnanci malé organizace Alfa Blatná k 30. 6. 2012 Číslo pracovníka Příjmení Pohlaví Titul Stav Počet vyživovaných dětí Pracovní kategorie Hrubá měsíční mzda za červen Zbývá dní dovolené 1 Adam 1 1 0 Dělník 15 000 4 2 Bartoš 1 2 1 Dělník 12 000 8 3 Beneš 1 2 4 Dělník 24 000 9 4 Berka 1 3 0 Provozní 23 000 6 5 Bláha 1 Ing. 2 2 Technický 27 000 5 6 Bohuš 1 2 0 Dělník 18 000 7 7 Bouše 1 2 1 Dělník 17 000 4 8 Boušová 2 2 2 Hospodářský 32 000 5 9 Bůbal 1 2 1 Dělník 18 000 6 10 Bureš 1 2 4 Technický 20 000 9 11 Burešová 2 2 0 Provozní 24 000 5
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 2 12 Burgerová 2 2 2 Dělník 24 000 7 13 Černá 2 1 0 Dělník 14 000 3 14 Daněk 1 1 1 Dělník 19 000 6 15 Dlask 1 2 0 Dělník 18 000 6 16 Dobeš 1 2 3 Dělník 18 000 4 17 Drobník 1 RNDr. Bc. 2 2 Hospodářský 40 000 9 18 Erb 1 1 2 Dělník 16 000 3 19 Fichtner 1 2 1 Dělník 16 000 6 20 Gál 1 2 1 Hospodářský 14 000 4 21 Gott 1 2 6 Dělník 29 000 5 22 Havel 1 2 0 Hospodářský 28 000 4 23 Házová 2 2 0 Dělník 10 000 3 24 Hejral 1 2 0 Technický 19 000 6 25 Hrubín 1 2 4 Dělník 18 000 3 26 Hubač 1 2 2 Dělník 18 000 8 27 Hupová 2 2 2 Provozní 17 000 4 28 Hus 1 JUDr. 2 3 Hospodářský 34 000 5 29 Janda 1 2 1 Dělník 19 000 8 30 Janků 1 2 0 Dělník 18 000 4 31 Janků 2 3 3 Provozní 14 000 3 32 Jarý 1 2 1 Dělník 19 000 6 33 Jiřinec 1 2 2 Dělník 18 000 4 34 Jonáš 1 2 3 Dělník 27 000 8 35 Kobosil 1 2 1 Hospodářský 30 000 5 36 Korousová 2 2 2 Dělník 14 000 8 37 Kos 1 2 2 Dělník 21 000 7 38 Koucký 1 2 2 Dělník 23 000 7 39 Kulíšek 1 2 1 Dělník 16 000 6 40 Lahodný 1 2 1 Dělník 24 000 4 41 Lahodová 2 2 3 Dělník 14 000 3 42 Líbenková 2 Mgr. 2 0 Hospodářský 12 000 5 43 Lín 1 2 3 Dělník 12 000 6
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 3 44 Linka 1 Doc. 2 2 Hospodářský 23 000 7 45 Líný 1 Mgr. 2 1 Technický 24 000 8 46 Mahel 1 2 2 Dělník 20 000 6 47 Masaryk 1 2 1 Dělník 18 000 6 48 Mocová 2 2 3 Dělník 17 000 5 49 Moravec 1 2 2 Technický 22 500 5 50 Nezval 1 2 3 Dělník 17 000 7 51 Nohavica 1 2 2 Technický 23 000 6 52 Novák 1 2 5 Dělník 19 000 6 53 Novák 1 2 2 Dělník 21 000 7 54 Nováková 2 2 0 Dělník 17 000 6 55 Ondráš 1 2 4 Dělník 17 000 5 56 Prádler 1 2 1 Hospodářský 19 000 5 57 Rus 1 3 2 Technický 20 000 7 58 Svoboda 1 1 2 Technický 21 000 7 59 Tatar 1 1 2 Technický 16 000 5 60 Tomšů 1 4 3 Technický 17 000 9 Celkem x x x 106 x 1 194 500 x Vysvětlivky: Pohlaví Kód muž 1 žena 2 Stav Kód svobodný/á 1 vdaná/ženatý 2 vdova/vdovec 3 rozvedený/á 4
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 4 Příklad 9.4: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové (skupinové) rozdělení četnosti. b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Řešení: Ad a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové (skupinové) rozdělení četnosti. Ad b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd. U spojitého číselného znaku neznáme počet tříd. i) Jednak nevíme, od jaké minimální do jaké maximální hrubé měsíční mzdy se budeme pohybovat. Proto musíme ve sloupci Hrubá měsíční mzda tabulky 9.1 nejprve zjistit minimum a maximum. Minimum a maximum zjistíme z tabulky 9.1 buď ručně, anebo výpočtem v MS Excel. Pohledem vidíme, že v tab. 9.1 je nejmenší mzda 10 000 Kč a nejvyšší 40 000 Kč. Při výpočtu v MS Excel jde o funkci MIN a MAX: =MIN(oblast) =MAX(oblast) kde oblast je oblast buněk v tabulce 9.1 ve sloupci Hrubá měsíční mzda.
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 5 ii) Dalším problémem je, že statistický znak pracovníka hrubá měsíční mzda lze považovat za spojitý nebo částečně spojitý. (Mzdu lze vyplácet na účet pracovníka s přesností na setiny Kč.) Proto musíme třídit rozpětí znaku, u nás mezd, od minimální po maximální mzdu na několik intervalů mezd. Pravidla pro tvorbu intervalů spojitého znaku Pro tvorbu intervalů spojitého znaku platí několik základních pravidel a doporučení: Intervaly mohou být stejně dlouhé. I když nutně to není třeba. Všechny intervaly musejí pokrýt variační rozpětí znaku, tj. u nás mezd, od minima po maximum. Je doporučeno, aby interval byl polouzavřený, tj. aby jedna mez každého intervalu byla otevřená a druhá mez každého intervalu uzavřená, aby hodnota krajního znaku (meze intervalu) jednoznačně patřila do právě jednoho intervalu. Jinými slovy, aby hodnota znaku nebyla započítána dvakrát nebo ani jednou. Počet intervalů k může být podle potřeby libovolný, je doporučeno, aby byl mezi 4 až 20. Ale je zřejmé, že čím větší je počet statistických jednotek souboru n, tím více intervalů k může být. Pro počet intervalů k je doporučený jeden z následujících vzorců. První je Sturgessovo pravidlo, druhý Yuleho vzorec. Oba vedou k přibližně stejnému výsledku, stačí pracovat jen s jedním z nich: k 1 3,322.log( n) 4 k 2,5. n V našem příkladě máme n = 60 pracovníků. Podle Sturgessova pravidla je počet intervalů mezd: k 1 3,322.log(60) 6,91 Vzorec v Excelu vypadá následovně: = 1 + 3,322*LOG(60) Podle Yuleho vzorce je počet intervalů mezd: k 2,5. 4 60 6,96 Vzorec v Excelu vypadá následovně:
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 6 = 2,5*(60)^(1/4) Vidíme, že oba vzorce vedou k téměř stejnému výsledku. Počet intervalů musí být přirozené číslo. Zvolíme počet intervalů k = 7. Délka intervalu d se přibližně stanoví jako podíl variačního rozpětí R a počtu intervalů k. Variační rozpětí R je rozdíl mezi maximální a minimální mzdou: R X max X min Variační rozpětí je u nás: R 40 000 Kč 10 000 Kč 30 000 Kč Délka intervalu d je: d X max X k min R k V našem příkladě je délka intervalu: 40 000 Kč 10 000 Kč d 4 286 Kč 7 Je doporučeno kvůli přehlednosti budoucí tabulky rozumně zaokrouhlit délku intervalu: Například zaokrouhlit nahoru na pětistovky na číslo 4 500 Kč. Počet intervalů zůstane k = 7. Nebo zaokrouhlit dolů na tisíce na číslo 4 000 Kč, pak ale musíme počet intervalů zvýšit třeba na k = 8. Zvolíme první možnost, zaokrouhlení nahoru na pětistovky na číslo 4 500 Kč. Počet intervalů zůstane k = 7. Zkontrolujeme si, jaké rozpětí mezd pokryjeme tímto zaokrouhleným intervalem 4 500 Kč při počtu intervalů k = 7: d 4 500 Kč. 7 31500 Kč Vidíme, že variační rozpětí R = 30 000 Kč je překročeno o 1 500 Kč = 31 500 Kč 30 000 Kč. Proto lze začít mzdu například o 1 000 Kč níže, než je minimum, tj. od 10 000 1 000 = 9 000 Kč. A lze mzdu zakončit o 500 Kč nad maximem, maximální mzdou tj. do 40 000 + 500 = 40 500 Kč. První interval bude 9 000 Kč až 13 500 Kč a tyto meze zvyšujeme o 4 500 Kč. Další interval bude 13 500 Kč až 18 000 Kč, další 18 000 Kč až 22 500 Kč atd., jak vidíme v tabulce 9.5.
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 7 V tabulce 9.5 vytvoříme legendu Interval mezd, kdy dolní mez volíme uzavřenou a horní mez volíme otevřenou. V tabulce 9.5 vytvoříme hlavičku Počet pracovníků, a to absolutně, v %, kumulativně a kumulativně v %. Zařazení pracovníků podle mezd řešíme buď ručně nad tabulkou 9.1, anebo využitím MS Excel. Při využití MS Excel je tabulku nejvýhodnější vyplňovat od sloupce Počet pracovníků kumulativně, kam do prvního řádku napíšeme: =COUNTIF(oblast;"<13500") kde oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec Hrubá měsíční mzda za červen a "<13500" znamená, že v oblasti sloupce hledáme počet mezd nižších než 13 500 Kč. Například: =COUNTIF(H$24:H$83;"<13500") Výsledkem je číslo 4. Takže jsou 4 pracovníci, kteří mají mzdu pod 13 500 Kč. Protože minimální vyplacená mzda je 10 000 Kč, zjistíme tím, že v intervalu 9 000 Kč až 13 500 Kč jsou mzdy 4 pracovníků. Proto do prvního řádku tabulky 9.5 napíšeme číslo 4 jak do sloupce Počet pracovníků absolutně i Počet pracovníků kumulativně. Do sloupce Počet pracovníků kumulativně do druhého řádku napíšeme: kde =COUNTIF(oblast;"<18000") oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec Hrubá měsíční mzda za červen a "<18 000" znamená, že v oblasti sloupce hledáme počet mezd nižších než 18 000 Kč. Výsledek je 21. Takže je 21 pracovníků, kteří mají hrubou mzdu pod 18 000 Kč. Protože mzdu pod 13 500 Kč mají 4 pracovníci, pokud tyto vyloučíme, zjistíme tím zároveň, že v intervalu 13 500 Kč až 18 000 Kč jsou mzdy 21 4 = 17 pracovníků. Proto do sloupce Počet pracovníků kumulativně napíšeme 21 a do sloupce Počet pracovníků absolutně napíšeme 17. Do sloupce "Počet pracovníků kumulativně" do třetího řádku napíšeme:
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 8 kde =COUNTIF(oblast;"<22500") oblast je sloupec buněk v tabulce 9.1, kde se nalézá sloupec Hrubá měsíční mzda za červen a "<22 500" znamená, že v oblasti sloupce hledáme počet mezd nižších než 22 500 Kč. Výsledek je 42. Takže je 42 pracovníků, kteří mají mzdu pod 22 500 Kč. Protože mzdu pod 18 000 Kč má 21 pracovníků, zjistíme tím zároveň, že v intervalu 18 000 Kč až 22 500 Kč jsou mzdy 42 21 = 21 pracovníků Proto do sloupce Počet pracovníků kumulativně napíšeme 42 a do sloupce Počet pracovníků absolutně napíšeme 21. Takto vyplníme celou tabulku. Dále již může laskavý čtenář postupovat sám. Legendu uzavřeme řádkem Celkem. V řádku Celkem ve sloupci Počet pracovníků absolutně sečteme pracovníky s různým počtem dětí. Výsledek musí být 60, což je počet pracovníků. Ve sloupci Počet pracovníků v % jde o známá poměrná čísla struktury. Spočítáme je jednoduše podle příkladu 9.1. V řádku Celkem ve sloupci Počet pracovníků kumulativně a Počet pracovníků kumulativně v % dáme symbol x, neboť hodnota v tomto řádku nemá smysl. Tabulka vypadá takto: Tab. 9.5: Třídění pracovníků firmy Alfa Blatná podle mzdy za červen 2012 Interval mezd Počet pracovníků dolní mez uzavřená horní mez otevřená absolutně v % kumulativně kumulativně v % 9 000 13 500 4 6,7 4 6,7 13 500 18 000 17 28,3 21 35,0 18 000 22 500 21 35,0 42 70,0 22 500 27 000 10 16,7 52 86,7 27 000 31 500 5 8,3 57 95,0 31 500 36 000 2 3,3 59 98,3 36 000 40 500 1 1,7 60 100,0 Celkem 60 100 x x
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 9 Histogram absolutní četnosti vytvoříme sloupcovým grafem ze sloupce Počet pracovníků absolutně. Na ose x budou hodnoty z legendy tabulky 9.5, kde je dolní mez uzavřená a horní mez otevřená. Z grafu vidíme, že počet pracovníků narůstá s výší mzdy až do intervalu mezd 18 000 Kč až 22 500 Kč. Nejvyšší počet pracovníků má mzdu 18 000 Kč až 22 500 Kč s tím, že do intervalu dolní mez 18 000 Kč patří a horní mez 22 500 Kč nepatří. Od intervalu 18 000 Kč až 22 500 Kč počet pracovníků klesá. Tzn., že nejčetnější jsou střední mzdy. Intervaly nižších i vyšších mezd má již menší počet pracovníků. S tím souvisí obálka grafu, která připomíná tvarem horu nebo zvon. Jedná se o asymetrickou Gaussovu křivku. Histogram relativní četnosti vytvoříme sloupcovým grafem ze sloupce Počet pracovníků v %. Na ose x budou hodnoty z legendy tabulky 9.5, kde je dolní mez uzavřená a horní mez otevřená. Histogram rozdělení relativní četnosti pracovníků v závislosti na mzdě je v grafu 9.6. Tvar grafu s relativní četností je stejný, jako u grafu s absolutní četností. Jen místo počtů pracovníků je procentuální zastoupení pracovníků.
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 10 Graf kumulativní četnosti pracovníků v závislosti na mzdě vytvoříme sloupcovým grafem ze sloupce tabulky 9.5 Počet pracovníků kumulativně. Z grafu 9.7 vidíme, že relativní počet pracovníků, kteří mají mzdu od intervalu 9 000 Kč až 13 500 Kč s rozšiřujícím se intervalem narůstá nejprve rychleji, pak pomaleji k hodnotě 60, kdy mzdu 9 000 Kč až 40 500 Kč má všech 60 pracovníků.
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 11 Ad c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. Počítáme, kolik procent jsou 4 pracovníci, kteří mají mzdu od 9 000 Kč do 13 500 Kč, ze 60, vyjde 6,7 %, kolik procent je 21 pracovníků, kteří mají mzdu 9 000 Kč do 18 000 Kč, ze 60, vyjde 35 %, ostatní výpočty si provede čtenář sám a jsou v tabulce 9.5. Graf relativní kumulativní četnosti pracovníků v závislosti na mzdě vytvoříme sloupcovým grafem ze sloupce tabulky 9.5 Počet pracovníků kumulativně v %. Tvar grafu 9.8 s relativní kumulativní četností je stejný, jako u grafu s kumulativní četností. Jen místo počtů pracovníků je procentuální zastoupení pracovníků. Ad d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. Slovní popis pro první řádek tabulky: Mzdu od 9000 Kč včetně do 13 500 Kč mají 4 pracovníci z 60, což je 6,7 % pracovníků. Slovní popis pro druhý řádek tabulky: Mzdu od 13 500 Kč včetně do 18 000 Kč má 17 pracovníků z 60, což je 28,3 % pracovníků. Mzdu od 9 000 Kč včetně do 18 000 Kč má 21 pracovníků z 60, což je 35 % pracovníků.
Statistické třídění, intervalové rozdělení četnosti Aleš Drobník strana 12 Slovní popis pro třetí řádek tabulky: Mzdu od 18 000 Kč včetně do 22 500 Kč má 21 pracovníků z 60, což je 35 % pracovníků. Mzdu od 9 000 Kč včetně do 22 500 Kč má 42 pracovníků z 60, což je 70 % pracovníků. Úkol 9.4: a) Z tabulky 9.1 vhodné skupinové tabulky roztřídíme soubor pracovníků dle třídícího číselného znaku hrubá měsíční mzda na přiměřený počet tříd neboli intervalů mezd. Pak doplníme procento pracovníků s daným intervalem mezd. Dále vytvoříme graficky histogram rozdělení četnosti pracovníků podle intervalů mezd. Jde o tzv. intervalové rozdělení četnosti. Počet intervalů volíme pro změnu k = 8. b) Do skupinové tabulky doplníme kumulativní četnost. Tzn. počet pracovníků, kteří mají první interval mezd, první až druhý interval mezd, první až třetí interval mezd atd. Dále vytvoříme graf kumulativní četnosti pracovníků v závislosti na postupně se zvyšujícím intervalu mezd. c) Do skupinové tabulky doplníme poměrné zastoupení pro kumulativní četnosti. d) Uvedeme slovní popis pro první, druhý a třetí řádek tabulky. PŘÍKLADY V EXCELU Praktické provedení třídění v MS Excel je v příkladech: 22TrideniDleJednohoCiselnehoZnakuSpojitehoNeresene.xlsx zde je neřešený příklad. 22TrideniDleJednohoCiselnehoZnakuSpojitehoResene.xlsx zde je ten samý příklad řešený. 22TrideniDleJednohoCiselnehoZnakuSpojitehoUkol.xlsx zde je nový neřešený příklad. OPAKOVACÍ OTÁZKY 1. Jak postupujeme při třídění podle jednoho číselného znaku spojitého? 2. Jaká jsou pravidla pro stanovení intervalového rozdělení četnosti. 3. Vysvětlete pojem histogram rozdělení (absolutní) četnosti? Čeho se týká, s čím souvisí? Jak souvisí s Gaussovou křivkou? 4. Vysvětlete pojem histogram rozdělení relativní četnosti? Čeho se týká, s čím souvisí?