2.1 Třídění statistických dat Všechny muže ve městě rozdělíme na 2 skupiny: A) muži, kteří chodí k holiči B) muži, kteří se holí sami Do které skupiny zařadíme holiče? prof. Raymond M. Smullyan, Dr. Math.
Co se dozvíte Jednostupňové třídění, rozdělení četností. Absolutní a relativní četnosti. Grafy rozdělení četností histogram a polygon. Třídění metrických znaků, intervalové rozdělení četností. Dvoustupňové třídění, kontingenční tabulky. Klasifikace ekonomických veličin. 2
Proces třídění statistických dat výchozí údaje tabulka a graf četností 30 25 20 15 jednoduchá datová tabulka 10 5 0 ZŠ SOŠ USV VŠ číselné charakteristiky průměr šikmost odchylka 3
Jednostupňové třídění tabulka rozdělení četností výskyty jednotlivých obměn (hodnot) nominálních nebo ordinálních znaků jednoduché třídění třídění podle jednoho znaku řádky tabulky představují obměny tříděného znaku sloupce tabulky vyjadřují četnosti (počty jednotek) legenda slouží k označení obměn tříděného znaku 4
Četnosti obměn absolutní četnost n i počet výskytů i-té obměny relativní četnost p i poměrné zastoupení obměny (v %) x 100% 5
Kumulativní četnosti pouze u ordinálních a metrických znaků kumulativní četnost kn i počet hodnot menších nebo rovných dané obměně relativní kumulativní četnost kp i x 100% 6
Tabulka četností příklad ZNÁMKA ZE STATISTIKY ČETNOSTI KUMULATIVNÍ ČETNOSTI n i p i kn i kp i 1 12 0,095 12 0,095 2 35 0,278 47 0,373 3 61 0,484 108 0,857 4 18 0,143 126 1,000 CELKEM 126 1,000 x x 47 studentů má nejvýše dvojku 7
Grafy k tabulce četností sloupcový graf četností (histogram) vhodné zejména pro nominální proměnné spojnicový graf četností (polygon) vhodné zejména pro ordinální proměnné výsečový graf četností vhodné zejména pro nominální proměnné 10 10 9 9 8 8 7 6 7 6 VŠ 17% ZŠ 29% 5 4 5 4 USV 17% 3 2 3 2 SOŠ 37% 1 1 0 ZŠ SOŠ USV VŠ 0 ZŠ SOŠ USV VŠ 8
Rozdělení četností kvantitativního znaku vlastnosti metrických znaků velké množství obměn malé četnosti obměn (často pouze 1) klasifikace (třídění) metrický znak ordinální znak (třídy jsou intervaly) ordinální znak nominální znak (třídy jsou kategorie) metrický (věk) ordinální (věková skupina) nominální (děti, důchodci, ostatní) 9
Pravidla pro klasifikaci počet tříd (intervalů) v rozmezí 5 až 20 malý počet tříd malá informační hodnota velký počet tříd nepřehledná tabulka hranice intervalů dobře zapamatovatelná čísla dělitelná 5, 10, 20, intervaly jednoznačně pokrývají celý obor hodnot hraniční body intervalů patří pouze jednomu z nich intervaly stejně široké srovnatelnost intervalů mezi sebou oba krajní intervaly mají nenulové četnosti 10
Odhad počtu tříd Sturgesovo pravidlo pro odhad počtu tříd k: odhad šířky intervalu h: vypočtené hodnoty jsou pouze doporučením skutečné hodnoty přehlednost tabulky (zaokrouhlené hranice a šířky tříd) 11
Příklad tabulka četností VĚK četnosti kumul. četnosti abs. rel. abs. rel. 26-30 6 25,0% 6 25,0% 31-35 5 20,8% 11 45,8% 36-40 3 12,5% 14 58,3% 41-45 5 20,8% 19 79,2% 46-50 2 8,3% 21 87,5% 51-55 2 8,3% 23 95,8% 56-60 1 4,2% 24 100,0% Celkem 24 100,0% x x 12
Dvoustupňové třídění zkoumáme výskyt hodnot a závislost dvou statistických znaků pocházejících ze stejného základního souboru (např. výška a hmotnost, věk a plat, cena a prodané množství, ) kontingenční tabulka znaků X a Y X \ Y y 1 y 2 celkem x 1 n 11 n 12 n 10 x 2 n 21 n 22 n 20 celkem n 01 n 02 n 13
Sdružené a marginální četnosti sdružené četnosti rozdělení znaků X a Y počet prvků s vlastnostmi x 1 a y 2 X \ Y y 1 y 2 celkem x 1 n 11 n 12 n 10 x 2 n 21 n 22 n 20 marginální četnosti rozdělení znaku X index 0 představuje všechny prvky celkem n 01 n 02 n počet prvků s vlastností x 2 marginální četnosti rozdělení znaku Y počet prvků s vlastností y 2 počet prvků souboru 14
Dvoustupňové třídění - příklad Tabulka vyjadřuje závislost mezi vzděláním a politickou orientací u vzorku osob: orientace levice střed pravice Σ vzdělání ZŠ 5 5 2 SŠ 3 13 8 VŠ 1 10 3 12 24 14 Σ 9 28 13 50 15
Dvourozměrný soubor grafické vyjádření souboru Histogram 3D 105 Bodový diagram 18 16 100 95 14 90 12 85 10 četnosti 8 6 4 2 0 1 2 x 3 4 5 2 1 5 4 3 y Y 80 75 70 65 60 174 176 178 180 182 184 186 188 190 192 X 3D histogram obraz kontingenční tabulky dot plot obraz datové tabulky 16
Klasifikace ekonomických veličin odvětvová klasifikace ekonomických činností (OKEČ) standardní klasifikace produkce (SKP) klasifikace zaměstnání (KZAM) standardní klasifikace pro mezinárodní obchod (SITC) klasifikace konečné spotřeby domácností (COICOP) klasifikace územních celků (NUTS) 17
Příklad: klasifikace činností Stupeň 1 2 3 4 5 6 Počet znaků 1 1 2 3 4 5 sub Název kategorie oddíl pododdíl skupina kategorie pod skupina Příklad D B 17 160 D - Zpracovatelský průmysl DB - Textilní a oděvní průmysl DB 17 - Textilní průmysl DB 17160 - Výroba nití 18
Co se naučíte příště 2.2 Číselné charakteristiky statistických dat Míry polohy, střední hodnoty. Míry variability, rozptyl a směrodatná odchylka. Střední poloha a variabilita nečíselných znaků. Normované hodnoty, míry tvaru rozdělení. Kvantily, explorační analýza dat. Lorenzova křivka, Giniho koeficient. 19