Statistika Zpracování informací ze statistického šetření Třídění statistického souboru Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 20. února 2012 Statistika by Birom Statistika Třídění 1 / 20
Obsah Třídění dle statistického znaku Prosté a intervalové třídění Četnosti statistického znaku Tabulky četností Prosté třídění Intervalové třídění Grafická vizualizace rozložení četností Polygon četností Histogram četnosti Výsečový graf Statistika by Birom Statistika Třídění 2 / 20
Třídění dle statistického znaku Prosté a intervalové třídění Třídění dle statistického znaku Důvody třídění: zpřehlednění souboru, zjištění empirického rozdělení statistického souboru, snížení numerické náročnosti výpočtu statistických charakteristik. Dle počtu třídících znaků: jednostupňové, dvoustupňové (kontingenční tabulky), vícestupňové. Dle typu třídění: třídění prosté (malý počet různých hodnot znaku), třídění intervalové (velký počet různých hodnot znaku, spojitý numerický znak). Základní zásady při třídění: zásada úplnosti (každá jednotka musí někam patřit), zásada jednoznačnosti (každá jednotka musí mít právě jedno místo při třídění). Statistika by Birom Statistika Třídění 3 / 20
Třídění dle statistického znaku Prosté a intervalové třídění Postup třídění I Prosté třídění libovolný statistický znak 1. stanovení počtu pozorování různých hodnot znaku (předpokládejme k různých hodnot) Intervalové třídění numerický statistický znak 1. stanovení počtu intervalů k, optimálně 8 k 20 k 1 + 3,3 log n (Sturgesovo pravidlo) k 8 (max x minx) 100 k n 2. stanovení délky intervalu h max x min x h = k 3. rozdělení na intervaly ; ), ; ),..., ; min x + i h ; min x + (i + 1) h), pro i = 0,..., k 2 a min x + (k 1) h ; max x Pro popis statistického znaku je vhodné jak délku intervalů, tak hranice intervalů učesat, tj. vhodně zaokrouhlit; je však třeba zajistit, aby takto upravené intervaly pokryly všechny hodnoty statistického znaku. Statistika by Birom Statistika Třídění 4 / 20
Třídění dle statistického znaku Prosté a intervalové třídění Postup třídění II Meze jednotlivých intervalů je třeba volit tak, aby nedocházelo k nejasnostem, tj. aby se každé pozorování jednoznačně spadalo do určitého intervalu. 4. stanovení počtu pozorovaní s hodnotou znaku spadajícího do příslušného intervalu Statistika by Birom Statistika Třídění 5 / 20
Třídění dle statistického znaku Četnosti statistického znaku Absolutní a relativní četnost I Označme sledovaný statistický znak x, nechť má N pozorování, pak pro i = 1,..., k: n i absolutní četnost počet pozorování s hodnotou znaku rovnou x i, respektive počet pozorování s hodnotou znaku spadající do i-tého intervalu, p i zřejmě platí: k n i = N. i=1 relativní četnost poměr počtu pozorování s hodnotou znaku rovnou x i vzhledem celkovému počtu pozorování, respektive poměr počtu pozorování s hodnotou znaku spadající do i-tého intervalu vzhledem celkovému počtu pozorování, p i = n i N (p i 100 %), i = 1,..., k; Statistika by Birom Statistika Třídění 6 / 20
Třídění dle statistického znaku Četnosti statistického znaku Absolutní a relativní četnost II i zde zřejmě: k p i = 1 (100 %). i=1 Statistika by Birom Statistika Třídění 7 / 20
Třídění dle statistického znaku Četnosti statistického znaku Kumulativní četnosti I k ni k pi kumulativní (absolutní) četnost počet pozorování, u nichž je hodnota statistického znaku x x i, respektive počet pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně, tj. k ni = n 1 + n 2 + + n i = i n j. kumulativní relativní četnost udává poměr počtu pozorování, u nichž je hodnota statistického znaku x x i, vzhledem k celkovému počtu pozorování respektive poměr počtu pozorování zařazených díky hodnotě statistického znaku od prvního až do i-tého intervalu včetně vzhledem k celkovému počtu pozorování, tj. k pi = p 1 + p 2 + + p i = j=1 i p j. Je nutné uspořádání znaku x, tj. má smysl dělat minimálně pro ordinální znak. Nebo ne? Jakou by pak měla kumulativní četnost interpretaci? k nk = N, k pk = 1 (100 %) j=1 Statistika by Birom Statistika Třídění 8 / 20
Tabulky četností Prosté třídění Datový soubor Evidence studijních výsledků LS 2005 Obor Počet Zameškáno Zápočet Body Hodnocení PUPN 4 0 Ano 4 1 VZ 0 3 Ano 1,5 4 OP 0 2 Rost 4 2 PP 0 0 Biskup 2 4 VZ 0 3 Ano 1 4 OP 0 1 Rost 2 4 ZOO 1 0 Ano 4 2 BT 13 1 Ano 4 2 OP 0 0 Rost 0,5 4 VZ 1 2 Ano 4 2 VZ 0 3 Ne 0 4 VZ 0 2 Ano 1,5 4 ZOO 2 1 Ano 1,5 4. Statistika by Birom Statistika Třídění 9 / 20
Tabulky četností Prosté třídění Přípravné práce Evidence studijních výsledků LS 2005 Body počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín) 1. N = 139; k = 13 (0; 0,5;... ; 6 bodů) stanovení počtu pozorování jednotlivých hodnot znaku... Statistika by Birom Statistika Třídění 10 / 20
Tabulky četností Prosté třídění Tabulka četností Evidence studijních výsledků LS 2005 Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 (řádný termín) x i n i p i (%) k ni k pi (%) 0,0 27 19,42 27 19,42 0,5 11 7,91 38 27,34 1,0 20 14,39 58 41,73 1,5 15 10,79 73 52,52 2,0 14 10,07 87 62,59 2,5 11 7,91 98 70,50 3,0 22 15,83 120 86,33 3,5 8 5,76 128 92,09 4,0 7 5,04 135 97,12 4,5 3 2,16 138 99,28 5,0 1 0,72 139 100,00 5,5 0 0,00 139 100,00 6,0 0 0,00 139 100,00 Σ 139 100,00 Statistika by Birom Statistika Třídění 11 / 20
Tabulky četností Intervalové třídění Datový soubor Splátkový prodej (2004) Věk Pohlaví Stav Vzdělání Zaměstnání Příjem (Kč) Úvěr (Kč) Splátek 59 žena ženatý základní důchodce 7 200 5 390 20 27 žena ženatý střední dělník 7 000 7 542 20 50 muž rozvedený střední kuchař 61 000 6 216 10 29 muž svobodný vyučený dělník 10 000 7 002 20 31 muž ženatý vyučený řidič 15 000 8 982 10 19 žena druh základní mateř dovolená 5 500 6 696 10 22 muž svobodný vyučený malíř, natěrač 10 000 4 621 20 34 muž ženatý střední stát. zam. 15 159 7 624 30 45 žena ženatý vyučený podnikatel 10 000 7 515 20 24 muž rozvedený vyučený technik 12 000 6 680 20 30 muž rozvedený vyučený pekař 12 500 3 228 20 25 muž svobodný střední pol. inspektor 14 000 14 229 30. Statistika by Birom Statistika Třídění 12 / 20
Tabulky četností Intervalové třídění Příprava intervalů Splátkový prodej (2004) Úvěr cena zaplacená za celkový spotřebitelský úvěr; 1. N = 737; k 1 + 3,3 log 737 = 10,463, zvolme k = 11; 2. min x = 1 584 a max x = 25 164; 25 164 1 584 3. h = = 2 151,273, položme h = 2 200 a dolní mez prvního 11 intervalu rovnu 1 500 pak: 1. 1 500 ; 3 700) 2. 3 700 ; 5 900) 3. 5 900 ; 8 100). 10. 21 300 ; 23 500) 11. 23 500 ; 25 700 4. stanovení počtu pozorovaní v jednotlivých intervalech... Statistika by Birom Statistika Třídění 13 / 20
Tabulky četností Intervalové třídění Tabulka četností Splátkový prodej (2004) Cena zaplacená za celkový spotřebitelský úvěr Tabulka četností:celková výše úvěru Četnost Kumulativní Rel.četnost Kumulativní OD DO četnost rel.četnost 1 500 Kč<=x<3 700 Kč 69 69 9,36228 9,3623 3 700 Kč<=x<5 900 Kč 217 286 29,44369 38,8060 5 900 Kč<=x<8 100 Kč 218 504 29,57938 68,3853 8 100 Kč<=x<10 300 Kč 104 608 14,11126 82,4966 10 300 Kč<=x<12 500 Kč 55 663 7,46269 89,9593 12 500 Kč<=x<14 700 Kč 54 717 7,32700 97,2863 14 700 Kč<=x<16 900 Kč 15 732 2,03528 99,3216 16 900 Kč<=x<19 100 Kč 3 735 0,40706 99,7286 19 100 Kč<=x<21 300 Kč 0 735 0,00000 99,7286 21 300 Kč<=x<23 500 Kč 1 736 0,13569 99,8643 23 500 Kč<=x<25 700 Kč 1 737 0,13569 100,0000 Vytvořeno ChD 0 737 0,00000 100,0000 Statistika by Birom Statistika Třídění 14 / 20
Grafická vizualizace rozložení četností Polygon četností Polygon četností vizualizace absolutních četností prosté třídění na vodorovnou osu se vynáší hodnoty sledovaného znaku na svislou osu se pak vynáší absolutní četnosti nad jednotlivými hodnotami znaku jsou vynášeny hodnoty odpovídající příslušným absolutním četnostem jednotlivé hodnoty jsou navíc spojeny lomenou čárou Statistika by Birom Statistika Třídění 15 / 20
Grafická vizualizace rozložení četností Polygon četností Polygon četností Počet bodů získaných z písemné části zkoušky ze statistiky LS 2005 řádný termín 30 25 20 Počet pozor. 15 10 5 0 0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5 5,5 6 Vytvořeno v programu MS Excel 2000 Body Statistika by Birom Statistika Třídění 16 / 20
Grafická vizualizace rozložení četností Histogram četnosti Histogram četnosti vizualizace absolutních četností intervalového třídění na vodorovnou osu se vynáší meze intervalů na svislou osu pak absolutní četnosti nad jednotlivými intervaly jsou vykresleny sloupce s podstavou šířky intervalu a výškou absolutní četnosti někdy jsou hodnoty vynášené na svislou osu modifikovány tak, aby celková plocha sloupců byla rovná jedné vše pochopitelně v měřítku ;-) Statistika by Birom Statistika Třídění 17 / 20
Grafická vizualizace rozložení četností Histogram četnosti Histogram četnosti Cena zaplacená za celkový spotřebitelský úvěr 250 Histogram: Celková výše úvěru 200 Počet pozor. 150 100 50 0 1 500 Kč<=x<3 700 Kč 3 700 Kč<=x<5 900 Kč 5 900 Kč<=x<8 100 Kč 8 100 Kč<=x<10 300 Kč Vytvořeno v programu STATISTICA komplet 6.1 Cz 10 300 Kč<=x<12 500 Kč 12 500 Kč<=x<14 700 Kč Kategorie 14 700 Kč<=x<16 900 Kč 16 900 Kč<=x<19 100 Kč 19 100 Kč<=x<21 300 Kč 21 300 Kč<=x<23 500 Kč 23 500 Kč<=x<25 700 Kč 25 700 Kč<=x<27 900 Kč Statistika by Birom Statistika Třídění 18 / 20
Grafická vizualizace rozložení četností Výsečový graf Výsečový (koláčový) graf vizualizace relativních četností plocha grafu je dělena na kruhové výseče v poměru, který je dán relativní četnosti, tj. i = 360 p i, zřejmě platí: k i=1 i = 360. Graf je obvykle doplněn o legendu a relativní četnosti v procentech Statistika by Birom Statistika Třídění 19 / 20
Grafická vizualizace rozložení četností Výsečový graf Výsečový graf Výsledné známky ze Statistiky 2004/05 LS Vysledne znamky ze Statistiky 2004/05 - LS 10,43% 45,40% 17,18% 26,99% Vytvořeno v programu MS Excel 2000 1 2 3 4 Statistika by Birom Statistika Třídění 20 / 20