4. Třídění statistických dat pořádek v datech

4. Třídění statstcých dat pořáde v datech Záladní členění statstcých řad: řada časová, řada prostorová, řada věcná věcná slovní řada, věcná číselná řada. Záladem statstcého třídění je uspořádání hodnot jednoho statstcého znau. Z tohoto pohledu rozeznáváme: řada neuspořádaná (původní naměřená řada) x 1, x2,..., x,... xn, řada uspořádaná (varační) podle velost, x ( 1), x(2),..., x( ),..., x( n) řada tříděná, - jednoduché (prosté) třídění, - supnové (ntervalové) třídění. Index souvsí s pořadím zjšťování, ndex () souvsí s velostí hodnot, přčemž x ( 1) x(2),... x( )... x( n ) a x( 1) xmn, x( n ) xmax. Výsledem všech druhů třídění je řada rozdělení í v tabulové nebo grafcé podobě. Prosté (jednoduché) třídění je třídění prováděné podle aždé hodnoty (obměny) znau samostatně. Výhodné je v stuac, dy statstcý zna dosahuje jen omezeného počtu obměn. Prosté třídění prezentujeme: v tabulové podobě tabuly rozdělení í, v grafcé podobě sloupcové a výsečové grafy, polygony rozdělení í. Supnové (ntervalové) třídění je rozdělení statstcých jednote podle hodnot (obměn) statstcého znau shrnutých do společné supny (třídy, ntervalu) ta, aby co nejlépe vynl charaterstcé vlastnost zoumaných jevů. Supnové třídění prezentujeme: v tabulové podobě tabuly rozdělení í, v grafcé podobě hstogramy a výsečové grafy rozdělení í. 1

4.1. Jednoduché (prosté) třídění Jednoduché třídění je typcé pro: třídění valtatvních (slovních) znaů, vanttatvních dsrétních (nespojtých) číselných znaů s malou obměnou hodnot statstcého znau. 4.1.1. Třídění valtatvních (slovních) znaů Třídění valtatvních (slovních) znaů se usutečňuje podle obměn statstcého znau Na třídění požíváme třídící tabulu (5.1), terá má standardní struturu. Pořadí obměn volíme prvotně podle následujících možností: obměny je možné seřadt podle významu (např. podle úrovně šoly) obměny je možné vystupňovat (např. hodnocení studentů) obměny seřadíme podle abecedy, obměny seřadíme náhodně (barvy aut), obměny seřadíme náhodně podle subjetvního názoru řeštele. Obměny můžeme seřadt druhotně podle absolutní po sestupně anebo vzestupně Jednotlvým obměnám přřadíme: příslušný počet výsytů v souboru absolutní n podíl na celovém rozsahu souboru relatvní p součtový počet od prvé po poslední třídu umulatvní abs. n součtový podíl od prvé po poslední třídu umulatvní rel. p Tabula se doplňuje součtovým řádem, terý slouží na řížovou ontrolu správnost třídění. Přílad na jednoduché třídění 155 studentů středních šol. Třídění studentů podle typu střední šoly Tab. 4.1 Třída (pořadové číslo) Třídící zna (typ střední šoly) Absolutní n (počet studentů) Relatvní p [%] (podíl studentů) Kumulatvní n (Součtový počet studentů) 1 OU 36 23,2 36 23,2 2 OUM 29 18,7 65 41,9 3 SŠ 29 18,7 94 60,6 4 G 30 19,4 124 80,0 5 RG 31 20,0 155 100,0 SUMA X 155 100,0 X X Kumulatvní relatvní p [%] (Součtový podíl studentů) 2

Počet absolventů Tabulová forma jednoduchého třídění valtatvních (slovních) znaů se doplňuje většnou: sloupcovým grafem 1 absolutních poí anebo, ruhovým 2 výsečovým grafem relatvních í vyjádřených v %. Jednotlvé sloupce nebo výseče je vhodné doplnt onrétní hodnotou. Sloupcový graf poí absolventů středních šol 40 30 36 29 29 30 31 20 10 0 OU OUM SŠ G RG Typ střední šoly Obr. 4.1. Počty absolventů středních šol podle typu střední šoly Výsečový graf podelu absolventů středních šol 19% 20% 23% OU OUM SŠ 19% G 19% RG Obr. 4.2. Podíl absolventů středních šol podle typu střední šoly 1 Sloupcové grafy posytují jednoduchý a srozumtelný způsob zobrazování nomnálních a ordnálních dat, teré chceme zařadt do tříd. Četnost třídy se zobrazuje jao plocha sloupce sestrojeného nad příslušným ntervalem (třídou). Třídění může být podle jednoho znau (rtéra) anebo podle dvou znaů (rtérí). 2 2. Kruhový výsečový dagram rozdělí ruh na více částí podle počtu tříd. Četnost třídy je vyjádřená velostí plochy ruhového výseu. 3

4.1.2. Třídění vanttatvních (číselných) dsrétních (nespojtých) znaů V případě, že má vanttatvní (číselný) dsrétní (nespojtý) zna málo obměn (obecně ) používá se jednoduché třídění. Třídíme podle aždé hodnoty znau x, přčemž hodnoty znau v tabulce uvedeme ve vzestupném pořadí. Obměny můžeme seřadt stejně jao u slovních znaů druhotně podle absolutní po sestupně anebo vzestupně Ke aždé hodnotě x přřadíme příslušný počet výsytů v souboru n. Třídění rodn podle počtu dětí Tab. 4.2 Třída p.č. Třídící zna x (počet dětí) Absolutní n (počet rodn) Relatvní p [%] (podíl rodn) Kumulatvní n (Součtový počet rodn) 1 1 460 46,0 460 46,0 2 2 404 40,4 864 86,4 3 3 101 10,1 965 96,5 4 4 30 3,0 995 99,5 5 5 a více 5 0,5 1000 100,0 SUMA X 1000 100,0 X X Kumulatvní relatvní p [%] (Součtový podíl rodn) Tabulová forma jednoduchého třídění valtatvních (slovních) znaů se doplňuje většnou: sloupcovým grafem 3 absolutních poí anebo, ruhovým 4 výsečovým grafem relatvních í vyjádřených v %. Grafy mohou být v podobě nepravých trojrozměrných grafů (pseudo 3G). Jednotlvé sloupce nebo výseče je vhodné doplnt onrétní hodnotou. 3 Sloupcové grafy posytují jednoduchý a srozumtelný způsob zobrazování nomnálních a ordnálních dat, teré chceme zařadt do tříd. Četnost třídy se zobrazuje jao plocha sloupce sestrojeného nad příslušným ntervalem (třídou). Třídění může být podle jednoho znau (rtéra) anebo podle dvou znaů (rtérí). 4 2. Kruhový výsečový dagram rozdělí ruh na více částí podle počtu tříd. Četnost třídy je vyjádřená velostí plochy ruhového výseu. 4

Sloupcový graf počtu detí ve zoumané supně 1000 rodn P o č e t r o d n 500 400 300 200 460 404 101 100 0 30 5 1 2 3 4 5 a vac Počet dětí v rodně Obr. 4.3. Počty rodn podle počtu dětí v rodně Výsečový pseudo 3G graf počtu detí ve zoumané supně 1000 rodn 101 30 5 460 404 Obr. 4.4. Podíl rodn podle počtu dětí v rodně Kruhový graf je potřebné doplnt vysvětlující legendou. 5

Všeobecný postup tvorby tabulové formy jednoduchého (prostého) třídění je uvedený v následující přehledné tabulce. Třída p.č. 1. 2. Třídící zna Absolutní x n x 1 1 x 2 2 Relatvní p Kumulatvní absolutní n Kumulatvní relatvní p n p 1 n 1 p 1 n p 2 n 2 p 2 : : : : : : x n n p n n n j j 1 : : : : : : Součet x 1 n n = n p p 1 n n j j 1 p p j j 1 = n p 1 p j j 1 1 Absolutní n je číslo, teré určuje ol jednote souboru má určtou hodnotu přčemž platí n n, 1 Relatvní p je podíl absolutní n a rozsahu souboru n p n přčemž platí p n 1 1, anebo alternatvně v procentech 100 p 100 (%), 1 Kumulatvní (součtová) absolutní n udává postupný součet í od 1. třídy až po danou třídu n n j j 1. Kumulatvní (součtová) relatvní p udává postupný podíl í od 1. třídy až po danou třídu p p j j 1, alternatvně opět v %. 6

4.1.3. Supnové (ntervalové) třídění Supnové (ntervalové) třídění používáme v případě, že číselné znay (spojté nespojté) vyazují velé množství obměn. Supnové třídění spočívá ve vytvoření tříd (supn, ntervalů) ve varačním rozpětí R souboru od mnmální x, mn až po maxmální x max, hodnotu znau. Původní data se zařazují do těchto tříd (supn, ntervalů) a zjšťují se po jednotlvých tříd, čím se vytvoří rozdělení í. Vzná ta tabula í podle záladní úpravy na následujícím obrázu. Třída Hrance třídy dolní x d horní x h Střed třídy (třídní zna) x Absolutní n Relatvní p Kumulatvní absolutní n relatvní p Tabuly í mohou mít jnou úpravu př zachování uvedených hodnot. Přílady úprav jsou uvedeny v následujících příladech. Zásady platné pro supnové třídění: třídy mají vždy onstantní šířu, počet tříd musí být v rozmezí 6 až 15, počet ntervalů nemá být an přílš malý (vede hrubému, zjednodušenému pohledu), an přílš velý (dělá třídění nepřehledným), všechny obměny znau, teré jsme zařadl do příslušné třídy nahrazujeme tzv. reprezentatvní hodnotou, za terou se většnou volí střed ntervalu x, tzv. třídní zna, šířu h, dolní hranc x d, horní hranc x h a středy tříd x volíme s ohledem na maxmální přehlednost, hrance tříd musí mít nesporné (jednoznačné) vymezení, celočíselný zna do 100 do 100 101 200 100 200 201.. 200.. spojtý zna Hrance třídy dolní horní <15 20) <20 25) <25 30) <30 35) <35 40) <40 45) NEVHODNÉ Vymezení hranc tříd <15 až 20) <20 až 25) <25 až 30) <30 až 35) <35 až 40) <40 až 45) 7

Tvorba tabuly í se sládá z těchto roů: 1. Určete počet tříd, teré bude tabula í obsahovat. Počet tříd volíme ntutvně v rozpětí 6-15 anebo vypočítáme podle Sturgersovho pravdla - vzorce = 1 + 3,322 log n, de vypočítané číslo zaorouhlujeme nahoru. 2. Vypočítejte varační rozpětí R v jao rozdíl mez největší a nejmenší hodnotou varační řady R v = x max - x mn. 3. Vypočítejte šířu třídy h dělením varačního rozpětí počtem tříd h = R v /. Výslede se zaorouhlí směrem nahoru ta, aby se dala do tabuly zařadt aždá hodnota znau. 4. Vypočítáme středy tříd x ( =1, 2,, ). 5. Přřaďte dolní a horní hrance jednotlvým třídám. Dolní hrance první třídy x d bude rovná x mn. Horní hrance poslední třídy x h bude rovná x max. Dbáme na nesporné vymezení hranc jednotlvých tříd. 6. Zařaďte jednotlvé hodnoty statstcého znau do příslušné třídy např. s využtím čárovací metody, čím dostanete absolutní jednotlvých tříd n. 7. Vypočítejte relatvní p a umulatvní absolutní n a relatvní p a zapšte je do dalších sloupců. Absolutní n u supnového (ntervalového) třídění je číslo, teré určuje ol jednote souboru má hodnotu, terá padá do stanoveného rozpětí příslušné třídy, přčemž platí n n 1 Relatvní p u supnového (ntervalového) třídění je stejně jao u jednoduchého třídění podíl absolutní n a rozsahu souboru n. p = n / n. Opět platí p 1, alternatvně v procentech 100 p 100 (%),; 1 1 Kumulatvní (absolutní, relatvní) n u supnového (ntervalového) třídění dává nformac, ol jednote souboru resp. jaá poměrná část souboru má hodnotu znau menší nebo rovnou jao je střed třídy (třídní zna). n j Úhrn hodnot znau u supnového třídění lze jen odhadovat jao de x jsou středy tříd. 1 n j, p j 1 p j x n 1, 8

Přílad supnového třídění: Třídt soubor 80 tříčlenných zaměstnanecých domácností podle výše měsíčních příjmů v ts. Kč. Neuspořádaná řada: x 1 33,5, x2 24,7,..., x80 27, 7 Uspořádaná (varační) řada: x ( 1) 15,9, x(2) 17,3,..., x(80) 47, 1 x mn = 15,9, x max = 47,1 Počet tříd stanovený ntutvně = 6. Rozpětí třídy h = (47,1-15,9)/6 = 5,2, zaorouhleně 5. Rozdělení domácností podle příjmových supn Tab. 4.3 Třída Hrance měsíčních příjmů [Č] Střed příjmové hrance [Č] Počet domácností Podíl domácností [%] Součtová domácností absolutní relatvní [%] x d - x h x n p n p 1. <15 až 20) 17,5 12 15 12 15,0 2. <20 až 25) 22,5 32 40 44 55,0 3. <25 až 30) 27,5 20 25 64 80,0 4. <30 až 35) 32,5 8 10 72 90,0 5. <35 až 40) 37,5 6 8 78 98,0 6. <40 až 45) 42,5 2 2 80 100,0 80 100 9

Počet domácností Tabulová forma supnového třídění se doplňuje: hstogramem nebo polygonem absolutních í, výsečovým grafem relatvních í vyjádřených v %, polygonem absolutních nebo relatvních poí Hstogram supnového (ntervalového) třídění je sloupcový graf tvořený pravdelným rovnoběžníy, terých obsah ( nulový) je úměrný úhrnu hodnot znau příslušné třídy. Zálady sloupců na ose x mají délu zvolených ntervalů (šířy třídy) h, pro všechny stejnou a příslušné výšy mají velost odpovídající třídní. Polygon absolutních í je možné odvodt z hstogramu. Spojuje třídní znay jednotlvých tříd (ntervalů). Polygon začíná a ončí na vodorovné souřadncové ose ve středu sousedních prázdných tříd. Polygon umulatvních absolutních nebo relatvních poí začíná na ose x u dolní hrance prvé třídy a poračuje jao spojnce horních hranc jednotlvých tříd. Grafy supnového rozdělení í (přílady) 32 24 16 8 15 20 25 30 35 40 45 Příjmové rozpětí rodn [Č] Relatvní součtový počet domácností p 100 75 50 25 15 20 25 30 35 40 45 Příjmové rozpětí rodn [Č] Obr. 4.5. Počet domácností v jednotlvých příjmových ntervalech 10

Různé typcé tvary hstogramů: symetrcé modální levostranně nesouměrné extrémně pravostranné rovnoměrné tvar U dvouvrcholové 11

4.1.4. Řešení extrémů v datech otevřená třída Př statstcém zjšťování se můžeme často setat s případy, že něterá (něteré) hodnota (hodnoty) zoumaného statstcého znau se vymyá ze zjštěných hodnot směrem dolu anebo nahoru - extrém. Přílad Ve zoumaném souboru 1000 mužů se vysytl jeden, terý měl hmotnost 42 g a jeden, terý měl hmotnost 200 g, přčemž další blžší hodnoty hmotnost byly 65 g a 110 g. Uspořádaná řada hmotnost statstcého vzoru 1000 mužů: x,0, x 65,0,..., x 110,0, 200 ( 1) 42 (2) 999 x 1000 Je zřejmé, že tyto hodnoty v podobě loálních extrémů by zresll všechny další výpočty. Tato stuace se řeší ta, že př výpočtech počtu tříd a rozpětí třídy h se tyto hodnoty zanedbají a v tabulce rozdělení se neuvede dolní hrance x d první třídy a horní hrance x h poslední třídy. Forma zápsu tato upravené tabuly může být různorodá, ale vždy nám napovídá o tom, že v zoumaném statstcém souboru se taový extrém vysytl Vymezení hranc tříd do 20) <20 až 25) <25 až 30) <30 až 35) <35 až 40) <40 a více Hrance třídy dolní horní do 20) <20 25) <25 30) <30 35) <35 40) <40 a více Vymezení hranc tříd - 20) <20 až 25) <25 až 30) <30 až 35) <35 až 40) <40 - Hrance třídy dolní horní - 20 21 25 26 30 31 35 36 40 41 - Otevřenou dolní a horní třídu můžeme použít samostatně, poud se extrém vysytl jenom na jedné straně. Otevřenou třídu můžeme použít v případě, že se extrém nevysytl, ale chceme zdůraznt, že se ve spojtém prostředí mohou př zoumání rozsáhlejšího souboru vysytnout hodnoty nžší nebo větší než byly zjštěné. V tomto případě je, ale problematcé správné stanovení dolní hrance 1. třídy x d resp. horní hrance poslední třídy x d. 12

4.2. Třídění podle více statstcých znaů Klasface třídění podle více znaů: Herarchcé třídění třídění podle lbovolného počtu znaů, prováděné v lbovolném pořadí. Uvntř tříd jednoho znau jsou vytvářeny třídy dalšího (podřízeného znau). Typcým výsledem třídění je herarchcý strom dendrogram (evoluční strom). Např. student jsou nejprve tříděn podle počtu absolvovaných zušebních termínů a uvntř aždého termínu jsou tříděn podle dosažené lasface, ale možno třídt př opačném pořadí tříděných znaů. Kombnační třídění současné třídění podle dvou znaů. Typcým výsledem třídění jsou ombnační tabuly. Podle charateru tříděných znaů rozlšujeme tyto ombnační tabuly: orelační tabula třídění podle dvou číselných znaů, ontngenční tabula třídění podle dvou slovních znaů, asocační tabula třídění podle dvou alternatvních slovních znaů. Kombnační třídění se používá zejména př zoumání závslostí mez dvěma znay. Např. respondent jsou současně tříděn podle stupně dosaženého vzdělání a jm preferované televzní stance. Kombnační třídění můžeme použít např. př zoumání závslost preferované televzní stance na vzdělání respondentů. 13

4.2.1. Třídění dvou číselných (vanttatvních) znaů orelační tabula Př malém počtu statstcých jednote je záladem třídění číselných (vanttatvních) znaů pracovní (záladní) tabula, do teré zaznamenáváme hodnoty statstcých znaů pro všechny statstcé jednoty od = 1 až po = n. Statstcá jednota Hodnoty statstcých znaů Zna x Zna y 1 x 1 y 1 2 x 2 y 2... n x n y n V této podobě jde jen o záznam výsledů zjšťování za n členný statstcý soubor. Př velém rozsahu dat je pracovní tabula nepratcá a nepřehledná. Výhodnější je v této stuac tzv. orelační tabula, v teré jsou uvedeny ombnací obměn hodnot obou statstcých znaů. Poud jde o nezávslé statstcé znay je možné proměnné x a y v tabulce grafu zaměnt. Poud je možné dentfovat jeden statstcý zna jao nezávslý a druhý jao závslý použjeme obměny nezávslého znau jao záhlaví sloupců. Zna x Zna y n y 1 y 2. y l x 1 n 11 n 12. n 1l n x1 x 2 n 12 n 22. n 2l n x2 x 3 n 13 n 23. n 3l n x3...... n y1 n y2.. n V případě, že je počet obměn něterého číselného (vanttatvního) statstcého znau velý, musí být onrétní obměny nahrazeny supnam (ntervaly). Konstruce ntervalů je dentcá jao u supnového třídění (4.1.3) 14

Přílad: Za 10 rodn máme údaje o počtu dětí v rodně (proměnná x) a velost bytu (proměnná y) vyjádřené počtem místností. Pracovní (záladní) tabula Rodna 1 2 3 4 5 6 7 8 9 10 Počet dětí v rodně 1 1 0 2 0 1 2 0 3 2 (proměnná x) Počet místností (proměnná y) 2 3 3 3 1 2 3 2 4 4 Korelační tabula absolutních poí Počet dětí Počet rodn podle počtu místností (proměnná Celem (proměnná x) y) 1 2 3 4 0 1 1 1-3 1-2 1-3 2 - - 2 1 3 3 - - - 1 1 Celem 1 3 4 2 10 Korelační tabula relatvních poí (podíl v [%]) Počet dětí Podíl rodn podle počtu místností [%] Celem (proměnná x) (proměnná y) 1 2 3 4 0 10 10 10-30 1-20 10-30 2 - - 20 10 30 3 - - - 10 10 Celem 10 30 40 20 100 Sdružená orelační tabula absolutních a relatvních poí (podíl v [%]) Počet dětí (proměnná x) Počet/podíl [%] rodn podle počtu místností (proměnná y) Celem 1 2 3 4 0 1/10 1/10 1/10-3/30 1-2/20 1/10-3/30 2 - - 2/20 1/10 3/30 3 - - - 1/10 1/10 Celem 1/10 3/30 4/40 2/20 10/100 15

Počet letoruhů Prostředem grafcé prezentace úloh o měření závslostí číselných znaů je orelační dagram. Záladním orelačním dagramem je orelační (bodový) dagram. Body v grafu představují jednotlvé statstcé jednoty. Každému bodu (statstcé jednotce) odpovídají hodnoty na osách (x, y): prvá proměnná určuje souřadnc na svslé ose (y) onrétní obměna prvého statstcého znau, druhá proměnná určuje souřadnc na vodorovné ose (x) onrétní obměna druhého statstcého znau, Obměny nezávslého statstcého znau patří na osu x. Obměny závslého statstcého znau patří na osu y. Poud jde o nezávslé statstcé znay je možné proměnné x a y v grafu zaměnt. Přílad: U nařezaných pren můžeme zoumat závslost jejch síly a počtu letoruhů. K nterpretac údajů může sloužt např. bodový orelační dagram. 1 2 10 8 6 4 2 0 1, 0 1, 2 1, 4 1, 6 1, 8 2, 0 2, 2 2, 4 Síla prna [cm] Obr. 4.6 Přílad bodového orelačního dagramu 2, 6 Bodový orelační zna má nevýhodu v tom, že statstcé jednoty se stejným obměnam statstcých znaů se přerývají. V tomto případě je výhodnější použít pseudo 3-D graf, de jsou na osách x a z obměny statstcých znaů a na ose y počty statstcých jednote. Přílad je uvedený u třídění dvou slovních znaů (4.2.2) 16

4.2.2. Třídění dvou slovních (valtatvních) znaů ontngenční tabula Na třídění statstcých jednote podle dvou statstcých slovních (valtatvních) znaů se používá stejný postup jao u číselných znaů, s výjmou ntervalové onstruce obměn statstcých znaů. Pořadí obměn statstcých znaů v záhlaví sloupců a řádu se řídí stejným zásadam jao u jednoduchého třídění (4.1.1) Tabula třídění statstcých jednote podle dvou statstcých slovních (valtatvních) znaů se nazývá ontngenční tabula. Je záladem na řešení ontngenční úlohy a ontngenční závslost. Přílad: Třídění domů v obc XY za posledních 50 let podle druhu zabezpečovacího zařízení a počtu vyradení Počet vyradených domů podle počtu vyradení Typ zabezpečení domu 0 x 1 x 2 x 3 x 4 x 5 x Tab.4.4 Celem domů Bez zabezpečení 94 25 5 2 2 1 129 Bezpečnostní záme 30 5 3 1 1 1 41 Bezpečnostní dveře 10 3 2 0 0 0 15 Bezpečnostní ona a dveře 4 1 1 0 0 0 6 Kamerový systém 4 1 0 0 0 0 5 Komplexní zabezpečení 4 0 0 0 0 0 4 Celem domů 146 35 11 3 3 2 200 Na grafcé zobrazení ontngenční tabuly používáme nejčastěj pseudo 3-D graf, de jsou na osách x a z obměny statstcých znaů a na ose y počty statstcých jednote. Obr. 4.7 Počet domov v obc XY za posledných 50 roov rozdelených podľa typu zabezpečena a počtu vyradnutí domu 17

4.2.3. Třídění dvou slovních (valtatvních) znaů asocační tabula Specálním případem třídění podle dvou statstcých znaů je asocační tabula, terou používáme v případě, že oba statstcé znay dosahují jen dvou obměn - alternatv. Přílad: Soubor pracovníů podnu B, ro 2001, n = 450 alternatvní znay: A očování, B onemocnění Třídění pracovníů podle účnnost očování Tab.4.5 Očování (A) Onemocnění (B) ano ne ano 12 323 335 ne 53 62 115 65 385 450 4.2.4. Třídění podle tří a více statstcých znaů Třídění podle tří a více statstcých znaů není předmětem předmětu. 18