11. Popisná statistika

. Popsá statstka.. Pozámka: Př statstckém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákotost, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme statstcké jedotky. Př zkoumáí používáme dva základí druhy statstky, popsou statstku a terferečí statstku. Popsá statstka zjšťuje a sumarzuje formace, zpracovává je ve formě grafů a tabulek a vypočítává jejch číselé charakterstky jako průměr, rozptyl percetly, rozpětí a pod. Iterferečí statstka čí závěry a základě dat získaých z šetřeí provedeých pro vybraý soubor respodetů. Aalyzuje tyto závěry a predkuje z ch závěr pro celý soubor. (Volebí průzkum a pod.) Pozorovaím ebo měřeím hodot zkoumaé velčy a ěkolka statstckých jedotkách získáme vstupí data. Soubor získaých údajů azýváme datový soubor. Teto soubor je jedorozměrý, jestlže sledujeme jede zak, ebo vícerozměrý, pokud sledujeme více zaků. Př statstckém šetřeí máme k dspozc: - základí soubor je soubor všech statstckých jedotek; - výběrový soubor je vybraá část ze základího souboru. Rozsah základího (výběrového) souboru je počet jedotek v souboru. Př vytvářeí souboru jedotek provádíme výběr ve tvaru prostého áhodého výběru... Defce: Prostý áhodý výběr je áhodý výběr ze základího souboru vytvořeý tak, že: - jedotlvé prvky výběru jsou ezávslé; - výběr je homogeí, tj. všechy hodoty pocházejí ze stejého rozděleí; - každý prvek ze základího souboru má stejou pravděpodobost, že bude vybrá. Popsá statstka Vlastost statstckých jedotek, které se pro jedotlvé jedotky měí azýváme statstcké zaky příp. proměé ebo velčy. Vyskytují se velčy: - kvattatví, popsaé číselou hodotou (výška, váha, cea); - kvaltatví, popsaé vlastostm (muž, žea, barva očí, dosažeé vzděláí). Kvaltatví velčy mohou být dskrétí, abývající hodot ze zadaé koečé možy, ebo spojté, které abývají hodot ze zadaého tervalu. Zpracováváme-l datový soubor kvattatvích dat x, x,..., x, pak jej obvykle jej uspořádáme podle velkost a dostaeme soubor dat tvaru x () x ()... x (), kde x () = m{x ; }, x () = max{x ; }.

Metody zpracovaí dat.3. Tříděí dat je rozděleí dat do skup provedeé ta, aby vykly charakterstcké vlastost sledovaých jevů. Uspořádáme a zhustíme data do přehledější formy. Rozezáváme: - jedostupňové tříděí, jestlže třídíme data podle změ jedoho statstckého zaku; - vícestupňové tříděí, pokud provádíme tříděí podle více zaků ajedou. Nejčastěj př jedostupňovém tříděí kvattatvích dat uspořádáme data podle velkost a staovíme tervaly, které odpovídají jedotlvým třídám. Mluvíme pak o tervalovém tříděí. Máme-l datový soubor {x, x,..., x }, který obsahuje celkem prvků, pak terval mez ejvětší a ejmeší hodotou rozdělíme a k dsjuktích tervalů, tříd, tvaru (a, a. Potom prvek x j patří do té třídy, pokud je a < x j a. Používáme ásledujících termíů a ozačeí: - třída je část dat zařazeá do jedé skupy, třídy, terval a, a ); - dolí hrace třídy je ejmeší hodota, př které prvek do třídy patří, hodota a ; - horí hrace třídy je ejvětší hodota, př které prvek do třídy patří, hodota a ; - střed třídy je průměr horí a dolí hrace třídy, y = (a + a ); - šířka třídy je rozdíl horí a dolí hrace třídy, hodota a a ; - (absolutí) četost třídy je počet prvků souboru, které patří do třídy; - relatví četost p = je poměr četost třídy ku celkovému počtu dat; - kumulatví (absolutí) četost N = + +... + je součet četost třídy a četostí tříd předchozích; - kumulatví relatví četost P = p + p +... + p je součet relatvích četost třídy a relatvích četostí tříd předchozích. Potom platí: k k =, p =, j = N, j= p j = P, N k =, P k =. j= Př staoveí hrac tříd obvykle zachováváme tato dvě pravdla: - šířku třídy h volíme pro všechy tervaly shodou, s vyjímkou krajích tříd pokud tvoří eomezeé tervaly: - př staoveí šířky třídy h dodržujeme Sturgesovo pravdlo, kdy pro počet tříd k platí, že k. = + 3, 3 log. 5 0 0 40 50 00 00 000 k 3 4 5 5 7 8 9 - pokud jsou krají tervaly děleí eomezeé, pak za střed prví, resp. posledí třídy volíme bod, který má od koečého krajího bodu třídy stejou vzdáleost jako má od středu sousedí třídy. Př tříděí kvaltatvích dat postupujeme obdobě. Jeom místo tervalu tvoří třídu prvky, které mají stejý zak, ebo skupu zaků.

.4. Grafcká zázorěí Pro větší ázorost používáme místo tabulek grafů. Používá se ěkolka jejch typů. Hstogram je graf kdy a vodorovou osu zázoríme třídy a a svslou osu četost č relatví četost. Často se používá ve tvaru, kdy se hodota odpovídající třídě zázorí jako sloupec s tervalem třídy jako základou a výška je dáa četostí. Polygo četostí a relatvích četostí je graf, kdy úsečkam spojíme body (y, ), resp. (y, p ). Bodový graf dostaeme tak, že a vodorovou osu vyeseme třídy jako body, k, a ve svslém směru vyášíme jedotlvé prvky třídy zázorěé jako jedotlvé body (, j), j =,,.... Sloupkový graf je podobý hstogramu, ale sloupce bývají odděleé, mají stejou šířku a každý sloupec odpovídá jedé třídě. Používáme je předeším u kvaltatvích dat. Kruhový (výsečový) dagram je zázorěí pomocí výsečí kruhu, kde každé třídě odpovídá jeda výseč. Velkost obsahů výsečí odpovídajíčetostem třídy. Stem-ad-Leaf dagram je uspořádáí dat do tabulky, kdy prví sloupec -stem=stoek odpovídá třídě a do řádku -leaf=lst vypsujeme prvky třídy. Pokud tyto prvky uspořádáme podle velkost mluvíme o uspořádaém dagramu..5. Příklad: Ze 7 možých výsledků jsme dostal datový soubor o 4 datech 3 4 5 6 7 8 9 0 3 4 x 3 5 7 4 5 4 5 Tab... Datům odpovídá tabulka četostí Tab.. a bodový graf a obrázku Obr... třída 3 4 5 6 7 četost 3 4 3 0 Tab.. Hstogram četostí 4 3 3 4 5 6 7 Obr... 3

Polygo četostí 4 3 Hstogram 3 4 5 6 7 Obr... 4 3 3 4 5 6 7 Obr..3. Sloupkový graf 4 3 3 4 5 6 7 Obr..4. Řada vlastostí datového souboru se dá vyčíst z tvaru hstograu č polygou četostí. Ty odpovídají grafu hustoty u rozděleí pravděpodobost áhodé velčy. Rozlšuje se ěkolk charakterstckých průběhů těchto grafů. - souměrý ve tvaru zvou, trojúhelíku č rovoměrý; - esouměré ve tvaru J, obráceého J, vpravo č vlevo protažeé; - podle počtu vrcholů jedo-, dvou-, č vícevrcholové. 4

.6. Charakterstky (míry) polohy. Nejzámější a ejčastěj používaou charakterstkou polohy je artmetcký průměr hodot souboru.. Průměr datového souboru {x, x,..., x } je defová vztahem x = Pokud jsou {z, z k,..., z m } růzé hodoty souboru s četostm j, j =,,..., m, a s relatvím četostm p j, pak k= x k. x = m m z j j = z j p j. j= j= Věta. Vlastost průměru Pro průměr datového souboru platí:. Součet odchylek hodot souboru od průměru je rove ule, t.j. (x x) = 0.. Přčteme-l k hodotám souboru kostatu a, pak průměr ového souboru je (x + a) = x + a. 3. Násobíme-l hodoty souboru číslem b, ásobí se průměr také b. Tedy y = bx +a, pak y = bx + a. 4. Fukce d(a) = (x a) je mmálí pro a = x. Průměr datového souboru je ctlvý a hrubé chyby, kdy jeda chybá hodota může výrazě změt hodotu průměru. Robustích charakterstk,které jsou méě ctlvé a zadáí chybé hodoty. Mez ě patří medá x, který je pro datový soubor x, x,... x defová vztahem x = ( x (m), ) pro = m, x(m) + x (m+), pro = m. Jé průměrové charakterstky polohy.. Geometrcký průměr x G, který je pro soubor x, x,..., x kladých dat defová vztahem x G = x x... x. Pro taková data popsují hodoty = x x 0, = x x,..., = x x, x 0 =, přírůstek, apř. v ekoomce ročí árust produkce, ce a pod. Je pak x k = x 0... k a x = x 0 G. Pozámka: Využívá se, kde má vypovídací hodotu převráceá hodota k původí. Nejčastěj je to v případech, kdy hodota x odpovídá době uté k provedeí ějakého pracovího úkou. Převráceá hodota pak uvádí, jakou část pracovího úkou je splěa za jedotku času. Věta. Pro soubor s kladým daty je x G x a rovost astae jedě pro x = x =... = x. 5

3. Harmocký průměr x H, který je pro soubor kladých dat defová vztahem Věta 3. Pro soubor s kladým daty je x H = x + x. +... + x x H x G x, přčmž rovost astae pouze pro x = x =... = x. 4. Kvadratcký průměr x K je defová vztahem x K = x. Věta 4. Je x x K a rovost platí pouze v případě, že x = x =... x. Věta 5. Pro soubory kladých dat je a rovost astae pouze v případě, že x () x H x G x x K x = x =... = x..7. Charakterstky (míry) rozptýleost. Rozpětí datového souboru je hodota R = x max x m. Hodota je ctlvá a extrémí chybé hodoty. Používáme tedy jako charakterstku tohoto druhu hodotu x 90 x 0. Současě provedeme ořezáí souboru, kde vyecháme hodoty meší ež x 0 a větší ež x 90. Podobou charakterstkou je mezkvartlové rozpětí IQR = x 75 x 5. Výběrový rozptyl je průměr čtverců odchylek od průměru a je defová vztahem s = (x x). Hodotu s azýváme výběrovou směrodatou odchylkou. Věta 6. Vlastost rozptylu a vzorec pro výpočet.. Je s = x (x).. Je-l y = bx + a,, pak s y = b s x, s y = b s x. 6

Věta 7. Fukce S(a) = (x a) abývá svého mma s pro a = x. Věta 8. Pro soubor x, platí max{ x x : } s. Věta 9. Pro varačí rozpětí souboru platí Varačí koefcet je defová vztahem s R 4. V = s x.. Je-l y = x + a a z = x a pro a > 0, pak. Je-l y = bx, pak V (y) V (x) V (z). V (y) = V (x). Je-l V > 0, 5 pak se jedá o esourodý soubor. Pětčíselá charakterstka souboru je pětce čísel x m, x 5, x 50, x 75, x max. Průměrá odchylka d a od bodu a je pro soubor dat x defováa vztahem d a = x a. Nejčastěj se používá průměrá odchylka od artmetckého průměru x, ebo medáu x. K tomu ás vede ásledující vlastost. Věta 0. Fukce d a abývá svého mma pro medá a = x..8. Charakterstky škmost a špčatost.. Koefcet škmost A 3 = α = (x s 3 x) 3. α = 3. Stadartzovaá škmost (x x) 3 ( )( )S, >. 3 α = α 6. 4. kde je počet hodot meších ež x, je počet hodot větších ež x. α =, 7

5. Koefcet špčatost A 4 = s 4 (x x) 4 3 Pro data, která jsou rozložea symetrcky kolem hodoty x je A 3 = 0. Hodoty A 3 blízké ule odpovídají rozděleí, které se blíží symetrckému. Je-l A 3 > 0, pak je rozložeí dat seškmeé vpravo, žší hodoty jsou více ahuštěy ež velké hodoty. Pro A 3 < 0 je rozděleí seškmeé vlevo, větší hodoty jsou více ahuštěy ež žší hodoty. Je-l A 4 blízké ule, říkáme, že jedá o soubor s ormálí špčatostí. Př A 4 < 0 mluvíme o souborech plochých a př A 4 > 0 mluvíme o souborech špčatých.. 9. Kvatlové charakterstky. Vycházíme z uspořádaého výběru (pořádkových statstk) x () x ()... x (), který dostaeme, jestlže uspořádáme prvky výběru podle velkost. Platí: Je-l výběr áhodým výběrem s rozděleí s dstrbučí fukcí F, která je rostoucí a spojtá, pak je středí hodota ( ) E(X () ) = F (P ) = Q(P ),, kde P = a Q = F je kvatlová fukce. + Protože hodoty x jsou pouze výběrem, pro průzkumovou aalýzu používáme opraveých hodot z věty, které odpovídají optmálí volbě. Pro výběr z ormálího rozděleí volíme P = 3 8 + = 8 3 8 +. 4 Pokud charakter rozděleí ezáme ebo eí ormálí, volíme P = 3 + 3 = 3 3 +. Jestlže utvoříme graf hodot (x (), P ), dostaeme zhruba průběh kvatlové fukce Q(p), 0 p. Ze vzorce ( ) vyplývá, že hodota x () je odhadem p kvatlu. Pro zbývající hodoty dostaeme kvatly pomocí leárí aproxmace. Pro p kvatl dostaememe vyjádřeí ( x p = ( + ) p ) (x (+) x () ) + x (), + ( ) + p + +, 0 p. Pro rozptyl kvatlu x p platí vztah D(x p ) = p( p) [f(x p )], kde f je hustota rozděleí, ze kterého provádíme výběr. 8

V průzkumové aalýze se používají specálí kvatly, které odpovídají volbě p =. Nazývají se písmeové hodoty a odpovídají volbě m =,, 3, 4. Začí se po m řadě M, F, E, D. Jejch ázvy a hodoty a porováí s kvatly u p ormovaého ormálího rozděleí jsou v tabulce. Ve vzorcích se pro ě používá společého ozačeí L. m ázev p L u p medá 0, 5 M 0 kvartl 0, 5 F 0, 674 3 oktl 0, 5 E, 5 4 sedecl 0, 065 D, 533 Tab..3 Každý z kvatlů má dvě krají hodoty, dolí L D a horí L H, které odpovídají volbě p = a p =. Například F m m D je dolí kvartl a F H je horí kvartl. Pro jejch odhad volíme pořadí a hloubku. Pořádková statstka x () má rostoucí pořadí r = a klesající pořadí k = + a hloubku H = m{r, k }. Metoda pořadí a hloubek Místo vyjádřeí kvatlové fukce pomocí vzorce ( ) se ěkdy používají robustější vzorce, které využívají hloubky H L kvatlu. Pro hloubku medáu M máme hodotu H M = +. Pokud je to celé číslo, je lché, pak je medá rove M = x = x 0,5 = x (HM ) Pro sudé dostaeme medá M pomocí leárí terpolace M = x = (x (/) + x (/)+ ). Pro ostatí kvatly F, E, D počítáme jejch hloubku podle vzorce H L = ( + t(h L )), kde fukce t(x) je celá část čísla x a F = M, E = F, D = E. Je-l hloubka H L celé číslo, pak L D = x (HL ), L H = x (+ HL ). Pro ecelé hloubky H L je L D = ( ) xt(hl ) + x t(hl )+, L H = ( ) x+ t(hl ) + x + t(hl ). Příklad. Uvedeme s jako příklad soubory dat z tabulky.4. 9

4-4- 4-3 4-4 6 0 6 7 4 8 3 6 9 5 7 4 7 3 5 7 5 7 6 9 6 0 8 0 4 7 5 3 3 6 8 4 3 9 5 4 0 6 3 4 0 0 7 3 5 4 3 3 7 3 4 4 0 0 8 3 5 8 4 4 7 6 9 9 8 9 7 9 8 9 8 3 3 6 5 9 4 8 5 0 6 4 7 8 3 0 0 6 3 4 6 4 9 0 7 5 7 4 6 4 0 7 4 4 8 8 0 5 4 9 9 5 30 9 0 3 4 Tab..4 soubor 4 4 4 3 4 4 8 3 3 30 Medá M = x. () 4-4- 4-3 4-4 0 4 5 8 3 8 7 3 7 7 6 3 7 5 6 0 8 4 6 4 8 8 6 8 7 7 4 5 0 6 9 6 8 7 4 6 0 0 9 9 9 7 7 0 0 9 30 0 30 8 0 8 0 4 0 6 9 9 9 8 0 6 0 0 5 6 8 3 0 3 3 3 3 4 3 7 3 4 4 5 3 0 3 3 3 5 3 3 3 8 4 8 4 6 6 3 8 4 4 9 4 0 7 4 6 4 4 5 4 3 8 4 7 4 5 4 0 4 5 9 5 7 4 9 4 3 4 8 0 5 9 5 9 4 7 5 8 5 7 3 4 3 5 9 6 9 3 5 3 6 7 3 6 3 9 7 5 4 6 3 4 6 0 5 6 7 3 5 7 6 5 7 9 6 7 4 6 8 7 5 7 9 6 7 5 7 0 8 9 4 8 8 7 9 8 9 9 5 30 0 0 6 3 0 4 3 4 x medá x (4) +x (5) x =, 5 x () = x (6) = 4 (5) +x (6) = 4 Pomocí vzorce ( ) určíme horí a dolí kvartly. Je: () + = 9 : 9 4 + 4 9 4 + 4 = 7. 9 ( x 0,5 = 9 4 9) 7 (x (8) x (7) ) + x (7) = 0

= 4 (x (8) x (7) ) + x (7) = 0. () + = 4 : 4 4 + 4 4 4 + 4 = 6. 4 ( x 0,5 = 4 4 4) 6 (x (7) x (6) ) + x (6) == x (6) = 0. (3) + = 3 : 3 4 + 4 3 4 + 4 = 8. 3 x 0,5 = x (8) = 0. (4) + = 3 : 3 4 + 4 3 4 + 4 = 7. 3 ( x 0,5 = 3 4 3) 7 (x (8) x (7) ) + x (7) == 3 4 (x (8) x (7) ) + x (7) = 0, 75. () + = 9 : 9 3 4 + = 4 87 4 + 4 =. 9 ( 3 x 0,75 = 9 4 ) (x () x () ) + x () == 3 9 4 (x () x () ) + x () = 5, 75. () + = 4 : 8 + 4 = 8. 4 3 4 + 4 ( 3 x 0,75 = 4 4 8 4 (3) + = 3 : 3 3 4 + (4) + = 3 : ) (x (9) x (8) ) + x (8) == x (8) = 4. 3 = 4. x 0,75 = x (4) = 5. 3 3 4 + 3 = 3 ( 3 x 0,75 = 3 4 3 ) (x (4) x (3) ) + x (3) == 3 4 (x (4) x (3) ) + x (3) = 6, 5. Pro datové soubory dostaeme rozpětí R = x () x () a mezkvartlové rozpětí IQR = x 0,75 x 0,5 : soubor 4 4 4 3 4 4 R 9 7 5 7 IQR 5, 75 4 5 5, 5 Pro robustí terval spolehlvost dostaeme jeho meze I H,D = x ±,57IQR : soubor 4 4 4 3 4 4 I D I H 3, 4, 6, 8 3, 5 Grafcké zazorěí vlastostí souboru dat. Kvatlový graf dostaeme, jestlže vyeseme a: osu x - pořadová pravděpodobost P = osu y - pořádkovou statstku x (). + P = 8 3 8 +, (N), P = 3 3 + ; ebo její opraveá hodota

. Krabcový graf dostaeme, jestlže a osu x postupě vyeseme: hodoty x () ; a hradebí hodoty B D a B H, kde hodoty M, F D, F H B H = F H +, 5R F, B D = F D, 5R F ; R F = F H F D. Někdy používáme vrubový krabcový graf, kdy vyášíme omezeí pomocí hodot I D a I H, kde I D = M, 57R F, I H = M +, 57R F. Grafy dkují symetr rozděleí a podezřelá data. 3. Graf polosum slouží k ověřeí symetre rozděleí. Využíváme hodoty polosumy Z = ( x() ) + x (+ ) ). Pro symetrcké rozděleí je grafem (x (), Z ) vodorová přímka určeá rovcí y = x = x 0,5 = M. 4. Graf symetre dostaeme tak, že vyášíme a: osu x - u P, p = ; osu y - Z +. Pro symetrcké rozděleí je grafem vodorová přímka y = M = x. Pokud je grafem škmá přímka je její směrce odhadem koefcetu škmost. 5. Graf špčatost slouží k ověřeí ormalty ( rozděleí. Vyášíme ) a: osu x - u P, P = ; osu y - l + u P (x (+ ) x () ). Pro ormálí rozděleí je grafem vodorová přímka. Pokud je grafem škmá přímka je její směrce odhadem špčatost. 6. Dferečí kvatlový graf slouží k porováí rozděleí s ormálím rozděleím se stejou špčatostí. Vyášíme a: osu x - kvatl u P ; osu y - d = x () su p, kde s = 0, 748R F je robustí odhad směrodaté odchylky. Idetfkace rozděleí výběru 7. Jádrový odhad hustoty dostaeme jako grafcké zázorěí fukce y = ˆf(x), kde ˆf(x) = h Fukce K je tzv. jádrová fukce a volíme K(x) = ( x x K h ). 0, 9375( x ), x, 0, jde. Je-l rozděleí přblžě ormálí se zámým rozptylem σ, pak volíme h =, 34σ 0,.

Používáme jej pro meší rozsahy výběru. Pro větší volíme častěj hstogram. 8. Hstogram dostaeme jako sloupcový graf, kde máme osu x rozděleu a tervaly a, a ) a výška sloupce je rova četost. Volíme obvykle stejou délku tervalů, kde je počet tervalů m dá vztahem m = t( ), ebo m = t(, 46( ) 0,4 ). Pro výběry, které mají přblžě ormálí rozděleí volíme délku tervalů = 3, 49σ 3, ebo = F H F D 3. 9. Q-Q (kvatl-kvatlový) graf slouží k porováí výběru s předpokládaým teoretckým rozděleím. Je-l Q t kvatlová fukce předpokládaého rozděleí, pak vyášíme a: osu x - hodotu kvatlu Q t (P ); osu y - pořádkovou statstku x (). Často používáme ormovaých rozděleí, kde používáme substtuce z = x Q R, kde Q je parametr polohy (středí hodota, prahová hodota) a R je parametr rozptýleí (směrodatá odchylka). Pak používáme stadartzovaé kvatlové fukce Q s a vytváříme graf (Q s (P ), x () ). V případě shody rozděleí je grafem přímka tvaru x () = Q + RQ s (P ). Stadartzovaé kvatlové fukce a odhady parametrů Q a R alezeme v lteratuře. 0. Raktový graf je Q Q graf, kdy rozděleí souboru porováváme s ormovaým ormálím rozděleím. Vyášíme a: osu x - kvatl u P ; osu y - pořádkovou statstku x (). Ze tvaru grafu se dá pozat zařazeí rozděleí do skup podle škmost, špčatost a délky koců.. P-P (pravděpodobostí) graf je doplňkem je Q Q grafu. Porováváme emprckou dstrbučí fukc rozděleí souboru s teoretckou dstrbučí fukcí F t. Obvykle používáme ormovaé proměé z = x () Q R. Do grafu vyášíme a: osu x - hodotu P ; osu y - hodotu F t (z ). Obdobou raktového grafu je graf, kdy vyášíme a: osu x - hodoty P = : osu y - hodoty Φ ( ) x () x + s. Je x výběrový průměr a s je výběrová směrodatá odchylka. Př porovaí Q Q a P P grafů lze zjstt: a) P P grafy jsou ctlvé a odchylky od teoretckého rozděleí ve středí část v okolí módu; b) Q Q grafy jsou ctlvé a odchylky a kocích tervalů. Oba typy grafů se tudíž doplňují. 3