13 Popisá statistika 13.1 Jedorozměrý statistický soubor Statistický soubor je možia všech prvků, které jsou předmětem statistického zkoumáí. Každý z prvků je statistickou jedotkou. Prvky tvořící statistický soubor mají určité společé vlastosti tzv. idetifikačí zaky umožňující určit, zda prvek do daého statistického souboru patří ebo epatří. Idetifikačí zaky tedy soubor vymezují. Z hlediska cílů statistického zkoumáí sledujeme a prvcích statistického souboru (statistických jedotkách) jedu ebo více vlastostí sledovaé zaky. Pokud sledujeme pouze jedu vlastost, dostáváme jedorozměrý statistický soubor. Pokud sledujeme více vlastostí, dostáváme vícerozměrý statistický soubor. Na každé statistické jedotce tedy zjišťujeme hodotu ějakého statistického zaku X (hodotu áhodé veličiy X). Předpokládejme, že jsme získali čísla x 1,...,x, která tvoří tzv. soubor hodot. Počet prvků souboru je rozsah souboru. Soubor hodot x 1,...,x je třeba odlišit od možiy {x 1,...,x },vsouboru hodot se mohou ěkterá čísla opakovat. Ve většiě případů je možo pracovat s celým souborem x 1,...,x, zejméa díky výkoým počítačům. Je-li velké, je ěkdy výhodé provést tzv. tříděí, kdy údaje uspořádáme do přehledého tvaru, utvoříme tzv. tabulku rozděleí četostí (četostí tabulku, tabulku skupiového resp. itervalového rozděleí četostí). a) Rozděleí četostí Je-li zak X diskrétí s malým počtem hodot a 1 < <a k, které byly zjištěy a statistických jedotkách (říkáme, že X má málo variat), určíme četostí tabulku takto: a j a 1...... a k j 1...... k kde j je počet, kolikrát se vyskytla hodota a j,j =1,...,k, v souboru hodot x 1,...,x.Zřejmě 1 + + k =. Číslo j je tzv. (absolutí) četost hodoty a j vsouboru. Např. zkoušeí studeti získali tyto zámky: 1, 2, 2, 1, 3, 2, 4, 4, 2, 1, 2, 3. a j 1 2 3 4 j 3 5 2 2 3
b) Itervalové rozděleí četostí Je-li X diskrétí zak, který má moho variat ebo zak spojitý, rozdělíme obor hodot tohoto zaku a vhodé disjuktí itervaly, apř. I 1 =(,c 1, I 2 = (c 1,c 2,..., (c k 1, ). Ozačme j počet čísel za statistického souboru x 1,...,x, které patří do itervalu I j, j =1,...,k.Opět 1 + + k =. Čísla j, j =1,...,k jsou tzv. (absolutí) itervalové četosti. Itervaly je možo volit růzými způsoby, uvedli jsme pouze jedu z možostí. Obvykle se řídíme řídíme těmito pravidly: (1) každé číslo ze souboru x 1,...,x lze zařadit právě do jedé třídy (zařazováí je jedozačé); (2) počet tříd k< volit tak, aby tříděí bylo přehledé (aby tříd ebylo příliš moho), ale zase aby se ám příliš ezjedodušil pohled a data (je-li tříd velmi málo). Pro učeí počtu tříd se d oporučuje jede z těchto vzorců: a) k 5log b) k =. c) (Sturgesovo pravidlo) k =1+3.3log =1+1.43. l (doporučuji) Tímto číslem se řídíme je přibližě, zpravidla se volí itervaly stejé délky. Je třeba dbát a to, aby středy tříd byla okrouhlá čísla. V každém itervalu se volí jedo číslo, které ve výpočtech zastupuje všechy hodoty zaku, které do itervalu patří. Toto číslo je tzv. zastupitelá hodota itervalu. Je-li iterval (c j 1,c j koečý, je obvykle zastupitelou hodotou střed tohoto itervalu a j = c j 1+c j. 2 Pokud je c 0 =, zvolíme zpravidla a 1 = c 1 c 2 c 1. Podobě pro c 2 k = volíme a k = c k 1 + c k 1 c k 2. Jiý postup pro určeí zastupitelých hodot krajích itervalů je teto: určíme miimálí resp. maximálí hodotu ve statistickém 2 souboru, tu pokládáme za dolí hraici prvího resp. horí hraici posledího itervalu. V těchto itervalech určíme středy a 1 resp. a k. Itervalová četostí tabulka má tvar iterval (c 0,c 1 (c 1,c 2 (c k 2,c k 1 (c k 1,c k a j a 1 a 2 a k 1 a k j 1 2 k 1 k Užívají se ásledující četosti: relativí třídí četost f j = j,,...,k, kumulativí třídí četost N j = 1 + + j,,...,k, kumulativí relativí třídí četost F j = f 1 + + f j,,...,k. 4
Pro zobrazeí utříděých dat užíváme ásledující statistické grafy 1. tyčkový graf, tyčkový diagram, sloupkový graf j a 1 a 2 a 3 a 4 a 5 a 6 a 7 2. histogram: ad itervalem (c j 1,c j se kreslí obdélík, jehož výška je rova j resp. je úměrá j (emají-li itervaly stejou šířku, je plocha obdélíka ad daým itervalem rova číslu j ); j a 1 a 2 a 3 a 4 a 5 a 6 a 7 3. polygo četostí: lomeou čarou se spojí body (a j, j ),,...,k. j a 1 a 2 a 3 a 4 a 5 a 6 a 7 Podobými grafy lze zázorňovat také relativí četosti ebo kumulativí (absolutí i relativí) četosti. 5
13.1.1 Míry (charakteristiky) polohy Ve statistickém souboru potřebujeme často určit hodotu, kolem které se data soustřeďují, potřebujeme staovit jakýsi jejich střed. Těmto číslům říkáme míry resp. charakteristiky polohy, jsou to charakteristiky úrově zaku. Aritmetický průměr x = 1 x i, x = 1 k a j j. Pozámka 1. Podle ozačeí je zřejmé, že prví vzorec užíváme pro původí data, druhý vzorec pro data utříděá do četostí tabulky. Všechy další vzorce budeme uvádět v tomto pořadí. Vlastosti aritmetického průměru: (x i x) =0, resp. k (a j x) j =0, y i = x i + c, i =1,...,, c R 1 y = x + c, z i = kx i,,...,, k R 1 z = kx. Je-li statistický soubor rozděle do r dílčích souborů, v ichž záme aritmetické průměry x 1,...,x r apočtypozorováí 1,..., r, potom aritmetický průměr celého souboru určíme pomocí tzv. vážeého aritmetického průměru (vahami jsou rozsahy dílčích souborů) r 1 x = x i i. 1 + + r Při ručím zpracováí dat lze využít vlastosti aritmetického průměru a počítat v případě utříděých dat pomocí tzv. metody prozatímího středu (metody vhodě zvoleého počátku): zvolíme vhodé kostaty a (ově zvoleý počátek) a b (změíme měřítko, epočítáme s velkými čísly) a trasformujeme čísla x j, j =1,...,, tj. pracujeme s ovým statistickým souborem y 1,...,y. Výpočet provedeme pro ové přízivější hodoty a potom určíme aritmetický průměr původích dat. Příklad 1. y j = x j a b y = x a b x = a + by. x j 34.5 44.5 54.5 64.5 74.5 84.5 94.5 j 2 3 11 20 32 25 7 = 100 y j = x j 74.5 10 4 3 2 1 0 1 2 y j j 8 9 22 20 0 25 14 20 6
y = 1 ( 20) = 0.2, x =10y +74.5 = 10( 0.2) + 74.5 =72.5. 100 Aritmetický průměr má tu evýhodu, že je ovlivě extrémími hodotami (jeda pětka zkazí průměr zámek studeta, který má jiak samé jedičky). Harmoický průměr se často užívá při charakterizováí úrově zaku, jehož hodoty lze vyjádřit jako poměr hodot dvou jiých proměých. Harmoický průměr má smysl pouze pro kladé hodoty zaku. Užívá se apř. v teorii idexů. x H = 1, x H = j 1 x i Geometrický průměr má smysl pouze tehdy, jsou-li hodoty zaku kladé. Užívá se apř. při výpočtu průměrého koeficietu růstu časové řady ebo v teorii idexů. x G = x 1 x, x G = (a 1 ) 1 (ak ) k Kvatily Nechť p (0, 1). p-kvatil x p,(p-tý kvatil) je ta hodota zaku, pro kterou platí, že ejméě 100p % čísel ve statistickém souboru je x p a ejméě 100(1 p) procet čísel ve statistickém souboru je x p. Např. číslo x 25 je určeo tak, že čísla ve statistickém souboru, která jsou meší ebo stejá jako x 25, tvoří 25 % a současě čísla, která jsou větší ebo stejá tvoří zbývající část statistického souboru, tj. 75 %. Číslo x 0.5 se azývá mediá, x 0.25 je dolí kvartil, x 0.75 horí kvartil, x 0.1, x 0.2,..., x 0.9 jsou tzv. decily, x 0.01,..., x 0.99 jsou tzv. percetily ebo procetily. Dolí kvartil, mediá a horí kvartil rozdělují uspořádaou řadu hodot zaku a čtyři stejě početé části, decily ji rozdělují a 10 stejě početých částí atd. Jak určíme p-kvatil? Soubor, ve kterém jsme eprováděli tříděí, je uto ejprve uspořádat od ejmeších hodot k ejvětším. Pro uspořádaý soubor užíváme ozačeí x (1),...,x (),tedy k i x (1) x (2) x (). Platí { x([p]+1), p [p], x p = x (p) +x (p+1), p =[p]. 2 Symbol [ ] začí fukci celá část. Pracujeme-li s četostí tabulkou, určíme ejprve tzv.kvatilový iterval, tj. iterval do kterého p-kvatil áleží. Je to iterval, do kterého patří prvek s pořadovým číslem z p = p + p (zaokrouhlujeme ahoru). Kvatil určíme podle vzorce x p = z p N p h p + c p, p 7 a j.
kde N p je kumulativí četost itervalu, který předchází kvatilový iterval, p je četost kvatilového itervalu, h p je délka kvatilového itervalu, c p je dolí hraice kvatilového itervalu. Ukažme si užití tohoto postupu a příkladu Příklad 2. (, 700 (700, 740 (740, 780 (780, 820 (820, 860 (860, 900 (900, 940 (940, ) P j 8 25 32 26 15 6 3 1 116 N j 8 33 65 91 106 112 115 116 Vypočteme mediá x 0.5,tj.p =0.5. z p = 116 0.5 +0.5 =58.5. Mediáový iterval je proto iterval, ve kterém leží prvek statistického souboru s pořadovým číslem 59, tj. iterval (740, 780. Proto 58.5 33 x 0.5 = 40 + 740 = 771.875. 32 Mediá se užívá tehdy, chceme-li odstrait vliv extrémích hodot. V literatuře se můžeme setkat s ázorým popisem polohy statistického souboru pomocí tzv. krabicového grafu (vousaté krabičky, [aglicky: box plot, box ad whisker plot]). V obdélíku je vyzače mediá příslušého statistického souboru, dolí a horí kvartil. Vousy ukazují hraice pro velmi ízké resp. velmi vysoké hodoty. Je-li h =max{x 1,...,x } >h= x 0.25 +1.5( x 0.75 x 0.25 ), kočí jede z vousů v bodě h;je-lid =mi{x 1,...,x } <d= x 0.75 1.5( x 0.75 x 0.25 ), kočí druhý vous v bodě d. V opačých případech kočí vousy v maximu h pozorováí resp. v miimu d pozorováí. V grafu se vyzačují hodoty zaku, které leží mimo rozsah vousů, jsou to tzv. odlehlá pozorováí. y d x 0.25 x 0.50 x 0.75 h x Obr. 38 Pozámka 2. Při užíváí růzých statistických softwarů je třeba zjistit, co krabicový graf zázorňuje. Někdy sahají vousy k maximálímu resp. miimálímu pozorováí ebo ke kvatilům x 0.1 resp. x 0.9. Modus je ta hodota (variata) zaku, která má ejvětší četost, ozačíme ji ˆx; má smysl tehdy, je-li počet vzájemě růzých variat zaku X ve statistickém souboru podstatě meší ež rozsah souboru. 8
V itervalovém rozděleí četostí užijeme k určeí modu vzorec ˆx = a j h j+1 j 1, 2 j+1 2 j + j 1 kde a j je střed itervalu, který má ejvětší četost j, čísla j 1, j+1 jsou četosti sousedích tříd, h je šířka třídy. 13.1.2 Míry (charakteristiky) variability Statistické soubory se mohou lišit variabilitou (kocetrací) hodot kolem ějaké míry polohy. a) Míry absolutí variability (variačí) rozpětí R = x () x (1) ; kvartilové rozpětí R Q = x 0.75 x 0.25 ; Polovia této hodoty se azývá kvartilová odchylka průměrá odchylka d = 1 x i x 0.5, d = 1 k a i x 0.5 j. Někdy se v průměré odchylce místo mediáu používá aritmetický průměr. rozptyl [ ] s 2 x = 1 (x i x) 2 1 = x 2 i (x) 2, [ ] s 2 x = 1 k (a j x) 2 1 k j = a 2 j j (x) 2. směrodatá odchylka s x = s 2 x. Fyzikálě je směrodatá odchylka vyjádřea ve stejých jedotkách jako měřeé hodoty. Rozptyl i směrodatá odchylka jsou závislé a všech hodotách statistického zaku. Vlastosti rozptylu: y i = x i + c, i =1,...,, c R 1 s 2 y = s 2 x, y i = kx i,,...,, k R 1 s 2 y = k2 s 2 x. Je-li statistický soubor rozděle do r dílčích souborů o rozsazích 1,..., r a záme-li aritmetické průměry x 1,...,x r arozptylys 2 1,...,s2 r v těchto dílčích souborech, platí s 2 x = 1 r (x i x) 2 i + 1 r s 2 i i, 9
tj. rozptyl celého souboru je rove součtu rozptylu skupiových průměrů a průměru skupiových rozptylů. Při výpočtu rozptylu z četostí tabulky můžeme také užít metodu vhodě zvoleého středu. Zvolíme vhodá čísla a, b 0, určíme zastupitelé hodoty u j = a j a, vypočteme s 2 b y trasformovaých hodot y i = x i a, i =1,..., b aužijemevztah s 2 y = 1 b 2 s2 x. b) Míry relativí variability Variabilitu dvou ebo více souborů elze porovávat, liší-li se výrazě úroví zaku ebo jsou-li vyjádřey v růzých měrých jedotkách. Proto je uté užít relativí míry variability. variačí koeficiet V x = s x x, (ěkdy se V x ásobí 100 a vyjadřuje variabilitu v procetech). relativí kvartilová odchylka Q r = x 0.75 x 0.25 x 0.75 + x 0.25. 13.1.3 Míry (charakteristiky) šikmosti Tyto míry udávají, zda jsou hodoty kolem zvoleého středu rozložey souměrě ebo zda je rozděleí hodot sešikmeo, zda je asymetrické. Všechy dále uvedeé míry šikmosti jsou v případě symetrického rozděleí rovy ule. Čím víc se tyto charakteristiky liší od uly, tím je asymetrie rozděleí hodot větší. (mometový resp. výběrový) koeficiet šikmosti α = kvatilový koeficiet šikmosti 1 (x i x) 3, α = s 3 x 1 k (a j x) 3 j. s 3 x α p = ( x 1 p x 0.5 ) ( x 0.5 x p ) x 1 p x p, 0 <p<0.5. V symetrickém rozděleí spadá aritmetický průměr x, mediá x i modus x do jedoho bodu. Čím více se rozděleí četostí blíží symetrickému, tím méě se tyto charakteristiky odlišují. 10
Obr. 1 Schéma asymetrického rozděleí četostí zešikmeého záporě V asymetrickém rozděleí zešikmeém záporě platí x < x <ˆx. Neí-li asymetrické rozděleí příliš (extrémě) esouměré, je vzdáleost mediáu od aritmetického průměru většiou přibližě jedou třetiou vzdáleosti mezi modem a aritmetickým průměrem. Obr. 2 Schéma asymetrického rozděleí četostí zešikmeého kladě 13.1.4 Míry (charakteristiky) špičatosti (mometový, výběrový) koeficiet špičatosti 1 β = (x i x) 4 3, β = kvatilový koeficiet špičatosti s 4 x 1 k (a i x) 4 j s 4 x 3. β p = x () x (1) x 1 p x p, 11 0 <p<0.5.
Koeficiet špičatosti měří stupeň kocetrace hodot kolem středu (stupeň kocetrace prostředích hodot) ve srováí s četostí ostatích hodot. Je-li podíl četostí prostředích hodot srovatelý s četostmi ostatích hodot, je rozděleí četostí ploché, β<0. Soubor s ízkou špičatostí často obsahuje hodoty velmi vzdáleé od středu. Čím je rozděleí špičatější, tím víc jsou hodoty soustředěy kolem středu. Sheppardovy korekce. Při itervalovém rozděleí četostí se při výpočtu (výběrových) cetrálích mometů m r = 1 k (a j x) r j, dopouštíme chyb (ahrazujeme všecha čísla z určitého itervalu jeho středem). V literatuře, apř. J. Aděl: Statistické metody, Matfyzpress, 1993, je dokázáo, že vypočteé hodoty lze opravit takto (h je délka itervalu) m 2 = m 2 1 12 h2, m 3 = m 3, m 4 = m 4 1 2 m 2h 2 + 7 240 h4. Tamtéž je uvede obecý vzorec pro opravu m r. 13.2 Dvourozměrý statistický soubor Jestliže vyšetřujeme a každé statistické jedotce dva zaky X,Y, máme podobě jako v případě jedorozměrého statistického souboru dvě možosti: (1) pracovat se všemi daty, (2) data uspořádat do četostí tabulky. V případu (1) tvoří statistický soubor uspořádaých dvojic (x 1,y 1 ),...,(x,y ). Základí charakteristiky jsou aritmetické průměry a rozptyly x = 1 x i, y = 1 y i, s 2 x = 1 (x i x) 2, s 2 y = 1 (y i y) 2, kovariace s xy = 1 (x i x)(y i y) = [ 1 ] x i y i x y, korelačí koeficiet r xy = s xy s x s y = x i y i ( x i )( y i ) [ x 2 i ( x i ) 2 ][ y 2 i ( y i ) 2 ], je-li s x s y 0. 12