7. P o p i s á s t a t i s t i k a 7.. Pozámka: Při statistickém zkoumáí ás zajímají hromadé jevy a procesy, u kterých zkoumáme zákoitosti, které se projevují u velkého počtu prvků. Prvky zkoumáí azýváme statistické jedotky. Sledujeme vlastosti statistických jedotek, které azýváme statistické zaky ebo stručěji veličiy (variable). Souhr zaků a veliči tvoří data. Při zkoumáí používáme dva základí druhy statistiky, popisou statistiku (describe statistics) a iterferečí statistiku. Popisá statistika zjišťuje a sumarizuje iformace, zpracovává je ve formě grafů a tabulek a vypočítává jejich číselé charakteristiky jako průměr, rozptyl percetily, rozpětí a pod. Iterferečí statistika čií závěry a základě dat získaých z šetřeí provedeých pro vybraý soubor respodetů. Aalyzuje tyto závěry a predikuje z ich závěr pro celý soubor. (Volebí průzkum, průzkum trhu a pod.) Při statistickém šetřeí máme k dispozici: - základí soubor je soubor všech statistických jedotek; - výběrový soubor je vybraá část ze základího souboru. Rozsah základího (výběrového) souboru je počet jedotek v souboru. Při vytvářeí souboru jedotek provádíme výběr ve tvaru prostého áhodého výběru. 7.2. Defiice: Prostý áhodý výběr (simple radom sample) je áhodý výběr ze základího souboru vytvořeý tak, že každá statistická jedotka ze základího souboru má stejou pravděpodobost, že bude vybráa. Pokud je možé vybrat tutéž jedotku zova, mluvíme o výběru s vraceím, pokud opakovaý výběr eí možý jedá se o výběr bez vraceí. Pozámka: Jié metody používají defiovaý způsob výběru, který je popsá zadaým algoritmem. Využívá se především vytvářeí výběru s meším rozsahem, který podchycuje zákoitosti obsažeé v rozsáhlejším výběru. V dalším se budeme zabývat popisou statistikou. 6
Popisá statistika Vlastosti, které se pro jedotlivé jedotky měí azýváme veličiami, případě statistickými zaky ebo proměými (variable). Vyskytují se veličiy - kvatitativí, popsaé číselou hodotou (výška, váha, cea); - kvalitativí, popsaé vlastostmi (muž, žea, barva očí, dosažeé vzděláí). Kvatitativí veličiy mohou být diskrétí (discrete), abývající hodot ze zadaé koečé možiy, ebo spojité (cotiuous), které abývají hodot ze zadaého itervalu. Pozorovaím ebo měřeím hodot zkoumaé veličiy a ěkolika statistických jedotkách získáme vstupí data. Soubor těchto údajů azýváme datový soubor. Teto soubor je jedorozměrý, jestliže sledujeme jede zak, ebo vícerozměrý (multistage radom sample), pokud sledujeme více zaků. Při zpracováí jedorozměrého datového souboru kvatitativích dat x, x 2,..., x potřebujeme pro ěkterá šetřeí data uspořádat podle velikosti. Dostaeme pak uspořádaý datový soubor tvaru x () x (2)... x (), kde x () = mi{x i ; i } a x () = max{x i ; i }. Metody zpracovaí dat 7.3. Tříděí dat je rozděleí dat do skupi provedeé tak, aby vyikly charakteristické vlastosti sledovaých jevů. Uspořádáme a zhustíme data do přehledější formy. Rozezáváme - jedostupňové tříděí, jestliže třídíme data podle změ jedoho statistického zaku; - vícestupňové tříděí, pokud provádíme tříděí podle více zaků ajedou. Nejčastěji při jedostupňovém tříděí kvatitativích dat uspořádáme data podle velikosti a staovíme itervaly, které odpovídají jedotlivým třídám. Mluvíme pak o itervalovém tříděí. Máme-li datový soubor {x, x 2,..., x }, který obsahuje celkem dat, pak iterval mezi ejvětší a ejmeší hodotou rozdělíme a k disjuktích itervalů, tříd (classes), tvaru (a i, a i, i k. Potom prvek 7
x j patří do i té třídy, pokud je a i < x j a i. Používáme ásledujících termíů a ozačeí: - třída (class) je část dat z itervalu (a i, a i ; - dolí hraice třídy (lower class limit) je hodota a i ; - horí hraice třídy (upper class limit) je hodota a i ; - střed třídy (class mark) je průměr horí a dolí hraice třídy, tedy y i = 2 (a i + a i ); - šířka třídy (class width) je rozdíl horí a dolí hraice třídy, tedy hodota a i a i ; - (absolutí) četost třídy (frequecy) i je počet prvků souboru, které patří do i té třídy; - relativí četost (relative frequecy) p i = i je poměr četosti třídy ku celkovému počtu dat; - kumulativí (absolutí) četost (cumulative frequecy) N i = + 2 +...+ i je součet četosti třídy a četostí tříd předchozích; - kumulativí relativí četost (cumulative relative frequecy) P i = p + p 2 +... + p i je součet relativí četosti třídy a relativích četostí tříd předchozích. Potom platí: k i =, k p i =, i j= j = N i, i j= p j = P i, N k =, P k =. Při staoveí hraic tříd obvykle zachováváme tato dvě pravidla: - šířku třídy h volíme pro všechy itervaly shodou, s vyjímkou krajích tříd pokud tvoří eomezeé itervaly: - při staoveí šířky třídy h dodržujeme Sturgesovo pravidlo, kdy pro počet tříd k platí, že k. = + 3, 3 log. V tabulce jsou uvedey počty tříd pro ěkteré hodoty rozsahů souboru. 5 0 20 40 50 00 200 000 k 3 4 5 6 7 8 9 - pokud jsou krají itervaly děleí eomezeé, pak za střed prví, resp. posledí třídy volíme bod, který má od koečého krajího bodu třídy stejou vzdáleost jakou má od středu sousedí třídy. Při tříděí kvalitativích dat postupujeme obdobě. Jeom místo itervalu tvoří třídu prvky, které mají stejý zak, ebo skupiu zaků. 8
7.4. Grafická zázorěí Pro větší ázorost požíváme místo tabulek zázorěí datového souboru pomocí grafů. Používá se ěkolika typů. Histogram (histogram) je graf kdy a vodorovou osu zázoríme třídy a a svislou osu četosti či relativí četosti. Často se používá ve tvaru, kdy se hodota odpovídající třídě zázorí jako sloupec s itervalem třídy jako základou a výška je dáa četostí. Polygo četostí a relativích četostí je graf, kdy úsečkami spojíme body (y i, i ), resp. (y i, p i ). Bodový graf (dot diagram) dostaeme tak, že a vodorovou osu vyeseme třídy jako body i, i k, a ve svislém směru vyášíme jedotlivé prvky třídy zázorěé jako jedotlivé body (i, j), j =, 2,... i. Sloupkový graf je podobý histogramu, ale sloupce bývají odděleé, mají stejou šířku a každý sloupec odpovídá jedé třídě. Používáme je předeším u kvalitativích dat. Kruhový (výsečový) diagram (pie chart) je zázorěí pomocí výsečí kruhu, kde každé třídě odpovídá jeda výseč. Velikosti obsahů výsečí odpovídají četostem třídy. Stem-ad-Leaf diagram je uspořádáí dat do tabulky, kdy prví sloupec -stem=stoek odpovídá třídě a do řádku -leaf=list vypisujeme prvky třídy. Pokud tyto prvky uspořádáme podle velikosti mluvíme o uspořádaém diagramu. Krabicový ebo vrubový krabicový graf (box or whiskers plot) zázorňuje výzačé a extrémí hodoty souboru. 7.5. Příklad: Ze 7 možých výsledků jsme dostali datový soubor o 4 datech i 2 3 4 5 6 7 8 9 0 2 3 4 x i 2 3 2 5 2 7 4 5 4 2 5 Tab. 7.. Datům odpovídá tabulka četostí Tab. 7.2 a bodový graf a obrázku Obr. 7.. 9
třída 2 3 4 5 6 7 četost 3 4 2 3 0 4 3 2 2 3 4 5 6 7 i Tab. 7.2. Obr. 7.. Polygo četostí k Tab 7.2. Histogram četostí k Tab. 7.2. 4 3 2 4 3 2 2 3 4 5 6 7 i 2 3 4 5 6 7 i Obr. 7.2. Obr. 7.3. Sloupkový graf k tabulce Tab. 7.2. 4 3 2 2 3 4 5 6 7 i Obr. 7.4. Řada vlastostí datového souboru se dá vyčíst z tvaru histograu či polygou četostí. Ty odpovídají grafu hustoty u rozděleí pravděpodobosti áhodé veličiy. Rozlišuje se ěkolik charakteristických průběhů těchto grafů. - souměrý ve tvaru zvou, trojúhelíku či rovoměrý; - esouměré ve tvaru J, obráceého J, vpravo či vlevo protažeé; - podle počtu vrcholů jedo-, dvou-, či vícevrcholové (uimodal, bimodal, multimodal). 7.6. Charakteristiky (míry) polohy. Nejzámější a ejčastěji používaou charakteristkou polohy je aritmetický průměr hodot souboru. 20
Průměr (mea, sample mea) datového souboru {x, x 2,..., x } je defiová vztahem x = x k. Pokud jsou {z, z k,..., z m } růzé hodoty souboru s četostmi j, j =, 2,..., m, a s relativími četostmi p j, pak k= x = m j= z j j = m j= z j p j. Věta. Vlastosti průměru Pro průměr datového souboru platí:. Součet odchylek hodot souboru od průměru je rove ule, t.j. (x i x) = 0. 2. Přičteme-li k hodotám souboru kostatu a, pak průměr ového souboru {y i = x i + a} je y = (x i + a) = x + a. 3. Násobíme-li hodoty souboru číslem b, ásobí se průměr také b, eboť pro soubor {y i = bx i } je y = bx i = bx. Pokud soubor {x 0, x,..., x } tvoří data, která odpovídají časové řadě sledující tred vývoje, pak jako charakteristiku polohy používáme průměrý přírůstek. Zavádíme jej jako průměr y souboru {y i = x i x 0, i }. Je pak y = x (x i x 0 ) = (x x 0 ). Mediá (media). Průměr datového souboru je citlivý a hrubé chyby, kdy jeda chybá hodota může výrazě změit hodotu průměru. Proto ěkdy používáme robustích charakteristik, které jsou méě citlivé a zadáí chybé hodoty. Mezi ě patří mediá (media) x, který je pro datový soubor x, x 2,... x defiová vztahem x = 2 x (m), pro = 2m, ( ) x(m) + x (m+), pro = 2m. Hodoty mediáů pro dva růzé typy rozsahů souborů zázoríme a obrázcích. 2
liché, = 5 x = x 3 x x 2 x 3 x 4 x 5 sudé, = 6 x = (x 3 + x 4 )/2 x x 2 x 3 x 4 x 5 x 6 Obr. 7.5. mediá Obr. 7.6. mediá Používáme jej i v případech, kdy soubor obsahuje ěkterá extrémí data, tzv. odlehlá pozorováí. Ta se v hodotě mediáu výrazěji eprojeví a mediá tak lépe vystihuje průměr souboru. Další z robustích charakteristik je modus (mode) ˆx, který je defiová jako hodota souboru s ejvětší četostí, tedy ˆx = z j, j i, i m. Pozameejme, že modus emusí být jedozačě urče, může abývat ěkolika hodot. Používáme jej v případech, kdy ás zajímají špičkové hodoty souboru, apř. při sledováí dopraví zátěže v místě, počet cestujících v hromadé dopravě, spotřeba elektrické eergie během de a roku, či průtok řekou. Kvatily, kvartily, decily, percetily Pro podrobější popis rozděleí hodot datového souboru používáme kvatily (quatiles). Kvatil datového souboru rozděluje soubor a dvě části. V jedé jsou hodoty souboru, které jsou meší či ejvýše rovy kvatilu a ve druhé jsou hodoty větší ež kvatil. Defiujeme pro p, 0 < p <, p kvatil, resp. 00p%kvatil, (quatile) jako tu hodotu x 00p ze souboru {x, x 2,..., x }, pro kterou je přibližě 00p% hodot ze souboru meších a 00( p)% hodot je větších ež x 00p. Nejjemější používaé rozděleí souboru je pomocí percetilů (percetile) x, x 2,..., x 99. Často se využívají decily (deciles) x 0,..., x 90. Speciálí ázvy mají kvatily: - x 50 je mediá (media); - x 25 dolí kvartil (lower quartile); - x 75 horí kvartil (upper quartile). Jako mezikvartilové rozpětí IQR (iterquartile rage) se defiuje rozdíl IQR = x 75 x 25. Jsou-li x () x (2)... x () hodoty souboru uspořádaé podle 22
velikosti pak p kvatil, resp. 00p% kvatil určíme podle vzorce x 00p = x ([p]+), pokud p eí celé číslo, 2 (x (p) + x (p)+ ) pro p celé, kde [p] je celá část čísla, tedy celé číslo, které je ejbližší meší. Při větších rozdílech mezi jedotlivými daty používáme pro přesější vymezeí kvatilů lieárí aproximace mezi sousedími hodotami. Závěr modus sado se ajde, má ale miimálí vypovídací hodotu: mediá určuje střed souboru a je méě citlivý a chyby; průměr zohledňuje všechy hodoty, ale je citlivý a chyby. Usekuté průměry Je-li x () x (2)... x () uspořádaý výběr, pak pro číslo 0 < α < 0, 5 azýváme hodotu x α = 2[α] [α] i=[α]+ x (i) α-usekutým průměrem (alpha-trimmed mea). Hodotu x αw = [α] i=[α]+ ( [α]x([α]) + x (i) + [α]x ( [α]+) ) azýváme α-wisorizovaý průměr (α-wisored mea). Symbol [α] ozačuje ejvětší celé číslo k, pro které je k α. Jié průměrové charakteristiky polohy. Pro soubory kladých dat používáme také jié průměry. Jsou to: Geometrický průměr (geometric mea) x G, který je pro soubor x, x 2,..., x kladých dat defiová vztahem x G = x x 2... x. Takový charakter mají apř. hodoty, které zachycují časový vývoj, apř. v ekoomice růst produkce, či ce, přírůstek počtu obyvatel a pod. Je-li časový vývoj popsá hodotami souboru {x 0, x,..., x }, pak položíme z k = x k x k, k a hodoty z k vyjadřují poměrý přírůstek 23
během zvoleého úseku sledovaého období. Průměrý přírůstek za celé období je pak dá hodotou x z G = z.z 2... z =. x 0 Vlastosti geometrického průměru. Násobíme-li hodoty původího souboru číslem c, ásobí se týmž číslem i geometrický průměr. Pro logaritmus geometrického průměru platí: lx G = lx = Věta 2. Pro soubor s kladými daty je x G x lx i. a rovost astae jediě pro x = x 2 =... = x. Důkaz: Fukce f(x) = l x je kovexí a tedy pro x a h je Situaci zázoríme a obrázku f(x) f(h) + f (h)(x h). y y = y(x) + y (x)(x x) y = lx x x Obr. 7.7. Jestliže zvolíme x = x i a h = x, pak pro i platí erovice ( ) l x i l x + (x i x)f (x), i. Sečteím dostaeme erovici l x i l x + f (x) (x i x) = l x, 24
protože podle věty je tedy Dále je (x i x) = 0. l x G = l( x x 2... x ) = l x G l x x G x, l x i, eboť je fukce l x rostoucí. Rovost ve vztahu ( ) astae jediě pro x i = x, tedy pokud je x = x 2 =... = x. Harmoický průměr (harmoic mea) x H, který je pro soubor kladých dat defiová vztahem x H = x + x. 2 +... + x Pozámka: Využívá se tam, kde má vypovídací hodotu převráceá hodota k původí. Nejčastěji je to v případech, kdy hodota x i odpovídá době uté k provedeí ějakého pracovího úkou. Převráceá hodota pak uvádí, jaká část pracovího úkou je splěa za jedotku času. Věta 3. Pro soubor s kladými daty je x H x G x, přičmž rovost astae pouze pro x = x 2 =... = x. Důkaz: Z defiice harmoického průměru vyplývá vztah x H = což je aritmetický průměr souboru x H = x x 2 2... x x = i x i. { } x i. Podle věty 2 je ale Rovost platí pouze v případě, že x = x 2 =... = x. = x H x G. x x 2... x x G Kvadratický průměr (quadratic mea)x K je defiová vztahem x K = 25 x 2 i.
Věta 4. Je x x K a rovost platí pouze v případě, že x = x 2 =... x. Důkaz: Fukce f(x) = x 2 je kokáví a tedy je x 2 h 2 +f (h)(x h). Situace zázoríme a obrázku y y = y(x) + y (x)(x x) x y = x 2 x Obr. 7.8. Jestliže položíme x = x i a h = x, pak x 2 i (x) 2 + f (x)(x i x) x 2 i (x) 2 + f (x)(x i x) (x K ) 2 (x) 2 x K x. Rovost astae pouze pro x i = x, tedy pro x = x 2 =... = x. Věta 5. Pro soubory kladých dat je x () x H x G x x K x () a rovost astae pouze v případě, že x = x 2 =... = x. 7.7. Charakteristiky (míry) rozptýleosti. Rozpětí datového souboru (rage) je hodota R = x max x mi. Hodota se po uspořádáí souboru sado spočítá, ale její hodota je citlivá a zavlečeé chyby. Vychází pouze ze dvou hodot a igoruje iformaci z ostatích hodot souboru. V ěkterých případech proto používáme jako charakteristiku tohoto druhu hodotu x 90 x 0. Provedeme vlastě ořezáí souboru, když vyecháme hodoty meší ež x 0 a větší ež x 90, tedy 0% ejmeších a 0% ejvětších hodot.odstraíme tím vliv případých chybých hodot, které leží a hraicích souboru. Podobou charakteristikou je mezikvartilové rozpětí (iterquartile rage) IQR = x 75 x 25. 26
Středí kvadratická odchylka (MSD) (mea of squared deviatio) je průměr čtverců odchylek od průměru a je defiová vztahem s 2 = (x i x) 2. Rozptyl (dispersio, variace) je defiová vzrcem S 2 = MSD = (x i x) 2 a směrodatá odchylka (stadard deviatio) S je odmociou z rozptylu. Věta 6. Vlastosti rozptylu a MSD a vzorce pro výpočet.. Je ( )S 2 = (x i x) 2 = x 2 i 2x x i + (x) 2 = = S 2 = x 2 i 2x x i + x x i = x 2 i (x) 2 x 2 i (x) 2, s 2 = x 2 (x) 2. 2. Je-li y i = bx i + a, i, pak s 2 y = b 2 s 2 x, s y = b s x ; S 2 y = b 2 S 2 x, S y = b S x Věta 7. Fukce S(α) = (x i α) 2 abývá svého miima s 2 pro α = x. Důkaz: Je S (α) = 2(x i α)( ) = 0 (x i α) = 0 x = α. Pro soubory, které obsahují velké možství dat je výhodější charakteristiky polohy a rozpětí odhadovat. Uvedeme ěkteré jedoduché odhady a o dalších pojedáme později. Pomocé tvrzeí (Cauchyova erovost): Pro tice čísel (a, a 2,..., a k ) a (b, b 2,..., b k ) je k a i b i 2 k a 2 k i b 2 i. 27
Jestliže iterpretujeme tice čísel jako aritmetické vektory v R k, pak lze uvedeou erovici přepsat do tvaru ( a. b) 2 a 2. b 2. Ta ale platí, eboť skalárí souči dvou vektorů je rove a. b = a. b. cos ( a, b). Protože je fukce kosius omezeá v absolutí hodotě jedičkou, uvedeá erovice platí. Ve vztahu platí rovost pouze v případě, že je kosius úhlu ulový a to astae, je-li b = α a, t.j. b i = αa i, i. Věta 8. Pro soubor x i, i platí max{ x i x ; i } s. Důkaz: Položme v tvrzeí pomocé věty a = (x x,..., x i x, x i+ x,..., x x) a b = (,,..., ). Potom je j i(x j x) Protože je 2 ( ) j i(x j x) 2 = ( ) j= j x) = 0 (x i x) = j=(x (x j x) j i tak z předchozí erovice vyplývá, že (x j x) 2 (x i x) 2 (x i x) 2 ( ) (x j x) 2 ( )(x i x) 2 (x i x) 2 j= j= (x j x) 2 = ( )s 2 =. ( )2 S 2 ( )S 2. Odmocěím získáme dokazovaou erovici. Tato erovice platí pro všechy hodoty idexu i, i, platí tedy i pro tu kde abývá fukce maximuma. Věta 9. Pro rozpětí souboru platí s 2 R2 4, S2 R2 4( ) tedy S R 2. 28
Důkaz: Ozačme m = 2 (x () + x () ). Je tedy x i m R 2, i. Fukce S(α) z věty 7 abývá svého miima pro α = x a tedy je s 2 = S(x) S(m) = (x i m) 2 R2 4. Ze vztahu S 2 = s2 dostaeme uvedeý odhad. Průměrá odchylka (mea of absolute deviatio) d a od bodu a je pro soubor dat x i defiováa vztahem d a = x i a. Nejčastěji se používá průměrá odchylka od aritmetického průměru x ebo mediáu x. K tomu ás vede ásledující vlastost. Věta 0. Fukce d a abývá svého miima pro mediá a = x. Důkaz: Je-li a < x (), pak je d a = (x i a) = x a, tedy d (a) = a tudíž je fukce d a klesající v itervalu (, x () ). Obdobě pro a > x () je d a = a x, tedy d (a) = a tudíž je fukce d a rostoucí v itervalu (x (), ). Nechť je x (j) < a < x (j+) pro ějaké j. Potom je Je tedy d a = x (i) ) + (a i=j+ (x (i) a). d (a) = 2j (j + ( j)( )) =. Derivace fukce d a je záporá a tedy fukce je klesající pro 2j < 0 a je kladá, tedy fukce je rostoucí, pro 2j > 0. Je-li = 2m + liché číslo, pak 2j < = 2m + j < m +, tedy fukce d a je klesající v itervalu (, x (m+) ) a 2j > 2m + j > m +, je tedy fukce d a rostoucí v itervalu (a (m+), ). Nabývá tedy svého miima v bodě x (m+) což je mediá x. Je-li = 2m sudé číslo, pak má fukce d a derivaci ulovou a tedy je kostatí v itervalu (x (m), x (m+) ). Hodota v tomto itervalu je její miimum a střed itervalu je mediá x. Situaci pro rozsahy,2 a 3 zázoríme a obrázcích, a kterých je patrá idea důkazu. 29
y x d a a y x x 2 d a a y Obr.7.9 Obr. 7.0 x x 2 x 3 d a a Obr.7. Pokud používáme jako charakteristiku polohy mediá x = x 0,5, pak místo směrodaté odchylky s používáme jako charakteristiku rozptylu mezikvartilové rozpětí IQR = x 0,75 x 0,25. V tomto itervalu leží 50% hodot souboru. Omezujeme tím vliv případých extrémích hodot, které mohou být zatížeé chybou. Pětičíselá charakteristika (five-umber summary)souboru je pětice čísel x mi, x 25, x 50, x 75, x max, a které jsou založey krabicové grafy. Relativí variabilita Můžeme také používat charakteristiky relativí variability, které jsou defiováy jako poměr směrodaté odchylky a ěkterého průměru. Nejčastěji se používá variačí koeficiet, který je defiová vztahem V = s x. Určuje ám jakou částí se podílí směrodatá odchylka a aritmetickém průměru dat. Je-li V > 0, 5 pak se jedá o esourodý soubor. Variačí 30
koeficiet má tyto vlastosti, které pro jedoduchost budeme uvažovat pro kladá data. Věta. Ozačme x soubor dat {x i }, i, bx = {bx i }, b > 0 a x ± a = {x i ± a}, a > 0. Potom pro variačí koeficiet V platí: a) V (bx) = V (x); b) V (x + a) < V (x); c) V (x + a) < V (x) < V (x a), 0 < a < x. Pozameejme, že s(bx) = bs(x), s(x + a) = s(x) a bx = bx, x + a = x + a. Odtud dostaeme, že V (bx) = s(bx) bx Dále je s(x + a) V (x + a) = x + a a obdobě pro 0 < a < x je V (x a) = s(x a) x a = bs(x) bx = V (x). = s(x) x + a < s(x) x = s(x) x a > s(x) x = V (x) = V (x). Jako aproximace se používá relativí kvartilová odchylka Q r je defiováa vztahem Q r = x 0,75 x 0,25 x 0,75 + x 0,25 Jié charakteristiky Koeficiet šikmosti (skewess) A 3 = s 3 a koeficiet špičatosti (kurtosis) A 4 = s 4 (x i x) 3 (x i x) 4 3 Pro data, která jsou rozložea symetricky kolem hodoty x je A 3 = 0. Hodoty A 3 blízké ule odpovídají rozděleí, které se blíží symetrickému. Je-li A 3 > 0, pak je rozložeí dat sešikmeé vpravo, meší hodoty ež průměr x jsou k ěmu více ahuštěy ež hodoty větší. Pro A 3 < 0 je 3
rozděleí sešikmeé vlevo, větší hodoty jsou více ahuštěy k průměru ež hodoty ižší. Je-li A 4 blízké ule, říkáme, že jedá o soubor s ormálí špičatostí. Při A 4 < 0 mluvíme o souborech plochých a při A 4 > 0 mluvíme o souborech špičatých. Příklad: Uvedeme výpočty uváděých charakteristik pro soubor dat z tabulky Tab. 7.. Je x = 4 44 = 3, 43, R = 7 = 6 a s2 = 3, 565, s =, 875. Pro kvatily dostaeme: x 0 = x 2 =, x 90 = x 3 = 5, x 25 = x 4 = 2, x 50 = x 3 = 5, x 75 = x = 5. Mezikvartilové rozpětí IQR = x 75 x 25 = 5 2 = 3. Variačí koeficiet V = s, 875 = = 0, 597. x 3, 43 Sheppardovy korekce V případě výpočtů číselých charkteristik ze setříděého souboru opravujeme ěkteré výběrové momety, abychom potlačili vliv chyb, které vzikou při ahrazeí dat průměrem příslušé třídy. Ozačme: {x, x 2,..., x } původí datový soubor; {z, z 2,..., z k } setříděý soubor; j, j k absolutí četost j té třídy; p j = j, j k relativí četost j té třídy; h rozpětí třídy. Výběrové momety původího souboru M r = M r = x r i, r tý obecý momet; (x i x) r, r tý cetrálí momet; x = M = x i ; Výběrové momety setříděého souboru 32
m r = m r = k j= k j= z r j j = k j= Opraveé hodoty M = m = x; z r j p j, r tý obecý momet; (z j x) r j = k (z j x) r p j, r tý cetrálí momet; j= M 2 = m 2 h2 2, M 2 = m 2 h2 2 ; M 3 = m 3 h2 4 m, M 3 = m 3 ; M 4 = m 4 h2 2 m 2 + 7h4 240, M 4 = m 4 h2 2 m 2 + 7h4 240. 7.9. Písmekové charakteristiky V ěkterých aplikacích se používají ozačeí charakteristik polohy a variability pomocí písme. Ozačujeme tak kvatily, které mají po řadě hodoty p = 2 a ěkteré veličiy, které charakterizují rozptýleí hodot souboru. M mediá x = x 0,5, tedy 0, 5 kvatil; F kvartily; F D dolí kvartil x 0,25 ; F H horí kvartil x 0,75 ; E oktily; E D dolí oktil, kvatil x /8 ; E H horí oktil, kvatil x 7/8 ; D sedecily; D D dolí sedecil, kvatil x /6 ; D H horí sedecil, kvatil x 5/6. R F = F H F D = IQR je mezikvartilové rozpětí. B D, B H vitří hradby souboru, kde B D = F D, 5R F, B H = F H +, 5R F. Pozameejme, že pro ormovaé ormálí rozděleí N(0; ) je B H B D 4, 2 a P (X < B D X > B H ) =. 0, 04. (I D, I H ) iterval spolehlivosti pro mediá, kde I D = M,57R F a I H = M +,57R F, přičemž je počet prvků v souboru. 7.0. Grafická zázorěí I. Graf dat x () B D F D M F H B H x () 33
Obr. 7.2 II. Krabicový graf Šířku obdélíka volíme úměrou hodotě x () B D B H x () M F D F H Obr. 7.3 III. Vrubový krabicový graf hodotě Šířku obdélíka volíme úměrou x () B D B H x () M F D I D I H F H Obr. 7.4 Krabicové grafy jsou vhodé pro porváí dvojice souborů, kdy případé rozdíly jsou okamžitě patré z rozměrů krabic. IV. Histogram V. Graf polosum k testováí symetrie. Na osu x vyášíme hodoty x(i) a a osu y hodoty polosum y i = 2 (x (i) + x (+ i) ). Pro symetrické rozděleí leží body kolem přímky y = M. VI. Kvatil=kvatilový Q Q graf je grafem kvatilové fukce. Na osu x vyášíme hodoty P i kvatilů Q(P i ), P i = i + a a osu y hodoty y = x (i). VII. Pravděpodobostí P P graf je grafem distribučí fukce. Na osu x vyášíme hodoty x (i) a a osu y hodoty P i = i +. Oba grafy slouží k testováí shody rozděleí, kde porováváme průběhy pro dva soubory. Používáme je ve dvojici, kdy využíváme toho, že 34
Q Q graf je citlivější a chyby v okrajových datech souboru a P P graf je aopak citlivý a chyby v okolí mediáu. VIII. Rakitový graf je kvatilový Q Q graf, ve kterém porováváme rozděleí s ormálím rozděleím. Na osu x vyášíme P i kvatil x Pi ormálího rozděleí a a osu y hodoty y = x(i). Parametry příslušéo ormálího rozděleí odhademe pomocí hodot ˆµ = M, ˆσ = 3 4 (F H F D ). Odpovídající kvatily určíme pomocí vzorců ( ) ( x(i) ˆµ U i = Φ, x Pi = Φ ˆσ 2 (U i + U i+ ) V případě ormálího rozděleí leží body a přímce. ), U 0 = 0, U + =. 7.. Vícerozměré soubory Sledujeme-li dva zaky, pak soubor dat má charakter uspořádaých dvojic {(x i, y i ), i }. Prví otázkou, kterou obvykle řešíme je popis závislosti prvího a druhého zaku. Jako charakteristiku polohy volíme dvojici (x, y). Za charakteristiku variability obvykle volíme směrodaté odchylky s x, s y. Jako míru statistické závislosti volíme koeficiet korelace. 7.2. Koeficiet korelace (covariace, coefficiet of variatio) r xy dvou souborů {x i } a {y i }, i je defiová vztahem r xy = (x i x)(y i y) s x.s y Vlastosti ( koeficietu korelace ) a) r xy = ( x iy i ) xy /(s x.s y ); b) r xy = r yx ; r xx = ; c) r xy ; d) pro y i = ax i + b je r xy = sga. e) r xy = ± y = ax + b. Důkaz: a) Pro čitatel zlomku dostaeme (x i x)(y i y) = (x i y i x i y xy i + xy) = (x i y i xy). 35
Odtud dostaeme odvozovaý vzorec. b) Tvrzeí jsou zřejmá. c) Z Cauchyovy erovosti dostaeme (x i x)(y i y) 2 (x i x) 2. (y i y) 2 = 2 s 2 x.s 2 y a odtud plye příslušé tvrzeí. d) Pro soubor y = ax + b je podle: s y = a s x a y = ax + b. Dále je x i y i = x i (ax i + b) = a x i y i + bx. Je tedy r xy = ( a (x i) 2 (x) 2 a s x.s x ) + bx bx = a a = sga. Druhá část tvrzeí plye z Cauchyovy erovosti, kde rovost astává pouze v případě, že y i y = a(x i x), tedy pro y i = ax i + b. Vztah ve dvojici (x i, y i ), který jsme použili lze jedoduše graficky zázorit. Do roviy vyeseme body o souřadicích (x i x, y i y). Závislost podobá lieárí závislosti y = ax+b se projeví tak, že kladé hodotě x bude odpovídat kladá hodota y a záporé hodotě x záporá hodota y pro a > 0. V obrázku je to oblast I, která odpovídá kladým hodotám čitatele ve vzorci pro koeficiet korelace. Čím budou body bliže přímce y = ax, tím bude hodota r xy blíže. Pro a < 0 bude závislost opačá, body ležet v oblasti II a hodota bude bližší. V případě ezávislosti hodot x a y budou body rozmístěy rovoměrě v obou částech I i II a hodota koeficietu korelace bude blízká ule, záporé a kladé hodoty v součtu se vyrovají. II y I I II x Obr. 7.5 36