Deskriptiví statistika 1 1 Tyto materiály byly vytvořey za pomoci gratu FRVŠ číslo 1145/2004.
Základí charakteristiky souboru Pro lepší představu používáme k popisu vlastostí zkoumaého jevu určité charakteristiky - statistiky. Statistikami zde rozumíme jistá čísla, která jsou ositeli důležitých iformací o zkoumaých jevech. Způsob jejich zjišt ováí je jedozačě dá. Pro veličiu v měřítku alespoň ordiálím, lze vytvořit uspořádaý soubor z původího euspořádaého souboru o velikosti takto: x (1) x (2) x (l) x (). Pak lze sado zjistit maximum či miimum Miimum: x mi = x (1) (1) Maximum: Charakteristiky polohy - úrově x max = x () (2) Míry polohy charakterizují obecou úroveň (polohu) hodot statistického zaku. Tyto statistiky lze dělit a průměry a ostatí středí hodoty. Prví a ejčastěji používaou charakteristikou je všeobecě zámý aritmetický průměr. Te je defiová takto: x = 1 x i, (3) jeho vážeá variata x = 1 k x i i, (4) kde i jsou absolutí četosti v jedotlivých k třídách. Jedotlivé hodoty x i, jsou bud hodoty zaku (v případě prostého tříděí) ebo středy itervalů (v případě itervalového tříděí). Další míry polohy, řadící se mezi průměry, jsou harmoický a geometrický průměr. Ty jsou defiováy po řadě takto: x H = 1 x i (5) x G = x i. (6) Další charakteristikou je apř. kvadratický průměr defiovaý jako x K = 1 x 2 i. (7) 1
Kvatil Velmi důležitým pojmem ve statistické teorii je pojem kvatilu. Je defiová ásledově: 100P %-ím kvatilem x P statistického zaku X je takové vhodě zvoleé číslo, pro které platí že 100P % hodot zaku je meších ež x P a 100(1 P )% hodot zaku je větších ež toto číslo. Mezi ejpoužívaější kvatily patří: dolí kvartil x 25, mediá x 50 a horí kvartil x 75. Tyto tři kvatily rozdělují uspořádaou řadu dat a zhruba čtyři části s přibližě stejými rozsahy. Ve statistické praxi se lze setkat i s decily ebo percetily. Ostatí středí hodoty Při charakterizováí souboru se ěkdy s výhodou používá tzv. mediá, který udává prostředí hodotu souboru. Jde o tzv. robustí charakteristiku. V uspořádaém souboru x (1) x (2) x (l) x () musí počet meších ebo stejých hodot jako mediá čiit alespoň tolik, jako počet hodot větších či stejých jako mediá. Použití mediáu přichází v úvahu již u ordiálí stupice. Mediá lze defiovat takto: x 50 = { x( +1 2 ) liché, 1 2 (x ( 2 ) + x ( 2 +1) ) sudé. V případě itervalového tříděí dat elze staovit mediá přesě. V takovém případě lze s jistotou staovit pouze mediáový iterval, tj. iterval ve kterém mediá leží. Hodotu mediáu pak staovíme lieárí iterpolací. (8) x 50 = x 0 + +1 2 j 1 i j h, (9) kde x 0 je dolí mez mediáového itervalu, j je četost mediáového itervalu, h délka mediáového itervalu a j 1 i je kumulativí četost itervalů, předcházející mediáový iterval. Modem souboru je hodota ˆx, která se v souboru ejčastěji opakuje, tj. má ejvětší četost. Z tohoto hlediska lze rozezávat uimodálí, bimodálí a multimodálí soubory. Pokud je soubor itervalově třídě, pak elze určit modus přesě. Přesě lze staovit pouze modálí, tj. ejčetější iterval. Přibližou hodotu modu uřčíme v tomto případě dle vzorce ˆx = ˆx 0 + h 2 1 1 2 0 1 1, (10) kde 1 a 1 jsou četosti itervalu který předchází resp. ásleduje za modálím itervalem. Délka a četost modálího itervalu je ozačea po řadě symboly h a 0. Sřed modálího itervalu je ozače symbolem ˆx 0. Pro získáí základí představy o rozložeí studovaého souboru zpravidla stačí uvést x, ˆx, x 25, x 75 a hodotu max a mi, v případě multimodálího rozděleí pak i jedotlivá maxima souboru. Pro úplost lze dodat, že hodota modu je 2
začě ovlivěa variabilitou zaku a to zejméa při meších rozsazích výběrů. U jedovrcholových rozděleí platí přibližě vztah Průměrá chyba ˆx = 3 x 50 2 x. (11) Průměrá chyba byla zavedea jako protiklad směrodaté odchylky a základě přesvědčeí, že je vhodější měřit variabilitu hodot a základě aritmetického průměru odchylek spíše ež a základě kvadratického průměru. Průměrá chyba d vypočteá z řady hodot x 1, x 2,, x je defiováa jako d = x i x. (12) Míry variability Další důležitou vlastostí, kterou je třeba umět charakterizovat, je variabilita dat. Míry variability určitým způsobem charakterizují promělivost hodot. Míry variability jsou v podstatě dvojího typu. Prví z ich se počítají pouze z ěkterých hodot Druhá skupia aopak vychází ze všech hodot obsažeých ve studovaém souboru. -20 0 10 30 47 26 37 7 14 46 12 3 16 18 25 36 2915 5 31 39 8 4 11 26 9 19 20 30 32 23 1 22 35 38 4241 43 44 45 48 24 17 13 10 27 40 34 28 2149 33 50-10 -5 0 5 10 15 x -20 0 10 30 21 49 33 17 27 10 28 24 13 30 8 32 34 20 48 1 6 4 19 43 23 2 5 9 22 41 42 45 35 31 11 29 15 25 3 12 16 39 18 14 46 36 7 47 26 50 40 38 44 37-4 -2 0 2 4 x -20 0 10 30 33 50 21 49 28 13 24 2710 40 8 32 17 34 42 20 30 45 41 9 11 48 43 64 23 35 44 38 19 31 5 1 2 22 15 3 1629 39 12 14 36 25 37 46 18 7 26 47-3 -2-1 0 1 2 x 3
Rozpětí Je ejjedodušší mírou variability. Jde o prví typ měr variability. Kvartilové rozpětí R = x max x mi (13) Je defiováo jako rozdíl mezi horím a dolím kvartilem tj.: R q = x 75 x 25. (14) Takto defiovaé rozpětí vychází z cca 50% typických zaků sledovaého souboru. Rozptyl Je jedou z ejdůležitějších charakteristik variability dat. Je defiová jako aritmetický průměr čtverců odchylek od aritmetického průměru. Z hlediska jeho kostrukce pozezáváme rozptyl prostý a vážeý. Dále rozptyl prostý výběrový a rozptyl vážeý výběrový. σ 2 = 1 N N (x i µ) 2 (15) Směrodatá odchylka σ 2 = 1 N k (x i µ) 2 i (16) s 2 = 1 1 σ 2 = 1 1 (x i x) 2 (17) k (x i x) 2 i (18) Vzhledem k tomu, že je rozptyl špatě iterpretovatelý, používá se při charakterizováí rozptýleosti dat spíše směrodatá odchylka. Ta je defiováa jako druhá odmocia rozptylu, tj.: a výběrová směrodatá odchylka σ = σ 2 (19) s = s 2. (20) 4
Variačí koeficiet Je relativí mírou variability a vyjadřuje se ejčastěji v procetech. Používáme jej při porováváí variability statistických zaků které se liší z hlediska míry polohy ebo mají odlišé měré jedotky. Variačí koeficiet udává z kolika procet se podílí směrodatá odchylka a aritmetickém průměru. V X = σ µ. (21) Obdobě pak i pro výběrovou formu variačího koeficietu jako V X = s x. (22) Etropie U veliči s omiálím měřítkem elze použít klasických charakteristik k posouzeí variability dat. V takovém případě lze použít apříklad tzv. etropii defiovaou vzorcem m i H = l i. (23) Etropie dosahuje vysokých hodot, pokud jsme apozorovali moho růzých hodot (maximálích hodot pak, pokud jsme pozorovali m růzých hodot a četosti jsou pro jedotlivé kategorie stejé). Naopak ulové hodoty abývá etropie v případě, že 1 =, tj. všecha pozorováí jsou stejá, eí mezi imi žádá variabilita. Míry šikmosti a špičatosti Šikmost Pokud pozorovaá data zormalizujeme tj. provedeme jejich trasformaci tak, že mají ulovou středí hodotu a rozptyl rový jedé, pak je lze využít k výpočtu třetího a čtvrtého cetrálího mometu. Ty se azývají šikmosti a špičatostí. ( ) 3 xi µ (24) µ 3 = 1 z 3 i = 1 σ Šikmost vyjadřuje symetričost sledovaého rozděleí kolem průměré hodoty. Je-li pozorováo více malých hodot v porováí s vysokými hodotami, pak je šikmost kladá. Je-li aopak převaha vysokých hodot v porováí s malými hodotami, tj. po zázorěí histogramu má rozděleí souboru protáhlý levý koec, je šikmost záporá. Špičatost Jde o čtvrtý cetrálí momet. Tato statistika představuje relativí strmost či plochost rozděleí četostí v porováí s ormálím rozděleím četostí. 5
Kladá špičatost zameá, že se ve sledovaém souboru vyskytují spíše data kocetrovaá kolem středí hodoty. ( ) 4 xi µ (25) µ 4 = 1 z 4 i = 1 σ Šičatost je občas defiováa růzě. Například MS Excel ji počítá ásledově: { } ( + 1) z 4 3( 1)2 i ( 1)( 2)( 3) ( 2)( 3). (26) 6