Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.
Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího znaku je dána účelem třídění. Dle počtu třídících znaků rozeznáváme třídění jednostupňové, dvoustupňové, či vícestupňové. Jde-li o třídění kategoriálního znaku, nebo jedná-li se o numerický znak s malým počtem hodnot, lze provádět tzv. třídění prosté. Je-li třídícím znakem numerická proměnná s velkým počtem hodnot, pak je vhodnější provádět intervalové třídění. S tímto souvisí otázka volby počtu intervalů.
Volba vhodného počtu intervalů Volba počtu intervalů je velmi důležitá, ale neexistuje žádné obecné doporučení pro jejich určení. Pokud je intervalů příliš mnoho, jsou většinou příliš krátké a informace obsažené v nich jsou nepřehledné. Pokud je jich naopak málo, pak jsou do stejného intervalu zařazeny zcela odlišné statistické jednotky. může být Stur- Vodítkem pro určení počtu intervalů (k) gesovo pravidlo. To je definováno takto: k = 1 + 3, 3log 10 n (1)
Četnosti V některých případech je vhodné charakterizovat statistický soubor prostřednictvím tzv. četností. Zpravidla rozeznáváme několik druhů četností. Absolutní četnost zpravidla ji značíme prostřednictvím symbolu n i a udává kolikrát se hodnota x i znaku X vyskytuje v souboru. Relativní četnost p i udává, v jak velké části souboru je hodnota znaku X rovna x i Kumulativní absolutní četnost k ni udává počet statistických jednotek, u nichž byla hodnota statistického znaku X x i tj. k ni = n 1 + n 2 +... + n i
Četnosti Kumulativní relativní četnost K Pi udává jaká část souboru vykazovala hodnoty X x i tj. k pi = p 1 + p 2 +... + p i Relativní a kumulativní četnosti se počítají pouze pokud mají smysl. Při určování mezí je třeba volit meze tak, aby nedocházelo k nejasnostem, tj. abychom mohli každou hodnotu jednoznačně zařadit do určitého intervalu.
Řádný termín 2005 Body n i p i k ni k pi 0 27 19,424 27 19,424 0,5 11 7,914 38 27,338 1 20 14,388 58 41,727 1,5 15 10,791 73 52,518 2 14 10,072 87 62,590 2,5 11 7,914 98 70,504 3 22 15,827 120 86,331 3,5 8 5,755 128 92,086 4 7 5,036 135 97,122 4,5 3 2,158 138 99,281 5 1 0,719 139 100,000 5,5 0 0,000 139 100,000 6 0 0,000 139 100,000 Celkem 139 100,000
Základní charakteristiky souboru Pro lepší představu používáme k popisu vlastností zkoumaného jevu určité charakteristiky - statistiky. Statistikami zde rozumíme jistá čísla, která jsou nositeli důležitých informací o zkoumaných jevech. Způsob zjišt ování těchto statistik (charakteristik) je jednoznačně dán.
Míry polohy Mezi základní míry polohy patří maximum a minimum. Pro veličinu v měřítku alespoň ordinálním, lze vytvořit uspořádaný soubor z původního neuspořádaného souboru o velikosti n takto: x (1) x (2) x (l) x (n). Pak lze snadno zjistit minimum x min či maximum x max : x min = x (1) x max = x (n) (2)
Míry polohy charakterizují obecnou úroveň (polohu) hodnot statistického znaku. Tyto statistiky lze dělit na průměry a ostatní střední hodnoty. První a nejčastěji používanou charakteristikou je prostý aritmetický průměr. Ten je definován takto: x = 1 n jeho vážená varianta pak jako: n i=1 x i, (3) x = 1 n k i=1 x i n i. (4) Existují i další míry polohy, řadící se mezi průměry, jsou to především harmonický, geometrický nebo kvadratický průměr.
Co je to kvantil? Velmi důležitým pojmem ve statistické teorii je pojem kvantilu. Lze jej definovat takto: α100%-ním kvantilem x α statistického znaku X, je takové vhodně zvolené číslo, pro které platí, že α100% hodnot znaku je menších nebo rovno hodnotě x α a (1 α)100% hodnot znaku je větších nebo rovno tomuto číslu. Mezi nejpoužívanější kvantily patří: dolní kvartil x 25, medián x 50 a horní kvartil x 75. Tyto tři kvantily rozdělují uspořádanou řadu dat na zhruba čtyři části s přibližně stejnými rozsahy. Ve statistické praxi se lze setkat i s decily nebo percentily.
Ostatní střední hodnoty Při charakterizování polohy souboru je někdy vhodné využít tzv. medián, který udává prostřední hodnotu souboru. Jde o robustní charakteristiku. V uspořádaném souboru x (1) x (2) x (l) x (n) musí počet menších nebo stejných hodnot jako medián činit alespoň tolik, jako počet hodnot větších či stejných jako medián. Použití mediánu přichází v úvahu již u ordinální stupnice. Medián lze definovat takto: x 50 = x ( n+1 2 ) liché n, 1 2 (x ( n 2 ) + x ( n 2 +1)) sudé n. (5)
Modus Modem souboru je hodnota ˆx, která se v souboru nejčastěji opakuje, tj. má největší četnost. Lze rozeznávat unimodální, bimodální a multimodální soubory. Pokud je soubor intervalově třídění, pak nelze určit modus přesně. Přibližnou hodnotu modu určíme podle vzorce nˆx+1 nˆx 1 ˆx = x S + h, (6) 22nˆx nˆx+1 nˆx 1 kde nˆx 1 a nˆx+1 jsou četnosti intervalu který předchází, resp. následuje za modálním intervalem. Délka a četnost modálního intervalu je označena po řadě symboly h a nˆx. Střed modálního intervalu je označen symbolem x S.
Malá poznámka Pro získání základní představy o rozložení studovaného souboru zpravidla stačí uvést x, ˆx, x 25, x 75 a hodnotu max a min. V případě multimodálního rozdělení uvádíme i jednotlivá maxima souboru. Hodnota modu je značně ovlivněna variabilitou znaku a to zejména u menších výběrů. U jednovrcholových rozdělení platí přibližně vztah ˆx = 3 x 50 2 x. (7)
Míry variability Další důležitou vlastností, je variabilita dat. Míry variability určitým způsobem charakterizují proměnlivost hodnot. Míry variability jsou v podstatě dvojího typu. První z nich se počítají pouze z některých hodnot. Druhá skupina vychází naopak ze všech hodnot, obsažených ve studovaném souboru. Nejjednodušší mírou variability je rozpětí. Jde o první typ měr variability. R = x max x min (8)
Míry variability Další mírou variability je mezikvartilové rozpětí. Je definováno jako rozdíl mezi horním a dolním kvartilem tj.: IQR = x 75 x 25. (9) Takto definované rozpětí vychází z cca 50% typických znaků sledovaného souboru.
Rozptyl Je jednou z nejdůležitějších charakteristik variability dat. Rozptyl je definován jako aritmetický průměr čtverců odchylek od aritmetického průměru. Z hlediska jeho konstrukce rozeznáváme následující rozptyly: s 2 p = 1 n n i=1(x i x) 2 s 2 p = 1 n k i=1 (x i x) 2 n i s 2 v = 1 n 1 n i=1 (x i x) 2 s 2 v = 1 n 1 k i=1 (x i x) 2 n i
Směrodatná odchylka Vzhledem k tomu, že je rozptyl špatně interpretovatelný, používá se při charakterizování rozptýlenosti dat spíše směrodatná odchylka. Ta je definována jako druhá odmocnina rozptylu, tj.: σ = σ 2 (10) a výběrová směrodatná odchylka s = s 2. (11)
Variační koeficient Je relativní mírou variability. Používáme jej při porovnávání variability statistických znaků, které se liší z hlediska míry polohy nebo mají odlišné měrné jednotky. Variační koeficient udává z kolika procent se podíĺı směrodatná odchylka na aritmetickém průměru. V X = s x. (12) Hodnotu V X vyjadřujeme nejčastěji v procentech.
Míry šikmosti a špičatosti Šikmost vyjadřuje symetričnost sledovaného rozdělení kolem průměrné hodnoty. Je-li pozorováno více malých hodnot v porovnání s vysokými hodnotami, pak je šikmost kladná. Je-li naopak převaha vysokých hodnot v porovnání s malými hodnotami, tj. po znázornění histogramu má rozdělení souboru protáhlý levý konec, je šikmost záporná. Špičatost představuje relativní strmost či plochost rozdělení četností v porovnání s normálním rozdělením četností. Kladná špičatost znamená, že se ve sledovaném souboru vyskytují spíše data koncentrovaná kolem střední hodnoty. Tyto charakteristiky lze určit prostřednictvím třetího a čtvrtého centrálního momentu.