veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.



Podobné dokumenty
Statistika pro geografy

Základní statistické charakteristiky

Číselné charakteristiky

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Deskriptivní statistika 1

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Metodologie pro ISK II

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

STATISTICKÉ CHARAKTERISTIKY

Základy popisné statistiky

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Číselné charakteristiky a jejich výpočet

Charakteristika datového souboru

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Zápočtová práce STATISTIKA I

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

MATEMATIKA III V PŘÍKLADECH

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Praktická statistika. Petr Ponížil Eva Kutálková

Informační technologie a statistika 1

Základní pojmy a cíle statistiky 1

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Metodologie pro Informační studia a knihovnictví 2


Mnohorozměrná statistická data

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Metodologie pro Informační studia a knihovnictví 2

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Popisná statistika. Statistika pro sociology

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Analýza dat na PC I.

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Aplikovaná statistika v R

Renáta Bednárová STATISTIKA PRO EKONOMY

Základy popisné statistiky

Jevy a náhodná veličina

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Základy pravděpodobnosti a statistiky. Popisná statistika

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistika I (KMI/PSTAT)

Základy biostatistiky

Pravděpodobnost a statistika

Základní statistické pojmy

Popisná statistika kvantitativní veličiny

Deskriptivní statistika (kategorizované proměnné)

Předmět studia: Ekonomická statistika a analytické metody I, II

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

TECHNICKÁ UNIVERZITA V LIBERCI

Mnohorozměrná statistická data

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Cvičení ze statistiky. Filip Děchtěrenko ZS 2012/2013

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

23. Matematická statistika

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Statistika pro gymnázia

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

Statistická analýza dat v psychologii

Statistika - charakteristiky variability

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Kontingenční tabulky v Excelu. Představení programu Statistica

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

Popisná statistika. Komentované řešení pomocí MS Excel

Příloha podrobný výklad vybraných pojmů

Náhodná veličina a rozdělení pravděpodobnosti

Škály podle informace v datech:

UKAZATELÉ VARIABILITY

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Tomáš Karel LS 2012/2013

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Obecné momenty prosté tvary

EXPLORATORNÍ ANALÝZA DAT. 7. cvičení

Nejčastější chyby v explorační analýze

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

JAK MODELOVAT VÝSLEDKY NÁH. POKUSŮ? Martina Litschmannová

Základní analýza dat. Úvod

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PRAVDĚPODOBNOST A STATISTIKA

Deskriptivní statistika (kategorizované proměnné)

VNITROSKUPINOVÝ ROZPTYL. Je mírou variability uvnitř skupin Jiný název: průměr rozptylů Vypočítává se jako průměr rozptylů v jednotlivých skupinách

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Transkript:

Vybraná rozdělení spojitých náhodných veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Třídění Základním zpracováním dat je jejich třídění. Jde o uspořádání získaných dat, kde volba třídícího znaku je dána účelem třídění. Dle počtu třídících znaků rozeznáváme třídění jednostupňové, dvoustupňové, či vícestupňové. Jde-li o třídění kategoriálního znaku, nebo jedná-li se o numerický znak s malým počtem hodnot, lze provádět tzv. třídění prosté. Je-li třídícím znakem numerická proměnná s velkým počtem hodnot, pak je vhodnější provádět intervalové třídění. S tímto souvisí otázka volby počtu intervalů.

Volba vhodného počtu intervalů Volba počtu intervalů je velmi důležitá, ale neexistuje žádné obecné doporučení pro jejich určení. Pokud je intervalů příliš mnoho, jsou většinou příliš krátké a informace obsažené v nich jsou nepřehledné. Pokud je jich naopak málo, pak jsou do stejného intervalu zařazeny zcela odlišné statistické jednotky. může být Stur- Vodítkem pro určení počtu intervalů (k) gesovo pravidlo. To je definováno takto: k = 1 + 3, 3log 10 n (1)

Četnosti V některých případech je vhodné charakterizovat statistický soubor prostřednictvím tzv. četností. Zpravidla rozeznáváme několik druhů četností. Absolutní četnost zpravidla ji značíme prostřednictvím symbolu n i a udává kolikrát se hodnota x i znaku X vyskytuje v souboru. Relativní četnost p i udává, v jak velké části souboru je hodnota znaku X rovna x i Kumulativní absolutní četnost k ni udává počet statistických jednotek, u nichž byla hodnota statistického znaku X x i tj. k ni = n 1 + n 2 +... + n i

Četnosti Kumulativní relativní četnost K Pi udává jaká část souboru vykazovala hodnoty X x i tj. k pi = p 1 + p 2 +... + p i Relativní a kumulativní četnosti se počítají pouze pokud mají smysl. Při určování mezí je třeba volit meze tak, aby nedocházelo k nejasnostem, tj. abychom mohli každou hodnotu jednoznačně zařadit do určitého intervalu.

Řádný termín 2005 Body n i p i k ni k pi 0 27 19,424 27 19,424 0,5 11 7,914 38 27,338 1 20 14,388 58 41,727 1,5 15 10,791 73 52,518 2 14 10,072 87 62,590 2,5 11 7,914 98 70,504 3 22 15,827 120 86,331 3,5 8 5,755 128 92,086 4 7 5,036 135 97,122 4,5 3 2,158 138 99,281 5 1 0,719 139 100,000 5,5 0 0,000 139 100,000 6 0 0,000 139 100,000 Celkem 139 100,000

Základní charakteristiky souboru Pro lepší představu používáme k popisu vlastností zkoumaného jevu určité charakteristiky - statistiky. Statistikami zde rozumíme jistá čísla, která jsou nositeli důležitých informací o zkoumaných jevech. Způsob zjišt ování těchto statistik (charakteristik) je jednoznačně dán.

Míry polohy Mezi základní míry polohy patří maximum a minimum. Pro veličinu v měřítku alespoň ordinálním, lze vytvořit uspořádaný soubor z původního neuspořádaného souboru o velikosti n takto: x (1) x (2) x (l) x (n). Pak lze snadno zjistit minimum x min či maximum x max : x min = x (1) x max = x (n) (2)

Míry polohy charakterizují obecnou úroveň (polohu) hodnot statistického znaku. Tyto statistiky lze dělit na průměry a ostatní střední hodnoty. První a nejčastěji používanou charakteristikou je prostý aritmetický průměr. Ten je definován takto: x = 1 n jeho vážená varianta pak jako: n i=1 x i, (3) x = 1 n k i=1 x i n i. (4) Existují i další míry polohy, řadící se mezi průměry, jsou to především harmonický, geometrický nebo kvadratický průměr.

Co je to kvantil? Velmi důležitým pojmem ve statistické teorii je pojem kvantilu. Lze jej definovat takto: α100%-ním kvantilem x α statistického znaku X, je takové vhodně zvolené číslo, pro které platí, že α100% hodnot znaku je menších nebo rovno hodnotě x α a (1 α)100% hodnot znaku je větších nebo rovno tomuto číslu. Mezi nejpoužívanější kvantily patří: dolní kvartil x 25, medián x 50 a horní kvartil x 75. Tyto tři kvantily rozdělují uspořádanou řadu dat na zhruba čtyři části s přibližně stejnými rozsahy. Ve statistické praxi se lze setkat i s decily nebo percentily.

Ostatní střední hodnoty Při charakterizování polohy souboru je někdy vhodné využít tzv. medián, který udává prostřední hodnotu souboru. Jde o robustní charakteristiku. V uspořádaném souboru x (1) x (2) x (l) x (n) musí počet menších nebo stejných hodnot jako medián činit alespoň tolik, jako počet hodnot větších či stejných jako medián. Použití mediánu přichází v úvahu již u ordinální stupnice. Medián lze definovat takto: x 50 = x ( n+1 2 ) liché n, 1 2 (x ( n 2 ) + x ( n 2 +1)) sudé n. (5)

Modus Modem souboru je hodnota ˆx, která se v souboru nejčastěji opakuje, tj. má největší četnost. Lze rozeznávat unimodální, bimodální a multimodální soubory. Pokud je soubor intervalově třídění, pak nelze určit modus přesně. Přibližnou hodnotu modu určíme podle vzorce nˆx+1 nˆx 1 ˆx = x S + h, (6) 22nˆx nˆx+1 nˆx 1 kde nˆx 1 a nˆx+1 jsou četnosti intervalu který předchází, resp. následuje za modálním intervalem. Délka a četnost modálního intervalu je označena po řadě symboly h a nˆx. Střed modálního intervalu je označen symbolem x S.

Malá poznámka Pro získání základní představy o rozložení studovaného souboru zpravidla stačí uvést x, ˆx, x 25, x 75 a hodnotu max a min. V případě multimodálního rozdělení uvádíme i jednotlivá maxima souboru. Hodnota modu je značně ovlivněna variabilitou znaku a to zejména u menších výběrů. U jednovrcholových rozdělení platí přibližně vztah ˆx = 3 x 50 2 x. (7)

Míry variability Další důležitou vlastností, je variabilita dat. Míry variability určitým způsobem charakterizují proměnlivost hodnot. Míry variability jsou v podstatě dvojího typu. První z nich se počítají pouze z některých hodnot. Druhá skupina vychází naopak ze všech hodnot, obsažených ve studovaném souboru. Nejjednodušší mírou variability je rozpětí. Jde o první typ měr variability. R = x max x min (8)

Míry variability Další mírou variability je mezikvartilové rozpětí. Je definováno jako rozdíl mezi horním a dolním kvartilem tj.: IQR = x 75 x 25. (9) Takto definované rozpětí vychází z cca 50% typických znaků sledovaného souboru.

Rozptyl Je jednou z nejdůležitějších charakteristik variability dat. Rozptyl je definován jako aritmetický průměr čtverců odchylek od aritmetického průměru. Z hlediska jeho konstrukce rozeznáváme následující rozptyly: s 2 p = 1 n n i=1(x i x) 2 s 2 p = 1 n k i=1 (x i x) 2 n i s 2 v = 1 n 1 n i=1 (x i x) 2 s 2 v = 1 n 1 k i=1 (x i x) 2 n i

Směrodatná odchylka Vzhledem k tomu, že je rozptyl špatně interpretovatelný, používá se při charakterizování rozptýlenosti dat spíše směrodatná odchylka. Ta je definována jako druhá odmocnina rozptylu, tj.: σ = σ 2 (10) a výběrová směrodatná odchylka s = s 2. (11)

Variační koeficient Je relativní mírou variability. Používáme jej při porovnávání variability statistických znaků, které se liší z hlediska míry polohy nebo mají odlišné měrné jednotky. Variační koeficient udává z kolika procent se podíĺı směrodatná odchylka na aritmetickém průměru. V X = s x. (12) Hodnotu V X vyjadřujeme nejčastěji v procentech.

Míry šikmosti a špičatosti Šikmost vyjadřuje symetričnost sledovaného rozdělení kolem průměrné hodnoty. Je-li pozorováno více malých hodnot v porovnání s vysokými hodnotami, pak je šikmost kladná. Je-li naopak převaha vysokých hodnot v porovnání s malými hodnotami, tj. po znázornění histogramu má rozdělení souboru protáhlý levý konec, je šikmost záporná. Špičatost představuje relativní strmost či plochost rozdělení četností v porovnání s normálním rozdělením četností. Kladná špičatost znamená, že se ve sledovaném souboru vyskytují spíše data koncentrovaná kolem střední hodnoty. Tyto charakteristiky lze určit prostřednictvím třetího a čtvrtého centrálního momentu.