1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Podobné dokumenty
Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Základy popisné statistiky

Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. Statistika pro sociology

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

23. Matematická statistika

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Informační technologie a statistika 1

Statistika I (KMI/PSTAT)

Číselné charakteristiky

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Renáta Bednárová STATISTIKA PRO EKONOMY

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

MATEMATICKÁ STATISTIKA - XP01MST


Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika pro gymnázia

Aplikovaná statistika v R

Statistika v současnosti

Analýza dat na PC I.

Základy pravděpodobnosti a statistiky. Popisná statistika

Zápočtová práce STATISTIKA I

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

Metodologie pro ISK II

Třídění statistických dat

Předmět studia: Ekonomická statistika a analytické metody I, II

Metodologie pro Informační studia a knihovnictví 2

Fakulta dopravní PRAVDĚPODOBNOST A MATEMATICKÁ STATISTIKA. Doc. RNDr. Jana Novovičová, CSc. verze 12. dubna Vydavatelství ČVUT

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Obecné momenty prosté tvary

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Mnohorozměrná statistická data

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Jevy a náhodná veličina

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Charakteristika datového souboru

Metodologie pro Informační studia a knihovnictví 2

Základy biostatistiky

Základní statistické charakteristiky

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Mnohorozměrná statistická data

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Číselné charakteristiky a jejich výpočet

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

přesné jako tabulky, ale rychle a lépe mohou poskytnou názornou představu o důležitých tendencích a souvislostech.

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Otázky k měření centrální tendence. 1. Je dáno rozložení, ve kterém průměr = medián. Co musí být pravdivé o tvaru tohoto rozložení?

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Praktická statistika. Petr Ponížil Eva Kutálková

MATEMATIKA III V PŘÍKLADECH

Základy popisné statistiky

Popisná statistika kvantitativní veličiny

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Pravděpodobnost a aplikovaná statistika

Ekonomická statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Základy popisné statistiky

Základní statistické pojmy

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Pravděpodobnost a statistika

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Statistická analýza dat v psychologii

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Základní pojmy a cíle statistiky 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

STATISTICKÉ CHARAKTERISTIKY

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

ČETNOSTI A ROZLOŽENÍ ČETNOSTÍ

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Náhodná veličina a rozdělení pravděpodobnosti

Komplexní čísla, Kombinatorika, pravděpodobnost a statistika, Posloupnosti a řady

Statistika. zpracování statistického souboru

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Pojem a úkoly statistiky

Deskriptivní statistika (kategorizované proměnné)

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Popisná statistika. Komentované řešení pomocí MS Excel

Příloha podrobný výklad vybraných pojmů

Transkript:

1. PODSTATA STATISTIKY Původní význam - pouhé sbírání čísel (název z latinského status = stát, použití k označení vědy zabývající se sběrem informací o státu - o počtu obyvatel, ekonomice,...) Dnešní pojetí - shromažd ování, klasifikace a tabelování dat, ale také analýza informací za účelem formulování obecných závěrů a rozhodování. 1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics) Popisná statistika se skládá z metod pro zjišt ování a sumarizaci informací. Inferen. statistika se skládá z metod pro přijímání a měření spolehlivosti závěrů o základním souboru založených na informacích získaných z výběru ze ZS. 1.2 Základní statistické pojmy Hromadné jevy a procesy - jevy a procesy vyskytující se u velkého množství prvků. Statistické jednotky - elementární jednotky stat. pozorování (např. osoby, organizace, věci, události,...) Statistické znaky - veličiny (variable) - vlastnosti statistických jednotek (pracovník podniku: mzda, stáří, kvalifikační třída, nejvyšší dosažené vzdělání). Data - informace získané měřením hodnot statistických znaků.

Základní třídění statistických znaků a dat Veličiny: Kvantitativní: Hodnoty veličiny lze vyjádřit číselně. Kvalitativní: Hodnoty veličiny nelze vyjádřit číselně. Diskrétní: Kvantitavní veličiny, jejichž možné hodnoty tvoří konečnou nebo spočetnou množinu čísel. Spojité: Kvantitavní veličiny, jejichž možné hodnoty tvoří číselný interval. statistické znaky kvantitativní kvalitativní nespojité spojité Statistický soubor (SS) - množina všech statistických jednotek, u nichž zkoumáme příslušné statistické znaky. Jednorozměrný SS - u každé statistické jednotky zjišt ujeme pouze jeden statistický znak. Vícerozměrný SS - u každé stat. jednotky zjišt ujeme dva nebo více stat. znaků. Základní soubor (ZS) (population) - SS všech jednotek, který je vlastním předmětem sledování, o němž chceme provádět závěry. Výběrový soubor - výběr (sample) - část ZS vybraná určitým způsobem, z které jsou shromažd ovány informace. Rozsah výběru - počet jednotek vybraných ze ZS.

1.3 Náhodný výběr Prostý náhodný výběr (simple random sample) Vícestupňový náhodný výběr (multistage r.s.) Proč výběr? - obecné zásady 1. Omezené zdroje 2. řídký výskyt 3. Destruktivní testování 4. Výběr může být přesnější Znáhodněné pokusy A - Pokusné a kontrolní skupiny B - Náhodné přiřazení C - Utajení a dvojité utajení Pozorovací studie versus znáhodněné pokusy A - Znáhodnění někdy není možné B - Znáhodnění někdy není praktické C - Znáhodnění se někdy neprovádí i když by bylo praktické D - Některé etické problémy E - Odstranění jednostrannosti z pozorovacích studií: regrese Na volbě statistických jednotek a vhodném výběru statistických znaků, pomocí nichž chceme sledovat vlastnosti statistického souboru, závisí úspěch i výsledky veškeré další práce. 6. října 2004, fddfolie.tex

2. POPISNÁ STATISTIKA 2.1 Elementární zpracování statistických údajů Třídění rozdělení jednotek souboru do takových skupin, aby co nejlépe vynikly charakteristické vlastnosti zkoumaných jevů (uspořádání a zhuštění údajů) Jednostupňové třídění - podle 1 stat. znaku. Vícestupňové třídění - podle více stat. znaků najednou 2.1.1 Statistické tabulky Rozdělení četností a relativních četností Naměřené hodnoty kvantitativního znaku nazýváme pozorování, měření nebo vstupní data. Absolutní četnost (frequency) - počet příslušných jednotek, přiřazených každé hodnotě zkoum. znaku Poměrná (relativní) četnost (relative frequency) - podíl jednotlivých absolutních četností a celkového rozsahu souboru n všech pozorování souboru. Necht y i, i = 1,..., k, 1 k n jsou různé hodnoty diskr.znaku a n i odpovídající četnosti, n je rozsah souboru, n = k i=1 n i = relativní četnost f i f i = n i k a platí n f i = 1 i=1 Absolutní kumulativní č. (cumulative frequency) hodnot znaku menších nebo rovných y r : r i=1 n i, 1 r k. Poměrná kumulativní č. (cumulative relative f.) hodnot znaku menších nebo rovných y r : r i=1 f i, 1 r k.

1) Diskrétní veličina Rozdělení četností a relativních četností diskrétní veličiny Tabulka rozdělení četností vhodný prostředek pro zpracování diskrétního znaku, který nabývá pouze menšího počtu hodnot. Hodnota Četnost Kumulativní četn. znaku absolutní relativní absolutní relativní y i n i f i y 1 n 1 f 1 n 1 f 1 y 2 n 2 f 2 n 1 + n 2 f 1 + f 2............... y k n k f k k i=1 n i k i=1 f i Celkem k i=1 n i = n k i=1 f i = 1 2) Spojitá veličina nebo diskrétní, která může nabývat velkého počtu různých hodnot Intervalové rozdělení četností - rozdíl mezi maximální a minimální zjištěnou hodnotou znaku rozdělíme na určitý počet intervalů a pak zjistíme počty hodnot patřících do těchto intervalů. počet intervalů hranice intervalů Necht {x 1,..., x n }, x i [a, b], i = 1,..., n, a = a 0 < a 1 <... < a k = b, k disjunktních podintervalů (a i 1, a i ], i = 1, 2,..., k třídní intervaly - třídy (classes).

Dolní hranice i-té třídy (lower class limit) nejmenší hodnota v intervalu (a i 1, a i ]. Horní hranice i-té třídy (upper class limit) největší hodnota v intervalu (a i 1, a i ]. Střed i-té třídy (class mark) střed intervalu (a i 1, a i ]. >ířka i-té třídy (class width) rozdíl mezi horní hranicí intervalu (a i 1, a i ] a horní hranicí (a i 2, a i 1 ] Absolutní četnost n i i-té třídy počet pozorování x j : a i 1 < x j a i. Poměrná (relativní) četnost f i i-té třídy: f i = n i n. Absolutní kumulativní četnost N i i-té třídy počet pozorování x j : a i 1 < x j a i, N i = i r=1 n r. Poměrná kumulativní četnost F i i-té třídy: F i = i r=1 f r. Pozorování, která patří do jedné skupiny nahrazujeme při výpočtech statistických charakteristik jedinou zastupitelnou hodnotou - zpravidla střed intervalu. 2.1.2 Statistické grafy Z hlediska konstrukce lze grafy rozdělit do různých skupin: a) spojnicové a sloupkové grafy a 1 ) spojnicové polygon četností: v pravoúhlém souř. systému spojíme úsečkami body o souřadnicích (x i, n i ), polygon relativních četností: v pravoúhlém souř. systému spojíme úsečkami body o souřadnicích (střed i-té třídy, f i ). Tvar rozdělení četností

Modus nejčetnější hodnota znaku. Jednovrcholová (unimodal) modus leží mezi minimální a maximální hodnotou veličiny (rozdělení J, obrácené rozdělení J). Vícevrcholová (multimodal) více než jeden modus (bimodální rozdělení U) a 2 ) sloupkové histogram četností: sloupkový graf tvořený pravidelnými rovnoběžníky, jejichž základny mají délku zvolených intervalů a jejichž výšky mají velikost příslušných relativních četností; b) výsečové grafy - kruhové diagramy: (pie chart) relativní četnosti hodnot znaku znázorňujeme pomocí výsečí kruhu, které získáme rozdělením středového úhlu úměrně k podílu jednotlivých částí zobrazovaného jevu vyjádřených v procentech; c) stonek s listy (stem and leaf diagram or stemplot) grafická obdoba četnostního histogramu; d) krabicový graf (box and whiskers plot) slouží k znázornění extrémních hodnot souboru a kvartilů.

2.2 Popis jednorozměrných SS Necht x i, i = 1,..., n jsou pozorování diskrétního stat. znaku a necht x (1) x (2)... x (n) je uspořádaná posloupnost těchto pozorování. 2.2.1 Kvantily Kvantil je taková hodnota, která rozděluje soubor hodnot určitého znaku na dvě části - jedna obsahuje ty hodnoty, které jsou menší (nebo stejné) než tento kvantil, druhá část naopak obsahuje ty hodnoty, které jsou větší (nebo stejné) než tento kvantil. 100p% kvantil - percentil (0 p 1): kvantil, který odděluje zhruba 100p% malých hodnot znaku (p je relativní četnost malých hodnot) od 100(1 p)% velkých hodnot znaku. x 100p = x ([np]+1) 1 2 (x (np) + x (np+1) ) pro np celé. pokud není np celé číslo Dolní kvartil ( x 25 ) (lower quartile): odděluje zhruba 25% nejnižších hodnot znaku od ostatních. x 25 = x ([ n 4 ]+1), pokud je n nedělitelné 4 1 2 (x ( n 4 ) + x ( n 4 +1)) pro n dělitelné 4 Prostřední kvartil - medián ( x 50 ): hodnota, která odděluje 50% hodnot znaku menších nebo rovných této hodnotě od ostatních. x 50 = x ([ n 2 ]+1), pokud je n liché číslo 1 2 (x ( n 2 ) + x ( n 2 +1)) pro n sudé.

Horní kvartil ( x 75 ) (upper quartile): odděluje zhruba 75% nejnižších hodnot znaku od zbývajících 25% x 75 = x ([ 3 4 n]+1), pokud je n nedělitelné 4 1 2 (x ( 3 4 n) + x ( 3 4n+1)) pro n dělitelné 4 2.2.2 Míry polohy (measures of central tendency) A) ARITMETICKÝ PRŮMĚR ( x) (mean) Necht x 1, x 2,..., x n jsou pozorované hodnoty znaku x, n je celkový počet pozorování n x = 1 n x i i=1 Jsou-li zjištěné hodnoty znaku uspořádány do tabulky rozdělení četností, pak x = k i=1 y i n i n i=1 n i = 1 n k i=1 y in i = k i=1 y if i Četnosti f i udávají váhu, která je přisuzována jednotlivým k různým hodnotám y i znaku. B) MEDIÁN ( x 50 ) (median) x 50 = x ([ n 2 ]+1), pokud je n liché číslo 1 2 (x ( n 2 ) + x ( n 2 +1)) pro n sudé. C) MODUS (ˆx) (mode) Modus nejčastěji se vyskytující hodnota (každá hodnota, jejíž četnost je větší než jedna a je stejně velká nebo větší než četnost jiných hodnot).

D) Vzájemná poloha modu, mediánu, průměru Symetrické rozdělení: ˆx = x = x 50 Nesymetrické rozdělení: vzhledem k ˆx leží x 50 ve směru delší části rozdělení a x dále v tomto směru. Popisná míra se nazývá resistentní, jestliže není citlivá na vliv malého počtu extrémních hodnot. Která charakteristika je nejvhodnější? Shrnutí: Modus je char., kterou lze nejsnadněji nalézt, ale která nemá velký význam při hledání polohy rozdělení. Medián užitečnější, představuje typičtější hodnotu. Průměr zahrnuje všechna pozorování.

USEKNUTÉ PRŮMĚRY Necht x 1, x 2,..., x n je posloupnost pozorovaných hodnot statistického znaku x (1) x (2)... x (n) je uspořádaná posloupnost 0 < α < 0.5, [nα] je největší celé číslo k splňující k [nα] α-useknutý průměr (α-trimmed mean) x α = 1 n 2[nα] n [nα] x (i) i=[nα]+1 α-winsorizovaný průměr (α-winsorized mean) x αw = 1 n [nα]x ([nα]) + n [nα] i=[nα]+1 x (i) + [nα]x (n [nα]+1)

2.2.3 Míry rozptýlenosti (measures of dispersion) Rozdělení čet. mohou mít shodnou polohu, ale přesto se od sebe výrazně liší. Význam při posuzování vypovídací schopnosti průměru: vypovídací schopnost je tím větší, čím je rozptýlenost sledovaného znaku menší. Míry absolutní rozptýlenosti A) Variační rozpětí (R) (range) R = x (max) x (min) B) Mezikvartilové rozpětí (IQR) (interquartile range) IQR = x 75 x 25 IQR je rezistentní. C) Střední absolutní odchylka (MAD) (mean of absolute deviation) absolutní odchylka od průměru = x i x MAD = 1 n n i=1 (x i x) D) Střední kvadratická odchylka (MSD) (mean of squared deviation) n MSD = 1 n (x i x) 2 = x 2 ( x) 2 i=1

E) Rozptyl a směrodatná odchylka Rozptyl (s 2 ) (dispersion) s 2 = 1 n 1 n (x i x) 2 = n i=1 n 1 [ x 2 ( x) 2 ] Směrodatná odchylka (s) (standard deviation) s = 1 n n 1 (x i x) 2 i=1 Směrodatná odchylka není rezistentní. Interpretace směrodatné odchylky: Čebyševova pravidla: Pro každou množinu dat platí: Vlastnost 1: Alespoň 75% dat leží mezi x 2s a x + 2s Vlastnost 2: Alespoň 89% dat leží mezi x 3s a x + 3s Vlastnost 3: Obecně, pro každé k > 1 alespoň 1 1 k 2 dat leží mezi x k.s a x + k.s F) Kvartilová odchylka (Q) Q = x 75 x 50 + x 50 x 25 = x 75 x 25 2 2 2 Nevýhoda: nezachycuje rozptýlenost všech hodnot.

Míry relativní rozptýlenosti A) Variační koeficient (V x ) V x = s x 100V x udává rozptýlenost v procentech. Hrubý odhad: V x vyšší než 50% je příznakem značné nesourodosti SS. B) Relativní kvartilová odchylka (Q r ) Q r = x 75 x 25 x 75 + x 25 5-ti číselná charakteristika (five-number summary): x min, x 25, x 50, x 75, x max 2.3 Lineární transformace A) Změna počátku x = x + a = x = x + a, s x = s x B) Změna měřítka x = bx = x = b x, s x = b s x C) Lineární transformace obecně y = a + bx = ȳ = a + b x, s y = b s x