Základy pravděpodobnosti a statistiky. Popisná statistika

Podobné dokumenty
Popisná statistika. Statistika pro sociology

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Analýza dat na PC I.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Číselné charakteristiky

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

2. Základní typy dat Spojitá a kategoriální data Základní popisné statistiky Frekvenční tabulky Grafický popis dat

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost


ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Mnohorozměrná statistická data

Zápočtová práce STATISTIKA I

Metodologie pro ISK II

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Minimální hodnota. Tabulka 11

MĚŘENÍ, TYPY VELIČIN a TYPY ŠKÁL

Číselné charakteristiky a jejich výpočet

Aplikovaná statistika v R

Statistika pro geografy

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Charakteristika datového souboru

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Praktická statistika. Petr Ponížil Eva Kutálková

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Třídění statistických dat

Mnohorozměrná statistická data

Me neˇ nezˇ minimum ze statistiky Michaela S ˇ edova KPMS MFF UK Principy medicı ny zalozˇene na du kazech a za klady veˇdecke prˇı pravy 1 / 33

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Kontingenční tabulky v Excelu. Představení programu Statistica

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Metody sociálních výzkumů. Velmi skromný úvod do statistiky. Motto: Jsou tři druhy lži-lež prostá, lež odsouzeníhodná a statistika.

Pravděpodobnost a statistika I KMA/K413

Renáta Bednárová STATISTIKA PRO EKONOMY

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

LEKCE 02a UNIVARIAČNÍ ANALÝZA KATEGORIZOVANÝCH DAT

Nejčastější chyby v explorační analýze

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

Škály podle informace v datech:

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

1. Kategoriální proměnná nominální: (Tabulka a graf četností) Př.: sloupec (PokudanoJakčasto) -> Analyze -> Descriptive statistics -> Frequencies

Statistika. Program R. popisná (deskriptivní) statistika popis konkrétních dat. induktivní (konfirmatorní) statistika. popisná statistika

Základy popisné statistiky

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

ANALÝZA DAT V R 3. POPISNÉ STATISTIKY, NÁHODNÁ VELIČINA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK

Základy popisné statistiky

Příprava souboru dat a analýza

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Náhodná veličina a rozdělení pravděpodobnosti

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

STATISTICKÉ CHARAKTERISTIKY

ANALÝZA DAT V R 2. POPISNÉ STATISTIKY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

Statistika v současnosti

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Náhodná veličina a její charakteristiky. Před provedením pokusu jeho výsledek a tedy ani sledovanou hodnotu neznáte. Proto je proměnná, která

Popisná statistika. Komentované řešení pomocí MS Excel

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

PRAVDĚPODOBNOST A STATISTIKA

Charakterizace rozdělení

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

STATISTIKA VĚDA O USUZOVÁNÍ NA ZÁKLADĚ DAT. Patrícia Martinková Ústav informatiky AV ČR

MATEMATIKA III V PŘÍKLADECH

1.1 Dva základní typy statistiky Popisná statistika (descriptive statistics) Inferenční statistika (inferential statistics)

Základní statistické pojmy

1. cvičení 4ST201. Základní informace: Vyučující: Obsah: Informace o kurzu Popisná statistika Úvod do SASu

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Jan Kracík

Pojem a úkoly statistiky

7. SEMINÁŘ DESKRIPTIVNÍ STATISTIKA

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Seminarni prace. 2 3 stranky staci, dat nema byt 3 a nema jich byt pul milionu. k te seminarce

23. Matematická statistika

Přednáška III. Data, jejich popis a vizualizace. Náhodný výběr, cílová a výběrová populace Typy dat Vizualizace různých typů dat Popisné statistiky

Popisná statistika kvantitativní veličiny

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Jevy a náhodná veličina

Tabulka 1. Výběr z datové tabulky

Obecné momenty prosté tvary

Základní analýza dat. Úvod

Základy teorie pravděpodobnosti

Statistika I (KMI/PSTAT)

Metodologie pro Informační studia a knihovnictví 2

Transkript:

Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod.

Příklad ze života Cimrman, Smoljak/Svěrák, Posel z Liptákova, Paseka, 1992, str. 11-12 pak zaznamenáme data z tohoto laboratorního deníku ~ vznikne tabulka

Posel z Liptákova, str. 11-12, část přednášky Z. Svěráka

Příklad ze života data - tabulka řádky sledované objekty sloupce sledované veličiny objekt Rad. C Kronika Cimrman 1906 (+/- 200 let) 1902

Data - příjem pacientů nemocnice (výsek) pacient dat_prij vek pohlavi odd dat_ukon stav_prop 1115 20.9.2010 65 m CH 27.9.2010 domu 1116 20.9.2010 15 m P 24.9.2010 domu 1117 20.9.2010 28 z I 24.9.2010 jinam 1118 20.9.2010 35 z G 30.9.2010 domu 1119 20.9.2010 37 m U 28.9.2010 jinam 1120 20.9.2010 52 m I 23.9.2010 domu 1121 20.9.2010 11 m P 24.9.2010 domu 1122 20.9.2010 6 m P 1123 20.9.2010 78 m I 1124 20.9.2010 85 m CH 28.9.2010 Ex 1125 20.9.2010 82 z O 23.9.2010 jinam 1126 20.9.2010 43 z CH 24.9.2010 domu 1127 20.9.2010 19 z O 1128 20.9.2010 28 m I 1129 20.9.2010 31 m CH

Škály, ve kterých se měří hodnoty veličin Nominální - mezi hodnotami není definováno uspořádání. Pokud jsou hodnoty označovány číselně, toto číslo je pouze zkratkou (kódem) slovní hodnoty. Ordinální (pořadová) škála uspořádání hodnot, ale není definována vzdálenost. Intervalová (rozdílová) škála - vzdálenost mezi hodnotami měřené veličiny. Dovoluje počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Podílová škála zachovává nejen rozdíly (intervaly) mezi hodnotami, ale také podíly hodnot. Veličiny měřené v podílové škále mohou nabývat pouze kladných hodnot.

Veličiny Podle škály: Kategoriální nominální - pohlaví, odd, ordinální - školní klasifikace, dosažené vzdělání, Metrické definována vzdálenost, hodnotu můžeme znázornit bodem na číselné ose, např. věk, výška, hmotnost, teplota, Podle hodnot: Diskrétní všechny kategoriální veličiny, dále např. počet sourozenců, počet vyšetření, Spojité jejich možné hodnoty pokryjí interval na číselné ose, např. věk, výška, hmotnost, teplota,

Popisné charakteristiky veličin Rozdělení četnosti - pro diskrétní veličiny počet hodnot vyskytující se datech - pro spojité veličiny hustota hodnot na číselné ose 0 20 40 60 80 100 120 140 160 180 Charakteristiky polohy a variability

Data po předzpracování (výsek) pohlavi odd den_vtydnu vek dny_hosp m CH ST 89 14 m INT CT 81 14 z INT ST 60 11 m INT PO 65 11 z INT UT 88 9 z INT UT 96 9 z G PA 27 8 z CH SO 75 8 m CH NE 80 8 z CH UT 91 8 m INT PO 28 8 z INT PO 28 8 m INT PO 28 8 m INT PO 85 6 m INT PO 85 6 z INT UT 96 6

Popisná statistika: velicina n prum smodch min max vek 614 60 18.48 18 97 dny_hosp 614 9 4.64 2 29 pohlavi Count Percent m 310 50.49 z 304 49.51 odd Count Percent CH 196 31.92 G 58 9.45 INT 360 58.63

Popisná statistika: Frequency Distribution of den_vtydnu den_vtydnucount Percent CT 60 9.8 NE 20 3.3 PA 42 6.8 PO 161 26.2 SO 20 3.3 ST 154 25.1 UT 157 25.6

Popisná statistika rozdělení hospitalizovaných do dnů v týdnu den Count Percent PO 161 26.22 UT 157 25.57 ST 154 25.08 CT 60 9.77 PA 42 6.84 SO 20 3.26 NE 20 3.26

Sloupcový graf četností Počet hospitalizovaných pacientů 180 160 140 120 100 80 60 40 20 0 PO UT ST CT PA SO NE

Koláčový graf (pie chart) počty hospitalizovaných vs. den v týdnu PO UT ST CT PA SO NE

Charakteristiky polohy Průměr (aritmetický) Jiné průměry (geometrický, harmonický,...) Modus - i pro nominální veličiny Medián i pro ordinální veličiny

Průměr (aritmetický): x = 1 n n x i i= 1 n i= 1 ( x x) = x n x = x x = 0 i n i i i= 1 i= 1 i= 1 n n i

Medián Naměřené hodnoty jsou 15, 17, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20. Medián je hodnota uprostřed. Naměřené hodnoty jsou 15, 17, 21, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20, 21.

Kvantily x(p)... p-kvantil, přibližně platí, že n*p hodnot je menší než x(p) x( 05,) medián, x ~ x(, 025), x(, 075 ) dolní kvartil, horní kvartil x(,), 01 x(,) 09 dolní decil, horní decil

Charakteristiky variability Rozptyl Směrodatná odchylka (standard deviation) s s n 1 = i n 1 2 ( x x) 2 i = 1 = n 1 1 n i = 1 ( x x) i 2 Sm. odchylka průměru (standard error of the mean, SEM) sem = s / n

Rozdělení hodnot spojité veličiny vek - histogram 80.0 60.0 Count 40.0 20.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 vek

Rozdělení hodnot spojité veličiny dny_hosp - histogram 120.0 90.0 Count 60.0 30.0 0.0 0.0 10.0 20.0 30.0 dny_hosp

Další číselné charakteristiky tvaru rozdělení pozorovaných hodnot Druhý centrální moment Třetí centrální moment Čtvrtý centrální moment Šikmost Špičatost

Šikmost a špičatost 80.0 120.0 60.0 90.0 Count 40.0 Count 60.0 20.0 30.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 vek 0.0 0.0 10.0 20.0 30.0 dny_hosp Šikmost - 0.165 Špičatost 2.17 Šikmost 0.675 Špičatost 3.63

Vztah dvou veličin popisná statistika Obě veličiny metrické bodový graf závislosti Jedna metrická, jedna kategoriální tabulky charakteristik podle hodnot kategoriální veličiny krabicové grafy Obě diskrétní kategoriální četnosti (kontingenční tabulka)

30 Závislost dvou metrických veličin dny_hosp na vek 25 20 dny_hosp 15 10 5 0 0 20 40 60 80 100 vek

Charakteristiky po skupinách vek n prum s min max CH 196 61 17.9 19 97 G 58 50 14.7 23 75 INT 360 61 18.9 18 97 dny_hosp n prum s min max CH 196 8.4 4.3 2 22 G 58 7.5 4.1 2 18 INT 360 9.4 4.8 2 29

Krabicový graf (box plot)

Porovnání věku pacientů v odděleních (závislost vek odd) 100 90 80 70 60 vek 50 40 30 20 10 0 CH G INT

Porovnání délky hospitalizace v odděleních (závislost dny_hosp odd) 30 27 24 21 dny_hosp 18 15 12 9 6 3 0 CH G INT

Závislost dvou diskrétních nemetrických veličin kontingenční tabulka - četnosti pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614

Závislost dvou diskrétních nemetrických veličin kontingenční tabulka četnosti - grafické znázornění 200 180 160 140 120 100 80 60 40 20 0 z CH G INT m