Základy pravděpodobnosti a statistiky Popisná statistika Josef Tvrdík Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace v úterý 14.10 až 15.40 hod.
Příklad ze života Cimrman, Smoljak/Svěrák, Posel z Liptákova, Paseka, 1992, str. 11-12 pak zaznamenáme data z tohoto laboratorního deníku ~ vznikne tabulka
Posel z Liptákova, str. 11-12, část přednášky Z. Svěráka
Příklad ze života data - tabulka řádky sledované objekty sloupce sledované veličiny objekt Rad. C Kronika Cimrman 1906 (+/- 200 let) 1902
Data - příjem pacientů nemocnice (výsek) pacient dat_prij vek pohlavi odd dat_ukon stav_prop 1115 20.9.2010 65 m CH 27.9.2010 domu 1116 20.9.2010 15 m P 24.9.2010 domu 1117 20.9.2010 28 z I 24.9.2010 jinam 1118 20.9.2010 35 z G 30.9.2010 domu 1119 20.9.2010 37 m U 28.9.2010 jinam 1120 20.9.2010 52 m I 23.9.2010 domu 1121 20.9.2010 11 m P 24.9.2010 domu 1122 20.9.2010 6 m P 1123 20.9.2010 78 m I 1124 20.9.2010 85 m CH 28.9.2010 Ex 1125 20.9.2010 82 z O 23.9.2010 jinam 1126 20.9.2010 43 z CH 24.9.2010 domu 1127 20.9.2010 19 z O 1128 20.9.2010 28 m I 1129 20.9.2010 31 m CH
Škály, ve kterých se měří hodnoty veličin Nominální - mezi hodnotami není definováno uspořádání. Pokud jsou hodnoty označovány číselně, toto číslo je pouze zkratkou (kódem) slovní hodnoty. Ordinální (pořadová) škála uspořádání hodnot, ale není definována vzdálenost. Intervalová (rozdílová) škála - vzdálenost mezi hodnotami měřené veličiny. Dovoluje počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Podílová škála zachovává nejen rozdíly (intervaly) mezi hodnotami, ale také podíly hodnot. Veličiny měřené v podílové škále mohou nabývat pouze kladných hodnot.
Veličiny Podle škály: Kategoriální nominální - pohlaví, odd, ordinální - školní klasifikace, dosažené vzdělání, Metrické definována vzdálenost, hodnotu můžeme znázornit bodem na číselné ose, např. věk, výška, hmotnost, teplota, Podle hodnot: Diskrétní všechny kategoriální veličiny, dále např. počet sourozenců, počet vyšetření, Spojité jejich možné hodnoty pokryjí interval na číselné ose, např. věk, výška, hmotnost, teplota,
Popisné charakteristiky veličin Rozdělení četnosti - pro diskrétní veličiny počet hodnot vyskytující se datech - pro spojité veličiny hustota hodnot na číselné ose 0 20 40 60 80 100 120 140 160 180 Charakteristiky polohy a variability
Data po předzpracování (výsek) pohlavi odd den_vtydnu vek dny_hosp m CH ST 89 14 m INT CT 81 14 z INT ST 60 11 m INT PO 65 11 z INT UT 88 9 z INT UT 96 9 z G PA 27 8 z CH SO 75 8 m CH NE 80 8 z CH UT 91 8 m INT PO 28 8 z INT PO 28 8 m INT PO 28 8 m INT PO 85 6 m INT PO 85 6 z INT UT 96 6
Popisná statistika: velicina n prum smodch min max vek 614 60 18.48 18 97 dny_hosp 614 9 4.64 2 29 pohlavi Count Percent m 310 50.49 z 304 49.51 odd Count Percent CH 196 31.92 G 58 9.45 INT 360 58.63
Popisná statistika: Frequency Distribution of den_vtydnu den_vtydnucount Percent CT 60 9.8 NE 20 3.3 PA 42 6.8 PO 161 26.2 SO 20 3.3 ST 154 25.1 UT 157 25.6
Popisná statistika rozdělení hospitalizovaných do dnů v týdnu den Count Percent PO 161 26.22 UT 157 25.57 ST 154 25.08 CT 60 9.77 PA 42 6.84 SO 20 3.26 NE 20 3.26
Sloupcový graf četností Počet hospitalizovaných pacientů 180 160 140 120 100 80 60 40 20 0 PO UT ST CT PA SO NE
Koláčový graf (pie chart) počty hospitalizovaných vs. den v týdnu PO UT ST CT PA SO NE
Charakteristiky polohy Průměr (aritmetický) Jiné průměry (geometrický, harmonický,...) Modus - i pro nominální veličiny Medián i pro ordinální veličiny
Průměr (aritmetický): x = 1 n n x i i= 1 n i= 1 ( x x) = x n x = x x = 0 i n i i i= 1 i= 1 i= 1 n n i
Medián Naměřené hodnoty jsou 15, 17, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20. Medián je hodnota uprostřed. Naměřené hodnoty jsou 15, 17, 21, 20, 11, 14. Uspořádáme je vzestupně: 11, 14, 15, 17, 20, 21.
Kvantily x(p)... p-kvantil, přibližně platí, že n*p hodnot je menší než x(p) x( 05,) medián, x ~ x(, 025), x(, 075 ) dolní kvartil, horní kvartil x(,), 01 x(,) 09 dolní decil, horní decil
Charakteristiky variability Rozptyl Směrodatná odchylka (standard deviation) s s n 1 = i n 1 2 ( x x) 2 i = 1 = n 1 1 n i = 1 ( x x) i 2 Sm. odchylka průměru (standard error of the mean, SEM) sem = s / n
Rozdělení hodnot spojité veličiny vek - histogram 80.0 60.0 Count 40.0 20.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 vek
Rozdělení hodnot spojité veličiny dny_hosp - histogram 120.0 90.0 Count 60.0 30.0 0.0 0.0 10.0 20.0 30.0 dny_hosp
Další číselné charakteristiky tvaru rozdělení pozorovaných hodnot Druhý centrální moment Třetí centrální moment Čtvrtý centrální moment Šikmost Špičatost
Šikmost a špičatost 80.0 120.0 60.0 90.0 Count 40.0 Count 60.0 20.0 30.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 70.0 80.0 90.0 100.0 vek 0.0 0.0 10.0 20.0 30.0 dny_hosp Šikmost - 0.165 Špičatost 2.17 Šikmost 0.675 Špičatost 3.63
Vztah dvou veličin popisná statistika Obě veličiny metrické bodový graf závislosti Jedna metrická, jedna kategoriální tabulky charakteristik podle hodnot kategoriální veličiny krabicové grafy Obě diskrétní kategoriální četnosti (kontingenční tabulka)
30 Závislost dvou metrických veličin dny_hosp na vek 25 20 dny_hosp 15 10 5 0 0 20 40 60 80 100 vek
Charakteristiky po skupinách vek n prum s min max CH 196 61 17.9 19 97 G 58 50 14.7 23 75 INT 360 61 18.9 18 97 dny_hosp n prum s min max CH 196 8.4 4.3 2 22 G 58 7.5 4.1 2 18 INT 360 9.4 4.8 2 29
Krabicový graf (box plot)
Porovnání věku pacientů v odděleních (závislost vek odd) 100 90 80 70 60 vek 50 40 30 20 10 0 CH G INT
Porovnání délky hospitalizace v odděleních (závislost dny_hosp odd) 30 27 24 21 dny_hosp 18 15 12 9 6 3 0 CH G INT
Závislost dvou diskrétních nemetrických veličin kontingenční tabulka - četnosti pohlavi odd m z Total CH 116 80 196 G 0 58 58 INT 194 166 360 Total 310 304 614
Závislost dvou diskrétních nemetrických veličin kontingenční tabulka četnosti - grafické znázornění 200 180 160 140 120 100 80 60 40 20 0 z CH G INT m