Statistika B (151-0303) Marek Pomp ZS 2014 marek.pomp@vsb.cz http://homel.vsb.cz/~pom68 Cvičení: Pavlína Kuráňová & Marek Pomp
Podmínky pro úspěšné ukončení zápočet 45 bodů, min. 23 bodů, dvě zápočtové písemky, max. 15 + 15 bodů, min. 8 + 8 bodů, projekt max. 12 bodů, min. 7 bodů, aktivita na cv. 3 body, zkouška, max. 55 bodů, min. 28 bodů, výpočtová část, max. 40 bodů, min. 20 bodů, teoretická část, max. 15 bodů, min. 8 bodů, 100 86 85 66 65 51 méně než 51 výborně velmi dobře dobře neuspěl
I Přednáška Úvod Soubor s jedním argumentem Charakteristiky polohy Charakteristiky variability Charakteristiky tvaru Typy rozdělení SNP
Literatura [1] Hendl, J. Přehled statistických metod zpracování dat. Portál, Praha, 2006. [2] Hradecký, P., Madryová, A., Turčan, M. Pravděpodobnost. VŠB TU, Ostrava, 2004. [3] Litschmannová, M. Úvod do statistiky. http://mi21.vsb.cz/modul/uvod-do-statistiky, 2011. [4] Turčan, M., Hradecký, P., Madryová, A., Harbichová, I., Holčapek, M. Statistika. VŠB TU, Ostrava, 2002. [5] Šalounová, D. Úvod do pravděpodobnosti a statistiky. EKF, VŠB TU, Ostrava, 2013.
Statistika Vědní obor, která se věnuje soupisu a zpracování dat (status stát) 1. sběr dat 2. popisná statistika 3. induktivní statistika, statistická inference, statistické usuzování
Historie na našem území soupisy obyvatel, majetku, poddaných (vrubovka z Dolních Věstonic(?),daně, vojsko, mapovaní epidemií apod.) Marie Terezie 13. října 1753, dekret o pravidelném sčítání lidu, 30. listopadu 1856 ústřední výbor pro statistiku polního a lesního hospodářství 1919 byl založen Státní úřad statistický Dnes Český statistický úřad a Zákon 89/1995 Sb., o státní statistické službě (poslední sčítání lidu 2011), zpravodajská povinnost ekonomických subjektů (Program statistických zjišťování na rok... ). statistika v každodenním životě
Statistický soubor statistická jednotka statistický znak, ukazatel statistický soubor populace, zákl. soubor ˆ výběr
Statistický znak 1. kvalitativní (kategoriální) 2. kvantitativní (numerické) nominální ordinální (pořadové) intervalové poměrové diskrétní spojité
rozsah souboru N, variační int. hx min ; x max i variační rozpětí R = x max ` x min variační řada seřazené navzájem různé hodnoty ze ZS a jejich absolutní četnosti výskytu x 1 < < x r x 1 f 1. x r. f r F 1. F r 1. r 1. r rx X f i = N; F i = i=1 k»i absolutní kumulativní četnosti F i, F r = N relativní četnost i, relativní kumulativní četnost i, r = 1 i = f i N ; rx X i = 1 i = i=1 k»i bodový a úsečkový graf, ogivní křivka, Paretův diagram k f k
Třídní rozdělení dat počet tříd (Sturgesovo pravidlo) k = 1 + log 2 N 1 + 3;3 log 10 N šířka třídy, h 0 = x max ` x min k h nejbližší liché, zástupce první třídy = minimum souboru (Krajní body intervalů patří vlevo.) Histogram, stem-and-leaf (lodyha s listy)
Charakteristiky polohy aritmetický průměr x = 1 N NX x i, i=1 modus ^x hodnota s největší četností (diskrétní veličina) medián ~x hodnota uprostřed, dělí seřazený statistický soubor na poloviny p-kvantil (100p-percentil) hodnota x i, pro niž 100p % hodnot je menších než x i, i = Np + 0;5 a interpolujeme kvartily 0,25-kvantil, 0,75-kvantil (25-percentil a 75-percentil) boxplot, box with whiskers, krabička s vousy délka vousu max. 1,5 mezikvartilového rozpětí, odlehlé hodnoty.
Variance/Rozptyl/Disperze Populační rozptyl s 2 = 1 NX (x i ` x) 2 = 1 N N = 1 N i=1 NX i=1 x 2 i ` x 2 NX i=1 x 2 i ` 1 N NX «2 x i = i=1 Směrodatná odchylka s = p s 2, má stejnou jednotku jako data
Variační koeficient 3 12 21 6 24 42 Různé jednotky, jak srovnat směrodatné odchylky? Variační koeficient V x = s, směr. odchylka v násobcích průměru x
Centrální momenty k-tý centrální moment M k = 1 N NX (x i ` x) k i=1 M 1 = 0 M 2 0 populační rozptyl M 3 M 4 0
Šikmost 14 20 26 14 20 26 14 20 26 Šikmost záporná nulová kladná Koeficient šikmosti g 1 = M 3 q M 3 2 = M 3 M 2 qm 2 Obvykle: g 1 < 0, pak průměr < medián 0 < g 1, pak medián < průměr
Špičatost 14 20 26 14 20 26 14 20 26 Špičatost záporná nulová kladná Koeficient špičatosti g 2 = M 4 M 2 2 ` 3
Normální rozdělení N( ; ff 2 ) 1 σ 2π 1 σ 2πe 0 µ 2σ µ σ µ µ + σ µ + 2σ 8σ 1000 4σ 1000 0 µ + 3σ µ + 4σ
Plocha omezená Gaussovou křivkou 100% 4σ 0 4σ V intervalu h`4ff; 4ffi přibližně 99:99367 % hodnot. 50% 4σ 0 4σ
68 95 99 68.3% σ 0 σ 95.4% 99.7% 2σ 0 2σ 3σ 0 3σ
Volba parametrů a ff 0 0.2 0.4 0.6 0.8 µ = 0, σ = 1 µ = 2, σ = 1 µ = 0, σ = 2 µ = 0, σ = 0.5 4 2 0 2 4 0.8
Graf distribuční funkce 0 0.5 0.84 1 0 µ µ + σ F ( + ff) : = 0;5 + 0;68=2 = 0;84
Normované normální rozdělení, N(0; 1) Normální rozdělení = 0, ff 2 = 1 Ať X má rozdělení N( ; ff 2 ), potom X 0 = X ` ff má rozložení N(0; 1) standardizace.
Pearsonovo rozdělení ffl 2 (n) Součet druhých mocnin náhodných veličin s normálním rozdělením, X 1 ; : : : ; X n mají rozdělení N(0; 1) X = X 2 1 + + X 2 n n stupně volnosti (nezávislé sčítance) D = (0; 1), f (x) a F (X ) jsou pro různé stupně volnosti tabelovány, E(X ) = n; var(x ) = 2n;
Pearsonovo rozdělení ffl 2 (n) 0 0.05 0.1 0.15 n = 20 n = 10 n = 6 0 5 10 15 20 25 30 35 40
Pearsonovo rozdělení ffl 2 (n) Pro rostoucí n se ffl 2 (n) blíží N(n; 2n) ffl 2 (10); N(10; 20) ffl 2 (20); N(20; 40) 0 0.05 0.1 0 0.05 0 10 20 ffl 2 (40); N(40; 80) 0 0.05 0 10 20 30 40 20 40 60
Studentovo rozdělení t(n) N má rozdělení N(0; 1) X má rozdělení ffl 2 (n) T = N p X p n n stupně volnosti, f (x) a F (X ) jsou pro různé stupně volnosti tabelovány, f (x) je sudá, E(T ) = 0; var(t ) = n n ` 2 ;
Studentovo rozdělení t(n) pro n > 30 platí t(n) N(0; 1) 0.0 0.1 0.2 0.3 0.4 N(0, 1) ν = 5 ν = 2 ν = 1 4 3 2 1 0 1 2 3 4
Fischer-Snedecorovo rozdělení F (m; n) X 1 má rozdělení ffl 2 (m) X 2 má rozdělení ffl 2 (n) F = X 1 m X 2 n m; n stupně volnosti, D = (0; 1), hodnoty jsou pro různé stupně volnosti tabelovány,
0 0.5 1 (5,5) (10,30) (40,40) 0 1 2 3