I Přednáška Statistika Diskrétní data Spojitá data Charakteristiky polohy Charakteristiky variability
Statistika deskriptivní statistika ˆ induktivní statistika populace (základní soubor) ˆ výběr parametry základního souboru ˆ odhady Statistický soubor, statistická jednotka, statistický znak Statistická tabulka (matice) Soubor znak 1 znak 2 jednotka 1 a 11 a 12 jednotka 2 a 21 a 22....
Typy statistických dat kvalitativní nominální ordinální kvantitativní intervalové podílové diskrétní spojité
Znázornění diskrétních proměnných Četnost, rozdělení četností Příklad Počet příchozích na zkušební termín 26; 26; 24; 25; 25; 26; 26; 22; 26; 27; 25; 24; 25; 25; 26; 24; 27;. 1. rozsah, setřídit, 2. tabulka četností f i (variační řada), 3. variační interval, 4. variační rozpětí, 5. kumulativní četnosti F i, 6. relativní četnosti i, 7. relativní kumulativní četnosti i, 8. histogram, polygon, ogivní křivka, Paretův graf, 9. koláče (?), 3D grafy (?)
Znázornění spojitých proměnných Příklad Výška sněhové pokrývky: 35,8; 32,1; 32; 30,3; 29,6; 28,8; 29,3; 28,6; 27,1; 27,5; 28,8; 29,4; 30,4; 28,2 28,2 31; 27,7; 29,9; 33,9; 29,5; 31,6; 29; 31,1; 30,8; 29,8; 31,2; 23,7; 34,5 Třídní rozdělení dat Počet tříd (Sturgesovo pravidlo) k = 1 + 3;3 log 10 n h 0 = x max ` x min k Šířka třídy: h nejbližší vyšší celé. Krajní body intervalů patří vlevo.
Grafy Stem-and-leaf (lodyha s listy) 23 7 24 25 26 27 157 28 22688 29 0345689 30 348 31 0126 32 01 33 9 34 5 35 8 Počet měření 0 3 6 9 12 22 24 26 28 30 32 34 36 Výška sněhové pokrývky (cm) 22 24 26 28 30 32 34 36 Výška sněhové pokrývky (cm)
Charakteristiky polohy aritmetický průměr x = 1 n modus ^x, hodnota s největší četností (diskrétní veličina) medián ~x, hodnota uprostřed, dělí statistický soubor na poloviny p-kvantil hodnota x i, pro niž 100p % hodnot je menšínch než x i, i = np + 0;5 a interpolujeme 100p-percentil kvartily 0,25-kvantil, 0,75-kvantil (25-percentil a 75-percentil) x i, box with whiskers, krabička s vousy (6) vousy 1,5 mezikvartilového rozpětí, odlehlé hodnoty.
Variabilita Variační rozpětí R = x max ` x min Kvartilové rozpětí IQR = x 0;75 ` x 0;25 Populační rozptyl (variance, disperze) s 2 = 1 i ` x) n (x 2 = 1 n Směrodatná odchylka x 2 i ` x 2 s = p s 2, má stejnou jednotku jako data
Variační koeficient 3 12 21 6 24 42 Různé jednotky, jak srovnat směrodatné odchylky? Variační koeficient V x = s, směr. odchylka v násobcích průměru j xj
Centrální momenty k-tý centrální moment M k = 1 n (x i ` x) k M 1 = 0 M 2 0 populační rozptyl M 4 0 z-skóry z i = x i ` x s Zpravidla platí `3 < z i < 3 (výjimky jsou možné!). Vždy platí z i = 0
Šikmost 14 20 26 14 20 26 14 20 26 Šikmost záporná nulová kladná Koeficient šikmosti (populační) Obvykle: g 1 = M 3 q M 3 2 = M 3 M 2 q M2 = 1 n g 1 < 0, pak průměr < medián 0 < g 1, pak medián < průměr z 3 i = z 3
Špičatost 14 20 26 14 20 26 14 20 26 Špičatost záporná nulová kladná Koeficient koncentrace (populační) g 0 2 = M 4 M 2 2 = 1 n z 4 i = z 4 Koeficient špičatosti (populační) g 2 = g 0 2 ` 3 = 1 n z 4 i ` 3 = z 4 ` 3