Úvod do kurzu Moodle kurz (a) https://dl1.cuni.cz/course/view.php?id=2022 (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost Výpočty online: www.statisticsonweb.tf.czu.cz Začátek výuky posunut na 17:40 Zápočet (a) test statistika: 2 příklady (b) test pravděpodobnost: 3 příklady (c) tabulky z www povoleny a tahák na A4 Hodnocení testů 18 až 20 bodů známka 1 15 až 17 bodů známka 2 12 až 14 bodů známka 3 Grafické značení příkazu pro excel 1
2
Přednáška 1: Statistické metody 2. března, 2017 1.1 Popisná statistika Popisná statistika sbírá data, třídí je a prezentuje je. Snaží se data popsat přehledně. Matematická statistika se snaží vytáhnout data pro závěry a rozhodnutí. Jejín základy byly položeny roku 1933. 1.1.1 Charakteristika polohy rozsah x 1,..., x n aritmetický průměr x = 1 n (x 1 +... + x n ), pro excel se používá AVERAGE(), PRUMER() kvadratický průměr K = x2 = harmonický průměr 1 n (x2 1 +... + x2 n) xˆ h využívá se například pro rychlosti modus ˆx medián x Kvartil je nejčastější hodnota, nemusí existovat nebo jich může být více není určen jednoznačně MODE() je prostřední hodnota (u lichého počtu a u sudého je to průměr prostředních dvou hodnot) MEDIAN() je rozdělení souboru o n prvcích po 25 % respektive po čtvrtinách. První kvartil je prvních 25 %, druhý kvartil je 25 až 50 %, třetí kvartil je 50 až 75 % a čtvrtý kvartil je 75 až 100 % QUARTILE.INC(Data; Typ), QUARTIL.EXT(Data; Typ) typ 0 - minimum typ 1 - dolní kvartil tip 2 - mediáln typ 3 - horní kvartil typ 4 -maximum dolní kvartil x 25 je 25 % hodnot by mělo být menších nebo rovných x 25 a 75 % větších než x 25. Je to první kvartil. QUARTILE.INC(Data; Typ) horní kvartil x 75 je 75 % hodnot by mělo být menších nebo rovných x 75 a 25 % větších než x 75. Je to čtvrtý kvartil. QUARTILE.INC(Data; Typ) decily x 10 1. decil je prvních 10 % menších hodnot a 90 % větších hodnot. Druhý decil je 20 % menších hodnot a 80 % větších hodnot. percentil x 1 Dělení celku na setiny (protcenta). 3
1 Statistické metody 1.1.2 Charakteristika variability směrodatná odchyla výběrová někdy jí nazýváme jako nestranná odchylka značíme ji (x s = 1 x) 2 +...+(x n x) 2 n 1, SMODCH.VYBER() směrodatná odchylka (populační) není nestranná s 1 = n ((x 1 x) 2 +... + (x n x) 2 ), SMODCH() rozpětí R = x max x min mezokrartilové rozpětí R = x75 x 25 odlehlé hodnoty jsou hodnoty, které jsou mimo naše hodnoty respektyve vyčnívají. Mohou vzniknout i chybou měření. Určujeme je pomocí různých metod. Turkey test: Horní hodnoty = x 75 + 1, 5 R Dále existuje Grubsův test nebo Dixonův test rozptyl = (s ) 2 je směrodatná odchylka na druhou chyba střední hodnory = s n Turgersovo pravidlo je doporučený počet tříd do kterých se mají data rozdělit pro zobrazení v histogramu k = 1 + 3, 3 log(n) 1.1.3 Charakteristika šikmosti a špičatosti Neprobírali jsme, jen jsme se zmínil, že to existuje. Vztahuje se to především ke grafickému znárornění statistických souborů. 1.1.4 Grafické vyjádření Statistická data můžeme vyjádřit grafem. histogram sloupkový diagram kruhový doagram krabicový diagram box plot Příklad 1. Věk účastníků je: 14, 19, 21, 21, 21, 21, 21, 22, 22, 23, 24, 25, 25, 28, 28, 28, 29, 29, 30, 31, 31, 31, 32, 32, 33, 33 a 49. Určete: (a) průměr =....................................................................................... (b) modus =....................................................................................... (c) minimum =..................................................................................... (d) dolní kvadril =................................................................................. (e) medián =....................................................................................... (f) horní kvartil =.................................................................................. (g) maximum =.................................................................................... (h) směrodatná odchylka výběrová =............................................................... (i) směrodatná odchylka =......................................................................... Řešení příkladu 1.d a 1.f: Hodnoty seřadíme vzestupně (od nejmenšího po největší). Označíme je hodnotami 0 až n pro dolní kvartil a pro horní kvartil 1 až n. Hodnoty 14 19 21 21 21 21 21 22 22 23 24 25 25 28 28 28 29 29 kvartil n 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 30 31 31 32 32 33 33 49 18 19 20 21 22 23 24 25 4
1 Statistické metody (d) Dolní kvartil: z n 1 vezmu 25 % = q + s, kde q je celá část a s je zlomková část. Hodnotu vypočtu z q.-tá hodnota + (s (q + 1) q-tá hodnota) (f) Horní kvartil: z n + 1 vezmu 25 % = q + s, kde q je celá část a s je zlomková část. Hodnotu vypočtu z q.-tá hodnota + (s (q + 1) q-tá hodnota) 25 % z 27 je 6,75 tj.: q + s = 6 + 0, 75, po dosazení do vzorce: 21 + 0,25(22-21)=21,75 Řešení příkladu 1.e: Máme 26 hodnot, tedy lichý počet, proto je medián průmer prostředních dvou hodnot tj. 13. a 14. n. Soubor seřadíme podle velikosti od nejmenšího po nejvetšího. Hodnoty 14 19 21 21 21 21 21 22 22 23 24 25 25 28 28 28 29 29 medián n 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 30 31 31 32 32 33 33 49 19 20 21 22 23 24 25 26 Příklad 2. Ve tříde A a B psali test s hodnocením 0 až 10 bodů. Určete, zda můžeme říct, že třída A je lepší než B. Víme, že Třída A má pokaždé aritmetický průměr testů 6 bodů a třída B 5 bodů. A: 7 5 4 9 1 8 8 A: 7 5 5 6 7 6 6 B: 5 2 5 3 6 8 4 7 B: 5 5 4 6 5 5 6 4 Řešení příkladu 2: O datech nemůžeme rozhodnot jen na základě aritmetického průměru, ale musíme brát také vpotaz rozptyl dat. Pokud jsou bízko, pak nemůžeme vyvozovat závěr z aritmetického průměru, že A je lepší než B, protože jsou srovnatelné. 5