Projekt: Inovace oboru Mechatronik pro Zlínský kraj Registrační číslo: CZ.1.07/1.1.08/03.0009 23. Matematická statistika Statistika je věda, která se snaží zkoumat reálná data a s pomocí teorii pravděpodobnosti se tato data snaží popisovat. Matematická statistika Je soubor metod sloužících k zevšeobecňování informací získaných z náhodného výběru. Řeší dva základní typy úloh: statistické odhady testování hypotéz. Pro matematickou statistiku je typické, že všechny závěry učiněné na jejím základě mají pravděpodobnostní charakter, tj. jsou zatíženy určitým stupněm nejistoty. Nejstarší součástí matematické statistiky je teorie chyb a vyrovnávací počet. Matematická statistika bývá někdy nazývána statistickou indukcí. Ve statistice se pracuje s několika základními pojmy, které si zde popíšeme. statistický soubor a jeho velikost - konečná množina nějakých dat, která chceme zkoumat. Velikost je dána počtem dat v statistickém souboru a značí se n. Data mohou být obecná, může to být v zásadě cokoliv. statistická jednotka - je konkrétní prvek statistického souboru. statistický znak - je to, co chceme měřit. Statistický znak může být buď kvalitativní nebo kvantitativní. Kvantitativní (kvantita = množství, počet) znak je takový znak, který je vyjádřitelný čísly (například plat, výška, počet dětí, ), kvalitativní znak je pak vyjádřitelný slovně (barva, ano/ne, zaměstnání, ). četnost - může být buď relativní nebo absolutní a udává, kolik hodnot daného znaku se vyskytuje ve statistickém souboru buď absolutně, nebo relativně vzhledem k celkovému počtu prvků souboru. 1
Takže absolutní četnost hodnoty statistického znaku n(a) udává počet výskytů daného statistického znaku ve statistickém souboru. Relativní četnost je podíl absolutní četnosti k celkové velikosti statistického souboru: n ( A) p(a) = n n celkový počet pokusů, n(a) kolikrát nastal jev A modus mod (x) je nejčastěji se vyskytující hodnota statistického souboru. medián med(x) je: o o prostřední hodnota statistického souboru, v němž jsou statistické jednotky uspořádány podle velikosti a kterých je lichý počet aritmetický průměr dvou středních statistických jednotek, pokud statistický soubor má sudý počet statistických jednotek histogram neboli sloupkový diagram je grafické zobrazení absolutních (relativních) četností, používá se jsou-li hodnoty znaku sdruženy do intervalů polygon četností neboli spojnicový diagram je spojení bodů, jejíž první souřadnice je hodnota kvantitativního znaku a druhá souřadnice je odpovídající četnost kruhový kde znaku četnost 15 10 5 0 1 2 3 4 Známka z matematiky chlapci dívky výseče, jejichž plošné obsahy jsou úměrné četnostem diagram, různým hodnotám odpovídají kruhové Rozdělení řešitelů podle typu škol ; SOU; 2133 SOŠ; 6263 Gymnázia a lycea; 1174 2
Charakteristiky polohy zahrnují: a) Aritmetický průměr: b) Geometrický průměr: c) Harmonický průměr: Charakteristiky variability zahrnují: a) Variační rozpětí R = x max - x min b) Rozptyl (disperze) c) Směrodatná odchylka Základy popisné statistiky rozbor příkladu: Nechť máme statistický soubor (tj. n čísel): x 1, x 2, x n. Tato čísla (hodnoty náhodné veličiny) seřadíme dle velikosti od nejmenší po největší: x MIN x MAX. Čísla seřadíme do intervalů (TŘÍD). Počet tříd k udává Sturgessovo pravidlo: Ilustrační příklad: k = 1+ 3,3 log n V hokejové lize mají brankaři úspěšnost zákroků následující: 86,2%; 88,2%; 90,1%; 89,1%; 93%; 92,7%; 93,8%; 94,2%; 95%; 93,4%; 71,2%; 99,9%. 3
Uveďte základní charakteristiky statistického souboru. Nejdříve hodnoty seřaďme: 71,2; 86,2; 88,2; 89,1; 90,1; 92,7; 93; 93,4; 93,8; 94,2; 95; 99,9 Můžeme ořezat tzv. odlehlé hodnoty, zde jsou to zjevně hodnoty 71,2 a 99,9. Velikost statistického souboru je n = 10. Statistický znak je vyjádření úspěšnosti brankáře (kvantitativní). Sturgessovo pravidlo k = 1 + 3,3log10 = 4 říká, že tento soubor rozdělíme do 4 tříd (intervalů). Vypočteme velikost takového intervalu tak, že odečteme nejnižší hodnotu od nejvyšší a vydělíme 4, tedy (95-86,2) : 4 = 2,2. Máme tedy 4 třídy v intervalech 86,2-88,4; 88,4-90,6; 90,6-92,8; 92,8-95. Absolutní četnosti (počty hodnot) v příslušných třídách jsou 2, 2, 1, 5. Relativní četnosti jsou 2/10 = 1/5, 2/10 = 1/5, 1/10 a 5/10 = 1/2. Vše je možné přehledně uspořádat do tabulky rozdělení četností: interval (třída) absolutní. četnost relativní četnost relativní četnost % 86,2-88,4 2 1/5 20% 88,4-90,6 2 1/5 20% 90,6-92,8 1 1/10 10% 92,8-95 5 1/2 50% Z uvedeného je možno odvodit: n 1. p ( A) = 1 součet relativních četností je roven 1 i= 1 n i 2. n ( A) n součet absolutních četností je roven velikosti souboru n i=1 i = 3. Součet relativních četností v procentech musí být 100%. Modus nelze jednoznačně určit, jelikož každá hodnota se v souboru vyskytuje pouze jednou. Za medián lze vzít buď hodnotu 92,7 %, nebo 93 % (hodnoty uprostřed seřazené řady). Medián med(x) = (92,7 + 93) : 2 = 92,85 Nyní vytvoříme histogram četností: 4
Histogram Relativní četnost 0 3/5 1/2 2/5 3/10 1/5 1/10 1 2 3 4 Třída = interval četností Aritmetický průměr úspěšnosti brankařů je x = ( 86,2 + 88,2 + + 95 ) / 10 = 91,6 %. 2 Rozptyl výběru je s = [ (86,2-91,6) 2 + (88,2-91,6) 2 + + (95-91,6) 2 ] / 10 = 8,4. Směrodatná odchylka je s = 8,4 = 2, 9. Příklady k procvičení: 1. Měřením v laboratoři byly zjištěny následující délky válečku (v milimetrech): {302;310;312;310;313;318;305;309;310;309}. Vypočítejte aritmetický, geometrický průměr, modus a medián. Řešení: Množinu čísel uspořádáme podle velikosti: {302; 305; 309; 309; 310; 310; 310; 312; 313; 318} 2. Dva myslivci, myslivec A a myslivec B soutěžili v střelbě na terč. Který střílel přesněji a soutěž vyhrál, jestliže měli následující zásahy? A = {9;8;8;8;7}, B = {10;10;8;7;5} 5
Řešení: Myslivec A Myslivec B Rozptyl myslivce A je s 2 (A) = 0,4, myslivce B je s 2 (B) = 3,6. Platí s 2 (A) < s 2 (B). Lepší střílel a soutěž vyhrál myslivec A. 6