Př. : Stanovte jednotlivé četnosti a číselné charakteristiky zadaného statistického souboru a nakreslete krabicový graf:, 8, 7, 43, 9, 47, 4, 34, 34, 4, 35. Statistický soubor seřadíme vzestupně podle velikosti a určíme jednotlivé četnosti.
v i n i p i m i F i 9 / / / / 7 / 3 3/ 34 / 5 5/ 35 / 6 6/ 4 / 7 7/ 4 / 8 8/ 43 / 9 9/ 47 / 0 0/ 8 / V tabulce jsou v prvním sloupci uvedeny jednotlivé varianty proměnné, v ostatních sloupcích jednotlivé četnosti. 3
Z tabulky dále vidíme, že: v min = 9, v max = 8. Variační rozpětí Rje tedy rovno: R = vmax vmin = 8 9 = 63. V tomto případě budeme výběrový průměr počítat jako aritmetický průměr: x n = n i= x i = ( 9 + + 7 + 34 + 34 +... + 8) = & 38,7. 4
Modus je ta varianta (příp. varianty) proměnné s největší četností. V našem případě máme modus Mod= 34. Přistupme nyní ke stanovení kvantilů. Výběrový soubor musíme uspořádat podle velikosti a každému pozorování přiřadíme jeho pořadí. Zaměřme se pouze na dolní kvartil, medián a horní kvartil. 5
Pro pořadí dolního kvartilu platí: z0,5 = 0,5 + 0,5 = 3,5, jelikož pořadí není celé číslo, bude dolním kvartilemaritmetický průměr 3. a 4. hodnoty: x 7 + 34 0,5 = = 30,5. x i Pořadí 9 7 3 34 4 34 5 35 6 4 7 4 8 43 9 47 0 8 6
Mediánem bude hodnota s pořadím: z0,5 = 0,5 + 0,5 = 6, mediánem bude tedy pozorování s pořadím 6, tedy: x 0,5 = 35. Pro horní kvartil platí: 4 + 43 z0,75 = 0,75 + 0,5 = 8,75 x0, 75 = = 4,5. 7
s Pro výběrový rozptyl můžeme psát: n = n i= [ ] = & 84,0. ( x i x) = ( 9 38,7) +... + ( 8 38,7) Výběrovou směrodatnou odchylku stanovíme: s = s = 84,0 = & 6,85. Pro variační koeficient platí: V x s 6,85 = = = & x 38,7 0,44 = 44%. 8
Na základě znalosti dolního a horního kvartilu můžeme stanovit interkvartilové rozpětí: IQR = x0,75 x0,5 = 4,5 30,5 =. Nyní přistupme ke stanovení mediánu absolutních odchylek od mediánu. Spočítáme tedy absolutní hodnoty odchylek jednotlivých pozorování od mediánu a stanovíme jejich medián. 9
x i Pořadí x i -x 0,5 Pořadí 9 6 0 3 9 7 3 8 7 34 4 3 34 5 35 6 0 4 7 6 4 4 8 7 5 43 9 8 6 47 0 8 8 47 z0,5 = 0,5 + 0,5 = 6, medián absolutních odchylek od mediánu bude tedy hodnota s pořadím 6, tedy: MAD = 8. 0
Nyní se pokusíme identifikovat odlehlá pozorování. ad ) Identifikace podle vnitřních hradeb: Dolní hradba x Horní hradba,5 IQR = 30,5,5 =,5. 0,5 = x 5,5 0,75 IQR = 4,5 +,5 = 60,5. Vidíme, že mimo vnitřní hradby leží pouze pozorování x = 8, může být tedy identifikováno jako odlehlé.
ad ) Identifikace pomocí z-souřadnice: Spočítejme z-souřadnici pro. pozorování: 9 38,7 z souř. = = &,7 z souř. 6,85 můžeme tedy tvrdit, že zleva nebudeme mít žádné odlehlé pozorování. Spočítejme z-souřadnici pro. pozorování: 8 38,7 z souř. = = &,57 z souř. 6,85 můžeme tedy tvrdit, že ani zprava nebudeme mít žádné odlehlé pozorování. 3, 3,
ad 3) Identifikace pomocí x 0,5 -souřadnice: Spočítejme x 0,5 -souřadnici pro. pozorování: x 9 35 souř. = = &,35 x0,5 souř.,483 8 0,5 zleva tedy nebudeme mít žádné odlehlé pozorování. Spočítejme x 0,5 -souřadnici pro. pozorování: x 8 35 souř. = = & 3,96 x0,5 souř.,483 8 0,5 > pozorování x = 8 může být identifikováno jako odlehlé. 3, 3, 3
Ověřme ještě mediánovou souřadnici 0. pozorování: x 47 35 souř. 0 = = &,0 x0,5 souř.,483 8 0,5 0. pozorování již odlehlé není, zprava už žádné další odlehlé pozorování nemáme. 3, 4
Nyní přistupme k nakreslení krabicového grafu. Při jeho sestavě budeme uvažovat s tím, že pozorování 8 jsme identifikovali jako odlehlé. 0 0 40 60 80 00 5
Př. : V systému hromadné obsluhy byla sledována doba obsluhy v [min]. Rozdělte získaný statistický soubor do tříd, vypočtěte základní číselné charakteristiky (výběrový průměr, rozptyl ve vážené formě) a data znázorněte pomocí histogramu. 6
Statistický soubor: 68, 7, 7, 78, 8, 8, 87, 9, 9, 9, 95, 97, 0, 0, 0, 03, 05, 05, 09, 0,,,,,, 4, 4, 4, 5, 6, 8, 9,,,, 4, 6, 3, 33, 37. Rozsah souboru n= 40. 7
Ze zadaného statistického souboru vyčteme, že nejnižší varianta proměnné v min = 68, nejvyšší varianta proměnné v max = 37, pro variační rozpětí tedy platí: R = vmax vmin = 37 68 = 69. Počet tříd odhadneme pomocí Sturgesova pravidla: k + 3,3 log n = + 3,3 log 40 = & 6,9 = & 6. 8
Šířku třídy stanovíme podle vztahu: h R k = 69 6 =,5 = &. Vynásobíme-li počet tříd kse stanovenou šířkou třídy h, dostaneme 7, tedy o 3 více než je variační rozpětí. Nyní musíme vhodně zvolit dolní hranici. třídy, zvolme ji o,5 nižší než je minimální varianta proměnné v min, tedy 66,5. 9
Index třídy Třída Třídní znak Četnost n i (66,5; 78,5 7,5 4 (78,5; 90,5 84,5 3 3 (90,5; 0,5 96,5 8 4 (0,5; 4,5 08,5 3 5 (4,5; 6,5 0,5 9 6 (6,5; 38,5 3,5 3 40 U jednotlivých tříd volíme interval zleva otevřený, zprava uzavřený, s takovým intervalem pracuje i Excel. 0
Nyní přistoupíme k výpočtu výběrového průměru a rozptylu ve vážené formě: x s k = n i z i = & n 40 = i= n k i= n i ( z x) i ( 4 7,5 + 3 84,5 +... + 3 3,5 ) = & 05,0,, = 40 [ ( ) ( ) ] 4 7,5 05,0 +... + 3 3,5 05,0 = & 73,4.
Jelikož se při výpočtu výběrového průměru a rozptylu ve vážené formě nahrazují všechna pozorování v jedné třídě jednou zástupnou hodnotou třídním znakem, dopouštíme se samozřejmě nepřesností, viz tabulka. Z původních dat Z roztřízených dat Výběrový průměr 05,68 05,0 Výběrový rozptyl 99,97 73,4
4 Histogram četností 0 8 6 4 0 (66,5; 78,5 (78,5; 90,5 (90,5; 0,5 (0,5; 4,5 (4,5; 6,5 (6,5; 38,5 3