Semestrální projekt do předmětu Statistika Vypracoval: Adam Mlejnek 2-36 Oponenti: Patrik Novotný 2-36 Jakub Nováček 2-36
Úvod Pro vypracování projektu do předmětu statistika jsem si zvolil průzkum kvality stravování v menzách ČVUT. Data jsem získal pomocí průzkumu, který probíhal jako internetový dotazník s 8 otázkami se zaměřením na kvalitu v menzách. Zvolil jsem si jednu z otázek, kterou jsem podrobil statistickým výpočtům. Tuto úlohu vypracovávám sám, jelikož kolega, který měl s semnou spolupracovat ukončil studium. Návštěvnost jednotlivých menz Graf 1: na svislé ose menzy, na vodorovné ose počet studentů Z grafu vyplívá, že studenti ČVUT preferují nejvíce Studentský dům, který se nachází v Dejvicích. Jeto zapříčiněno umístěním nejvíce fakult CVUT právě v Dejvicích. Intervalové rozdělení do dat do tabulky četností Variační rozpětí: = = 48 4 = 44 V datech si vyhledám maximum a minimum. Vypočtu variační rozpětí jako rozdíl maximální a minimální hodnoty. Výsledek nám řekne, že menza s největší návštěvností má o 44 studentů více než menza s nejmenším počtem. Počet tříd: = = 7 = 2,645 3 Vypočítám jako druhou odmocninu od celkového počtu dat v souboru. Tohle číslo mi udává jaký je nejvhodnější počet intervalu pro roztřídění dat. V mém případě 3
Šířka třídy: h= =44 3 = 14,66 14 Ukazuje velikost intervalu jedné třídy. Tahle velikost by měla být ve všech intervalech stejná. Veličina vzorec výsledek Počet hodnot 4 Variační rozpětí = 44 Počet tříd = 3 Šířka tříd h = 14 Tabulka 1: Tabulka s výpočty variačního rozpětí, počtu tříd a šířky tříd 5 Řada 1 4 3 2 Řada 1 1 0 méně než 14) <14,28) <28 a v9ce Graf 2: histogram rozdělení absolutní četnosti počtu studentů v menzách Nejprve si rozdělím data do intervalů podle jejich četností. Absolutní četnost ( ) mi říká počet menz, které spadají do určitého intervalu s počtem studentů. Interval <28 a více má největší absolutní četnost a situaci ostatních intervalů jsem zachytil v histogramu (Graf 2). Vypočtu si středy tříd a to jako střední hodnotu intervalů ( ) a dále relativní četnost ta mi udává podíl absolutní četnosti na celkovém počtu hodnot (p i ). Součtová absolutní četnost (kf i ) i součtová relativní četnost (kp i ) se počítají stejně, sečtou se všechny předcházející hodnoty u dané četnosti. Úhrn znamená průměrnou hodnotu kolem, které veličina kolísá. Vypočtu ho velice jednoduše, vynásobím střed třídy a absolutní četnost. Z výsledků jsem vytvořil tabulku 2.
Střed třídy ( ) Absolutní četnost ( ) Součtová absolutní četnost (kf i ) Relativní četnost (p i ) Součtová relativní četnost (kp i ) Úhrn ( ) Méně než 14) 7 2 2 0,29 0,29 14 <14, 28) 23 1 3 0,14 0,43 23 <28 a více 35 4 7 0,57 1 140 7 1 Charakteristiky polohy Kvantily: Hodnoty, jež rozdělují data v mém souboru v určitém poměru. Dolní kvartil, medián a horní kvartil rozdělují soubor celkem na čtyři části. Medián (označujeme, nebo ): Rozděluje soubor na dvě stejné části. Výsledek nezkreslují extrémní hodnoty, záleží pouze na prostředních hodnotách. Jako první vyberu třídu u níž součtová relativní četnost přesahuje hodnotu 0,5. V mých datech to je třída <28 a více, jako kontrola mi bude sloužit to, že výsledek by měl patřit do téhle třídy. je počáteční hodnota intervalu. je hodnota kvantilu, který hledáme (0,5). h je šířka třídy. relativní četnost přislušné třídy a 1 je součtová relativní četnost třídy předchozí., = + h 0,5 0,14, =28+ 14 = 36,84 37 0,57 Výsledek leží v určeném intervalu a znamená, že 4 menzy mají méně než 37 studentů Aritmetický průměr: Nejpopulárnější charakteristika polohy. Označujeme. Na rozdíl od mediánu ho zkreslují extrémní hodnoty. Pro výpočet průměru dosadím do vzorečku úhrn intervalů, které jsem si vypočítal v tabulce 2 a vydělím počtem celkových hodnot.
= 1 = + + + = 1 177 25 7 Průměrný počet studentů je 25. Průměr se dost liší od mediánu, kvůli rozdělení dat v souboru, jsou zde menzy s malým počtem. Leží však mezi maximem a minimem, a proto by měl být správný. Charakteristiky variability Střed třídy ( ) Absolutní četnost ( ) x i - medián * f i x i arit.průměr * f i x i arit.průměr 2 * f i Méně než 14) 7 2 60 36 1236 <14, 28) 23 1 14 2 602 <28 a více 35 4 8 60 2360 7 82 98 4198 Tabulka 3: Tabulka pro výpočet charakteristik variability Rozptyl: Jedná se o kolísavost, variabilitu konkrétních hodnot náhodné veličiny kolem její střední hodnoty. Je to taky nejmenší průměrná čtvercová odchylka od aritmetického průměru. Je vždy nezáporný. Spíše se využívá pro komentáře směrodatná odchylka, protože rozptyl se udává v měrných jednotkách na druhou. Vypočtu ho podobně jako absolutní odchylky, vypočítám si nejprve dílčí výsledky xi arit.průměr 2 * fi, jejich sumu vydělím celkovým počtem menz. = 1 ( ) = 1 82 = 11,71 7 Rozptyl počtu studentů v 7 menzách jsem vyčíslil na 12. Směrodatná odchylka: Jedná se o průměrnou odchylku náhodné veličiny x od její střední hodnoty, matematicky se jedná o odmocninu z rozptylu. Ukazuje, jak moc se od sebe jednotlivé hodnoty navzájem liší. Pokud je odchylka malá, znamená to, že jsou si hodnoty v souboru podobné. Je-li velká, jedná se o velmi různorodá a odlišná data. Vypočtu ho pomocí vzorce:
= = 11,71 = 3,42 3 Směrodatná odchylka 3 od průměru 25 vyjadřuje spíše větší variabilitu, což znamená vcelku nepodobné hodnoty souboru. Variační koeficient: Udává variabilitu souboru, to znamená kolik procent z průměru tvoří směrodatná odchylka. Vyčíslím ho jako směrodatná odchylka dělená aritmetickým průměrem, protože je bezrozměrný vyjádřím ho v procentech (násobím 100). Čím je vypočtené číslo variačního koeficientu větší, tím se data od sebe víc liší. = 100 = 3 100 = 12 % 25 Pomocí variačního koeficientu vyvodím přesnější závěr než u směrodatné odchylky. Vyšel mi variační koeficient 12%, z čehož vyplývá, že se hodnoty od průměru spíše vzdalují a sami od sebe mírně liší. Střed třídy ( ) Absolutní četnost ( ) x i arit.průměr 2 * f i x i arit.průměr 2 * f i Méně než 14) 7 2 1236 21 700 350 <14, 28) 23 1 602 9 207 775 <28 a více 35 4 2360 288 300 7 4198 79 893 875 Intervalový odhad Tabulka 4: Tabulka pro výpočet intervalového odhadu Chybu si volím 5% 95% intervalový odhad pro střední hodnotu Pro výpočet 95% intervalu využiju vzorec: + =1
Vypočítám dílčí pomocné výsledky jako ( ) = (7 25) 2 x 2 = 648, dále postupuju pro všechny třídy. Dosadím do vzorce pro výpočet rozptylu a směrodatné odchylky: = 1 4198 = 699,6 6 = = 699,6 = 26,45 Jako poslední veličinu si ve statistických tabulkách najdu hodnotu pro u 0,975 při riziku 5% (tabulka Kvantily u p normované normální veličiny): 1 2 = 0,975 = 1,96 Dosadím vše do prvního vzorce: 25 1,96 26,45 7 μ 25 + 1,96 26,45 7 =1 [5,4 44,59] = 0,95 S 95% pravděpodobností můžeme očekávat, že se střední hodnota bude nacházet ve vypočteném intervalu od 5,4 do 44,59 počtu studentů chodících do menz Dále v mém průzkumu: Z jáke jste fakulty?
Počet hodnot: 8, Minimum: 4, Maximum: 59, Průměr: 19,13, Medián: 14,5, Rozptyl: 251,11 Směrodatná odchylka: 15,85, Šikmost: 1,84, Špičatost: 5,14 Jak často navštěvujete menzu? Počet hodnot: 6, Minimum: 2, Maximum: 54, Průměr: 26, Medián: 26,5, Rozptyl: 309 Směrodatná odchylka: 17,58, Šikmost: 0,15, Špičatost: 1,84 Ve které menze nejlépe vaří? Počet hodnot: 7, Minimum: 4, Maximum: 51, Průměr: 22,71, Medián: 12, Rozptyl: 295,35 Směrodatná odchylka: 17,19, Šikmost: 0,46, Špičatost: 1,56
Připadá vám cena odpovídající nabídce? Počet hodnot: 4, Minimum: 15, Maximum: 58, Průměr: 39, Medián: 41,5 Rozptyl: 265,5, Směrodatná odchylka: 16,29, Šikmost: -0,35, Špičatost: 1,68 Spokojenost s čistotou menzy? Počet hodnot: 4, Minimum: 9, Maximum: 75, Průměr: 39,75, Medián: 37,5, Rozptyl: 702,69, Směrodatná odchylka: 26,51, Šikmost: 0,14, Špičatost: 1,34 Závěr: Z průzkumu jsem zjistil, jak na tom jsou jednotlivé menzy CVUT. Studenti CVUT nejvíce preferují menzu, studentský dům, která se nachází v Dejvicích. Snaha byla získat stejný počet dotazovaných ze všech fakult ČVUT. U všech fakult toho bylo téměř dosaženo, až na fakultu dopravní, která značně přesahuje počet dotazovaných. Pro návštěvnost jednotlivých menz jsem zpracoval výpočty jako jsou medián, rozptyl, směrodatnou odchylku apod. Tyto výpočty mi ukázali vazby mezi studentem a jednotlivými menzami.