TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar Zákoutská Počet stran: 17 Datum vypracování: 10. 05. 2016
Obsah Seznam obrázků... 3 Seznam tabulek... 3 Úvod... 4 1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo.... 5 1.1 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty... 5 1.1.1 Charakteristiky úrovně... 6 1.1.2 Charakteristiky variability... 7 1.1.3 Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu... 8 1.2 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu... 9 1.2.1 Charakteristiky úrovně... 10 1.2.2 Charakteristiky variability... 11 1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín... 12 2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut... 14 3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla.... 16 2
Seznam obrázků Obrázek 1: Histogram spotřeby nafty... 8 Obrázek 2: Box-and-Whisker Plot spotřeby nafty... 9 Obrázek 3: Histogram spotřeby benzínu... 12 Obrázek 4: Krabicový graf spotřeby benzínu... 13 Obrázek 5: Výsečový graf relativní četnosti barvy aut... 15 Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut... 15 Obrázek 7: Grafické znázornění výsledku koeficientu korelace... 17 Seznam tabulek Tabulka 1: Základní charakteristiky pro spotřebu nafty... 5 Tabulka 2: Základní charakteristiky pro spotřebu benzínu... 10 Tabulka 3: Tabulka četností barvy aut... 14 Tabulka 4: Tabulka výsledků lineární závisloti mezi proměnnými... 17 3
Úvod Semestrální práce z předmětu Statistický rozbor dat z dotazníkových šetření se zabývá analýzou výsledků dotazníkového šetření. Analýza je provedena pomocí již známých statistických metod s použitím statistického programu STATGRAPHICS Centurion XVII. Na analýze výsledků dotazníkového šetření se podílí několik skupin, jejichž úkolem je odpovědět na tři odlišné otázky. Otázky zpracovány v této práci jsou následující: 1. Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo. 2. Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut. 3. Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla. Tyto otázky jsou vypracovány v jednotlivých kapitolách této práce. 4
1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo. Prvním úkolem této semestrální práce je zjistit příslušné charakteristiky prostřednictvím programu Statgraphics a dále je interpretovat. Jednotlivé charakteristiky jsou v této kapitole rozlišeny dle paliva na naftu a benzín. Pro lepší představu jsou ke každému palivu ukázány dva grafy. Pro naftu jsou to Obrázky 1 a 2, dále pro benzín se jedná o Obrázky 3 a 4. 1.1 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty Z programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 1. Tyto charakteristiky jsou v následujících podkapitolách interpretovány. Tabulka 1: Základní charakteristiky pro spotřebu nafty Počet 95 Harmonický průměr 5,58098 Modus 6,3 Medián 5,7 Rozptyl 0,684446 Směrodatná odchylka 0,827312 Variační koeficient 14,46% Minimum 4 Maximum 6,9 Variační rozpětí 2,9 Dolní kvartil 5,2 Horní kvartil 6,3 Kvartilové rozpětí 1,1 Šikmost -0,932819 Zdroj: vlastní zpracování, 2016 5
1.1.1 Charakteristiky úrovně Zkoumaný soubor o velikosti 95 hodnot spotřeby nafty má následující charakteristiky: Harmonický průměr V případě výpočtu průměrné spotřeby je nutné užít harmonický průměr. Vzorec harmonického průměru je možné vidět níže. = (1) Průměrná spotřeba nafty je 5,58098 litrů na 100 km. Modus Jelikož se jedná o číselné proměnné má smysl do charakteristik zařadit i modus. Modus představuje variantu s největší četností a v našem případě vyšel = 6,3 litrů na 100 km. Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =, kde (2) V našem případě vyšel medián dle programu Statgraphics 5,7 litrů na 100 km. Intepretace: 50 % automobilů jezdících na naftu má spotřebu 5,7 litrů na 100 km a vyšší, nebo 50 % naftových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Jedná se o 3 kvantily, které rozdělují uspořádaný statistický soubor na 4 stejně četné části. V případě této semestrální práce byl získán dolní a horní kvartil. Dolní kvartil,, = 5,2 litru na 100 km. Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 5,2 litru na 100 km a nižší. Horní kvartil,, = 6,3 litru na 100 km. Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 6,3 litru na 100 km a vyšší. 6
1.1.2 Charakteristiky variability Tyto charakteristiky udávají rozptýlení hodnot kolem zvoleného středu, většinou kolem nějaké střední hodnoty. Variační rozpětí: Jedná se o velmi rychlé a jednoduché spočítání charakteristiky variability. Uvádí míru variability a vypočítá se dle vzorce: = (3) V případě našeho konkrétního případu vyšlo variační rozpětí 2,9 litrů na 100 km. Kvartilové rozpětí: Lze vypočítat dle vzorce: =,, (4) Rozdíl mezi horním a dolním kvartilem spotřeby nafty je 1,1 litru na 100 km. Rozptyl: Rozptyl spotřeby nafty byl zjištěn 0,684446 litru na 100 km. Směrodatná odchylka: Tato charakteristika udává, jak se v průměru odlišují jednotlivé hodnoty znaku od aritmetického průměru v obou směrech. Lze ji získat dle vzorce: = (5) V našem případě jednotlivé spotřeby nafty se liší od průměrné spotřeby v průměru o 0,827312 litru na 100 km. Variační koeficient: Jedná o bezrozměrné číslo. Udává, z kolika procent se v průměru odchylují jednotlivé hodnoty od aritmetického průměru. Lze ho zjistit pomocí vzorce: = (6) Variační koeficient zde vyšel 14,46 %. V průměru se tedy jednotlivé spotřeby odchylují od aritmetického průměru o 14,46 %. Variabilita je považována za nízkou. 7
1.1.3 Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu V této kapitole je dobré zaměřit se na charakteristiky šikmosti a špičatosti. V našem případě jen na charakteristiku šikmosti. Cyhelského míra šikmosti = (7) Dle programu Statgraphics vyšla míra šikmosti -0,932819. Což znamená, že se jedná o záporně sešikmené rozdělení. V souboru je tedy více hodnot nadprůměrných než podprůměrných. Obrázek 1: Histogram spotřeby nafty Zdroj: Stratgraphics, 2016 8
Obrázek 2: Box-and-Whisker Plot spotřeby nafty Zdroj: Statgraphics, 2016 1.2 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu V programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 2. Tyto charakteristiky jsou v následujících podkapitolách interpretovány. 9
Tabulka 2: Základní charakteristiky pro spotřebu benzínu Počet 161 Harmonický průměr 7,20643 Modus 8,8 Medián 7,8 Rozptyl 1,59067 Směrodatná odchylka 1,26122 Variační koeficient 16,95% Minimum 5,1 Maximum 9 Variační rozpětí 3,9 Dolní kvratil 6,4 Horní kvartil 8,8 Mezi kvartilové rozpětí 2,4 Šikmost -0,397824 Zdroj: vlastní zpracování 1.2.1 Charakteristiky úrovně Pro přehlednost jsou zde vztahy pro výpočet charakteristik uvedeny ještě jednou. Zkoumaný soubor o velikosti 161 hodnot spotřeby benzínu má následující charakteristiky: Harmonický průměr = (8) Průměrná spotřeba benzínu je 7,20643 litrů na 100 km. Modus Modus představuje variantu s největší četností a v našem případě vyšel = 8,8 litrů na 100 km. 10
Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =, kde (9) V našem případě vyšel medián dle programu Statgraphics 7,8 litrů na 100 km. Čili, 50 % automobilů jezdících na benzín má spotřebu 7,8 litrů na 100 km a vyšší, nebo 50 % benzínových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Dolní kvartil, 25 % automobilů značky Ford jezdících na benzín má spotřebu 6,4 litrů na 100 km a nižší. Horní kvartil, 25 % automobilů značky Ford jezdících na benzín má spotřebu 8,8 litrů na 100 km a vyšší. 1.2.2 Charakteristiky variability Variační rozpětí = (10) Variační rozpětí spotřeby benzínu činí 3,9 litrů na 100 km. Kvartilové rozpětí =,, (11) Rozdíl mezi horním a dolním kvartilem spotřeby benzínu je 2,4 litrů na 100 km. Rozptyl Rozptyl spotřeby benzínu byl vyčíslen na 1,59067 litrů na 100 km. Směrodatná odchylka = (12) 11
Jednotlivé spotřeby benzínu se liší od průměrně spotřeby v průměru o 1,59067 litrů na 100 km. Variační koeficient = (13) V průměru se jednotlivé hodnoty od aritmetického průměru odlišují o 16,95 %. 1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín Cyhelského míra šikmosti = (14) Dle programu Statgraphics vyšla míra šikmosti -0,397824. Což znamená, že se jedná o záporně sešikmené rozdělení, čili v souboru je více hodnot nadprůměrných než podprůměrných. Obrázek 3: Histogram spotřeby benzínu Zdroj: Statgraphics, 2016 12
Obrázek 4: Krabicový graf spotřeby benzínu Zdroj: Statgraphics, 2016 13
2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut Druhým výzkumným problémem bylo zjistit, zda bílá auta tvoří alespoň 40 % ze všech aut. Tato proměnná je slovní a nelze ji hierarchicky uspořádat, jedná se tedy o nominální proměnnou. Pomocí programu Statgraphics byly zjištěny následující údaje. V celkovém rozsahu souboru 256 pozorování se vyskytuje 6 možných barevných provedení aut. Na základě vygenerovaných údajů bylo zjištěno, že v souboru se nachází 82 bílých aut, které procentuálně tvoří 32,03 %. Absolutní a relativní zastoupení dalších barev je zobrazen pomocí následující tabulky 3. Tabulka 3: Tabulka četností barvy aut Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency 1 Bila 82 0,3203 82 0,3203 2 Cerna 48 0,1875 130 0,5078 3 Cervena 42 0,1641 172 0,6719 4 Modra 20 0,0781 192 0,7500 5 Stribrna 44 0,1719 236 0,9219 6 Zelena 20 0,0781 256 1,0000 Zdroj: Statgraphics, 2016 Pro grafické znázornění relativní četnosti nominální proměnné je vhodné použít výsečový graf. Vygenerovaný výsečový graf můžeme vidět na obr. 5. Největší procentuální zastoupení tvoří bílá auta 32,03 %, následována černými auty s 18,75 % a třetí nejčastěji objevovanou barvou jsou červená auta s 16,41% zastoupením. 14
Obrázek 5: Výsečový graf relativní četnosti barvy aut Zdroj: Statgraphics, 2016 Pro grafické zobrazení absolutní četnosti barvy aut byl využit Barchart neboli úsečkový graf, který můžeme vidět na obr. 6. Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut Zdroj: Statgraphics, 2016 Na základě zjištěných údajů je patrné, že bílá auta netvoří 40 % a více ze všech aut. 15
3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla. V této kapitole se budeme zabývat tím, zda počet návštěv servisů autorizovaných i neautorizovaných závisí na příjmu majitele vozidla. Jedná se o číselné proměnné, tudíž použijeme pro zjištění závislosti korelační analýzu. Budeme tedy zjišťovat lineární závislost mezi oběma proměnnými, kdy využijeme test hypotézy o nulové hodnotě korelačního koeficientu. 1. Určíme hypotézu H0 a H1, kde budeme testovat, zda existuje závislost počtu návštěv servisů a příjmu majitele vozidla. H0: ρyx = 0 (hodnota koeficientu korelace je v základním je nulová, neexistuje lineární závislost mezi x a y) H1: non Ho 2. Zvolíme vhodné testové kritérium vyjádřené vzorcem: t r xy n 2 1 r 2 xy (15) t = - 0,3986 3. Pro určení závislosti proměnných x a y využijeme hodnoty P-value, kterou zjistíme z programu SGP. Tuto hodnotu porovnáme s hladinou významnosti pro tento případ stanovenou α = 5% a interpretujeme závěr testu. 16
V následující tabulce 4 jsou vyčíslené hodnoty výsledků potřebných pro stanovení závěru testu. Tabulka 4: Tabulka výsledků lineární závislosti mezi proměnnými Příjem Počet návštěv servisů Příjem -0,0250 (256) 0,6902 Počet návštěv servisů -0,0250 (256) 0,6902 Zdroj: Vlastní zpracování Na základě zjištěných výsledků hodnota P-value je 0,6902, což znamená, že hodnota P-value je větší než hladina významnosti (α = 0,05). Můžeme tedy říci, že jsme na 5 % hladině významnosti neprokázaly, že mezi oběma proměnnými existuje lineární závislost. H0 proto nezamítáme a H1 nepřijímáme. Pokud by v testu byla prokázána lineární závislost, mělo by smysl měřit sílu lineární závislosti pomocí koeficientu korelace, který vyšel ryx = -0,0250. Tato charakteristika nás informuje nejen o síle závislosti, ale zároveň o směru této závislosti. V tomto případě by lineární závislost proměnných x a y byla nepřímá a velmi malá, což můžeme vidět i na obrázku č. 5. Obrázek 7: Grafické znázornění výsledku koeficientu korelace Zdroj: Statgraphics, 2016 17