TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát
Obsah Úvod... 3 1 Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory)... 4 1.1 Charakteristiky úrovně skutečné spotřeby u modelu Fiesta... 4 1.1.1 Velikost souboru... 4 1.1.2 Aritmetický průměr... 5 1.1.3 Medián... 5 1.1.4 Dolní kvartil... 5 1.1.5 Horní kvartil... 5 1.2 Charakteristiky variability skutečné spotřeby u modelu Fiesta... 5 1.2.1 Variační rozpětí... 5 1.2.2 Rozptyl... 6 1.2.3 Směrodatná odchylka... 6 1.2.4 Variační koeficient... 6 2 Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového... 7 2.1 Hypotézy... 7 2.2 Testové kritérium... 7 2.3 Test shody středních hodnot... 8 3 Jsou nezávislé veličiny palivo a pohlaví majitele vozu?... 9 3.1 Praha, Jihomoravský kraj a Středočeský kraj... 9 3.2. Zbytek republiky... 10 2
Úvod Cílem této semestrální práce je analýza dat, která nám byla poskytnuta vyučujícími předmětu Statistický rozbor dat z dotazníkového šetření. Tato data se týkají automobilů značky Ford, u kterých bylo zjišťováno celkem 14 charakteristik, které se vztahují jak k automobilu samotnému tak také k jeho majiteli. V této práci je využita pouze určitá část informací, nikoliv veškeré zjišťované charakteristiky. Při analýze byl použit program Statgraphics Centurion XVII a také dosud známé statistické metody a postupy. Hladina významnosti α byla stanovena na hodnotě 5%. V následujících kapitolách a podkapitolách budou postupně vypracovány odpovědi na 3 zadané úkoly, které jsou následující: 1) Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory). 2) Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového. 3) Jsou nezávislé veličiny palivo a pohlaví majitele vozu? 3
1 Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory) Pro potřeby této kapitoly budeme z datového souboru potřebovat jenom automobily modelu Fiesta pouze s benzínovými motory, které si můžeme přesunout na nový datový list za pomocí funkce dělení souboru. Základní charakteristiky skutečné spotřeby modelu Fiesta u benzínových motorů jsou v následující tabulce. Tabulka 1: Základní charakteristiky skutečné spotřeby Počet 68 Průměr 8,71176 Medián 8,75 Rozptyl 0,680457 Směrodatná odchylka 0,824898 Variační koeficient 9,46878% Minimum 6,7 Maximum 10,3 Variační rozpětí 3,6 Dolní kvartil 8,1 Horní kvartil 9,25 Mezikvartilové rozpětí 1,15 1.1 Charakteristiky úrovně skutečné spotřeby u modelu Fiesta Základními statistickými charakteristikami úrovně jsou například průměry, modus či kvantily (zvláště užívaným kvantilem je 50% kvantil, též nazývaný medián). Dále zmíníme pouze průměr aritmetický a medián. Modus nemá smysl v tomto případě určovat. 1.1.1 Velikost souboru Soubor zahrnuje 68 automobilů typu Ford Fiesta s benzinovým typem motoru. 4
1.1.2 Aritmetický průměr V tomto případě dává smysl využít průměr aritmetický prostý, který spočteme dle následujícího vzorce: x = n i=1 x i n Jeden automobil spotřebuje v průměru 8,71176 litrů paliva na 100km jízdy. 1.1.3 Medián Jelikož rozsah našeho souboru je liché číslo, mediánem je konkrétní prvek, který dělí neklesající řadu hodnot na poloviny. n+1 Vzorec: x = x n+1 (, kde výraz udává pořadí mediánu v dané neklesající řadě hodnot. ) 2 2 Medián v tomto příkladu je roven 8,75 litrů paliva na 100km. 1.1.4 Dolní kvartil Dolní kvartil značíme x 25. 25% automobilů značky Ford, model Fiesta s benzinovým typem motoru má spotřebu paliva na 100km menší nebo rovnu hodnotě 8,1 litrů. 1.1.5 Horní kvartil Horní kvartil značíme x 75. 25% automobilů značky Ford, model Fiesta s benzinovým typem motoru má spotřebu paliva na 100km větší nebo rovnu hodnotě 9,25 litrů. 1.2 Charakteristiky variability skutečné spotřeby u modelu Fiesta Statistické charakteristiky variability udávají, jak hodnoty kolísají kolem zvoleného středu, který je nejčastěji vyjádřen pomoci některých výše uvedených charakteristik úrovně. Blíže se podíváme na variační rozpětí, rozptyl, směrodatnou odchylku a variační koeficient. 1.2.1 Variační rozpětí Variační rozpětí se řadí mezi charakteristiky měřící absolutní variabilitu. Lze ho spočítat pomocí vzorce R = x max x min Hodnota variačního rozpětí činí 3,6 litru paliva. 5
1.2.2 Rozptyl Rozptyl měří průměrnou odchylku do průměru, umocněnou na druhou. Výsledek tedy nevychází ve stejných měrných jednotkách, ale tyty jednotky jsou umocněny na druhou. Vzorec: s 2 x = n i=1 (x i x ) 2 n 1 Rozptyl má hodnotu 0,680457 litrů 2. 1.2.3 Směrodatná odchylka Směrodatná odchylka udává průměrnou odchylku hodnoty znaku od aritmetického průměru. Vzorec: s x = s x 2 Směrodatná odchylka je 0,824898 litrů benzinu na 100km. 1.2.4 Variační koeficient Variační koeficient je charakteristikou relativní variability, je to bezrozměrné číslo a umožňuje tedy porovnávání variability souborů s různou úrovní či odlišnými měrnými jednotkami. Pro interpretaci je možno číslo uvést v procentech. Vzorec: V x = s x x Variační koeficient je roven 9,46878%. 6
2 Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového V této kapitole se budeme zabývat tím, zdali na základě našeho výběrového souboru lze tvrdit, že průměrná spotřeba benzinového motoru u modelu Fiesta je alespoň o dva litry vyšší než u modelu Fiesta s motorem naftovým. Jde tedy o dvou výběrový test o shodě středních hodnot. Hodnoty spotřeby paliva u benzinových motoru označíme X1(μ1;δ1 2 ) a hodnoty naftových motorů budeme značit X2(μ2;δ2 2 ). 2.1 Hypotézy Prvním krokem je sestavení nulové (H0) a alternativní hypotézy (H1). H 0 : μ 1 μ 2 = 2 H 1 : μ 1 μ 2 > 2 Pro další pokračování testu je nutné ověřit, že jsou rozptyly výběrů shodné. Vypočtená P-hodnota programem Statgraphics je rovna 0,0637859, což je větší než α (0,05) a nezamítáme tedy nulovou hypotézu o shodě rozptylů a můžeme pokračovat dále v testování hypotézy o shodě středních hodnot. 2.2 Testové kritérium Zvolíme vhodné testové kritérium, které má při platnosti H0 známé pravděpodobnostní rozložení. Vzorec: t = x 1 x 2 (n 2 1 1)s 1+(n 2 2 1)s 1 n1+n2 2 n1 + 1 n2 t(n 1 + n 2 2) t=5,9897 7
2.3 Test shody středních hodnot Dalším krokem je provedení samotného testu programem Statgraphics pro dva nezávislé vzorky na hladině významnosti 5%, do kterého zadáme údaje z následující tabulky. Tabulka 2: Porovnání skutečné spotřeby benzinových a naftových motorů benzin nafta Počet 68 47 Průměr 8,71176 5,85532 Směrodatná odchylka 0,824898 0,63616 Vypočtená P-hodnota je rovna 0,000000118067, což je menší než hladina významnosti α=0,05 a tudíž zamítáme nulovou hypotézu H0 a přijímáme alternativní hypotézu H1. Na hladině významnosti 5% je průměrná spotřeba paliva u benzinových motorů modelu Ford Fiesta alespoň o 2 litry vyšší než u motorů naftových. 8
3 Jsou nezávislé veličiny palivo a pohlaví majitele vozu? V další a poslední kapitole se zabýváme, zdali jsou veličiny palivo a pohlaví majitele vozu závislé či nikoliv. Jedná se o dvě proměnné slovní (jak druh paliva tak také pohlaví majitele vozu) a nabývají pouze 2 hodnot. Vhodným prostředkem pro zjištění závislosti tedy je čtyřpolní tabulka. Nejprve provedeme analýzu pro kraje Praha, Jihomoravský a Středočeský a následně pro zbytek České republiky. 3.1 Praha, Jihomoravský kraj a Středočeský kraj V následující tabulce jsou vyznačeny jednotlivé četnosti typu motoru zvlášť, zdali je automobil vlastněn mužem či ženou pro kraje Praha, Jihomoravský a Středočeský. Tabulka 3: Tabulka četností pro typ motoru a pohlaví vlastníka pro kraje Praha, Jihomoravský a Středočeský Muž Žena Celkem Benzin 20 15 35 38,46% 28,85% 67,31% Nafta 9 8 17 17,31% 15,38% 32,69% Celkem 29 23 52 55,77% 44,23% 100% Výsledky testu nezávislosti pohlaví a paliva pro kraje Praha, Jihomoravský a Středočeský jsou shrnuty v následující tabulce. Tabulka 4: Test nezávislosti pohlaví a paliva pro kraje Praha, Jihomoravský a Středočeský Test Testové kritérium Stupně volnosti P-hodnota Chi-kvadrát 0,082 1 0,7747 P-hodnota (0,7747) je vyšší než α (0,05) a tudíž jsme neprokázali závislost mezi palivem motoru a pohlavím majitele vozu. 9
3.2. Zbytek republiky V následující tabulce jsou vyznačeny jednotlivé četnosti typu motoru zvlášť, zdali je automobil vlastněn mužem či ženou pro zbývající kraje České republiky. Tabulka 5: Tabulka četností pro typ motoru a pohlaví vlastníka pro zbytek republiky Muž Žena Celkem Benzin 59 54 113 28,92% 26,47% 55,39% Nafta 50 41 91 24,51% 20,10% 44,61% Celkem 109 95 204 53,43% 46,57% 100% Výsledky testu nezávislosti pohlaví a paliva pro zbytek České republiky jsou shrnuty v následující tabulce. Tabulka 6: Test nezávislosti pro zbytek České republiky Test Testové kritérium Stupně volnosti P-hodnota Chi-kvadrát 0,151 1 0,6973 P-hodnota (0,6973) je vyšší než α (0,05) a tudíž jsme neprokázali závislost mezi palivem motoru a pohlavím majitele vozu v Jihočeském kraji, Pardubickém kraji, Královehradeckém kraji, Kraji Vysočina, Karlovarském kraji, Libereckém kraji, Olomouckém kraji, Plzeňském kraji, Moravskoslezském kraji, Ústeckém kraji a ve Zlínském kraji. 10