Technická univerzita v Liberci Ekonomická fakulta Analýza výsledků z dotazníkového šetření Jména studentů: Adam Pavlíček Michal Karlas Tomáš Vávra Anna Votavová Ročník: 2015/2016 Datum odevzdání: 13/05/2016
Obsah Úvod... 3 1 Charakteristiky úrovně a variability modelů značky Ford... 4 1. 1. Charakteristiky úrovně... 4 1. 2. Charakteristiky variability... 5 2 Test hypotézy, že naftové motory mají nižší spotřebu paliva než benzínové... 7 2. 1. Test shody rozptylů... 7 2. 2. Test shody středních hodnot... 8 3 Závislost pořizovací ceny vozidla na příjmu majitele vozidla... 9 Seznam obrázků... 13 Seznam tabulek... 13 2
Úvod Cílem této seminární práce je analyzovat výsledky z dotazníkového školního šetření. Po seznámení se vstupními daty budeme získávat odpovědi na 3 položené otázky. 1. Charakterizujte úroveň a variabilitu modelů značky Ford. 2. Na dvou modelech otestujte hypotézu, že naftové motory mají nižší spotřebu paliva než benzínové. 3. Ověřte, zda pořizovací cena vozidla závisí na příjmu majitele vozidla. Budeme volit vhodné ukazatele a metody k zodpovězení těchto otázek a k analýze využijeme také statistický program STATGRAPHICS Centurion. 3
1 Charakteristiky úrovně a variability modelů značky Ford V úvodní kapitole se budeme věnovat charakteristice úrovně (polohy) a variability proměnných. Tyto charakteristiky nám slouží pro vzájemné porovnávání statistických souborů. 1. 1. Charakteristiky úrovně Vzhledem k typu proměnných modely značky Ford tj. nominální proměnné, můžeme charakterizovat pouze rozsah souboru a nejčastěji vyskytovanou hodnotu. Tabulka 1 - Tabulka četností modelů značky Ford Absolutní četnost Relativní četnost Proměnná (n i ) (p i ) B-MAX 31 0,1211 FIESTA 128 0,5000 FOCUS 72 0,2813 KUGA 11 0,0430 MONDEO 14 0,0547 CELKEM 256 1 Zdroj: vlastní zpracování Rozsah souboru (n) je dán součtem absolutních četností všech proměnných tj. 256. Modus je varianta s největší četností neboli typická hodnota daného souboru. Při grafickém znázornění je to vrchol rozdělení četností. V našem případě je nejčastější hodnotou souboru model Fiesta, který je v souboru zastoupený celkem 128krát. Pro grafické znázornění jsme využili koláčového grafu, který je vhodný pro nominální proměnné. Jak vyplývá z Obrázku 1 Zastoupení jednotlivých modelů značky Ford, nejčastější hodnota model Fiesta, který je zde uvedený 128 krát, tvoří 50% zastoupení. 4
Obrázek 1 - Zastoupení jednotlivých modelů značky Ford Piechart for Modely_vozu_Ford 5,47% 4,30% 12,11% Modely_vozu_Ford B-MAX FIESTA FOCUS KUGA MONDEO 28,13% 50,00% Zdroj: vlastní zpracování v programu Statgraphics 1. 2. Charakteristiky variability Mutabilita neboli variabilita nominální proměnné udává podíl dvojic jednotek se vzájemně odlišnou variantou proměnné z celkového počtu všech možných dvojic jednotek. Můžeme ji vyjádřit v % a nabývá hodnot z intervalu. V našem případě: Z výpočtu mutability vyplývá, že 65,4 % všech dvojic automobilů modelu značky Ford má vzájemně odlišný model. Nominální variance se používá v případě, že známe pouze relativní četnosti a neznáme rozsah souboru. Nevýhodou je, že skutečný stupeň variability podhodnocuje a je nepřesný. Nabývá hodnot z intervalu. 5
V našem případě: Variabilita modelů značky Ford měřená pomocí nominální variance je 0,6514. 6
2 Test hypotézy, že naftové motory mají nižší spotřebu paliva než benzínové V další části naší práce budeme na dvou modelech testovat hypotézu, že naftové motory mají nižší spotřebu paliva než benzínové motory. Při testování shody parametrů ve více souborech je třeba rozlišit, zda provádíme úsudky na základě závislých či nezávislých výběrů. U výběrů závislých výsledek z prvního výběru tvoří logický pár s výsledkem z výběru druhého (párové testy). V našem případě jsou ale výběry nezávislé, proto budeme nejprve testovat shodu 2 rozptylů a poté shodu středních hodnot našeho souboru. 2. 1. Test shody rozptylů 1. Formulace hypotéz 2. Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H 0 známé pravděpodobnostní rozdělení. 3. Stanovení kritického oboru V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. F = 0,546439 7
Hodnota P-Value je 0,00151874 P-Value je tedy menší než α (0,05) a z toho vyplývá, že H 0 zamítáme. Na hladině významnosti 5 % jsme prokázali, že se rozptyly nerovnají. 2. 2. Test shody středních hodnot 1. Formulace hypotéz 2. Volba testového kritéria Při volbě testového kritéria vycházíme z toho, že se rozptyly nerovnají. 3. Stanovení kritického oboru V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. t = -9,39411 Hodnota P-Value je 0. P-Value je tedy menší než α (0,05) a z toho vyplývá, že H 0 zamítáme. H 1 přijímáme. Na hladině významnosti 5 % jsme neprokázali, že se střední hodnoty rovnají. Lze říci, že naftové motory mají nižší spotřebu než benzínové motory. 8
cena 3 Závislost pořizovací ceny vozidla na příjmu majitele vozidla Ke zkoumání závislostí numerických proměnných slouží celá řada metod a postupů. V našem konkrétním případě se budeme zabývat regresní analýzou. Regresní analýza se zabývá zejména zkoumáním jednostranné závislosti proměnné y (závislá proměnná) na proměnné x (nezávislá proměnná). Při zkoumání pomocí regresní analýzy je nezbytné určit, která proměnná je závislá, a která je nezávislá. Závislost zpravidla modelujeme matematickou funkcí, kterou označujeme jako regresní funkci. V případě, že je regresní funkce lineární z hlediska parametrů a má pouze jednu vysvětlující proměnnou x (regresor), jedná se o jednoduchou lineární regresi. Při zkoumání závislosti je důležité vybrat vhodný typ regresního modelu. V našem případě zvolíme regresní přímku, pro kterou platí: η = β 0 + β 1 x Obrázek 2 - Velikost pořizovací ceny automobilu při různých velikostech příjmu Plot of cena vs prijem 1000 800 600 400 200 0 16 18 20 22 24 26 28 (X 1000,0) prijem Zdroj: vlastní zpracování v programu Statgraphics 9
Vzorec: Y = 334,242-0,00122673 * X Cena = 334,242 0,00122673 * Prijem Dílčí T-testy Intercept Formulace hypotéz: Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. T statistic = 3,87725 Hodnota P-Value = 0,0001. P-Value < α H 0 zamítáme, H 1 přijímáme. Na α = 5% jsme prokázali, že parametr β 0 je statisticky významný. Slope Formulace hypotéz: 10
Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. T-statistic = -0,294403 Hodnota P-Value = 0,7687. P-Value > α H 0 nezamítáme, H 1 nepřijímáme Na α = 5% jsme prokázali, že parametr β 0 není statisticky významný. Celkový F test Formulace hypotéz: Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. F- Ratio = 0,09 Hodnota P-Value = 0,7687. P-Value > α H 0 nezamítáme, H 1 nepřijímáme Na α = 5% jsme prokázali, že regresní přímka není vhodná k popisu závislosti y na x. 11
Vzhledem ke skutečnosti, že regresní přímka není vhodným typem modelu pro měření naší závislosti, zkoumali jsme závislost i pomocí regresní paraboly a ostatních regresních modelů. I v těchto případech byla hodnota P-Value v F-testu větší než α. Proto parabola ani ostatní modely nejsou v tomto případě vhodné. Zjistili jsme tedy, že pořizovací cena vozidla není závislá na příjmu majitele vozidla. 12
Seznam obrázků Obrázek 1 - Zastoupení jednotlivých modelů značky Ford... 5 Obrázek 2 - Velikost pořizovací ceny automobilu při různých velikostech příjmu... 9 Seznam tabulek Tabulka 1 - Tabulka četností modelů značky Ford... 4 13