TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Jméno: Lucie Krechlerová, Karel Kozma, René Dubský, David Drobík Ročník: 2015/2016 Předmět: Statistický rozbor dat z dotazníkového šetření Učitel: Ing. Jan Öhm, Ph.D. Datum: 11. 05. 2016 1
Obsah Úvod... 3 1 Otestujte shodu rozptylů skutečné spotřeby u modelů značky Ford. Rozlište přitom palivo.... 4 1.1 Formulace hypotéz... 4 1.2 Volba testového kritéria... 4 2 Otestujte, zdali jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny. 6 2.1 Zadané veličiny... 6 2.2 Určení hypotéz... 7 2.3 Testové kritérium a formulace výsledku... 7 3 U modelu Focus ověřte nezávislost skutečné spotřeby na vzdělání majitele.... 9 3.1 Formulace hypotéz... 9 3.2 Test shody rozptylů... 9 3.3 Volba testového kritéria... 9 3.4 Stanovení kritického oboru... 10 Závěr... 11 2
Úvod V naší práci se zabýváme rozborem dat z dotazníkového šetření. Práci vypracujeme pomocí program STATGRAPHIC Centurion XVII. Budeme analyzovat výsledky výběrového šetření 256 automobilů Ford, kde se budeme zabývat třemi výzkumnými otázkami. Analýzu provádíme na hladině významnosti α = 5 %. V první části semestrální práce budeme testovat shodu rozptylů skutečné spotřeby u modelů značky Ford, přitom rozlišíme palivo. V druhé části otestujeme, zda výkon auta a celkový počet návštěv v servisu jsou nezávislé veličiny. V třetí části budeme u modelu Ford Focus ověřovat nezávislost spotřeby na vzdělání majitele. 3
1 Otestujte shodu rozptylů skutečné spotřeby u modelů značky Ford. Rozlište přitom palivo. V této kapitole se budeme zabývat tím, zda se v našem základním souboru vyskytuje shoda rozptylů u skutečné spotřeby automobilů značky Ford. Pro toto zjištění jsme nejdříve určili počet aut spalující benzín a naftu. Tabulka č. 1: Četnost aut spalující benzín a naftu Zdroj: Vlastní zpracování 1.1 Formulace hypotéz Otestujeme hypotézu o shodě rozptylů skutečné spotřeby ve dvou základních souborech. Určíme hypotézy H0 a H1. H 0 : σ 2 2 1 = σ 2 2 2 H 1 : σ 1 σ 2 1.2 Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H0 známé pravděpodobnostní rozdělení. F = s 1 2 2 s F(n 1 1; n 2 1) 2 F = 1,88628 P-Value = 0,000744966 V programu Statgraphics provedeme test hypotéz pro dva vzorky, na hladině významnosti 5 %. P-Value vychází 0, 000744966. Je tedy menší než α (0,05), z toho vyplývá, že zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme tedy prokázali, že v souboru není shoda rozptylů u skutečné spotřeby paliva. 4
Tabulka č. 2: Porovnání směrodatných odchylek Zdroj: Vlastní zpracování 5
2 Otestujte, zdali jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny V této kapitole se pokusíme určit závislost či nezávislost dvou veličin pomocí statistických metod výpočtu, ke zjednodušení a k ověření výsledků použijeme program Statgraphics. Veličiny jejichž hodnoty nám byly zadány jsou "výkon auta" a "počet návštěv v servisu" a podrobněji je popíšeme v následující podkapitole. Výčet hodnot všech proměnných zde nebudeme uvádět v důsledku velkého množství dat. 2.1 Zadané veličiny Otázka v této kapitole se zaměřujeme na dvě numerické proměnné, které jsou: "výkon auta" kardinální proměnná, protože nenabývá záporných hodnot a dá se porovnávat podílem ve Statgraphicsu upravíme jen roztříděním na klesající hodnoty, pro větší přehlednost "počet návštěv v servisu" je ordinální proměnná, protože je možné porovnávat pouze rozdílem, nikoli podílem Ve Statgraphicsu musíme sečíst hodnoty proměnných počet návštěv v autorizovaném servisu s hodnotami počtu návštěv v neautorizovaném servisu, protože ze zadání nevyplývá potřeba rozlišovat typ servisu U těchto proměnných budeme řešit oboustrannou lineární závislost (Korelace), protože nelze určit, která proměnná je závislá. Níže jsme uvedli graf znázorňující četnost návštěv v servisu v závislosti na výkonu auta. 6
Obr. č.1: Bodový diagram četnosti návštěv v servisu podle výkonu auta Zdroj: Vlastní zpracování 2.2 Určení hypotéz Určíme hypotézu H0 a H1, pomocí kterých určíme závislost zadaných proměnných: H0: ϱyx = ϱxy = 0 proměnné jsou nezávislé H1: non H0 proměnné jsou závislé 2.3 Testové kritérium a formulace výsledku Testové kritérium je vhodná statistika, která má při platnosti H0 známé pravděpodobnostní rozdělení.sledujeme zde korelační koeficient, jehož hodnoty se pohybují mezi -1 a +1, díky čemuž můžeme také určit, zda je závislost přímá či nepřímá. 7
Tabulka 3: Test nezávislosti B.Celkovy pocet navstev v servisu B.Celkovy pocet navstev v servisu B.Vykon -0,1173 (256) 0,0609 B.Vykon -0,1173 (256) 0,0609 Zdroj: Vlastní zpracování Pomocí Statgraphicsu vyšlo P-Value 0,0609, které je tedy větší než α (0,05), z toho vyplývá, že zamítáme H0 a přijímáme H1. Je-li poté korelační koeficient ryx= -0,1173, můžeme hovořit o slabé nepřímé závislosti. Při kontrole jsme zjistili možnost řešit zadanou otázku i pomocí "regrese", kdy lze zjistit hodnotu T-testu a rovnici křivky, která vypadá následovně Y= 5,46734 0,0123773*X. Na hladině významnosti 5 % jsme tedy zjistili slabou nepřímou lineární závislost mezi výkonem auta a počtem návštěv v servisu. 8
3 U modelu Focus ověřte nezávislost skutečné spotřeby na vzdělání majitele. V této kapitole budeme ověřovat, zda je skutečná spotřeba ovlivněna dosaženým vzděláním majitelů vozů, tedy jestli je spotřeba na vzdělání majitele závislá. 3.1 Formulace hypotéz Otestujeme hypotézu o nezávislosti skutečné spotřeby na vzdělání majitele. Určíme hypotézy H0 a H1. H 0 : μ 2 2 1 = μ 2 H 1 : non H 0 3.2 Test shody rozptylů Nutným předpokladem pro posuzování nezávislosti dvou proměnných je určení shody rozptylů. Pokud nedojde ke shodě rozptylů, nelze v příkladu pokračovat. K určení shody rozptylů použijeme Bartlettův test. H 0 : σ 1 2 = σ 2 2 H 1 : non H 0 Tabulka č. 4 : Bartlettův test Zdroj: Statgraphics Centurion XVII Z výše uvedené tabulky můžeme vyčíst, že P-Value > 5%, tudíž můžeme potvrdit shodu rozptylů. 3.3 Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H 0 známé pravděpodobnostní rozdělení. 9
F = SS BETWEEN k 1 SS WITHIN n k F-Ratio = 0,74 F(k 1; n k) P-Value = 0,4797 V programu Statgraphics provedeme test nezávislosti dvou proměnných na hladině významnosti 5 %. P-Value vychází 0, 4797. Je tedy větší než α (0,05), z toho vyplývá, že nezamítáme H0 a současně nepřijímáme H1. Na hladině významnosti 5 % jsme tedy prokázali, že skutečná spotřeba paliva nezávisí na dosaženém vzdělání majitele vozidla. 3.4 Stanovení kritického oboru W = {F; F F 1 α (k 1; n k)} 10
Závěr Na základě teoretických znalostí jsme analyzovali výsledky výběrového šetření 256 automobilů Ford. V první části jsme testovali shodu rozptylů skutečné spotřeby a rozlišovali přitom palivo. Nejdříve jsme určili počet aut spalující benzín a naftu. Na hladině významnosti α = 5 % nám vyšla P-Value 0,000744966, která je menší než α. Zamítli jsme nulovou hypotézu a prokázali jsme, že v souboru není shoda rozptylů u skutečné spotřeby paliva. V druhé části jsme měli za úkol otestovat, zda jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny. Pomocí Statgraphics nám vyšla P-Value 0,0609, která je větší než α = 5 %. Zamítli jsme nulovou hypotézu, tedy, že proměnné jsou nezávislé. Korelační koeficient nám vyšel -0,1173, takže můžeme hovořit o slabé nepřímé závislosti. V třetí části jsme měli u modelu Ford Focus ověřit nezávislost skutečné spotřeby na vzdělání majitele. Po provedení testu nezávislosti dvou proměnných na hladině významnosti α = 5 % P-Value vyšla 0,4797, která je větší než α. Tudíž nezamítáme nulovou hypotézu a nepřijímáme H1. Na hladině významnosti 5% jsme tedy prokázali, že skutečná spotřeba paliva nezávisí na dosaženém vzdělání majitele vozidla. 11
Seznam obrázků a tabulek Tabulka č. 3: Četnost aut spalující benzín a naftu..4 Tabulka č. 4: Porovnání směrodatných odchylek......5 Obr. č. 1: Bodový diagram četnosti návštěv v servisu podle výkonu auta...7 Tabulka č. 3: Test nezávislosti... 8 Tabulka č. 4 : Bartlettův test.....9 12