TECHNICKÁ UNIVERZITA V LIBERCI

Podobné dokumenty
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

Tomáš Karel LS 2012/2013

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

12. cvičení z PST. 20. prosince 2017

4ST201 STATISTIKA CVIČENÍ Č. 7

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Korelace. Komentované řešení pomocí MS Excel

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

INDUKTIVNÍ STATISTIKA

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Testy. Pavel Provinský. 19. listopadu 2013

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Cvičení ze statistiky - 8. Filip Děchtěrenko

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Tomáš Karel LS 2012/2013

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

KGG/STG Statistika pro geografy

Příklad: Test nezávislosti kategoriálních znaků

Cvičení ze statistiky - 9. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz. 4. přednáška

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Lineární regrese. Komentované řešení pomocí MS Excel

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

ADDS cviceni. Pavlina Kuranova

ČVUT FAKULTA DOPRAVNÍ

KORELACE. Komentované řešení pomocí programu Statistica

Statistika (KMI/PSTAT)

Jednofaktorová analýza rozptylu

= = 2368

Plánování experimentu

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Tabulka 1. Výběr z datové tabulky

Pravděpodobnost a matematická statistika

Statistické metody uţívané při ověřování platnosti hypotéz

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

Regresní a korelační analýza

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Regresní analýza 1. Regresní analýza

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Aproximace binomického rozdělení normálním

Kontingenční tabulky, korelační koeficienty

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

You created this PDF from an application that is not licensed to print to novapdf printer (

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Kontingenční tabulky, korelační koeficienty

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz a měření asociace mezi proměnnými

Cvičení 12: Binární logistická regrese

Testování statistických hypotéz

Testy statistických hypotéz

Testování statistických hypotéz. Obecný postup

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Charakteristika datového souboru

Zápočtová práce STATISTIKA I

Vícerozměrná rozdělení

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Testování statistických hypotéz

Regresní a korelační analýza

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

12. prosince n pro n = n = 30 = S X

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

TEHNICKA UNIVERZITA V LIBERCI. Ekonomická fakulta

Ing. Michael Rost, Ph.D.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

A B C D

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Jana Vránová, 3. lékařská fakulta UK

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Vzorová prezentace do předmětu Statistika

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklady ke čtvrtému testu - Pravděpodobnost

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Jméno: Lucie Krechlerová, Karel Kozma, René Dubský, David Drobík Ročník: 2015/2016 Předmět: Statistický rozbor dat z dotazníkového šetření Učitel: Ing. Jan Öhm, Ph.D. Datum: 11. 05. 2016 1

Obsah Úvod... 3 1 Otestujte shodu rozptylů skutečné spotřeby u modelů značky Ford. Rozlište přitom palivo.... 4 1.1 Formulace hypotéz... 4 1.2 Volba testového kritéria... 4 2 Otestujte, zdali jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny. 6 2.1 Zadané veličiny... 6 2.2 Určení hypotéz... 7 2.3 Testové kritérium a formulace výsledku... 7 3 U modelu Focus ověřte nezávislost skutečné spotřeby na vzdělání majitele.... 9 3.1 Formulace hypotéz... 9 3.2 Test shody rozptylů... 9 3.3 Volba testového kritéria... 9 3.4 Stanovení kritického oboru... 10 Závěr... 11 2

Úvod V naší práci se zabýváme rozborem dat z dotazníkového šetření. Práci vypracujeme pomocí program STATGRAPHIC Centurion XVII. Budeme analyzovat výsledky výběrového šetření 256 automobilů Ford, kde se budeme zabývat třemi výzkumnými otázkami. Analýzu provádíme na hladině významnosti α = 5 %. V první části semestrální práce budeme testovat shodu rozptylů skutečné spotřeby u modelů značky Ford, přitom rozlišíme palivo. V druhé části otestujeme, zda výkon auta a celkový počet návštěv v servisu jsou nezávislé veličiny. V třetí části budeme u modelu Ford Focus ověřovat nezávislost spotřeby na vzdělání majitele. 3

1 Otestujte shodu rozptylů skutečné spotřeby u modelů značky Ford. Rozlište přitom palivo. V této kapitole se budeme zabývat tím, zda se v našem základním souboru vyskytuje shoda rozptylů u skutečné spotřeby automobilů značky Ford. Pro toto zjištění jsme nejdříve určili počet aut spalující benzín a naftu. Tabulka č. 1: Četnost aut spalující benzín a naftu Zdroj: Vlastní zpracování 1.1 Formulace hypotéz Otestujeme hypotézu o shodě rozptylů skutečné spotřeby ve dvou základních souborech. Určíme hypotézy H0 a H1. H 0 : σ 2 2 1 = σ 2 2 2 H 1 : σ 1 σ 2 1.2 Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H0 známé pravděpodobnostní rozdělení. F = s 1 2 2 s F(n 1 1; n 2 1) 2 F = 1,88628 P-Value = 0,000744966 V programu Statgraphics provedeme test hypotéz pro dva vzorky, na hladině významnosti 5 %. P-Value vychází 0, 000744966. Je tedy menší než α (0,05), z toho vyplývá, že zamítáme H0, přijímáme H1. Na hladině významnosti 5 % jsme tedy prokázali, že v souboru není shoda rozptylů u skutečné spotřeby paliva. 4

Tabulka č. 2: Porovnání směrodatných odchylek Zdroj: Vlastní zpracování 5

2 Otestujte, zdali jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny V této kapitole se pokusíme určit závislost či nezávislost dvou veličin pomocí statistických metod výpočtu, ke zjednodušení a k ověření výsledků použijeme program Statgraphics. Veličiny jejichž hodnoty nám byly zadány jsou "výkon auta" a "počet návštěv v servisu" a podrobněji je popíšeme v následující podkapitole. Výčet hodnot všech proměnných zde nebudeme uvádět v důsledku velkého množství dat. 2.1 Zadané veličiny Otázka v této kapitole se zaměřujeme na dvě numerické proměnné, které jsou: "výkon auta" kardinální proměnná, protože nenabývá záporných hodnot a dá se porovnávat podílem ve Statgraphicsu upravíme jen roztříděním na klesající hodnoty, pro větší přehlednost "počet návštěv v servisu" je ordinální proměnná, protože je možné porovnávat pouze rozdílem, nikoli podílem Ve Statgraphicsu musíme sečíst hodnoty proměnných počet návštěv v autorizovaném servisu s hodnotami počtu návštěv v neautorizovaném servisu, protože ze zadání nevyplývá potřeba rozlišovat typ servisu U těchto proměnných budeme řešit oboustrannou lineární závislost (Korelace), protože nelze určit, která proměnná je závislá. Níže jsme uvedli graf znázorňující četnost návštěv v servisu v závislosti na výkonu auta. 6

Obr. č.1: Bodový diagram četnosti návštěv v servisu podle výkonu auta Zdroj: Vlastní zpracování 2.2 Určení hypotéz Určíme hypotézu H0 a H1, pomocí kterých určíme závislost zadaných proměnných: H0: ϱyx = ϱxy = 0 proměnné jsou nezávislé H1: non H0 proměnné jsou závislé 2.3 Testové kritérium a formulace výsledku Testové kritérium je vhodná statistika, která má při platnosti H0 známé pravděpodobnostní rozdělení.sledujeme zde korelační koeficient, jehož hodnoty se pohybují mezi -1 a +1, díky čemuž můžeme také určit, zda je závislost přímá či nepřímá. 7

Tabulka 3: Test nezávislosti B.Celkovy pocet navstev v servisu B.Celkovy pocet navstev v servisu B.Vykon -0,1173 (256) 0,0609 B.Vykon -0,1173 (256) 0,0609 Zdroj: Vlastní zpracování Pomocí Statgraphicsu vyšlo P-Value 0,0609, které je tedy větší než α (0,05), z toho vyplývá, že zamítáme H0 a přijímáme H1. Je-li poté korelační koeficient ryx= -0,1173, můžeme hovořit o slabé nepřímé závislosti. Při kontrole jsme zjistili možnost řešit zadanou otázku i pomocí "regrese", kdy lze zjistit hodnotu T-testu a rovnici křivky, která vypadá následovně Y= 5,46734 0,0123773*X. Na hladině významnosti 5 % jsme tedy zjistili slabou nepřímou lineární závislost mezi výkonem auta a počtem návštěv v servisu. 8

3 U modelu Focus ověřte nezávislost skutečné spotřeby na vzdělání majitele. V této kapitole budeme ověřovat, zda je skutečná spotřeba ovlivněna dosaženým vzděláním majitelů vozů, tedy jestli je spotřeba na vzdělání majitele závislá. 3.1 Formulace hypotéz Otestujeme hypotézu o nezávislosti skutečné spotřeby na vzdělání majitele. Určíme hypotézy H0 a H1. H 0 : μ 2 2 1 = μ 2 H 1 : non H 0 3.2 Test shody rozptylů Nutným předpokladem pro posuzování nezávislosti dvou proměnných je určení shody rozptylů. Pokud nedojde ke shodě rozptylů, nelze v příkladu pokračovat. K určení shody rozptylů použijeme Bartlettův test. H 0 : σ 1 2 = σ 2 2 H 1 : non H 0 Tabulka č. 4 : Bartlettův test Zdroj: Statgraphics Centurion XVII Z výše uvedené tabulky můžeme vyčíst, že P-Value > 5%, tudíž můžeme potvrdit shodu rozptylů. 3.3 Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H 0 známé pravděpodobnostní rozdělení. 9

F = SS BETWEEN k 1 SS WITHIN n k F-Ratio = 0,74 F(k 1; n k) P-Value = 0,4797 V programu Statgraphics provedeme test nezávislosti dvou proměnných na hladině významnosti 5 %. P-Value vychází 0, 4797. Je tedy větší než α (0,05), z toho vyplývá, že nezamítáme H0 a současně nepřijímáme H1. Na hladině významnosti 5 % jsme tedy prokázali, že skutečná spotřeba paliva nezávisí na dosaženém vzdělání majitele vozidla. 3.4 Stanovení kritického oboru W = {F; F F 1 α (k 1; n k)} 10

Závěr Na základě teoretických znalostí jsme analyzovali výsledky výběrového šetření 256 automobilů Ford. V první části jsme testovali shodu rozptylů skutečné spotřeby a rozlišovali přitom palivo. Nejdříve jsme určili počet aut spalující benzín a naftu. Na hladině významnosti α = 5 % nám vyšla P-Value 0,000744966, která je menší než α. Zamítli jsme nulovou hypotézu a prokázali jsme, že v souboru není shoda rozptylů u skutečné spotřeby paliva. V druhé části jsme měli za úkol otestovat, zda jsou výkon auta a celkový počet návštěv v servisu nezávislé veličiny. Pomocí Statgraphics nám vyšla P-Value 0,0609, která je větší než α = 5 %. Zamítli jsme nulovou hypotézu, tedy, že proměnné jsou nezávislé. Korelační koeficient nám vyšel -0,1173, takže můžeme hovořit o slabé nepřímé závislosti. V třetí části jsme měli u modelu Ford Focus ověřit nezávislost skutečné spotřeby na vzdělání majitele. Po provedení testu nezávislosti dvou proměnných na hladině významnosti α = 5 % P-Value vyšla 0,4797, která je větší než α. Tudíž nezamítáme nulovou hypotézu a nepřijímáme H1. Na hladině významnosti 5% jsme tedy prokázali, že skutečná spotřeba paliva nezávisí na dosaženém vzdělání majitele vozidla. 11

Seznam obrázků a tabulek Tabulka č. 3: Četnost aut spalující benzín a naftu..4 Tabulka č. 4: Porovnání směrodatných odchylek......5 Obr. č. 1: Bodový diagram četnosti návštěv v servisu podle výkonu auta...7 Tabulka č. 3: Test nezávislosti... 8 Tabulka č. 4 : Bartlettův test.....9 12