Technická univerzita v Liberci

Podobné dokumenty
TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013

Statistika (KMI/PSTAT)

INDUKTIVNÍ STATISTIKA

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Vzorová prezentace do předmětu Statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Regresní analýza 1. Regresní analýza

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Testování hypotéz. 4. přednáška

PRAVDĚPODOBNOST A STATISTIKA

Testy. Pavel Provinský. 19. listopadu 2013

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

LINEÁRNÍ REGRESE. Lineární regresní model

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Bodové a intervalové odhady parametrů v regresním modelu

Tabulka 1. Výběr z datové tabulky

Aproximace binomického rozdělení normálním

10. Předpovídání - aplikace regresní úlohy

KGG/STG Statistika pro geografy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

ÚVOD DO HLEDÁNÍ ZÁVISLOSTÍ TECHNOLOGICKÝCH A NÁKLADOVÝCH CHARAKTERISTIK PŘI TAVENÍ OCELI NA ELEKTRICKÉ OBLOUKOVÉ PECI

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

You created this PDF from an application that is not licensed to print to novapdf printer (

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Plánování experimentu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistické metody uţívané při ověřování platnosti hypotéz

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Jednostranné intervaly spolehlivosti

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Kontingenční tabulky, korelační koeficienty

Testování statistických hypotéz

Zápočtová práce STATISTIKA I

Testování statistických hypotéz

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Statistika. Regresní a korelační analýza Úvod do problému. Roman Biskup

Číselné charakteristiky

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Cvičení 12: Binární logistická regrese

4EK211 Základy ekonometrie

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

4EK211 Základy ekonometrie

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Jednofaktorová analýza rozptylu

Testování statistických hypotéz

4EK211 Základy ekonometrie

12. cvičení z PST. 20. prosince 2017

4ST201 STATISTIKA CVIČENÍ Č. 10

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Korelační a regresní analýza

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Regresní analýza. Eva Jarošová

ČVUT FAKULTA DOPRAVNÍ

ADDS cviceni. Pavlina Kuranova

Ing. Michael Rost, Ph.D.

České vysoké učení technické v Praze Fakulta dopravní

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Cvičení ze statistiky - 9. Filip Děchtěrenko

= = 2368

Regrese. 28. listopadu Pokud chceme daty proložit vhodnou regresní křivku, musíme obvykle splnit tři úkoly:

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica

Transkript:

Technická univerzita v Liberci Ekonomická fakulta Analýza výsledků z dotazníkového šetření Jména studentů: Adam Pavlíček Michal Karlas Tomáš Vávra Anna Votavová Ročník: 2015/2016 Datum odevzdání: 13/05/2016

Obsah Úvod... 3 1 Charakteristiky úrovně a variability modelů značky Ford... 4 1. 1. Charakteristiky úrovně... 4 1. 2. Charakteristiky variability... 5 2 Test hypotézy, že naftové motory mají nižší spotřebu paliva než benzínové... 7 2. 1. Test shody rozptylů... 7 2. 2. Test shody středních hodnot... 8 3 Závislost pořizovací ceny vozidla na příjmu majitele vozidla... 9 Seznam obrázků... 13 Seznam tabulek... 13 2

Úvod Cílem této seminární práce je analyzovat výsledky z dotazníkového školního šetření. Po seznámení se vstupními daty budeme získávat odpovědi na 3 položené otázky. 1. Charakterizujte úroveň a variabilitu modelů značky Ford. 2. Na dvou modelech otestujte hypotézu, že naftové motory mají nižší spotřebu paliva než benzínové. 3. Ověřte, zda pořizovací cena vozidla závisí na příjmu majitele vozidla. Budeme volit vhodné ukazatele a metody k zodpovězení těchto otázek a k analýze využijeme také statistický program STATGRAPHICS Centurion. 3

1 Charakteristiky úrovně a variability modelů značky Ford V úvodní kapitole se budeme věnovat charakteristice úrovně (polohy) a variability proměnných. Tyto charakteristiky nám slouží pro vzájemné porovnávání statistických souborů. 1. 1. Charakteristiky úrovně Vzhledem k typu proměnných modely značky Ford tj. nominální proměnné, můžeme charakterizovat pouze rozsah souboru a nejčastěji vyskytovanou hodnotu. Tabulka 1 - Tabulka četností modelů značky Ford Absolutní četnost Relativní četnost Proměnná (n i ) (p i ) B-MAX 31 0,1211 FIESTA 128 0,5000 FOCUS 72 0,2813 KUGA 11 0,0430 MONDEO 14 0,0547 CELKEM 256 1 Zdroj: vlastní zpracování Rozsah souboru (n) je dán součtem absolutních četností všech proměnných tj. 256. Modus je varianta s největší četností neboli typická hodnota daného souboru. Při grafickém znázornění je to vrchol rozdělení četností. V našem případě je nejčastější hodnotou souboru model Fiesta, který je v souboru zastoupený celkem 128krát. Pro grafické znázornění jsme využili koláčového grafu, který je vhodný pro nominální proměnné. Jak vyplývá z Obrázku 1 Zastoupení jednotlivých modelů značky Ford, nejčastější hodnota model Fiesta, který je zde uvedený 128 krát, tvoří 50% zastoupení. 4

Obrázek 1 - Zastoupení jednotlivých modelů značky Ford Piechart for Modely_vozu_Ford 5,47% 4,30% 12,11% Modely_vozu_Ford B-MAX FIESTA FOCUS KUGA MONDEO 28,13% 50,00% Zdroj: vlastní zpracování v programu Statgraphics 1. 2. Charakteristiky variability Mutabilita neboli variabilita nominální proměnné udává podíl dvojic jednotek se vzájemně odlišnou variantou proměnné z celkového počtu všech možných dvojic jednotek. Můžeme ji vyjádřit v % a nabývá hodnot z intervalu. V našem případě: Z výpočtu mutability vyplývá, že 65,4 % všech dvojic automobilů modelu značky Ford má vzájemně odlišný model. Nominální variance se používá v případě, že známe pouze relativní četnosti a neznáme rozsah souboru. Nevýhodou je, že skutečný stupeň variability podhodnocuje a je nepřesný. Nabývá hodnot z intervalu. 5

V našem případě: Variabilita modelů značky Ford měřená pomocí nominální variance je 0,6514. 6

2 Test hypotézy, že naftové motory mají nižší spotřebu paliva než benzínové V další části naší práce budeme na dvou modelech testovat hypotézu, že naftové motory mají nižší spotřebu paliva než benzínové motory. Při testování shody parametrů ve více souborech je třeba rozlišit, zda provádíme úsudky na základě závislých či nezávislých výběrů. U výběrů závislých výsledek z prvního výběru tvoří logický pár s výsledkem z výběru druhého (párové testy). V našem případě jsou ale výběry nezávislé, proto budeme nejprve testovat shodu 2 rozptylů a poté shodu středních hodnot našeho souboru. 2. 1. Test shody rozptylů 1. Formulace hypotéz 2. Volba testového kritéria Testové kritérium je vhodná statistika, která má při platnosti H 0 známé pravděpodobnostní rozdělení. 3. Stanovení kritického oboru V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. F = 0,546439 7

Hodnota P-Value je 0,00151874 P-Value je tedy menší než α (0,05) a z toho vyplývá, že H 0 zamítáme. Na hladině významnosti 5 % jsme prokázali, že se rozptyly nerovnají. 2. 2. Test shody středních hodnot 1. Formulace hypotéz 2. Volba testového kritéria Při volbě testového kritéria vycházíme z toho, že se rozptyly nerovnají. 3. Stanovení kritického oboru V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. t = -9,39411 Hodnota P-Value je 0. P-Value je tedy menší než α (0,05) a z toho vyplývá, že H 0 zamítáme. H 1 přijímáme. Na hladině významnosti 5 % jsme neprokázali, že se střední hodnoty rovnají. Lze říci, že naftové motory mají nižší spotřebu než benzínové motory. 8

cena 3 Závislost pořizovací ceny vozidla na příjmu majitele vozidla Ke zkoumání závislostí numerických proměnných slouží celá řada metod a postupů. V našem konkrétním případě se budeme zabývat regresní analýzou. Regresní analýza se zabývá zejména zkoumáním jednostranné závislosti proměnné y (závislá proměnná) na proměnné x (nezávislá proměnná). Při zkoumání pomocí regresní analýzy je nezbytné určit, která proměnná je závislá, a která je nezávislá. Závislost zpravidla modelujeme matematickou funkcí, kterou označujeme jako regresní funkci. V případě, že je regresní funkce lineární z hlediska parametrů a má pouze jednu vysvětlující proměnnou x (regresor), jedná se o jednoduchou lineární regresi. Při zkoumání závislosti je důležité vybrat vhodný typ regresního modelu. V našem případě zvolíme regresní přímku, pro kterou platí: η = β 0 + β 1 x Obrázek 2 - Velikost pořizovací ceny automobilu při různých velikostech příjmu Plot of cena vs prijem 1000 800 600 400 200 0 16 18 20 22 24 26 28 (X 1000,0) prijem Zdroj: vlastní zpracování v programu Statgraphics 9

Vzorec: Y = 334,242-0,00122673 * X Cena = 334,242 0,00122673 * Prijem Dílčí T-testy Intercept Formulace hypotéz: Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. T statistic = 3,87725 Hodnota P-Value = 0,0001. P-Value < α H 0 zamítáme, H 1 přijímáme. Na α = 5% jsme prokázali, že parametr β 0 je statisticky významný. Slope Formulace hypotéz: 10

Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. T-statistic = -0,294403 Hodnota P-Value = 0,7687. P-Value > α H 0 nezamítáme, H 1 nepřijímáme Na α = 5% jsme prokázali, že parametr β 0 není statisticky významný. Celkový F test Formulace hypotéz: Volba testového kritéria: Stanovení kritického oboru: V programu Statgraphics provedeme test hypotézy na hladině významnosti 5 %. F- Ratio = 0,09 Hodnota P-Value = 0,7687. P-Value > α H 0 nezamítáme, H 1 nepřijímáme Na α = 5% jsme prokázali, že regresní přímka není vhodná k popisu závislosti y na x. 11

Vzhledem ke skutečnosti, že regresní přímka není vhodným typem modelu pro měření naší závislosti, zkoumali jsme závislost i pomocí regresní paraboly a ostatních regresních modelů. I v těchto případech byla hodnota P-Value v F-testu větší než α. Proto parabola ani ostatní modely nejsou v tomto případě vhodné. Zjistili jsme tedy, že pořizovací cena vozidla není závislá na příjmu majitele vozidla. 12

Seznam obrázků Obrázek 1 - Zastoupení jednotlivých modelů značky Ford... 5 Obrázek 2 - Velikost pořizovací ceny automobilu při různých velikostech příjmu... 9 Seznam tabulek Tabulka 1 - Tabulka četností modelů značky Ford... 4 13