TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Podobné dokumenty
TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

TECHNICKÁ UNIVERZITA V LIBERCI

Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI

Zápočtová práce STATISTIKA I

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

TECHNICKÁ UNIVERZITA V LIBERCI

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Charakteristika datového souboru

Číselné charakteristiky

Statistika pro geografy

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Komentované řešení pomocí MS Excel

Mnohorozměrná statistická data

Základní statistické charakteristiky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

TEHNICKA UNIVERZITA V LIBERCI. Ekonomická fakulta

Tabulka 1. Výběr z datové tabulky

Mnohorozměrná statistická data

, Brno Hanuš Vavrčík Základy statistiky ve vědě

MATEMATIKA III V PŘÍKLADECH

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Základy popisné statistiky

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Nejčastější chyby v explorační analýze

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

STATISTICKÉ CHARAKTERISTIKY

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

Číselné charakteristiky a jejich výpočet

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Popisná statistika. Statistika pro sociology

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

Metodologie pro ISK II

Návrhy dalších možností statistického zpracování aktualizovaných dat

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

Obecné momenty prosté tvary

Průzkumová analýza dat

Vzorová prezentace do předmětu Statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Obsah. Statistika Zpracování informací ze statistického šetření Charakteristiky úrovně, variability a koncentrace kvantitativního znaku

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Praktická statistika. Petr Ponížil Eva Kutálková

23. Matematická statistika

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

SEMESTRÁLNÍ PRÁCE STATISTIKA

KORELACE. Komentované řešení pomocí programu Statistica

Základy pravděpodobnosti a statistiky. Popisná statistika

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Korelace. Komentované řešení pomocí MS Excel

Renáta Bednárová STATISTIKA PRO EKONOMY

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Statistika jako obor. Statistika. Popisná statistika. Matematická statistika TEORIE K MV2

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Statistické metody. Martin Schindler KAP, tel , budova G. naposledy upraveno: 9.

Statistická analýza dat podzemních vod. Statistical analysis of ground water data. Vladimír Sosna 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Tomáš Karel LS 2012/2013

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

mezi studenty. Dále bychom rádi posoudili, zda dobrý výsledek v prvním testu bývá doprovázen dobrým výsledkem i v druhém testu.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Základní statistické pojmy

Informační technologie a statistika 1

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT


Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Analýza dat na PC I.

STATISTIKA 1. RNDr. K. Hrach, Ph.D. Zápočet: odevzdání seminární práce (úkoly na PC) Zkouška: písemná (bez kalkulačky, bez vzorců)

Matematika III. 29. října Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Minimální hodnota. Tabulka 11

Kvantily a písmenové hodnoty E E E E-02

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Aplikovaná statistika v R

Statistika - charakteristiky variability

Písemná práce k modulu Statistika

STATISTIKA S EXCELEM. Martina Litschmannová MODAM,

KGG/STG Statistika pro geografy

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

STATISTIKA 1. Adam Čabla Katedra statistiky a pravděpodobnosti VŠE

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Studentská 2 461 17 Liberec 1 SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÝCH ŠETŘENÍ Gabriela Dlasková, Veronika Bukovinská Sára Kroupová, Dagmar Zákoutská Počet stran: 17 Datum vypracování: 10. 05. 2016

Obsah Seznam obrázků... 3 Seznam tabulek... 3 Úvod... 4 1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo.... 5 1.1 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty... 5 1.1.1 Charakteristiky úrovně... 6 1.1.2 Charakteristiky variability... 7 1.1.3 Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu... 8 1.2 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu... 9 1.2.1 Charakteristiky úrovně... 10 1.2.2 Charakteristiky variability... 11 1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín... 12 2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut... 14 3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla.... 16 2

Seznam obrázků Obrázek 1: Histogram spotřeby nafty... 8 Obrázek 2: Box-and-Whisker Plot spotřeby nafty... 9 Obrázek 3: Histogram spotřeby benzínu... 12 Obrázek 4: Krabicový graf spotřeby benzínu... 13 Obrázek 5: Výsečový graf relativní četnosti barvy aut... 15 Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut... 15 Obrázek 7: Grafické znázornění výsledku koeficientu korelace... 17 Seznam tabulek Tabulka 1: Základní charakteristiky pro spotřebu nafty... 5 Tabulka 2: Základní charakteristiky pro spotřebu benzínu... 10 Tabulka 3: Tabulka četností barvy aut... 14 Tabulka 4: Tabulka výsledků lineární závisloti mezi proměnnými... 17 3

Úvod Semestrální práce z předmětu Statistický rozbor dat z dotazníkových šetření se zabývá analýzou výsledků dotazníkového šetření. Analýza je provedena pomocí již známých statistických metod s použitím statistického programu STATGRAPHICS Centurion XVII. Na analýze výsledků dotazníkového šetření se podílí několik skupin, jejichž úkolem je odpovědět na tři odlišné otázky. Otázky zpracovány v této práci jsou následující: 1. Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo. 2. Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut. 3. Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla. Tyto otázky jsou vypracovány v jednotlivých kapitolách této práce. 4

1 Charakterizujte úroveň, variabilitu a tvar rozdělení skutečné spotřeby automobilů Ford, rozlište přitom palivo. Prvním úkolem této semestrální práce je zjistit příslušné charakteristiky prostřednictvím programu Statgraphics a dále je interpretovat. Jednotlivé charakteristiky jsou v této kapitole rozlišeny dle paliva na naftu a benzín. Pro lepší představu jsou ke každému palivu ukázány dva grafy. Pro naftu jsou to Obrázky 1 a 2, dále pro benzín se jedná o Obrázky 3 a 4. 1.1 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby nafty Z programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 1. Tyto charakteristiky jsou v následujících podkapitolách interpretovány. Tabulka 1: Základní charakteristiky pro spotřebu nafty Počet 95 Harmonický průměr 5,58098 Modus 6,3 Medián 5,7 Rozptyl 0,684446 Směrodatná odchylka 0,827312 Variační koeficient 14,46% Minimum 4 Maximum 6,9 Variační rozpětí 2,9 Dolní kvartil 5,2 Horní kvartil 6,3 Kvartilové rozpětí 1,1 Šikmost -0,932819 Zdroj: vlastní zpracování, 2016 5

1.1.1 Charakteristiky úrovně Zkoumaný soubor o velikosti 95 hodnot spotřeby nafty má následující charakteristiky: Harmonický průměr V případě výpočtu průměrné spotřeby je nutné užít harmonický průměr. Vzorec harmonického průměru je možné vidět níže. = (1) Průměrná spotřeba nafty je 5,58098 litrů na 100 km. Modus Jelikož se jedná o číselné proměnné má smysl do charakteristik zařadit i modus. Modus představuje variantu s největší četností a v našem případě vyšel = 6,3 litrů na 100 km. Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =, kde (2) V našem případě vyšel medián dle programu Statgraphics 5,7 litrů na 100 km. Intepretace: 50 % automobilů jezdících na naftu má spotřebu 5,7 litrů na 100 km a vyšší, nebo 50 % naftových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Jedná se o 3 kvantily, které rozdělují uspořádaný statistický soubor na 4 stejně četné části. V případě této semestrální práce byl získán dolní a horní kvartil. Dolní kvartil,, = 5,2 litru na 100 km. Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 5,2 litru na 100 km a nižší. Horní kvartil,, = 6,3 litru na 100 km. Interpretace: 25 % automobilů značky Ford jezdících na naftu má spotřebu 6,3 litru na 100 km a vyšší. 6

1.1.2 Charakteristiky variability Tyto charakteristiky udávají rozptýlení hodnot kolem zvoleného středu, většinou kolem nějaké střední hodnoty. Variační rozpětí: Jedná se o velmi rychlé a jednoduché spočítání charakteristiky variability. Uvádí míru variability a vypočítá se dle vzorce: = (3) V případě našeho konkrétního případu vyšlo variační rozpětí 2,9 litrů na 100 km. Kvartilové rozpětí: Lze vypočítat dle vzorce: =,, (4) Rozdíl mezi horním a dolním kvartilem spotřeby nafty je 1,1 litru na 100 km. Rozptyl: Rozptyl spotřeby nafty byl zjištěn 0,684446 litru na 100 km. Směrodatná odchylka: Tato charakteristika udává, jak se v průměru odlišují jednotlivé hodnoty znaku od aritmetického průměru v obou směrech. Lze ji získat dle vzorce: = (5) V našem případě jednotlivé spotřeby nafty se liší od průměrné spotřeby v průměru o 0,827312 litru na 100 km. Variační koeficient: Jedná o bezrozměrné číslo. Udává, z kolika procent se v průměru odchylují jednotlivé hodnoty od aritmetického průměru. Lze ho zjistit pomocí vzorce: = (6) Variační koeficient zde vyšel 14,46 %. V průměru se tedy jednotlivé spotřeby odchylují od aritmetického průměru o 14,46 %. Variabilita je považována za nízkou. 7

1.1.3 Tvar rozdělení skutečné spotřeby automobilů Ford jezdících na naftu V této kapitole je dobré zaměřit se na charakteristiky šikmosti a špičatosti. V našem případě jen na charakteristiku šikmosti. Cyhelského míra šikmosti = (7) Dle programu Statgraphics vyšla míra šikmosti -0,932819. Což znamená, že se jedná o záporně sešikmené rozdělení. V souboru je tedy více hodnot nadprůměrných než podprůměrných. Obrázek 1: Histogram spotřeby nafty Zdroj: Stratgraphics, 2016 8

Obrázek 2: Box-and-Whisker Plot spotřeby nafty Zdroj: Statgraphics, 2016 1.2 Charakteristiky úrovně, variability a tvaru rozdělení skutečné spotřeby benzínu V programu Statgraphics byly zjištěna následující charakteristiky, které je možné vidět v tabulce 2. Tyto charakteristiky jsou v následujících podkapitolách interpretovány. 9

Tabulka 2: Základní charakteristiky pro spotřebu benzínu Počet 161 Harmonický průměr 7,20643 Modus 8,8 Medián 7,8 Rozptyl 1,59067 Směrodatná odchylka 1,26122 Variační koeficient 16,95% Minimum 5,1 Maximum 9 Variační rozpětí 3,9 Dolní kvratil 6,4 Horní kvartil 8,8 Mezi kvartilové rozpětí 2,4 Šikmost -0,397824 Zdroj: vlastní zpracování 1.2.1 Charakteristiky úrovně Pro přehlednost jsou zde vztahy pro výpočet charakteristik uvedeny ještě jednou. Zkoumaný soubor o velikosti 161 hodnot spotřeby benzínu má následující charakteristiky: Harmonický průměr = (8) Průměrná spotřeba benzínu je 7,20643 litrů na 100 km. Modus Modus představuje variantu s největší četností a v našem případě vyšel = 8,8 litrů na 100 km. 10

Medián: Vzhledem k tomu, že rozsah tohoto souboru je liché číslo, využijeme k výpočtu mediánu tento vztah: =, kde (9) V našem případě vyšel medián dle programu Statgraphics 7,8 litrů na 100 km. Čili, 50 % automobilů jezdících na benzín má spotřebu 7,8 litrů na 100 km a vyšší, nebo 50 % benzínových automobilů má spotřebu 5,7 litru na 100 km a nižší. Kvartily: Dolní kvartil, 25 % automobilů značky Ford jezdících na benzín má spotřebu 6,4 litrů na 100 km a nižší. Horní kvartil, 25 % automobilů značky Ford jezdících na benzín má spotřebu 8,8 litrů na 100 km a vyšší. 1.2.2 Charakteristiky variability Variační rozpětí = (10) Variační rozpětí spotřeby benzínu činí 3,9 litrů na 100 km. Kvartilové rozpětí =,, (11) Rozdíl mezi horním a dolním kvartilem spotřeby benzínu je 2,4 litrů na 100 km. Rozptyl Rozptyl spotřeby benzínu byl vyčíslen na 1,59067 litrů na 100 km. Směrodatná odchylka = (12) 11

Jednotlivé spotřeby benzínu se liší od průměrně spotřeby v průměru o 1,59067 litrů na 100 km. Variační koeficient = (13) V průměru se jednotlivé hodnoty od aritmetického průměru odlišují o 16,95 %. 1.2.3 Tvar rozdělení skutečné spotřeby automobilu Ford jezdících na benzín Cyhelského míra šikmosti = (14) Dle programu Statgraphics vyšla míra šikmosti -0,397824. Což znamená, že se jedná o záporně sešikmené rozdělení, čili v souboru je více hodnot nadprůměrných než podprůměrných. Obrázek 3: Histogram spotřeby benzínu Zdroj: Statgraphics, 2016 12

Obrázek 4: Krabicový graf spotřeby benzínu Zdroj: Statgraphics, 2016 13

2 Ověřte, zdali bílá auta tvoří alespoň 40% ze všech aut Druhým výzkumným problémem bylo zjistit, zda bílá auta tvoří alespoň 40 % ze všech aut. Tato proměnná je slovní a nelze ji hierarchicky uspořádat, jedná se tedy o nominální proměnnou. Pomocí programu Statgraphics byly zjištěny následující údaje. V celkovém rozsahu souboru 256 pozorování se vyskytuje 6 možných barevných provedení aut. Na základě vygenerovaných údajů bylo zjištěno, že v souboru se nachází 82 bílých aut, které procentuálně tvoří 32,03 %. Absolutní a relativní zastoupení dalších barev je zobrazen pomocí následující tabulky 3. Tabulka 3: Tabulka četností barvy aut Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency 1 Bila 82 0,3203 82 0,3203 2 Cerna 48 0,1875 130 0,5078 3 Cervena 42 0,1641 172 0,6719 4 Modra 20 0,0781 192 0,7500 5 Stribrna 44 0,1719 236 0,9219 6 Zelena 20 0,0781 256 1,0000 Zdroj: Statgraphics, 2016 Pro grafické znázornění relativní četnosti nominální proměnné je vhodné použít výsečový graf. Vygenerovaný výsečový graf můžeme vidět na obr. 5. Největší procentuální zastoupení tvoří bílá auta 32,03 %, následována černými auty s 18,75 % a třetí nejčastěji objevovanou barvou jsou červená auta s 16,41% zastoupením. 14

Obrázek 5: Výsečový graf relativní četnosti barvy aut Zdroj: Statgraphics, 2016 Pro grafické zobrazení absolutní četnosti barvy aut byl využit Barchart neboli úsečkový graf, který můžeme vidět na obr. 6. Obrázek 6: Úsečkový graf pro absolutní četnosti barvy aut Zdroj: Statgraphics, 2016 Na základě zjištěných údajů je patrné, že bílá auta netvoří 40 % a více ze všech aut. 15

3 Ověřte, zda existuje závislost počtu návštěv servisů (autorizovaných i neautorizovaných) na příjmu majitele vozidla. V této kapitole se budeme zabývat tím, zda počet návštěv servisů autorizovaných i neautorizovaných závisí na příjmu majitele vozidla. Jedná se o číselné proměnné, tudíž použijeme pro zjištění závislosti korelační analýzu. Budeme tedy zjišťovat lineární závislost mezi oběma proměnnými, kdy využijeme test hypotézy o nulové hodnotě korelačního koeficientu. 1. Určíme hypotézu H0 a H1, kde budeme testovat, zda existuje závislost počtu návštěv servisů a příjmu majitele vozidla. H0: ρyx = 0 (hodnota koeficientu korelace je v základním je nulová, neexistuje lineární závislost mezi x a y) H1: non Ho 2. Zvolíme vhodné testové kritérium vyjádřené vzorcem: t r xy n 2 1 r 2 xy (15) t = - 0,3986 3. Pro určení závislosti proměnných x a y využijeme hodnoty P-value, kterou zjistíme z programu SGP. Tuto hodnotu porovnáme s hladinou významnosti pro tento případ stanovenou α = 5% a interpretujeme závěr testu. 16

V následující tabulce 4 jsou vyčíslené hodnoty výsledků potřebných pro stanovení závěru testu. Tabulka 4: Tabulka výsledků lineární závislosti mezi proměnnými Příjem Počet návštěv servisů Příjem -0,0250 (256) 0,6902 Počet návštěv servisů -0,0250 (256) 0,6902 Zdroj: Vlastní zpracování Na základě zjištěných výsledků hodnota P-value je 0,6902, což znamená, že hodnota P-value je větší než hladina významnosti (α = 0,05). Můžeme tedy říci, že jsme na 5 % hladině významnosti neprokázaly, že mezi oběma proměnnými existuje lineární závislost. H0 proto nezamítáme a H1 nepřijímáme. Pokud by v testu byla prokázána lineární závislost, mělo by smysl měřit sílu lineární závislosti pomocí koeficientu korelace, který vyšel ryx = -0,0250. Tato charakteristika nás informuje nejen o síle závislosti, ale zároveň o směru této závislosti. V tomto případě by lineární závislost proměnných x a y byla nepřímá a velmi malá, což můžeme vidět i na obrázku č. 5. Obrázek 7: Grafické znázornění výsledku koeficientu korelace Zdroj: Statgraphics, 2016 17