TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

Podobné dokumenty
TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Zápočtová práce STATISTIKA I

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Charakteristika datového souboru

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Číselné charakteristiky

KORELACE. Komentované řešení pomocí programu Statistica

Nejčastější chyby v explorační analýze

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

TEHNICKA UNIVERZITA V LIBERCI. Ekonomická fakulta

Korelace. Komentované řešení pomocí MS Excel

Metodologie pro ISK II

ADDS cviceni. Pavlina Kuranova

MATEMATIKA III V PŘÍKLADECH

Statistika pro geografy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Tomáš Karel LS 2012/2013

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Testování statistických hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Tabulka 1. Výběr z datové tabulky

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Vzorová prezentace do předmětu Statistika

Popisná statistika. Komentované řešení pomocí MS Excel

STATISTICKÉ CHARAKTERISTIKY

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Karta předmětu prezenční studium

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

4ST201 STATISTIKA CVIČENÍ Č. 7

Základní statistické charakteristiky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Aplikovaná statistika v R

You created this PDF from an application that is not licensed to print to novapdf printer (

Statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací!

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

Tomáš Karel LS 2012/2013

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Analýza dat na PC I.

Testy statistických hypotéz

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz. 4. přednáška

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Analýza dat z dotazníkových šetření

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Popisná statistika. Jaroslav MAREK. Univerzita Palackého

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

12. cvičení z PST. 20. prosince 2017

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.


Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Neparametrické metody

Průzkumová analýza dat

Manuál pro zaokrouhlování

23. Matematická statistika

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Porovnání dvou výběrů

Popisná statistika. Statistika pro sociology

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Popisná statistika. úvod rozdělení hodnot míry centrální tendence míry variability míry šikmosti a špičatosti grafy

Náhodná proměnná. Náhodná proměnná může mít rozdělení diskrétní (x 1. , x 2. ; x 2. spojité (<x 1

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA Semestrální práce Semestrální práce z předmětu Statistický rozbor dat z dotazníkového šetření Vypracoval: Bonaconzová, Bryknarová, Milkovičová, Škrdlová Studijní obor: Podniková ekonomika Předmět: Statistický rozbor dat z dotazníkových šetření Školní rok: 2015/2016

Obsah Úvod... 3 1 Charakterizujte stáří vozu u modelu Fiesta - pouze vozy, které jezdí na benzín... 4 1.1 Charakteristiky polohy... 4 1.2 Charakteristiky variability... 6 1.3 Charakteristiky šikmosti... 6 1.4 Charakteristiky špičatosti... 7 2 Otestujte, zdali je rozdělní aut podle paliva v Pardubickém a Středočeském kraji stejné.. 9 3 U modelu B-Max otestujte nezávislost skutečné spotřeby a příjmu majitele... 12 Závěr... 15 Seznam obrázků... 16 Seznam tabulek... 16 2

Úvod Cílem této semestrální práce je analyzovat výzkumný úkol, vyřešit a vyhodnotit zadané otázky. V práci jsme vycházely z přidělených dat a informací ohledně značek a modelů osobních automobilů, ke kterým se vázaly určité statistické údaje, jako jsou např. rok výroby, příjem majitelů nebo průměrná spotřeba. Všechna uvedená data jsme zpracovávaly pomocí programu STATGRAPHICS Centurion. V první části jsme charakterizovaly stáří vozů modelu Fiesta jezdících na benzín. Jako charakteristiky tohoto úkolu jsme zvolily aritmetický průměr, výběrovou a základní směrodatnou odchylkou, výběrový a základní rozptyl, modus, medián, rozpětí aj. Druhá kapitola je věnována testu rozdělení aut podle paliva v Pardubickém a Středočeském kraji. Úkolem bylo přijmout nebo vyvrátit hypotézu, zdali je toto rozdělení v krajích shodné. Problém jsme řešily pomocí testování hypotéz zvlášť podle jednotlivých druhů paliv. Poslední část se zabývá ověřením nezávislosti skutečné spotřeby a příjmu majitele u modelu B-Max. K řešení této otázky jsme využily regresní analýzu. 3

1 Charakterizujte stáří vozu u modelu Fiesta - pouze vozy, které jezdí na benzín Tato kapitola je zaměřena na základní statistické charakteristiky proměnné "stáří vozu", kterou jsme stanovily dle roku výroby automobilů. Tyto charakteristiky jsme poté v souboru dat aplikovaly pouze na vozy značky Fiesta jezdící na benzín. Výsledné charakteristiky jsou uvedeny v následující tabulce (Tab. 1) a poté jsou jednotlivé výsledky interpretovány. Tabulka 1: Základní statistické charakteristiky pro proměnnou "stáří vozu" Počet 86 Aritmetický průměr 10 Medián 10 Modus 11 Výběrový rozptyl 9,76471 Základní rozptyl 9,65117 Výběrová směr. odchylka 3,12485 Základní směr. odchylka 3,10663 Míra šikmosti -0,142107 Míra špičatosti 0,010467 Dolní kvartil 8 Horní kvartil 12 Variační rozpětí 15 Minimum 3 Maximum 18 Zdroj: Vlastní zpracování dle Statgraphics Centurion Statistické charakteristiky můžeme rozdělit následovně: charakteristiky polohy charakteristiky variability charakteristiky šikmosti charakteristiky špičatosti 1.1 Charakteristiky polohy Tyto charakteristiky určují úroveň (velikost, hladinu) proměnné neboli střed, kolem něhož jednotlivé hodnoty kolísají. 4

Aritmetický průměr Používá se tam, kde má informační smysl součet hodnot proměnné. V našem případě má smysl využít prostý aritmetický průměr, který zjišťujeme součtem hodnot a tento součet následně počtem hodnot vydělíme. Průměrné stáří automobilů modelu Fiesta jezdících na benzín činí 10 let. Modus Modus ( ) je varianta s největší četností neboli typická hodnota. Vozy modelu Fiesta jezdící na benzín jsou nejčastěji staré právě 11 let. Kvantily Kvantily jsou hodnoty, které rozdělují uspořádaný statistický soubor na určitý počet stejně obsazených částí. Medián ( ) je prostřední hodnota uspořádaného statistického souboru, která ho dělí na dvě stejně četné části; existuje tedy 50 % hodnot menších (nebo stejných) a 50 % hodnot větších (nebo stejných). V našem případě je rozsah souboru sudé číslo, proto platí následující vztah: Hodnota, která se nachází uprostřed všech podle stáří seřazených vozů Fiesta jezdících na benzín, činí 10 let. Kvartily jsou tři kvantily, které rozdělují uspořádaný statistický soubor na čtyři stejně četné části; 25 (X 0,25 ), (X 0,5 ), 75 (X 0,75 ) Dolní kvartil: 0,25=8 25% automobilů jsou staré maximálně 8 let. Horní kvartil: 0,75=12 25% automobilů jsou staré minimálně 12 let. 5

1.2 Charakteristiky variability Tyto charakteristiky udávají rozptýlení (kolísání) hodnot kolem zvoleného středu, obvykle kolem některé ze středních hodnot. Variační rozpětí Variační rozpětí určuje míru variability souboru. R = X max - X min Rozdíl mezi nejvyšší a nejnižší hodnotou vozů Fiesta jezdících na benzín činí 15 let. Rozptyl Tato charakteristika je funkcí všech pozorování, což znamená, že bere v úvahu velikost všech hodnot numerické proměnné. Výběrový rozptyl činí 9,76471 let a základní rozptyl činí 9,65117 let. Směrodatná odchylka Směrodatná odchylka udává, jak se v průměru liší jednotlivé hodnoty znaku od aritmetického průměru v obou směrech (±). Výběrová směrodatná odchylka činí 3,12485 let a základní směrodatná odchylka činí 3,10663 let. 1.3 Charakteristiky šikmosti Šikmost = asymetrie Hodnota šikmosti činí -0,142107. Z tohoto záporného čísla vyplývá, že většina hodnot se nachází nad průměrem. Stáří vozu je záporně a levostranně zešikmené. 6

1.4 Charakteristiky špičatosti Špičatost = exces Hodnota špičatosti činí 0,010467. Z kladného čísla vyplývá, že toho rozdělení je o něco strmější než rozdělení normální. Nicméně je hodnota poměrně nízká a blíží se 0, můžeme říci, že se většina hodnota pohybuje dál od průměru. Box-and-Whisker Plot 0 3 6 9 12 15 18 Col_4 Obrázek 1: Krabicový graf Zdroj: Vlastní zpracování dle Statgraphics Centurion 7

Scatterplot 0 3 6 9 12 15 18 Col_4 Obrázek 2: Bodový diagram Zdroj: Vlastní zpracování dle Statgraphics Centurion Pro kontrolu výsledků jsme provedly analýzu také podle proměnné "rok výroby", výsledky jsou zobrazeny v následující tabulce (Tab. 2) Tabulka 2: Základní statistické charakteristiky pro proměnnou "rok výroby" Count 86 Average 2006,0 Median 2006,0 Mode 2005,0 Variance 9,76471 Standard deviation 3,12485 Coeff. of variation 0,155775% Minimum 1998,0 Maximum 2013,0 Range 15,0 Skewness 0,142107 Stnd. skewness 0,538007 Kurtosis 0,0104671 Stnd. kurtosis 0,019814 Sum of squares 3,46068E8 Zdroj: Vlastní zpracování dle Statgraphics Centurion 8

2 Otestujte, zdali je rozdělní aut podle paliva v Pardubickém a Středočeském kraji stejné V této kapitole jsme testovaly, zdali je rozdělení aut podle paliva v Pardubickém a Středočeském kraji stejné. Tento úkol jsme řešily pomocí dvouparametrického testování statistických hypotéz. Nejdříve bylo potřeba vybrat zastoupení hodnot benzínu a nafty pouze pro sledované kraje. Dále jsme zjistily relativní četnost zastoupení jednotlivých paliv v krajích. Hodnoty jednotlivých zastoupení jsou k vidění v tabulce č. 3. Tabulka 3: Relativní četnosti automobilů dle paliv v obou krajích Kraj Středočeský Pardubický Benzín 0,5517 0,85 Zdroj: Vlastní zpracování Nafta 0,4483 0,15 Dalším relevantním údajem byl celkový počet automobilů v jednotlivých krajích. Pro Středočeský kraj bylo stanoveno 29 aut a pro Pardubický 20. Pro zadanou hypotézu jsme zvolily test parametru π, protože řešíme procentuální zastoupení benzínu a nafty v jednotlivých krajích. V prvním kroku jsme testovaly zastoupení benzínu v jednotlivých krajích a poté zastoupení nafty. A) Testování hypotézy, že rozdělení automobilů jezdících na benzín je v obou krajích stejné: H0: π1 = π2 H1: π1 π2 Pro ověření rovnosti parametrů π je postup v programu Statgraphics následující: Compare - two samples - hypothesis test Obrázek č. 3 znázorňuje vyplněné hodnoty. 9

Obrázek 3: Dvouparametrické testování hypotézy benzínových automobilů Zdroj: Vlastní zpracování dle Statgraphics Centurion Výsledek testu je zřejmý z hodnoty P-Value, která je rovna 0,0286342. Jelikož je tato hodnota nižší než hladina významnosti 5%, zamítáme nulovou hypotézu o shodě rozdělení automobilů jezdících na benzín v Pardubickém a Středočeském kraji a přijímáme hypotézu alternativní. Jelikož porovnáváme rozdělení automobilů podle paliv v jednotlivých krajích pomocí procentuálního zastoupení a v předchozím kroku jsme zjistily, že toto rozdělení benzínových automobilů není stejné, předpokládáme, že u naftových vozů bude závěr totožný. Pro kontrolu jsme tento test zopakovaly i pro naftové automobily. B) Testování hypotézy, že rozdělení automobilů jezdících na naftu je v obou krajích stejné: H0: π1=π2 H1: π1 π2 Postup v programu Statgraphics je stejný jako tomu bylo v předchozím případě. Vyplněný formulář je znázorněn na obrázku č. 4. 10

Obrázek 4: Dvouparametrické testování hypotézy naftových automobilů Zdroj: Vlastní zpracování dle Statgraphics Centurion Hodnota P-value = 0,0286342 pro automobily jezdící na naftu vyšla také menší než 5% hladina významnosti, což potvrdilo náš předpoklad. Opět došlo k zamítnutí nulové hypotézy a přijetí alternativní hypotézy, že rozdělení naftových automobilů v krajích není stejné. Hodnota P-value vyšla shodná, jelikož benzín a nafta jsou komplementy a vzájemně se doplňují. 11

3 U modelu B-Max otestujte nezávislost skutečné spotřeby a příjmu majitele Pro zpracování výše zmíněné otázky jsme se řídily nejprve sloupcem "Model", ve kterém jsme vyhledaly pouze model B-Max. U něj jsme poté následně testovaly hypotézu, že skutečná spotřeba a příjem majitele jsou na sobě nezávislé. Pro určení závislosti numerických proměnných jsou vhodné regresní a korelační analýzy. Tyto 2 metody se mezi sebou liší tím, jakým způsobem jsou na sobě proměnné závislé. Korelační analýzu používáme tehdy, zajímá-li nás intenzita vzájemného vztahu. Je na ní kladen větší důraz než na směr závislosti. Regresní analýza řeší hlavně zkoumání jednostranné závislosti proměnných. Závislá proměnná je zde vnímána jako důsledek, nezávislá jako příčina. Pro testování je důležité správně určit, která proměnná je závislá a nezávislá. Z logiky věci vyplývá, že skutečná spotřeba není závislá na příjmu majitele automobilu. Pokud ale máme tuto nezávislost otestovat, zvolíme přijatelnější variantu, kde závislá proměnná je "Skutečná spotřeba" a "Příjem" je proměnnou nezávislou. Člověk si vybírá automobil s požadovanou spotřebou podle toho, kolik si za rok (měsíc apod.) vydělá. Opačně tato souvislost nedává smysl. Z tohoto důvodu použijeme regresní analýzu a zjistíme, zda-li je skutečná spotřeba automobilu závislá na příjmu majitele. 1) Testované hypotézy: H 0 : X a Y jsou nezávislé H 1 : non H 0 2) ANOVA: x = nezávislá proměnná = příjem majitele y = závislá proměnná = skutečná spotřeba automobilu P-value = 0,2724 P-value je větší než hladina významnosti 5%, proto v testu nemusíme pokračovat, protože jsme prokázaly, že jsou obě proměnné nezávislé. V programu STATGRAPHICS Centurion jsme pro ověření nezávislosti těchto proměnných zvolily cestu Relate - One faktor - Simple Regression. Nezávislou proměnnou X představuje kolonka "Příjem", závislé Y "Skutečná spotřeba". V záložce " Comparison of Alternative 12

Models" nám všechny možné modely vykázaly pouze zanedbatelné procentuelní hodnoty. Největší koeficient determinace vyšel u modelu " Squared-Y reciprocal-x", kde hodnota nabývala 5 % (r = 0,05), což značí velmi slabou lineární závislost. Koeficienty u ostatních modelů jsou ještě nižší, tudíž můžeme říct, že skutečná spotřeba automobilu není závislá na příjmu majitele. Hodnota P-value vyšla u t-testu i u F-ratio testu vyšší než hladina významnosti. Na základě těchto výsledků tedy můžeme říci, že H 0 nezamítáme a H 1 nepřijímáme. Jinými slovy - nezamítáme, že jsou obě proměnné nezávislé. 13

Obrázek 5: Regresní analýza Zdroj: Vlastní zpracování dle Statgraphics Centurion Obrázek 6: Graf znázorňující nezávislost mezi proměnnými Zdroj: Vlastní zpracování dle Statgraphics Centurion 14

Závěr Cílem této práce bylo charakterizovat stáří vozů jezdících na benzín u modelu Fiesta. Data jsme analyzovaly pomocí základních statistických charakteristik. Tyto charakteristiky jsme rozdělily do čtyř skupin jako charakteristiky polohy, variability, šikmosti a špičatosti. Na základě tohoto rozdělení jsme pomocí programu STATGRAPHICS Centurion určily aritmetický průměr, modus, medián, rozptyl a další. Jelikož tento program pracuje pouze s výběrovými hodnotami, základní směrodatnou odchylku jsme si dopočítaly ručně přes výběrový rozptyl. Dalším úkolem bylo otestovat, zdali je rozdělení aut podle paliva ve Středočeském a Pardubickém kraji stejné. V této části jsme se tedy věnovaly testování statistických hypotéz na základě dvouparametrických testů. Pro tento test jsme zvolily tzv. binomické rozdělení, protože jednotlivé hodnoty byly vyjádřeny procentuálně. Po vyřešení daného testu jsme došly k závěru, že rozdělení aut podle paliv v obou krajích není stejné. V poslední části jsme řešily nezávislost mezi skutečnou spotřebou a příjmem majitele. Už na první pohled je zřejmé, že tyto proměnné nejsou na sobě závislé. Pro ověření této skutečnosti jsme použily regresní analýzu, kde jsme řešily závislost skutečné spotřeby na příjmu. Tato metoda potvrdila náš předpoklad, že skutečná spotřeba nezávisí na příjmu majitele. 15

Seznam obrázků Obrázek 1: Krabicový graf... 7 Obrázek 2: Bodový diagram... 8 Obrázek 3: Dvouparametrické testování hypotézy benzínových automobilů... 10 Obrázek 4: Dvouparametrické testování hypotézy naftových automobilů... 11 Obrázek 5: Regresní analýza... 14 Obrázek 6: Graf znázorňující nezávislost mezi proměnnými... 14 Seznam tabulek Tabulka 1: Základní statistické charakteristiky pro proměnnou "stáří vozu"... 4 Tabulka 2: Základní statistické charakteristiky pro proměnnou "rok výroby"... 8 Tabulka 3: Relativní četnosti automobilů dle paliv v obou krajích... 9 16