TECHNICKÁ UNIVERZITA V LIBERCI

Podobné dokumenty
Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Charakteristika datového souboru

Jednostranné intervaly spolehlivosti

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Tabulka 1. Výběr z datové tabulky

Zápočtová práce STATISTIKA I

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Tomáš Karel LS 2012/2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

ADDS cviceni. Pavlina Kuranova

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Testování hypotéz. 4. přednáška

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

FORD KUGA KUGA_2014_V2_240x185 Cover.indd /08/ :16:19

Testování statistických hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Vzorová prezentace do předmětu Statistika

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Aproximace binomického rozdělení normálním

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

12. cvičení z PST. 20. prosince 2017

Opakování: Nominální proměnná více hodnotová odpověď.

FORD FIESTA FIESTA_2013_240x185 Cover_V8.indd /12/ :54

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Tomáš Karel LS 2012/2013

Diskrétní náhodná veličina

Mnohorozměrná statistická data

= = 2368

PRAVDĚPODOBNOST A STATISTIKA

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Korelace. Komentované řešení pomocí MS Excel

Analýza dat z dotazníkových šetření

Třídění statistických dat

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

7.1. Podstata testu statistické hypotézy

České vysoké učení technické v Praze Fakulta dopravní

Příklad 81b. Předpokládejme, že výška chlapců ve věku 9,5 až 10 roků má normální rozdělení N(mi;sig2)

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Řešení: máme diskrétní N.V. vzdělání bez maturity, s maturitou, vysokoškoláci, PhD.

Normální (Gaussovo) rozdělení

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

SEMESTRÁLNÍ PRÁCE STATISTIKA

Cvičení ze statistiky - 9. Filip Děchtěrenko

Karta předmětu prezenční studium

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

Mnohorozměrná statistická data

Testování uživatelského rozhraní

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

ADDS cvičení 7. Pavlína Kuráňová

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Základy popisné statistiky

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

7. cvičení 4ST201. Úvod: bodový a intervalový odhad

Normální (Gaussovo) rozdělení

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

Výběrové charakteristiky a jejich rozdělení

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

1. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti:

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Uni- and multi-dimensional parametric tests for comparison of sample results

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Analýza dat z dotazníkových šetření. Zdrojová data: dotazník

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Kvantitativní testování porovnání Alza.cz a Mall.cz

Statistické vyhodnocování ankety pilotního projektu Kvalita výuky na Západočeské univerzitě v Plzni

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Testy. Pavel Provinský. 19. listopadu 2013

Ing. Michael Rost, Ph.D.

Seminář 6 statistické testy

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta SEMESTRÁLNÍ PRÁCE STATISTICKÝ ROZBOR DAT Z DOTAZNÍKOVÉHO ŠETŘENÍ ANALÝZA VÝSLEDKŮ DOTAZNÍKOVÉHO ŠETŘENÍ (FAKULTNÍ DOTAZNÍK) Datum odevzdání: 13.05.2016 Tomáš Honc, Martin Toman, Jan Pazourek, Tomáš Pernica, Lucie Nohynková, Petra Čubová

Obsah: Seznam tabulek:... 3 Seznam ilustrací:... 4 1. Charakterizujte úroveň a variabilitu barvy vozidel v souboru.... 5 1.1 Mutabilita... 5 1.2 Nominální variance... 6 1.3 Závěr... 6 2. Ověřte, zda u modelů Fiesta a Kuga ovlivňuje typ paliva skutečnou spotřebu automobilu. Pokud ano, u kterého modelu je tento vliv větší?... 7 2.1 Explorační analýza... 7 2.2 Testování hypotéz průměrná spotřeba naftových motorů vs. benzinové motory Ford Fiesta... 8 2.2.1 Test shody rozptylů, popřípadě směrodatných odchylek... 8 2.2.2 Testování hypotéz střední hodnota... 9 2.3 Testování hypotéz průměrná spotřeba naftových motorů vs. benzinové motory Ford Kuga... 10 2.3.1 Test shody rozptylů, popřípadě směrodatných odchylek... 10 2.3.2 Testování hypotéz střední hodnota... 10 2.4 Shrnutí... 11 3. Otestujte, zdali střední hodnota počtu návštěv v neautorizovaném servisu je u modelů Kugaa Focus shodná. Předpokládejte, že obě veličiny mají Poissonovo rozdělení.... 12 3.1 Analýza datových souborů... 12 3.2 Stanovení hypotéz... 12 3.3 Výsledek... 13 2

Seznam tabulek: Tabulka 1: Četnosti jednotlivých barev vozidel... 5 Tabulka 2: Souhrn automobilů typu Ford Fiesta... 7 Tabulka 3:Souhrn automobilů typu Ford Kuga... 7 Tabulka 4: Statictické údaje vozidel Kuga... 12 Tabulka 5: Statictické údaje vozidel Focus... 12 3

Seznam ilustrací: Obrázek 1: Typ paliva... 8 Obrázek 2: Test hypotéz - shoda rozptylu... 9 Obrázek 3: Test hypotéz test shody střední hodnoty (Fiesta)... 9 Obrázek 4 : Test hypotéz - shoda rozptylu... 10 Obrázek 5: Test hypotéz test střední hodnota (Kuga)... 11 4

1. Charakterizujte úroveň a variabilitu barvy vozidel v souboru. Máme zde výběrový soubor automobilů značky Ford o celkovém počtu n=256. Tyto auta jsou v následujících barvách a počtech: Tabulka 1: Četnosti jednotlivých barev vozidel Hodnota Absolutní četnosti Relativní četnosti Bíla 100 0,3906 Černá 53 0,2070 Červená 28 0,1094 Modrá 17 0,0664 Stříbrná 38 0,1484 Zelená 20 0,0781 Zdroj: vlastní zpracování Typ dat: Jedná se o slovní, nominální, množnou a diskrétní proměnou. Charakteristiky polohy (úrovně): Jelikož se jedná o nominální proměnnou, můžeme stanovit pouze následující charakteristiku: Modus střední hodnota nominální proměnné ve výběrovém souboru. V tomto souboru se jedná o barvu bílou s n i = 100 Charakteristiky variability: Pro nominální proměnné můžeme použít míru mutability a nominální varianci. 1.1 Mutabilita Vycházíme z absolutních četností jednotlivých barev. M = n2 k 2 i=1 n i n(n 1), M 0,1 (01) M = 2562 (100 2 +53 2 +28 2 +17 2 +38 2 +20 2 ) 256(256 1) 5 = 0,763 (02)

Z celkového počtu dvojic můžeme vytvořit 76,3% dvojic s různou obměnou. Jedná se tedy o poměrně vysokou míru variability (velká různorodost barev). 1.2 Nominální variance Vycházíme z relativní četnosti jednotlivých barev. NOMVAR = 1 p i 2 k i=1, NOMVAR 0, 1) (03). NOMVAR = 1 (0,391 2 + 0,207 2 + 0,109 2 + 0,066 2 + 0,148 2 + 0,078 2 ) = 0,760 (04) Z celkového počtu dvojic můžeme vytvořit 76% dvojic s různou obměnou. Stejně jako u mutability se jedná o vysokou míru variability. 1.3 Závěr Protože známe absolutní četnosti a tedy i rozsah souboru, má mutabilita vyšší vypovídací hodnotu. Oba výsledky jsou nicméně prakticky totožné a poukazují na vysokou míru variability souboru. 6

2. Ověřte, zda u modelů Fiesta a Kuga ovlivňuje typ paliva skutečnou spotřebu automobilu. Pokud ano, u kterého modelu je tento vliv větší? 2.1 Explorační analýza Pro provedení testů hypotéz je nejprve nutné provést explorační analýzu, díky které se zjistí základních údaje o statistickém souboru. V konkrétním úkolu byla zvolena ke zkoumání pouze skutečná spotřeba. Ke zjištění potřebných základních informací byla použita funkce One-Variable Analysis. Výsledky jsou uvedeny v tabulkách níže (viz Tab. 1 pro Ford Fiesta a viz Tab. 2 pro Ford Kuga). Tabulky jsou zjednodušené, neboť se jedná pouze o hodnoty potřebné k analýze. Tabulka 2: Souhrn automobilů typu Ford Fiesta Palivo Počet Průměr Směrodatná odchylka Benzin 80 8,52125 0,852204 Nafta 36 6,01667 0,814336 Celkem 116 7,74397 1,43353 Z tabulky je zřejmé, že základní soubor čítá 116 položek automobilů typu Ford Fiesta, ze kterých má 80 automobilů benzínový motor a 36 automobilů má naftový motor. Průměrná spotřeba u benzínového motoru je 8,28352 l/100km, přičemž směrodatná odchylka je 0,852204. V případě naftového motoru je průměrná spotřeba 6,01667 l/100km a směrodatná odchylka 0,814336. Tabulka 3:Souhrn automobilů typu Ford Kuga Směrodatná Palivo Počet Průměr odchylka Benzin 11 6,55455 0,893715 Nafta 10 5,38 0,509466 Celkem 21 5,99524 0,936737 Z tabulky je zřejmé, že základní soubor čítá 21 položek automobilů typu Ford Fiesta (celkově 137 automobilů), ze kterých má 11 automobilů benzínový motor a 10 automobilů má naftový motor. Průměrná spotřeba u benzínového motoru je 6,55455 l/100km, přičemž směrodatná 7

odchylka je 0,893715. V případě naftového motoru je průměrná spotřeba 5,38 l/100km a směrodatná odchylka 0,509466. Pro ilustraci podílu naftových a benzínových motorů (nezávisle na typu automobilu) je níže přiložen koláčový graf (viz Graf 1). Obrázek 1: Typ paliva Typ paliva 34% 66% Benzín Nafta 2.2 Testování hypotéz průměrná spotřeba naftových motorů vs. benzinové motory Ford Fiesta Díky explorační analýze v kap. 2.1 máme dostatek informací, abychom mohli provést test, na kterém dokážeme, nebo vyvrátíme tvrzení, zda typ paliva ovlivňuje skutečnou spotřebu automobilu typu Ford Fiesta. Aby bylo možné tuto skutečnost odhalit, je nutné provést test shody rozptylů, popřípadě směrodatných odchylek. 2.2.1 Test shody rozptylů, popřípadě směrodatných odchylek Test shody rozptylů se provádí prostřednictvím funkce Hypothesis Tests, ve kterém byl zvolen test Normal Sigmas. Vše na 5% hladině významnosti. H 0 = směrodatné odchylky se rovnají (NAFTA = BENZÍN), neboli H 0 = 1 H 1 = směrodatné odchylky se nerovnají 8

Obrázek 2: Test hypotéz - shoda rozptylu Z výsledku vyplývá, že 95% interval spolehlivosti se nachází v rozmezí od 0,599944 do 1,87669. Jelikož je hodnota P-Value vyšší než hodnota alfa, nemůžeme zamítnout předpoklad H 0 a přijmout alternativní hypotézu H 1. Rozptyly se tedy na 5% hladině významnosti rovnají. 2.2.2 Testování hypotéz střední hodnota Jelikož rozptyly jsou v rámci 5% spolehlivosti shodné, je možnost provést test, který dokáže, nebo vyvrátí tvrzení, zda typ paliva ovlivňuje skutečnou spotřebu automobilu typu Ford Fiesta. Jako u všech testů hypotéz je nejprve nutné zvolit si základní předpoklady testu. H 0 = spotřeby jednotlivých motorů (naftových a benzínových) u Ford Fiesta se shodují H 1 = spotřeby jednotlivých motorů (naftových a benzínových) u Ford Fiesta se neshodují Obrázek 3: Test hypotéz test shody střední hodnoty (Fiesta) Z výsledků je patrné, že hodnota P-Value je nižší než hodnota alfa. V takovém případě se zamítá předpoklad H 0 a přijímá alternativní hypotéza H 1. Spotřeby jednotlivých motorů u Ford Fiesta se tedy na 5% hladině významnosti nerovnají a je prokázáno, že typ paliva ovlivňuje výši spotřeby u automobilů typu Ford Fiesta. 9

2.3 Testování hypotéz průměrná spotřeba naftových motorů vs. benzinové motory Ford Kuga V této kapitole bude postup obdobný jako u kapitoly 2.2. Opět je nejprve potřeba provést analýzu shody rozptylu a až po té je možné určit, zda typ paliva ovlivňuje skutečnou spotřebu automobilu typu Ford Kuga. 2.3.1 Test shody rozptylů, popřípadě směrodatných odchylek Test shody rozptylů se provádí prostřednictvím funkce Hypothesis Tests, ve kterém byl zvolen test Normal Sigmas. Vše na 5% hladině významnosti. H 0 = směrodatné odchylky se rovnají (NAFTA = BENZÍN), neboli H 0 = 1 H 1 = směrodatné odchylky se nerovnají Obrázek 4 : Test hypotéz - shoda rozptylu Z výsledku vyplývá, že 95% interval spolehlivosti se nachází v rozmezí od 0,776334 do 11,6289. Jelikož je hodnota P-Value vyšší než hodnota alfa, nemůžeme zamítnout předpoklad H 0 a přijmout alternativní hypotézu H 1. Rozptyly se tedy na 5% hladině významnosti rovnají. 2.3.2 Testování hypotéz střední hodnota Jelikož rozptyly jsou v rámci 5% spolehlivosti shodné, je možnost provést test, který dokáže, nebo vyvrátí tvrzení, zda typ paliva ovlivňuje skutečnou spotřebu automobilu typu Ford Fiesta. Opět je nejprve nutné zvolit si základní předpoklady testu. H 0 = spotřeby jednotlivých motorů (naftových a benzínových) u Ford Kuga se shodují H 1 = spotřeby jednotlivých motorů (naftových a benzínových) u Ford Kuga se neshodují 10

Obrázek 5: Test hypotéz test střední hodnota (Kuga) Jelikož je hodnota P-Value nižší než hodnota alfa, můžeme zamítnout předpoklad H 0 a přijmout alternativní hypotézu H 1. Spotřeby jednotlivých motorů u Ford Kuga se tedy na 5% hladině významnosti nerovnají. 2.4 Shrnutí Z výsledků je patrné, že palivo u obou typů automobilu ovlivňuje skutečnou spotřebu. Větší vliv je u automobilů značky Ford Fiesta, neboť P-Value je nižší hodnoty než P-Value u Ford Kuga. 11

3. Otestujte, zdali střední hodnota počtu návštěv v neautorizovaném servisu je u modelů Kugaa Focus shodná. Předpokládejte, že obě veličiny mají Poissonovo rozdělení. V této části zjistíme, zdali střední hodnota počtu návštěv v neautorizovaném servisu je u modelů Kuga a Focus shodná. Budeme pracovat s dvěma číselnými proměnnými. Hlavním předpokladem je Poissonovo rozdělení obou veličin. 3.1 Analýza datových souborů Prvním krokem je analýza obou datových souborů, tedy počet návštěv a výběrový průměr v neautorizovaném servisu u obou modelů Kuga a Focus. Tabulka 4: Statictické údaje vozidel Kuga Count 21 Average 2,38095 zdroj: vlastní zpracování Tabulka 5: Statictické údaje vozidel Focus Count 63 Average 3,11111 zdroj: vlastní zpracování 3.2 Stanovení hypotéz Dalším krokem je určení hypotézy H0 a H1, které nám pomohou testovat dané hodnoty: H0: střední hodnota počtu návštěv v neautorizovaném servisu u modelu Kuga a Focus je shodná H1: non H0 (střední hodnota počtu návštěv v neautorizovaném servisu u modelu Kuga a Focus není shodná) H0 : µ1 =µ2 (05) H1: µ1 µ2 (06) 12

3.3 Výsledek Na hladině významnosti 5 % nám vyšlo, že P-Value je 0,0904005. Je tedy větší než α (0,05). Z toho vyplývá, že nezamítáme H0, nepřijímáme H1. Na základě uvedených údajů lze konstatovat, že střední hodnoty počtu návštěv v neautorizovaném servisu u modelů Kuga a Focus jsou shodné. 13