TECHNICKÁ UNIVERZITA V LIBERCI

Podobné dokumenty
TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Technická univerzita v Liberci

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

TECHNICKÁ UNIVERZITA V LIBERCI

Charakteristika datového souboru

Zápočtová práce STATISTIKA I

Návrhy dalších možností statistického zpracování aktualizovaných dat

Testování hypotéz. 4. přednáška

Testy. Pavel Provinský. 19. listopadu 2013

Renáta Bednárová STATISTIKA PRO EKONOMY

Vzorová prezentace do předmětu Statistika

Výrobní produkce divizí Ice Cream Po lo ha plane t Rozložený výse ový 3D graf Bublinový graf Histogram t s tn e ídy

Základy popisné statistiky

Interakce úrovně vzdělání a faktoru nezaměstnanosti v hospodářsky slabých a silných obcích České republiky

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

, Brno Hanuš Vavrčík Základy statistiky ve vědě

You created this PDF from an application that is not licensed to print to novapdf printer (

4ST201 STATISTIKA CVIČENÍ Č. 7

Panajotis Cakirpaloglu, Jan Šmahaj. 361 hod. nízká. žádné. celý dotazník najednou

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Výnosy z kmenových včelstev v kg Sektor Počet Počet včelstev. k 1.5. k a ,68 0, ,0 6,00 Ostatní 0,00

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PŘÍRUČKA PRO ŽADATELE GRANTU- FOND PRO NESTÁTNÍ NEZISKOVÉ ORGANIZACE Příloha č. 11 Tabulka obvyklé mzdy

PŘÍRUČKA PRO ŽADATELE GRANTU- FOND PRO NESTÁTNÍ NEZISKOVÉ ORGANIZACE Příloha č. 11 Tabulka obvyklé mzdy

Aktivita A Zmapování a analýza disparit mezi regiony NUTS 3 ve fyzické dostupnosti bydlení

12. cvičení z PST. 20. prosince 2017

Základní statistické charakteristiky

Tomáš Karel LS 2012/2013

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Testování statistických hypotéz

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Jednostranné intervaly spolehlivosti

KGG/STG Statistika pro geografy

STATISTICKÉ CHARAKTERISTIKY

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Metodologie pro ISK II

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Příloha č Tabulky a grafy porovnání výsledků z přezkoumání hospodaření za období let 2008 až 2012, obcí, MČ, DSO

TEHNICKA UNIVERZITA V LIBERCI. Ekonomická fakulta

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Kontrola: Sečteme-li sloupec,,četnost výskytu musí nám vyjít hodnota rozsahu souboru (našich 20 žáků)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistický projekt. Název projektu: V jakých jezdíme automobilech. Autoři: Beneš Tomáš, Budka Josef. Oponenti: Bahenský Pavel, Buzák Jan

Tomáš Karel LS 2012/2013

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Testování statistických hypotéz

Přehled průběhu pozemních komunikací v jednotlivých krajích ČR

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statistika pro geografy

Tomáš Karel LS 2012/2013

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Příklad: Test nezávislosti kategoriálních znaků

= = 2368

Protokol č. 1. Tloušťková struktura. Zadání:

4. Rozdíly mezi kraji v tvorbě hrubého fixního kapitálu (THFK)


5 Parametrické testy hypotéz

ADDS cviceni. Pavlina Kuranova

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

MATEMATIKA III V PŘÍKLADECH

Číselné charakteristiky a jejich výpočet

Ing. Eva Hamplová, Ph.D. Ing. Jaroslav Kovárník, Ph.D.

PRAVDĚPODOBNOST A STATISTIKA

Normální (Gaussovo) rozdělení

Testy statistických hypotéz

SYSTEMATICKÉ MĚŘENÍ OBSAHU RADIONUKLIDŮ V PITNÉ VODĚ DODÁVANÉ DO VEŘEJNÝCH VODOVODŮ V ČR V ROCE 2016

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Aproximace binomického rozdělení normálním

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Obecné momenty prosté tvary

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Jana Vránová, 3. lékařská fakulta UK

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Normální (Gaussovo) rozdělení

3. Základní statistické charakteristiky. KGG/STG Zimní semestr Základní statistické charakteristiky 1

Jednofaktorová analýza rozptylu

Opakování: Nominální proměnná více hodnotová odpověď.

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

NÁHODNÁ ČÍSLA. F(x) = 1 pro x 1. Náhodná čísla lze generovat některým z následujících generátorů náhodných čísel:

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Příklady na testy hypotéz o parametrech normálního rozdělení

Transkript:

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření Počet stran: 10 Datum odevzdání: 13. 5. 2016 Pavel Kubát

Obsah Úvod... 3 1 Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory)... 4 1.1 Charakteristiky úrovně skutečné spotřeby u modelu Fiesta... 4 1.1.1 Velikost souboru... 4 1.1.2 Aritmetický průměr... 5 1.1.3 Medián... 5 1.1.4 Dolní kvartil... 5 1.1.5 Horní kvartil... 5 1.2 Charakteristiky variability skutečné spotřeby u modelu Fiesta... 5 1.2.1 Variační rozpětí... 5 1.2.2 Rozptyl... 6 1.2.3 Směrodatná odchylka... 6 1.2.4 Variační koeficient... 6 2 Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového... 7 2.1 Hypotézy... 7 2.2 Testové kritérium... 7 2.3 Test shody středních hodnot... 8 3 Jsou nezávislé veličiny palivo a pohlaví majitele vozu?... 9 3.1 Praha, Jihomoravský kraj a Středočeský kraj... 9 3.2. Zbytek republiky... 10 2

Úvod Cílem této semestrální práce je analýza dat, která nám byla poskytnuta vyučujícími předmětu Statistický rozbor dat z dotazníkového šetření. Tato data se týkají automobilů značky Ford, u kterých bylo zjišťováno celkem 14 charakteristik, které se vztahují jak k automobilu samotnému tak také k jeho majiteli. V této práci je využita pouze určitá část informací, nikoliv veškeré zjišťované charakteristiky. Při analýze byl použit program Statgraphics Centurion XVII a také dosud známé statistické metody a postupy. Hladina významnosti α byla stanovena na hodnotě 5%. V následujících kapitolách a podkapitolách budou postupně vypracovány odpovědi na 3 zadané úkoly, které jsou následující: 1) Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory). 2) Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového. 3) Jsou nezávislé veličiny palivo a pohlaví majitele vozu? 3

1 Charakterizujte úroveň a variabilitu skutečné spotřeby u modelu Fiesta (pouze benzínové motory) Pro potřeby této kapitoly budeme z datového souboru potřebovat jenom automobily modelu Fiesta pouze s benzínovými motory, které si můžeme přesunout na nový datový list za pomocí funkce dělení souboru. Základní charakteristiky skutečné spotřeby modelu Fiesta u benzínových motorů jsou v následující tabulce. Tabulka 1: Základní charakteristiky skutečné spotřeby Počet 68 Průměr 8,71176 Medián 8,75 Rozptyl 0,680457 Směrodatná odchylka 0,824898 Variační koeficient 9,46878% Minimum 6,7 Maximum 10,3 Variační rozpětí 3,6 Dolní kvartil 8,1 Horní kvartil 9,25 Mezikvartilové rozpětí 1,15 1.1 Charakteristiky úrovně skutečné spotřeby u modelu Fiesta Základními statistickými charakteristikami úrovně jsou například průměry, modus či kvantily (zvláště užívaným kvantilem je 50% kvantil, též nazývaný medián). Dále zmíníme pouze průměr aritmetický a medián. Modus nemá smysl v tomto případě určovat. 1.1.1 Velikost souboru Soubor zahrnuje 68 automobilů typu Ford Fiesta s benzinovým typem motoru. 4

1.1.2 Aritmetický průměr V tomto případě dává smysl využít průměr aritmetický prostý, který spočteme dle následujícího vzorce: x = n i=1 x i n Jeden automobil spotřebuje v průměru 8,71176 litrů paliva na 100km jízdy. 1.1.3 Medián Jelikož rozsah našeho souboru je liché číslo, mediánem je konkrétní prvek, který dělí neklesající řadu hodnot na poloviny. n+1 Vzorec: x = x n+1 (, kde výraz udává pořadí mediánu v dané neklesající řadě hodnot. ) 2 2 Medián v tomto příkladu je roven 8,75 litrů paliva na 100km. 1.1.4 Dolní kvartil Dolní kvartil značíme x 25. 25% automobilů značky Ford, model Fiesta s benzinovým typem motoru má spotřebu paliva na 100km menší nebo rovnu hodnotě 8,1 litrů. 1.1.5 Horní kvartil Horní kvartil značíme x 75. 25% automobilů značky Ford, model Fiesta s benzinovým typem motoru má spotřebu paliva na 100km větší nebo rovnu hodnotě 9,25 litrů. 1.2 Charakteristiky variability skutečné spotřeby u modelu Fiesta Statistické charakteristiky variability udávají, jak hodnoty kolísají kolem zvoleného středu, který je nejčastěji vyjádřen pomoci některých výše uvedených charakteristik úrovně. Blíže se podíváme na variační rozpětí, rozptyl, směrodatnou odchylku a variační koeficient. 1.2.1 Variační rozpětí Variační rozpětí se řadí mezi charakteristiky měřící absolutní variabilitu. Lze ho spočítat pomocí vzorce R = x max x min Hodnota variačního rozpětí činí 3,6 litru paliva. 5

1.2.2 Rozptyl Rozptyl měří průměrnou odchylku do průměru, umocněnou na druhou. Výsledek tedy nevychází ve stejných měrných jednotkách, ale tyty jednotky jsou umocněny na druhou. Vzorec: s 2 x = n i=1 (x i x ) 2 n 1 Rozptyl má hodnotu 0,680457 litrů 2. 1.2.3 Směrodatná odchylka Směrodatná odchylka udává průměrnou odchylku hodnoty znaku od aritmetického průměru. Vzorec: s x = s x 2 Směrodatná odchylka je 0,824898 litrů benzinu na 100km. 1.2.4 Variační koeficient Variační koeficient je charakteristikou relativní variability, je to bezrozměrné číslo a umožňuje tedy porovnávání variability souborů s různou úrovní či odlišnými měrnými jednotkami. Pro interpretaci je možno číslo uvést v procentech. Vzorec: V x = s x x Variační koeficient je roven 9,46878%. 6

2 Otestujte, zdali průměrná spotřeba paliva u Fiesty je u benzínového motoru alespoň o 2 litry vyšší než u naftového V této kapitole se budeme zabývat tím, zdali na základě našeho výběrového souboru lze tvrdit, že průměrná spotřeba benzinového motoru u modelu Fiesta je alespoň o dva litry vyšší než u modelu Fiesta s motorem naftovým. Jde tedy o dvou výběrový test o shodě středních hodnot. Hodnoty spotřeby paliva u benzinových motoru označíme X1(μ1;δ1 2 ) a hodnoty naftových motorů budeme značit X2(μ2;δ2 2 ). 2.1 Hypotézy Prvním krokem je sestavení nulové (H0) a alternativní hypotézy (H1). H 0 : μ 1 μ 2 = 2 H 1 : μ 1 μ 2 > 2 Pro další pokračování testu je nutné ověřit, že jsou rozptyly výběrů shodné. Vypočtená P-hodnota programem Statgraphics je rovna 0,0637859, což je větší než α (0,05) a nezamítáme tedy nulovou hypotézu o shodě rozptylů a můžeme pokračovat dále v testování hypotézy o shodě středních hodnot. 2.2 Testové kritérium Zvolíme vhodné testové kritérium, které má při platnosti H0 známé pravděpodobnostní rozložení. Vzorec: t = x 1 x 2 (n 2 1 1)s 1+(n 2 2 1)s 1 n1+n2 2 n1 + 1 n2 t(n 1 + n 2 2) t=5,9897 7

2.3 Test shody středních hodnot Dalším krokem je provedení samotného testu programem Statgraphics pro dva nezávislé vzorky na hladině významnosti 5%, do kterého zadáme údaje z následující tabulky. Tabulka 2: Porovnání skutečné spotřeby benzinových a naftových motorů benzin nafta Počet 68 47 Průměr 8,71176 5,85532 Směrodatná odchylka 0,824898 0,63616 Vypočtená P-hodnota je rovna 0,000000118067, což je menší než hladina významnosti α=0,05 a tudíž zamítáme nulovou hypotézu H0 a přijímáme alternativní hypotézu H1. Na hladině významnosti 5% je průměrná spotřeba paliva u benzinových motorů modelu Ford Fiesta alespoň o 2 litry vyšší než u motorů naftových. 8

3 Jsou nezávislé veličiny palivo a pohlaví majitele vozu? V další a poslední kapitole se zabýváme, zdali jsou veličiny palivo a pohlaví majitele vozu závislé či nikoliv. Jedná se o dvě proměnné slovní (jak druh paliva tak také pohlaví majitele vozu) a nabývají pouze 2 hodnot. Vhodným prostředkem pro zjištění závislosti tedy je čtyřpolní tabulka. Nejprve provedeme analýzu pro kraje Praha, Jihomoravský a Středočeský a následně pro zbytek České republiky. 3.1 Praha, Jihomoravský kraj a Středočeský kraj V následující tabulce jsou vyznačeny jednotlivé četnosti typu motoru zvlášť, zdali je automobil vlastněn mužem či ženou pro kraje Praha, Jihomoravský a Středočeský. Tabulka 3: Tabulka četností pro typ motoru a pohlaví vlastníka pro kraje Praha, Jihomoravský a Středočeský Muž Žena Celkem Benzin 20 15 35 38,46% 28,85% 67,31% Nafta 9 8 17 17,31% 15,38% 32,69% Celkem 29 23 52 55,77% 44,23% 100% Výsledky testu nezávislosti pohlaví a paliva pro kraje Praha, Jihomoravský a Středočeský jsou shrnuty v následující tabulce. Tabulka 4: Test nezávislosti pohlaví a paliva pro kraje Praha, Jihomoravský a Středočeský Test Testové kritérium Stupně volnosti P-hodnota Chi-kvadrát 0,082 1 0,7747 P-hodnota (0,7747) je vyšší než α (0,05) a tudíž jsme neprokázali závislost mezi palivem motoru a pohlavím majitele vozu. 9

3.2. Zbytek republiky V následující tabulce jsou vyznačeny jednotlivé četnosti typu motoru zvlášť, zdali je automobil vlastněn mužem či ženou pro zbývající kraje České republiky. Tabulka 5: Tabulka četností pro typ motoru a pohlaví vlastníka pro zbytek republiky Muž Žena Celkem Benzin 59 54 113 28,92% 26,47% 55,39% Nafta 50 41 91 24,51% 20,10% 44,61% Celkem 109 95 204 53,43% 46,57% 100% Výsledky testu nezávislosti pohlaví a paliva pro zbytek České republiky jsou shrnuty v následující tabulce. Tabulka 6: Test nezávislosti pro zbytek České republiky Test Testové kritérium Stupně volnosti P-hodnota Chi-kvadrát 0,151 1 0,6973 P-hodnota (0,6973) je vyšší než α (0,05) a tudíž jsme neprokázali závislost mezi palivem motoru a pohlavím majitele vozu v Jihočeském kraji, Pardubickém kraji, Královehradeckém kraji, Kraji Vysočina, Karlovarském kraji, Libereckém kraji, Olomouckém kraji, Plzeňském kraji, Moravskoslezském kraji, Ústeckém kraji a ve Zlínském kraji. 10