TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta Semestrální práce Statistický rozbor dat z dotazníkového šetření školní zadání Skupina: 51 Vypracovaly: Pavlína Horná, Nikola Loumová, Petra Mikešová, Michaela Slavíková Obor: Podniková ekonomika Datum odevzdání: 13.5.016
Obsah Úvod... 3 1 Charakterizujte úroveň a variabilitu krajů, ve kterých je model Fiesta registrován... 4 1.1 Charakteristiky úrovně krajů, ve kterých je model Fiesta registrován... 4 1.1.1 Velikost souboru... 4 1.1. Aritmetický průměr... 4 1.1.3 Medián... 5 1.1.4 Modus... 6 1.1.5 Dolní a horní kvartil... 7 1. Charakteristika variability krajů, ve kterých je model Fiesta registrován... 7 1..1 Variační rozpětí... 8 1.. Kvartilové rozpětí... 8 1..3 Kvartilová odchylka... 8 1..4 Rozptyl... 8 1..5 Směrodatná odchylka... 9 Testujte hypotézu, že skutečná spotřeba naftového motoru Fordu Kuga je 5,5l na 100km. Předpokládejme, že spotřeba automobilu se řídí normálním rozdělením... 10 3 Charakterizujte celkový počet návštěv v servisu (autorizované i neautorizované servisy dohromady). Otestujte hypotézu, že tato veličina má Poissonovo rozdělení. Uveďte bodový odhad parametru lambda.... 11 Závěr... 1
Úvod Pro semestrální práci z předmětu Statistický rozbor dat z dotazníkového šetření jsme obdržely data o modelech automobilů Ford (Fiesta, Kuga, Focus, Modeo, B-Max). Mimo to jsme také obdržely základní informace, jako jsou například, rok výroby automobilu, cena, výkon, spotřeba, druh paliva či návštěva autorizovaného či neautorizovaného servisu v jednotlivých krajích. Naším prvním úkolem bylo charakterizovat úroveň a variabilitu krajů, ve kterých je jeden z modelů Ford, konkrétně Ford Fiesta, registrován. Pomocí statistických charakteristik jsme tyto statistiky vypočítaly. Druhým stěžejním úkolem je testování hypotézy, zda je skutečná spotřeba naftového motoru Ford Kuga 5,5l na 100km, za předpokladu, že se spotřeba automobilu řídí normálním rozdělením. Poslední úkol obsahuje charakteristiku celkového počtu návštěv v servisu, a to jak autorizovaného, tak i neautorizovaného servisu dohromady. Cílem tohoto úkolu bylo otestovat hypotézu, zda má veličina Poissonovo rozdělení a určit bodový odhad parametru lambda. V následující části práce jsou jednotlivé postupy výpočtu konkrétně vysvětleny a vypočteny. 3
1 Charakterizujte úroveň a variabilitu krajů, ve kterých je model Fiesta registrován. Tato kapitola je věnována základním statistickým charakteristikám. Zkoumanou proměnnou je registrace modelu Ford Fiesta v jednotlivých krajích. V následujících podkapitolách vyjádříme charakteristiky úrovně a variability modelu Ford Fiesta v jednotlivých krajích, ve kterých je registrován. 1.1 Charakteristiky úrovně krajů, ve kterých je model Fiesta registrován K základním statistickým charakteristikám úrovně lze zařadit průměr (aritmetický, geometrický, kvadratický a harmonický), modus a kvantily. V našem případě má smysl výpočet pouze průměru aritmetického. Dále zjistíme medián, modus a kvartily. Tabulka č.1: základní charakteristiky o registraci modelu Ford Fiesta v jednotlivých krajích Velikost souboru 14 krajů Aritmetický průměr 9,36 Modus kraj E a S Medián 8,5 Dolní kvartil Horní kvartil J Z Zdroj: vlastní zpracování 1.1.1 Velikost souboru Ze zadaného souboru dat jsme zjistily, že se skládá ze 14 krajů a 131 automobilů značky Ford. 1.1. Aritmetický průměr Pro výpočet aritmetického průměru jsme zvolily aritmetický průměr prostý. Vzorec: x = 1 n x i=1 x i, kde x i jsou jednotlivé hodnoty znaku a n je počet hodnot znaku. Dosazení do vzorce: x = 1 131 = 9,35714 14 Model Ford Fiesta je v průměru v jednom kraji registrován 9,36 krát. 4
Tabulka č.: pomocná tabulka pro výpočet aritmetického průměru n = kraje x i = počet aut v kraji A 6 B 1 C 11 E 15 H 6 J 8 K 7 L 5 M 6 P 9 S 15 T 8 U 11 Z 1 14 131 Zdroj: vlastní zpracování 1.1.3 Medián Medián vyjadřuje prostřední hodnou řady pozorování uspořádané podle velikosti (při lichém počtu pozorování), při sudém počtu pozorování je to aritmetický průměr dvou prostředních hodnot; polovina všech pozorování je menší než medián a polovina je větší. Medián není citlivý na extrémní hodnoty. 5
Tabulka č.3: pomocná tabulka pro výpočet mediánu n = kraje x i = počet aut v kraji L 5 A 6 H 6 M 6 K 7 J 8 T 8 P 9 C 11 U 11 B 1 Z 1 E 15 S 15 Zdroj: vlastní zpracování Velikost našeho souboru je 14, jedná se o sudé číslo, v tomto případě vypočteme aritmetický průměr dvou prostředních hodnot. Jedná se o vztah: (T(8)+P(9))/=(8+9)/=8,5. Dle tabulky výše můžeme říci, že medián je 8,5. Tedy v krajích L, A, H, M, K, J, T je počet registrovaných aut 8,5 nebo nižší. A v krajích P, C, U, B, Z, E, S je počet registrovaných aut větší než 8,5. 1.1.4 Modus Modus neboli varianta s největší četností, nám v tomto případě říká, že automobil Ford, model Fiesta, je nejvíce registrován v kraji E a S. Četnost v těchto krajích je ve výši 15 registrovaných aut tohoto modelu. 6
Obrázek č.1: četnosti automobilu Ford, značka Fiesta Zdroj: vlastní zpracování 1.1.5 Dolní a horní kvartil Kvartily rozdělují statistický soubor na několik stejných částí. Dolní kvartil značíme zkratkou x 5 a jeho hodnota je kraj J. Horní kvartil značíme zkratkou x 75 a jeho hodnota je kraj Z. Obrázek č.: Tabulka rozdělení četností Zdroj: Statgraphics, vlastní zpracování 1. Charakteristika variability krajů, ve kterých je model Fiesta registrován Charakteristiky variability udávají rozptýlení hodnot kolem zvoleného středu, obvykle kolem některé ze středních hodnot. 7
1..1 Variační rozpětí Variační rozpětí vyjadřuje míru variability souboru. Vzorec: R = x max x min Dosazení do vzorce: R = 15 5 = 10 Variační rozpětí automobilu Ford Fiesta v jednotlivých krajích je 10. 1.. Kvartilové rozpětí Kvantilové rozpětí udává šířku intervalu, ve kterém leží 50% hodnot uspořádaného souboru. Vzorec: R q = x 0,75 x 0,5 Dosazení do vzorce: R q = 1 8 = 4 Kvartilové rozpětí automobilu Ford Fiesta je v jednotlivých krajích 4. 1..3 Kvartilová odchylka Vzorec: Q = R q Dosazení do vzorce: Q = 4 = Kvartilová odchylka automobilu Ford Fiesta je v jednotlivých krajích. 1..4 Rozptyl Je charakterizován jako průměrná kvadratická odchylka měření od aritmetického průměru. Vzorec: S x = x i n 1 ( x i ) n (n 1) Dosazení do vzorce: 1371 14 1 (131) 14 (14 1) Rozptyl automobilů Ford Fiesta v jednotlivých krajích je 11,. Tabulka č.4: pomocná tabulka pro výpočet rozptylu n = kraje x i = počet aut v kraji x i A 6 36 B 1 144 C 11 11 E 15 5 = 105,4615 (17161) = 105,4615 94,91 = 11,1703 18 8
H 6 36 J 8 64 K 7 49 L 5 5 M 6 36 P 9 81 S 15 5 T 8 64 U 11 11 Z 1 144 14 131 1371 Zdroj: vlastní zpracování 1..5 Směrodatná odchylka Udává, jak se v průměru liší jednotlivé hodnoty znaku od aritmetického průměru v obou směrech. Vzorec: S x = + S x Dosazení do vzorce: S x = + 11, = 3,3466 Směrodatná odchylka automobilu Ford Fiesta v jednotlivých krajích je 3,3466. 9
Testujte hypotézu, že skutečná spotřeba naftového motoru Fordu Kuga je 5,5l na 100km. Předpokládejme, že spotřeba automobilu se řídí normálním rozdělením Tato kapitola se zabývá testováním hypotézy, zda skutečná spotřeba naftového motoru Fordu Kuga je 5,5 l na 100 km. Jedná se o číselnou kardinální proměnnou. Rozsah souboru je 17. Nejprve si určíme hypotézy H 0 a H 1. Testování bude provedeno na hladině významnosti α=0,05. Dále si stanovíme testové kritérium a kritický obor. 1) H 0 : µ = 5,5 (Nulová hypotéza předpokládá spotřebu 5,5 l na 100 km u vozidla Ford Kuga.) H 1: µ 5,5 (Alternativní hypotéza předpokládá, že se spotřeba nerovná 5,5l na 100 km u vozidla Ford Kuga.) ) Volba testového kritéria: U = x μ 0 σ N(0;1) n Ze zadaných dat byl spočítán v programu Statgraphics rozptyl, tedy je možné využít výše zmíněné testovací kritérium. U=,5667 3) Stanovení kritického oboru: W {u; u uα a u u α 1 } Konkrétní řešení: Hodnoty byly zadány do programu Statgraphics, kde byla zjištěna data k dalšímu testování hypotézy. Jednalo se o průměr a směrodatnou odchylku. Tabulka č.5: Rozsah souboru, průměr a směrodatná odchylka Rozsah souboru 17 Průměr 5,84118 Standardní směrodatná odchylka 0,54899 Zdroj: Statgraphics, vlastní zpracování 4) Hodnota P-Value = 0,008618. P Value < α H o zamítáme a H 1 přijímáme. 5) Na hladině významnosti 5% jsme zamítly hypotézu o tom, že předpokládaná spotřeba Fordu Kuga je 5,5l na 100km. 10
3 Charakterizujte celkový počet návštěv v servisu (autorizované i neautorizované servisy dohromady). Otestujte hypotézu, že tato veličina má Poissonovo rozdělení. Uveďte bodový odhad parametru lambda. Tento úkol budeme řešit pomocí neúplně specifikovaného modelu, a to především proto, že neznáme parametr π. Tabulka č.6: Poissonovo rozdělení Poisson Chi-Square 4,0506 D.f. 5 P-Value 0,0001305 Zdroj: Statgraphics, vlastní zpracování Následně si určíme hypotézy, testové kritérium, kritický obor a vyhodnotíme výsledky. 1) H 0 : Počet návštěv v servisu se řídí Poissonovým rozdělením H 1 : non H 0 (počet návštěv v servisu se neřídí Poissonovým rozdělením) k ) G = (n i n i ) i=1 ~ℵ (k 1) n i 3) W {G; G ℵ 1 α (k 1)} W {G; G 9,48779039} 4) G = 4,0506, P-value = 0,0001305 5) G W H 0 zamítám a H 1 přijímám Na hladině významnosti 5% jsme zamítly hypotézu H 0 o tom, že návštěvy servisu mají Poissonovo rozdělení. Odhad parametru lambda jsme provedly tak, že jsme sečetly návštěvy v autorizovaných a neautorizovaných servisech, čísla jsme následně zadaly do Statgraphics a zjistily průměr, který se v tomto případě rovná lambdě. Lambda = 4,44141 Tabulka č.7: Summary statistics Count 56 Average 4,44141 Standard deviation,05905 Coeff. of variation 46,3603% Range 11,0 Stnd. skewness,1037 Stnd. kurtosis -0,16713 Zdroj: Statgraphics, vlastní zpracování 11
Závěr Cílem seminární práce bylo na základě obdržených dat vypočítat tři zadané úkoly. Data se týkala automobilu Ford, a to sice modelů Fiesta, Kuga, Focus, Modeo a B-Max. Součástí zadání byly i informace o roku výroby automobilu, ceně, výkonu, spotřebě, druhu paliva a návštěvách autorizovaného a neautorizovaného servisu v jednotlivých krajích. V prvním úkolu jsme měly charakterizovat úroveň a variabilitu krajů, ve kterých je model Ford Fiesta registrován. Z charakteristik úrovně jsme vypočítaly aritmetický průměr, medián, modus, dolní a horní kvartil. Z charakteristik variability byly použity a zpracovány variační a kvartilová rozpětí, rozptyl a kvartilová a směrodatná odchylka. Ve druhém úkolu jsme testovaly hypotézu skutečné spotřeby naftového motoru automobilu Ford, modelu Kuga. Podařilo se nám zjistit, že předpokládaná spotřeba Fordu Kuga není 5,5l na 100km. Ve třetím úkolu jsme ověřovaly hypotézu, zda se veličina řídí Poissonovým rozdělením a odhadovaly jsme parametr lambda. Zkoumanou veličinou byl počet návštěv v autorizovaných a neautorizovaných servisech. Podařilo se nám zjistit, že tato veličina nemá Poissonovo rozdělení. Také jsme zjistily, že parametr lambda má hodnotu 4,44. V závěru bychom chtěly dodat, že pro nás byla tato práce velkým přínosem. 1