Statistika. Semestrální projekt



Podobné dokumenty
Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Analýza dat z dotazníkových šetření

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Tabulka 1. Výběr z datové tabulky

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

TECHNICKÁ UNIVERZITA V LIBERCI

Máte rádi kávu? Statistický výzkum o množství vypité kávy napříč věkovým spektrem.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKY

Pearsonův korelační koeficient

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ Ústav aplikované matematiky

Analýza dat na PC I.

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

A7B39TUR Úloha B Kvantitativní testování ZS 2013/2014 Software MS Office Word a Open Office Writer

Č VUT FAKULTA DOPRAVNÍ Statistický projekt

Zápočtová práce STATISTIKA I

Tabulka 1 Rizikové online zážitky v závislosti na místě přístupu k internetu N M SD Min Max. Přístup ve vlastním pokoji ,61 1,61 0,00 5,00

ADDS cvičení 7. Pavlína Kuráňová

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

TECHNICKÁ UNIVERZITA V LIBERCI EKONOMICKÁ FAKULTA

TECHNICKÁ UNIVERZITA V LIBERCI

Vliv reklamy na studenty

KONTINGENČNÍ TABULKY Komentované řešení pomocí programu Statistica

SAMOSTATNÁ STUDENTSKÁ PRÁCE ZE STATISTIKY

Statistické zkoumání faktorů výšky obyvatel ČR

Kvantitativní test ových klientů Mozilla Thunderbird a Windows Live Mail

SEMESTRÁLNÍ PRÁCE Z PŘEDMĚTU STATISTIKA TÉMA:

Kvantitativní testování porovnání Alza.cz a Mall.cz

2 Zpracování naměřených dat. 2.1 Gaussův zákon chyb. 2.2 Náhodná veličina a její rozdělení

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

A7B39TUR - Semestrální práce

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Metodologie pro ISK II

VŠB Technická univerzita Ostrava BIOSTATISTIKA

České vysoké učení technické v Praze Fakulta dopravní Ústav aplikované matematiky, K611. Semestrální práce ze Statistiky (SIS)

Nejčastější chyby v explorační analýze

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

TECHNICKÁ UNIVERZITA V LIBERCI

Spokojenost se životem

Průměrný čas v minutách týdně věnovaný internetu

Metodologie pro Informační studia a knihovnictví 2

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

Technická univerzita v Liberci

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

TECHNICKÁ UNIVERZITA V LIBERCI Ekonomická fakulta

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

VŠB Technická univerzita Ostrava

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ FAKULTA DOPRAVNÍ

Test z teorie VÝBĚROVÉ CHARAKTERISTIKY A INTERVALOVÉ ODHADY

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

ČVUT FAKULTA DOPRAVNÍ

Statistické zpracování naměřených experimentálních dat za rok 2012

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ

Projekt z předmětu Statistika

Návod na vypracování semestrálního projektu

TECHNICKÁ UNIVERZITA V LIBERCI

Metodologie pro Informační studia a knihovnictví 2

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

Seminář 6 statistické testy

veličin, deskriptivní statistika Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

= = 2368

Vysoká škola báská Technická univerzita Ostrava Institut geoinformatiky. Analýza dojíždní z dotazníkového šetení v MSK. Semestrální projekt

TECHNICKÁ UNIVERZITA V LIBERCI

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Korelace. Komentované řešení pomocí MS Excel

Testy. Pavel Provinský. 19. listopadu 2013

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

Škály podle informace v datech:

Jana Vránová, 3. lékařská fakulta UK

SEZNAM PŘÍLOH. Příloha 1: Kompletní SWOT analýza. Příloha 2: Dotazník. Příloha 3: Výkazy zisků a ztrát, závěrečné rozvahy a výkazy cash flow

Uloha B - Kvantitativní test. Radek Kubica A7B39TUR. B1 Radek Kubica Kvantitativní testování Stránka 1

Základy popisné statistiky. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Minimální hodnota. Tabulka 11

Lineární regrese. Komentované řešení pomocí MS Excel

Biostatistika Cvičení 7

České vysoké učení technické v Praze Fakulta dopravní

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Způsoby chození do schodů

Semestrální projekt. do předmětu Statistika. Vypracoval: Adam Mlejnek Oponenti: Patrik Novotný Jakub Nováček Click here to buy 2

Příklad: Test nezávislosti kategoriálních znaků

Tomáš Karel LS 2012/2013

Semestrální práce z předmětu Matematika 6F

Cvičení 12: Binární logistická regrese

Jak nelhat se statistikou? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

NÁVOD NA VYPLNĚNÍ ELEKTRONICKÉ ŽÁDOSTI O DOTACI

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Charakteristiky kategoriálních veličin. Absolutní četnosti (FREQUENCY)

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Transkript:

Statistika Semestrální projekt 18.5.2013 Tomáš Jędrzejek, JED0008

Obsah Úvod 3 Analyzovaná data 4 Analýza dat 6 Statistická indukce 12 Závěr 15

1. Úvod Cílem této semestrální práce je aplikovat získané teoretické poznatky pomocí dostupného programového vybavení, jmenovitě statistický software Statgraphics Centurion 16.1.18 a LibreOffice 4.0.22 jako textový procesor. Jako téma práce jsem zvolil sledování softwarového vybavení uživatelů na internetu. Neboť jsem nenašel vhodný zdroj dat, vytvořil jsem za pomocí služeb Google Docs internetový dotazník. Ten byl volně dostupný atak se ho mohlo zúčastnit kdokoli, kdo má přístup k internetu. Protože byl dotazník zhotoven v českém jazyce, je velmi pravděpodobné, že naprostá většina respondentů pocházela právě z České Republiky. Nezachycuje tedy jen malou oblast, kde se dotazovaní nacházeli. Z tohoto důvodu je míra objektivity u prováděných statistik větší, než v případě, kdy by se jednalo např. o studenty VŠB-TUO. Jako populaci či základní soubor lze tedy pokládat lidi používající počítač, kteří jsou připojení k internetu v květnu 2013. Statistiky založené na základě získaných dat nám mohou říci třeba to, jak jsou oblíbené webové prohlížeče napříč celým spektrem respondentů, jak ovlivňuje znalost počítačů to, jaký operační systém používají, jaká věková kategorie má na internetu největší zastoupení, apod. Dotazník byl vytvořen přesně na míru pro tento projekt, takže využiji všechny dostupné proměnné. Celkem se dotazníku účastnilo 50 respondentů. Na všechny otázky bylo nutné odpovědět, to znamená, že nedošlo k prázdné odpovědi a všechny záznamy mohly být použity. Výběrovým souborem jsou v tomto případě lidé používající počítač, kteří jsou připojeni k internetu a účastnili se dotazníku v květnu 2013. Data byly získány umístěním odkazu na dotazník na několika webových stránkách, tak abych dosáhl co nejvyšší vypovídací hodnotu v globálním měřítku. Na základě získaných dat byla provedena exploratorní analýza, která byla doplněna intervalovým odhadem a testem nezávislosti v kontingenční tabulce.

2. Analyzovaná data Dotazník se skládal z několika otázek. Obsaženy byly takové, které se týkají samotné osoby, tedy respondenta např. pohlaví či věk a také ty, které přiblížily jaké softwarové vybavení využívá nejvíce. Níže jsou uvedeny otázky a možné odpovědi: Vaše pohlaví? Žena Muž Váš věk? Číslo Do jaké skupiny se řadíte ve znalosti PC? Začátečník Pokročilý Odborník Jaký typ počítače používáte nejčastěji? Stolní Notebook Netbook Tablet Jaký webový prohlížeč nejčastěji? Chrome Mozilla Firefox Internet Explorer Jiný

Jaký operační systém používáte nejčastěji? Windows Linux OS X Jiný

3. Analýza dat 3.1. Zastoupení webových prohlížečů Tento dotazník je zaměřen na zjištění zastoupení používaného programového vybavení. Proto jsem nejdříve provedl exploratorní analýzu proměnné webové prohlížeče, tedy otázka zněla Jaký webový prohlížeč využíváte nejčastěji?. Obr. 1 koláčový graf Jaký webový prohlížeč využíváte nejčastěji? Z grafu na obrázku 1 lze jasně vidět zastoupení webových prohlížečů na zkoumaném trhu. Výsledky statistiky jsou velmi podobné těm, které lze nalézt na různých statistických serverech jako je např. http://statcounter.com. Na sledované populaci lze zjistit, že dbá na svou bezpečnost a preferuje prohlížeč Mozilla Firefox či Google Chrome, které se snaží být velmi inovativní v oblasti webových technologií.

3.2. Zastoupení operačních systémů Další zkoumanou proměnnou byly Operační systémy. Respondentů jsem se ptal Jaký operační systém používáte nejčastěji?. V posledních letech je to velmi zajímavá oblast, která se s rozšiřujícím se přístupem k internetu začíná pomalu měnit. Většina lidí vůbec nezná něco jiného, než systém Microsoft Windows, avšak roste povědomí i o jiných platformách, kdy lidé hledají alternativní řešení z mnoha důvodů. Fakt, že ostatní operační systémy nejsou (převážně v ČR) brány příliš na vědomí je způsoben několika faktory jako je tuzemský vzdělávací systém. Ku příkladu systémy s jádrem Linux začínají být celosvětově velmi populární, hlavně z důvodu nulové ceny, mnohem lepší bezpečnosti a modularitě oproti Windows. Jaký je současný stav ve zkoumané populaci na počítačích? To lze sledovat na následujícím koláčovém grafu Obr. 2 - koláčový graf Jaký operační systém používáte nejčastěji?

Z grafu na obrázku 2 jde vidět zastoupení jednotlivých OS. Statistika je opět velmi podobná s těmi, které lze shlédnout na zmiňovaných portálech. Avšak z důvodu nízkého počtu respondentů je pro Apple OS X a systémy na bázi Linux zřetelné, že přesnost není příliš dobrá, neboť platí čím více statistických jednotek, tím je analýza přesnější. 3.3. Zastoupení typu počítačů Kromě analýzy programového vybavení mě zajímalo to, jaký typ počítače respondent nejčastěji využívá. Pro výrobce hardware je velmi důležité vědět, jakým směrem se trh ubírá a co se využívají zákazníci nejčastěji. Na základě této informace může lépe rozhodnout do jakého segmentu investuje, aby se mu výroba dostatečně oplatila. Obr. 3 - koláčový graf Jaký operační systém používáte nejčastěji? V grafu na obrázku 3 lze vypozorovat, že stolní počítače na zkoumané populaci stále převládají. I když to podle grafu nevypadá, prodeje stolních počítačů a notebooků klesají ve prospěch menších zařízení, které jsou více mobilní. Stále naprostá většina využívá převážně zmiňované dva typy.

3.4. Zastoupení znalosti PC V dotazníku se nacházela také otázka Do jaké skupiny se řadíte ve znalosti PC?. Zjišťoval jsem tedy, na jaké úrovni lidé ovládají své počítače. Sami se podle svého názoru zařadili do jedné ze tří kategorií, znamená to, že tato analýza je založena spíše na subjektivním dojmu respondenta. Obr. 4 - koláčový graf Do jaké skupiny se řadíte ve znalosti PC? Z výše uvedeného grafu jsem se dozvěděl jaké je zastoupení znalosti PC ve zkoumané populaci. Polovina dotazovaných o sobě myslí, že je v oblasti počítačů začátečník. Nejméně je však odborníků, což jistě odpovídá realitě. Dalo by se říci, že přibližně každý šestý člověk s připojením k internetu myslí, že je počítačový odborník.

3.5. Zastoupení pohlaví Pro lepší představu a upřesnění analýzy jsem zahrnul také pohlaví respondentů. Obr. 5 - koláčový graf pro proměnnou Pohlaví Graf na obrázku 5 ukazuje na fakt, že muži na počítači s připojením k internetu prosedí více. Výsledek může ovlivňovat i to, že mohou mít větší zájem o vyplňování dotazníku.

3.6. Věk respondentů V poslední otázce jsem se ptal na věk respondentů. Mohu tak sledovat jaká věková kategorie je na internetu nejčastěji nebo např. závislost věkové kategorie na dalších proměnných a vyvodit tak užitečnější závěr pro danou statistiku. Obr. 6 - histogram pro proměnnou Věk Na obrázku 6 lze vidět histogram, který ukazuje četnosti. Lze z něj vyčíst, že věková kategorie kolem 20 let je na internetu nejaktivnější. Statistika proměnné Věk Počet respondentů / pozorování 50 Průměrný věk 33,42 Směrodatná odchylka 15,1753 Minimální věk 13 Maximální věk 72 Interkvartilové rozpětí 59 Šikmost 3,17267 Špičatost 0,404117

4. Statistická indukce 4.1. Závislost typu počítače na pohlaví respondenta Předmětem zkoumání bylo mimo jiné zjistit, zda je typ počítače závislý na pohlaví respondentů. Pomocí statistické indukce, resp. analýzou kontingenční tabulky tak zjistíme na základě zkoumané populace, zda existuje závislost mezi pohlavím a typem počítače, tento poznatek pak přenést s určitou mírou rizika na celou populaci. Následující tabulka shrnuje parametry datového souboru v kontingenční tabulce. Tabulka četností Notebook Stolní Celkem za řádek Muž 12 19 31 24% 38% 62% 13,02 17,98 0,08 0,06 Žena 9 10 19 18% 20% 38% 7,98 11,02 0,13 0,09 Celkem za sloupec 21 29 50 42% 58% 100% Obsah buněk: Počet výskytů Procentuální zastoupení Očekávaná četnost (nesmí být nižší než 5) Příspěvek do chi-square První řádek tabulky popisuje počet výskytů hodnot, které byly zaznamenány v dotazníku pro proměnnou Typ počítače, které využívají muži. Druhý řádek představuje procentuální zastoupení daného počtu výskytů v celé populaci. Třetí pak popisuje očekávanou četnost, resp. Expected frequency. Tato hodnota je velmi důležitá, neboť na základě ní je možné určit

zda lze provést test závislosti. A to tak, že hodnoty v celé tabulce nesmí klesnout pod hodnotu 5. Nejnižší hodnota je 7,98, takže test je možné provést. Čtvrtý řádek popisuje příspěvek do chi-square. Následný mozaikový graf pomůže si lépe danou závislost představit. Obr. 7 mozaikový graf Závislost pohlaví respondenta na typu počítače Z grafu na obrázku 7. je vidět, že poměr mezi stolním počítačem a ženou je pro obě pohlaví přibližně stejný. Abychom určili, jestli tomu tak je opravdu nebo existuje závislost mezi zmíněnými kategoriálními proměnnými je nutné definovat hypotézu. Definuji nulovou hypotézu H 0 jako: Muži i ženy používají daný typ počítače ve stejné míře. Definuji alternativní hypotézu H A : Muži nepoužívají daný typ počítače ve stejné míře jako ženy. Předpoklady k provedení testu byly splněny, tudíž jsem přistoupil k testu nezávislosti: Test Statistika Df P-Value Chi-Square 0,363 1 0,5471 Protože je P-value větší než 0,05, tedy v tomto případě 0,5471, nelze zamítnout nulovou

hypotézu, která říká že řádky a sloupce jsou s 95% pravděpodobností (5% hladině významnosti) nezávislé. Z toho vyplývá, že jsme nenašli spojení, mezi pohlavím respondentů a typem počítače. 4.2. Intervalový odhad pro proměnnou Věk respondenta Abych určil parametry celé populace je nutné provést vyčerpávající analýzu, to je z mnoha důvodů velmi obtížné až nemožné. Proto jsem využil odhad, ve kterém použiji příslušné charakteristiky výběrového souboru. Zajímalo mě kolik procent lidí je starších 35 let, neboť to je přibližně průměrné stáří respondentů. Z vyplněných dotazníků byly zjištěny následující údaje o stáří respondentů: 23, 22, 21, 26, 26, 23, 49, 65, 71, 40, 45, 18, 22, 23, 72, 34, 20, 23, 55, 28, 30, 47, 22, 26, 28, 29, 43, 23, 20, 13, 31, 34, 25, 37, 54, 44, 55, 20, 17, 67, 24, 23, 27, 36, 19, 25, 26, 50, 48, 22 Z výše uvedených dat jsem vypočítal průměr - 33,42 let a směrodatnou odchylku - 15,1753 let. Zjistil jsem intervaly spolehlivosti pro míru 95%: 95% IS pro střední hodnotu - [29,1072; 37,7328]. 95% IS pro směrodatnou odchylku - [13,324; 17,6288]. Počítám pomocí normálního rozdělení: N(29,1072; 13,324 2 ) P(X > 35) = 32,9% (minimum) N(29,1072; 17,6288 2 ) P(X > 35) = 36,9% N(37,7328; 13,324 2 ) P(X > 35) = 58,1% (maximum) N(37,7328; 17,6288 2 ) P(X > 35) = 56,2% Z výše uvedeného výpočtu intervalových odhadů jsem zjistil, že s 95% spolehlivostí má daná populace věk vyšší než 35 let s pravděpodobností mezi 32,9% až 58,1%.

5. Závěr V úvodu jsem představil čemu se bude analýza dat věnovat. Dále jsem zkoumal v exploratorní analýze všechny dostupné proměnné jak kategoriální tak numerické. V části zabývající se statistickou indukcí jsem zkoumal závislost typu počítače na pohlaví respondentů a zjistil, že zde pravděpodobně žádná vazba není. Zjistil jsem také procentuální interval, který odhaduje rozmezí, že je daná populace starší než 35 let. Nakonec bych chtěl poznamenat, že z důvodu menšího množství respondentů byla prováděná analýza s méně přesnými výsledky. Avšak pro orientační pohled na problematiku zastoupení programového vybavení je více než dostatečná.