VŠB Technická univerzita Ostrava

Podobné dokumenty
VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava BIOSTATISTIKA

VŠB Technická univerzita Ostrava

Zaokrouhlování: Směrodatná odchylka se zaokrouhluje nahoru na stanovený počet platných cifer. Míry

Zápočtová práce STATISTIKA I

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Kurz Biostatistiky pro zaměstnance FNO

Charakteristika datového souboru

Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Průzkumová analýza dat

Analýza dat s využitím MS Excel

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Návod na vypracování semestrálního projektu

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT

VYSOKÉ UČENÍ TECHNICKÉ V BRNĚ. FAKULTA STROJNÍHO INŽENÝRSTVÍ Ústav materiálového inženýrství - odbor slévárenství

Metodologie pro ISK II

Manuál pro zaokrouhlování

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Tabulka 1. Výběr z datové tabulky

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Kvantily a písmenové hodnoty E E E E-02

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Korelační a regresní analýza

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

POPISNÁ STATISTIKA Komentované řešení pomocí programu Statistica

S E M E S T R Á L N Í

TEST Z TEORIE EXPLORAČNÍ ANALÝZA DAT

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Návrhy dalších možností statistického zpracování aktualizovaných dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Statistika s Excelem aneb Máme data. A co dál? Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava

KORELACE. Komentované řešení pomocí programu Statistica

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

a) Základní informace o souboru Statistika: Základní statistika a tabulky: Popisné statistiky: Detaily

Matematika III. 27. listopadu Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

UNIVERZITA PARDUBICE

4ST201 STATISTIKA CVIČENÍ Č. 7

Cvičení 12: Binární logistická regrese

Zpracování náhodného výběru. Ing. Michal Dorda, Ph.D.

Statistická analýza. jednorozměrných dat

Úvod do kurzu. Moodle kurz. (a) (b) heslo pro hosty: statistika (c) skripta na pravděpodobnost

Odhady parametrů základního souboru. Cvičení 6 Statistické metody a zpracování dat 1 (podzim 2016) Brno, říjen listopad 2016 Ambrožová Klára

Vzorová prezentace do předmětu Statistika

Testy statistických hypotéz

Porovnání dvou výběrů

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Statistická analýza jednorozměrných dat

TECHNICKÁ UNIVERZITA V LIBERCI SEMESTRÁLNÍ PRÁCE

Stručný úvod do testování statistických hypotéz

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

UNIVERZITA PARDUBICE CHEMICKO-TECHNOLOGICKÁ FAKULTA KATEDRA ANALYTICKÉ CHEMIE

ZÁKLADNÍ STATISTICKÉ CHARAKTERISTIKY

Pravděpodobnost a aplikovaná statistika

ZNALOSTI A DOVEDNOSTI ČESKÝCH MUŽŮ V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

MATEMATIKA III V PŘÍKLADECH

Úloha E301 Čistota vody v řece testem BSK 5 ( Statistická analýza jednorozměrných dat )

Úvodem Dříve les než stromy 3 Operace s maticemi

Statistika. Diskrétní data. Spojitá data. Charakteristiky polohy. Charakteristiky variability

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Tomáš Karel LS 2012/2013

ZNALOSTI A DOVEDNOSTI ČESKÝCH ŽEN V OBLASTI INFORMAČNÍ BEZPEČNOSTI - VÝSLEDKY STATISTICKÉ ANALÝZY

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Tématické okruhy pro státní závěrečné zkoušky. bakalářské studium. studijní obor "Management jakosti"

Číselné charakteristiky

Úloha č. 2 - Kvantil a typická hodnota. (bodově tříděná data): (intervalově tříděná data): Zadání úlohy: Zadání úlohy:

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Statistika pro geografy

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Analýza dat na PC I.

4. Zpracování číselných dat

Jednofaktorová analýza rozptylu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Nejčastější chyby v explorační analýze

Základy pravděpodobnosti a statistiky. Popisná statistika

Popisná statistika. Komentované řešení pomocí MS Excel

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistická analýza jednorozměrných dat

Minimální hodnota. Tabulka 11

VADÍ - NEVADÍ ANEB STATISTIKA KOLEM NÁS

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Transkript:

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky JMÉNO STUDENTKY/STUDENTA: OSOBNÍ ČÍSLO: JMÉNO CVIČÍCÍ/CVIČÍCÍHO: PRAVDĚPODOBNOST A STATISTIKA Zadání 10 DATUM ODEVZDÁNÍ DOMÁCÍ ÚKOL 1: DOMÁCÍ ÚKOL 2: DOMÁCÍ ÚKOL 3: DOMÁCÍ ÚKOL 4: CELKEM: --------------------- HODNOCENÍ Ostrava, AR 2017/2018

Popis datového souboru Steam je platforma společnosti Valve Corporation určená k digitální distribuci her a softwaru a zajištění multiplayerového a komunikačního zázemí pro hráče [1]. Tato platforma je dostupná pro všechny rozšířené operační systémy (Windows, OSX, Linux), největší podíl mají různé verze OS Windows (dohromady 95,75%), poté OSX (dohromady 3,31%) a zbytek zabírají distribuce Linuxu [2]. V souboru ukol_10.xlsx jsou uvedeny celkové doby hraní sledovaných hráčů pro rok 2016 a 2017 a používané verze operačních systémů. Soubor obsahuje položky ID hráče, celková doba hraní za rok 2016, celková doba hraní za rok 2017 a používaná verze operačního systému (Win 7, Win 8.1, Win 10, MacOS). Obecné pokyny: Domácí úkoly odevzdávejte vždy v termínu, který určil váš cvičící. Portfolio domácích úkolů budete odevzdávat postupně. Tj. nejdříve odevzdáte titulní stránku + úkol 1, následně doplníte úkol 2, atd. Domácí úkoly zpracujte dle obecně známých typografických pravidel. Všechny tabulky i obrázky musí být opatřeny titulkem. Do domácích úkolů nevkládejte tabulky a obrázky, na něž se v doprovodném textu nebudete odkazovat. Bude-li to potřeba, citujte zdroje dle mezinárodně platné citační normy ČSN ISO 690.

Úkol 1 a) Prezentujte strukturu datového souboru, tj. strukturu hráčů dle používaného operačního systému. Použijte tabulku četností a výsledky vhodným způsobem vizualizujte. b) Pomocí nástrojů explorační analýzy analyzujte celkovou dobu hraní pro systém Windows 10 v roce 2016 a v roce 2017. Data vhodně graficky prezentujte (krabicový graf, histogram, q-q graf) a doplňte následující tabulky a text. Tab. 1: Číselné charakteristiky celkové doby hraní pro systém Windows 10 v letech 2016 a 2017 Celková doba hraní (h), Windows 10 Po odstranění odlehlých pozorování Rok 2016 Rok 2017 Rok 2016 Rok 2017 rozsah souboru Míry polohy minimum dolní kvartil medián průměr horní kvartil maximum Míry variability směrodatná odchylka variační koeficient (%) Míry šikmosti a špičatosti šikmost špičatost Identifikace odlehlých pozorování vnitřní hradby dolní mez horní mez 2

Grafická prezentace (krabicový graf, histogram, q-q graf): 3

Analýza počtu odehraných hodin na systému Windows 10 v roce 2016 Sledovali jsme... hráčů používajících operační systém Windows 10. Celková odehraná doba u jednotlivých hráčů se v roce 2016 pohybovala v rozmezí.. až. hodin. Herní doby u hráčů... byly identifikovány jako odlehlá pozorování a nebudou zahrnuty do dalšího zpracování. Možné příčiny vzniku odlehlých pozorování jsou:...... / Žádná z hodnot nebyla identifikována jako odlehlé pozorování. Dále uvedené výsledky tedy pocházejí z analýzy odehrané doby u hráčů. Průměrná herní doba byla.. hodin, směrodatná odchylka pak.. hodin. U poloviny hráčů celková herní doba nepřekročila.. hodin. U poloviny hráčů se odehraná doba pohybovala v rozmezí až... hodin. Vzhledem k hodnotě variačního koeficientu (.%) lze / nelze analyzovaný soubor považovat za homogenní. Analýza počtu odehraných hodin na systému Windows 10 v roce 2017 Sledovali jsme... hráčů používajících operační systém Windows 10. Celková odehraná doba u jednotlivých hráčů se v roce 2017 pohybovala v rozmezí.. až. hodin. Herní doby u hráčů... byly identifikovány jako odlehlá pozorování a nebudou zahrnuty do dalšího zpracování. Možné příčiny vzniku odlehlých pozorování jsou:...... / Žádná z hodnot nebyla identifikována jako odlehlé pozorování. Dále uvedené výsledky tedy pocházejí z analýzy odehrané doby u hráčů. Průměrná herní doba byla.. hodin, směrodatná odchylka pak.. hodin. U poloviny hráčů celková herní doba nepřekročila.. hodin. U poloviny hráčů se odehraná doba pohybovala v rozmezí až... hodin. Vzhledem k hodnotě variačního koeficientu (.%) lze / nelze analyzovaný soubor považovat za homogenní. Ověření normality počtu odehraných hodin na systému Windows 10 v roce 2016 na základě explorační analýzy Na základě grafického zobrazení (viz..) a výběrové šikmosti a špičatosti (viz Tab. 1, výběrová šikmost i špičatost leží / neleží v intervalu ( 2; 2)) lze / nelze předpokládat, že odehraná doba na systému Windows 10 v roce 2016 má normální rozdělení. Dle pravidla 3σ / Čebyševovy nerovnosti lze tedy očekávat, že přibližně 95 % / více než 75 % hráčů bude mít odehráno mezi.. až.. hodinami. Ověření normality počtu odehraných hodin na systému Windows 10 v roce 2017 na základě explorační analýzy Na základě grafického zobrazení (viz..) a výběrové šikmosti a špičatosti (viz Tab. 1, výběrová šikmost i špičatost leží / neleží v intervalu ( 2; 2)) lze / nelze předpokládat, že odehraná doba na systému Windows 10 v roce 2017 má normální rozdělení. Dle pravidla 3σ / Čebyševovy nerovnosti lze tedy očekávat, že přibližně 95 % / více než 75 % hráčů bude mít odehráno mezi.. až.. hodinami. 4

Úkol 2 Porovnejte počet odehraných hodin u systému Windows 10 v roce 2016 a 2017. Nezapomeňte, že použité metody mohou vyžadovat splnění určitých předpokladů. Pokud tomu tak bude, okomentujte splnění/nesplnění těchto předpokladů jak na základě explorační analýzy (např. s odkazem na histogram apod.), tak i exaktně pomocí metod statistické indukce. a) Vraťte se ke grafické prezentaci z úkolu 1 a vytvořte si úsudek o srovnání počtu odehraných hodin v roce 2016 a 2017 pro hráče používající operační systém Win 10. b) Určete bodové a 95% intervalové odhady pro střední odehranou dobu (resp. medián odehrané doby) hráčů používajících operační systém Win 10 v roce 2016 a 2017. c) Určete bodový a 95% levostranný intervalový odhad střední hodnoty (resp. mediánu) rozdílů odehraných hodin v roce 2016 a 2017 u systému Win 10. (Poznámka: Rozdíly definujte tak, že kladná hodnota rozdílu bude vypovídat o tom, že hráč odehrál v roce 2017 více hodin než v roce 2016.) Výsledky slovně interpretujte. 5

d) Na hladině významnosti 5 % rozhodněte, došlo-li v roce 2017 ke statisticky významnému zvýšení počtu odehraných hodin oproti roku 2016 u hráčů používajících operační systém Win 10. e) V roce 2014 ve Spojených státech nahráli hráči v průměru 22 hodin za týden [3]. Na hladině významnosti 5 % rozhodněte, můžeme-li průměrný počet (resp. medián počtu) odehraných hodin v roce 2016 u hráčů používajících operační systém Win 10 považovat za statisticky významně vyšší než uvedená hodnota z roku 2014. (Uvažujte, že rok má 52 týdnů). 6

Úkol 3 Na hladině významnosti 5 % rozhodněte, zda se střední roční odehraná doba (resp. medián roční odehrané doby) pro rok 2017 liší v závislosti na operačním systému. Posouzení proveďte nejprve na základě explorační analýzy a následně pomocí vhodného statistického testu, včetně ověření potřebných předpokladů. V případě, že je mezi operačními systémy statisticky významný rozdíl, určete pořadí operačních systémů dle oblíbenosti pro hraní her. a) Daný problém vhodným způsobem graficky prezentujte (vícenásobný krabicový graf, histogramy, q-q grafy). b) Ověřte normalitu počtu odehraných hodin v roce 2017 u všech čtyř operačních systémů (empiricky i exaktně). 7

c) Ověřte homoskedasticitu (shodu rozptylů) počtu odehraných hodin v roce 2017 jednotlivých operačních systémů (empiricky i exaktně). d) Určete bodové a 95% intervalové odhady střední odehrané doby (resp. mediánu doby) v roce 2017 pro všechny srovnávané operační systémy. (Nezapomeňte na ověření předpokladů pro použití příslušných intervalových odhadů.) e) Čistým testem významnosti ověřte, zda existuje statisticky významný rozdíl v oblíbenosti testovaných operačních systémů pro hraní her. Pro posouzení srovnejte střední odehrané doby (resp. mediány dob) v roce 2017 u všech operačních systémů. Pokud existuje statisticky významný rozdíl (na hladině významnosti 5 %), zjistěte, zda lze některé skupiny operačních systémů označit (z daného hlediska) za homogenní, tj. stanovte pořadí operačních systémů dle oblíbenosti pro hraní her. (Nezapomeňte na ověření předpokladů pro použití zvoleného testu.) 8

Úkol 4 Vývojáři her se především soustřeďují na skupinu hráčů, kteří hraním tráví alespoň 5 hodin týdne. Rozdělte hráče na dvě skupiny, kde první skupina odehrála v průměru méně než 5 hodin týdně ( občasní hráči ) a druhá alespoň 5 hodin týdně ( náruživí hráči ) a následně posuďte skladbu hráčů v závislosti na typu používaného operačního systému (to vše dle herních dob v roce 2017). a) Srovnejte skladbu hráčů pro operační systémy Win 7, Win 8.1, Win 10 a MacOS. Výsledky prezentujte pomocí kontingenční tabulky, vhodného grafu a vhodné míry kontingence. Výsledky interpretujte. b) Určete bodový i 95% intervalový odhad pravděpodobnosti, že hráč hrající na systému Win 10 patří do skupiny náruživých hráčů. Nezapomeňte na ověření předpokladu pro použití intervalového odhadu. c) Určete bodový i 95% intervalový odhad relativního rizika, že hráč počítačových her bude patřit do skupiny občasných hráčů pro systém MacOS vzhledem ke (sloučeným) systémům Windows. Výsledky slovně interpretujte. 9

d) Určete bodový i 95% intervalový odhad poměru šancí, že hráč počítačových her bude patřit do skupiny občasných hráčů pro systém MacOS vzhledem ke (sloučeným) systémům Windows. Výsledky slovně interpretujte. e) Pomocí chí-kvadrát testu nezávislosti rozhodněte, jestli to, zda hráč počítačových her bude patřit do skupiny občasných hráčů nebo náruživých hráčů závisí statisticky významně na tom, na kterém operačním systému hráč paří. 10

Literatura [1] Steam. In: Wikipedia: the free encyclopedia [online]. San Francisco (CA): Wikimedia Foundation, 2001- [cit. 2017-01-27]. Dostupné z: https://cs.wikipedia.org/wiki/steam [2] Steam Hardware & Software Survey: December 2017. Steam [online]. Bellevue (Washington), c2017 [cit. 2017-01-27]. Dostupné z: http://store.steampowered.com/hwsurvey [3] This is how much time the average gamer spends playing games every week. BGR [online]. New York, 2014 [cit. 2017-01-27]. Dostupné z: http://bgr.com/2014/05/14/time-spent-playing-videogames/ 11

Jak identifikovat, zda jsou v datech odlehlá pozorování? Emiprické posouzení: použití vnitřních (vnějších) hradeb, resp. ř, resp. áá ř, vizuální posouzení krabicového grafu. Exaktní posouzení: Grubbsův test (parametrický test - vyžaduje normalitu dat) Deanův - Dixonův test (neparametrický test) Jak naložit s odlehlými hodnotami by měl definovat hlavně zadavatel analýzy (expert na danou problematiku). Jak ověřit normalitu dat? Emiprické posouzení: vizuální posouzení histogramu, vizuální posouzení grafu odhadu hustoty pravděpodobnosti, Q-Q graf, P-P graf, posouzení výběrové šikmosti a výběrové špičatosti. Exaktní posouzení: testy normality (např. Shapirův Wilkův test, Andersonův-Darlingův test, Lillieforsův test, ) Jak ověřit homoskedasticitu (shodu rozptylů)? Emiprické posouzení: poměr největší a nejmenší směrodatné odchylky, vizuální posouzení krabicového grafu. Exaktní posouzení: F test (parametrický dvouvýběrový test), Bartlettův test (parametrický vícevýběrový test), Leveneův test (neparametrický test).