Návod na vypracování semestrálního projektu

Podobné dokumenty
Semestrální projekt spočívá v nalezení vhodného datového souboru a jeho statistické analýze s využitím metod probíraných v rámci předmětu.

Vysoká škola báňská technická univerzita Ostrava. Fakulta elektrotechniky a informatiky

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

Tabulka 1. Výběr z datové tabulky

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Jednofaktorová analýza rozptylu

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky SMAD

VŠB Technická univerzita Ostrava Fakulta elektrotechniky a informatiky

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

ADDS cviceni. Pavlina Kuranova

VŠB Technická univerzita Ostrava BIOSTATISTIKA

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Cvičení 12: Binární logistická regrese

Statistické metody uţívané při ověřování platnosti hypotéz

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

SOFTWARE STAT1 A R. Literatura 4. kontrolní skupině (viz obr. 4). Proto budeme testovat shodu středních hodnot µ 1 = µ 2 proti alternativní

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

4ST201 STATISTIKA CVIČENÍ Č. 7

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

Vzorová prezentace do předmětu Statistika

STATISTICKÉ PROGRAMY

Pravděpodobnost a aplikovaná statistika

Jednostranné intervaly spolehlivosti

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

NEPARAMETRICKÉ TESTY

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Průzkumová analýza dat

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

= = 2368

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Úvod do analýzy rozptylu

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Tomáš Karel LS 2012/2013

Projekt z předmětu Statistika

TECHNICKÁ UNIVERZITA V LIBERCI

Cvičení 9: Neparametrické úlohy o mediánech

VŠB Technická univerzita Ostrava

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Korelační a regresní analýza

Program Statistica Base 9. Mgr. Karla Hrbáčková, Ph.D.

Stručný úvod do vybraných zredukovaných základů statistické analýzy dat

Zápočtová práce STATISTIKA I

12. cvičení z PST. 20. prosince 2017

Jednofaktorová analýza rozptylu

Testy statistických hypotéz

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

15. T e s t o v á n í h y p o t é z

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

TECHNICKÁ UNIVERZITA V LIBERCI

Úvod do statistické metodologie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Nejčastější chyby v explorační analýze

Intervaly spolehlivosti

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

STATISTIKA LS Garant předmětu: Ing. Martina Litschmannová, Ph.D. Přednášející: Ing. Martina Litschmannová, Ph.D.

Testování statistických hypotéz

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška IX. Analýza rozptylu (ANOVA)

Tomáš Karel LS 2012/2013

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvodem Dříve les než stromy 3 Operace s maticemi

15. T e s t o v á n í h y p o t é z

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Vysoká škola ekonomická v Praze

You created this PDF from an application that is not licensed to print to novapdf printer (

Testy. Pavel Provinský. 19. listopadu 2013

Výběrové charakteristiky a jejich rozdělení

Jana Vránová, 3. lékařská fakulta UK

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistické testování hypotéz II

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Návod na vypracování semestrálního projektu Následující dokument má charakter doporučení. Není závazný, je pouze návodem pro studenty, kteří si nejsou jisti výběrem dat, volbou metod a formou zpracování projektu. Konkrétní problémy mohou studenti poté konzultovat se svým cvičícím. I. Zadání projektu Semestrální projekt je záznam datově generačního procesu, v němž student - navrhovatel procesu aplikuje získané teoretické poznatky pomocí dostupného softwarového vybavení. V projektu by měl student prokázat schopnost správně demonstrovat a interpretovat datový záznam a schopnost provést v souladu s cílem projektu některou z metod statistické indukce. II. Volba dat Prvním úkolem, který student v rámci zadání projektu dostává, je vhodná volba dat. Téma lze zvolit libovolně, dle zájmu anebo profesního zaměření. Zdroj dat - dle vlastního uvážení: - internet - časopisy, noviny - jiná média - vlastní měření (laboratoře,... ) - vlastní sociologický průzkum (anketa) Doporučení: zpracujte reálná data.

Zvolte si soubor, který obsahuje alespoň - 30 statistických jednotek - 3 vyhodnocované statistické proměnné Volbu datového souboru by měl student provést až po probrání učiva o testování hypotéz. Statistický soubor dat, který budete vyhodnocovat v semestrálním projektu musí být výběrovým souborem (vzorkem) z nějaké širší množiny tzv. základního souboru neboli populace. Počet prvků výběru: minimálně 30. Počet prvků základního souboru: řádově tisíce, teoreticky nekonečně mnoho. V projektu byste měli specifikovat základní a výběrový soubor. Pokud mají data např. 200 hodnot a nejsou náhodným výběrem z nějaké populace, nelze je použít. Jednalo by se o tzv. vyčerpávající šetření, u něhož pozbývá smyslu celá statistická indukce. Zvolte si data, která již mají charakter náhodného výběru. Není vhodné, aby student prováděl náhodný výběr sám, neboť v rozsahu tohoto předmětu není analýza metod sběru dat, které zajistí skutečně náhodnost výběru. Pouze v případě, kdy si sestavujete vlastní anketu, je povolena výjimka, kdy je na volbě studenta zajistit si intuitivními metodami náhodnost volby respondentů v dotazníku. Při přejímání dat v hotové podobě není vhodné ze zadaných dat nijak vybírat, ale je třeba si dát pozor, zda datový soubor je skutečně vzorkem z nějakého základného souboru neboli populace. Pokud datový soubor není výběrovým souborem z nějaké populace (základního souboru), nelze jej ke zpracování použít! Dále je vhodné zvolit si alespoň jednu spojitou číselnou proměnnou. Tedy proměnnou, která může nabývat teoreticky nekonečně mnoha hodnot buď na libovolný počet desetinných míst v rámci uzavřeného intervalu (např. naměřená délka s libovolnou přesností) anebo různých celočíselných hodnot v rámci intervalu velké délky (např. věk). Pokud zvolíte proměnnou ordinální, tedy de facto kategoriální (např. známky z předmětu Statistika I.), nemůžete s ní pracovat jako s numerickou proměnnou, neboť se nejedná o proměnnou

spojitou byť nabývá číselných hodnot. Označení numerická proměnná se týká pouze spojité číselné proměnné. Pokud je v zadaném souboru více proměnných než chcete vyhodnocovat, okomentujte tuto situaci, a dále s přebytečnými proměnnými nepracujte. Samozřejmě závěry pak vyslovte pouze pro otestované proměnné (je tedy povoleno redukovat sloupce nikoli řádky zvolené tabulky). III. Volba metod Použijte následující metody: 1. explorační analýzu dat 2. alespoň dvě z níže uvedených metod statistické indukce: - jednovýběrový test - dvouvýběrový test - test nezávislosti v kontingenční tabulce - jednofaktorová ANOVA - jednoduchá lineární regrese Součástí projektu je ověření všech předpokladů příslušných testů. IV. Zpracování projektu Ke zpracování projektu je nutno použít statistický software, např. Stagraphics, JMP, QC-Expert, SPSS, NCSS, Statistica,.... Není příliš vhodné celý projekt zpracovávat pomocí Excelu, pouze v 1. části - explorační analýze jej lze použít. Excel není příliš vhodný pro testování hypotéz. Projekt se odevzdává již zpracovaný v textovém souboru.

V. Konkrétní metody A nyní konečně pár slov ke konkrétním statistickým metodám, z nichž si vyberete ty, které již konkrétně použijete ve Vašem semestrálním projektu. Explorační analýza dat Explorační analýzu je vhodné začít zpracovávat až poté, co si rozmyslíte základní otázku (resp. otázky), které budete testovat v části testování hypotéz. Testování hypotéz by pak mělo být rozšířením explorační analýzy. Není vhodné zabývat se v explorační analýze úplně jinými problémy než poté v testování hypotéz. Práce má tvořit kompaktní celek. V explorační analýze se pak zabývejte převážně následujícími otázkami: - základním popisem zkoumaných proměnných a jejich vztahů, - identifikací odlehlých pozorování, - grafickým posuzováním normality numerických proměnných.

Přehled používaných metod při testování hypotéz (konkrétně testování úrovně) 1. Jednovýběrové testy Nejprve otestujte normalitu dat. a) Je-li splněn předpoklad normality dat, použijeme standardní t-test pro střední hodnotu, tj. testujeme hypotézu H 0 : µ = µ 0. b) Není-li splněn předpoklad normality dat, použijeme Wilcoxonův test pro zjištění úrovně mediánu (místo testování střední hodnoty), tj. testujeme hypotézu H 0 : x 0,5 = x 0 0,5. 2. Dvouvýběrové testy Nejprve otestujte pro oba výběrové soubory normalitu dat. Dále je třeba před provedením dvouvýběrových testů provést test rovnosti rozptylů (tzv. homoskedasticitu). 2. 1. Nepárové dvouvýběrové testy U nepárových testů je nezbytné, aby náhodné výběry byly nezávislé. a) Je-li splněn předpoklad normality obou výběrových souborů i homoskedasticita, použijeme standardní t-test pro srovnání středních hodnot dvou základních souborů, tj. testujeme hypotézu H 0 : µ 1 = µ 2.

b) Je-li splněn předpoklad normality obou výběrových souborů a není splněna homoskedasticita, použijeme Aspinové - Welchův test shody středních hodnot dvou základních souborů, tj. opět testujeme hypotézu H 0 : µ 1 = µ 2. c) Jestliže v alespoň jednom z výběrů není splněn předpoklad normality a obecně nemusí být splněna ani homoskedasticita, použijeme některý ze srovnávacích testů mediánů, např. Mann - Whitneyho test, tj. testujeme hypotézu H 0 : x 1 0,5 = x 2 0,5. 2. 2. Párové dvouvýběrové testy U párových testů předpokládáme závislost náhodných výběrů, hodnoty jsou zadány v páru. Tyto dvě párové hodnoty se týkají vždy téže statistické jednotky, např. zátěžová a klidová tepová frekvence naměřená u téhož pacienta. d) Je-li splněn předpoklad normality obou výběrových souborů i homoskedasticita, použijeme t-test pro testování úrovně střední hodnoty diferencí, tj. testujeme hypotézu H 0 : µ d = µ 0 d. e) Jestliže v alespoň jednom z výběrů není splněn předpoklad normality a obecně nemusí být splněna ani podmínka homoskedasticity, použijeme některý z mediánových testů pro testování úrovně diferencí: znaménkový anebo Wilcoxonův test, tj. testujeme hypotézu H 0 : d 0,5 = d 0 0,5.

3. Vícevýběrové testy (ANOVA) - pro k 3 3.1. Jednofaktorová analýza rozptylu ANOVA Jednofaktorová ANOVA je rozšířením dvouvýběrových testů středních hodnot anebo mediánů. Nejprve otestujte pro všechny výběrové soubory, tzv. třídy, normalitu dat. Dále je třeba před provedením ANOVy provést test rovnosti všech rozptylů (tzv. homoskedasticitu) a zajistit nezávislost náhodných výběrů. Předpokládejme dále, že náhodné výběry jsou nezávislé. Pokud by nebyly, nebylo by možno ANOVu provést ani v neparametrické podobě. a) Je-li splněn předpoklad normality všech výběrových souborů, tvz. tříd, i podmínka homoskedasticity, použijeme standardní, tj. parametrickou, podobu analýzy rozptylu ANOVa pomocí F-testu, tj. pro srovnáváme střední hodnoty všech základních souborů. Testujeme hypotézu H 0 : µ 1 = µ 2 = = µ k. b) Jestliže v alespoň jednom z výběrových souborů není splněn předpoklad normality a obecně nemusí být splněna ani homoskedasticita, použijeme neparametrickou podobu analýzy rozptylu ANOVa, tzv. Kruskal - Wallisův test, kdy testujeme rovnost mediánů základních souborů, tj. testujeme hypotézu H 0 : x 1 0,5 = x 2 0,5 = = x k 0,5. c) Jestliže jsou náhodné výběry závislé (obdoba párového testu), použijeme další verzi neparametrické podoby analýzy rozptylu ANOVa tzv. Friedmanův test. Opět testujeme rovnost mediánů základních souborů, tj. testujeme hypotézu H 0 : x 1 0,5 = x 2 0,5 = = x k 0,5.

3.2. Post hoc analýza pro metodu ANOVA Pokud vyjde závěr analýzy rozptylu ANOVA, že se H 0 zamítá, tj. existuje statisticky významný rozdíl mezi středními hodnotami či mediány, musíte ještě provést post hoc analýzu. Pozor! Post hoc analýza se provádí pouze v případě zamítnutí nulové hypotézy. Pokud by se provedla v případě nezamítnutí nulové hypotézy, mohla by dávat mylné informace, které by byly v rozporu s původním závěrem ANOVy. a) Pokud jste v ANOVě použili standardní test pro srovnání středních hodnot, použijete v post hoc analýze charakteristiku LSD (Lest Signigicant Difference), anebo LDS s Boniferonniho korekcí. b) Pokud jste v ANOVě použili Kruskal-Wallisův test, použijete v post hoc analýze např. Duncanův test. c) Pokud jste v ANOVě použili Friedmanův test, použijete v post hoc analýze Friedmanův test pro post hoc analýzu.

4. Testování předpokladů: 4.1. Testování normality Testujeme nulovou hypotézu: H 0 : výběrový soubor je realizací náhodného výběru z normálního rozdělení. 4.1.1. úplně specifikovaný test: Testujeme nulovou hypotézu: H 0 : výběrový soubor je realizací náhodného výběru z normálního rozdělení s danými parametry µ 0, σ 0. a) Pokud máme dostatečně velký počet hodnot volíme chi-kvadrát test s k 1 stupni volnosti, b) pokud máme malý rozsah výběru, volíme K-S (Kolmogorovův-Smirnovův) test. 4.1.2. neúplně specifikovaný test: H 0 : výběrový soubor je realizací náhodného výběru z normálního rozdělení. a) Pokud máme dostatečně velký počet hodnot, volíme chi-kvadrát test s k h 1 stupni volnosti, b) pokud máme malý rozsah výběru, volíme Lilieforsův test (modifikace K-S testu pro neúplně specifikovaný test).

4.2. Testování homoskedasticity 4.2.1. Testování homoskedasticity pro k = 2 Testujeme hypotézu H 0 : σ1 2 = σ2, 2 Předpokládáme nezávislé výběry. a) Pokud je splněn předpoklad normality ve všech třídách, použijeme standardní dvouvýběrový F-test. Pokud použijete Bartlettův test, není to chyba. Dvouvýběrový F-test je jeho speciální verzí. b) Pokud není splněn předpoklad normality alespoň v jedné třídě použijeme Leveneův test. 4.2.2. Testování homoskedasticity pro k 3 Testujeme hypotézu H 0 : σ 2 1 = σ 2 2 = = σ 2 k, Předpokládáme nezávislé výběry. a) Pokud je splněn předpoklad normality ve všech třídách, použijeme Bartlettův test, b) pokud není splněn předpoklad normality alespoň v jedné třídě, použijeme Leveneův test (Pozor, pokud je splněna normalita, je vhodné použít Bartlettův test, neboť má větší sílu testu). Pokud je splněn předpoklad vyváženého třídění (tj. stejný počet prvků ve všech třídách), můžeme použít: c) Harleyův test anebo d) Cochranův test.

5. Testování nezávislosti v kontingenční tabulce Testujeme hypotézu: H 0 : kategoriální proměnné X, Y jsou nezávislé. a) Pokud jsou splněny předpoklady (všechny očekávané četnosti jsou > 2 a alespoň 80 procent > 5), použijeme chí-kvadrát test, b) pokud nejsou splněny předpoklady, můžeme použít Yatesovu korekci chí-kvadrát testu (Statgraphics neumí). Resp. vyslovíme závěr, že nejsou splněny předpoklady chí-kvadrát testu, tudíž nelze testovat nezávilost daných kategoriálních proměnných. c) Pokud se jedná o asociační tabulku (tj. tabulku 2x2), použijeme jako míru asociace odds ratio anebo cross-product ratio (Statgraphics neumí).

Dodatek: Přehled častých chyb Časté chyby v obsahové stránce - malý rozsah souboru (min je 30 statistických jednotek!) - u nominální proměnné jsou chybně uvedeny kumulativní četnosti a relativní četnosti - výsečové grafy jsou zobrazeny bez udání absolutní četnosti - výsečové grafy jsou zobrazeny pro příliš velký počet kategorií - chybí nulová a alternativní hypotéza u testování hypotéz (je třeba ji uvést i u testování předpokladů, tj. u testu normality a homoskedasticity) - není otestována normalita dat - metody nejsou voleny podle výsledků testů normality - metoda ANOVA je provedena u nekonzistentních dat - ANOVA je provedena pro příliš velký počet tříd - u metody ANOVA je chybně uvedena post-hoc analýza i v případě nezamítnutí nulové hypotézy chybná predikce hodnot u regrese (nevhodná extrapolace) Časté chyby ve formální stránce - není uveden zdroj dat - není uveden použitý software (včetně čísla verze) - mnoho obecných teoretických komentářů, málo komentářů k vlastním datům - chybné nastaveni fontů v popisu grafů ve Statgraphicsu - velké množství pravopisných chyb a překlepů (použijte korektor pravopisu)