Pozn. přeskakuji zde popisnou statistiku, jinak by měla být součástí každé analýzy.



Podobné dokumenty
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

STATISTICKÉ TESTY VÝZNAMNOSTI

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICKÉ TESTY VÝZNAMNOSTI

Seminář 6 statistické testy

Seminář 6 statistické testy

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

ADDS cviceni. Pavlina Kuranova

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Cvičení ze statistiky - 9. Filip Děchtěrenko

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

, Brno Hanuš Vavrčík Základy statistiky ve vědě

Úvod do analýzy rozptylu

NEPARAMETRICKÉ TESTY

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

Tomáš Karel LS 2012/2013

Vzorová prezentace do předmětu Statistika

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Statistické testování hypotéz II

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Tomáš Karel LS 2012/2013

= = 2368

Jste aktivní sportovec?(pravidelně sportuji alespoň 2x týdně) Jakým sportovním činnostem se pravidelně věnujete? (alespoň 1 x za dva týdny v sezóně)

Porovnání dvou výběrů

Design Experimentu a Statistika - AGA46E

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Kapitola VII. ANALYSA ROZPTYLU ANOVA.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistické metody uţívané při ověřování platnosti hypotéz

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

4ST201 STATISTIKA CVIČENÍ Č. 10

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

STUDIJNÍ OPORY S PŘEVAŽUJÍCÍMI DISTANČNÍMI PRVKY PRO VÝUKU STATISTIKY PRVNÍ ZKUŠENOSTI. Pavel Praks, Zdeněk Boháč

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Návod na vypracování semestrálního projektu

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování statistických hypotéz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Příklady na testy hypotéz o parametrech normálního rozdělení

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Testy statistických hypotéz

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Jednostranné intervaly spolehlivosti

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

A7B39TUR Úloha B Kvantitativní testování ZS 2013/2014 Software MS Office Word a Open Office Writer

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

Jednofaktorová analýza rozptylu

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Analýza dat z dotazníkových šetření

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

MATEMATIKA III V PŘÍKLADECH

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Matematická statistika Zimní semestr

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Jednofaktorová analýza rozptylu

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické zpracování dat:

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

4ST201 STATISTIKA CVIČENÍ Č. 8

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

ANOVA PSY252 Statistická analýza dat II

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Regresní a korelační analýza

Uloha B - Kvantitativní test. Radek Kubica A7B39TUR. B1 Radek Kubica Kvantitativní testování Stránka 1

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Stručný úvod do testování statistických hypotéz

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

C V I Č E N Í ZE STATISTIKY PRO BIOLOGY:

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Cvičení 9: Neparametrické úlohy o mediánech

Testy pro porovnání vlastností dvou skupin

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

Transkript:

Pozn. přeskakuji zde popisnou statistiku, jinak by měla být součástí každé analýzy. Z pastí na daném území byla odhadnuta abundance několika druhů: myšice lesní 250, myšice křovinná 200, hraboš polní 150, hrabošík podzemní 50. V sovích vývržcích byly určeny tyto počty kořisti: myšice lesní 21x, myšice křovinná 10x, hraboš polní 32x, hrabošík podzemní 6x. Preferují sovy nějaký typ kořisti? Řešení: Jestli nic nepreferují, zastoupení savců ve vývržcích bude stejné jako zastoupení savců ve společenstvu. Otestuji testem dobré shody (χ 2 ) H 0 : poměr savců ve vývržcích je stejný jako poměr ve společenstvu, tedy 5:4:3:1 H A : poměry se liší Celkem jsem ve vývržcích našel zbytky 69 savců. Rozdělím je v poměru 5:4:3:1 a dostanu 26.54 : 21.23 : 25.92 : 5.31 očekávaný poměr ve vývržcích v případě platnosti H 0. Porovnám pozorovaný (21:10:32:6) a očekávaný poměr. χ 2 mohu spočítat podle vzorce n 2 2 ( pi ) χ = i= 1 oi o i mám čtyři kategorie, stupně volnosti se tedy rovná 4-1 = 3, p spočítá Excel (fce CHITEST; p = 3.30192E-05) nebo porovnám s kritickou tabulkou na α = 0.05 podle tabulek. Případně mohu hodnoty zadat do χ 2 na Statistics to use (http://www.physics.csbsju.edu/stats/chi-square_form.html) a hodnota χ 2 rovnou vyjede. Protože p < 0.05, zamítám H 0 na hladině 0.05. Do výsledku píši: Protože poměr kořisti ve vývržcích neodpovídá zastoupení jednotlivých druhů na sledovaném území (χ 2 = 23.4, s.v. = 3, p = 0.00003), sovy pravděpodobně neloví náhodně a upřednostňují nějaký typ kořisti. Jaký - výsledky. Proč. diskuse.

Před a po terapii (psychowalkman, hypnóza apod.) dosáhly pokusné osoby následujících bodů z testu: a) 121, 122; b) 104, 108; c) 94, 92; d) 108, 114; e) 96, 94; f) 132, 133; g) 124, 127; h) 111, 111; i) 110, 115; j) 116, 119, k) 125, 127, l) 97, 99; m) 100, 103; n) 104, 101 o) 115, 114; p) 121, 124. Má terapie vliv na testované hodnoty (např. soustředění, IQ, paměť, znalosti,.) Mám dva soubory hodnot (před zásahem, po zásahu), které chci srovnat. Použiji tedy t-test (pozor na předpoklady). H0: střední hodnoty obou výběrů se neliší (µ 1 = µ 2 ) HA: střední hodnot obou výběrů se liší (zásah má vliv). Pokud bych měl otázku: Zvýší terapie počet bodů?, měl bych H 0 : µ 1 µ 2 H A : µ 1 < µ 2 a použil bych potom výsledek jednostranného testu. Protože hodnoty po zásahu závisí na hodnotě před zásahem (+ vliv zásahu chci zjistit), použiji párový t-test závislých výběrů. V Excelu Nástroje - Analýza dat - Dvouvýběrový párový t-test na střední hodnotu. Dostanu před po 121 122 Dvouvýběrový párový t-test na střední hodnotu 104 108 94 92 Soubor 1 Soubor 2 108 114 Stř. hodnota 111.125 112.6875 96 94 Rozptyl 132.3833 153.6958 132 133 Pozorování 16 16 124 127 Pears. korelace 0.978965 111 111 Hyp. rozdíl stř. hodnot 0 110 115 Rozdíl 15 116 119 t stat -2.3975 125 127 P(T<=t) (1) 0.014985 97 99 t krit (1) 1.75305 100 103 P(T<=t) (2) 0.029971 104 101 t krit (2) 2.13145 115 114 121 124 Anebo Statistics to use http://www.physics.csbsju.edu/stats/paired_t-test_nrow_form.html t= -2.40 degrees of freedom = 15 The probability of this result, assuming the null hypothesis, is 0.030 p = 0.03, zamítám tedy H0 na hladině 0.05 (případně p = 0.015, zamítám H 0 ). Do výsledku píši: Zásah měl signifikantní vliv (párový t-test, t = -2.3975, s.v. = 15, p = 0.03). Anebo: Terapie signifikantně zvýšila bodový zisk (párový t-test, t = -2.3975, s.v. = 15, jednostranné p = 0.015).

Vždy 10 rostlin čtyř odrůd brambor daly následující úrodu [g] a) 2548, 2647, 2148, 2315, 1257, 1897, 1983, 2108, 2345, 2102 b) 2320, 2357, 1947, 2842, 2658, 2487, 2347, 2352, 2468, 2458 c) 1948, 2158, 1648, 2486, 2451, 1978, 1846, 2004, 1974, 2024 d) 2345, 2348, 2485, 2104, 2106, 2148, 1879, 2105, 1946, 1356 Liší se výnosnost odrůd? Chci porovnat 4 skupiny podle jednoho faktoru (odrůda), použiji jednocestnou ANOVU (předpoklady ). H 0 : odrůdy daly stejnou úrodu (µ 1 = µ 2 = µ 3 = µ 4 ) H A : aspoň jedna odrůda dala jinou úrodu V Excelu: Nástroje Analýza dat ANOVA: jeden faktor. ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 872026.3 3 290675.4 3.135576 0.037241 2.866266 Všechny výběry 3337286 36 92702.39 Celkem 4209312 39 Anebo Statistics to use: http://www.physics.csbsju.edu/stats/anova_pnp_ngroup_form.html (mohu vložit (Ctrl-C, Ctrl-V) přímo sloupce z Excelu) Source of Sum of d.f. Mean F Variation Squares Squares between 8.7203E+05 3 2.9068E+05 3.136 error 3.3373E+06 36 9.2702E+04 total 4.2093E+06 39 The probability of this result, assuming the null hypothesis, is 0.037 P = 0.037, zamítám tedy H 0 na hladině 0.05. Do výsledků píši: Vybrané odrůdy nedávají stejnou úrodu (jednocestná ANOVA, F (3, 36) = 3.1356, p = 0.037). POZOR! ANOVA mi neřekne které odrůdy se liší! To zjistím provedením (v případě zamítnutí H 0 ) post-hoc mnohonásobného porovnání (např. Tukey, jsou i jiná). Excel ani Statistics to use je neumí.

Zatímco dívky mají známky z biologie 2,3,2,1,2,1,4,3,2,5,2,1,1,2,3,3,2,4,2,3,3,2,3,1,3,4,3,5,3,2; chlapci 3,4,5,4,3,2,1,3,4,2,5,1,3,5,4,2,3,4,5,4,3,1,4,3,2,4,3,4 Můžu říct jestli má některé pohlaví lepší výsledky? Porovnávám dva nezávislé výběry, ale nemohu použít dvouvýběrový t-test (data na ordinální škále předpoklady!), musím tedy použít neparametrický test např. Mann-Whitney nebo dvouvýběrový Kolmogorov-Smirnov). H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Excel neumí neparametrické testy, na Statistics to use http://www.physics.csbsju.edu/stats/ks-test.n.plot_form.html je Kolmogorov Smirnov. Mann Whitney můžu spočítat sám (viz přednáška) The maximum difference between the cumulative distributions, D, is: 0.2976 with a corresponding P of: 0.125 Do výsledků píši: Známky děvčat a chlapců se neliší signifikantně (dvouvýběrový Kolomogorov-Smirnovův test, D = 0.2976, P = 0.125) (Kdybyste provedli Mann-Whitney, dostanete p = 0.027 průkazný výsledek dávejte pozor na marginálně signifikantní rozdíly (pokud p je řádově blízko 0.05)

Výška kopřivy dvoudomé na lokalitě 1 je: 58, 64, 87, 63, 75, 59, 24, 59, 54, 102, 94, 59, 78, 108, 127, 68, 47, 68, 85, 91, 80, 104 cm na lokalitě 2: 47, 63, 24, 52, 51, 37, 47, 61, 27, 37, 61, 32, 27, 35, 42, 27, 46, 32, 87, 34, 61 cm Můžu říct na které lokalitě je více dusíku? Z dat rovnou vidím, že na lok. 1 jsou rostliny mnohem vyšší. Mám zde ale výsledek observační studie na jejím základě nemůžu říct, že za rozdílnou výšku může dusík!!! Otázka je tedy položena špatně, a odpověď by stačila: NE Pokud položím otázku: Jsou rostliny na obou lokalitách stejně vysoké? Mohu smysluplně odpověď srovnávám mezi sebou 2 výběry, použiji t-test (předpoklady). H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Nejprve bych měl porovnat variabilitu obou výběrů použiji F-test: V Excelu: Nástroje Analýza dat - Dvouvýběrový F-test pro rozptyl Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 75.18182 44.28571 Rozptyl 547.7749 252.4143 Pozorování 22 21 Rozdíl 21 20 F 2.170142 P(F<=f) (1) 0.044306 F krit (1) 2.112399 F = 2.17, s.v. = 41 (21, 20), p = F.17, p = 0.089!!!!! v tabulce jednostranné p!!! (Protože je p = ± 0.05, je celkem jedno jestli použiji t-test s rovností rozptylů nebo ne, měl bych to ale zdůvodnit) V Excelu: Nástroje Analýza dat - Dvouvýběrový t- test s rovností rozptylů. Dvouvýběrový t-test s rovností rozptylů Soubor 1 Soubor 2 Stř. hodnota 75.18182 44.28571 Rozptyl 547.7749 252.4143 Pozorování 22 21 Společný rozptyl 403.6965 Hyp. rozdíl stř. hodnot 0 Rozdíl 41 t stat 5.040376 P(T<=t) (1) 4.92E-06 t krit (1) 1.682878 P(T<=t) (2) 9.85E-06 t krit (2) 2.019541 Nebo Statistics to use http://www.physics.csbsju.edu/stats/t-test_bulk_form.html t= 5.04 sdev= 20.1 degrees of freedom = 41 The probability of this result, assuming the null hypothesis, is less than.0001 Píšu: Variabilita výšek rostlin z lokalit se neliší významně (F test; F = 2.17, s.v. = 41, p = 0.08). Výška rostlin z jednotlivých lokalit se signifikantně liší (t-test s rovností rozptylů; t = 5.04, s.v. = 41, p < 10-5 ). Do diskuse potom proč se liší dusík, fosfor, světlo, voda, ufoni