Pozn. přeskakuji zde popisnou statistiku, jinak by měla být součástí každé analýzy. Z pastí na daném území byla odhadnuta abundance několika druhů: myšice lesní 250, myšice křovinná 200, hraboš polní 150, hrabošík podzemní 50. V sovích vývržcích byly určeny tyto počty kořisti: myšice lesní 21x, myšice křovinná 10x, hraboš polní 32x, hrabošík podzemní 6x. Preferují sovy nějaký typ kořisti? Řešení: Jestli nic nepreferují, zastoupení savců ve vývržcích bude stejné jako zastoupení savců ve společenstvu. Otestuji testem dobré shody (χ 2 ) H 0 : poměr savců ve vývržcích je stejný jako poměr ve společenstvu, tedy 5:4:3:1 H A : poměry se liší Celkem jsem ve vývržcích našel zbytky 69 savců. Rozdělím je v poměru 5:4:3:1 a dostanu 26.54 : 21.23 : 25.92 : 5.31 očekávaný poměr ve vývržcích v případě platnosti H 0. Porovnám pozorovaný (21:10:32:6) a očekávaný poměr. χ 2 mohu spočítat podle vzorce n 2 2 ( pi ) χ = i= 1 oi o i mám čtyři kategorie, stupně volnosti se tedy rovná 4-1 = 3, p spočítá Excel (fce CHITEST; p = 3.30192E-05) nebo porovnám s kritickou tabulkou na α = 0.05 podle tabulek. Případně mohu hodnoty zadat do χ 2 na Statistics to use (http://www.physics.csbsju.edu/stats/chi-square_form.html) a hodnota χ 2 rovnou vyjede. Protože p < 0.05, zamítám H 0 na hladině 0.05. Do výsledku píši: Protože poměr kořisti ve vývržcích neodpovídá zastoupení jednotlivých druhů na sledovaném území (χ 2 = 23.4, s.v. = 3, p = 0.00003), sovy pravděpodobně neloví náhodně a upřednostňují nějaký typ kořisti. Jaký - výsledky. Proč. diskuse.
Před a po terapii (psychowalkman, hypnóza apod.) dosáhly pokusné osoby následujících bodů z testu: a) 121, 122; b) 104, 108; c) 94, 92; d) 108, 114; e) 96, 94; f) 132, 133; g) 124, 127; h) 111, 111; i) 110, 115; j) 116, 119, k) 125, 127, l) 97, 99; m) 100, 103; n) 104, 101 o) 115, 114; p) 121, 124. Má terapie vliv na testované hodnoty (např. soustředění, IQ, paměť, znalosti,.) Mám dva soubory hodnot (před zásahem, po zásahu), které chci srovnat. Použiji tedy t-test (pozor na předpoklady). H0: střední hodnoty obou výběrů se neliší (µ 1 = µ 2 ) HA: střední hodnot obou výběrů se liší (zásah má vliv). Pokud bych měl otázku: Zvýší terapie počet bodů?, měl bych H 0 : µ 1 µ 2 H A : µ 1 < µ 2 a použil bych potom výsledek jednostranného testu. Protože hodnoty po zásahu závisí na hodnotě před zásahem (+ vliv zásahu chci zjistit), použiji párový t-test závislých výběrů. V Excelu Nástroje - Analýza dat - Dvouvýběrový párový t-test na střední hodnotu. Dostanu před po 121 122 Dvouvýběrový párový t-test na střední hodnotu 104 108 94 92 Soubor 1 Soubor 2 108 114 Stř. hodnota 111.125 112.6875 96 94 Rozptyl 132.3833 153.6958 132 133 Pozorování 16 16 124 127 Pears. korelace 0.978965 111 111 Hyp. rozdíl stř. hodnot 0 110 115 Rozdíl 15 116 119 t stat -2.3975 125 127 P(T<=t) (1) 0.014985 97 99 t krit (1) 1.75305 100 103 P(T<=t) (2) 0.029971 104 101 t krit (2) 2.13145 115 114 121 124 Anebo Statistics to use http://www.physics.csbsju.edu/stats/paired_t-test_nrow_form.html t= -2.40 degrees of freedom = 15 The probability of this result, assuming the null hypothesis, is 0.030 p = 0.03, zamítám tedy H0 na hladině 0.05 (případně p = 0.015, zamítám H 0 ). Do výsledku píši: Zásah měl signifikantní vliv (párový t-test, t = -2.3975, s.v. = 15, p = 0.03). Anebo: Terapie signifikantně zvýšila bodový zisk (párový t-test, t = -2.3975, s.v. = 15, jednostranné p = 0.015).
Vždy 10 rostlin čtyř odrůd brambor daly následující úrodu [g] a) 2548, 2647, 2148, 2315, 1257, 1897, 1983, 2108, 2345, 2102 b) 2320, 2357, 1947, 2842, 2658, 2487, 2347, 2352, 2468, 2458 c) 1948, 2158, 1648, 2486, 2451, 1978, 1846, 2004, 1974, 2024 d) 2345, 2348, 2485, 2104, 2106, 2148, 1879, 2105, 1946, 1356 Liší se výnosnost odrůd? Chci porovnat 4 skupiny podle jednoho faktoru (odrůda), použiji jednocestnou ANOVU (předpoklady ). H 0 : odrůdy daly stejnou úrodu (µ 1 = µ 2 = µ 3 = µ 4 ) H A : aspoň jedna odrůda dala jinou úrodu V Excelu: Nástroje Analýza dat ANOVA: jeden faktor. ANOVA Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 872026.3 3 290675.4 3.135576 0.037241 2.866266 Všechny výběry 3337286 36 92702.39 Celkem 4209312 39 Anebo Statistics to use: http://www.physics.csbsju.edu/stats/anova_pnp_ngroup_form.html (mohu vložit (Ctrl-C, Ctrl-V) přímo sloupce z Excelu) Source of Sum of d.f. Mean F Variation Squares Squares between 8.7203E+05 3 2.9068E+05 3.136 error 3.3373E+06 36 9.2702E+04 total 4.2093E+06 39 The probability of this result, assuming the null hypothesis, is 0.037 P = 0.037, zamítám tedy H 0 na hladině 0.05. Do výsledků píši: Vybrané odrůdy nedávají stejnou úrodu (jednocestná ANOVA, F (3, 36) = 3.1356, p = 0.037). POZOR! ANOVA mi neřekne které odrůdy se liší! To zjistím provedením (v případě zamítnutí H 0 ) post-hoc mnohonásobného porovnání (např. Tukey, jsou i jiná). Excel ani Statistics to use je neumí.
Zatímco dívky mají známky z biologie 2,3,2,1,2,1,4,3,2,5,2,1,1,2,3,3,2,4,2,3,3,2,3,1,3,4,3,5,3,2; chlapci 3,4,5,4,3,2,1,3,4,2,5,1,3,5,4,2,3,4,5,4,3,1,4,3,2,4,3,4 Můžu říct jestli má některé pohlaví lepší výsledky? Porovnávám dva nezávislé výběry, ale nemohu použít dvouvýběrový t-test (data na ordinální škále předpoklady!), musím tedy použít neparametrický test např. Mann-Whitney nebo dvouvýběrový Kolmogorov-Smirnov). H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Excel neumí neparametrické testy, na Statistics to use http://www.physics.csbsju.edu/stats/ks-test.n.plot_form.html je Kolmogorov Smirnov. Mann Whitney můžu spočítat sám (viz přednáška) The maximum difference between the cumulative distributions, D, is: 0.2976 with a corresponding P of: 0.125 Do výsledků píši: Známky děvčat a chlapců se neliší signifikantně (dvouvýběrový Kolomogorov-Smirnovův test, D = 0.2976, P = 0.125) (Kdybyste provedli Mann-Whitney, dostanete p = 0.027 průkazný výsledek dávejte pozor na marginálně signifikantní rozdíly (pokud p je řádově blízko 0.05)
Výška kopřivy dvoudomé na lokalitě 1 je: 58, 64, 87, 63, 75, 59, 24, 59, 54, 102, 94, 59, 78, 108, 127, 68, 47, 68, 85, 91, 80, 104 cm na lokalitě 2: 47, 63, 24, 52, 51, 37, 47, 61, 27, 37, 61, 32, 27, 35, 42, 27, 46, 32, 87, 34, 61 cm Můžu říct na které lokalitě je více dusíku? Z dat rovnou vidím, že na lok. 1 jsou rostliny mnohem vyšší. Mám zde ale výsledek observační studie na jejím základě nemůžu říct, že za rozdílnou výšku může dusík!!! Otázka je tedy položena špatně, a odpověď by stačila: NE Pokud položím otázku: Jsou rostliny na obou lokalitách stejně vysoké? Mohu smysluplně odpověď srovnávám mezi sebou 2 výběry, použiji t-test (předpoklady). H 0 : µ 1 = µ 2 H A : µ 1 µ 2 Nejprve bych měl porovnat variabilitu obou výběrů použiji F-test: V Excelu: Nástroje Analýza dat - Dvouvýběrový F-test pro rozptyl Dvouvýběrový F-test pro rozptyl Soubor 1 Soubor 2 Stř. hodnota 75.18182 44.28571 Rozptyl 547.7749 252.4143 Pozorování 22 21 Rozdíl 21 20 F 2.170142 P(F<=f) (1) 0.044306 F krit (1) 2.112399 F = 2.17, s.v. = 41 (21, 20), p = F.17, p = 0.089!!!!! v tabulce jednostranné p!!! (Protože je p = ± 0.05, je celkem jedno jestli použiji t-test s rovností rozptylů nebo ne, měl bych to ale zdůvodnit) V Excelu: Nástroje Analýza dat - Dvouvýběrový t- test s rovností rozptylů. Dvouvýběrový t-test s rovností rozptylů Soubor 1 Soubor 2 Stř. hodnota 75.18182 44.28571 Rozptyl 547.7749 252.4143 Pozorování 22 21 Společný rozptyl 403.6965 Hyp. rozdíl stř. hodnot 0 Rozdíl 41 t stat 5.040376 P(T<=t) (1) 4.92E-06 t krit (1) 1.682878 P(T<=t) (2) 9.85E-06 t krit (2) 2.019541 Nebo Statistics to use http://www.physics.csbsju.edu/stats/t-test_bulk_form.html t= 5.04 sdev= 20.1 degrees of freedom = 41 The probability of this result, assuming the null hypothesis, is less than.0001 Píšu: Variabilita výšek rostlin z lokalit se neliší významně (F test; F = 2.17, s.v. = 41, p = 0.08). Výška rostlin z jednotlivých lokalit se signifikantně liší (t-test s rovností rozptylů; t = 5.04, s.v. = 41, p < 10-5 ). Do diskuse potom proč se liší dusík, fosfor, světlo, voda, ufoni