Design Experimentu a Statistika - AGA46E

Design Experimentu a Statistika - AGA46E Czech University of Life Sciences in Prague Department of Genetics and Breeding Summer Term 2015 Matúš Maciak (@ A 211) Office Hours: T 9:00 10:30 or by appointment 1 / 21

Strucne opakovani Zakladne problemy ve statistice Jednovyberove problemy bodovy odhad neznameho parametru; (nejcasteji neznamy parametr stredne hodnoty, nebo rozptylu) intervalovy odhad (interval spolehlivosti) pro neznamy parametr; (pro neznamy parametr stredne hodnoty, nebo parametr rozptylu) test hypotezy o neznamem parametru; (opet pro parametr stredne hodnoty nebo rozptylu) Dvouvyberove problemy srovnani dvou strednich hodnot (neznamych parametru µ 1 a µ 2 ); (pomoci bodoveho nebo intervaloveho odhadu, nebo statistickeho testu) srovnani dvou parametru rozptylu (neznamych parametru σ 2 1 a σ2 2 ); (pomoci bodoveho nebo intervaloveho odhadu, nebo statistickeho testu) 2 / 21

Strucne opakovani Uzitecne vzorce pro inferenci pro neznamy parametr stredne hodnoty (resp. srovnani dvou parametru) se znamym rozptylem: n X n µ σ N(0, 1) pro neznamy parametr stredne hodnoty (resp. srovnani dvou parametru) s neznamym rozptylem: X n µ n t n 1 s n pro neznamy parametr rozptylu σ 2 : (n 1)s 2 n σ 2 χ 2 n 1 pro srovnani rozptylu dvou nahodnych vyberu (σ 2 1 vs. σ 2 2): s n 2 1 /σ 2 1 s n 2 2 /σ 2 2 F n1,n 2 3 / 21

Strucne opakovani Tabulky kritickych hodnot N 4 / 21

Strucne opakovani Dvouvyberove problemy: rozptyl Je dulezite rozlisovat homoskedasticitny a heteroskedasticitny pripad. Avsak je mozne odhadovat rozptyl pouze pro heteroskedasticitny pripad a pouzit jej i pro homoskedasticitny pripad, avsak takovy rozptyl je hodne konzervativny. Opacny postup ale nelze aplikovat. pro pripad homoskedasticity (σ 2 1 = σ 2 2): σ 2 XY = (n1 1)s2 n 1 + (n 2 1)s 2 n 2 n 1 + n 2 2 ( 1 + 1 ) n 1 n 2 pro pripad heteroskedasticity (σ 2 1 σ 2 2): σ 2 XY = s2 n 1 n 1 + s2 n 2 n 2 5 / 21

Strucne opakovani Dvouvyberove problemy: df Stupne volnosti (df ) specifikuji prislusne rozdeleni, tudiz je potrebne tyhle stupne volnosti porad korektne spocitat. Stejne tak ale existuji konzervativne pristupy. pro parove nahodne vybery = df = n 1; pro nezavisle nahodne vybery (homoskedasticita) = df = n + m 2; pro nezavisle nahodne vybery (heteroskedasticita) = ( ) snn 2 2 + s2 mm df sn 4 + s4 n 2 m (n 1) m 2 (m 1) 6 / 21

Strucne opakovani Jednovyberove problemy v R t.test() - zakladny prikaz pro interenci o neznamem parametru stredne hodnoty - parametr µ R; > t.test(sample1, mu = 178) 7 / 21

Strucne opakovani Jednovyberove problemy v R t.test() - zakladny prikaz pro interenci o neznamem parametru stredne hodnoty - parametr µ R; > t.test(sample1, mu = 178) automaticky spocte odhad pro neznamy parametr µ R; automaticky spocte testovu statistiku t; automaticky spocte prislusne stupne volnosti; automaticky spocte prislusnu p-hodnotu testu; automaticky spocte prislusny 95 % interval spolehlivosti; 7 / 21

Strucne opakovani Jednovyberove problemy v R t.test() - zakladny prikaz pro interenci o neznamem parametru stredne hodnoty - parametr µ R; > t.test(sample1, mu = 178) One Sample t-test data: sample t = 1.6317, df = 49, p-value = 0.1091 alternative hypothesis: true mean is not equal to 178 95 percent confidence interval: 175.8414 198.8022 sample estimates: mean of x 187.3218 8 / 21

Strucne opakovani Dvouvyberove problemy v R t.test() - stejny prikaz take pro dvouvyberove problemy - pro vsechny diskutovane pripady; > t.test(sample1, sample2, paired = F, equal.var = F) 9 / 21

Strucne opakovani Dvouvyberove problemy v R t.test() - stejny prikaz take pro dvouvyberove problemy - pro vsechny diskutovane pripady; > t.test(sample1, sample2, paired = F, equal.var = F) automaticky spocte odhady pro nezname parametry µ 1, µ 2 R; automaticky spocte testovu statistiku t; automaticky spocte prislusne stupne volnosti; automaticky spocte prislusnu p-hodnotu testu; automaticky spocte prislusny 95 % interval spolehlivosti; 9 / 21

Strucne opakovani Dvouvyberove problemy v R t.test() - stejny prikaz take pro dvouvyberove problemy - pro vsechny diskutovane pripady; > t.test(sample1, sample2, paired = F, equal.var = F) Two Sample t-test data: sample1 and sample2 t = 0.2237, df = 38, p-value = 0.8242 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.658464 0.822080 sample estimates: mean of x mean of y 0.3453624 0.2635544 10 / 21

Strucne opakovani Srovnani dvou rozptylu v R var.test() - zakladny prikaz pro porovnani dvou rozptylu v R; > var.test(sample1, sample2) 11 / 21

Strucne opakovani Srovnani dvou rozptylu v R var.test() - zakladny prikaz pro porovnani dvou rozptylu v R; > var.test(sample1, sample2) automaticky spocte odhady pro nezname parametry σ1, 2 σ2 2 > 0; automaticky spocte testovu statistiku F ; automaticky spocte prislusne stupne volnosti; automaticky spocte prislusnu p-hodnotu testu; automaticky spocte prislusny 95 % interval spolehlivosti; 11 / 21

Strucne opakovani Srovnani dvou rozptylu v R var.test() - zakladny prikaz pro porovnani dvou rozptylu v R; > var.test(sample1, sample2) F test to compare two variances data: sample and sample2 F = 0.4293, num df = 49, denom df = 49, p-value = 0.003706 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.2436446 0.7565916 sample estimates: ratio of variances 0.4293477 12 / 21

Vice-vyberove problemy (dva a vice vyberu z normalneho rozdeleni) 13 / 21

One-way ANOVA v obecnem pripade muzeme mit nekolik ruznych nahodnych vyberu (napr. J N nezavislych nahodnych vyberu): X 1,1, X 1,2,..., X 1,n1 N(µ 1, σ 2 ) X 2,1, X 2,2,..., X 2,n2 N(µ 2, σ 2 )... X J,1, X J,2,..., X J,nJ N(µ J, σ 2 ) technicky muzeme kazde pozorovani zapsat ekvivalentnym zpusobem jako X ij = µ j + ε ij = µ + α j + ε ij, pro ε ij N(0, σ 2 ) a j = 1,..., J, i = 1,..., n j; 14 / 21

One-way ANOVA v obecnem pripade muzeme mit nekolik ruznych nahodnych vyberu (napr. J N nezavislych nahodnych vyberu): X 1,1, X 1,2,..., X 1,n1 N(µ 1, σ 2 ) X 2,1, X 2,2,..., X 2,n2 N(µ 2, σ 2 )... X J,1, X J,2,..., X J,nJ N(µ J, σ 2 ) technicky muzeme kazde pozorovani zapsat ekvivalentnym zpusobem jako X ij = µ j + ε ij = µ + α j + ε ij, pro ε ij N(0, σ 2 ) a j = 1,..., J, i = 1,..., n j; opet nas zajima srovnani nahodnych vyberu vzhledem k jejich strednim hodnotam - parametrum µ 1,..., µ J, pro j = 1,..., J; 14 / 21

One-way ANOVA v obecnem pripade muzeme mit nekolik ruznych nahodnych vyberu (napr. J N nezavislych nahodnych vyberu): X 1,1, X 1,2,..., X 1,n1 N(µ 1, σ 2 ) X 2,1, X 2,2,..., X 2,n2 N(µ 2, σ 2 )... X J,1, X J,2,..., X J,nJ N(µ J, σ 2 ) technicky muzeme kazde pozorovani zapsat ekvivalentnym zpusobem jako X ij = µ j + ε ij = µ + α j + ε ij, pro ε ij N(0, σ 2 ) a j = 1,..., J, i = 1,..., n j; opet nas zajima srovnani nahodnych vyberu vzhledem k jejich strednim hodnotam - parametrum µ 1,..., µ J, pro j = 1,..., J; Muzeme vyuzit klasicky t-test a testovat jednotlive dvojice samostatne? Co se stane s pravdepodobnosti chyby prvniho druhu? 14 / 21

Mnohonasobne testovani V nekterych pripadech je mozne vyuzit ruzne korekce pro mnohonasobne testovani (nekolik nezavislych testu) za ucelem dodrzeni predem stanovene hladiny testu - hodnoty α (0, 1) - teda pravdepodobnosti chyby prvniho druhu. 15 / 21

Mnohonasobne testovani V nekterych pripadech je mozne vyuzit ruzne korekce pro mnohonasobne testovani (nekolik nezavislych testu) za ucelem dodrzeni predem stanovene hladiny testu - hodnoty α (0, 1) - teda pravdepodobnosti chyby prvniho druhu. Bonferroniho korekce - nejjednoduchsi a take nejkonzervativnejsi metoda pro kontrolu stanovene hladiny testu pri opakovanem testovani; (pro α (0, 1) a m nezavislych testu individualna hladina α = α m ) Benjamini Hochberg korekce Holm Bonferroni korekce Dunn Šidákova korekce 15 / 21

Srovnani vzhledem k rozptylum namisto porovnavani jednotlivych prumeru (vyberovych prumeru), porovnavame pouze rozptyly a srovnavame je; parametr rozptylu σ 2 > 0 (uvazujeme pouze homoskedasticitny pripad) je samozrejme neznamy... 16 / 21

Srovnani vzhledem k rozptylum namisto porovnavani jednotlivych prumeru (vyberovych prumeru), porovnavame pouze rozptyly a srovnavame je; parametr rozptylu σ 2 > 0 (uvazujeme pouze homoskedasticitny pripad) je samozrejme neznamy... Jak muzeme odhadnout tento parametr na zaklade pozorovani? Total Sum of Squares: Within Group Sum of Squares: SST = J j=1 nj i=1 (X ij X n) 2 J SSW = j=1 nj i=1 (X ij X nj ) 2 J Between Group Sum of Squares: SSB = j=1 n i (X nj X n) 2 soucty ctvercu se take nazyvaji jako "total", "error" a "treatment"; prislusne stupne volnosti jsou n 1, n J a J 1, pro n = n 1 + + n J ; Prumerny soucet ctvercu: soucet ctvercu podeleny poctem df ; k rozhodnute se pak pouziva = Fisher-Snedecor Distribution; 16 / 21

ANOVA pomoci softwaru R v programu R implementovana funkce anova(), ktera kompletne pocita analyzu rozptylu; 17 / 21

ANOVA pomoci softwaru R v programu R implementovana funkce anova(), ktera kompletne pocita analyzu rozptylu; > anova(lm(c(sample1,sample2) ~ c(rep(1, 20), rep(2,20)))) Analysis of Variance Table Response: c(sample1, sample2) Df Sum Sq Mean Sq F value Pr(>F) c(rep(1, 20), rep(2, 20)) 1 1.0763 1.07625 1.3749 0.2483 Residuals 38 29.7455 0.78278 17 / 21

ANOVA pomoci softwaru R v programu R implementovana funkce anova(), ktera kompletne pocita analyzu rozptylu; > anova(lm(c(sample1,sample2) ~ c(rep(1, 20), rep(2,20)))) Analysis of Variance Table Response: c(sample1, sample2) Df Sum Sq Mean Sq F value Pr(>F) c(rep(1, 20), rep(2, 20)) 1 1.0763 1.07625 1.3749 0.2483 Residuals 38 29.7455 0.78278 > sum((c(sample1, sample2) - mean(c(sample1, sample2)))^2) [1] 30.82175 > sum((mean(sample1) - mean(c(sample1, sample2)))^2) * 20 + sum((mean(sample2) - mean(c(sample1, sample2)))^2) * 20 [1] 1.076252 > sum((sample1 - mean(sample1))^2) + sum((sample2 - mean(sample2))^2) [1] 29.7455 17 / 21

F-test versus t test > t.test(sample1, sample2, var.equal = T, paired = F) Two Sample t-test data: sample1 and sample2 t = 1.1726, df = 38, p-value = 0.2483 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.2383250 0.8944507 sample estimates: mean of x mean of y 0.39579636 0.06773353 18 / 21

Two way ANOVA uvazujeme o neco komplexnejsi situaci, opet pro nekolik nahodnych vyberu z normalneho rozdeleni se stejnym rozptylem (homoskedasticita); X i,,jk = µ + α i + β j + ε i,j,k pro i = 1,..., I, j = 1,..., J a k = 1,..., n i,j; a pro nahodne chyby opet predpokladame nasledujci: ε ijk N(0, σ 2 ) a vzajemne jsou chyby nezavisle; 19 / 21

Two way ANOVA - Ctverce Total Sum of Squares: I J nij (X i=1 j=1 k=1 ijk X n) 2 Group α Sum of Squares: I i=1 J ni(x n i X n) 2 Group β Sum of Squares: J I nj(x j=1 n j X n) 2 J nij Error Sum of Squares: (X j=1 k=1 ijk X nij ) 2 i i=1 20 / 21

Pokracovani nabuduce... Klasicka linearni regrese; Nektere dalsi regresne modely; Uzitecne statisticke testy; Celkovy prehled a opakovani; 21 / 21