Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu. Ing. Michael Rost, Ph.D.



Podobné dokumenty
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Jednofaktorová analýza rozptylu

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Statistická analýza jednorozměrných dat

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

= = 2368

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Úvod do analýzy rozptylu

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Opravená data Úloha (A) + (E) Úloha (C) Úloha (B) Úloha (D) Lineární regrese

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

S E M E S T R Á L N Í

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Ústav matematiky Fakulta chemicko inženýrská Vysoká škola chemicko-technologická v Praze

3 ANALÝZA ROZPTYLU ANOVA

Jednofaktorová analýza rozptylu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

You created this PDF from an application that is not licensed to print to novapdf printer (

Jana Vránová, 3. lékařská fakulta UK

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní analýza. Eva Jarošová

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

ADDS cviceni. Pavlina Kuranova

7. Analýza rozptylu.

Testování statistických hypotéz

Statistická analýza dat

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

A B C D

Design Experimentu a Statistika - AGA46E

Národní informační středisko pro podporu jakosti

Aplikovaná statistika v R - cvičení 2

Plánování experimentu

Přednáška IX. Analýza rozptylu (ANOVA)

Průzkumová analýza dat

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Navrhování experimentů a jejich analýza. Eva Jarošová

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

ANALÝZA ROZPTYLU (ANOVA)

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Zápočtová práce STATISTIKA I

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Porovnání dvou výběrů

Tomáš Karel LS 2012/2013

Testy statistických hypotéz

KGG/STG Statistika pro geografy

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Charakteristika datového souboru

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Matematická statistika Zimní semestr

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Regresní a korelační analýza

Stručný úvod do testování statistických hypotéz

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Jednostranné intervaly spolehlivosti

Vysoká škola ekonomická v Praze

Technická univerzita v Liberci

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu Ing. Michael Rost, Ph.D.

Co je vlastně cílem? Cílem statistického zpracování dat je podání informace o vlastnostech, povaze a zákonitostech projevujících se na pozorovaných datech. Statistika zahrnuje získávání, analýzu a objektivní interpretaci získaných dat. Tj. začíná již před samotným provedením experimentu!

Několik doporučení: Definujte svůj problém, který hodláte řešit (a to co možná nejjednodušeji), a vytvořte si své pracovní hypotézy. Určete, co budete měřit a jak to budete měřit. Věnujte dostatečnou přípravu vašemu experimentu. Je důležitá. Randomizujte, tj. znáhodňujte. Můžete se tak vyhnout systematickým chybám (například při odečítání hodnot z přístroje).

Několik doporučení: Při analýze dat je nutno rozlišovat s jakými typy dat pracujeme. Mějte na paměti, že ne všechny metody jsou vhodné pro všechny typy dat. Pokud využíváte deskriptivní statistiky k popisu analyzovaného souboru, uvědomte si, že aritmetický průměr nemusí být vždy tou pravou charakteristikou polohy. Udávejte i další statistiky. Vizualizujte! Pokud to jde, používejte spolu s čísly i grafickou reprezentaci, může pomoci (používejte však vhodné grafické vyjádření).

Statistické zhodnocení ve 3 úrovních V průběhu statistické analýzy dat postupujte v několika úrovních: Explorativní úroveň (EDA). Popisné statistiky a grafické zhodnocení. Formální statistický přístup. Testy a testování hypotéz či různé statistické metody. Diagnostika. Zhodnocení, zda byly dodrženy předpoklady pro použití vámi vybraných statistických metod. Případně proved te různá nápravná opatření transformace atd...

Úvod do problému V ekonomické praxi se můžeme setkat se situací, ve které potřebujete simultánně otestovat shodu k středních hodnot, kde k je větší než 2. Jak to provést, to bude náplní této přednášky ; )

Příklad Klinickou studíı byla sledována závislost mezi dietou a dobou, za kterou dojde ke koagulaci krve. Byly naměřeny tyto hodnoty: Typ diety A B C D 62 63 68 56 60 67 66 62 63 71 71 60 59 64 67 68 64 65 68 63 65 66 68 64 62 58 63 63 62 59 63 59 y ij Mají různé diety vliv na dobu, za kterou dojde ke koagulaci krve?

Příklad

Výchozí situace Situaci které čeĺıme, lze obecně popsat následujícím způsobem (předpokládáme, že máme k souborů): číslo počet zjištěné hodnoty průměr rozptyl výběru prvků sledovaného znaku 1 n 1 y 11, y 12,, y 1j,, y 1n1 ȳ 1 s 2 1 2 n 2 y 21, y 22,, y 2j,, y 2n2 ȳ 2 s 2 2..... i. n i. y i1, y i2,, y ij,, y ini. ȳ i. s 2 i. k n k y k1, y k2,, y kj,, y knk ȳ k s 2 k

Obecný postup 1. Zformulovat hypotézy: H 0 vs. H A. 2. Ověření předpokladů Poznámka : Uvědomte si, že pokud provádíte formální analýzu či statistické testování, při kterém využíváte p-value, vycházíte zároveň z jistých předpokladů. Ty však nemusí být splněny. Stupeň validity získaného p-value záleží na tom jakou shodu vykazují naše data s teoretickými rozděleními. Proto každopádně ověřujte předpoklady vašich modelů!

Ověření předpokladů Před vlastní analýzou rozptylu je nutno odpovědět na několik otázek: Pochází jednotlivé výběry z normálního rozdělení? Jsou jednotlivé výběry nezávislé? Lze se domnívat, že výběry mají shodné rozptyly? První a třetí požadavek lze ověřit prostřednictvím různých testů.

Obecný postup pokračování 2. Stanovit hodnotu α, nejčastěji voĺıme α = 0, 05 nebo α = 0, 01. 3. Zvolit adekvátní testové kritérium a stanovit hodnotu testového kritéria 4. Zjistit zda F K nebo zda p-value α 5. Závěr

Specifikace nulové a alternativní hypotézy V případě že potřebujeme simultánně otestovat shodu k středních hodnot, je nulová a alternativní hypotéza specifikována jako: H 0 : µ 1 = µ 2 =... = µ k 1 = µ k H A : non H 0. Zároveň však testujeme ještě homoskedasiticitu: H 0 : σ 2 1 = σ2 2 =... = σ2 k 1 = σ2 k H A : non H 0, a tu testujeme zpravidla jako první!!!

Testování homoskedasticity

Testy homoskedasticity Předpoklad homoskedasticity (shody rozptylů) je možno otestovat například prostřednictvím tzv. Bartlettova testu. Bartlettův test je univerzálním testem v tom smyslu, že jej lze využít k hodnocení homoskedasticity u vyvážených i nevyvážených souborů. Testujeme hypotézu: H 0 : σ 2 1 = σ2 2 = = σ2 k, H A : non H 0. Testovým kritériem Bartlettova testu je veličina B, která je definována jako B = [(n k)ln s 2 k (n i 1)ln s 2 i ]/C. i=1

Testy homoskedasticity Platí-li H 0 a je-li n i 6, pak přibližně platí B χ 2 (k 1). Testovanou hypotézu zamítáme pokud platí B χ 2 1 α (k 1). Jednotlivé symboly využité při výpočtu testové statistiky lze definovat takto: s 2 i = 1 n i 1 celkový rozptyl s jako a konstantu C C = 1 + n i j=1 s = 1 n 1 k i=1 (y ij ȳ i ) 2 i = 1,, k, k n i i=1 j=1 (y ij ȳ i ) 2, 1 n i 1 1 /3(k 1). n k

Hartleyův test Dalším testem je tzv. Hartleyův test homoskedasticity. Testovací statistika má v případě Hartleyova testu tvar: Fmax = max s2 i min s 2. i Ke stanovení kritického oboru je nutno využít speciálně sestrojených tabulek, nebot testovaná dvojice rozptylů není náhodně zvolena. Nulovou hypotézu o shodě rozptylů zamítáme na hladině významnosti α, pokud testovací statistika Fmax překročí jistou kritickou hodnotu.

Cochranův test Dalším testem pro ověření homoskedasticity je tzv. Cochranův test. V případě jeho použití zamítáme H 0, hypotézu pokud hodnota testového kritéria s 2 max C = s 2 1 + s2 2 +... + s2 k překročí kritickou hodnotu Cochranovy statistiky. Jinými slovy, pokud hodnota C bude náležet do kritického oboru, který je definován jako K = {C C 1 α (k, n 1)}, pak zamítáme hypotézu o shodě rozptylů.

Levenův test homogenity rozptylů Levenův test v podstatě provádí analýzu rozptylu na reziduích. Využívá přitom proměnnou z ij = y ij ȳ i pro i = 1, 2,, k a j = 1, 2,, n i. Výsledná hodnota testové statistiky F je porovnávána s kritickou hodnotou F -rozdělení s k 1 a n k stupni volnosti. Pro jisté případy jsou navrženy i modifikace Levenova testu. V případě šikmosti souboru lze využít místo ȳ i. mediánu. V případě výrazné špičatosti souboru je pak místo ȳ i. doporučován 10 % ořezaný průměr.

Analýza rozptylu - ANOVA jednofaktorová Necht Y ij je náhodnou veličinou označující j-té pozorování v rámci i-té skupiny. Symbol y ij pak bude představovat pozorovanou hodnotu veličiny Y ij získanou provedením experimentu. Symbolem n i označíme počet pozorování v i-té skupině. Průměry v jednotlivých skupinách tj. ȳ 1, ȳ 2,, ȳ k získáme jako ȳ i = 1 n i n i j=1 y ij.

Analýza rozptylu - ANOVA jednofaktorová Rozptyly uvnitř jednotlivých skupin označíme jako s 2 i, kde i = 1, 2,, k. Je zřejmé, že: s 2 i = 1 n i 1 n i j=1 (y ij ȳ i ) 2 Vnitroskupinová tzv. průměrná reziduální suma čtverců: MSS r = 1 n k k n i i=1 j=1 (y ij ȳ i ) 2

Analýza rozptylu - ANOVA jednofaktorová Celkový průměr označíme jako ȳ kde ȳ = 1 n k n i i=1 j=1 y ij n = k i=1 n i. Průměrná suma čtverců vlivem různých úrovní faktorů (skripta: Rozptyl mezi třídami): MSS A = 1 k 1 k i=1 n i (ȳ i ȳ) 2

Testové kritérium Testové kritérium F = MSS A MSS r. Kde pro testové kritérium F za platnosti nulové hypotézy platí: F F (v 1 = k 1; v 2 = n k) Pokud symbolem F označíme hodnotu testového kritéria F určenou na základě provedeného experimentu, pak lze p-value definovat takto: P (F(k 1; n k) > F )

Tabulka analýzy rozptylu V podstatě je tato testovací statistika založena na poměru průměrných meziskupinových a vnitroskupinových součtů čtverců. Výsledky analýzy rozptylu se zapisují do tzv. tabulky analýzy rozptylu. Ta měla v minulosti svůj význam z hlediska výpočtů. V nejjednodušším případě má následující podobu: Zdroj Součet Počet stupňů Průměrný F Dosažená variability čtverců volnosti čtverec hladina p Faktor SS A k 1 MSS A = SS A k 1 Reziduální SS r n k MSS r = SS r n k Celkový SS T n 1 F = MSS A MSS r p

Jak na to v R Pokračujme v řešení motivačního příkladu. Nejprve data načteme a znázorníme. data<-read.table("dieta.txt",header=true) data names(data) plot(koagulace~dieta,data,ylab="cas koagulace krve",col="red") with(data,stripchart(koagulace~dieta,vertical=true,method="stack", xlab="dieta",ylab="cas koagulace krve"))

Vytvořené grafy Cas koagulace krve 60 65 70 Cas koagulace krve 60 65 70 A B C D dieta A B C D Dieta

Pokračování práce v R - Tabulka analýzy rozptylu Výsledná tabulka analýzy rozptylu model<-lm(koagulace~dieta,data) anova(model) Analysis of Variance Table Response: koagulace Df Sum Sq Mean Sq F value Pr(>F) dieta 3 122.344 40.781 3.8823 0.01939 * Residuals 28 294.125 10.504 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Lze říci, že se doba koagulace krve liší v závislosti na podávané dietě.

pokračování práce v R Model y ij = µ + α i + ɛ ij, kde α 1 = 0 - referenční hladina model<-lm(koagulace~dieta,data) summary(model) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 62.125 1.146 54.216 < 2e-16 *** dietab 2.000 1.621 1.234 0.22740 dietac 4.625 1.621 2.854 0.00803 ** dietad -0.250 1.621-0.154 0.87850 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 3.241 on 28 degrees of freedom Multiple R-Squared: 0.2938, Adjusted R-squared: 0.2181 F-statistic: 3.882 on 3 and 28 DF, p-value: 0.01939

... R Pro správné pochopení kódování jednotlivých úrovní můžeme použít příkaz model.matrix() (Intercept) dietab dietac dietad 1 1 0 0 0 2 1 0 0 0 3 1 0 0 0 4 1 0 0 0 5 1 0 0 0 6 1 0 0 0 7 1 0 0 0 8 1 0 0 0 9 1 1 0 0 10 1 1 0 0 11 1 1 0 0 12 1 1 0 0 13 1 1 0 0 14 1 1 0 0 15 1 1 0 0 16 1 1 0 0...

Ověření předpokladů homoskedasticity K ověření předpokladu homoskedasticity můžeme využít například Bartlettův test. bartlett.test(koagulace~dieta,data) Bartlett test of homogeneity of variances data: koagulace by dieta Bartlett s K-squared = 4.1045, df = 3, p-value = 0.2504

Další diagnostika Lze využít rezidua k posouzení normality qqnorm(residuals(model)) plot(jitter(fitted(model)), residuals(model), xlab="teoretické získané modelem", ylab="residua")

Diagnostické grafy Normal Q Q Plot Sample Quantiles 6 4 2 0 2 4 6 Residua 6 4 2 0 2 4 6 2 1 0 1 2 Theoretical Quantiles 62 63 64 65 66 Teoretické získané modelem

Dvoufaktorová analýza rozptylu

Dvoufaktorová analýza rozptylu V některých případech je nutné uvažovat vliv současného působení dvou faktorů. Situace se tak mírně komplikuje. Hovoříme pak o tzv. analýze rozptylu při dovojném třídění, neboli o dvoufaktorové analýze rozptylu. Uvažujme dva faktory: Faktor A necht má I úrovní i = 1, 2,, I). Faktor B necht má J úrovní j = 1, 2,, J). Dále uvažujme pouze případy, kdy máme tzv. vyvážené třídění, tj. kdy všechny četnosti n ij jsou stejné a jsou rovny nějakému číslu.

Šedá teorie Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + ɛ ijp Potřebné výpočty: I i α i = 0 J j β j = 0 S A = 1 JP I i=1 Y 2 i 1 n Y 2 S B = 1 IP J j=1 Y 2 j 1 n Y 2 S T = I i J j P p Y 2 ijp 1 n Y 2

Šedá teorie S e = S T S A S B

Trošku to uspořádáme Výpočty lze opět uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Faktor A S A df A = I 1 MS A = S A df A Faktor B S B df B = J 1 MS B = S B df B F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) Residuum S e df e = IJP I J + 1 MS e = S e df e Celkový S T df T = IP J 1

Příklad Bylo sledováno, zda čas potřebný k výrobě určité součástky závisí na denní době a na hlučnosti v okoĺı. Experimentem, jemuž se podrobilo dvanáct pracovníků firmy byly zjištěny následující hodnoty [v min]: Ticho Hudba Rozhlas Hluk Ráno 6 7 8 6 V poledne 8 5 10 5 Večer 7 6 12 7 Je doba výroby závislá na denní době a na hlučnosti okoĺı? Testované hypotézy: H 0A : α 1 = α 2 = α 3 = 0 H 0B : β 1 = β 2 = β 3 = β 4 = 0

Jak to spácháme v R cas<-c("rano","poledne","vecer") prostredi<-c("ticho","hudba","hra","hluk") odezva<-c(6,8,7,7,5,6,8,10,12,6,5,7) mat<-expand.grid(cas=cas,prostredi=prostredi) data<-data.frame(odezva,mat) data odezva cas prostredi 1 6 rano ticho 2 8 poledne ticho 3 7 vecer ticho 4 7 rano hudba 5 5 poledne hudba 6 6 vecer hudba 7 8 rano hra 8 10 poledne hra 9 12 vecer hra 10 6 rano hluk 11 5 poledne hluk 12 7 vecer hluk

pokračování v R model<-lm(odezva~cas+prostredi,data=data) anova(model) Analysis of Variance Table Response: odezva Df Sum Sq Mean Sq F value Pr(>F) cas 2 3.50 1.75 1.0000 0.42188 prostredi 3 32.25 10.75 6.1429 0.02926 * Residuals 6 10.50 1.75 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Z výsledků je zřejmé, že vliv denní doby na čas potřebný k vyrobení součástky nebyl na hladině α = 0,05 na základě pozorovaných dat prokázán. Naopak lze zamítnout hypotézu, že hlučnost v okoĺı neovlivňuje dobu potřebnou k výrobě.

Odhad efektů

Odhad efektů summary(model) Residuals: Min 1Q Median 3Q Max -1.5000-0.7500-0.1250 0.6875 1.5000 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 6.5000 0.9354 6.949 0.000441 *** caspoledne 0.2500 0.9354 0.267 0.798217 casvecer 1.2500 0.9354 1.336 0.229893 prostredihudba -1.0000 1.0801-0.926 0.390259 prostredihra 3.0000 1.0801 2.777 0.032104 * prostredihluk -1.0000 1.0801-0.926 0.390259 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 1.323 on 6 degrees of freedom Multiple R-Squared: 0.773, Adjusted R-squared: 0.5838 F-statistic: 4.086 on 5 and 6 DF, p-value: 0.0581

Motivační příklad - dvoufaktorová ANOVA s interakcemi Byl proveden pokus, při němž byly sledovány výnosy jisté zemědělské plodiny v t.ha 1 v závislosti na typu půdy (kyselá půda, normální půda) a typu hnojení (kontrola bez hnojení, chlévská mrva, Ca hnojivo). Každá kombinace byla realizována dvakrát. Data: Typ Kontrola Mrva Hnojení Ca Normální půda 2,9 3,1 3,6 3,9 3,2 3,5 Kyselá půda 2,7 3,0 3,5 3,4 3,8 4,2 Má druh půdy či typ hnojení vliv na výnos?

Náš model Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + (αβ) ij + ɛ ijp Naše pracovní (testovaná - nulová) hypotézy předpokládají, že sledované faktory, případně jejich interakce, nemají na tvorbu výnosu vliv, tj.: H 0A : α 1 = α 2 = = α I ; H 0B : β 1 = β 2 = = β J ; H 0AB : (αβ) 11 = (αβ) 12 = = (αβ) IJ. Pozn.: Při samotném řešení využity reparametrizační podmínky: I α i = 0; J β j = 0; I (αβ) ij = 0 i; J (αβ) ij = 0 j i j i j

Jak to zadání dostaneme do Erka? #Nejprve vytvoříme sledované úrovně obou faktorů a uspořádáme je. #Uspořádání není nezbytně nutné, ale pro jistotu. puda<-rep(c("normalni","kysela"),6) puda<-factor(puda,levels=c("normalni","kysela")) osetreni<-rep(c("kontrola","mrva","ca"),c(4,4,4)) osetreni<-factor(osetreni,levels=c("kontrola","mrva","ca")) #Vytvoříme vektor obsahujíci jednotlivé hodnoty výnosů #pro dané úrovně y<-c(2.9,2.7,3.1,3.0,3.6,3.5,3.9,3.4,3.2,3.8,3.5,4.2) #Vše to uložíme do objektu data data<-data.frame(puda,osetreni,y) #Koukneme se na to, co jsme vytvořili data

Naše data data puda osetreni y 1 normalni kontrola 2.9 2 kysela kontrola 2.7 3 normalni kontrola 3.1 4 kysela kontrola 3.0 5 normalni mrva 3.6 6 kysela mrva 3.5 7 normalni mrva 3.9 8 kysela mrva 3.4 9 normalni Ca 3.2 10 kysela Ca 3.8 11 normalni Ca 3.5 12 kysela Ca 4.2 trellis.device(theme="col.whitebg") xyplot(y~osetreni puda,data=data,ylab="vynos v t/ha",pch=20,cex=1.2) xyplot(y~puda osetreni,data=data,ylab="vynos v t/ha",pch=20,cex=1.2)

Vizualizujme? Ano! kontrola mrva Ca normalni kysela Ca 4.0 4.0 3.5 3.0 vynos v t/ha 3.5 vynos v t/ha 4.0 kontrola mrva 3.0 3.5 3.0 kontrola mrva Ca normalni kysela osetreni puda

Ted trochu vážně - malinko to zamlžíme - šedá, šedá je teorie Y = I J P Y ijp Y i = J P Y ijp Y ij = P Y ijp i j p j p p S A = 1 JP I i=1 Y 2 i 1 n Y 2 S B = 1 IP J j=1 Y 2 j 1 n Y 2 S e = I i J j P p Y 2 ijp 1 P I i J j Y 2 ij S T = I i J j P p Y 2 ijp 1 n Y 2 S AB = S T S A S B S e

Trošku to uspořádáme Výpočty lze uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Faktor A S A df A = I 1 MS A = S A df A Faktor B S B df B = J 1 MS B = S B df B Interakce S AB df AB = IJ I J + 1 MS AB = S AB df AB F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) F AB = MS AB MS e 1 F(F AB df AB ; df e ) Residuum S e df e = IJP IJ MS e = S e df e Celkový S T df T = IP J 1

Katarze přichází aneb zlatá praxe ;-) Výpočet provedeme v Erku. Syntaxe je velmi jednoduchá: model<-aov(y~puda*osetreni,data=data) summary(model) Df Sum Sq Mean Sq F value Pr(>F) puda 1 0.01333 0.01333 0.3333 0.584700 osetreni 2 1.36500 0.68250 17.0625 0.003344 ** puda:osetreni 2 0.52167 0.26083 6.5208 0.031285 * Residuals 6 0.24000 0.04000 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Výsledky lze stručně shrnout. Vzhledem k hodnotám p-value lze říci, že se na základě analyzovaných dat nepodařil prokázat vliv půdního typu na výnos hospodářské plodiny (p-value 0, 5847). Naopak vliv ošetření je statisticky významný p-value 0, 003344. Totéž platí i pro interakci mezi půdním typem a ošetřením p-value 0, 031285. Podívejme se ještě na graf interakcí. Může pomoci při interpretaci.

Opět graf - interakce výnos v t/ha 3.0 3.2 3.4 3.6 3.8 4.0 osetreni Ca mrva kontrola normalni kysela Pùdni typ

Zjistíme ještě statisticky významné rozdíly mezi úrovněmi faktorů Pro faktor ošetření (kontrola, chlévská mrva, vápnění): TukeyHSD(model,which="osetreni") Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = y ~ puda * osetreni, data = data) $osetreni diff lwr upr mrva-kontrola 0.675 0.2410805 1.1089195 Ca-kontrola 0.750 0.3160805 1.1839195 Ca-mrva 0.075-0.3589195 0.5089195

Tukey HSD test - grafy Graficky to můžeme znázornit například takto: 95% family wise confidence level 95% family wise confidence level kysela:kontrola normalni:kontrola normalni:mrva normalni:kontrola kysela normalni kysela:mrva normalni:kontrola normalni:ca normalni:kontrola kysela:ca normalni:kontrola normalni:mrva kysela:kontrola 0.2 0.1 0.0 0.1 0.2 0.3 Differences in mean levels of puda 95% family wise confidence level kysela:mrva kysela:kontrola normalni:ca kysela:kontrola kysela:ca kysela:kontrola mrva kontrola kysela:mrva normalni:mrva normalni:ca normalni:mrva kysela:ca normalni:mrva Ca kontrola normalni:ca kysela:mrva kysela:ca kysela:mrva Ca mrva kysela:ca normalni:ca 0.0 0.5 1.0 Differences in mean levels of osetreni 1.0 0.5 0.0 0.5 1.0 1.5 2.0 Differences in mean levels of puda:osetreni

Metoda znáhodněných bloků Jedná se o dosti častý případ v polních pokusech. Princip metody je následující: Pozemek rozděĺıme na tolik bloků, kolik máme opakování. Uvnitř bloku provedeme následně dělení do tolika parcel, kolik má sledovaný faktor úrovní. Na takto vzniklé parcely přiřadíme v rámci bloků náhodně jednotlivé úrovně faktoru. Výhodou metody je to, že umožňuje eliminovat vliv rozdílností mezi jednotlivými bloky. Mějme 8 odrůd ovsa a každou z odrůd budeme chtít vysít na 5 pokusných pozemcích stejné velikosti. Jak provedeme znáhodnění? Označme jednotlivé odrůdy jako: a1; b2; c3; d4; e5; f6; g7; h8.

Bašta pro Erko odrudy<-c("a1","b2","c3","d4","e5","f6","g7","h8") poradi<-c(sample(odrudy,rep=f),sample(odrudy,rep=f),sample(odrudy,rep=f), sample(odrudy,rep=f),sample(odrudy,rep=f)) barvy<-factor(poradi) barvy<-as.numeric(barvy) barva<-matrix(barvy,byrow=true,5,8) plan<-matrix(poradi,byrow=true,5,8) x<-1:5 y<-1:8 sit<-expand.grid(x,y) sit plot(sit$var1,sit$var2,type="n",xlab="bloky - opakovani", ylab="parcely - odrudy") text(sit$var1,sit$var2,plan,col=barva,cex=1.52) plan

Jak to tedy vlastně vypadá? parcely odrudy 1 2 3 4 5 6 7 8 e5 c3 c3 e5 h8 g7 a1 a1 c3 g7 h8 b2 e5 f6 a1 b2 d4 b2 a1 f6 f6 e5 f6 d4 e5 a1 h8 g7 g7 b2 d4 g7 h8 h8 c3 c3 f6 d4 b2 d4 1 2 3 4 5 bloky opakovani Máme plán pokusů. Ted už zbývá jen provést samotný pokus...

Data získané provedením pokusu - již uspořádané Údaje jsou v gramech. Bloky Odrůda 1 2 3 4 5 a1 296 357 340 331 348 b2 202 390 431 340 320 c3 437 334 426 320 296 d4 303 319 310 260 242 e5 469 405 442 487 394 f6 345 342 358 300 308 g7 324 339 357 352 220 h8 488 374 401 338 320 Načteme data do Erka a provedeme ANOVU. V případě metody znáhodněných bloků postupujeme jako v případě dvoufaktorové analýzy rozptylu bez interakcí.

Šedá teorie Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + ɛ ijp Potřebné výpočty: S A = 1 JP I i=1 I α i = 0 i J β j = 0 Y 2 i 1 n Y 2 S B = 1 IP j J j=1 Y 2 j 1 n Y 2 S T = I i J j P p Y 2 ijp 1 n Y 2 S e = S T S A S B

Trošku to uspořádáme Výpočty lze opět uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Řádky S A df A = I 1 MS A = S A df A Sloupce S B df B = J 1 MS B = S B df B F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) Residuum S e df e = IJP I J + 1 MS e = S e df e Celkový S T df T = IP J 1

Kanonenfutter... bloky<-factor(1:5) odrudy<-c("a1","b2","c3","d4","e5","f6","g7","h8") odr<-odrudy dat<-expand.grid(blok=bloky,odruda=odr) y<-c(296, 357, 340, 331, 348, 202, 390, 431, 340, 320, 437, 334, 426, 320, 296, 303, 319, 310, 260, 242, 469, 405, 442, 487, 394, 345, 342, 358, 300, 308, 324, 339, 357, 352, 220, 488, 374, 401, 338, 320) data<-data.frame(blok=dat$blok,odruda=dat$odruda,y) model2<-aov(y~odruda+blok,data=dat) summary(model2)

Výsledek provedené analýzy Získáme výslednou tabulku analýzy rozptylu. Df Sum Sq Mean Sq F value Pr(>F) odruda 7 75534 10791 4.5214 0.001773 ** blok 4 25845 6461 2.7074 0.050411. Residuals 28 66823 2387 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Nulovou hypotézu o shodě středních hodnot pro jednotlivé odrůdy můžeme tedy zamítnout, nebot p-value = 0,001773. Ověřme ještě hypotézu o shodě rozptylů mezi jednotlivými odrůdami. Využijme pro tento účel Bartlettův test. bartlett.test(y,dat$odruda) Bartlett test for homogeneity of variances data: y and dat$odruda Bartlett s K-squared = 10.5244, df = 7, p-value = 0.1608