Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu. Ing. Michael Rost, Ph.D.

Rozměr: px
Začít zobrazení ze stránky:

Download "Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu. Ing. Michael Rost, Ph.D."

Transkript

1 Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu Ing. Michael Rost, Ph.D.

2 Co je vlastně cílem? Cílem statistického zpracování dat je podání informace o vlastnostech, povaze a zákonitostech projevujících se na pozorovaných datech. Statistika zahrnuje získávání, analýzu a objektivní interpretaci získaných dat. Tj. začíná již před samotným provedením experimentu!

3 Několik doporučení: Definujte svůj problém, který hodláte řešit (a to co možná nejjednodušeji), a vytvořte si své pracovní hypotézy. Určete, co budete měřit a jak to budete měřit. Věnujte dostatečnou přípravu vašemu experimentu. Je důležitá. Randomizujte, tj. znáhodňujte. Můžete se tak vyhnout systematickým chybám (například při odečítání hodnot z přístroje).

4 Několik doporučení: Při analýze dat je nutno rozlišovat s jakými typy dat pracujeme. Mějte na paměti, že ne všechny metody jsou vhodné pro všechny typy dat. Pokud využíváte deskriptivní statistiky k popisu analyzovaného souboru, uvědomte si, že aritmetický průměr nemusí být vždy tou pravou charakteristikou polohy. Udávejte i další statistiky. Vizualizujte! Pokud to jde, používejte spolu s čísly i grafickou reprezentaci, může pomoci (používejte však vhodné grafické vyjádření).

5 Statistické zhodnocení ve 3 úrovních V průběhu statistické analýzy dat postupujte v několika úrovních: Explorativní úroveň (EDA). Popisné statistiky a grafické zhodnocení. Formální statistický přístup. Testy a testování hypotéz či různé statistické metody. Diagnostika. Zhodnocení, zda byly dodrženy předpoklady pro použití vámi vybraných statistických metod. Případně proved te různá nápravná opatření transformace atd...

6 Úvod do problému V ekonomické praxi se můžeme setkat se situací, ve které potřebujete simultánně otestovat shodu k středních hodnot, kde k je větší než 2. Jak to provést, to bude náplní této přednášky ; )

7 Příklad Klinickou studíı byla sledována závislost mezi dietou a dobou, za kterou dojde ke koagulaci krve. Byly naměřeny tyto hodnoty: Typ diety A B C D y ij Mají různé diety vliv na dobu, za kterou dojde ke koagulaci krve?

8 Příklad

9 Výchozí situace Situaci které čeĺıme, lze obecně popsat následujícím způsobem (předpokládáme, že máme k souborů): číslo počet zjištěné hodnoty průměr rozptyl výběru prvků sledovaného znaku 1 n 1 y 11, y 12,, y 1j,, y 1n1 ȳ 1 s n 2 y 21, y 22,, y 2j,, y 2n2 ȳ 2 s i. n i. y i1, y i2,, y ij,, y ini. ȳ i. s 2 i. k n k y k1, y k2,, y kj,, y knk ȳ k s 2 k

10 Obecný postup 1. Zformulovat hypotézy: H 0 vs. H A. 2. Ověření předpokladů Poznámka : Uvědomte si, že pokud provádíte formální analýzu či statistické testování, při kterém využíváte p-value, vycházíte zároveň z jistých předpokladů. Ty však nemusí být splněny. Stupeň validity získaného p-value záleží na tom jakou shodu vykazují naše data s teoretickými rozděleními. Proto každopádně ověřujte předpoklady vašich modelů!

11 Ověření předpokladů Před vlastní analýzou rozptylu je nutno odpovědět na několik otázek: Pochází jednotlivé výběry z normálního rozdělení? Jsou jednotlivé výběry nezávislé? Lze se domnívat, že výběry mají shodné rozptyly? První a třetí požadavek lze ověřit prostřednictvím různých testů.

12 Obecný postup pokračování 2. Stanovit hodnotu α, nejčastěji voĺıme α = 0, 05 nebo α = 0, Zvolit adekvátní testové kritérium a stanovit hodnotu testového kritéria 4. Zjistit zda F K nebo zda p-value α 5. Závěr

13 Specifikace nulové a alternativní hypotézy V případě že potřebujeme simultánně otestovat shodu k středních hodnot, je nulová a alternativní hypotéza specifikována jako: H 0 : µ 1 = µ 2 =... = µ k 1 = µ k H A : non H 0. Zároveň však testujeme ještě homoskedasiticitu: H 0 : σ 2 1 = σ2 2 =... = σ2 k 1 = σ2 k H A : non H 0, a tu testujeme zpravidla jako první!!!

14 Testování homoskedasticity

15 Testy homoskedasticity Předpoklad homoskedasticity (shody rozptylů) je možno otestovat například prostřednictvím tzv. Bartlettova testu. Bartlettův test je univerzálním testem v tom smyslu, že jej lze využít k hodnocení homoskedasticity u vyvážených i nevyvážených souborů. Testujeme hypotézu: H 0 : σ 2 1 = σ2 2 = = σ2 k, H A : non H 0. Testovým kritériem Bartlettova testu je veličina B, která je definována jako B = [(n k)ln s 2 k (n i 1)ln s 2 i ]/C. i=1

16 Testy homoskedasticity Platí-li H 0 a je-li n i 6, pak přibližně platí B χ 2 (k 1). Testovanou hypotézu zamítáme pokud platí B χ 2 1 α (k 1). Jednotlivé symboly využité při výpočtu testové statistiky lze definovat takto: s 2 i = 1 n i 1 celkový rozptyl s jako a konstantu C C = 1 + n i j=1 s = 1 n 1 k i=1 (y ij ȳ i ) 2 i = 1,, k, k n i i=1 j=1 (y ij ȳ i ) 2, 1 n i 1 1 /3(k 1). n k

17 Hartleyův test Dalším testem je tzv. Hartleyův test homoskedasticity. Testovací statistika má v případě Hartleyova testu tvar: Fmax = max s2 i min s 2. i Ke stanovení kritického oboru je nutno využít speciálně sestrojených tabulek, nebot testovaná dvojice rozptylů není náhodně zvolena. Nulovou hypotézu o shodě rozptylů zamítáme na hladině významnosti α, pokud testovací statistika Fmax překročí jistou kritickou hodnotu.

18 Cochranův test Dalším testem pro ověření homoskedasticity je tzv. Cochranův test. V případě jeho použití zamítáme H 0, hypotézu pokud hodnota testového kritéria s 2 max C = s s s2 k překročí kritickou hodnotu Cochranovy statistiky. Jinými slovy, pokud hodnota C bude náležet do kritického oboru, který je definován jako K = {C C 1 α (k, n 1)}, pak zamítáme hypotézu o shodě rozptylů.

19 Levenův test homogenity rozptylů Levenův test v podstatě provádí analýzu rozptylu na reziduích. Využívá přitom proměnnou z ij = y ij ȳ i pro i = 1, 2,, k a j = 1, 2,, n i. Výsledná hodnota testové statistiky F je porovnávána s kritickou hodnotou F -rozdělení s k 1 a n k stupni volnosti. Pro jisté případy jsou navrženy i modifikace Levenova testu. V případě šikmosti souboru lze využít místo ȳ i. mediánu. V případě výrazné špičatosti souboru je pak místo ȳ i. doporučován 10 % ořezaný průměr.

20 Analýza rozptylu - ANOVA jednofaktorová Necht Y ij je náhodnou veličinou označující j-té pozorování v rámci i-té skupiny. Symbol y ij pak bude představovat pozorovanou hodnotu veličiny Y ij získanou provedením experimentu. Symbolem n i označíme počet pozorování v i-té skupině. Průměry v jednotlivých skupinách tj. ȳ 1, ȳ 2,, ȳ k získáme jako ȳ i = 1 n i n i j=1 y ij.

21 Analýza rozptylu - ANOVA jednofaktorová Rozptyly uvnitř jednotlivých skupin označíme jako s 2 i, kde i = 1, 2,, k. Je zřejmé, že: s 2 i = 1 n i 1 n i j=1 (y ij ȳ i ) 2 Vnitroskupinová tzv. průměrná reziduální suma čtverců: MSS r = 1 n k k n i i=1 j=1 (y ij ȳ i ) 2

22 Analýza rozptylu - ANOVA jednofaktorová Celkový průměr označíme jako ȳ kde ȳ = 1 n k n i i=1 j=1 y ij n = k i=1 n i. Průměrná suma čtverců vlivem různých úrovní faktorů (skripta: Rozptyl mezi třídami): MSS A = 1 k 1 k i=1 n i (ȳ i ȳ) 2

23 Testové kritérium Testové kritérium F = MSS A MSS r. Kde pro testové kritérium F za platnosti nulové hypotézy platí: F F (v 1 = k 1; v 2 = n k) Pokud symbolem F označíme hodnotu testového kritéria F určenou na základě provedeného experimentu, pak lze p-value definovat takto: P (F(k 1; n k) > F )

24 Tabulka analýzy rozptylu V podstatě je tato testovací statistika založena na poměru průměrných meziskupinových a vnitroskupinových součtů čtverců. Výsledky analýzy rozptylu se zapisují do tzv. tabulky analýzy rozptylu. Ta měla v minulosti svůj význam z hlediska výpočtů. V nejjednodušším případě má následující podobu: Zdroj Součet Počet stupňů Průměrný F Dosažená variability čtverců volnosti čtverec hladina p Faktor SS A k 1 MSS A = SS A k 1 Reziduální SS r n k MSS r = SS r n k Celkový SS T n 1 F = MSS A MSS r p

25 Jak na to v R Pokračujme v řešení motivačního příkladu. Nejprve data načteme a znázorníme. data<-read.table("dieta.txt",header=true) data names(data) plot(koagulace~dieta,data,ylab="cas koagulace krve",col="red") with(data,stripchart(koagulace~dieta,vertical=true,method="stack", xlab="dieta",ylab="cas koagulace krve"))

26 Vytvořené grafy Cas koagulace krve Cas koagulace krve A B C D dieta A B C D Dieta

27 Pokračování práce v R - Tabulka analýzy rozptylu Výsledná tabulka analýzy rozptylu model<-lm(koagulace~dieta,data) anova(model) Analysis of Variance Table Response: koagulace Df Sum Sq Mean Sq F value Pr(>F) dieta * Residuals Signif. codes: 0 *** ** 0.01 * Lze říci, že se doba koagulace krve liší v závislosti na podávané dietě.

28 pokračování práce v R Model y ij = µ + α i + ɛ ij, kde α 1 = 0 - referenční hladina model<-lm(koagulace~dieta,data) summary(model) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) < 2e-16 *** dietab dietac ** dietad Signif. codes: 0 *** ** 0.01 * Residual standard error: on 28 degrees of freedom Multiple R-Squared: , Adjusted R-squared: F-statistic: on 3 and 28 DF, p-value:

29 ... R Pro správné pochopení kódování jednotlivých úrovní můžeme použít příkaz model.matrix() (Intercept) dietab dietac dietad

30 Ověření předpokladů homoskedasticity K ověření předpokladu homoskedasticity můžeme využít například Bartlettův test. bartlett.test(koagulace~dieta,data) Bartlett test of homogeneity of variances data: koagulace by dieta Bartlett s K-squared = , df = 3, p-value =

31 Další diagnostika Lze využít rezidua k posouzení normality qqnorm(residuals(model)) plot(jitter(fitted(model)), residuals(model), xlab="teoretické získané modelem", ylab="residua")

32 Diagnostické grafy Normal Q Q Plot Sample Quantiles Residua Theoretical Quantiles Teoretické získané modelem

33 Dvoufaktorová analýza rozptylu

34 Dvoufaktorová analýza rozptylu V některých případech je nutné uvažovat vliv současného působení dvou faktorů. Situace se tak mírně komplikuje. Hovoříme pak o tzv. analýze rozptylu při dovojném třídění, neboli o dvoufaktorové analýze rozptylu. Uvažujme dva faktory: Faktor A necht má I úrovní i = 1, 2,, I). Faktor B necht má J úrovní j = 1, 2,, J). Dále uvažujme pouze případy, kdy máme tzv. vyvážené třídění, tj. kdy všechny četnosti n ij jsou stejné a jsou rovny nějakému číslu.

35 Šedá teorie Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + ɛ ijp Potřebné výpočty: I i α i = 0 J j β j = 0 S A = 1 JP I i=1 Y 2 i 1 n Y 2 S B = 1 IP J j=1 Y 2 j 1 n Y 2 S T = I i J j P p Y 2 ijp 1 n Y 2

36 Šedá teorie S e = S T S A S B

37 Trošku to uspořádáme Výpočty lze opět uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Faktor A S A df A = I 1 MS A = S A df A Faktor B S B df B = J 1 MS B = S B df B F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) Residuum S e df e = IJP I J + 1 MS e = S e df e Celkový S T df T = IP J 1

38 Příklad Bylo sledováno, zda čas potřebný k výrobě určité součástky závisí na denní době a na hlučnosti v okoĺı. Experimentem, jemuž se podrobilo dvanáct pracovníků firmy byly zjištěny následující hodnoty [v min]: Ticho Hudba Rozhlas Hluk Ráno V poledne Večer Je doba výroby závislá na denní době a na hlučnosti okoĺı? Testované hypotézy: H 0A : α 1 = α 2 = α 3 = 0 H 0B : β 1 = β 2 = β 3 = β 4 = 0

39 Jak to spácháme v R cas<-c("rano","poledne","vecer") prostredi<-c("ticho","hudba","hra","hluk") odezva<-c(6,8,7,7,5,6,8,10,12,6,5,7) mat<-expand.grid(cas=cas,prostredi=prostredi) data<-data.frame(odezva,mat) data odezva cas prostredi 1 6 rano ticho 2 8 poledne ticho 3 7 vecer ticho 4 7 rano hudba 5 5 poledne hudba 6 6 vecer hudba 7 8 rano hra 8 10 poledne hra 9 12 vecer hra 10 6 rano hluk 11 5 poledne hluk 12 7 vecer hluk

40 pokračování v R model<-lm(odezva~cas+prostredi,data=data) anova(model) Analysis of Variance Table Response: odezva Df Sum Sq Mean Sq F value Pr(>F) cas prostredi * Residuals Signif. codes: 0 *** ** 0.01 * Z výsledků je zřejmé, že vliv denní doby na čas potřebný k vyrobení součástky nebyl na hladině α = 0,05 na základě pozorovaných dat prokázán. Naopak lze zamítnout hypotézu, že hlučnost v okoĺı neovlivňuje dobu potřebnou k výrobě.

41 Odhad efektů

42 Odhad efektů summary(model) Residuals: Min 1Q Median 3Q Max Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) *** caspoledne casvecer prostredihudba prostredihra * prostredihluk Signif. codes: 0 *** ** 0.01 * Residual standard error: on 6 degrees of freedom Multiple R-Squared: 0.773, Adjusted R-squared: F-statistic: on 5 and 6 DF, p-value:

43 Motivační příklad - dvoufaktorová ANOVA s interakcemi Byl proveden pokus, při němž byly sledovány výnosy jisté zemědělské plodiny v t.ha 1 v závislosti na typu půdy (kyselá půda, normální půda) a typu hnojení (kontrola bez hnojení, chlévská mrva, Ca hnojivo). Každá kombinace byla realizována dvakrát. Data: Typ Kontrola Mrva Hnojení Ca Normální půda 2,9 3,1 3,6 3,9 3,2 3,5 Kyselá půda 2,7 3,0 3,5 3,4 3,8 4,2 Má druh půdy či typ hnojení vliv na výnos?

44 Náš model Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + (αβ) ij + ɛ ijp Naše pracovní (testovaná - nulová) hypotézy předpokládají, že sledované faktory, případně jejich interakce, nemají na tvorbu výnosu vliv, tj.: H 0A : α 1 = α 2 = = α I ; H 0B : β 1 = β 2 = = β J ; H 0AB : (αβ) 11 = (αβ) 12 = = (αβ) IJ. Pozn.: Při samotném řešení využity reparametrizační podmínky: I α i = 0; J β j = 0; I (αβ) ij = 0 i; J (αβ) ij = 0 j i j i j

45 Jak to zadání dostaneme do Erka? #Nejprve vytvoříme sledované úrovně obou faktorů a uspořádáme je. #Uspořádání není nezbytně nutné, ale pro jistotu. puda<-rep(c("normalni","kysela"),6) puda<-factor(puda,levels=c("normalni","kysela")) osetreni<-rep(c("kontrola","mrva","ca"),c(4,4,4)) osetreni<-factor(osetreni,levels=c("kontrola","mrva","ca")) #Vytvoříme vektor obsahujíci jednotlivé hodnoty výnosů #pro dané úrovně y<-c(2.9,2.7,3.1,3.0,3.6,3.5,3.9,3.4,3.2,3.8,3.5,4.2) #Vše to uložíme do objektu data data<-data.frame(puda,osetreni,y) #Koukneme se na to, co jsme vytvořili data

46 Naše data data puda osetreni y 1 normalni kontrola kysela kontrola normalni kontrola kysela kontrola normalni mrva kysela mrva normalni mrva kysela mrva normalni Ca kysela Ca normalni Ca kysela Ca 4.2 trellis.device(theme="col.whitebg") xyplot(y~osetreni puda,data=data,ylab="vynos v t/ha",pch=20,cex=1.2) xyplot(y~puda osetreni,data=data,ylab="vynos v t/ha",pch=20,cex=1.2)

47 Vizualizujme? Ano! kontrola mrva Ca normalni kysela Ca vynos v t/ha 3.5 vynos v t/ha 4.0 kontrola mrva kontrola mrva Ca normalni kysela osetreni puda

48 Ted trochu vážně - malinko to zamlžíme - šedá, šedá je teorie Y = I J P Y ijp Y i = J P Y ijp Y ij = P Y ijp i j p j p p S A = 1 JP I i=1 Y 2 i 1 n Y 2 S B = 1 IP J j=1 Y 2 j 1 n Y 2 S e = I i J j P p Y 2 ijp 1 P I i J j Y 2 ij S T = I i J j P p Y 2 ijp 1 n Y 2 S AB = S T S A S B S e

49 Trošku to uspořádáme Výpočty lze uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Faktor A S A df A = I 1 MS A = S A df A Faktor B S B df B = J 1 MS B = S B df B Interakce S AB df AB = IJ I J + 1 MS AB = S AB df AB F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) F AB = MS AB MS e 1 F(F AB df AB ; df e ) Residuum S e df e = IJP IJ MS e = S e df e Celkový S T df T = IP J 1

50 Katarze přichází aneb zlatá praxe ;-) Výpočet provedeme v Erku. Syntaxe je velmi jednoduchá: model<-aov(y~puda*osetreni,data=data) summary(model) Df Sum Sq Mean Sq F value Pr(>F) puda osetreni ** puda:osetreni * Residuals Signif. codes: 0 *** ** 0.01 * Výsledky lze stručně shrnout. Vzhledem k hodnotám p-value lze říci, že se na základě analyzovaných dat nepodařil prokázat vliv půdního typu na výnos hospodářské plodiny (p-value 0, 5847). Naopak vliv ošetření je statisticky významný p-value 0, Totéž platí i pro interakci mezi půdním typem a ošetřením p-value 0, Podívejme se ještě na graf interakcí. Může pomoci při interpretaci.

51 Opět graf - interakce výnos v t/ha osetreni Ca mrva kontrola normalni kysela Pùdni typ

52 Zjistíme ještě statisticky významné rozdíly mezi úrovněmi faktorů Pro faktor ošetření (kontrola, chlévská mrva, vápnění): TukeyHSD(model,which="osetreni") Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = y ~ puda * osetreni, data = data) $osetreni diff lwr upr mrva-kontrola Ca-kontrola Ca-mrva

53 Tukey HSD test - grafy Graficky to můžeme znázornit například takto: 95% family wise confidence level 95% family wise confidence level kysela:kontrola normalni:kontrola normalni:mrva normalni:kontrola kysela normalni kysela:mrva normalni:kontrola normalni:ca normalni:kontrola kysela:ca normalni:kontrola normalni:mrva kysela:kontrola Differences in mean levels of puda 95% family wise confidence level kysela:mrva kysela:kontrola normalni:ca kysela:kontrola kysela:ca kysela:kontrola mrva kontrola kysela:mrva normalni:mrva normalni:ca normalni:mrva kysela:ca normalni:mrva Ca kontrola normalni:ca kysela:mrva kysela:ca kysela:mrva Ca mrva kysela:ca normalni:ca Differences in mean levels of osetreni Differences in mean levels of puda:osetreni

54 Metoda znáhodněných bloků Jedná se o dosti častý případ v polních pokusech. Princip metody je následující: Pozemek rozděĺıme na tolik bloků, kolik máme opakování. Uvnitř bloku provedeme následně dělení do tolika parcel, kolik má sledovaný faktor úrovní. Na takto vzniklé parcely přiřadíme v rámci bloků náhodně jednotlivé úrovně faktoru. Výhodou metody je to, že umožňuje eliminovat vliv rozdílností mezi jednotlivými bloky. Mějme 8 odrůd ovsa a každou z odrůd budeme chtít vysít na 5 pokusných pozemcích stejné velikosti. Jak provedeme znáhodnění? Označme jednotlivé odrůdy jako: a1; b2; c3; d4; e5; f6; g7; h8.

55 Bašta pro Erko odrudy<-c("a1","b2","c3","d4","e5","f6","g7","h8") poradi<-c(sample(odrudy,rep=f),sample(odrudy,rep=f),sample(odrudy,rep=f), sample(odrudy,rep=f),sample(odrudy,rep=f)) barvy<-factor(poradi) barvy<-as.numeric(barvy) barva<-matrix(barvy,byrow=true,5,8) plan<-matrix(poradi,byrow=true,5,8) x<-1:5 y<-1:8 sit<-expand.grid(x,y) sit plot(sit$var1,sit$var2,type="n",xlab="bloky - opakovani", ylab="parcely - odrudy") text(sit$var1,sit$var2,plan,col=barva,cex=1.52) plan

56 Jak to tedy vlastně vypadá? parcely odrudy e5 c3 c3 e5 h8 g7 a1 a1 c3 g7 h8 b2 e5 f6 a1 b2 d4 b2 a1 f6 f6 e5 f6 d4 e5 a1 h8 g7 g7 b2 d4 g7 h8 h8 c3 c3 f6 d4 b2 d bloky opakovani Máme plán pokusů. Ted už zbývá jen provést samotný pokus...

57 Data získané provedením pokusu - již uspořádané Údaje jsou v gramech. Bloky Odrůda a b c d e f g h Načteme data do Erka a provedeme ANOVU. V případě metody znáhodněných bloků postupujeme jako v případě dvoufaktorové analýzy rozptylu bez interakcí.

58 Šedá teorie Matematický model lze (obecně pro tento typ úloh) formulovat takto: Y ijp = µ + α i + β j + ɛ ijp Potřebné výpočty: S A = 1 JP I i=1 I α i = 0 i J β j = 0 Y 2 i 1 n Y 2 S B = 1 IP j J j=1 Y 2 j 1 n Y 2 S T = I i J j P p Y 2 ijp 1 n Y 2 S e = S T S A S B

59 Trošku to uspořádáme Výpočty lze opět uspořádat do přehledné tabulky analýzy rozptylu: Zdroj Součet Stupně Průměrný Testová p-value variability čtverců volnosti součet statistika čtverců Řádky S A df A = I 1 MS A = S A df A Sloupce S B df B = J 1 MS B = S B df B F A = MS A MS e 1 F(F A df A ; df e ) F B = MS B MS e 1 F(F B df B ; df e ) Residuum S e df e = IJP I J + 1 MS e = S e df e Celkový S T df T = IP J 1

60 Kanonenfutter... bloky<-factor(1:5) odrudy<-c("a1","b2","c3","d4","e5","f6","g7","h8") odr<-odrudy dat<-expand.grid(blok=bloky,odruda=odr) y<-c(296, 357, 340, 331, 348, 202, 390, 431, 340, 320, 437, 334, 426, 320, 296, 303, 319, 310, 260, 242, 469, 405, 442, 487, 394, 345, 342, 358, 300, 308, 324, 339, 357, 352, 220, 488, 374, 401, 338, 320) data<-data.frame(blok=dat$blok,odruda=dat$odruda,y) model2<-aov(y~odruda+blok,data=dat) summary(model2)

61 Výsledek provedené analýzy Získáme výslednou tabulku analýzy rozptylu. Df Sum Sq Mean Sq F value Pr(>F) odruda ** blok Residuals Signif. codes: 0 *** ** 0.01 * Nulovou hypotézu o shodě středních hodnot pro jednotlivé odrůdy můžeme tedy zamítnout, nebot p-value = 0, Ověřme ještě hypotézu o shodě rozptylů mezi jednotlivými odrůdami. Využijme pro tento účel Bartlettův test. bartlett.test(y,dat$odruda) Bartlett test for homogeneity of variances data: y and dat$odruda Bartlett s K-squared = , df = 7, p-value =

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D. Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít

Více

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer ANOVA Přednáška STATISTIKA II - EKONOMETRIE Katedra ekonometrie FEM UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími

Více

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob. ANOVA Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz ANOVA ANOVA je nástroj pro zkoumání vztahu mezi vysvětlovanými a vysvětlujícími proměnnými.

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Regresní analýza doplnění základů Vzhledem k požadavku Vašich kolegů zařazuji doplňující partii o regresní

Více

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D. Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se

Více

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

Pokud data zadáme přes Commands okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18. Regresní analýza; transformace dat Pro řešení vztahů mezi proměnnými kontinuálního typu používáme korelační a regresní analýzy. Korelace se používá pokud nelze určit "kauzalitu". Regresní analýza je určena

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Proč neparametrické testy? Pokud provádíte formální analýzu či testování hypotéz (zejména provádíte-li

Více

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D. Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Test χ 2 v kontingenční tabulce typu 2 2 Jde vlastně o speciální případ χ 2 testu pro čtyřpolní tabulku.

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6

Stav Svobodný Rozvedený Vdovec. Svobodná 37 10 6. Rozvedená 8 12 8. Vdova 5 8 6 1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření 1.4 ANOVA Úloha 1 Jednofaktorová ANOVA Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření Bylo měřeno množství DNA hub Fusarium culmorum

Více

STATISTICA Téma 7. Testy na základě více než 2 výběrů

STATISTICA Téma 7. Testy na základě více než 2 výběrů STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm

Více

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

3 ANALÝZA ROZPTYLU ANOVA

3 ANALÝZA ROZPTYLU ANOVA 3 Analýza rozptlu ANOVA 3 ANALÝZA ROZPTYLU ANOVA RYCHLÝ NÁHLED KAPITOLY Analýza rozptlu je statistickým nástrojem, který nám umožňuje zkoumat závislost kvantitativního znaku na kvalitativním znaku. Základní

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání 1. Analýzu variance (ANOVu) používáme při studiu problémů, kdy máme závislou proměnou spojitého typu a nezávislé proměnné

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

05/29/08 cvic5.r. cv5.dat <- read.csv("cvic5.csv")

05/29/08 cvic5.r. cv5.dat <- read.csv(cvic5.csv) Zobecněné lineární modely Úloha 5: Vzdělání a zájem o politiku cv5.dat

Více

Národní informační středisko pro podporu jakosti

Národní informační středisko pro podporu jakosti Národní informační středisko pro podporu jakosti 1 ANALÝZA ROZPTYLU a její využití při vyhodnocování experimentálních dat Eva Jarošová, VŠE Praha 2 Obsah Podstata metody, jednofaktorová ANOVA F-test Mnohonásobná

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza 5.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat se hledají souvislosti mezi dvěma, případně

Více

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů. Neparametricke testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou

Více

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21 Příklad 1 Soutěž o nelepší akost výrobků obeslali čtyři výrobci A, B, C, D celkem 26 výrobky. Porota sestavila toto pořadí (uveden pouze původ výrobku od nelepšího k nehoršímu): Pořadí 1 2 3 4 5 6 7 8

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

Přednáška IX. Analýza rozptylu (ANOVA)

Přednáška IX. Analýza rozptylu (ANOVA) Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární

Více

Navrhování experimentů a jejich analýza. Eva Jarošová

Navrhování experimentů a jejich analýza. Eva Jarošová Navrhování experimentů a jejich analýza Eva Jarošová Obsah Základní techniky Vyhodnocení výsledků Experimenty s jedním zkoumaným faktorem Faktoriální experimenty úplné 2 N dílčí 2 N-p Experimenty pro studium

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová Masarykova univerzita v Brně Přírodovědecká fakulta BAKALÁŘSKÁ PRÁCE Analýza rozptylu Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D. Brno 2006/2007 Prohlášení Prohlašuji,

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

ANALÝZA ROZPTYLU (ANOVA)

ANALÝZA ROZPTYLU (ANOVA) ANALÝZA ROZPTYLU (ANOVA) 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testování hypotéz na základě jednoho a dvou výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/004. Testování hypotéz Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru,

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

Stručný úvod do testování statistických hypotéz

Stručný úvod do testování statistických hypotéz Stručný úvod do testování statistických hypotéz 1. Formulujeme hypotézu (předpokládáme, že pozorovaný jev je pouze náhodný). 2. Zvolíme hladinu významnosti testu a, tj. riziko, s nímž jsme ochotni se smířit.

Více

Problém 1: Ceny nemovitostí Poznámkykřešení 1

Problém 1: Ceny nemovitostí Poznámkykřešení 1 Problém 1: Ceny nemovitostí Poznámkykřešení 1 Zadání 1.Majínemovitostiurčenékbydlenívyššícenutam,kdeječistšíovzduší?Pokudano,okolik? 2. Lze vztah mezi znečištěním a cenou, pokud existuje, vysvětlit tím,

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou

Více

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je = Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.

Více

Porovnání dvou výběrů

Porovnání dvou výběrů Porovnání dvou výběrů Menu: QCExpert Porovnání dvou výběrů Tento modul je určen pro podrobnou analýzu dvou datových souborů (výběrů). Modul poskytuje dva postupy analýzy: porovnání dvou nezávislých výběrů

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi.

Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. SEMINÁRNÍ PRÁCE Zadání: Data: Statistické metody: Zpracování studie týkající se průzkumu vlastností statistických proměnných a vztahů mezi nimi. Minimálně 6 proměnných o 30 pozorováních (z toho 2 proměnné

Více

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův

Více

Vysoká škola ekonomická v Praze

Vysoká škola ekonomická v Praze Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii Autor bakalářské práce: Jakub Zajíček Vedoucí

Více

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

PSY117/454 Statistická analýza dat v psychologii Přednáška 10 PSY117/454 Statistická analýza dat v psychologii Přednáška 10 TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ PROMĚNNÉ NEPARAMETRICKÉ METODY... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot

Více

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

Competitivness in the EU Challenge for the V4 countries Nitra, May 17-18, 2006 ANALÝZA ROZPTYLU JAKO ZÁKLADNÍ METODA MNOHONÁSOBNÉHO POROVNÁVÁNÍ STŘEDNÍCH HODNOT V RŮZNÝCH SOFTWAROVÝCH PRODUKTECH ANALYSIS OF VARIANCE AS A PRIMARY METHOD OF MULTIPLE COMPARISON OF EXPECTED VALUES IN

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení Přednáška 9 Testy dobré shody Grafická analýza pro ověření shody empirického a teoretického rozdělení χ 2 test dobré shody ověření, zda jsou relativní četnosti jednotlivých variant rovny číslům π 01 ;

Více

Ilustrační příklad odhadu LRM v SW Gretl

Ilustrační příklad odhadu LRM v SW Gretl Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná

Více

Normální (Gaussovo) rozdělení

Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení Normální (Gaussovo) rozdělení popisuje vlastnosti náhodné spojité veličiny, která vzniká složením různých náhodných vlivů, které jsou navzájem nezávislé, kterých je velký

Více

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků

{ } ( 2) Příklad: Test nezávislosti kategoriálních znaků Příklad: Test nezávislosti kategoriálních znaků Určete na hladině významnosti 5 % na základě dat zjištěných v rámci dotazníkového šetření ve Šluknově, zda existuje závislost mezi pohlavím respondenta a

Více

Kapitola VII. ANALYSA ROZPTYLU ANOVA.

Kapitola VII. ANALYSA ROZPTYLU ANOVA. Analysa rozptylu ANOVA. 37 Kapitola VII. ANALYSA ROZPTYLU ANOVA. Luděk Dohnal Tato kapitola rozšiřuje téma testování statistické významnosti tím, že popisuje způsob současného porovnání více než dvou sad

Více

Ilustrační příklad odhadu SM v SW Gretl

Ilustrační příklad odhadu SM v SW Gretl Ilustrační příklad odhadu SM v SW Gretl Odhad simultánního modelu (SM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná studijní pomůcka MM2011 Úvodní obrazovka Gretlu

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Prostá regresní a korelační analýza 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Problematika závislosti V podstatě lze rozlišovat mezi závislostí nepodstatnou, čili náhodnou

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj. Uvedeme obecný postup statistického testování:. Formulace nulové H 0a alternativní hpotéz H A.. Volba hladin významnosti α.. Volba testační statistik např... Určení kritického oboru testové charakteristik.

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

Protokol č. 1. Tloušťková struktura. Zadání:

Protokol č. 1. Tloušťková struktura. Zadání: Protokol č. 1 Tloušťková struktura Zadání: Pro zadané výčetní tloušťky (v cm) vypočítejte statistické charakteristiky a slovně interpretujte základní statistické vlastnosti tohoto souboru tloušťek. Dále

Více

diskriminaci žen letní semestr 2012 1 = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

diskriminaci žen letní semestr 2012 1 = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme motivační příklad Párový Párový Příklad (Platová diskriminace) firma provedla šetření s cílem zjistit, zda dochází k platové diskriminaci žen Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test Párový Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 motivační příklad Párový Příklad (Platová diskriminace) firma

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007

Moderní regresní metody. Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Moderní regresní metody Petr Šmilauer Biologická fakulta JU České Budějovice (c) 1998-2007 Obsah Úvod... 5 1 Klasický lineární model a analýza variance... 7 Motivační příklad... 7 Fitování klasického lineárního

Více

Testy pro porovnání vlastností dvou skupin

Testy pro porovnání vlastností dvou skupin Testy pro porovnání vlastností dvou skupin Petr Pošík Části dokumentu jsou převzaty (i doslovně) z Mirko Navara: Pravděpodobnost a matematická statistika, https://cw.felk.cvut.cz/lib/exe/fetch.php/courses/a6m33ssl/pms_print.pdf

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II. Testování hypotéz 1. vymezení důležitých pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test 4. t-test pro nezávislé výběry 5. t-test pro závislé výběry Vymezení důležitých pojmů nulová

Více

Cvičení 9: Neparametrické úlohy o mediánech

Cvičení 9: Neparametrické úlohy o mediánech Cvičení 9: Neparametrické úlohy o mediánech Úkol 1.: Párový znaménkový test a párový Wilcoxonův test Při zjišťování kvality jedné složky půdy se používají dvě metody označené A a B. Výsledky: Vzorek 1

Více

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní

Více

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Test dobré shody v KONTINGENČNÍCH TABULKÁCH Test dobré shody v KONTINGENČNÍCH TABULKÁCH Opakování: Mějme náhodné veličiny X a Y uspořádané do kontingenční tabulky. Řekli jsme, že nulovou hypotézu H 0 : veličiny X, Y jsou nezávislé zamítneme, když

Více

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2 Na úloze ukážeme postup analýzy velkého výběru s odlehlými prvky pro určení typu rozdělení koncentrace kyseliny močové u 50 dárců krve. Jaká je míra polohy a rozptýlení uvedeného výběru? Z grafických diagnostik

Více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více

V praxi pracujeme s daty nominálními (nabývají pouze dvou hodnot), kategoriálními (nabývají více 9 Vícerozměrná data a jejich zpracování 9.1 Vícerozměrná data a vícerozměrná rozdělení Při zpracování vícerozměrných dat, hledáme souvislosti mezi dvěmi, případně více náhodnými veličinami. V praxi pracujeme

Více

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D. Střední hodnota a rozptyl náhodné veličiny, vybraná rozdělení diskrétních a spojitých náhodných veličin, pojem kvantilu Ing. Michael Rost, Ph.D. Príklad Předpokládejme že máme náhodnou veličinu X která

Více

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme,

z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové funkce, ze kterého vycházíme, Úloha 1: V naší studii se zabýváme poptávkovou funkcí životního pojištění, vycházíme z dat nasbíraných v letech 1959 1994. Ke zpracování dat byl použit statistický software R. Základní model poptávkové

Více

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky) 1) Význam a využití statistiky v biologických vědách a veterinárním lékařství ) Rozdělení znaků (veličin) ve statistice 3) Základní a

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík

Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012. Tutoriál č. 4: Exploratorní analýza. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2011/2012 Tutoriál č. 4: Exploratorní analýza Jan Kracík jan.kracik@vsb.cz Statistika věda o získávání znalostí z empirických dat empirická

Více

Pěstování pokusných rostlin

Pěstování pokusných rostlin zimní semestr 2008/2009 Pěstování pokusných rostlin Přednáška 7: Zakládání pokusů Pěstování pokusných rostlin ZS 2008/2009 cvičení klíčivost a vzcházivost příklady založení pokusu: 15. 10. 2008 foto: 20.

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup Statistika Testování hypotéz statistická indukce Úvod do problému Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 21. února 2012 Statistika by Birom

Více

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque and Anil K. Bera Předpoklady: - Výběrová data mohou obsahovat chybějící pozorování (chybějící hodnoty) vhodné zejména

Více

Frekvenční analýza, čtyřpolní tabulky

Frekvenční analýza, čtyřpolní tabulky Frekvenční analýza, čtyřpolní tabulky V následujícím příkladě nás zajímá, zda sekání má pozitivní vliv na reprodukci studovaného druhu. V experimentu tedy máme dva druhy ošetření (sekané, nesekané) a pro

Více

Statistické metody v marketingu. Ing. Michael Rost, Ph.D.

Statistické metody v marketingu. Ing. Michael Rost, Ph.D. Statistické metody v marketingu Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Pojem závislosti Je nutné rozlišit mezi závislostí nepodstatnou a mezi příčinnou čili kauzální závislostí.ta

Více