BAKALÁRSKA PRACE. Analýza rozptylu. Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D.

Rozměr: px
Začít zobrazení ze stránky:

Download "BAKALÁRSKA PRACE. Analýza rozptylu. Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D."

Transkript

1 Masarykova univerzita v Brně Přírodovědecká fakulta BAKALÁRSKA PRACE Analýza rozptylu Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D. Brno 2006/2007

2 Prohlášení Prohlašuji, že jsem svou bakalářskou práci napsala samostatně pod odborným vedením Mgr. Jana Koláčka, Ph.D. a výhradně s použitím citovaných pramenů. V Brně dne 23.května 2007 Marika Dienová 2

3 Poděkování Děkuji Mgr. Janu Koláčkovi, Ph.D. za odborné vedení bakalářské práce, cenné rady a připomínky, poskytnuté materiály a především čas, který mi věnoval. 3

4 Obsah Úvod 6 1 Jednofaktorová ANOVA Označení Testování hypotézy o shodě středních hodnot Mnohonásobné pozorování Bonferroniho metoda Scheffého metoda Tukeyova metoda Příklad Dvoufaktorová ANOVA Označení Dvojité třídění bez interakcí Testování hypotézy o shodě středních hodnot Mnohonásobné pozorování Dvojité třídění s interakcemi Testování hypotézy o shodě středních hodnot Mnohonásobné pozorování Příklad Výchozí situace Předpoklady použití analýzy rozptylu Test homogenity rozptylů Bartletův test Levenův test Cochranův test Příklad

5 Závěr 36 Literatura 37 5

6 Úvod Tato práce se zabývá problémem, zdali je možné více nezávislých výběrových souborů, které se řídí normálním rozložením se stejným rozptylem, považovat za realizaci jedné náhodné veličiny. Zkoumám tedy vliv jednoho nebo dvou faktorů na experiment při několikerém opakování pokusu s pevně nastavenými úrovněmi faktoru. Je třeba na hladině významnosti a testovat nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tedy H 0 : ßi =... = ßj. Na první pohled se zdá, že stačí vytvořit /(/ l)/2 dvojic a na každou z nich aplikovat dvouvýběrový t-test. Tento postup však není vhodný, protože nesplňuje podmínku, že pravděpodobnost chyby prvního druhu je a. Z tohoto důvodu se pro test hypotézy H 0 používají metody analýzy rozptylu (ANOVY), které udrží pravděpodobnost chyby prvního druhu na hladině a. Podstatou samotné ANOVY je rozložit variabilitu souboru dat na příspěvky, které pocházejí od změny úrovně faktoru a které jsou způsobené náhodnými chybami. Budu tedy testovat hypotézu H 0 a pokud dojde k zamítnutí, budu hledat výběry které se od sebe liší a řešit tedy strukturu nehomogenity středních hodnot. K tomuto účelu slouží metody mnohonásobného srovnávání. V první a druhé kapitole jsou uvedeny teoretické konstrukce ANOVY a metod mnohonásobného srovnávání. V poslední kapitole uvádím předpoklady ANOVY a metody používané k jejich testování. Tyto testy jsou odvozeny pro jednofaktorovou ANOVU a používá se při nich označení z předchozích kapitol, proto je uvádím až na závěr. Na konci všech kapitol je problematika demonstrována na konkrétních příkladech, které pracují s reálnými daty, získané z dávkování odpadů a tradičních paliv při procesu pálení cementu. K testování je použit software STATISTIKA. 6

7 Kapitola 1 Jednofaktorová ANOVA 1.1 Označení Při jednofaktorové analýze rozptylu zkoumáme vliv pouze jediného faktoru A na sledovaný výsledek. Definice Nechi máme nezávislé výběry z rozložení N(ßi, a 2 )...N(ßj, a 2 ). Náhoáný výběr z rozložení N'(//j, a 2 ) označíme Xn...X in. Jeho rozsah je teáy rií i N = J2 n í J e í=i celkový rozsah všech výběrů ni X L = Y^ Xij je součet hoänot v i-té úrovni j=i I I rii X.. = Yl X». = Y Yl Xij je součet hoänot všech výběrů i=\ i=lj=l rii M L = ^TXJ. = ^7 Y Xij je výběrový průměr v i-té úrovni / ni M.. = ]^X. = jjyyl Xij je celkový průměr všech výběrů Situaci lze zachytit nejlépe v přehledné tabulce: 7

8 úroveň faktoru 1 2 rozsah v úrovni ni n 2 zjištěné hodnoty suma v úrovni průměr v úrovni -X"ll>^12>,X\ ni ^21,-^22,,X 2n2 x h x 2. Mi. M 2. ni celkový rozsah í=i Xl\,Xi2,...,Xinj x L celkový součet celkový průměr M.. = K Definice Maji-li všechny výběry stejný rozsah, tedy ri\ =... = ni říkáme, že třídění je vyvážené. Pokud k tomu dojde, pak označíme rozsah výběru symbolem P. 1.2 Testování hypotézy o shodě středních hodnot Na hladině významnosti a testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné oproti alternativní, která tvrdí, že alespoň jedna dvojice středních hodnot se od sebe signifikantně liší. H 0 : ßi =... = ßi PL\ : non H 0 Každé pozorování lze popsat následujícím modelem Xij = ß + cti + ÍJ (1-2.1) kde ß je společná část střední hodnoty proměnné veličiny, cti je vliv faktoru A na úrovni i a e^ je realizace náhodné chyby, což je realizace náhodné veličiny z rozložení iv(0,<7 2 ). Kdyby nezáleželo na faktoru A, platila by hypotéza ct\ =... = cti = 0 a dostali bychom submodel: X l, = ß + e l, (1.2.2) Střední hodnotu ß odhadneme hodnotou celkového průměru všech výběrů M. a střední hodnotu při dané úrovni ßi = ß + cti odhadneme výběrovým průměrem 8

9 v i-té úrovni Mi.. Tedy CÜJ = Mi. M... Realizaci náhodné chyby lze vyjádřit jako odchylku naměřené hodnoty od odhadu střední hodnoty pro danou úroveň faktoru, tedy e^ = XÍJ M L Po dosazení do modelu (1.2.1) dostáváme Xij = M. + (Mi. - M.) + (XÍJ - Mi.) Převedeme-li celkový průměr na levou stranu, obě strany rovnice umocníme na druhou a sečteme přes všechna j aj, dostaneme následující vztah EE(*y-M..) 2 = i=ij=i T Ti' T Ti' /" Ti' E É (Mi. - M..) 2 + E É(^i - Mi.) E É(^i - Mi.){Mi. - M.) i=lj=l i=lj=l i=lj=l Lemma Poslední člen je roven nule: I rii Í=I j=i Důkaz. I rii I iii 2 Y, Eľ(*ý-" M *-)( M i- - M») = 2 5] Š^' Mi -" X» M - ~ M l + M i- M -.) i=\ j=l i=\ j=l I Tli y I Tli y I I = 2 EI>vf - EE*>f + E A «- E*w í=i j=i í=i j=i í=i í=i = 2(X - ^ - M 2 + M 2 ) = 0 V - N N " - J Definice Zaveďme následující součty čtverců: Celkový součet čtverců ST, který charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru D I ni Sr=EE(*y-M..) 2 Skupinový součet čtverců S A, který charakterizuje variabilitu mezi jednotlivými náhodnými výběry 9

10 S A = JZn i {M i.-m.) 2 í=i Reziduálni součet čtverců SE, který charakterizuje variabilitu uvnitř jednotlivých náhodných výběrů I ni SE = EE(x l3 -M t.) 2 Lemma Zjednodušeně lze tedy psát: ST = S A + SE Důkaz. Podrobné odvození vzorců a důkaz vztahů pro součty čtverců lze nalézt v knize Anděl [2]. D Z tohoto lemmatu plyne, že celková variabilita hodnot se rozdělila na podíl způsobený faktorem A a podíl způsobený náhodnými chybami. Veličina ST má x 2 rozložení s f T = (N 1) stupni volnosti, stejně jako veličina SA má x 2 rozložení s f A = (I 1) stupni volnosti a veličina SE má také x 2 rozložení s f E = (N R) stupni volnosti, viz [1]. Je patrné, že: f T = JA + JE Lemma Pro praktické výpočty se doporučuje vyčíslit celkový součet čtverců a skupinový součet čtverců jako I ni I ST = EE X N Ml S A = E n t Ml - ivm. 2 1=1.7 = 1 i=\ Reziduálni součet čtverců se dopočítá z rozdílu ST SA- 10

11 Důkaz. i i i i s A = Y n i( M i- - M -f = Y nim i- ~ 2 Y n i M i- M - + Y nim ~ = Y^M"- 2 Y n^x^+y n s I I rii v I rii Y"2, i=\ i=\ j=l i=\ j=l I = Y^ nimi - 2NMl + NM^ = J^ mm 2 - ivm 2 i=\ i=\ I rii I rii I rii y I 2 i=\ j=l i=\ j=l i=\ j=l I Tli I Tli = Y Y x i - 2NM2. + M. 2 = Y Y x i - i=\ j=l i=\ j=l NM ~ Proti testovací hypotéze svědčí případy, ve kterých se statistiky výrazně liší od M... Při vlastním provedení testujeme, zdali se liší rozptyl způsobený faktorem od rozptylu způsobeného náhodnými chybami (odtud vyplývá i název metody, analýza rozptylu). Nulová a alternativní hypotéza se pak formulují následovně H 0 :a 2 A = a 2 H x :o\í o 2 (1.2.3) Podíl, který je testovacím kritériem, má Fisher-Snedecorovo rozložení s (N 1) a (N I) stupni volnosti. D F A = S A { N - I ] = ^ (1.2.4) SE(I 1) SEÍA Pokud překročí veličina F A kritickou hodnotu F 1 _ Q,(J 1,N I) zamítneme H 0 na hladině a. Definice Hodnota -^j se nazývá reziduálni rozptyl. 11

12 Poznámka Čím větší je hodnota ^A, tím máme větší důvod si myslet, že mezi jednotlivými středními hodnotami existuje skutečný rozdíl. Čím větší bude hodnota 4 s, tím více máme důvod se domnívat, že rozdíly mezi jednotlivými výběry jsou způsobeny pouze náhodnými vlivy. Obecně lze říci, že čím větší je rozdíl mezi n a, ^M tím větší je pravděpodobnost zamítnutí H 0. f A f E Výpočty se shrnují v tabulce analýzy rozptylu Zdroj variability skupiny reziduálni Součet čtverců SA SE ÍE = N-I stupeň volnosti podíl Testovací statistika Celkový OJ 1 f T = N-l 1.3 Mnohonásobné pozorování S A ÍA SE ÍE T? SAÍE A SEÍA Dojdeme-li analýzou rozptylu k zamítnutí nulové hypotézy, můžeme si položit otázku, které úrovně faktoru se od sebe statisticky významně liší. K těmto účelům slouží metody mnohonásobného srovnávání. V této kapitole se omezíme pouze na Bonferroniho, Scheffého a Tukeyovu metodu. Někdy se používají i jiné metody Bonferroniho metoda Tato metoda porovnává všechny možné dvojice průměrů, porovnává tedy /(/ l)/2 dvojic. Dvě střední hodnoty ßi.,ßj. se pak liší na hladině a, když platí: \M,, Mj\ >t«(n-i)< OT, N- I 1 n i (1.3.1) kde tjí(n I) je kvantil Studentova rozdělení a m představuje počet všech možných pozorování, tedy m = 1(1 l)/2. Poznámka Pokud je některý výběr zvolen jako kontrolní, pak v Bonferroniho metodě volíme m= (/ l) a zajímáme se pouze o dvojice průměr i-té skupiny a referenční průměr. 12

13 1.3.2 Scheffeho metoda Tato metoda je v praxi preferovaná. Velkou výhodou Scheffeho metody je její obecnost, avšak má o něco menší citlivost než některé jiné metody, protože zpravidla nevyužívá celou pravděpodobnost chyby prvního druhu a. Rovnost středních hodnot ßi.,ßj. zamítneme na hladině a, když platí: 1 l\ S. M i.-m i. > A /(- + -l ]7 f 7 (/-l)f 1 _ a (/-l > JV-/) (1.3.2) kde Fi_ a (I 1, N I) je kvantil Fisher-Snedecorova rozložení Tukeyova metoda Tukeyova metoda se používá pro případ vyvážených třídění, existuje však i její modifikace pro případ nevyváženého třídění, která se často označuje jako Tukey HSD. Tato metoda není sice tak obecná jako Scheffeho metoda, ale je o něco citlivější, protože pravděpodobnost chyby prvního druhu je rovna a. Rovnost středních hodnot ßi.,ßj. zamítneme na hladině a, když platí následující nerovnice: 1. \Mi. - M 3.\ > \l p^^qi-ail, P-I) (1.3.3) pro případ vyváženého třídění P = N 2. IM,. - M,\ >, / 2 ^ (i + y «.-C* - D (1-3.4) modifikace Tukeyova testu pro případ nevyváženého třídění kde qi- a (I, N I) je kvantil studentizovaného rozpětí. Poznámka Tukeyovu metodu je výhodnější použít, když platí qi_ a (I, N I) < 2(1 l)fi- a (I 1,N I). Protože je tato nerovnost nezávislá na XÍJ, můžeme si mezi jednotlivými metodami vybírat. 13

14 1.4 Příklad 1 Máme naměřené výhřevnosti (v MJ/kg) čtyř druhů odpadů, které se dodají na spálení do cementárny: Oleje (eto), uhelný prach (Kormul), drcený odpad (TTS) a masokostní moučka (MKM). Hodnoty jsou měřené laboratorně, vždy na začátku měsíce. Tyto hodnoty ještě pro názornost budu porovnávat s naměřenými hodnotami výhřevnosti uhlí. Na hladině významnosti a = 0, 05 testujeme hypotézu, že rozdíly v naměřených výhřevnostech paliv jsou způsobeny pouze náhodnými vlivy. Výsledky máme uvedené v tabulce: odpady výhřevnosti uhlí 30,61 30,05 30,84 30,51 30,96 31,58 eto 25,18 24,22 26,13 kormul 26,14 24,86 27,36 27,85 25,87 26,13 27,91 25,71 27,00 TTS 19,79 18,9 19,77 19,12 17,48 18,5 16,6 18 MKM 18,35 18,11 18,7 19,1 18,64 17,95 Řešení Data považujeme za realizace pěti náhodných výběrů z normálních rozložení se stejným rozptylem. Důkaz bude proveden v poslední kapitole. Intervaly spolehlivosti Vypočteme nejprve intervaly spolehlivosti pro střední hodnotu v každém z pěti paliv (1 = 5). 14

15 odpady rozsah Nj součet Xj. průměr M/. Interval spolehlivosti uhlí 6 184,55 30,758 (30,222;31,294) eto 3 75,53 25,177 (22,804; 27, 549) kormul ,82 26,482 (25,764;27,199) TTS 8 148,16 18,520 (17,587; 19, 453) MKM 6 110,85 18,475 (18,032;18,918) celkový ,90 23,755 (22,001;25,509) Intervaly spolehlivosti ještě zobrazíme graficky: rř Graf průměrů " i kormul palivo ň ň TTS fö] Prümer X PmmšrzO.&E Int. spolsh. Vidíme, že některé intervaly spolehlivosti se vůbec nepřekrývají, jejich střední hodnoty jsou tedy navzájem různé a nulová hypotéza H 0 : ßi =... = ßj bude následujícím testem zamítnuta. Analýza rozptylu Nyní provedeme analýzu rozptylu: 15

16 Zdroj variability Součet čtverců skupiny reziduálni SU = 761,152 S E = 21,799 stupeň volnosti f A = 4 f E = 28 podíl 190,288 0,779 Celkový ST = 782, 951 h = 32 Testovací statistika F A = 244,414 Kritickou hodnotu F-rozdělení zjistíme z tabulek Fi_ 0) o5(4, 28) = 2,71, což je menší než FA = 244, 414, a proto zamítáme HQ. Mezi jednotlivými palivy jsou významné rozdíly. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice paliv se od sebe liší. V tomto příkladě provedeme Scheffého test (podle vzorce 1.3.2) a Tukeyův test (podle vzorce 1.3.4). Z těchto dvou metod je citlivější Tukeyův test, protože g 0,95(5, 28) < 8-Fo )95 (4, 28). Tabulka metod mnohonásobného pozorování: srovnávaná paliva rozdíl \Mi. - Mj\ pravá strana Scheffého testu pravá strana Tukeyova testu uhlí a eto 5,581 2,054 1,24 uhlí a kormul 4,276 1,500 1,24 uhlí a TTS 12,238 1,569 1,30 uhlí a MKM 12,283 1,677 1,39 eto a kormul 1,305 1,912 1,59 eto a TTS 6,657 1,967 1,63 eto a MKM 6,702 2,054 1,70 kormul a TTS 7,962 1,378 1,14 kormul a MKM 8,006 1,500 1,24 TTS a MKM 0,045 1,569 1,30 Obě metody se shodují a vidíme, že se na hladině významnosti 0, 05 neliší pouze eto s kormulem a TTS s MKM. 16

17 Závěr Z výsledků, ke kterým jsme dospěli vyplývá, že je nejlepší dávkovat pouze uhlí. Uhlí je však také velice drahé, a tak cementárna dávkuje kolem 30% alternativních paliv. Z alternativních paliv má nejlepší výhřevnost olej a kormul, bohužel je z těchto odpadů také nejnižší zisk. Z ekonomického hlediska je pro cementárnu výhodné dávkovat drcený odpad a masokostní moučku. Tyto dva odpady však zanáší pec, kterou je z tohoto důvodu potřeba na nějaký čas vždy odstavit a vyčistit Když ovšem pec nepálí cement, dochází k ohromným finančním ztrátám. Stanovení ideálního poměru pro dávkování je tak značně složité a určuje se především podle situace ve, které je pec. 17

18 Kapitola 2 Dvoufaktorová ANOVA 2.1 Označení Při dvoufaktorové analýze rozptylu zkoumáme vliv dvou faktorů (A na / úrovních a i? na J úrovních) na sledovaný výsledek. V této kapitole se omezím pouze na vyvážená třídění, tedy na případy, kdy je počet pozorování n^ pro všechny dvojice (i,j) stejný a je roven P > 1. Případ nestejného počtu pozorování lze vyřešit buď vypuštěním "přesahujících hodnot", nebo tzv. neváženou analýzou rozptylu, kterou se zde nebudeme zabývat. Definice Nechi máme n^ nezávislých pozorováni z normálního rozloženi s konstantním rozptylem. Máme teáy n^ pokusů, jejichž výsleáky označíme -A-ijí > > -A-íjp N = UP je celkový rozsah veličin X ijp p Xij. = Y Xijp je součet hoánot v i-té a j-té v=\ Xi = Y j j=ip=i p Yl Xijp je součet hoánot v i-té úrovni i j p X... = Y Yl Yl Xijp je celkový součet hoánot i=\j=lp=l úrovni v.. My. = -^r je výběrový průměr v i-té a j-té Mi.. = ^jp- je výběrový průměr v i-té úrovni úrovni 18

19 M... = -^ je celkový výběrový průměr Situace zachycená ve faktorové tabulce pro P = 2, n = 12 faktory A a, B B\ B 2 Bs sloupcové průměry A 1 průměry 3:111 3:121 3:131 3:112 3:122 3:132 X\l. X\2. X13. Mu. Mia. M13. A 2 3:212 3:222 3:232 3:211 3:221 3:231 Xi.. Mi.. x 2.. M 2.. průměry řádkové průměry x 2 l. -^"22. -^"23. M21. M22. M23. X.i. X.2. X,s. M.i. M.2. M.3. x... M Dvojité třídění bez interakcí Testování hypotézy o shodě středních hodnot Dvourozměrná ANOVA bez interakcí bude provedena ve dvou krocích. V prvním kroku testujeme vliv faktoru A, kterému odpovídají řádky faktorové tabulky. V druhém kroku testujeme vliv faktoru B, kterému odpovídají sloupce faktorové tabulky. Náhodné veličiny X^p se řídí následujícím modelem Xijp = ß + OLÍ + ßj + ijp (2-2.1) pro i = 1,...,/; j = 1,..., J;p = 1,..., P, kde ß je společná část střední hodnoty proměnné veličiny, OLÍ je vliv faktoru A na úrovni i, tzv. řádkově efekty, ßj je vliv faktoru B na úrovni j, tzv. sloupcové efekty, a SÍJ P je realizace náhodné chyby, což jsou nezávislé náhodné veličiny z rozložení A^(0,<T 2 ). Kdyby nezáleželo na faktoru A, platila by hypotéza a\ =... = ai = 0 a dostali bychom submodel: Xijp = ß + ßj + Eijp (2.2.2) 19

20 Ten odpovídá jednoduchému třídění, kde je počet pozorování v každé úrovni roven IP. Dále pokračujeme metodou jednofaktorové ANOVY. Jestliže v submodelu položíme ß\ =... = ßj = 0, dostaneme další submodel: Definice Zaveďme následující součty čtverců: ýp = ß ' ^ijp yz.z.o) Celkový součet čtverců ST, který charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru ST = EEE4 P -ÍVM 2. i=\ j=l p=l Řádkový součet čtverců S A, který charakterizuje variabilitu mezi jednotlivými řádky tabulky i S A = JPJ2 Mi - N Ml í=i Sloupcový součet čtverců SB, který charakterizuje variabilitu mezi jednotlivými sloupci tabulky j S B = IPJ2 M) - NM 2 j=i Reziduálni součet čtverců SE, který charakterizuje variabilitu uvnitř jednotlivých náhodných výběrů ^ = EEE4 P - p EÉ M 4 í=i j=ip=i í=ij=i Lemma Zjednodušeně lze tedy psát: SE = ST SA SB Důkaz. Podrobné odvození vzorců a důkaz vztahů pro součty čtverců lze nalézt v knize Anděl [2]. D 20

21 Celková variabilita se nám rozdělila na podíl způsobený faktorem A, podíl způsobený faktorem B a podíl způsobený náhodnými chybami. Opět platí, že jednotlivé součty čtverců mají x 2 rozložení a to ST má s JT = (N 1) stupni volnosti, SA S f A = (I 1) stupni volnosti, SB S f B = (J 1) stupni volnosti a SE S f E = (N I J + 1) stupni volnosti,viz [1]. Platí: ÍT = JA + JB + JE Platnost modelu 2.2.2, a tedy testování hypotézy H 0 : a A = a 2 a 2, ověřujeme pomocí veličiny: FÄ S A (N-I-J+1) SAÍE S E {I - 1) SEÍA oproti H\ : a A ^ (2.2.4) která má za platnosti Fisher-Snedecorovo rozložení s (/ 1) a (N I J + l) stupni volnosti. Rozdíl mezi a 2.2.3, a tedy testování hypotézy H 0 Hi : a B 7^ er 2, ověřujeme pomocí veličiny: a B = a 2 oproti F, B SB{N-I-J+1) SBÍE SE{J 1) SEÍB (2.2.5) která má za platnosti Fisher-Snedecorovo rozložení s (J ľ) a, (N I stupni volnosti. -J+l) Poznámka Submodel odpovídá situaci, kdy testujeme rovnost řádkových efektů a zároveň přihlížíme k eventuálním sloupcovým efektům. Naproti tomu, při testování rovnosti sloupcových efektů pomocí F B, se nebere v úvahu případný vliv řádků. Nyní bychom tedy mohli provádět stejné úvahy, ale v opačném pořadí. Nejprve bychom testovali variabilitu mezi sloupci a pak teprve variabilitu mezi řádky. To však není nutné, protože bychom dostali shodné výsledky, což je důsledkem předpokladu o vyváženém třídění. Výpočty shrnuté v tabulce analýzy rozptylu: Zdroj variability Součet čtverců řádky sloupce reziduálni SA SB stupeň volnosti podíl Testovací statistika SE f E = N-I-J+l Celkový OT h = N-l 21 S A ÍA SB ÍB SE ÍE p A SAÍE SEÍA 77 SBÍE r B - S EÍB

22 2.2.2 Mnohonásobné pozorování Jestliže zjistíme významný rozdíl mezi řádky, obvykle nás zajímá, které dvojice řádků se od sebe významně liší, stejně tak i pro sloupce. Zde uvedeme obdobné vzorce jako v první kapitole, omezíme se však pouze na Scheffého metodu a Tukeyovu metodu. Z těchto dvou metod si pak vždy vybereme tu, která je citlivější. Na hladině významnosti a tedy testujeme hypotézu H 0 : OLÍ = a t (respektive H 0 :ß 3 = ß t ). Scheffého metoda 1. Rovnost OLÍ = a t zamítneme, jestliže platí \M,. - M,. > xl j p^_ ^ + i}f 1. a (I -1,N-I-J+1) (2.2.6) 2. Rovnost ßj = ß t zamítneme, jestliže platí \M., - M,\ > \l Ip^J_ I 1 l S j + ^ (J-ltN-I-J+l) (2.2.7) Tukeyova metoda 1. Rovnost OLÍ = a t zamítneme, jestliže platí I Mi -M t \>J qi n N-I- J+l) (2.2.8) 2. Rovnost ßj = ß t zamítneme, jestliže platí S, E M,.- M,.\> \l ip{n _ *_ j +i)qi_ a (J,N - I - J +1) (2.2.9) 2.3 Dvojité třídění s interakcemi Testování hypotézy o shodě středních hodnot V dvourozměrné ANOVE se často stává, že faktory A a B se vzájemně ovlivňují. Z tohoto důvodu se provádí ANOVA ve třech krocích. V prvním kroku testujeme 22

23 vliv faktoru A, kterému odpovídají řádky faktorové tabulky, v druhém kroku testujeme vliv faktoru B, kterému odpovídají sloupce faktorové tabulky a ve třetím kroku řešíme interakce obou proměnných. V následující kapitole se předpokládá, že P > 2. Náhodné veličiny X^p se řídí následujícím realističtějším modelem X ijp = ß + CXÍ + ßj + Xij + e ijp (2.3.1) pro i = l,...,1; j = 1,..., J;p = 1,..., P, kde ß je společná část střední hodnoty proměnné veličiny, OLÍ jsou řádkové efekty, ßj jsou sloupcové efekty, Xij jsou interakce a E^v je realizace náhodné chyby, což jsou nezávislé náhodné veličiny z rozložení iv(0,<7 2 ). Kdyby interakce mezi faktorem A a, B byly bezvýznamné, platila by hypotéza Xij = 0 pro všechna i = 1,...,I;j = 1,...,J a, dostali bychom submodel Xijp = ß + ai + ßj + Eijp (2.3.2) Dále postupujeme jako v případě dvoufaktorové ANOVY bez interakcí. Testujeme tedy postupně d\ =... = OLI = 0 a ß\ =... = ßj = 0. Dostaneme postupně submodely ß + ßj + Eijp (2.3.3) Xijp = ß + Eijp (2.3.4) Poznámka / v tomto případe nezáleží na tom v jakém pořadí rovny nule parametry Xij,di,ßj, je to důsledek vyváženého třídění. klademe Interakce je součástí variability mezi různými skupinami měření, je tedy součástí vnějšího rozptylu, proto budou platit následující vzorce: ry O O O O JAB OT OA JB JE f AB = fr f A f B f E kde SAB J e součet čtverců interakce, který má x 2 rozložení s f AB = (I 1)(^ 1) stupni volnosti. Platnost modelu 2.3.2, a tedy testování hypotézy H 0 : a\ B = a 2 oproti H\ : a AB " 2 1 ověřujeme pomocí veličiny: FAB _ SAB(N - IJ) _ S AB f E (0 o r, s E (i-i)(j-i) s ^ ( ) 23

24 která má za platnosti Fisher-Snedecorovo rozložení s (I J I J + 1) a (N IJ) stupni volnosti. Pojem interakce má také svá úskalí: Je nutná opatrnost při interpretaci rozdílu mezi řádkovými, resp. sloupcovými efekty. Může se stát, že některé interakce jsou mnohem výraznější než příslušné řádkové či sloupcové efekty, takže interpretace získaných výsledků může být nesprávná. Někdy volba hodnoty závislé proměnné není jednoznačná, proto není jednoznačná ani hodnota interakce. (Studujeme například kvalitu slepic. Tuto proměnnou můžeme měřit vahou slepice, počtem snesených vajec nebo logaritmem snesených vajec atd) Vhodnou transformací závislé proměnné lze někdy interakce odstranit. Některé případy slabé interakce lze převést na případy bez interakce, proto nemá moc smysl tvrdit, že interakce existuje nebo neexistuje. To ovšem vůbec neznamená, že nemá smysl interakce studovat, mnohdy lze naopak interakce jednoznačně prokázat. Výpočty shrnuté v tabulce analýzy rozptylu: Zdroj variability Součet čtverců řádky sloupce interakce reziduálni SA SB SAB SE stupeň volnosti podíl Testovací statistika ÍA = I~l ÍB = J~l f AB =(I-l)(J-l) f E = N-IJ S A ÍA SB ÍB SAB f AB Celkový ST h = N-l SE ÍE 77 S A ÍE r A S E f A Z7 t B SBÍE - S E fb 77 SAB íe ŕ A B - S E fab Poznámka Je vhodné si všimnout, že součet SE + SAB, resp. JE + JAB dá hodnotu SE, resp. f E V tabulce bez interakci. Model s interakcemi tedy vznikl rozštěpením reziduálního řádku v tabulce analýzy rozptylu dvojitého třídění bez interakcí. Poznámka Z tabulky analýzy rozptylu je také zřejmé, že předpoklad P > 2 byl nutný, protože případ P = 1 dává nepřijatelný výsledek / e = 0. Velmi často se 24

25 však v praxi stává, že v dvojitém tříděni máme pouze jedno pozorováni v každé podtřídě, ale přesto je nutné počítat s přítomnosti interakcí. V tomto případě položíme Q IJ - i j i 2 Xij(M i.-m..)(m. J --M.) OAB SASB.... U=l3=1 c< O O O O ^E ^T &A &B &AB přičemž pro počet stupňů volnosti platí: ÍAB=l Mnohonásobné pozorování f E =(I-l)(J-l)-l Na hladině významnosti a testujeme hypotézu H 0 : OLÍ = a t (respektive H 0 : ßj = ßt). I zde se omezím pouze na Scheffého metodu a Tukeyovu metodu, z kterých si vybereme tu citlivější. Scheffého metoda 1. Rovnost OLÍ = a t zamítneme, jestliže platí \M i..-m t J>\ljV {N i y i E J) F 1 - a (I-l,N-IJ) (2.3.6) 2. Rovnost ßj = ß t zamítneme, jestliže platí \M,.-M,.\> jj^r^. Fl. a {J-l,N-IJ) (2.3.7) Tukeyova metoda 1. Rovnost OLÍ = a t zamítneme, jestliže platí \M,. - M t.\ > \i jp^jjýi-m.n- IJ) (2.3.8) 2. Rovnost ßj = ß t zamítneme, jestliže platí \M,.-M,\ > xj Ip^E_ IJ) q l. a (J ) N-IJ) (2.3.9) 25

26 2.4 Příklad 2 První zadání V tomto příkladě se zaměříme pouze na jeden druh odpadu a to emulzní topné oleje (eto). Zkoumat budeme vliv dvou proměnných. První proměnnou je místo odebrání vzorků k analýze výhřevnosti, druhou proměnnou je dodavatel. Máme tedy laboratorně naměřené výhřevnosti od tří dodavatelů (označíme je A,B,C) vždy těsně po dodání odpadů a v cementárně před spalováním (po dodání, před spálením). Situace je zachycena v následující tabulce: faktory dodavatel/místo A B C 36,33 38,46 38,43 po dodání 36,8 37,65 38,56 37,28 38,36 38,62 10, ,11 před spálením 18,66 25,18 35,82 15,96 24,22 26,13 Řešení Při řešení příkladu bychom mohli provést dva oddělené experimenty jednofaktorové analýzy rozptylu. V jednom experimentu zkoumat vliv prvního faktoru (dodavatel) v různých podmínkách (měřeno po dodání a měřeno před spálením). V druhém experimentu zkoumat vliv druhého faktoru (místo odebrání vzorků) za třech podmínek (vzorky od dodavatele A,B,C). Mnohem lepší ale je zkoumat oba vlivy dohromady ve dvoufaktorové analýze rozptylu, protože při tom můžeme studovat interakci (tedy vzájemný vliv faktorů). 26

27 Analýza rozptylu Tabulka analýzy rozptylu: Zdroj variability Součet čtverců stupeň volnosti podíl Testovací statistika místo S A = 1057,54 ÍA=l 1057,54 F A = 77, 76 dodavatel SB = 168, 06 ÍB = 2 84,03 F B = 6,178 interakce SAB = 96, 24 f AB = 2 48,12 FAB = 3, 538 reziduálni S E = 163,20 f E =12 13,60 Celkový S T = 1485,04 k =17 Vliv prvního faktoru (místo odebrání vzorků): Kritickou hodnotu F-rozdělení zjistíme z tabulek Fi_ 0,o5(l, 12) = 4,75, což je menší než FA = 77, 76, a proto zamítáme H 0. Výhřevnost oleje tedy ovlivňuje místo odebrání vzorků. Vliv druhého faktoru (dodavatel): Kritickou hodnotu F-rozdělení zjistíme z tabulek Fi_ 0) o5(2,12) = 3, 9, což je menší než FB = 6,178, a proto zamítáme H 0. Vliv dodavatele na výhřevnost je statisticky významný. Vliv interakcí mezi faktory: Kritickou hodnotu F-rozdělení zjistíme z tabulek Fi_ 0) o5(2,12) = 3, 9, což je větší než FAB = 3, 54. To znamená, že vliv interakce mezi faktory na výhřevnost není statisticky významná. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice dodavatelů se od sebe liší. V tomto příkladě použijeme Scheffého test. Rovnost ßj = ß t zamítneme, jestliže platí: im.j.-m.t] > \l 2 T^AT ^^F^J-^N-IJ) IP(N-IJ) 27

28 srovnávaní dodavatelé rozdíl \M.j. - M.t.\ pravá strana AaB 5,73 5,95 AaC 7,03 5,95 BaC 1,3 5,95 Vidíme, že se na hladině 0,05 liší pouze dodavatelé AaC. Druhé zadání Formulujme nyní problém jinak. Opět budeme zkoumat vliv dvou faktorů (dodavatel a místo odebrání vzorků) na oleje. Oleje však nyní budou vyjádřeny cenou (v CZK), kterou platí cementárna za jeden G J energie. Situace nyní vypadá následovně: faktory dodavatel/místo A B C po dodání před spálením 66,91 62,45 62,9 67,25 64,84 63,53 64,87 64,02 49,9 232,85 92,38 120,2 132,63 96,95 68,39 151,53 101,4 73,76 Řešení Analýza rozptylu Tabulka analýzy rozptylu: 28

29 Zdroj variability Součet čtverců stupeň volnosti podíl Testovací statistika místo S A = 14079, 5 ÍA=l 14079,5 F A = 22, 65 dodavatel S B = 7420,3 IB = ,1 F B = 5,968 interakce SAB = 5653 f AB = ,5 F Ai? = 4,547 reziduálni S E = 7460 / E =12 621,7 Celkový 5^ = 34612,8 h =17 Vliv prvního faktoru (místo odebrání vzorků): Kritickou hodnotu F-rozdělení zjistíme z tabulek Fi_ 0) o5(l, 12) = 4,75, což je menší než FA = 22,65, a proto zamítáme H 0. Cenu za olej tedy ovlivňuje místo odebrání vzorků. Vliv druhého faktoru (dodavatel): Kritickou hodnotu F-rozdělení zjistíme z tabulek F!_ 0) o5(2,12) = 3, 9, což je menší než FB = 5,968, a proto zamítáme H 0. Vliv dodavatele na cenu je statisticky významný. Vliv interakcí mezi faktory: Kritickou hodnotu F-rozdělení zjistíme z tabulek F!_ 0) o5(2,12) = 3, 9, což je menší než FAB = 4, 547. To znamená, že vliv interakce mezi faktory na cenu je statisticky významný. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice dodavatelů se od sebe liší. I v tomto příkladě použijeme Scheffého test. Rovnost ßj = ß t zamítneme, jestliže platí: Mi L -3- -Mt\> 2(J-1)S E IP(N - IJ) F^iJ-^N-IJ) srovnávaní dodavatelé rozdíl \Mi - M t 1 pravá strana 1 -J- <" 1 AaB 78 40,2 AaC 91,44 40,2 BaC 14,44 40,2 Vidíme, že se na hladině 0,05 liší dodavatelé AaB, dále AaC. 29

30 Závěr Z tohoto příkladu je zřejmé, že případ se slabou interakcí lze převést na příklad bez interakcí, stačí jen na místo ceny za G J uvažovat výhřevnost. Při pohledu na naměřené hodnoty se můžeme ptát, jak je možné, že mezi hodnotami naměřenými po dodání a před spálením jsou tak značné rozdíly. Tento problém vznikl v cementárně během minulého roku a byl způsobený špatným skladováním. V zásobnících na skladování oleje bylo prasklé potrubí, tímto potrubím se oleje ohřívají, aby bylo možné olej čerpat. Do zásobníku takto tekla voda, a tak výsledné výhřevnosti byly mnohem menší a samozdřejmě i cena, kterou musela zaplatit cementárna za G J energie byla vyšší. Z ceny za G J energie po dodání už není tak těžké dopočítat, jaká ztráta vznikla během roku v důsledku špatného skladování. 30

31 Kapitola 3 Výchozí situace 3.1 Předpoklady použití analýzy rozptylu Nezávislost jednotlivých výběrů Normalita. Mírné porušení normality nevadí, při výraznějším porušení se používá Kruskalův-Wallisův test, viz [1]. Shoda rozptylů. Tento předpoklad se dá testovat, používá se k tomu Bartletův test, Levenův test či Cochranův test. 3.2 Test homogenity rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných I výběrech. Mírné porušení ANOVE nevadí, při větším je zapotřebí použít Kruskalův-Wallisův test. Testuji tedy hypotézu Bartletův test H Q :a\ =... = a 2 I E x : non H 0 (3.2.1) Bartletův test lze využít k hodnocení shodnosti rozptylů u vyvážených i nevyvážených souborů. Testovaným kritériem je veličina B, která je definovaná jako B = h{n - I)lns 2 - J2(r* - l)lns?] (3.2.2) 31

32 kde s" Tli -.. n 82 N 7^(n / i -l) a? (3.2.4) í=i í=l Je-li ní > 6, pak má > za platnosti H 0 přibližně Xi-i rozdělení. Testovací hypotézu zamítneme, pokud B > xi- a (l ~!) Bartletův test lze využít k hodnocení shodnosti rozptylů u vyvážených i nevyvážených souborů. Tento test je však poměrně slabý a dost citlivý na porušení normality, obzvláště u souborů s malým počtem pozorování Levenův test Dnes se používá nejčastěji. Vytvoří se / skupin náhodných veličin, a to ZÍJ = \Xij Mi], na těchto skupinách se provádí jednofaktorová analýza rozptylu. Tento test je však pouze aproximativní, protože nejsou splněny předpoklady Anovy, je tomu tak proto, že veličiny Z^ nejsou nezávislé a absolutní hodnoty těchto veličin nemají normální rozdělení. V jistých případech je možné Levenův test modifikovat, lze například místo Mj. využít mediánu Cochranův test Testovaným kritériem je veličina C, která je definovaná jako gmax C= 2 ä ( ) SJ SJ sl = i ni ^(Xy-Mif (3.2.7) 2 _,, r 2 o = max{si,..., sj} (3.2.8) Testovací hypotézu zamítneme, pokud C překročí kritickou hodnotu Cochranovy statistiky. Tedy C > d- a (I, N -1). 32

33 3.3 Příklad 3 Pro data z příkladu 1 ověřte předpoklady použití analýzy rozptylu. Řešení Ověření normality V statistice je implementován test normality, který provedeme postupně pro všech pět výběrů. Zde provedeme Shapirův-Wilkův test normality, který je založen na ověření, zda body v Q-Q plotu jsou významně odlišné od regresní přímky proložené těmito body, viz [3]. Q-Q plot je graf, který umožňuje posoudit, zda data pocházejí z normálního rozložení. Test normality pro uhlí: Proměnná N W P výhřevnost 6 0,97 0,892 Test normáli ty pro eto: Proměnná N W P výhřevnost 3 1,00 0,994 Test normality pro TTS: Proměnná N W P výhřevnost 8 0,947 0,680 Test normality pro kormul: Proměnná N W P výhřevnost 10 0,929 0,436 Test normality pro MKM: Proměnná N W P výhřevnost 6 0,970 0,892 33

34 V tabulkách jsou uvedeny testovací statistiky (W) pro Shapirův-Wilkův a jím odpovídající p-hodnoty. P-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace náhodného výběru podporují H 0, je-li pravdivá. U všech výběrů je vypočtená p-hodnota větší než a = 0,05, H 0 tedy nezamítáme. Všechny výběry se řídí normálním rozložením. Sestrojíme normální pravděpodobnostní grafy, které umožňují graficky posoudit, zda data pocházejí z normálního rozložení: Vidíme, že body leží přibližně na přímce, normalita dat je tedy narušena jen mírně. Data můžeme nadále považovat za normální. Test homogenity rozptylů Testujeme hypotézu: Nejprve provedeme Bartletův test: H 0 : a\ =... = a\ B\\ non H 0 B = ^[(iv-/)lns 2 -E(n i -l)lns?] 34

35 I s 2 = wbe(^-ik 2 1 _ _ (y _J L \ I s 2 C 5 3,89 1,84 16,69 Hypotézu bychom měli zamítnout, protože B > 9.488, avšak nesplnili jsme předpoklady Bartletova testu (rii < 6) a jeho použití v našem příkladě je značně nevhodné. Na ověření hypotézy se nejlépe hodí Levenův test. Tento test je také implementován ve Statistice. Výpočet hodnot ZÍJ = \XÍJ M^\ zde nebudeme provádět a přejděme přímo k tabulce analýzy rozptylu: Součet čtverců vol stupeň nosti Zdroj variability podíl Testovací statistika skupiny S A = 1,824 f A = 4 (7^ = 0,456 F A = 2,166 reziduálni S E = 5, 896 /E = 28 (7 2 = 0,211 Celkový S T = 7, 721 /T = 32 Kritická hodnota je Fi_ 0) o5(4, 28) = 2,71, což je větší než F A = 2,166, a proto hypotézu H 0 nezamítáme. Závěr Nejprve jsme testovali normalitu dat, kterou Shapirův-Wilkův test nezamítl. Při testu homogenity rozptylů sice došlo k zamítnutí Bartletovým testem, nicméně silnější Levenův test ukázal, že můžeme rozptyly považovat za shodné. Předpoklady analýzy rozptylu jsou tedy splněny. 35

36 Závěr Cílem této práce bylo přiblížit čtenáři princip jednofaktorové a dvoufaktorove analýzy rozptylu, včetně metod mnohonásobného pozorování. V každé kapitole je na začátku podán výklad statistických metod, které jsou v závěru kapitol aplikovány na příkladech z odpadového hospodářství. V první kapitole je věnována pozornost jednofaktorové analýze rozptylu, v příkladu jsou porovnávány výhřevnosti alternativních paliv a studovány rozdíly mezi jednotlivými palivy. Druhá kapitola se věnuje dvoufaktorove analýze rozptylu, v jejím závěru se studuje variabilita naměřených hodnot emulzních topných olejů, které jsou nejdříve vyjádřeny výhřevností a později cenou za GJ energie. V třetí kapitole jsou uvedeny předpoklady použití analýzy rozptylu a testovány pro první příklad. 36

37 Literatura [1] Anděl Jiří Základy matematické statistiky, 1. vydání. Praha, MATFY- ZPRESS, [2] Anděl Jiří Matematická statistika, 2. vyd. Praha, SNTL - Nakladatelství technické literatury, 1985 [3] Budíková Marie - Lerch Tomáš - Mikoláš Štěpán Základní statistické metody, 1. vyd. Brno, Masarykova univerzita,

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová Masarykova univerzita v Brně Přírodovědecká fakulta BAKALÁŘSKÁ PRÁCE Analýza rozptylu Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D. Brno 2006/2007 Prohlášení Prohlašuji,

Více

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato

Více

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika, Biostatistika pro kombinované studium. Jan Kracík Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování

Více

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D. Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít

Více

Statistická analýza jednorozměrných dat

Statistická analýza jednorozměrných dat Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 8. Analýza rozptylu Mgr. David Fiedor 13. dubna 2015 Motivace dosud - maximálně dva výběry (jednovýběrové a dvouvýběrové testy) Příklad Na dané hladině významnosti α = 0,05

Více

Úvod do analýzy rozptylu

Úvod do analýzy rozptylu Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme

Více

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme

Více

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368

676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368 Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540

Více

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel Analýza rozptylu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO Brno) Analýza rozptylu 1 / 30 Analýza

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Statistika II Katedra ekonometrie FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Lineární regresní model kde Y = Xβ + e, y 1 e 1 β y 2 Y =., e = e 2 x 11 x 1 1k., X =....... β 2,

Více

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu Testování hypotéz o parametrech regresního modelu Ekonometrie Jiří Neubauer Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Jiří Neubauer (Katedra UO

Více

Jednofaktorová analýza rozptylu

Jednofaktorová analýza rozptylu I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých

Více

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je = Příklad 1 Metodou nejmenších čtverců nalezněte odhad lineární regresní funkce popisující závislost mezi výnosy pšenice a množstvím použitého hnojiva na základě hodnot výběrového souboru uvedeného v tabulce.

Více

Jana Vránová, 3. lékařská fakulta UK

Jana Vránová, 3. lékařská fakulta UK Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace

Více

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Zpracování dat v edukačních vědách - Testování hypotéz Kamila Fačevicová Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci Obsah seminářů 5.11. Úvod do matematické

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné

Více

STATISTICA Téma 7. Testy na základě více než 2 výběrů

STATISTICA Téma 7. Testy na základě více než 2 výběrů STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm

Více

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci

Více

Vzorová prezentace do předmětu Statistika

Vzorová prezentace do předmětu Statistika Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota

Více

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

Tomáš Karel LS 2012/2013

Tomáš Karel LS 2012/2013 Tomáš Karel LS 2012/2013 Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není

Více

12. cvičení z PST. 20. prosince 2017

12. cvičení z PST. 20. prosince 2017 1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace

Více

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík SEMESTRÁLNÍ PRÁCE Leptání plasmou Ing. Pavel Bouchalík 1. ÚVOD Tato semestrální práce obsahuje písemné vypracování řešení příkladu Leptání plasmou. Jde o praktickou zkoušku znalostí získaných při přednáškách

Více

7. Analýza rozptylu.

7. Analýza rozptylu. 7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a

Více

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje

Více

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium Galileo Interaktivní statistická analýza dat Brno 2015 Ing. Petra Hlaváčková, Ph.D.

Více

Regresní analýza. Eva Jarošová

Regresní analýza. Eva Jarošová Regresní analýza Eva Jarošová 1 Obsah 1. Regresní přímka 2. Možnosti zlepšení modelu 3. Testy v regresním modelu 4. Regresní diagnostika 5. Speciální využití Lineární model 2 1. Regresní přímka 3 nosnost

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a

Více

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup Statistika Testování hypotéz - statistická indukce Parametrické testy Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 1. února 01 Statistika by Birom

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015 UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, 532 10 Pardubice 15. licenční studium INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT Semestrální práce ANOVA 2015

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině

Více

4ST201 STATISTIKA CVIČENÍ Č. 7

4ST201 STATISTIKA CVIČENÍ Č. 7 4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické

Více

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com)

You created this PDF from an application that is not licensed to print to novapdf printer (http://www.novapdf.com) Testování statistických hypotéz Testování statistických hypotéz Princip: Ověřování určitého předpokladu zjišťujeme, zda zkoumaný výběr pochází ze základního souboru, který má určité rozdělení zjišťujeme,

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a

Více

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),

Více

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1 Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.

Více

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13 Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test

Více

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek 10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.

Více

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr

Více

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA Semestrální práce Licenční studium GALILEO Interaktivní statistická analýza dat Brno, 2015 Doc. Mgr. Jan Muselík, Ph.D.

Více

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická

Více

Přednáška IX. Analýza rozptylu (ANOVA)

Přednáška IX. Analýza rozptylu (ANOVA) Přednáška IX. Analýza rozptylu (ANOVA) Princip a metodika výpočtu Předpoklady analýzy rozptylu a jejich ověření Rozbor rozdílů jednotlivých skupin násobné testování hypotéz Analýza rozptylu jako lineární

Více

5 Parametrické testy hypotéz

5 Parametrické testy hypotéz 5 Parametrické testy hypotéz 5.1 Pojem parametrického testu (Skripta str. 95-96) Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f(x, θ). První tvrzení (které většinou

Více

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 2010 1.týden (20.09.-24.09. ) Data, typy dat, variabilita, frekvenční analýza

Více

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé. 1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,

Více

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi

Více

Charakteristika datového souboru

Charakteristika datového souboru Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex

Více

Testování hypotéz. 4. přednáška 6. 3. 2010

Testování hypotéz. 4. přednáška 6. 3. 2010 Testování hypotéz 4. přednáška 6. 3. 2010 Základní pojmy Statistická hypotéza Je tvrzení o vlastnostech základního souboru, o jehož pravdivosti se chceme přesvědčit. Předem nevíme, zda je pravdivé nebo

Více

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Licenční studium Pythagoras Statistické zpracování experimentálních dat Semestrální práce ANOVA vypracoval: Ing. David Dušek

Více

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,

Více

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests) Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, např. hmotnost a pohlaví narozených dětí. Běžný statistický postup pro ověření závislosti dvou veličin je zamítnutí jejich

Více

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21

A 4 9 18 24 26 B 1 5 10 11 16 C 2 3 8 13 15 17 19 22 23 25 D 6 7 12 14 20 21 Příklad 1 Soutěž o nelepší akost výrobků obeslali čtyři výrobci A, B, C, D celkem 26 výrobky. Porota sestavila toto pořadí (uveden pouze původ výrobku od nelepšího k nehoršímu): Pořadí 1 2 3 4 5 6 7 8

Více

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi

Více

Regresní analýza 1. Regresní analýza

Regresní analýza 1. Regresní analýza Regresní analýza 1 1 Regresní funkce Regresní analýza Důležitou statistickou úlohou je hledání a zkoumání závislostí proměnných, jejichž hodnoty získáme při realizaci experimentů Vzhledem k jejich náhodnému

Více

S E M E S T R Á L N Í

S E M E S T R Á L N Í Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie S E M E S T R Á L N Í P R Á C E Licenční studium Statistické zpracování dat při managementu jakosti Předmět ANOVA analýza rozptylu

Více

Průzkumová analýza dat

Průzkumová analýza dat Průzkumová analýza dat Proč zkoumat data? Základ průzkumové analýzy dat položil John Tukey ve svém díle Exploratory Data Analysis (odtud zkratka EDA). Často se stává, že data, se kterými pracujeme, se

Více

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B TESTOVÁNÍ HYPOTÉZ Od statistického šetření neočekáváme pouze elementární informace o velikosti některých statistických ukazatelů. Používáme je i k ověřování našich očekávání o výsledcích nějakého procesu,

Více

STATISTICKÉ TESTY VÝZNAMNOSTI

STATISTICKÉ TESTY VÝZNAMNOSTI STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená

Více

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření 1.4 ANOVA Úloha 1 Jednofaktorová ANOVA Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření Bylo měřeno množství DNA hub Fusarium culmorum

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Testování statistických hypotéz

Testování statistických hypotéz Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,

Více

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

t-test, Studentův párový test Ing. Michael Rost, Ph.D. Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se

Více

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1 PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované

Více

Národníinformačnístředisko pro podporu jakosti

Národníinformačnístředisko pro podporu jakosti Národníinformačnístředisko pro podporu jakosti OVĚŘOVÁNÍ PŘEDPOKLADU NORMALITY Doc. Ing. Eva Jarošová, CSc. Ing. Jan Král Používané metody statistické testy: Chí-kvadrát test dobré shody Kolmogorov -Smirnov

Více

ANALÝZA ROZPTYLU (ANOVA)

ANALÝZA ROZPTYLU (ANOVA) ANALÝZA ROZPTYLU (ANOVA) 1 Vytvořeno s podporou projektu Průřezová inovace studijních programů Lesnické a dřevařské fakulty MENDELU v Brně (LDF) s ohledem na discipliny společného základu (reg. č. CZ.1.07/2.2.00/28.0021)

Více

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0. 11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15

Více

Plánování experimentu

Plánování experimentu Fakulta chemicko technologická Katedra analytické chemie licenční studium Management systému jakosti Autor: Ing. Radek Růčka Přednášející: Prof. Ing. Jiří Militký, CSc. 1. LEPTÁNÍ PLAZMOU 1.1 Zadání Proces

Více

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11. UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace

Více

Cvičení 9: Neparametrické úlohy o mediánech

Cvičení 9: Neparametrické úlohy o mediánech Cvičení 9: Neparametrické úlohy o mediánech Úkol 1.: Párový znaménkový test a párový Wilcoxonův test Při zjišťování kvality jedné složky půdy se používají dvě metody označené A a B. Výsledky: Vzorek 1

Více

KORELACE. Komentované řešení pomocí programu Statistica

KORELACE. Komentované řešení pomocí programu Statistica KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná

Více

2 ) 4, Φ 1 (1 0,005)

2 ) 4, Φ 1 (1 0,005) Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje

Více

6. T e s t o v á n í h y p o t é z

6. T e s t o v á n í h y p o t é z 6. T e s t o v á n í h y p o t é z Na základě hodnot z realizace náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Používáme k tomu vhodně

Více

Testy. Pavel Provinský. 19. listopadu 2013

Testy. Pavel Provinský. 19. listopadu 2013 Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování

Více

Pearsonův korelační koeficient

Pearsonův korelační koeficient I I.I Pearsonův korelační koeficient Úvod Předpokládejme, že náhodně vybereme n objektů (nebo osob) ze zkoumané populace. Často se stává, že na každém z objektů měříme ne pouze jednu, ale několik kvantitativních

Více

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru:

Maticí typu (m, n), kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: 3 Maticový počet 3.1 Zavedení pojmu matice Maticí typu (m, n, kde m, n jsou přirozená čísla, se rozumí soubor mn veličin a jk zapsaných do m řádků a n sloupců tvaru: a 11 a 12... a 1k... a 1n a 21 a 22...

Více

Základy počtu pravděpodobnosti a metod matematické statistiky

Základy počtu pravděpodobnosti a metod matematické statistiky Errata ke skriptu Základy počtu pravděpodobnosti a metod matematické statistiky K. Hron a P. Kunderová Autoři prosí čtenáře uvedeného studijního textu, aby případné další odhalené chyby nad rámec tohoto

Více

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost

Více

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz. Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení

Více

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon (1892 1965): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze

Více

Základní statistické metody v rizikovém inženýrství

Základní statistické metody v rizikovém inženýrství Základní statistické metody v rizikovém inženýrství Petr Misák Ústav stavebního zkušebnictví Fakulta stavební, VUT v Brně misak.p@fce.vutbr.cz Základní pojmy Jev souhrn skutečností zobrazujících ucelenou

Více

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný

Více

15. T e s t o v á n í h y p o t é z

15. T e s t o v á n í h y p o t é z 15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:

Více

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě

31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě 31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty

Více

Jednostranné intervaly spolehlivosti

Jednostranné intervaly spolehlivosti Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme

Více

Ing. Michael Rost, Ph.D.

Ing. Michael Rost, Ph.D. Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení

Více

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek

Více

Regresní a korelační analýza

Regresní a korelační analýza Regresní a korelační analýza Mějme dvojici proměnných, které spolu nějak souvisí. x je nezávisle (vysvětlující) proměnná y je závisle (vysvětlovaná) proměnná Chceme zjistit funkční závislost y = f(x).

Více

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie Statistické zpracování dat ANOVA Zdravotní ústav se sídlem v Ostravě Odbor hygienických laboratoří

Více

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D. Ing. Michal Dorda, Ph.D. 1 Př. 1: Cestující na vybraném spoji linky MHD byli dotazováni za účelem zjištění spokojenosti s kvalitou MHD. Legenda 1 Velmi spokojen Spokojen 3 Nespokojen 4 Velmi nespokojen

Více

INDUKTIVNÍ STATISTIKA

INDUKTIVNÍ STATISTIKA 10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ

Více

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) 5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) Cílem tématu je správné posouzení a výběr vhodného testu v závislosti na povaze metrické a kategoriální veličiny. V následující

Více

Zápočtová práce STATISTIKA I

Zápočtová práce STATISTIKA I Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru

Více

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal Základy navrhování průmyslových experimentů DOE II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal! Testování statistických hypotéz kvalitativní odezva kvantitativní chí-kvadrát test homogenity,

Více

ADDS cviceni. Pavlina Kuranova

ADDS cviceni. Pavlina Kuranova ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)

Více