Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Podobné dokumenty
Jednofaktorová analýza rozptylu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

BAKALÁRSKA PRACE. Analýza rozptylu. Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistická analýza jednorozměrných dat

KGG/STG Statistika pro geografy

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Úvod do analýzy rozptylu

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

7. Analýza rozptylu.

Testování statistických hypotéz

Jednofaktorová analýza rozptylu

= = 2368

Jana Vránová, 3. lékařská fakulta UK

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

12. cvičení z PST. 20. prosince 2017

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Vzorová prezentace do předmětu Statistika

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

PRAVDĚPODOBNOST A STATISTIKA

Přednáška IX. Analýza rozptylu (ANOVA)

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Charakteristika datového souboru

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

STATISTICA Téma 7. Testy na základě více než 2 výběrů

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Tomáš Karel LS 2012/2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Testy. Pavel Provinský. 19. listopadu 2013

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Základní statistické metody v rizikovém inženýrství

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Pravděpodobnost a aplikovaná statistika

15. T e s t o v á n í h y p o t é z

Regresní analýza. Eva Jarošová

ANALÝZA ROZPTYLU (ANOVA)

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Testy statistických hypotéz

Ing. Michael Rost, Ph.D.

Regresní analýza 1. Regresní analýza

STATISTICKÉ TESTY VÝZNAMNOSTI

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

5 Parametrické testy hypotéz

Plánování experimentu

Testování statistických hypotéz

Náhodné veličiny, náhodné chyby

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování statistických hypotéz. Obecný postup

15. T e s t o v á n í h y p o t é z

Cvičení ze statistiky - 8. Filip Děchtěrenko

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Testování hypotéz. 4. přednáška

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Zápočtová práce STATISTIKA I

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

2 ) 4, Φ 1 (1 0,005)

PRAVDĚPODOBNOST A STATISTIKA

4ST201 STATISTIKA CVIČENÍ Č. 7

Cvičení 9: Neparametrické úlohy o mediánech

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování statistických hypotéz

Jednostranné intervaly spolehlivosti

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

ADDS cviceni. Pavlina Kuranova

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

A B C D

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

KGG/STG Statistika pro geografy

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

S E M E S T R Á L N Í

Normální (Gaussovo) rozdělení

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

Normální (Gaussovo) rozdělení

Návrh a vyhodnocení experimentu

analýza kategoriáln lních dat Prof. RNDr. Jana Zvárová, DrSc. Záznam epidemiologických dat Epidemiologické ukazatele

Průzkumová analýza dat

Regresní a korelační analýza

Transkript:

Masarykova univerzita v Brně Přírodovědecká fakulta BAKALÁŘSKÁ PRÁCE Analýza rozptylu Vypracovala: Marika Dienová Vedoucí bakalářské práce: Mgr. Jan Koláček, Ph.D. Brno 2006/2007

Prohlášení Prohlašuji, že jsem svou bakalářskou práci napsala samostatně pod odborným vedením Mgr. Jana Koláčka, Ph.D. a výhradně s použitím citovaných pramenů. V Brně dne 23.května 2007 Marika Dienová 2

Poděkování Děkuji Mgr. Janu Koláčkovi, Ph.D. za odborné vedení bakalářské práce, cenné rady a připomínky, poskytnuté materiály a především čas, který mi věnoval. 3

Obsah Úvod 6 1 Jednofaktorová ANOVA 7 1.1 Označení............................... 7 1.2 Testování hypotézy o shodě středních hodnot........ 8 1.3 Mnohonásobné pozorování.................... 12 1.3.1 Bonferroniho metoda..................... 12 1.3.2 Scheffého metoda....................... 13 1.3.3 Tukeyova metoda....................... 13 1.4 Příklad 1............................... 14 2 Dvoufaktorová ANOVA 18 2.1 Označení............................... 18 2.2 Dvojité třídění bez interakcí................... 19 2.2.1 Testování hypotézy o shodě středních hodnot....... 19 2.2.2 Mnohonásobné pozorování.................. 22 2.3 Dvojité třídění s interakcemi.................. 22 2.3.1 Testování hypotézy o shodě středních hodnot....... 22 2.3.2 Mnohonásobné pozorování.................. 25 2.4 Příklad 2............................... 26 3 Výchozí situace 31 3.1 Předpoklady použití analýzy rozptylu............. 31 3.2 Test homogenity rozptylů.................... 31 3.2.1 Bartletův test......................... 31 3.2.2 Levenův test.......................... 32 3.2.3 Cochranův test........................ 32 3.3 Příklad 3............................... 33 4

Závěr 36 Literatura 37 5

Úvod Tato práce se zabývá problémem, zdali je možné více nezávislých výběrových souborů, které se řídí normálním rozložením se stejným rozptylem, považovat za realizaci jedné náhodné veličiny. Zkoumám tedy vliv jednoho nebo dvou faktorů na experiment při několikerém opakování pokusu s pevně nastavenými úrovněmi faktoru. Je třeba na hladině významnosti α testovat nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné, tedy H 0 : µ 1 =... = µ I. Na první pohled se zdá, že stačí vytvořit I(I 1)/2 dvojic a na každou z nich aplikovat dvouvýběrový t-test. Tento postup však není vhodný, protože nesplňuje podmínku, že pravděpodobnost chyby prvního druhu je α. Z tohoto důvodu se pro test hypotézy H 0 používají metody analýzy rozptylu (ANOVY), které udrží pravděpodobnost chyby prvního druhu na hladině α. Podstatou samotné ANOVY je rozložit variabilitu souboru dat na příspěvky, které pocházejí od změny úrovně faktoru a které jsou způsobené náhodnými chybami. Budu tedy testovat hypotézu H 0 a pokud dojde k zamítnutí, budu hledat výběry které se od sebe liší a řešit tedy strukturu nehomogenity středních hodnot. K tomuto účelu slouží metody mnohonásobného srovnávání. V první a druhé kapitole jsou uvedeny teoretické konstrukce ANOVY a metod mnohonásobného srovnávání. V poslední kapitole uvádím předpoklady ANOVY a metody používané k jejich testování. Tyto testy jsou odvozeny pro jednofaktorovou ANOVU a používá se při nich označení z předchozích kapitol, proto je uvádím až na závěr. Na konci všech kapitol je problematika demonstrována na konkrétních příkladech, které pracují s reálnými daty, získané z dávkování odpadů a tradičních paliv při procesu pálení cementu. K testování je použit software STATISTIKA. 6

Kapitola 1 Jednofaktorová ANOVA 1.1 Označení Při jednofaktorové analýze rozptylu zkoumáme vliv pouze jediného faktoru A na sledovaný výsledek. Definice 1.1.1. Necht máme nezávislé výběry z rozložení N(µ 1, σ 2 )...N(µ I, σ 2 ). Náhodný výběr z rozložení N(µ i, σ 2 ) označíme X i1...x ini Jeho rozsah je tedy n i N = I n i je celkový rozsah všech výběrů X i. = n i j=1 X.. = I X i. = I M i. = 1 n i X i. = 1 n i X ij je součet hodnot v i-té úrovni n i j=1 n i j=1 X ij je součet hodnot všech výběrů X ij je výběrový průměr v i-té úrovni M.. = 1 N X.. = 1 N I n i j=1 X ij je celkový průměr všech výběrů Situaci lze zachytit nejlépe v přehledné tabulce: 7

úroveň faktoru rozsah v úrovni zjištěné hodnoty suma v úrovni průměr v úrovni 1 n 1 X 11, X 12,..., X 1n1 X 1. M 1. 2 n 2 X 21, X 22,..., X 2n2 X 2. M 2................ I n I X I1, X I2,..., X InI X I. M I. celkový rozsah N = I n i celkový součet X.. = I celkový průměr X i. M.. = 1 N X.. Definice 1.1.2. Mají-li všechny výběry stejný rozsah, tedy n 1 =... = n I říkáme, že třídění je vyvážené. Pokud k tomu dojde, pak označíme rozsah výběru symbolem P. 1.2 Testování hypotézy o shodě středních hodnot Na hladině významnosti α testujeme nulovou hypotézu, která tvrdí, že všechny střední hodnoty jsou stejné oproti alternativní, která tvrdí, že alespoň jedna dvojice středních hodnot se od sebe signifikantně liší. H 0 : µ 1 =... = µ I H 1 : non H 0 Každé pozorování lze popsat následujícím modelem X ij = µ + α i + ε ij (1.2.1) kde µ je společná část střední hodnoty proměnné veličiny, α i je vliv faktoru A na úrovni i a ε ij je realizace náhodné chyby, což je realizace náhodné veličiny z rozložení N(0, σ 2 ). Kdyby nezáleželo na faktoru A, platila by hypotéza α 1 =... = α I = 0 a dostali bychom submodel: X ij = µ + ε ij (1.2.2) Střední hodnotu µ odhadneme hodnotou celkového průměru všech výběrů M.. a střední hodnotu při dané úrovni µ i = µ + α i odhadneme výběrovým průměrem 8

v i-té úrovni M i.. Tedy α i = M i. M... Realizaci náhodné chyby lze vyjádřit jako odchylku naměřené hodnoty od odhadu střední hodnoty pro danou úroveň faktoru, tedy ε ij = X ij M i. Po dosazení do modelu (1.2.1) dostáváme X ij = M.. + (M i. M.. ) + (X ij M i. ) Převedeme-li celkový průměr na levou stranu, obě strany rovnice umocníme na druhou a sečteme přes všechna i a j, dostaneme následující vztah I n i (X ij M.. ) 2 = j=1 I n i (M i. M.. ) 2 + I n i (X ij M i. ) 2 + 2 I n i (X ij M i. )(M i. M.. ) j=1 j=1 Lemma 1.2.1. Poslední člen je roven nule: Důkaz. 2 2 j=1 I n i (X ij M i. )(M i. M.. ) = 0 j=1 I n i (X ij M i. )(M i. M.. ) = 2 = 2( j=1 I n i X ij X ij n i j=1 j=1 I n i (X ij M i. X ij M.. Mi. 2 + M i. M.. ) I n i X ij X ij N + = 2(X.. X.. N X2.. N M 2.. + M 2..) = 0 j=1 I Mi. 2 I M i. M.. ) Definice 1.2.1. Zaved me následující součty čtverců: Celkový součet čtverců S T, který charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru S T = I n i (X ij M.. ) 2 j=1 Skupinový součet čtverců S A, který charakterizuje variabilitu mezi jednotlivými náhodnými výběry 9

S A = I n i (M i. M.. ) 2 Reziduální součet čtverců S E, který charakterizuje variabilitu uvnitř jednotlivých náhodných výběrů S E = I n i (X ij M i. ) 2 j=1 Lemma 1.2.2. Zjednodušeně lze tedy psát: S T = S A + S E Důkaz. Podrobné odvození vzorců a důkaz vztahů pro součty čtverců lze nalézt v knize Anděl[2]. Z tohoto lemmatu plyne, že celková variabilita hodnot se rozdělila na podíl způsobený faktorem A a podíl způsobený náhodnými chybami. Veličina S T má χ 2 rozložení s f T = (N 1) stupni volnosti, stejně jako veličina S A má χ 2 rozložení s f A = (I 1) stupni volnosti a veličina S E má také χ 2 rozložení s f E = (N R) stupni volnosti, viz [1]. Je patrné, že: f T = f A + f E Lemma 1.2.3. Pro praktické výpočty se doporučuje vyčíslit celkový součet čtverců a skupinový součet čtverců jako S T = I n i j=1 X 2 ij NM 2.. S A = I Reziduální součet čtverců se dopočítá z rozdílu S T S A. n i M 2 i. NM 2.. 10

Důkaz. S A = = = = S T = = I n i (M i. M.. ) 2 = I n i Mi. 2 2 I n i Mi. 2 2 I I I n i Mi. 2 2 n i 1 n i X i. X.. N + I n i X ij X ij N + j=1 n i M 2 i. 2NM 2.. + NM 2.. = I n i (X ij M.. ) 2 = j=1 I I n i M i. M.. + n i X 2.. N 2 I n i Xij 2 n i N 2 I j=1 I n i Xij 2 2 j=1 I n i Xij 2 2NM.. 2 + M.. 2 = j=1 n i M 2 i. NM 2.. j=1 j=1 I n i M 2.. I n i X ij X ij N + M.. 2 I n i Xij 2 NM.. 2 Proti testovací hypotéze svědčí případy, ve kterých se statistiky výrazně liší od M... Při vlastním provedení testujeme, zdali se liší rozptyl způsobený faktorem od rozptylu způsobeného náhodnými chybami (odtud vyplývá i název metody, analýza rozptylu). Nulová a alternativní hypotéza se pak formulují následovně H 0 : σ 2 A = σ 2 H 1 : σ 2 A σ 2 (1.2.3) Podíl, který je testovacím kritériem, má Fisher-Snedecorovo rozložení s (N 1) a (N I) stupni volnosti. F A = S A(N I) S E (I 1) = S Af E S E f A (1.2.4) Pokud překročí veličina F A kritickou hodnotu F 1 α (I 1, N I) zamítneme H 0 na hladině α. Definice 1.2.2. Hodnota S E N I se nazývá reziduální rozptyl. 11

Poznámka 1.2.1. Čím větší je hodnota S A fa, tím máme větší důvod si myslet, že mezi jednotlivými středními hodnotami existuje skutečný rozdíl. Čím větší bude hodnota S E fe, tím více máme důvod se domnívat, že rozdíly mezi jednotlivými výběry jsou způsobeny pouze náhodnými vlivy. Obecně lze říci, že čím větší je rozdíl mezi S A fa a S E fe, tím větší je pravděpodobnost zamítnutí H 0. Výpočty se shrnují v tabulce analýzy rozptylu Zdroj variability Součet čtverců skupiny S A f A = I 1 reziduální S E f E = N I stupeň volnosti podíl Testovací statistika Celkový S T f T = N 1 1.3 Mnohonásobné pozorování S A fa S E fe F A = S Af E S E f A Dojdeme-li analýzou rozptylu k zamítnutí nulové hypotézy, můžeme si položit otázku, které úrovně faktoru se od sebe statisticky významně liší. K těmto účelům slouží metody mnohonásobného srovnávání. V této kapitole se omezíme pouze na Bonferroniho, Scheffého a Tukeyovu metodu. Někdy se používají i jiné metody. 1.3.1 Bonferroniho metoda Tato metoda porovnává všechny možné dvojice průměrů, porovnává tedy I(I 1)/2 dvojic. Dvě střední hodnoty µ i., µ j. se pak liší na hladině α, když platí: M i. M j. t α (N I) m S E N I ( 1 n i + 1 n j ) (1.3.1) kde t α (N I) je kvantil Studentova rozdělení a m možných pozorování, tedy m = I(I 1)/2. m představuje počet všech Poznámka 1.3.1. Pokud je některý výběr zvolen jako kontrolní, pak v Bonferroniho metodě volíme m = (I 1) a zajímáme se pouze o dvojice průměr i-té skupiny a referenční průměr. 12

1.3.2 Scheffého metoda Tato metoda je v praxi preferovaná. Velkou výhodou Scheffého metody je její obecnost, avšak má o něco menší citlivost než některé jiné metody, protože zpravidla nevyužívá celou pravděpodobnost chyby prvního druhu α. Rovnost středních hodnot µ i., µ j. zamítneme na hladině α, když platí: M i. M j. ( 1 n i + 1 n j ) SE N I (I 1)F 1 α(i 1, N I) (1.3.2) kde F 1 α (I 1, N I) je kvantil Fisher-Snedecorova rozložení. 1.3.3 Tukeyova metoda Tukeyova metoda se používá pro případ vyvážených třídění, existuje však i její modifikace pro případ nevyváženého třídění, která se často označuje jako Tukey HSD. Tato metoda není sice tak obecná jako Scheffého metoda, ale je o něco citlivější, protože pravděpodobnost chyby prvního druhu je rovna α. Rovnost středních hodnot µ i., µ j. zamítneme na hladině α, když platí následující nerovnice: 1. 2. S E M i. M j. P (P I) q 1 α(i, P I) (1.3.3) pro případ vyváženého třídění P = N ( S E 1 M i. M j. > + 1 2(N I) n i n j modifikace Tukeyova testu pro případ nevyváženého třídění ) q 1 α (I, N I) (1.3.4) kde q 1 α (I, N I) je kvantil studentizovaného rozpětí. Poznámka 1.3.2. Tukeyovu metodu je výhodnější použít, když platí q 1 α (I, N I) < 2(I 1)F 1 α (I 1, N I). Protože je tato nerovnost nezávislá na X ij, můžeme si mezi jednotlivými metodami vybírat. 13

1.4 Příklad 1 Máme naměřené výhřevnosti (v MJ/kg) čtyř druhů odpadů, které se dodají na spálení do cementárny: Oleje (eto), uhelný prach (Kormul), drcený odpad (TTS) a masokostní moučka (MKM). Hodnoty jsou měřené laboratorně, vždy na začátku měsíce. Tyto hodnoty ještě pro názornost budu porovnávat s naměřenými hodnotami výhřevnosti uhlí. Na hladině významnosti α = 0, 05 testujeme hypotézu, že rozdíly v naměřených výhřevnostech paliv jsou způsobeny pouze náhodnými vlivy. Výsledky máme uvedené v tabulce: odpady výhřevnosti uhlí 30, 61 30, 05 30, 84 30, 51 30, 96 31, 58 eto 25, 18 24, 22 26, 13 kormul 26, 14 24, 86 27, 36 27, 85 25, 87 26, 13 27, 91 25, 71 27, 00 TTS 19, 79 18, 9 19, 77 19, 12 17, 48 18, 5 16, 6 18 MKM 18, 35 18, 11 18, 7 19, 1 18, 64 17, 95 Řešení Data považujeme za realizace pěti náhodných výběrů z normálních rozložení se stejným rozptylem. Důkaz bude proveden v poslední kapitole. Intervaly spolehlivosti Vypočteme nejprve intervaly spolehlivosti pro střední hodnotu v každém z pěti paliv (I = 5). 14

odpady rozsah N I součet X I. průměr M I. Interval spolehlivosti uhlí 6 184, 55 30, 758 (30, 222; 31, 294) eto 3 75, 53 25, 177 (22, 804; 27, 549) kormul 10 264, 82 26, 482 (25, 764; 27, 199) TTS 8 148, 16 18, 520 (17, 587; 19, 453) MKM 6 110, 85 18, 475 (18, 032; 18, 918) celkový 33 783, 90 23, 755 (22, 001; 25, 509) Intervaly spolehlivosti ještě zobrazíme graficky: Vidíme, že některé intervaly spolehlivosti se vůbec nepřekrývají, jejich střední hodnoty jsou tedy navzájem různé a nulová hypotéza H 0 : µ 1 =... = µ I bude následujícím testem zamítnuta. Analýza rozptylu Nyní provedeme analýzu rozptylu: 15

Zdroj variability Součet čtverců stupeň volnosti podíl Testovací statistika skupiny S A = 761, 152 f A = 4 190, 288 F A = 244, 414 reziduální S E = 21, 799 f E = 28 0, 779 Celkový S T = 782, 951 f T = 32 Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (4, 28) = 2, 71, což je menší než F A = 244, 414, a proto zamítáme H 0. Mezi jednotlivými palivy jsou významné rozdíly. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice paliv se od sebe liší. V tomto příkladě provedeme Scheffého test (podle vzorce 1.3.2) a Tukeyův test (podle vzorce 1.3.4). Z těchto dvou metod je citlivější Tukeyův test, protože q 0,95 (5, 28) < 8 F 0,95 (4, 28). Tabulka metod mnohonásobného pozorování: srovnávaná paliva rozdíl M i. M j. pravá strana pravá strana Scheffého testu Tukeyova testu uhlí a eto 5, 581 2, 054 1, 24 uhlí a kormul 4, 276 1, 500 1, 24 uhlí a TTS 12, 238 1, 569 1, 30 uhlí a MKM 12, 283 1, 677 1, 39 eto a kormul 1, 305 1, 912 1, 59 eto a TTS 6, 657 1, 967 1, 63 eto a MKM 6, 702 2, 054 1, 70 kormul a TTS 7, 962 1, 378 1, 14 kormul a MKM 8, 006 1, 500 1, 24 TTS a MKM 0, 045 1, 569 1, 30 Obě metody se shodují a vidíme, že se na hladině významnosti 0, 05 neliší pouze eto s kormulem a TTS s MKM. 16

Závěr Z výsledků, ke kterým jsme dospěli vyplývá, že je nejlepší dávkovat pouze uhlí. Uhlí je však také velice drahé, a tak cementárna dávkuje kolem 30% alternativních paliv. Z alternativních paliv má nejlepší výhřevnost olej a kormul, bohužel je z těchto odpadů také nejnižší zisk. Z ekonomického hlediska je pro cementárnu výhodné dávkovat drcený odpad a masokostní moučku. Tyto dva odpady však zanáší pec, kterou je z tohoto důvodu potřeba na nějaký čas vždy odstavit a vyčistit. Když ovšem pec nepálí cement, dochází k ohromným finančním ztrátám. Stanovení ideálního poměru pro dávkování je tak značně složité a určuje se především podle situace ve, které je pec. 17

Kapitola 2 Dvoufaktorová ANOVA 2.1 Označení Při dvoufaktorové analýze rozptylu zkoumáme vliv dvou faktorů (A na I úrovních a B na J úrovních) na sledovaný výsledek. V této kapitole se omezím pouze na vyvážená třídění, tedy na případy, kdy je počet pozorování n ij pro všechny dvojice (i, j) stejný a je roven P 1. Případ nestejného počtu pozorování lze vyřešit bud vypuštěním přesahujících hodnot, nebo tzv. neváženou analýzou rozptylu, kterou se zde nebudeme zabývat. Definice 2.1.1. Necht máme n ij nezávislých pozorování z normálního rozložení s konstantním rozptylem. Máme tedy n ij pokusů, jejichž výsledky označíme X ij1,..., X ijp N = IJP je celkový rozsah veličin X ijp X ij. = P X ijp je součet hodnot v i-té a j-té úrovni p=1 X i.. = J X... = I j=1 p=1 P X ijp je součet hodnot v i-té úrovni J j=1 p=1 P X ijp je celkový součet hodnot M ij. = X ij. P je výběrový průměr v i-té a j-té úrovni M i.. = X i.. JP je výběrový průměr v i-té úrovni 18

M... = X... N je celkový výběrový průměr Situace zachycená ve faktorové tabulce pro P = 2, n = 12 faktory A a B B 1 B 2 B 3 sloupcové průměry x 111 x 121 x 131 X 1.. A 1 x 112 x 122 x 132 M 1.. X 11. X 12. X 13. průměry M 11. M 12. M 13. x 211 x 221 x 231 X 2.. A 2 x 212 x 222 x 232 M 2.. X 21. X 22. X 23. průměry M 21. M 22. M 23. X.1. X.2. X.3. X... řádkové průměry M.1. M.2. M.3. M... 2.2 Dvojité třídění bez interakcí 2.2.1 Testování hypotézy o shodě středních hodnot Dvourozměrná ANOVA bez interakcí bude provedena ve dvou krocích. V prvním kroku testujeme vliv faktoru A, kterému odpovídají řádky faktorové tabulky. V druhém kroku testujeme vliv faktoru B, kterému odpovídají sloupce faktorové tabulky. Náhodné veličiny X ijp se řídí následujícím modelem X ijp = µ + α i + β j + ε ijp (2.2.1) pro i = 1,..., I; j = 1,..., J; p = 1,..., P, kde µ je společná část střední hodnoty proměnné veličiny, α i je vliv faktoru A na úrovni i, tzv. řádkové efekty, β j je vliv faktoru B na úrovni j, tzv. sloupcové efekty, a ε ijp je realizace náhodné chyby, což jsou nezávislé náhodné veličiny z rozložení N(0, σ 2 ). Kdyby nezáleželo na faktoru A, platila by hypotéza α 1 =... = α I = 0 a dostali bychom submodel: X ijp = µ + β j + ε ijp (2.2.2) 19

Ten odpovídá jednoduchému třídění, kde je počet pozorování v každé úrovni roven IP. Dále pokračujeme metodou jednofaktorové ANOVY. Jestliže v submodelu 2.2.2 položíme β 1 =... = β J = 0, dostaneme další submodel: X ijp = µ + ε ijp (2.2.3) Definice 2.2.1. Zaved me následující součty čtverců: Celkový součet čtverců S T, který charakterizuje variabilitu jednotlivých pozorování kolem celkového průměru S T = I J P j=1 p=1 x 2 ijp NM 2... Řádkový součet čtverců S A, který charakterizuje variabilitu mezi jednotlivými řádky tabulky S A = JP I M 2 i.. NM 2... Sloupcový součet čtverců S B, který charakterizuje variabilitu mezi jednotlivými sloupci tabulky S B = IP J j=1 M 2.j. NM 2... Reziduální součet čtverců S E, který charakterizuje variabilitu uvnitř jednotlivých náhodných výběrů S E = I J j=1 p=1 Lemma 2.2.1. Zjednodušeně lze tedy psát: P x 2 ijp P I S E = S T S A S B J Mij. 2 j=1 Důkaz. Podrobné odvození vzorců a důkaz vztahů pro součty čtverců lze nalézt v knize Anděl[2]. 20

Celková variabilita se nám rozdělila na podíl způsobený faktorem A, podíl způsobený faktorem B a podíl způsobený náhodnými chybami. Opět platí, že jednotlivé součty čtverců mají χ 2 rozložení a to S T má s f T = (N 1) stupni volnosti, S A s f A = (I 1) stupni volnosti, S B s f B = (J 1) stupni volnosti a S E s f E = (N I J + 1) stupni volnosti,viz [1]. Platí: f T = f A + f B + f E Platnost modelu 2.2.2, a tedy testování hypotézy H 0 : σ 2 A = σ2 oproti H 1 : σ 2 A σ 2, ověřujeme pomocí veličiny: F A = S A(N I J + 1) S E (I 1) = S Af E S E f A (2.2.4) která má za platnosti 2.2.2 Fisher-Snedecorovo rozložení s (I 1) a (N I J +1) stupni volnosti. Rozdíl mezi 2.2.2 a 2.2.3, a tedy testování hypotézy H 0 : σb 2 = σ2 oproti H 1 : σb 2 σ2, ověřujeme pomocí veličiny: F B = S B(N I J + 1) S E (J 1) = S Bf E S E f B (2.2.5) která má za platnosti 2.2.3 Fisher-Snedecorovo rozložení s (J 1) a (N I J +1) stupni volnosti. Poznámka 2.2.1. Submodel 2.2.2 odpovídá situaci, kdy testujeme rovnost řádkových efektů a zároveň přihlížíme k eventuálním sloupcovým efektům. Naproti tomu, při testování rovnosti sloupcových efektů pomocí F B, se nebere v úvahu případný vliv řádků. Nyní bychom tedy mohli provádět stejné úvahy, ale v opačném pořadí. Nejprve bychom testovali variabilitu mezi sloupci a pak teprve variabilitu mezi řádky. To však není nutné, protože bychom dostali shodné výsledky, což je důsledkem předpokladu o vyváženém třídění. Výpočty shrnuté v tabulce analýzy rozptylu: Zdroj variability Součet čtverců řádky S A f A = I 1 sloupce S B f B = J 1 reziduální S E f E = N I J + 1 stupeň volnosti podíl Testovací statistika Celkový S T f T = N 1 21 S A fa S B fb S E fe F A = S Af E S E f A F B = S Bf E S E f B

2.2.2 Mnohonásobné pozorování Jestliže zjistíme významný rozdíl mezi řádky, obvykle nás zajímá, které dvojice řádků se od sebe významně liší, stejně tak i pro sloupce. Zde uvedeme obdobné vzorce jako v první kapitole, omezíme se však pouze na Scheffého metodu a Tukeyovu metodu. Z těchto dvou metod si pak vždy vybereme tu, která je citlivější. Na hladině významnosti α tedy testujeme hypotézu H 0 : α i = α t (respektive H 0 : β j = β t ). Scheffého metoda 1. Rovnost α i = α t zamítneme, jestliže platí 2(I 1)S E M i.. M t.. > JP (N I J + 1) F 1 α(i 1, N I J + 1) (2.2.6) 2. Rovnost β j = β t zamítneme, jestliže platí 2(J 1)S E M.j. M.t. > IP (N I J + 1) F 1 α(j 1, N I J + 1) (2.2.7) Tukeyova metoda 1. Rovnost α i = α t zamítneme, jestliže platí S E M i.. M t.. > JP (N I J + 1) q 1 α(i, N I J + 1) (2.2.8) 2. Rovnost β j = β t zamítneme, jestliže platí S E M.j. M.t. > IP (N I J + 1) q 1 α(j, N I J + 1) (2.2.9) 2.3 Dvojité třídění s interakcemi 2.3.1 Testování hypotézy o shodě středních hodnot V dvourozměrné ANOVĚ se často stává, že faktory A a B se vzájemně ovlivňují. Z tohoto důvodu se provádí ANOVA ve třech krocích. V prvním kroku testujeme 22

vliv faktoru A, kterému odpovídají řádky faktorové tabulky, v druhém kroku testujeme vliv faktoru B, kterému odpovídají sloupce faktorové tabulky a ve třetím kroku řešíme interakce obou proměnných. V následující kapitole se předpokládá, že P 2. Náhodné veličiny X ijp se řídí následujícím realističtějším modelem X ijp = µ + α i + β j + λ ij + ε ijp (2.3.1) pro i = 1,..., I; j = 1,..., J; p = 1,..., P, kde µ je společná část střední hodnoty proměnné veličiny, α i jsou řádkové efekty, β j jsou sloupcové efekty, λ ij jsou interakce a ε ijp je realizace náhodné chyby, což jsou nezávislé náhodné veličiny z rozložení N(0, σ 2 ). Kdyby interakce mezi faktorem A a B byly bezvýznamné, platila by hypotéza λ ij = 0 pro všechna i = 1,..., I; j = 1,..., J a dostali bychom submodel X ijp = µ + α i + β j + ε ijp (2.3.2) Dále postupujeme jako v případě dvoufaktorové ANOVY bez interakcí. Testujeme tedy postupně α 1 =... = α I = 0 a β 1 =... = β J = 0. Dostaneme postupně submodely X ijp = µ + β j + ε ijp (2.3.3) X ijp = µ + ε ijp (2.3.4) Poznámka 2.3.1. I v tomto případě nezáleží na tom v jakém pořadí klademe rovny nule parametry λ ij, α i, β j, je to důsledek vyváženého třídění. Interakce je součástí variability mezi různými skupinami měření, je tedy součástí vnějšího rozptylu, proto budou platit následující vzorce: S AB = S T S A S B S E f AB = f T f A f B f E kde S AB je součet čtverců interakce, který má χ 2 rozložení s f AB = (I 1)(J 1) stupni volnosti. Platnost modelu 2.3.2, a tedy testování hypotézy H 0 : σ 2 AB = σ2 oproti H 1 : σ 2 AB σ2, ověřujeme pomocí veličiny: F AB = S AB(N IJ) S E (I 1)(J 1) = S ABf E S E f AB (2.3.5) 23

která má za platnosti 2.3.2 Fisher-Snedecorovo rozložení s (IJ I J + 1) a (N IJ) stupni volnosti. Pojem interakce má také svá úskalí: Je nutná opatrnost při interpretaci rozdílu mezi řádkovými, resp. sloupcovými efekty. Může se stát, že některé interakce jsou mnohem výraznější než příslušné řádkové či sloupcové efekty, takže interpretace získaných výsledků může být nesprávná. Někdy volba hodnoty závislé proměnné není jednoznačná, proto není jednoznačná ani hodnota interakce. (Studujeme například kvalitu slepic. Tuto proměnnou můžeme měřit vahou slepice, počtem snesených vajec nebo logaritmem snesených vajec atd) Vhodnou transformací závislé proměnné lze někdy interakce odstranit. Některé případy slabé interakce lze převést na případy bez interakce, proto nemá moc smysl tvrdit, že interakce existuje nebo neexistuje. To ovšem vůbec neznamená, že nemá smysl interakce studovat, mnohdy lze naopak interakce jednoznačně prokázat. Výpočty shrnuté v tabulce analýzy rozptylu: Zdroj variability Součet čtverců řádky S A f A = I 1 sloupce S B f B = J 1 interakce S AB f AB = (I 1)(J 1) reziduální S E f E = N IJ stupeň volnosti podíl Testovací statistika S A fa S B fb S AB f AB S E fe Celkový S T f T = N 1 F A = S Af E S E f A F B = S Bf E S E f B F AB = S ABf E S E f AB Poznámka 2.3.2. Je vhodné si všimnout, že součet S E + S AB, resp. f E + f AB dá hodnotu S E, resp. f E v tabulce bez interakcí. Model s interakcemi tedy vznikl rozštěpením reziduálního řádku v tabulce analýzy rozptylu dvojitého třídění bez interakcí. Poznámka 2.3.3. Z tabulky analýzy rozptylu je také zřejmé, že předpoklad P 2 byl nutný, protože případ P = 1 dává nepřijatelný výsledek f e = 0. Velmi často se 24

však v praxi stává, že v dvojitém třídění máme pouze jedno pozorování v každé podtřídě, ale přesto je nutné počítat s přítomností interakcí. V tomto případě položíme S AB = [ I IJ S A S B J j=1 přičemž pro počet stupňů volnosti platí: ] 2 Xij(M i. M.. )(M.j M.. ) S E = S T S A S B S AB f AB = 1 f E = (I 1)(J 1) 1 2.3.2 Mnohonásobné pozorování Na hladině významnosti α testujeme hypotézu H 0 : α i = α t (respektive H 0 : β j = β t ). I zde se omezím pouze na Scheffého metodu a Tukeyovu metodu, z kterých si vybereme tu citlivější. Scheffého metoda 1. Rovnost α i = α t zamítneme, jestliže platí 2(I 1)S E M i.. M t.. > JP (N IJ) F 1 α(i 1, N IJ) (2.3.6) 2. Rovnost β j = β t zamítneme, jestliže platí 2(J 1)S E M.j. M.t. > IP (N IJ) F 1 α(j 1, N IJ) (2.3.7) Tukeyova metoda 1. Rovnost α i = α t zamítneme, jestliže platí S E M i.. M t.. > JP (N IJ) q 1 α(i, N IJ) (2.3.8) 2. Rovnost β j = β t zamítneme, jestliže platí S E M.j. M.t. > IP (N IJ) q 1 α(j, N IJ) (2.3.9) 25

2.4 Příklad 2 První zadání V tomto příkladě se zaměříme pouze na jeden druh odpadu a to emulzní topné oleje (eto). Zkoumat budeme vliv dvou proměnných. První proměnnou je místo odebrání vzorků k analýze výhřevnosti, druhou proměnnou je dodavatel. Máme tedy laboratorně naměřené výhřevnosti od tří dodavatelů (označíme je A,B,C) vždy těsně po dodání odpadů a v cementárně před spalováním (po dodání, před spálením). Situace je zachycena v následující tabulce: Řešení faktory dodavatel/místo A B C 36, 33 38, 46 38, 43 po dodání 36, 8 37, 65 38, 56 37, 28 38, 36 38, 62 10, 44 26 20, 11 před spálením 18, 66 25, 18 35, 82 15, 96 24, 22 26, 13 Při řešení příkladu bychom mohli provést dva oddělené experimenty jednofaktorové analýzy rozptylu. V jednom experimentu zkoumat vliv prvního faktoru (dodavatel) v různých podmínkách (měřeno po dodání a měřeno před spálením). V druhém experimentu zkoumat vliv druhého faktoru (místo odebrání vzorků) za třech podmínek (vzorky od dodavatele A,B,C). Mnohem lepší ale je zkoumat oba vlivy dohromady ve dvoufaktorové analýze rozptylu, protože při tom můžeme studovat interakci (tedy vzájemný vliv faktorů). 26

Analýza rozptylu Tabulka analýzy rozptylu: Zdroj variability Součet čtverců stupeň volnosti podíl Testovací statistika místo S A = 1057, 54 f A = 1 1057, 54 F A = 77, 76 dodavatel S B = 168, 06 f B = 2 84, 03 F B = 6, 178 interakce S AB = 96, 24 f AB = 2 48, 12 F AB = 3, 538 reziduální S E = 163, 20 f E = 12 13, 60 Celkový S T = 1485, 04 f T = 17 Vliv prvního faktoru (místo odebrání vzorků): Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (1, 12) = 4, 75, což je menší než F A = 77, 76, a proto zamítáme H 0. Výhřevnost oleje tedy ovlivňuje místo odebrání vzorků. Vliv druhého faktoru (dodavatel): Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (2, 12) = 3, 9, což je menší než F B = 6, 178, a proto zamítáme H 0. Vliv dodavatele na výhřevnost je statisticky významný. Vliv interakcí mezi faktory: Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (2, 12) = 3, 9, což je větší než F AB = 3, 54. To znamená, že vliv interakce mezi faktory na výhřevnost není statisticky významná. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice dodavatelů se od sebe liší. V tomto příkladě použijeme Scheffého test. Rovnost β j = β t zamítneme, jestliže platí: 2(J 1)S E M.j. M.t. > IP (N IJ) F 1 α(j 1, N IJ) 27

srovnávaní dodavatelé rozdíl M.j. M.t. pravá strana A a B 5, 73 5, 95 A a C 7, 03 5, 95 B a C 1, 3 5, 95 Vidíme, že se na hladině 0,05 liší pouze dodavatelé A a C. Druhé zadání Formulujme nyní problém jinak. Opět budeme zkoumat vliv dvou faktorů (dodavatel a místo odebrání vzorků) na oleje. Oleje však nyní budou vyjádřeny cenou (v CZK), kterou platí cementárna za jeden GJ energie. Situace nyní vypadá následovně: Řešení Analýza rozptylu Tabulka analýzy rozptylu: faktory dodavatel/místo A B C 66, 91 62, 45 62, 9 po dodání 67, 25 64, 84 63, 53 64, 87 64, 02 49, 9 232, 85 92, 38 120, 2 před spálením 132, 63 96, 95 68, 39 151, 53 101, 4 73, 76 28

Zdroj variability Součet čtverců stupeň volnosti podíl Testovací statistika místo S A = 14079, 5 f A = 1 14079, 5 F A = 22, 65 dodavatel S B = 7420, 3 f B = 2 3710, 1 F B = 5, 968 interakce S AB = 5653 f AB = 2 2826, 5 F AB = 4, 547 reziduální S E = 7460 f E = 12 621, 7 Celkový S T = 34612, 8 f T = 17 Vliv prvního faktoru (místo odebrání vzorků): Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (1, 12) = 4, 75, což je menší než F A = 22, 65, a proto zamítáme H 0. Cenu za olej tedy ovlivňuje místo odebrání vzorků. Vliv druhého faktoru (dodavatel): Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (2, 12) = 3, 9, což je menší než F B = 5, 968, a proto zamítáme H 0. Vliv dodavatele na cenu je statisticky významný. Vliv interakcí mezi faktory: Kritickou hodnotu F-rozdělení zjistíme z tabulek F 1 0,05 (2, 12) = 3, 9, což je menší než F AB = 4, 547. To znamená, že vliv interakce mezi faktory na cenu je statisticky významný. Mnohonásobná pozorování Nyní by nás zajímalo, které dvojice dodavatelů se od sebe liší. I v tomto příkladě použijeme Scheffého test. Rovnost β j = β t zamítneme, jestliže platí: M.j. M.t. > 2(J 1)S E IP (N IJ) F 1 α(j 1, N IJ) srovnávaní dodavatelé rozdíl M.j. M.t. pravá strana A a B 78 40, 2 A a C 91, 44 40, 2 B a C 14, 44 40, 2 Vidíme, že se na hladině 0,05 liší dodavatelé A a B, dále A a C. 29

Závěr Z tohoto příkladu je zřejmé, že případ se slabou interakcí lze převést na příklad bez interakcí, stačí jen na místo ceny za GJ uvažovat výhřevnost. Při pohledu na naměřené hodnoty se můžeme ptát, jak je možné, že mezi hodnotami naměřenými po dodání a před spálením jsou tak značné rozdíly. Tento problém vznikl v cementárně během minulého roku a byl způsobený špatným skladováním. V zásobnících na skladování oleje bylo prasklé potrubí, tímto potrubím se oleje ohřívají, aby bylo možné olej čerpat. Do zásobníku takto tekla voda, a tak výsledné výhřevnosti byly mnohem menší a samozdřejmě i cena, kterou musela zaplatit cementárna za GJ energie byla vyšší. Z ceny za GJ energie po dodání už není tak těžké dopočítat, jaká ztráta vznikla během roku v důsledku špatného skladování. 30

Kapitola 3 Výchozí situace 3.1 Předpoklady použití analýzy rozptylu Nezávislost jednotlivých výběrů Normalita. Mírné porušení normality nevadí, při výraznějším porušení se používá Kruskalův-Wallisův test, viz [1]. Shoda rozptylů. Tento předpoklad se dá testovat, používá se k tomu Bartletův test, Levenův test či Cochranův test. 3.2 Test homogenity rozptylů Před provedením analýzy rozptylu je zapotřebí ověřit předpoklad o shodě rozptylů v daných I výběrech. Mírné porušení ANOVĚ nevadí, při větším je zapotřebí použít Kruskalův-Wallisův test. Testuji tedy hypotézu 3.2.1 Bartletův test H 0 : σ 2 1 =... = σ 2 I H 1 : non H 0 (3.2.1) Bartletův test lze využít k hodnocení shodnosti rozptylů u vyvážených i nevyvážených souborů. Testovaným kritériem je veličina B, která je definovaná jako B = 1 C [(N I) ln s2 I (n i 1) ln s 2 i ] (3.2.2) 31

kde C = 1 + ( s 2 i = 1 ni ) (X ij M i. ) 2 n i 1 ( I j=1 s 2 = 1 N I (3.2.3) I (n i 1)s 2 i (3.2.4) 1 n i 1 1 N I ) 1 3(I 1) (3.2.5) Je-li n i > 6, pak má B za platnosti H 0 přibližně χ 2 I 1 rozdělení. Testovací hypotézu zamítneme, pokud B χ 2 1 α(i 1). Bartletův test lze využít k hodnocení shodnosti rozptylů u vyvážených i nevyvážených souborů. Tento test je však poměrně slabý a dost citlivý na porušení normality, obzvláště u souborů s malým počtem pozorování. 3.2.2 Levenův test Dnes se používá nejčastěji. Vytvoří se I skupin náhodných veličin, a to Z ij = X ij M i., na těchto skupinách se provádí jednofaktorová analýza rozptylu. Tento test je však pouze aproximativní, protože nejsou splněny předpoklady Anovy, je tomu tak proto, že veličiny Z ij nejsou nezávislé a absolutní hodnoty těchto veličin nemají normální rozdělení. V jistých případech je možné Levenův test modifikovat, lze například místo M i. využít mediánu. 3.2.3 Cochranův test Testovaným kritériem je veličina C, která je definovaná jako C = s 2 max s 2 1 +... + s 2 I (3.2.6) s 2 i = 1 n i 1 n i j=1 (X ij M i. ) 2 (3.2.7) s 2 max = max{s 2 1,..., s 2 I} (3.2.8) Testovací hypotézu zamítneme, pokud C překročí kritickou hodnotu Cochranovy statistiky. Tedy C C 1 α (I, N 1). 32

3.3 Příklad 3 Pro data z příkladu 1 ověřte předpoklady použití analýzy rozptylu. Řešení Ověření normality V statistice je implementován test normality, který provedeme postupně pro všech pět výběrů. Zde provedeme Shapirův-Wilkův test normality, který je založen na ověření, zda body v Q-Q plotu jsou významně odlišné od regresní přímky proložené těmito body, viz [3]. Q-Q plot je graf, který umožňuje posoudit, zda data pocházejí z normálního rozložení. Test normality pro uhlí: Proměnná N W P výhřevnost 6 0, 97 0, 892 Test normality pro eto: Proměnná N W P výhřevnost 3 1, 00 0, 994 Test normality pro TTS: Proměnná N W P výhřevnost 8 0, 947 0, 680 Test normality pro kormul: Proměnná N W P výhřevnost 10 0, 929 0, 436 Test normality pro MKM: Proměnná N W P výhřevnost 6 0, 970 0, 892 33

V tabulkách jsou uvedeny testovací statistiky (W ) pro Shapirův-Wilkův a jím odpovídající p-hodnoty. P-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace náhodného výběru podporují H 0, je-li pravdivá. U všech výběrů je vypočtená p-hodnota větší než α = 0, 05, H 0 tedy nezamítáme. Všechny výběry se řídí normálním rozložením. Sestrojíme normální pravděpodobnostní grafy, které umožňují graficky posoudit, zda data pocházejí z normálního rozložení: Vidíme, že body leží přibližně na přímce, normalita dat je tedy narušena jen mírně. Data můžeme nadále považovat za normální. Test homogenity rozptylů Testujeme hypotézu: Nejprve provedeme Bartletův test: H 0 : σ 2 1 =... = σ 2 I H 1 : non H 0 B = 1 [(N I) ln C s2 I (n i 1) ln s 2 i ] ( ) s 2 i = 1 n i n i (X 1 ij M i. ) 2 j=1 34

s 2 = 1 ( I C = 1 + N I I (n i 1)s 2 i ) 1 1 n i 1 N I s 2 C B 3, 89 1, 84 16, 69 1 3(I 1) Hypotézu bychom měli zamítnout, protože B > 9.488, avšak nesplnili jsme předpoklady Bartletova testu (n i 6) a jeho použití v našem příkladě je značně nevhodné. Na ověření hypotézy se nejlépe hodí Levenův test. Tento test je také implementován ve Statistice. Výpočet hodnot Z ij = X ij M i. zde nebudeme provádět a přejděme přímo k tabulce analýzy rozptylu: Součet čtverců vol- stupeň nosti Zdroj variability podíl Testovací statistika skupiny S A = 1, 824 f A = 4 σ 2 A = 0, 456 F A = 2, 166 reziduální S E = 5, 896 f E = 28 σ 2 = 0, 211 Celkový S T = 7, 721 f T = 32 Kritická hodnota je F 1 0,05 (4, 28) = 2, 71, což je větší než F A = 2, 166, a proto hypotézu H 0 nezamítáme. Závěr Nejprve jsme testovali normalitu dat, kterou Shapirův-Wilkův test nezamítl. Při testu homogenity rozptylů sice došlo k zamítnutí Bartletovým testem, nicméně silnější Levenův test ukázal, že můžeme rozptyly považovat za shodné. Předpoklady analýzy rozptylu jsou tedy splněny. 35

Závěr Cílem této práce bylo přiblížit čtenáři princip jednofaktorové a dvoufaktorové analýzy rozptylu, včetně metod mnohonásobného pozorování. V každé kapitole je na začátku podán výklad statistických metod, které jsou v závěru kapitol aplikovány na příkladech z odpadového hospodářství. V první kapitole je věnována pozornost jednofaktorové analýze rozptylu, v příkladu jsou porovnávány výhřevnosti alternativních paliv a studovány rozdíly mezi jednotlivými palivy. Druhá kapitola se věnuje dvoufaktorové analýze rozptylu, v jejím závěru se studuje variabilita naměřených hodnot emulzních topných olejů, které jsou nejdříve vyjádřeny výhřevností a později cenou za GJ energie. V třetí kapitole jsou uvedeny předpoklady použití analýzy rozptylu a testovány pro první příklad. 36

Literatura [1] Anděl Jiří Základy matematické statistiky, 1. vydání. Praha, MATFY- ZPRESS, 2005. [2] Anděl Jiří Matematická statistika, 2. vyd. Praha, SNTL - Nakladatelství technické literatury, 1985 [3] Budíková Marie - Lerch Tomáš - Mikoláš Štěpán Základní statistické metody, 1. vyd. Brno, Masarykova univerzita, 2005. 37