Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 1
Kapitola 5.1 ANALÝZA ROZPTYLU ANOVA 2
Analýza rozptylu ANOVA K posouzení významnosti zdrojů variability v datech: 1. vliv přípravy na výsledek (analýzy), 2. vliv přístroje, člověka, experimentu na výsledek, 3. vliv laboratoří na výsledek analýz, 4. vyhodnocování plánovaných experimentů, 5. vliv faktorů A, B, C, (například teploty, času, koncentrace) na výsledek (analýzy). 3
Analýza rozptylu ANOVA rozptyl = složka objasněná + složka neobjasněná (známé zdroje variability) (náhodné chyby) Faktor A je na jistých úrovních A 1, A 2, A 3 Zdrojem variability měření y ij jsou úrovně A 1, A 2, A 3 y ij = μ i + ε ij μ i je skutečná hodnota a ε ij je j tá náhodná chyba. Cíl: který z faktorů A, B, C, má významný vliv na výsledek analýzy (např. reakční výtěžek) μ? Hodnotu μ zde odhadujeme x i, i = 1,, n i. 4
Jednofaktorová analýza rozptylu Faktor A má K úrovní A 1,, A K. Na každé úrovni A i je provedeno n i měření y ij, j = 1,, n i. Celkový počet měření je N = Uspořádání dat: K i=1 n i. 5
Sloupcový a celkový průměr, odhad efektů Sloupcový průměr n i μ i = 1 n i y ij Celkový průměr j=1 K μ = 1 K μ i Odhad efektů j=1 K α i = μ i μ za podmínky i=1 n i α i = 0 6
Sloupcový a celkový průměr, odhad efektů 7
Sloupcový a celkový průměr, odhad efektů 8
Modely s pevnými efekty Předpoklad: náhodné chyby ε ij jsou nezávislé náhodné veličiny s normálním rozdělením N 0, σ 2. Součet čtverců odchylek od celkového průměru S c K n i S c = y ij μ 2 i=1 lze rozložit na dvě složky K n i j=1 S c = (y ij μ i ) + (μ i μ) 2 i=1 j=1 = S A + S R 9
Modely s pevnými efekty kde S A je mezi jednotlivými úrovněmi faktoru A S A = K i=1 n i μ i μ 2 kde S R je reziduální S R, tj. uvnitř jednotlivých úrovní faktoru A K n i S R = y ij μ i 2 i=1 j=1 10
Faktor ANOVA u modelu s pevnými efekty Hypotéza nulová H 0 : α i = 0, i = 1,, K vs. Alternativní H A : α i 0, i = 1,, K 11
Testační statistika Fisher-Snedecorova F-testu: Testování: F exp = S A(N K) S R (K 1) Je-li F exp > F 1 α (K 1, N K), je nutné H 0 zamítnout a efekty považovat významné. 12
Příklad: Testování kvality AgNO 3 od různých výrobců U AgNO 3 od pěti dodavatelů byla sledována kvalita chemikálie. Z každé láhve byl odebrán počet vzorků (n 1 = n 3 = 6, n 2 = n 5 = 3, n 4 = 4). Otázka: Existují významné rozdíly v kvalitě AgNO 3 od těchto výrobců. 13
Pokračování příkladu Procentuální obsah chloru při užití AgNO 3 od pěti výrobců 14
Pokračování příkladu Řešení: μ = 5.3715, μ 1 = 5.1417, μ 2 = 5.0833, μ 3 = 5.5483, μ 4 = 4.7375, μ 5 = 5.8467, α 1 = 0.1298, α 2 = 0.1882, α 3 = 0.277, α 4 = 0.534, α 5 = 0.575, 15
Pokračování příkladu 16
Tabulka analýzy rozptylu pro jednoduché třídění u modelu s pevnými efekty 17
Analýza rozptylu pro obsah AgNO 3 Pro α = 0.05 je kvantil F 0.95 4,17 = 2.96. Závěr: F e > F 0.95 (4,17), a proto H 0 je nutné zamítnout. Kvalita AgNO 3 od pěti výrobců se významně liší. 18
Ověření normality chyb 1. Rankitové grafy 2. Standardizovaná rezidua esi = σ eji 1 1 n i mají přibližně normální rozdělení N(0,1) 19
Indikace ε ij N(0, σ 2 ) Rankitový graf, tzn. přímka s nulovým úsekem a jednotkovou směrnicí 20
Technika vícenásobného porovnávání Vliv jednotlivých efektů je významný, tj. rozdíly mezi průměry μ i, μ j, i j jsou významné. Scheffého metoda vícenásobného porovnání: H 0 : μ i = μ j se zamítá pro všechny dvojice (i, j), pro které platí μ i μ j K 1 σ 2 F 1 α K 1, N K 1 n i + 1 n j pro všechny možné dvojice indexů (i, j). 21
Transformace k zesymetričtění rozdělení Přiblížení k normalitě transformací, např. posunutou logaritmickou transformaci y = ln(y + C) Optimální C se volí tak, 1. aby rezidua byla přibližně symetrická, 2. aby rankitový graf esi byl lineární závislostí. 22
Vyšetření vybočujících hodnot Užívají se Jackknife rezidua e Jij ejij = esij N K 1 2 N K esij Test: pro ejij 2 > 10 lze y ij považovat za silně vybočující. 23
24
25
26
Druhy analýzy rozptylu Jednofaktorová analýza rozptylu (faktor A) Rozklad μ i : μ i = μ + α i - Na průměr μ ze všech úrovní faktoru A - Efekt α i od i-té úrovně faktoru A Nulová hypotéza H 0 : μ 1 = μ 2 = μ 3, neboli H 0 : α 1 = α 2 = α 3 = 0. Vícefaktorová analýza rozptylu (faktory A, B, C, ) Rozklad μ ij : μ ij = μ + α i + β j + τ ij, na celkový průměr μ, složky α i odpovídající vlivu faktoru A, složky β j odpovídající vlivu faktoru B, a interakce τ ij faktoru A s faktorem B. 27
Dvoufaktorová analýza rozptylu V cele je obecně n ij pozorování. ANOVA bez opakování: v každé cele je jedno pozorování y ij = μ ij + ε ij Řádkové efekty α i, sloupcové efekty β i, interakce τ ij. 28
Modely interakcí Tukeyův model interakce τ ij = Cα i β j kde C je konstanta. Řádkově lineární model interakcí τ ij = γ i β j C R Sloupcově lineární model interakcí τ ij = α i C K δ j Aditivně multiplikativní model interakcí τ ij = γ i δ j C W 29
30
Modely s pevnými efekty bez opakování (každá cela: 1 hodnota) Předpoklady: 1. Náhodné chyby ε ij jsou nezávislé náhodné veličiny s normálním rozdělením N(0, σ 2 ). 2. Omezující podmínky N M i=1 α i = 0; j=1 β j = 0; i=1 τ ij = 0; j=1 τ ij = 0 3. U modelů bez interakce je τ ij = 0 pro i = 1, N, j = 1, M. N M 31
Odhady parametrů μ = 1 NM α i = 1 M β j = 1 N N i=1 M j=1 N i=1 M j=1 y ij y ij μ y ij μ Výpočet rezidua e ij podle e ij = y ij μ α i β j Výpočet interakce τ ij = E y ij μ α i β j e ij 32
Tukeyův model interakce Ze směrnice C přímky grafu neaditivity e ij vs. α i β j se odhaduje míra interakce N M i=1 j=1 e ijα i β j C = α 2 2 i β j N i=1 M j=1 Nenulová směrnice znamená interakci faktorů a součet čtverců odchylek Tukeyho interakce S T je k testování S T = N i=1 N i=1 M j=1 M j=1 y ij α i β j α 2 2 i β j 2 33
34
Reziduální součet čtverců bez interakcí S AB značí reziduální součet čtverců bez interakcí N M S AB = y ij μ α i β j 2 i=1 j=1 a odpovídající průměrný čtverec S AB M AB = (N 1)(M 1) 35
Příklad: Stanovení vody v rozpouštědlech v různých laboratořích U všech vzorků A 1, A 2 a A 3 nového rozpouštědla byl ve čtyřech laboratořích B 1, B 2, B 3 a B 4 určen obsah vody. Otázka: jsou významné odchylky v obsahu vody v zadaných vzorcích rozpouštědla a ve výsledcích zvolených laboratoří? Data: N = 3, M = 4 36
Pokračování příkladu 37
Pokračování příkladu Graf neaditivity vykazuje výrazný trend 38
Pokračování příkladu Analýza rozptylu dat obsahu vody v rozpouštědlech 39
Pokračování příkladu Závěr: Efekt interakce je nevýznamný a lze použít aditivní model analýzy rozptylu, zatímco efekty vzorků a laboratoří významné jsou. 40
Vyvážené modely V každé cele je n ij = n pozorování. Odhadem μ ij jsou aritmetické průměry μ ij = 1 n y ijk n k=1 α i = 1 M β j = 1 N M j=1 N i=1 μ = 1 NM μ ij μ μ ij μ N i=1 M j=1 μ ij 41
Vyvážené modely Odhad reziduí e ijk = y ijk μ α i β j Odhad interakcí τ ijk = μ ijk μ α i β j K ověření interakce lze vynášet graf τ ij vs. α i β j. Průměrné hodnoty E M A = σ 2 + nm N i=1 2 α i N 1 σ 2 = σ2 2 + nmσ A E M B = σ 2 + nm M j=1 2 β j M 1 σ 2 = σ2 2 + nnσ B 42
Vyvážené modely a E M AB = σ 2 + n N i=1 M j=1 2 τ ij N 1 (M 1)σ 2 = σ2 2 + nσ AB Rozptyl M R je nevychýleným odhadem σ 2 rozptylu chyb. Rozptyly σ 2 2 2 A, σ B a σ AB odpovídají efektům řádků, sloupců a interakcí. 43
Vyvážené modely Test: s využitím F AB, F B a F A, zda je možné považovat sloupcové a řádkové efekty, resp. interakce za nevýznamné. H 0 : τ ij = 0, i = 1,, N a j = 1,, M Je-li F AB > F 1 α * N 1 M 1, M N (n 1)+ je H 0 zamítnuta. H 0 : α i = 0, i = 1,, N Je-li F A > F 1 α * N 1, M N (n 1)+ je H 0 zamítnuta. 44
Vyvážené modely H 0 : β j = 0, j = 1,, M Je-li F B > F 1 α * M 1, M N (n 1)+ je H 0 zamítnuta. 45
Dvoufaktorová ANOVA pro vyvážený experiment 46
Příklad: Přesnost chromatografického stanovení diethylenglykolu Tři laboranti A 1, A 2 a A 3 provádějí dvě opakovaná stanovení diethylenglykolu (DEG) v ethylenglykolu na třech chromatografech B 1, B 2 a B 3. Otázka: má na výsledek analýzy přístroj či laborant Data: N = 3, M = 3, n = 2. 47
Pokračování příkladu Obsahy DEG [%], měření třemi laboranty A na třech přístrojích B 48
Pokračování příkladu Řešení: F 0.95 2,9 = 4.26 a F 0.95 4,9 = 3.63 49
Pokračování příkladu Test: 1. Mají laboranti vliv na výsledek analýz zjistíme vyšetřením nulové hypotézy H 01 : α i = 0 a zároveň H 02 : τ ij = 0 S PA = S A + S AB = 1.63 10 5 2 + 4 a testovací statistika 1.63 10 5 F PA = = 2.09 7.83 10 6 50
Pokračování příkladu Jelikož F 0.95 6,9 = 3.373 je větší než statistika F PA, nemají laboranti významný vliv na výsledek analýz a model ANOVA lze vyjádřit rovnicí y ijk = μ + β j + e ijk 2. Otestujeme H 0 : β j = 0 a sloučíme příspěvky S A + S AB s reziduálním součtem čtverců. M R = S R + S A + S AB 1.688 10 5 = = 1.12 10 5 2 + 4 + 9 15 51
Pokračování příkladu Testovací statistika F B = M B M = 4.58 je větší než R F 0.95 3,15 = 3.68 a H 0 je zamítnuta. Vliv faktoru B (přístroje) na výsledek analýzy je na hladině α = 0.95 významný. Střední hodnota průměrného čtverce M B je E(M B ) = σ 2 2 + 6σ B. Pro odhad přístrojové chyby platí σ 2 B + M B σ 2 = 6.68 10 6 6 52
Pokračování příkladu Závěr: Na přesnost stanovení diethylenglykolu má statisticky významný vliv pouze použitý chromatograf. Variabilita způsobaná laboranty je σ 2 = 1.12 10 5, variabilita způsobená přístroji je σ B 2 = 6.68 10^ 6. 53
Nevyvážené modely V (i, j)-té cele je n ij pozorování Přibližný rozklad celkového součtu čtverců n k pro všechny cely. μ ij = 1 n k Reziduální součet čtverců N M n k k=1 y ijk S R = y ijk μ ij 2 i=1 j=1 Pro výpočet dalších složek rozkladu celkového součtu čtverců se používá μ ij. k 54
Nevyvážené modely Jsou určeny z ekvivalentního počtu n n = 1 NM N i=1 M j=1 1 n ij S A = n N M i=1 μ i μ 2 s ( N 1) stupni volnosti S B = n M N μ j μ 2 j=1 s ( M 1) stupni volnosti 1 55
Nevyvážené modely N M S AB = n μ ij μ i μ j + μ 2 i=1 j=1 s N 1 (M 1) stupni volnosti. Je použito μ i = 1 M M j=1 μ ij ; μ j = 1 N N i=1 μ ij ; μ i = 1 NM N i=1 M j=1 μ ij Testování hypotéz: stejně jako u vyvážených experimentů. 56