Statistická analýza jednorozměrných dat

Podobné dokumenty
Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

S E M E S T R Á L N Í

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Jednofaktorová analýza rozptylu

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

PYTHAGORAS Statistické zpracování experimentálních dat

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Analýza rozptylu ANOVA

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistická analýza jednorozměrných dat

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

AVDAT Geometrie metody nejmenších čtverců

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Jednofaktorová analýza rozptylu

Inovace bakalářského studijního oboru Aplikovaná chemie

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

KGG/STG Statistika pro geografy

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

Přednáška IX. Analýza rozptylu (ANOVA)

Statistická analýza jednorozměrných dat

Plánování experimentu

INTERAKTIVNÍ POČÍTAČOVÁ ANALÝZA DAT prof. RNDr. Milan Meloun, DrSc.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

ANALÝZA ROZPTYLU (ANOVA)

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

Charakterizace rozdělení

Semestrální práce. 2. semestr

Regresní a korelační analýza

Regresní analýza 1. Regresní analýza

Statistická analýza jednorozměrných dat

Úvod do analýzy rozptylu

UNIVERZITA PARDUBICE

IDENTIFIKACE BIMODALITY V DATECH

Kalibrace a limity její přesnosti

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

http: //meloun.upce.cz,

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

Testy statistických hypotéz

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

UNIVERZITA PARDUBICE

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

12. cvičení z PST. 20. prosince 2017

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Testování statistických hypotéz

Vzorová prezentace do předmětu Statistika

Tomáš Karel LS 2012/2013

7. Analýza rozptylu.

Lineární regrese. Komentované řešení pomocí MS Excel

Základní statistické metody v rizikovém inženýrství

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

5 ANALÝZA ROZPTYLU. Počet sloupců, K = 7 Počet dat, N = 70 Celkový průměr =

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

odpovídá jedna a jen jedna hodnota jiných

LINEÁRNÍ MODELY. Zdeňka Veselá

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Kalibrace a limity její přesnosti

PRAVDĚPODOBNOST A STATISTIKA

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

4EK211 Základy ekonometrie

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

UNIVERZITA PARDUBICE

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

INDUKTIVNÍ STATISTIKA

Porovnání dvou výběrů

Příloha č. 1 Grafy a protokoly výstupy z adstatu

6. Lineární regresní modely

Bodové a intervalové odhady parametrů v regresním modelu

Regresní a korelační analýza

Tvorba lineárních regresních modelů při analýze dat

6. Lineární regresní modely

Kalibrace a limity její přesnosti

PRAVDĚPODOBNOST A STATISTIKA

Charakteristika datového souboru

Regresní analýza. Eva Jarošová

Národní informační středisko pro podporu jakosti

Navrhování experimentů a jejich analýza. Eva Jarošová

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

Tomáš Karel LS 2012/2013

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Transkript:

Statistická analýza jednorozměrných dat Prof. RNDr. Milan Meloun, DrSc. Univerzita Pardubice, Pardubice 31.ledna 2011 Tato prezentace je spolufinancována Evropským sociálním fondem a státním rozpočtem České republiky. 1

Kapitola 5.1 ANALÝZA ROZPTYLU ANOVA 2

Analýza rozptylu ANOVA K posouzení významnosti zdrojů variability v datech: 1. vliv přípravy na výsledek (analýzy), 2. vliv přístroje, člověka, experimentu na výsledek, 3. vliv laboratoří na výsledek analýz, 4. vyhodnocování plánovaných experimentů, 5. vliv faktorů A, B, C, (například teploty, času, koncentrace) na výsledek (analýzy). 3

Analýza rozptylu ANOVA rozptyl = složka objasněná + složka neobjasněná (známé zdroje variability) (náhodné chyby) Faktor A je na jistých úrovních A 1, A 2, A 3 Zdrojem variability měření y ij jsou úrovně A 1, A 2, A 3 y ij = μ i + ε ij μ i je skutečná hodnota a ε ij je j tá náhodná chyba. Cíl: který z faktorů A, B, C, má významný vliv na výsledek analýzy (např. reakční výtěžek) μ? Hodnotu μ zde odhadujeme x i, i = 1,, n i. 4

Jednofaktorová analýza rozptylu Faktor A má K úrovní A 1,, A K. Na každé úrovni A i je provedeno n i měření y ij, j = 1,, n i. Celkový počet měření je N = Uspořádání dat: K i=1 n i. 5

Sloupcový a celkový průměr, odhad efektů Sloupcový průměr n i μ i = 1 n i y ij Celkový průměr j=1 K μ = 1 K μ i Odhad efektů j=1 K α i = μ i μ za podmínky i=1 n i α i = 0 6

Sloupcový a celkový průměr, odhad efektů 7

Sloupcový a celkový průměr, odhad efektů 8

Modely s pevnými efekty Předpoklad: náhodné chyby ε ij jsou nezávislé náhodné veličiny s normálním rozdělením N 0, σ 2. Součet čtverců odchylek od celkového průměru S c K n i S c = y ij μ 2 i=1 lze rozložit na dvě složky K n i j=1 S c = (y ij μ i ) + (μ i μ) 2 i=1 j=1 = S A + S R 9

Modely s pevnými efekty kde S A je mezi jednotlivými úrovněmi faktoru A S A = K i=1 n i μ i μ 2 kde S R je reziduální S R, tj. uvnitř jednotlivých úrovní faktoru A K n i S R = y ij μ i 2 i=1 j=1 10

Faktor ANOVA u modelu s pevnými efekty Hypotéza nulová H 0 : α i = 0, i = 1,, K vs. Alternativní H A : α i 0, i = 1,, K 11

Testační statistika Fisher-Snedecorova F-testu: Testování: F exp = S A(N K) S R (K 1) Je-li F exp > F 1 α (K 1, N K), je nutné H 0 zamítnout a efekty považovat významné. 12

Příklad: Testování kvality AgNO 3 od různých výrobců U AgNO 3 od pěti dodavatelů byla sledována kvalita chemikálie. Z každé láhve byl odebrán počet vzorků (n 1 = n 3 = 6, n 2 = n 5 = 3, n 4 = 4). Otázka: Existují významné rozdíly v kvalitě AgNO 3 od těchto výrobců. 13

Pokračování příkladu Procentuální obsah chloru při užití AgNO 3 od pěti výrobců 14

Pokračování příkladu Řešení: μ = 5.3715, μ 1 = 5.1417, μ 2 = 5.0833, μ 3 = 5.5483, μ 4 = 4.7375, μ 5 = 5.8467, α 1 = 0.1298, α 2 = 0.1882, α 3 = 0.277, α 4 = 0.534, α 5 = 0.575, 15

Pokračování příkladu 16

Tabulka analýzy rozptylu pro jednoduché třídění u modelu s pevnými efekty 17

Analýza rozptylu pro obsah AgNO 3 Pro α = 0.05 je kvantil F 0.95 4,17 = 2.96. Závěr: F e > F 0.95 (4,17), a proto H 0 je nutné zamítnout. Kvalita AgNO 3 od pěti výrobců se významně liší. 18

Ověření normality chyb 1. Rankitové grafy 2. Standardizovaná rezidua esi = σ eji 1 1 n i mají přibližně normální rozdělení N(0,1) 19

Indikace ε ij N(0, σ 2 ) Rankitový graf, tzn. přímka s nulovým úsekem a jednotkovou směrnicí 20

Technika vícenásobného porovnávání Vliv jednotlivých efektů je významný, tj. rozdíly mezi průměry μ i, μ j, i j jsou významné. Scheffého metoda vícenásobného porovnání: H 0 : μ i = μ j se zamítá pro všechny dvojice (i, j), pro které platí μ i μ j K 1 σ 2 F 1 α K 1, N K 1 n i + 1 n j pro všechny možné dvojice indexů (i, j). 21

Transformace k zesymetričtění rozdělení Přiblížení k normalitě transformací, např. posunutou logaritmickou transformaci y = ln(y + C) Optimální C se volí tak, 1. aby rezidua byla přibližně symetrická, 2. aby rankitový graf esi byl lineární závislostí. 22

Vyšetření vybočujících hodnot Užívají se Jackknife rezidua e Jij ejij = esij N K 1 2 N K esij Test: pro ejij 2 > 10 lze y ij považovat za silně vybočující. 23

24

25

26

Druhy analýzy rozptylu Jednofaktorová analýza rozptylu (faktor A) Rozklad μ i : μ i = μ + α i - Na průměr μ ze všech úrovní faktoru A - Efekt α i od i-té úrovně faktoru A Nulová hypotéza H 0 : μ 1 = μ 2 = μ 3, neboli H 0 : α 1 = α 2 = α 3 = 0. Vícefaktorová analýza rozptylu (faktory A, B, C, ) Rozklad μ ij : μ ij = μ + α i + β j + τ ij, na celkový průměr μ, složky α i odpovídající vlivu faktoru A, složky β j odpovídající vlivu faktoru B, a interakce τ ij faktoru A s faktorem B. 27

Dvoufaktorová analýza rozptylu V cele je obecně n ij pozorování. ANOVA bez opakování: v každé cele je jedno pozorování y ij = μ ij + ε ij Řádkové efekty α i, sloupcové efekty β i, interakce τ ij. 28

Modely interakcí Tukeyův model interakce τ ij = Cα i β j kde C je konstanta. Řádkově lineární model interakcí τ ij = γ i β j C R Sloupcově lineární model interakcí τ ij = α i C K δ j Aditivně multiplikativní model interakcí τ ij = γ i δ j C W 29

30

Modely s pevnými efekty bez opakování (každá cela: 1 hodnota) Předpoklady: 1. Náhodné chyby ε ij jsou nezávislé náhodné veličiny s normálním rozdělením N(0, σ 2 ). 2. Omezující podmínky N M i=1 α i = 0; j=1 β j = 0; i=1 τ ij = 0; j=1 τ ij = 0 3. U modelů bez interakce je τ ij = 0 pro i = 1, N, j = 1, M. N M 31

Odhady parametrů μ = 1 NM α i = 1 M β j = 1 N N i=1 M j=1 N i=1 M j=1 y ij y ij μ y ij μ Výpočet rezidua e ij podle e ij = y ij μ α i β j Výpočet interakce τ ij = E y ij μ α i β j e ij 32

Tukeyův model interakce Ze směrnice C přímky grafu neaditivity e ij vs. α i β j se odhaduje míra interakce N M i=1 j=1 e ijα i β j C = α 2 2 i β j N i=1 M j=1 Nenulová směrnice znamená interakci faktorů a součet čtverců odchylek Tukeyho interakce S T je k testování S T = N i=1 N i=1 M j=1 M j=1 y ij α i β j α 2 2 i β j 2 33

34

Reziduální součet čtverců bez interakcí S AB značí reziduální součet čtverců bez interakcí N M S AB = y ij μ α i β j 2 i=1 j=1 a odpovídající průměrný čtverec S AB M AB = (N 1)(M 1) 35

Příklad: Stanovení vody v rozpouštědlech v různých laboratořích U všech vzorků A 1, A 2 a A 3 nového rozpouštědla byl ve čtyřech laboratořích B 1, B 2, B 3 a B 4 určen obsah vody. Otázka: jsou významné odchylky v obsahu vody v zadaných vzorcích rozpouštědla a ve výsledcích zvolených laboratoří? Data: N = 3, M = 4 36

Pokračování příkladu 37

Pokračování příkladu Graf neaditivity vykazuje výrazný trend 38

Pokračování příkladu Analýza rozptylu dat obsahu vody v rozpouštědlech 39

Pokračování příkladu Závěr: Efekt interakce je nevýznamný a lze použít aditivní model analýzy rozptylu, zatímco efekty vzorků a laboratoří významné jsou. 40

Vyvážené modely V každé cele je n ij = n pozorování. Odhadem μ ij jsou aritmetické průměry μ ij = 1 n y ijk n k=1 α i = 1 M β j = 1 N M j=1 N i=1 μ = 1 NM μ ij μ μ ij μ N i=1 M j=1 μ ij 41

Vyvážené modely Odhad reziduí e ijk = y ijk μ α i β j Odhad interakcí τ ijk = μ ijk μ α i β j K ověření interakce lze vynášet graf τ ij vs. α i β j. Průměrné hodnoty E M A = σ 2 + nm N i=1 2 α i N 1 σ 2 = σ2 2 + nmσ A E M B = σ 2 + nm M j=1 2 β j M 1 σ 2 = σ2 2 + nnσ B 42

Vyvážené modely a E M AB = σ 2 + n N i=1 M j=1 2 τ ij N 1 (M 1)σ 2 = σ2 2 + nσ AB Rozptyl M R je nevychýleným odhadem σ 2 rozptylu chyb. Rozptyly σ 2 2 2 A, σ B a σ AB odpovídají efektům řádků, sloupců a interakcí. 43

Vyvážené modely Test: s využitím F AB, F B a F A, zda je možné považovat sloupcové a řádkové efekty, resp. interakce za nevýznamné. H 0 : τ ij = 0, i = 1,, N a j = 1,, M Je-li F AB > F 1 α * N 1 M 1, M N (n 1)+ je H 0 zamítnuta. H 0 : α i = 0, i = 1,, N Je-li F A > F 1 α * N 1, M N (n 1)+ je H 0 zamítnuta. 44

Vyvážené modely H 0 : β j = 0, j = 1,, M Je-li F B > F 1 α * M 1, M N (n 1)+ je H 0 zamítnuta. 45

Dvoufaktorová ANOVA pro vyvážený experiment 46

Příklad: Přesnost chromatografického stanovení diethylenglykolu Tři laboranti A 1, A 2 a A 3 provádějí dvě opakovaná stanovení diethylenglykolu (DEG) v ethylenglykolu na třech chromatografech B 1, B 2 a B 3. Otázka: má na výsledek analýzy přístroj či laborant Data: N = 3, M = 3, n = 2. 47

Pokračování příkladu Obsahy DEG [%], měření třemi laboranty A na třech přístrojích B 48

Pokračování příkladu Řešení: F 0.95 2,9 = 4.26 a F 0.95 4,9 = 3.63 49

Pokračování příkladu Test: 1. Mají laboranti vliv na výsledek analýz zjistíme vyšetřením nulové hypotézy H 01 : α i = 0 a zároveň H 02 : τ ij = 0 S PA = S A + S AB = 1.63 10 5 2 + 4 a testovací statistika 1.63 10 5 F PA = = 2.09 7.83 10 6 50

Pokračování příkladu Jelikož F 0.95 6,9 = 3.373 je větší než statistika F PA, nemají laboranti významný vliv na výsledek analýz a model ANOVA lze vyjádřit rovnicí y ijk = μ + β j + e ijk 2. Otestujeme H 0 : β j = 0 a sloučíme příspěvky S A + S AB s reziduálním součtem čtverců. M R = S R + S A + S AB 1.688 10 5 = = 1.12 10 5 2 + 4 + 9 15 51

Pokračování příkladu Testovací statistika F B = M B M = 4.58 je větší než R F 0.95 3,15 = 3.68 a H 0 je zamítnuta. Vliv faktoru B (přístroje) na výsledek analýzy je na hladině α = 0.95 významný. Střední hodnota průměrného čtverce M B je E(M B ) = σ 2 2 + 6σ B. Pro odhad přístrojové chyby platí σ 2 B + M B σ 2 = 6.68 10 6 6 52

Pokračování příkladu Závěr: Na přesnost stanovení diethylenglykolu má statisticky významný vliv pouze použitý chromatograf. Variabilita způsobaná laboranty je σ 2 = 1.12 10 5, variabilita způsobená přístroji je σ B 2 = 6.68 10^ 6. 53

Nevyvážené modely V (i, j)-té cele je n ij pozorování Přibližný rozklad celkového součtu čtverců n k pro všechny cely. μ ij = 1 n k Reziduální součet čtverců N M n k k=1 y ijk S R = y ijk μ ij 2 i=1 j=1 Pro výpočet dalších složek rozkladu celkového součtu čtverců se používá μ ij. k 54

Nevyvážené modely Jsou určeny z ekvivalentního počtu n n = 1 NM N i=1 M j=1 1 n ij S A = n N M i=1 μ i μ 2 s ( N 1) stupni volnosti S B = n M N μ j μ 2 j=1 s ( M 1) stupni volnosti 1 55

Nevyvážené modely N M S AB = n μ ij μ i μ j + μ 2 i=1 j=1 s N 1 (M 1) stupni volnosti. Je použito μ i = 1 M M j=1 μ ij ; μ j = 1 N N i=1 μ ij ; μ i = 1 NM N i=1 M j=1 μ ij Testování hypotéz: stejně jako u vyvážených experimentů. 56