5 ANALÝZA ROZPTYLU. 5.1 Jednofaktorová analýza rozptylu (ANOVA1)

Podobné dokumenty
Statistická analýza jednorozměrných dat

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

S E M E S T R Á L N Í

5 ANALÝZA ROZPTYLU. Počet sloupců, K = 7 Počet dat, N = 70 Celkový průměr =

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Charakteristika datového souboru

Jednofaktorová analýza rozptylu

Analýza rozptylu ANOVA

Statistika, Biostatistika pro kombinované studium. Jan Kracík

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Závislost obsahu lipoproteinu v krevním séru na třech faktorech ( Lineární regresní modely )

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Inovace bakalářského studijního oboru Aplikovaná chemie

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Stanovení manganu a míry přesnosti kalibrace ( Lineární kalibrace )

SEMESTRÁ LNÍ PRÁ CE. Licenč ní studium STATISTICKÉZPRACOVÁ NÍ DAT PŘ I KONTROLE A Ř ÍZENÍ JAKOSTI

Regresní analýza. Eva Jarošová

Testování hypotéz o parametrech regresního modelu

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Lineární regrese. Komentované řešení pomocí MS Excel

Testování hypotéz o parametrech regresního modelu

Regresní analýza 1. Regresní analýza

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Předpoklad o normalitě rozdělení je zamítnut, protože hodnota testovacího kritéria χ exp je vyšší než tabulkový 2

6. Lineární regresní modely

KGG/STG Statistika pro geografy

PRAVDĚPODOBNOST A STATISTIKA

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

A B C D

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Statistická analýza jednorozměrných dat

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Univerzita Pardubice SEMESTRÁLNÍ PRÁCE. Tvorba lineárních regresních modelů. 2015/2016 RNDr. Mgr. Leona Svobodová, Ph.D.

6. Lineární regresní modely

LINEÁRNÍ REGRESE. Lineární regresní model

PYTHAGORAS Statistické zpracování experimentálních dat

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Pravděpodobnost a matematická statistika

Zobecněná analýza rozptylu, více faktorů a proměnných

Kalibrace a limity její přesnosti

Korelační a regresní analýza

Testování statistických hypotéz

Úvod do analýzy rozptylu

Zápočtová práce STATISTIKA I

Přednáška IX. Analýza rozptylu (ANOVA)

STATISTICA Téma 7. Testy na základě více než 2 výběrů

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

PRŮZKUMOVÁ ANALÝZA JEDNOROZMĚRNÝCH DAT Exploratory Data Analysis (EDA)

Kanonická korelační analýza

Ilustrační příklad odhadu LRM v SW Gretl

Semestrální práce. 2. semestr

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

LINEÁRNÍ REGRESE Komentované řešení pomocí programu Statistica

Úloha 1: Lineární kalibrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Tomáš Karel LS 2012/2013

Pravděpodobnost v závislosti na proměnné x je zde modelován pomocí logistického modelu. exp x. x x x. log 1

http: //meloun.upce.cz,

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Testování statistických hypotéz

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testy statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Porovnání dvou výběrů

Kalibrace a limity její přesnosti

Bodové a intervalové odhady parametrů v regresním modelu

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Úvodem Dříve les než stromy 3 Operace s maticemi

Plánování experimentu

Normální (Gaussovo) rozdělení

odpovídá jedna a jen jedna hodnota jiných

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Odhad parametrů N(µ, σ 2 )

KGG/STG Statistika pro geografy

TECHNICKÁ UNIVERZITA V LIBERCI

PRAVDĚPODOBNOST A STATISTIKA

PRAVDĚPODOBNOST A STATISTIKA

Kalibrace a limity její přesnosti

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Kalibrace a limity její přesnosti

KGG/STG Statistika pro geografy

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie Nám. Čs. Legií 565, Pardubice

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příloha č. 1 Grafy a protokoly výstupy z adstatu

Transkript:

5 AALÝZA ROZPTYLU Analýza rozptylu AOVA (z anglického Analysis of Variance) se v technické praxi používá buď ako samostatná technika nebo ako postup umožňuící analýzu zdroů variability u lineárních statistických modelů Cílem e zistit které z kvalitativních nebo kvantitativních faktorů významně ovliňuí sledované veličiny ede přitom o to ak ovliňuí ale zda vůbec ovliňuí V technické praxi se AOVA uplatňue ako samostatná technika v úlohách: (a) Určení vlivu způsobu přípravy vzorků na výsledek analýzy (b) Určení vlivu přístroe lidského faktoru a obsluhy na výsledek měření (c) Zpracování různých mezilaboratorních experimentů (d) Zpracování plánovaných experimentů u kterých se systematicky sledue vliv rozličných faktorů (teploty času koncentrace a dalších) na výsledek reakce či analýzy Podstatou analýzy rozptylu e rozklad celkového rozptylu dat na složky obasněné (známé zdroe variability) a složku neobasněnou o níž se předpokládá že e náhodná ásledně se testuí hypotézy o významnosti ednotlivých zdroů variability Prvním krokem analýzy rozptylu e určit zda de o model analýzy rozptylu s pevnými náhodnými nebo smíšenými efekty Vlastní postup analýzy rozptylu lze rozdělit do pěti kroků imiž sou: Odhad parametrů základního modelu AOVA 2 Testování eho významnosti a konstrukce různých modelů 3 Vyádření složek rozptylů a testování eich významnosti 4 Ověření předpokladu normality a indikace silně vybočuících hodnot 5 Interpretace výsledků s ohledem na zadání dat a eich případné úpravy 5 Jednofaktorová analýza rozptylu (AOVA) Formulace modelu: sledue se faktor A na různých úrovních A A a každé úrovni A i e provedeno n i měření {y i} = n i odel analýzy rozptylu má tvar y i µ i % g i n i kde µ i µ % α i

2 a α e efekt i-té úrovně Parametry µ µ a α se odhaduí pomocí odpovídaících výběrových i i i průměrů Celkový počet měření e n i Sloupcový průměr ˆµ představue součet hodnot opakovaného měření y pro úroveň faktoru A dělený počtem opakování n i i i i ˆµ i n i n i y i Celkový průměr e součet všech hodnot y dělený celkovým počtem dat který e roven i průměru sloupcových průměrů ˆµ ˆµ i Pro výpočet odhadu i-tého efektu α lze použít vztah i ˆα i ˆµ i & ˆµ Zavedením efektů vznikne přeurčený model obsahuící o eden parametr více Proto se při odhadu efektů používá omezuící podmínka n i α i 0 a pro vyvážené experimenty α i 0 lasická ednofaktorová analýza rozptylu dat a ruskalo-va-wallisova ednofaktorová analýza rozptylu pořadí dat porovnává střední hodnoty dvou či více úrovní faktoru A čili sloupců v matici dat za účelem určit zda alespoň edna sloupcová střední hodnota se liší od ostatních Statistická významnost e testována F-testem tak že nulová hypotéza H 0 říká Všechny střední hodnoty sou stené proti alternativní H A Alespoň edna střední hodnota se odlišue od ostatních Základní předpoklady ednofaktorové analýzy rozptylu dat Před použitím analýzy rozptylu musí být ověřeny následuící předpoklady o výběru: Data maí normální rozdělení: náhodné chyby g i sou náhodné veličiny s normálním 2 rozdělením a střední hodnotou chyb rovnou nule (0 σ ) 2 2 Rozptyly sloupcových výběrů σ sou stené (homoskedasticita) 3 aždý sloupec e prostým náhodným výběrem ze svého souboru: každý prvek souboru má stenou pravděpodobnost že bude vybrán do výběru Základní předpoklady ruskalova-wallisova testu analýzy rozptylu dat Před použitím analýzy rozptylu musí být ověřeny následuící předpoklady o výběru: ěrná stupnice e přinemenším ordinální 2 Rozdělení souborů musí být stené kromě míry polohy Rozptyly sou stené (homoskedasticita) 3 Všechny sloupce představuí náhodné výběry svých souborů

Omezení: velikost výběru může být od několika ednotek až po několik stovek prvků Snad nevětší omezení v datech se týká náhodného výběru ze souboru: když totiž nebude výběr náhodný hladiny významnosti budou nesprávné Testování: součet čtverců odchylek od celkového průměru ˆµ definovaný vztahem 3 lze rozložit na dvě složky S c n i (y i & ˆµ) 2 n i S c [(y i & ˆµ i ) % (ˆµ i & ˆµ)] 2 S A % S R kde S A představue rozptyl mezi ednotlivými úrovněmi daného faktoru S A n i (ˆµ i & ˆµ) 2 a S e rozptyl reziduálnít uvnitř ednotlivých úrovní R S R evychýleným odhadem rozptylu chyb σ 2 e n i (y i & ˆµ i ) 2 e průměrný reziduální čtverec S R dle S S R R & ˆσ2 e Cílem ednofaktorové analýzy e především testování zda sou efekty α i nulové tedy zda ednotlivé úrovně daného faktoru sou statisticky nevýznamně odlišné Testue se nulová hypotéza H 0: α i = 0 i = proti alternativní H σ 2 A: α i 0 i = Při testování se 2 využívá faktu že veličina S e σ 2 A / má χ -rozdělení s ( - ) stupni volnosti a veličina S R / e 2 má nezávislé χ -rozdělení s ( - ) stupni volnosti Jeich podíl má pak F-rozdělení s ( - ) a ( - ) stupni volnosti Testační statistika F e má tvar F e S A S A ( & ) S R S R ( & ) Při platnosti nulové hypotézy H 0 má F e statistika F-rozdělení s ( - ) a ( - ) stupni volnosti Vyde-li F e větší než kvantil F -α( - - ) e nutné nulovou hypotézu H 0 na hladině významnosti α zamítnout a efekty považovat za nenulové čili statisticky významné Vícenásobné porovnávání (ultiple Comparison Procedure CP) dyž AOVA určí že faktor A e statisticky významný e možné nalézt úrovně faktoru A které se významně liší od ostatních Druhy porovnávacích metod CP Volba porovnávací metody e ovlivněna odpovědí na následuící dvě otázky: () Víme už v průběhu experimentu co chceme porovnávat? (2)

4 Zaímáme se o všechny nebo enom o některá porovnání? Budeme přitom rozlišovat dva typy chyb chyby typu metodického a chyby typu experimen-tálního etodická chyba δ: každé porovnání dvou průměrů se bere ako ediný test který se provedl a označue se δ Pomovou ednotkou e proto chyba pro edno porovnání Ostatní testy na datech sou pak ignorovány vzhledem k výpočtu hodnoty chyby Experimentální chyba δ f : hodnota chyby vyšla ze skupiny nezávislých testů Je to pravděpodobnost nabytí edné či více chyb typu I ve skupině nezávislých porovnání Označíme tuto chybu u skupiny nezávislých testů δ f Vztah mezi oběma typy chyb e δ f & ( & δ) c kde c e celkový počet porovnání provedených v úloze Definice metod CP Všechny CP metody předpokládaí nezávislost mezi úrovněmi faktoru čili sloupcovými výběry homoskedasticitu a normalitu (kromě ruskalova- Wallisova testu) Budiž ȳ i sloupcový průměr a n i velikost sloupcového výběru i-tého 2 sloupce s představue průměrný čtverec chyb způsobených - stupni volnosti a při uvažování úrovní faktoru A Vícenásobné porovnávání může být provedeno () automaticky kdy každý sloupcový průměr e porovnáván s každým nebo (2) plánovaně dle zadaných váhových koeficientů C i = kdy budeme porovnávat určité vybrané i sloupce s inými vybranými sloupci Jestliže všechny koeficienty C vykazuí součet rovný i nule porovnání se nazývá kontrast oeficienty C i se zadávaí následuícím způsobem: chceme například pro 6 sloupců porovnat pouze první dva sloupcové průměry s posledními dvěma tzn vyčíslit významnost rozdílů ȳ 5 & ȳ ȳ 5 & ȳ 2 ȳ 6 & ȳ ȳ 6 & ȳ 2 což zapíšeme pomocí vahových koeficientů: C = - C = - C = 0 C = 0 C = C = 2 3 4 5 6 Všimněte si že suma vahových koeficientů musí dávat nulu a porovnání e proto kontrastem Bonferroniho porovnání všech párů Test má odhalit které páry se liší Zvolí se metodická chyba δ tak že bude korigovat požadovanou experimentální chybu δ f Je-li sloupcových průměrů a záem vyšetřit všechny možné kombinace párů sloupcových průměrů metodická chyba δ e definována vztahem: δ *ȳ i & ȳ * s 2 n i δ f & a testační kritérium statistické významnosti testovaných párů e pro ν = - stupňů volnosti a γ = α dáno vztahem % n $ t γν Bonferroniho porovnání sloupců vůči kontrolnímu Jestliže eden sloupec bude představovat kontrolní sloupec a všechny ostatní sloupce budeme porovnávat s kontrolním půde o ν = - porovnání Zvolíme metodickou chybu δ dle vzorce 7

5 δ δ f 2( & ) Standardní porovnání Plánovaný test významnosti určitého zvoleného porovnání který se týká metodické chyby Zadává se edna z porovnávacích voleb: (a) standardního porovnání (b) porovnání ortogonálními polynomy (c) porovnání každého sloupce s prvním (d) porovnání každého sloupce s posledním (e) porovnání při více než třech uživatelských kontrastech a další volby astavíme hladinu metodické chyby tak že dosáhneme specifické hodnoty celkové chyby Studentovo testační kritérium významnosti sloupcových průměrů testovaných párů e pro ν = - stupňů volnosti a γ = α/2 dáno vztahem s * C ȳ * C 2 n $ t γν Uvedeme ukázku zadání způsobu (a) standardního porovnání : pro například = 4 úrovně faktoru A máme k dispozici tři volby porovnání sloupcových průměrů Všimněte si že suma vahových koeficientů dává vždy nulu čili de o kontrast Váhové koeficienty C Provádí porovnání sloupcových průměrů: -3 Porovnává průměr sloupce s průměry všech vyšších ostatních t s průměry 2 3 a 4 sloupce 0-2 Porovnává průměr 2 sloupce s průměry všech vyšších ostatních t s průměry 3 a 4 sloupce 0 0 - Porovnává průměr 3 sloupce s průměry všech vyšších ostatních t s průměry 4 sloupce ruskalovo-wallisovo porovnání Z-skóre Hodnoty Z-skóre (standardizovaná veličina kdy od prvků sloupce e odečten sloupcový průměr a pak sou poděleny směrodatnou odchylkou) sou zde využity k porovnání sloupcových mediánů v páru při nesplnění předpokladů výběrové normality Test však vyžadue výběr o minimální četnosti n = 5 (a lépe eště vyšší) v každé úrovni faktoru A Hladina chyby e nastavena na základě i metodické chyby tak aby poskytla experimentální hladinu chyby δ f Za střední hodnoty může test užít vedle mediánu také průměr pořadí ak e zřemé ze vzorce pro δ δ f /( & ) porovnávaící sloupec i se sloupcem ( % ) 2 * R i & R * n i % n $ z α kde e celkový počet prvků n e počet prvků v i-tém sloupci R e suma pořadí v i-tém i i sloupci Rozdělení z e normální se střední hodnotou nula a rozptylem edna Je-li i

6 vypočtená hodnota z pro dva sloupce (i a ) větší než kritická hodnota pak se sloupcové i průměry významně liší Scheffeho porovnání Vyšetřue všechna možná porovnání sloupcových průměrů Testační kritérium významnosti pro páry sloupcových průměrů e pro - a pro ν = - stupňů volnosti rovno nebo větší než ( & ) F α&ν Je stené ako Bonferroniho porovnání Postup ednofaktorové analýzy rozptylu (AOVA) Vstupem e tabulka dat obsahuící pro ednotlivé sloupce čili úrovně A A faktoru A vždy n pozorování {y } i = a = n Pro všechny testy e obvykle uvažována i i i hladina významnosti α = 005 Postup obsahue kroky: Přípravu dat: už přípravou dat lze zaistit větší věrohodnost dosažených výsledků (a) Velikost výběru e počet plných řádků AOVA byla původně odvozena za předpokladu že četnosti ve sloupcích sou shodné V praxi e však tento předpoklad zřídka splněn Steně však platí že čím těsněi e toto pravidlo splněno tím věrohodněší sou výsledky Lze analyzovat i malé výběry 4 až 5 hodnot ve sloupci áme-li testovat všechny výběrové předpoklady e třeba prvků ve sloupci více ze statistického hlediska nelépe 30 a více (b) Chyběící hodnoty mohou způsobit vychýlení výsledků V každém případě e poněkud nebezpečné analyzovat výběr s řadou chyběících hodnot (c) Typ dat: matematické pozadí F-testu požadue aby data byla spoitá vůli zaokrouhlo-vání při zápisu dat sou všechna data vlastně technicky vzato diskrétní Požadavek spoitosti e proto na místě sou-li data hodně zaokrouhlovaná (d) Odlehlé hodnoty obecně způsobuí zborcení F-testů Je třeba prozkoumat data v grafech exploratorní analýzy dat EDA často se užívá krabicový graf Pak následue vyšetření zda se odlehlé hodnoty vyskytuí pouze v ednom sloupci nebo i v ostatních Je-li odlehlá hodnota v datech pouze ednou e třeba i odstranit Pakliže i v datech ponecháme e třeba dát přednost neparametrickému testování F-test by totiž mohl selhat 2 Ověření výběrových předpokladů: nestačí se soustředit na tabulku výsledků testování AOVA Je třeba pečlivě ověřit splnění základních předpokladů o výběru Často data nemaí ve všech sloupcích normální rozdělení a e třeba použít mocninnou (nebo logaritmickou) transformaci dat Po transformaci pak data iž vykazuí normální rozdělení I když e pouze ediný sloupec s nenormální rozdělením transformace celého výběru přinese zlepšení výsledků (a) áhodnost: metoda odběru vzorku by měla zaistit že každý prvek souboru má stenou pravděpodobnost být vybrán do výběru (b) ezávislost: aplikací von eumannova testu ověříme nezávislost prvků výběru Budeme-li například porovnávat levé a pravé pneumatiky u výběru určitého množství aut nezávislost nebude zaručena (c) ormalita: nelépe e začít vyšetřením rankitového grafu odchylek od totálního průměru Pak následue řada testů normality Síla těchto testů se zvyšue s velikostí výběru I když byla normalita potvrzena prověříme velikost výběru zda e možné brát výsledky testu za dostatečně věrohodné (d) Homoskedasticita: aby bylo možné užít řadu statistických testů e třeba ověřit zda rozptyly sloupců sou shodné (homoskedasticita) V krabicových grafech e sledována šířka krabic zda e u všech sloupců stená umericky lze ověřit homoskedasticitu pomoci modifiko-vaného Levenova 7 testu

3 Průměry a efekty úrovní: e proveden výpočet parametrů ˆµ i ˆµ ˆα i reziduí ê i Jackknife reziduí ê a diagonálních prvků H proekční matice H Jsou identifikovány vlivné body pro které e Ji ê Ji > 2 a H ii > 2/ n i 4 Volbu statistických testů významnosti faktoru A v tabulce AOVA: Je sestavena tabulka AOVA a proveden F-test významnosti efektů faktoru A Předem e třeba ověřit výběrové předpoklady a zvolit správný test: (a) ormalita a homoskedasticita dat: aplikueme F-test (b) ormalita a heteroskedasticita dat: pokusíme se stabilizovat rozptyl mocninnou transformací (nebo logaritmickou) Pak užieme test shodnosti středních hodnot u dvou výběrů při nehomogenitě rozptylů elze užít ani ruskalův-wallisův test protože tento test také předpokládá shodné rozptyly obou výběrů (c) enormalita a homoskedasticita dat: užieme ruskalův-wallisův test (d) enormalita a heteroskedasticita dat: když nede data transformovat za účelem stabilizace 7 rozptylu a zaištění normality užieme olmogorův-smirnovův test (viz cit ) který testue oboí 7 průměry i rozptyly současně Jelikož však už víme z Levenova testu (viz cit ) že rozptyly nesou stené e otázkou zda olmogorův-smirnovův test přinese něco nového Testování hypotéz: výklad analýzy rozptylu e snadný Jednoduše sledueme F-test Je-li hodnota spočtené hladiny významnosti menší než předvolená hladina významnosti α (obyčeně 005) můžeme potvrdit že přinemenším dva sloupcové průměry sou odlišné 5 Vícenásobné porovnávání sloupcových průměrů CP: postup předpokládá normalitu a homoskedasticitu výběrových sloupců ení-li splněna normalita pro každý sloupec e třeba užít ruskalův-wallisův test vícenásobného porovnávání CP: (a) Plánované všechny možné páry: víme-li dopředu že budeme vyšetřovat všechny páry užieme Bonferroniho porovnávání párů (b) eplánované všechny možné páry: užieme Scheffeho porovnávání (c) aždý versus kontrolní sloupec: užieme Bonferroniho porovnání všech sloupců vůči kontrolnímu (d) Vybrané a plánované sloupce: užieme Standardní porovnávání a nastavíme hladinu α 6 Grafy a diagramy: e konstruován rankitový graf Jackknife reziduí a transformační graf závislosti s i vs ˆµ i Pokud sou všechna data kladná a tato závislost e přibližně lineární lze zvolit logaritmickou transformaci ii (viz 6 kapitola) 7 52 Dvoufaktorová analýza rozptylu bez opakování v cele Při dvoufaktorové analýze rozptylu se provádí experimenty na různých úrovních dvou faktorů A a B ombinace úrovní faktorů tvoří typickou mřížkovou strukturu eímž elementem e tzv cela Platí že (i )-tá cela odpovídá kombinaci úrovně A i faktoru A a B faktoru B V každé cele e obecně n pozorování Často se však setkáváme s případem bez i opakování kdy v každé cele e pouze ediné pozorování n i = romě řádkových αi a sloupcových ß efektů se zde vyskytue také interakční člen τ Tento člen e důsledkem i různých kombinací sloupcových a řádkových efektů

8 B B B 2 A A 2 cela A 2 B 2 A Obvykle se užívá Tukeyův model interakce vyádřený tvarem τ i C α i β kde C e konstanta U těchto modelů obsahue každá cela právě ednu hodnotu y i O chybách g i se předpokládá že sou to nezávislé a steně rozdělené náhodné veličiny s nulovou střední hodnotou a konstantním rozptylem testování se navíc předpokládá že rozdělení chyb e normální Definuí se omezuící podmínky ˆµ α i 0; β 0; τ i 0; τ i 0 V případě pouze aditivního působení ednotlivých faktorů e τ i = 0 pro všechna i = a = Odhady parametrů µ α i β lze pak určit ze vztahů y i ˆα i y i & ˆµ ˆβ y i & ˆµ Pro rezidua ê i platí ê i y i & ˆµ & ˆα i & ˆβ určení interakcí můžeme využít skutečnosti že τ i E(y i ) & µ & α i & β a pro odhad interakcí platí přibližně ˆτ i ê i Pak lze snadno identifikovat Tukeyův model interakce Platí-li tento model vyde na grafu ê i vs ˆα i ˆβ lineární trend Ze směrnice odpovídaící regresní přímky se odhadne parametr C Platí pro ně výraz: Ĉ ê i ˆα i ˆβ ˆα 2 i Graf ê i vs ˆα i ˆβ /ˆµ se označue ako graf neaditivity Pokud vyde v tomto grafu nenáhodný trend znamená to že e třeba uvažovat interakce Analýza rozptylu pro dvoné třídění s interakcí Tukeyova typu Součet Stupně Průměrný ritérium F čtverců pro volnosti čtverec ˆβ 2

9 Faktor A S A Faktor B S B α 2 i ß 2 - = S /(-) F = / A A A A AB - = S /(-) F = / B B B B AB Interakce (Tukey) T = S T F T = T/E Reziduální S R= SAB-ST - - E= S R/(--) - Celkový S C (i) (ˆµ & y i ) 2 - - - () V tabulce představue S součet čtverců odchylek odpovídaící Tukeyově interakci T S T S AB 2 y i ˆα i ˆβ ˆα 2 i β2 Symbol S označue reziduální součet čtverců pro případ bez interakcí AB (y i & ˆµ & ˆα i & ˆβ ) 2 Odpovídaící průměrný čtverec e AB S AB ( & ) ( & ) Hodnota e AB 2 nevychýleným odhadem rozptylu σ Pomocí F-kritéria lze opět provádět statistické testy Začíná se testováním nulové hypotézy H : "Tukeyova interakce e nevýznamná" pro kterou 0 lze použít testační statistiku F Za předpokladu platnosti nulové hypotézy H má tato T 0 testační statistika F-rozdělení s a ( - - ) stupni volnosti Pokud nelze tuto hypotézu zamítnout testue se nulová hypotéza H : α = 0 i = (efekty řádků čili faktoru A sou 0 i nevýznamné) pomocí statistiky F nebo nulová hypotéza H : β = 0 = (efekty A 0 sloupců čili faktoru B sou nevýznamné) pomocí statistiky F Obě tyto testační statistiky B sou uvedeny v tabulce Za předpokladu platnosti hypotézy H má statistika F Fisherovo- 0 A Snedecorovo F-rozdělení s ( - ) a ( - ) ( - ) stupni volnosti a statistika F také F- B rozdělení s ( - ) a ( - )( - ) stupni volnosti Pokud však vyde F vyšší než T odpovídaící kvantil F-rozdělení e efekt Tukeyovy interakce významný Friedmanův pořadový test V případě nenormality a heteroskedasticity se aplikue tento neparametrický test kdy původní data sou nahrazena svými pořadími V experimentu s úrovněmi faktoru A v řádcích a úrovněmi faktoru B v sloupcích matice o rozměru se užie Friedmanovo testační kritérium Q dle vzorce Q ( & ) 2 R 2 i & 3 2 ( % ) 2 ( 2 & ) 2 & (t 3 & t)

0 kde data v každém ze řádků sou nahražena pořadím Pořadí sou sečtena pro každý ze sloupců Tato suma pořadí se značí R i Faktor t ve menovateli testačního kritéria Q představue počet opakuící se edné hodnoty v průběhu řádku dyž e tento člen nulový 2 tak se vynechá Testační kritérium Q má přibližně χ rozdělení s - stupni volnosti Toto kritérium e blízké endalově koeficientu dobré shody U těchto testů musí být faktor A vždy náhodným faktorem a faktor B vždy pevným faktorem Vícenásobné porovnávání CP Dá se použít enom pro pevné faktory Plánovaná porovnávání se formuluí v pomech sloupcových průměrů dle vzorce C i w i m kde značí počet úrovní faktoru m sou průměry pro každou hladinu faktoru a wi představue soubor vah pro i-té porovnání Porovnávací hodnota C se testue pomocí t- i testu Všimněte si že estliže váha w nabývá nuly při sumaci přes všechna porovnání i budeme nazývat kontrast průměrů Porovnání může být zadáno ednoduše pomocí vah apříklad uvažume faktor o 3 úrovních kde sloupec představue úroveň kontrolní druhý a třetí sloupec obsahuí 2 a 3 úroveň faktoru Porovnání zadáme pomocí vah: porovnání kontrolního sloupce s 2 úrovní faktoru: - 0 Porovnání kontrolního sloupce se 3 úrovní faktoru: - 0 Porovnání 2 úrovně s 3 úrovní: 0 - Porovnání kontrolního sloupce s průměrem 2 a 3 úrovně: -2

Postup dvoufaktorové analýzy rozptylu bez opakování (AOVA2P) Pro dvoufaktorovou analýzu rozptylu a modelu s pevnými efekty v případě n = tedy bez i opakování v cele se předpokládá možnost interakce Tukeyova typu Provádí se odhady parametrů testy významnosti a ověření interakce resp transformace vedoucí k aditivitě efektů Vstupem e obdélníková tabulka dat pro A A úrovní faktoru A (řádky) a B B úrovní faktoru B (sloupce) {y i} = a = Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Průměry a efekty úrovní: sou vypočteny odhady parametrů: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 3 AOVA tabulka: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový neparametrický test 4 Graf neaditivity: e kreslen graf neaditivity včetně určení optimální mocninné transformace ˆλ pro zaištění aditivity Lze zadat provedení analýzy pro transformovaná data pokud sou kladná 53 Vyvážená dvoufaktorová analýza rozptylu Slouží ke dvoufaktorové analýze rozptylu u vyvážených experimentů n = n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a k = n Pro všechny testy e standardně uvažována hladina významnosti α = 005 Pro výpočet se užívá AOVA2B (ADSTAT) Pro tyto modely platí že v každé cele e n i = n pozorování Odhadem µ i sou aritmetické průměry ˆµ i n n Pro odhady ostatních parametrů se použií vztahy y ik k ˆµ ˆµ i ˆα i ˆµ i & ˆµ ˆβ ˆµ i & ˆµ

2 Rezidua vyádříme vztahem ê ik y ik & ˆµ & ˆα i & ˆβ Podobně lze i v tomto případě definovat odhad interakcí ˆτ i ˆµ i & ˆµ & ˆα i & ˆβ Povšimněme si že tento vztah se liší od předešlé rovnice en tím že se místo veličin y i používá průměrů ˆµ i Pro ověření Tukeyova modelu interakce neaditivity lze vynášet graf ˆτ i vs ˆα i ˆβ áhodný obrazec zde svědčí o aditivním působení obou faktorů Součty čtverců modelu analýzy rozptylu pro obecný případ interakcí sou uvedeny v tabulce Odpovídaící střední hodnoty (očekávané hodnoty) průměrných čtverců sou E( A ) σ 2 % n α 2 i ( & ) σ 2 σ 2 % nσ 2 A a E( B ) σ 2 % E( AB ) σ 2 % n β 2 ( & ) σ 2 σ 2 % nσ 2 B n τ 2 i σ 2 % n σ 2 ( & ) ( & ) σ 2 AB 2 2 Očekávaná hodnota E( R) = σ ukazue že roztyl R e nevychýleným odhadem σ rozptylu chyb Rozptyly σ 2 A σ2 B a σ 2 AB odpovídaí efektům řádků sloupců a interakcí Těchto vztahů lze využít i v případech kdy se hledaí odhady rozptylů příslušeící faktorům a interakcím Pak se místo středních hodnot E() dosazuí přímo průměrné čtverce a místo 2 2 rozptylu σ reziduální rozptyl ˆσ Důležité e že průměrné čtverce nesou přímo odhady odpovídaících rozptylů Také v případě analýzy rozptylu definované AOVA tabulkou se využitím statistik F F a F testue zda e možné považovat sloupcové a řádkové efekty resp interakce za AB B A nevýznamné Pro test nulové hypotézy H : τ = 0 i = a = lze použít 0 i testační statistiku F která má za předpokladu platnosti hypotézy H F-rozdělení s {( - AB 0 )( - )} a { (n - )} stupni volnosti Při testování významnosti řádkových efektů faktoru A e H : α = 0 i = Pokud nulová hypotéza platí má testační F statistika F- 0 i A rozdělení s ( - ) a { (n - )} stupni volnosti Analogicky při testování významnosti sloupcových efektů faktoru B e H : β = 0 = Pokud nulová hypotéza platí má 0 testační F statistika F-rozdělení s ( - ) a { (n - )} stupni volnosti evychýleným B odhadem rozptylu e zde R Analýza rozptylu pro dvoné třídění a vyvážený experiment Součet Stupně Průměrný ritérium F čtverců pro volnosti čtverec Faktor A

3 S A n ˆα 2 i - A Faktor B S B n Interakce AB S AB n Reziduální S R Celkový S C ˆβ 2 - B ˆτ 2 i n k AB S A & S B & S AB ( & ) ( & ) F A A R F B B R F AB AB R (y ik & ˆµ i ) 2 (n - ) R - (n & ) n (y ik & ˆµ) 2 k ( - )( - ) n - - - Výhodou vyvážených experimentů e to že ednotlivé složky modelů analýzy rozptylu sou vzáemně nezávislé Postup vyvážené dvoufaktorové analýzy rozptylu (AOVA2B) Slouží ke dvoustupňové analýze rozptylu u vyvážených experimentů n = n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a k = n Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Ověření výběrových předpokladů: z opakování v celách (a) áhodnost (b) ezávislost (c) ormalita (d) Homoskedasticita 3 Průměry a efekty úrovní: sou vypočteny odhady: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 4 AOVA tabulka: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB S R

4 (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový test 5 Grafy a diagramy: e kreslena závislost výběrových směrodatných odchylek s i v celách na průměrech ˆµ i Pokud e nalezena monotónní závislost lze zadat vhodnou transformaci ve které se provede opakovaná analýza Je konstruován rankitový graf pro rezidua ê ik 54 evyvážená dvoufaktorová analýza rozptylu Pro nevyvážené modely platí že v (i )-té cele e n i pozorování Pokud e experiment velmi špatně vyvážený což znamená že rozdíly mezi ednotlivými hodnotami n i sou řádově v desítkách e analýza rozptylu komplikovaněší Analýza rozptylu se pak provádí s využitím programů pro lineární regresi kdy se modely AOVA uvažuí ako speciální regresní modely s vysvětluícími proměnnými které nabývaí pouze hodnot 0 nebo Pro praktické účely se osvědčue použití přibližného rozkladu celkového součtu čtverců Začíná se výpočtem průměrů ˆµ i n k n k y ik k pro všechny cely Z těchto hodnot se dá odhadnout reziduální součet čtverců S R n k (y ik & ˆµ i ) 2 k Pro výpočet dalších složek rozkladu celkového součtu čtverců se používá ˆµ i o kterých * se uvažue že sou určeny z ekvivalentního počtu pozorování n definovaného vztahem n ( n i & Analýza rozptylu se pak provádí steně ako u vyvážených experimentů s tím že sou ednotlivé součty čtverců definovány vztahy S A n ( (ˆµ i & ˆµ) 2 S B n ( (ˆµ & ˆµ) 2 s ( - ) stupni volnosti s ( - ) stupni volnosti a S AB n ( V těchto vztazích e použito označení (ˆµ i & ˆµ i & ˆµ % ˆµ) 2 s ( - )( - ) stupni volnosti

5 ˆµ i ˆµ i ˆµ ˆµ i ˆµ s 2 i s 2 i ˆµ i ˆµ i Součet S + S + S + S zde iž není přesně roven S ale rozdíly sou poměrně malé A B AB R C Testování hypotéz o řádkových a sloupcových efektech nebo interakcích se provádí steně ako u vyvážených experimentů V případě více opakování v ednotlivých celách lze pro každou z nich určit výběrový rozptyl a pomocí grafu vs testovat případnou závislost rozptylu na střední hodnotě (heteroskedasticitu) Postup nevyvážené dvoufaktorové analýzy rozptylu (AOVA2U) Slouží ke dvoufaktorové analýze rozptylu u nevyvážených experimentů n a modelů i s pevnými efekty Je hledán optimální model AOVA odhadnuty eho parametry a provedeny testy významnosti Vstupem sou pro úrovně A A faktoru A a úrovně B B faktoru B hodnoty {y ik} i = = a o = O Pro všechny testy e standardně uvažována hladina významnosti α = 005 Postup obsahue stené kroky ako postup ednofaktorové analýzy rozptylu: Příprava dat: (a) Velikost výběru (b) Chyběící hodnoty (c) Typ dat (d) Odlehlé hodnoty 2 Ověření výběrových předpokladů: z opakování v celách (a) áhodnost (b) ezávislost (c) ormalita (d) Homoskedasticita 3 Průměry a efekty úrovní: sou vypočteny odhady: celkový průměr ˆµ řádkové efekty ˆα i sloupcové efekty ˆβ interakční člen ˆτ i a Tukeyho konstanta C 4 Tabulka AOVA: e sestavena tabulka AOVA a provedeny testy významnosti faktorů A B a AB (a) Za předpokladu normality a homoskedasticity: F-testy významnosti faktorů resp interakcí včetně kombinovaných testů pro ověření celkové významnosti faktorů A B (b) Za předpokladu nenormality nebo heteroskedasticity: Friedmanův pořadový neparametrický test 5 Grafy a diagramy: e kreslena závislost výběrových směrodatných odchylek s i v celách na průměrech ˆµ i Pokud e nalezena monotónní závislost lze zadat vhodnou transformaci ve které se provede opakovaná analýza Je konstruován rankitový graf pro rezidua ê ik 55 Opakovatelnost a reprodukovatelnost (O&R analýza)

6 Populárně zvané cechování se týká ověření přesnosti zda dotyčná technika měření e co do přesnosti vhodně zvolena a tím pro experimentální proces přiměřená Je-li proměnlivost měření malá ve srovnání s proměnlivostí experimentálního procesu říkáme že postup měření e adekvátní nebo odpovídaící ení-li e třeba techniku měření zlepšit tak aby vůbec mohla uspokoivě monitorovat experimentální proces Jsou-li například míry opracovaného výrobku uváděny v toleranci milimetrů nelze použít techniku měřením měřidlem které má čtení enom v centimetrech O&R analýza rozdělue celkovou proměnlivost do dvou složek: Složky měřicí techniky a 2 složky procesní týkaící se vlastního experimentálního procesu Proměn-livost složky měření e pak dále rozdělena: Do složky operátora O což vlastně představue reprodukovatelnost a 2 složky měřicí techniky V což e opakovatelnost Je důležité zdůraznit že O&R analýza se týká enom přesnosti složky měření Data pro tuto analýzu pocházeí z experimentu zvláště postaveného enom a enom k tomuto účelu ení proto možné kombinovat O&R analýzu s ostatními experimenty v laboratoři Platí obecné pravidlo: náhodné chyby měření by neměly být větší než edna desetina rozptylu procesu O&R analýza zišťue aká část pozorovaného rozptylu procesu náleží rozptylu měřicího systému AOVA rozdělue eště reprodukova-telnost na vliv operátora a interakci operátorvzorek Analýzu rozptylu vyšetřovaného experimentálního plánu vystihue model AOVA y ik µ % V i % O % (VO) i % g ik kde i = I = J k = a V i O (VO) i g ik sou nezávislé normální náhodné proměnné se střední hodnotou nula a rozptyly σ 2 V σ2 O σ2 VO a σ 2 g Tyto rozptyly sou často označovány ako složky rozptylu nazývané také rozptylové komponenty V tomto modelu AOVA shodném s modelem AOVA pro vyváženou dvoufaktorovou analýzu rozptylu značí písmeno V náhodný vzorek písmeno O udává operátora a písmeno g náhodnou chybu Dále v modelu označíme složku rozptylu za opakovatelnost dále složku rozptylu γ = σ 2 g + σ 2 VO za reprodukovatelnost složku rozptylu γ σ 2 O σ 2 VO σ 2 2 = + + g za celkovou proměnlivost měření která se také někdy nazývá O&R hodnota Proměnlivost procesu od vzorku k vzorku představue další složku rozptylu σ 2 V Poměr který porovnává dvě složky rozptylu a sice proměnlivost experimentálního procesu vůči proměnlivosti samotného měření e dán vzorcem σ 2 O δ σ 2 V σ 2 O % σ2 VO % σ2 g V literatuře e popsána řada kritérií k posouzení O&R hodnot V automobilovém průmyslu se užívá kritérium SR (Signal-to-oise Ratio) poměr signálu vůči šumu vyčíslené vzorcem SR = %δ a dále rozhodčí kategorie R = %(2δ) Existuí dvě populární míry k porovnání rozptylu vůči toleranci v nichž se za toleranci bere rozdíl horní a dolní toleranční meze HSL - DSL Jsou to ednak chyba měření dle vzorce 3 σ 2 O % σ2 VO % σ2 g HSL & DSL 00%

a dále poměr přesnosti vůči toleranci PT = 2 Obě kritéria sou obvykle vyčíslována spolu se svými intervaly spolehlivosti Cílem analýzy e vyčíslit tyto hodnoty a rozhodnout zda padnou do předem určeného intervalu 7