Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání



Podobné dokumenty
Evidence dat v prostředí MS Excelu Kontingenční tabulka a kontingenční graf

Pokud data zadáme přes "Commands" okno: SDF1$X1<-c(1:15) //vytvoření řady čísel od 1 do 15 SDF1$Y1<-c(1.5,3,4.5,5,6,8,9,11,13,14,15,16,18.

V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů).

VYUŽITÍ NEURONOVÝCH SÍTÍ PROSTŘEDÍ MATLAB K PREDIKCI HODNOT NÁKLADŮ PRO ELEKTRICKÉ OBLOUKOVÉ PECE

1.11 Vliv intenzity záření na výkon fotovoltaických článků

Registrace programů VIS

5. cvičení 4ST201_řešení

ROZCVIČKY. (v nižší verzi může být posunuta grafika a špatně funkční některé odkazy).

Skupina Testování obsahuje následující moduly: Síla a rozsah výběru, Testy a Kontingenční tabulka.

Jednotný vizuální styl: podpis v ové korespondenci.

Na následující stránce je poskytnuta informace o tom, komu je tento produkt určen. Pro vyplnění nového hlášení se klikněte na tlačítko Zadat nové

Algoritmizace a programování

V této části manuálu bude popsán postup jak vytvářet a modifikovat stránky v publikačním systému Moris a jak plně využít všech možností systému.

DYNAMICKÉ VÝPOČTY PROGRAMEM ESA PT

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

M - Příprava na čtvrtletní písemnou práci

WordBase Postup pro zpracování dokumentů

Magnetic Levitation Control

Neuronová síť. x 2 x 3. σ j. x 4. x 5. Menu: QCExpert Prediktivní metody

SimOS. Jakub Doležal Radek Hlaváček Michael Očenášek Marek Reimer

Žáci mají k dispozici pracovní list. Formou kolektivní diskuze a výkladu si osvojí grafickou minimalizaci zápisu logické funkce

Metody hodnocení rizik

STANOVISKO č. STAN/1/2006 ze dne

Aktivity s GPS 3. Měření některých fyzikálních veličin

Návod k obsluze programu ERVE4

Uložení potrubí. Postupy pro navrhování, provoz, kontrolu a údržbu. Volba a hodnocení rezervy posuvu podpěr potrubí

1.2.7 Druhá odmocnina

1.3 Druhy a metody měření

Poukázky v obálkách. MOJESODEXO.CZ - Poukázky v obálkách Uživatelská příručka MOJESODEXO.CZ. Uživatelská příručka. Strana 1 / 1. Verze aplikace: 1.4.

Cvičení 3 z předmětu CAD I PARAMETRICKÉ 3D MODELOVÁNÍ

Autodesk Inventor 8 vysunutí

Algoritmizace a programování

Seznámení žáků s pojmem makra, možnosti využití, praktické vytvoření makra.

Návod na použití FEM programu RillFEM Jevy na chladiči

Statistika ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA DOPRAVNÍ. Jiří Volf, Adam Kratochvíl, Kateřina Žáková. Semestrální práce - 0 -

4. cvičení: Pole kruhové, rovinné, Tělesa editace těles (sjednocení, rozdíl, ), tvorba složených objektů

téma: Formuláře v MS Access

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE FAKULTA ELEKTROTECHNICKÁ BAKALÁŘSKÁ PRÁCE. Jakub Klíma

STATICKÁ ÚNOSNOST 3D MODELU SVĚRNÉHO SPOJE

6. Lineární regresní modely

POUŽÍVÁME TABULKY A GRAFY VE VÝUCE

5.2.2 Rovinné zrcadlo

primární tlačítko (obvykle levé). Klepnutí se nejčastěji používá k výběru (označení) položky nebo k otevření nabídky.

TVORBA MULTIMEDIÁLNÍCH PREZENTACÍ. Mgr. Jan Straka

Grafický manuál jednotného vizuálního stylu

Výsledky přijímacích zkoušek

ProClima 5.2. software pro návrh řízení teploty v rozvaděčích nn

Obsah. Obsah. Úvod... 7

Návrh induktoru a vysokofrekven ního transformátoru

Digitální učební materiál

2 Trochu teorie. Tab. 1: Tabulka pˇrepravních nákladů

Vyvažování tuhého rotoru v jedné rovině přístrojem Adash Vibrio

Space dimension : 3D RF Module, Electromagnetic Waves, Eigenfrequency analysis

Ohmův zákon pro uzavřený obvod

NÁVOD K OBSLUZE PRO REGULÁTOR KOMEXTHERM STABIL 02.2 D

Zapojení horního spína e pro dlouhé doby sepnutí III

4 Část II Základy práce v systému. 6 Část III Úvodní obrazovka. 8 Část IV Práce s přehledy. 13 Část V Kontakty. 19 Část VI Operativa

Microsoft Office Project 2003 Úkoly projektu 1. Začátek práce na projektu 1.1 Nastavení data projektu Plánovat od Datum zahájení Datum dokončení

doc. Ing. Martin Hynek, PhD. a kolektiv verze Tento projekt je spolufinancován Evropským sociálním fondem a státním rozpočtem České republiky

Modul Řízení objednávek.

Obsah 1. Grafický manuál firmy 2. Podklady grafického manuálu 3. Varianty loga 4. Logo a logotyp

Jak pracovat s kalkulačním programem HELUZ komín

Střední průmyslová škola a Vyšší odborná škola technická Brno, Sokolská 1

Metodika kontroly naplněnosti pracovních míst

Ekvitermní regulátory, prostorová regulace a příslušenství

tvarovka průběžná celá tvarovka ukončující celá tvarovka ukončující poloviční tvarovka sloupková měrná jednotka ks/m 2 paleta / ks 1 kus / kg

KVALIFIKAČNÍ DOKUMENTACE k veřejné zakázce zadávané podle zákona č. 137/2006 Sb., o veřejných zakázkách, ve znění pozdějších předpisů

ODŮVODNĚNÍ VEŘEJNÉ ZAKÁZKY

Lineární Regrese Hašovací Funkce

KATALOGY PROTECH. Dialogové okno obsahuje seznamy Katalogy editace, Katalogy výběr a seznam Tabulky.

Škola VOŠ a SPŠE Plzeň, IČO , REDIZO

TIP: Pro vložení konce stránky můžete použít klávesovou zkratku CTRL + Enter.

Termostatický směšovací ventil Technický popis. Max. pracovní tlak: 1 MPa = 10 bar

3. Polynomy Verze 338.

Programový komplet pro evidence provozu jídelny v modul Sklad Sviták Bechyně Ladislav Sviták hotline: 608/

Sada 2 Microsoft Word 2007

Zadání. Založení projektu

STP097 STATISTIKA CVIČENÍ EMPIRICKÁ DISTRIBUČNÍ FUNKCE, JEDNOVÝBĚROVÉ TESTY

Tlačítkový spínač s regulací svitu pro LED pásky TOL-02

TRANSFORMACE. Verze 4.0

SMĚRNICE EVROPSKÉHO PARLAMENTU A RADY 2009/76/ES

Uložené procedury Úvod ulehčit správu zabezpečení rychleji

SNÍMAČ T3110. Programovatelný snímač teploty, relativní vlhkosti a dalších odvozených vlhkostních veličin s výstupy 4-20 ma.

DUM 05 téma: Základy obsluha Gimp

10 Ostatní aplikace desek CETRIS Záhonový obrubník CETRIS.

Mikromarz. CharGraph. Programovatelný výpočtový měřič fyzikálních veličin. Panel Version. Stručná charakteristika:

1. PROSTŘEDÍ PROGRAMU. Pás karet se záložkami (na obrázku aktivovaná karta Domů ) Hlavní okno, ve kterém se edituje aktuální snímek prezentace

MSSF Benefit praktický průvodce pro žadatele v rámci Operačního programu Rozvoj lidských zdrojů

Aplikované úlohy Solid Edge. SPŠSE a VOŠ Liberec. Ing. Jiří Haňáček [ÚLOHA 03 VYSUNUTÍ TAŽENÍM A SPOJENÍM PROFILŮ.]

Zálohování a obnova Uživatelská příručka

Specifikace pravidel hodnocení pro vzdělávací obor: český jazyk a literatura

Výsledky zpracujte do tabulek a grafů; v pracovní oblasti si zvolte bod a v tomto bodě vypočítejte diferenciální odpor.

Regresní analýza. Statistika II. Jiří Neubauer. Katedra ekonometrie FEM UO Brno kancelář 69a, tel

Mechanismy. Vazby členů v mechanismech (v rovině):

Abstrakt. Klíčová slova. Statistika v Excelu, analýza dat, soubor, Excel. Abstract

MINISTERSTVO PRO MÍSTNÍ ROZVOJ UŽIVATELSKÁ PŘÍRUČKA IS KP 14+ PRO INTEGROVANÉ NÁSTROJE: ŽÁDOST O PODPORU STRATEGIE CLLD. Verze: 1.

Návod k použití aplikace MARKETINGOVÉ PRŮZKUMY.CZ

PŘÍLOHA č. 2C PŘÍRUČKA IS KP14+ PRO OPTP - ZPRÁVA O REALIZACI

Katedra obecné elektrotechniky Fakulta elektrotechniky a informatiky, VŠB - TU Ostrava 16. ZÁKLADY LOGICKÉHO ŘÍZENÍ

Transkript:

Analýza variance (ANOVA) - jednocestná; faktor s pevným efektem; mnohonásobná srovnání 1. Analýzu variance (ANOVu) používáme při studiu problémů, kdy máme závislou proměnou spojitého typu a nezávislé proměnné jsou kategoriální (faktory). Faktory jsou dvojího typu, pevné (fixní) a náhodné, a závisí na nich to, jak se ANOVA vypočítá (kromě jednocestné ANOVy, kdy je výpočet shodný jak pro model s pevnými tak i pro model s náhodnými faktory). V prvním příkladu studujeme, zda výška rostliny závisí na množství zálivky. Při pokusu zaléváme jednu skupinu rostlin standardním množstvím vody a druhou skupinu dvojnásobným množstvím. zálivka 1 1 1 1 1 1 2 2 2 2 2 2 výška rostlin [cm] 33 35 36 38 40 42 52 53 56 63 62 60 Zálivka: 1 - kontrola, 2 - dvojnásobná zálivka Pokud data neimportujeme či nezadáváme přímo do tabulky datové sestavy, můžeme použít příkazového řádku. Použijeme sestavu SDF1, kdy proměnná Data4 obsahuje výšky rostlin a jsou úrovně zálivky. SDF1$Data4<-c(33, 35, 36, 38, 40, 42, 52, 53, 56, 63, 62, 60) SDF1$<-factor(rep(c(1,2), c(6, 6))) funkce rep má dva parametry: opakované číslo (či sekvence čísel) a počet opakování Výsledná datová sestava je na obrázku. Vzhledem k tomu, že jsme proměnnou "" definovali jako typ "factor", po kliknutí do pole jsou automaticky k dispozici použité hladiny faktoru. Další hladiny faktoru můžeme doplnit do pole "Factor Levels", toto okno je k dispozici po kliknutí pravým tlačítkem do sloupce a zvolení položky Properties.... Při importu dat je důležité převést proměnné s faktorem na datový typ "faktor".

Základem analýzy variance je stanovit, na jaké hladině pravděpodobnosti chyby I. řádu můžeme zamítnout, že míra zálivky nemá vliv na růst rostlin (nulová hypotéza). Před samotnou analýzou je vhodné provést alespoň grafickou kontrolu zadaných dat. Krabicový diagram pro hladiny faktoru nalezneme v menu Graph>2D Plot...>Box Plot (x, grouping-optional) a poté do pole "x Column" jako shlukující proměnnou. 60 Data4 50 40 30 1 2 Náš příklad se zalévanými rostlinami je model ANOVy s pevnými efekty. V S+ je tato analýza pod menu Statistics>ANOVA>Fixed Effects... Závislá proměnná je Data4, nezávislá. Po výběru proměnných se automaticky vytvoří požadovaný vzorec, v našem případě Data4~. Pokud potřebujeme data transformovat, použijeme široké možnosti tvorby vzorců pod nabídkou "Create Formula". Na záložce "Results" zaškrtneme "Short Output", "Type I Sum of Squares" a "Means". Dále bychom měli zkontrolovat, jak vypadají reziduály z analýzy. Pokud s nimi budeme dále pracovat,

hodnoty reziduálů uložíme zaškrtnutím položky "Saved Results>Residuals" a vybráním Datové sestavy kam budou uloženy. Na záložce "Plot" zaškrtneme "Residuals vs. Fit" a "Residuals Normal QQ". K záložce "Compare" se vrátíme později, až budeme řešit složitější design než v případě jednocestné ANOVy s dvěma hladinami faktoru. Výsledek analýzy: 10 10 Residuals -6-4 -2 0 2 4 7 8 Residuals -6-4 -2 0 2 4 8 7-1 0 1 Quantiles of Standard Normal 40 45 50 55 Fitted : Grafické posouzení reziduálů ukazuje, že není narušen předpoklad normality rozložení reziduálů a také variance reziduálů pro každý faktor nejsou výrazně odlišné. Smyslem ANOVy je zjistit, zda je variance mezi skupinami (mezi hladinami faktoru) signifikantně vyšší než variance uvnitř skupin (v rámci jednotlivých hladin faktoru). Testujeme tedy podíl variance mezi skupinami a variance uvnitř skupin (F hodnota). *** Analysis of Variance Model *** Short Output: Call: aov(formula = Data4 ~, data = SDF1, qr = T, na.action = na.exclude) Terms: Residuals Sum of Squares 1240.333 164.667 Deg. of Freedom 1 10 Residual standard error: 4.057914 Estimated effects are balanced Df Sum of Sq Mean Sq F Value Pr(F) 1 1240.333 1240.333 75.32389 5.729512e-006 Residuals 10 164.667 16.467 Tables of means Grand mean 47.5

1 2 37.333 57.667 Oddíl "Call" shrnuje, co bylo počítáno. Výsledky analýzy jsou v oddílu "Terms". Stupně volnosti jsou pro faktor se dvěma hladinami rovny 1 (počet hladin-1), stupně volnosti pro reziduální variabilitu odpovídají počtu měření (12) sníženému o počet hladin faktoru (2), tedy 10. "Mean Square" je "Sum of Squares" dělená odpovídajícím počtem stupňů volnosti. Testovací kritérium, F hodnota, je průměrný středního čtverce faktoru a průměrného čtverce reziduálů. "Pr (F)" udává hladinu pravděpodobnosti odpovídající získané hodnotě F statistiky. Můžeme tedy zamítnout nulovou hypotézu a na dosažené hladině pravděpodobnosti přijmout alternativní hypotézu, že vyšší míra zálivky znamená průkazně vyšší růst rostlin. Poslední částí výsledků je tabulka průměrů pro jednotlivé hladiny faktoru. V případě, že naše data nesplňují předpoklady pro použití parametrické ANOVy, je k dispozici neparametrická ANOVA (Kruskal-Wallisova). Ta je založena na pořadí hodnot a testování polohy mediánů. V S+ je dostupná v menu Statistics>Compare Samples>k Samples>Kruskal- Wallis Rank Test. 2. Mnohonásobná porovnání, jednocestná analýza variance s faktorem s pevným efektem Do předchozího datového souboru přidáme další hladinu faktoru zalévání (trojnásobná zálivka). zálivka 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 výška rostlin [cm] 33 35 36 38 40 42 52 53 56 63 62 60 59 61 62 67 60 63 Po zobrazení krabicového diagramu pro hladiny faktoru můžeme předpokládat, že rozdíly budou mezi první hladinou faktoru a zbývajícími dvěma, avšak mezi druhou a třetí již rozdíl nejspíš nebude. 70 60 Data4 50 40 30 1 2 3

Analýzu zadáme jako v předchozím příkladě. Pro zodpovězení otázky, které hladiny faktoru se mezi sebou liší, musíme spočítat mnohonásobná srovnání. Pokud mnohonásobná srovnání počítáme souběžně s analýzou variance, nalezneme je na záložce "Compare". Pokud je počítáme samostatně, jsou v menu Statistics>ANOVA>Multiple Comparisons... (v tomto případě je však potřeba mít analýzu předem uloženou jako "Model Object"). V tomto okně je několik možností jaké testy provést. Volba testů je různá při párových srovnání před vlastní ANOVou (a priori) a jiné jsou pro párové testy až na základě průkazného výsledku ANOVy (a posteriori). Před použitím těchto testů je vhodné zkontrolovat v nápovědě jak je dané srovnání počítáno. My v tomto příkladě použijeme Tukey test. V podokně "Variable" vybereme který faktor studujeme a v podokně "Results" zaškrtneme grafické zobrazení konfidenčních intervalů (Plot Intervals). Grafy reziduí opět nevykazují nějaké narušení předpokladů ANOVy a výsledek analýzy je vysoce průkazný. Df Sum of Sq Mean Sq F Value Pr(F) 2 2081.333 1040.667 76.27036 1.379691e-008 Residuals 15 204.667 13.644 1 2 3 37.333 57.667 62.000 Následná tabulka mnohonásobného srovnání potvrzuje náš předpoklad. Na naší stanovené hladině významnosti 0.05 jsou rozdíly mezi normálním a zvýšenými zalévacími režimy, ale již není rozdíl mezi dvoj a troj násobnou dávkou zálivky. 95 % simultaneous confidence intervals for specified linear combinations, by the Tukey method critical point: 2.5979 response variable: Data4

intervals excluding 0 are flagged by '****' Estimate Std.Error Lower Bound Upper Bound 1-2 -20.30 2.13-25.90-14.80 **** 1-3 -24.70 2.13-30.20-19.10 **** 2-3 -4.33 2.13-9.87 1.21 1-2 1-3 2-3 ( ( ) ) ( ) -32-28 -24-20 -16-12 -8-6 -4-2 0 2 simultaneous 95 % confidence limits, Tukey method response variable: Data4 To samé zobrazuje i graf konfidenčních intervalů. V případě, že máme nás nezajímají mnohonásobná srovnání mezi všemi proměnnými navzájem a jde nám např. o porovnání efektu oproti kontrole, můžeme z nabídky mnohonásobných srovnání vybrat metodu mcc, kdy vybereme co je kontrola. Pokud chceme spočítat průměry (ale můžeme i jiné charakteristiky) pro určité skupiny použijeme v S+ funkci tapply (proměnná, definice skupin, požadovaná charakteristika). V případě předchozího příkladu a spočtení průměrů píšeme: tapply (Data4,, mean). Další použití funce tapply si ukážeme v příkladu se dvěma faktory. Výpočty stupňů volnosti v tabulce ANOVY df ošetření k-1 (k počet hladin faktoru ošetření) error k(n-1) (n počet opakování v rámci jedné hladiny faktoru) total kn-1 Tento materiál byl vytvořen na základě příkladů a textů P. Sklenáře pro kurz biostatistiky v NCSS.