Jednofaktorová analýza rozptylu

Podobné dokumenty
Statistika, Biostatistika pro kombinované studium. Jan Kracík

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

= = 2368

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Jednofaktorová analýza rozptylu

Úvod do analýzy rozptylu

Statistická analýza jednorozměrných dat

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Normální rozložení a odvozená rozložení

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

STATISTICKÉ TESTY VÝZNAMNOSTI

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testování statistických hypotéz

STATISTICKÉ ODHADY Odhady populačních charakteristik

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

Pearsonův korelační koeficient

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Testy statistických hypotéz

Ing. Michael Rost, Ph.D.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

You created this PDF from an application that is not licensed to print to novapdf printer (

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Stručný úvod do testování statistických hypotéz

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

KGG/STG Statistika pro geografy

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Cvičení ze statistiky - 9. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

12. cvičení z PST. 20. prosince 2017

Zápočtová práce STATISTIKA I

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Charakteristika datového souboru

Normální (Gaussovo) rozdělení

4EK211 Základy ekonometrie

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

, Brno Hanuš Vavrčík Základy statistiky ve vědě

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

4ST201 STATISTIKA CVIČENÍ Č. 7

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Přednáška IX. Analýza rozptylu (ANOVA)

Vzorová prezentace do předmětu Statistika

Testování hypotéz. 4. přednáška

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Normální (Gaussovo) rozdělení

Jana Vránová, 3. lékařská fakulta UK

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

STATISTICKÉ TESTY VÝZNAMNOSTI

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Matematická statistika Zimní semestr

STATISTICA Téma 7. Testy na základě více než 2 výběrů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

5 Parametrické testy hypotéz

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Regresní a korelační analýza

Statistika pro geografy

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Pravděpodobnost a aplikovaná statistika

Regresní analýza 1. Regresní analýza

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

MATEMATICKO STATISTICKÉ PARAMETRY ANALYTICKÝCH VÝSLEDKŮ

KGG/STG Statistika pro geografy

KGG/STG Statistika pro geografy

Popisná statistika kvantitativní veličiny

Ranní úvahy o statistice

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

ADDS cviceni. Pavlina Kuranova

I. D i s k r é t n í r o z d ě l e n í

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

LINEÁRNÍ MODELY. Zdeňka Veselá

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Cvičení ze statistiky - 8. Filip Děchtěrenko

p(x) = P (X = x), x R,

15. T e s t o v á n í h y p o t é z

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Transkript:

I I.I Jednofaktorová analýza rozptylu Úvod Jednofaktorová analýza rozptylu (ANOVA) se využívá při porovnání několika středních hodnot. Často se využívá ve vědeckých a lékařských experimentech, při kterých se srovnávají léčby, procesy, materiály nebo produkty. Příklad: Výrobce papíru vyrábí nákupní tašky a rád by zvýšil její možné zatížení (udané v jednotkách psi). Má se za to, že síla tašky závisí na koncentraci tvrdého dřeva v celulóze, jež se k výrobě tašek používá. Byl proveden výzkum, aby se porovnaly čtyři výše koncentrace tvrdého dřeva: 5 %, 10 %, 15 % a 20 %. Při každé výši je vybráno 6 vzorků a všech 24 vzorků je testováno v náhodném pořadí. Výsledky jsou zaznamenány v tabulce: Koncentrace tvrdého dřeva (%) Možné zatížení ( psi ) Výběrový průměr Výběrová směrodatná odchylka 5 7 8 15 11 9 10 10.00 2.83 10 12 17 13 18 19 15 15.67 2.81 15 14 18 19 17 16 18 17.00 1.79 20 19 25 22 23 18 20 21.17 2.64 Celkem 15.96 4.72 Zdroj: Aplikovaná statistika a pravděpodobnost pro inženýry Montgomery a Runger Handout 1 Statistika 2

Jak bylo uvedeno výše, při metodě ANOVA se ptáme na otázku: Pochází všechny pozorované skupiny z jedné populace se stejnou střední hodnotou?. Abychom mohli odpovědět, potřebujeme porovnat výběrové průměry. Nicméně i kdyby byly skutečné střední hodnoty populace identické, neočekávali bychom, že budou také výběrové průměry naprosto stejné. Vždy zde budou určité rozdíly odchylky. Otázka se nám proto mění na: Jsou pozorované rozdíly v průměrech výsledkem odchylky způsobené výběrem pouze určitých vzorků, nebo se jedná o reálné rozdíly mezi středními hodnotami populace?. Tato otázka nemůže být zodpovězena pouze na základě získaných výběrových průměrů potřebujeme také znát variabilitu, ať už měříme cokoliv. V metodě ANOVA rozlišujeme meziskupinovou variabilitu (skupinový součet čtverců) ( Jak daleko jsou průměry od sebe? ) a variabilitu ve skupinách (reziduální součet čtverců) ( Jaká je přirozená variabilita uvnitř jednotlivých výběrů v našem měření? ). Právě z tohoto důvodu se také hovoří o analýze rozptylu. ANOVA je založena na dvou předpokladech. Proto musíme vždy předtím, než tuto metodu použijeme, zkontrolovat, zda jsou předpoklady splněny: 1. Pozorování v rámci jednotlivých skupin jsou náhodné výběry pocházející z normálního rozložení. 2. Tyto náhodné výběry jsou nezávislé a mají stejný rozpyl (σ 2 ). Naštěstí, procedury metody ANOVA nejsou vysoce citlivé na nestejné rozptyly, a proto může být pro přibližné posouzení shody rozptylů někdy použito následující pravidlo: Důležité tvrzení Pokud je největší směrodatná odchylka (ne rozptyl!) menší než dvakrát nejmenší směrodatná odchylka, můžeme použít metodu ANOVA a naše výsledky budou oprávněné. Proto se před každým testem musíme detailně podívat na data, abychom určili, zda jsou splněny následující předpoklady: 1. Normalita: Pokud máme velmi malé vzorky, může být obtížné určit, zda pochází z normálního rozložení. Můžeme ale zhodnotit, zda jsou přibližně symetrické, a to tak, že (a) porovnáme průměry skupin s jejich mediány - v symetrickém rozložení se budou rovnat nebo (b) zkontrolováním histogramů těchto dat. 2. Stejné rozptyly: Můžeme snadno porovnat směrodatné odchylky skupin. V našem příkladu jsou mediány velice blízké průměrům. Také směrodatné odchylky ve čtyřech skupinách (tabulka na straně 1) jsou si blízké. Tyto výsledky, ukazují, že rozložení možného zatížení na každé úrovni koncentrace tvrdého dřeva jsou symetrické a že jejich variabilita se výrazně nemění. Proto můžeme přistoupit k analýze rozptylu. Handout 2 Statistika 2

I.II I.II.1 Model ANOVA Zápis Obecně, máme-li k pozorování v každé z r populací (skupin), celkový počet pozorování je n = kr. Pak se používá následující zápis: X ij představuje j-té pozorování z i-té skupiny (např. X 13 je třetí pozorování z první skupiny, X 31 je první pozorování ze třetí skupiny atd.); M i. představuje průměr i-té skupiny; M.. představuje průměr všech pozorování. I.II.2 Suma čtverců Celkový rozptyl všech pozorování okolo celkového průměru se vypočítá pomocí celkové sumy čtverců jako S T = r k (X ij M..) 2. i=1 j=1 Rozptyl může být rozdělen na dvě komponenty takto: 1. Rozptyl skupinových průměrů okolo celkového průměru (meziskupinový rozptyl). 2. Rozptyl jednotlivých pozorování okolo průměru jejich skupiny (rozptyl ve skupinách). Vidíme, že r k (X ij M..) 2 = k i=1 j=1 r (M i. M..) 2 + i=1 r k (X ij M i.) 2 i=1 j=1 neboli S T = S A + S E. Slovy: Celková suma čtverců = meziskupinová suma čtverců + suma čtverců ve skupině. Stupně volnosti a průměr čtverců Každá suma čtverců má určitý počet stupňů volnosti: S T porovnává n pozorování s celkovým průměrem, takže má n 1 stupňů volnosti. S A porovnává r průměrů s celkovým průměrem, takže má r 1 stupňů volnosti. S E porovnává n pozorování s r výběry průměrů, takže má n r stupňů volnosti. Handout 3 Statistika 2

Všimněme si, že (n 1) = (n r) + (r 1), tedy stupně volnosti spolu souvisí stejně jako sumy čtverců: f T = f A + f E. Nový pojem: Stupně volnosti Volně řečeno, stupně volnosti ukazují, kolik hodnot se smí lišit. Pokud uvažujeme rozptyly nebo sumy čtverců, můžeme nalézt poslední odchylku v případě, že známe všechny ostatní, jelikož součet odchylek je vždy nulový. Takže pokud máme n odchylek, pouze n 1 se může lišit. Průměr čtverců pro každý zdroj rozptylu je definovaný jako suma čtverců dělená stupni volnosti. Tedy MS A = S A r 1 a MS E = S E n r. I.III F-test Můžeme ukázat, že za platnosti nulové hypotézy a neexistence žádných (neznámých) rozdílů ve středních hodnotách populace jsou si MS A a MS E velice podobné. Na druhou stranu, pokud se (neznámé) střední hodnoty liší, MS A bude větší než MS E (intuitivně pokud se průměry populace velmi liší, očekávali bychom, že jsou vybrané průměry daleko od sebe, a tím pádem i meziskupinová variabilita bude velká). Proto poměr MS A /MS E je statistika, která se rovná přibližně jedné, pokud je nulová hypotéza pravdivá, ale bude větší než 1, pokud lze pozorovat rozdíly v průměrech populace. Poměr MS A /MS E je poměr rozptylů a má Fisherovo rozdělení s r 1 a n r stupni volnosti. Tedy Důležité tvrzení Abychom testovali H 0 : µ 1 = µ 2 = = µ r = µ, používáme statistiku F = MS A MS E porovnáme ji s Fisherovým rozdělením s r 1 a n r stupni volnosti. a Fisherovo rozdělení a F-test Statistický test s názvem F-test se používá k porovnání rozptylů ze dvou normálních populací. Testuje se pomocí F statistiky, tedy poměrem dvou výběrových rozptylů F = s2 1. s 2 2 Za platnosti nulové hypotézy má tato statistika Fisherovo rozdělení s n 1 1 a n 2 1 stupni volnosti, psáno F (n 1 1, n 2 1). Fisherova rozdělení jsou skupinou rozdělení, která závisí na dvou parametrech: stupních volnosti výběrových rozptylů v čitateli a jmenovateli F statistiky. Stupně volnosti v čitateli jsou vždy určeny jako první. Fisherovo rozdělení není symetrické a, jelikož rozptyly nemohou být záporné, nenabývá záporných hodnot. Vrchol jakéhokoliv Fisherova rozdělení je blízký hodnotě 1, hodnoty daleko od 1 vedou k zamítnutí nulové hypotézy. Dva příklady Fisherova rozdělení s různými stupni volnosti jsou zobrazeny na níže uvedeném obrázku. Handout 4 Statistika 2

I.IV ANOVA tabulka Při softwarovém výpočtu analýzy rozptylu dostaneme tzv. ANOVA tabulku, jak je zobrazeno níže. Zatížení papíru Zdroj rozptylu Suma Stupně Průměr čtverců volnosti čtverce F p Meziskupinový 382.79 3 127.60 127.60/6.51 = 19.61 p < 0.001 Uvnitř skupin 130.17 20 6.51 Celkem 512.96 23 Dle výsledků můžeme s velkou jistotou říci, že střední hodnota možného zatížení závisí na koncentraci tvrdého dřeva. Ačkoliv F -test nespecifikuje povahu těchto rozdílů, je patrné, že s rostoucí koncentrací tvrdého dřeva roste také možné zatížení papíru. Lze také testovat více specifické hypotézy například zda jsou průměry rostoucí, či klesající ale těmi se zde nebudeme dále zabývat. Co je to p-hodnota? Pokud by byla střední hodnota možného zatížení papíru při měnící se koncentraci tvrdého dřeva konstantní (tedy pokud by koncentrace nijak neovlivňovala možné zatížení), je pravděpodobnost, že dostaneme výběrové průměry tak daleko od sebe, jako jsme dostali (tedy průměry 10,0; 15,7; 17,0 a 21,0 nebo hodnoty ještě více od sebe) je velice malá méně než 0,001. p-hodnota potom představuje právě tuto pravděpodobnost. Tímto se dále nezabývejme a předpokládejme, že skutečný průměr možného zatížení bude konstantní jen velice nepravděpodobně (tedy zhodnotíme, že koncentrace tvrdého dřeva má vliv na možné zatížení). Handout 5 Statistika 2

Poznámka: Výsledky metody ANOVA jsou založeny na předpokladu, že velikost zkoumaných vzorků je stejná. Obvykle tomu tak bude, většina příkladů je konstruována tak, aby velikost byla stejná. Metodu lze ale také použít tam, kde velikost vzorků stejná není. V tomto případě jsou vzorce pro sumy čtverců a další přeměněny tak, aby s různou velikostí počítaly. Pokud pro výpočet používáte statistický software, je toto provedeno automaticky. Handout 6 Statistika 2