Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Podobné dokumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednofaktorová analýza rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Statistická analýza jednorozměrných dat

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Úvod do analýzy rozptylu

Testování statistických hypotéz

7. Analýza rozptylu.

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Testy statistických hypotéz

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Jednofaktorová analýza rozptylu

Stručný úvod do testování statistických hypotéz

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Ing. Michael Rost, Ph.D.

12. cvičení z PST. 20. prosince 2017

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Analýza rozptylu. Přednáška STATISTIKA II - EKONOMETRIE. Jiří Neubauer

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

PRAVDĚPODOBNOST A STATISTIKA

You created this PDF from an application that is not licensed to print to novapdf printer (

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování statistických hypotéz

S E M E S T R Á L N Í

KGG/STG Statistika pro geografy

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Přednáška IX. Analýza rozptylu (ANOVA)

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Testování statistických hypotéz. Obecný postup

15. T e s t o v á n í h y p o t é z

Jana Vránová, 3. lékařská fakulta UK

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Normální (Gaussovo) rozdělení

Aproximace binomického rozdělení normálním

Zápočtová práce STATISTIKA I

4ST201 STATISTIKA CVIČENÍ Č. 7

15. T e s t o v á n í h y p o t é z

Testy. Pavel Provinský. 19. listopadu 2013

= = 2368

Normální (Gaussovo) rozdělení

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

Tomáš Karel LS 2012/2013

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Sever Jih Západ Plechovka Točené Sever Jih Západ Součty Plechovka Točené Součty

Pravděpodobnost a aplikovaná statistika

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Statistické metody v ekonomii: Teoretická východiska, Jednofaktorová a dvoufaktorová analýza rozptlylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

TECHNICKÁ UNIVERZITA V LIBERCI

Charakteristika datového souboru

Průzkumová analýza dat

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

3 ANALÝZA ROZPTYLU ANOVA

ADDS cviceni. Pavlina Kuranova

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Neparametrické metody

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Plánování experimentu

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

PRAVDĚPODOBNOST A STATISTIKA

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

4EK211 Základy ekonometrie

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Návod na vypracování semestrálního projektu

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Přednáška X. Testování hypotéz o kvantitativních proměnných

Testování statistických hypotéz

Regresní a korelační analýza

5. T e s t o v á n í h y p o t é z

Statistika (KMI/PSTAT)

Základní statistické metody v rizikovém inženýrství

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Testování hypotéz. 4. přednáška

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Transkript:

Problematika analýzy rozptylu Ing. Michael Rost, Ph.D.

Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít tyto parametrické testy? V praxi se můžeme setkat se situací, ve které potřebujeme simultánně otestovat shodu k středních hodnot, kde k je větší než 2. Jak to provést, to bude náplní této přednášky ; ) Uvažujme následující příklad:

Příklad Klinickou studíı byla sledována závislost mezi dietou a dobou, za kterou dojde ke koagulaci krve. Byly naměřeny tyto hodnoty: Typ diety A B C D 62 63 68 56 60 67 66 62 63 71 71 60 59 64 67 68 64 65 68 63 65 66 68 64 62 58 63 63 62 59 63 59 y ij Mají různé diety vliv na dobu, za kterou dojde ke koagulaci krve?

Příklad

Výchozí situace Situaci které čeĺıme, lze obecně popsat následujícím způsobem (předpokládáme, že máme k souborů): číslo počet zjištěné hodnoty průměr rozptyl výběru prvků sledovaného znaku 1 n 1 y 11, y 12,, y 1j,, y 1n1 ȳ 1 s 2 1 2 n 2 y 21, y 22,, y 2j,, y 2n2 ȳ 2 s 2 2..... i. n i. y i1, y i2,, y ij,, y ini. ȳ i. s 2 i. k n k y k1, y k2,, y kj,, y knk ȳ k s 2 k

Obecný postup 1. Zformulovat hypotézy: H 0 vs. H A. 2. Ověření předpokladů Poznámka : Uvědomte si, že pokud provádíte formální analýzu či statistické testování, při kterém využíváte p-value, vycházíte zároveň z jistých předpokladů. Ty však nemusí být splněny. Stupeň validity získaného p-value záleží na tom jakou shodu vykazují naše data s teoretickými rozděleními. Proto každopádně ověřujte předpoklady vašich modelů!

Ověření předpokladů Před vlastní analýzou rozptylu je nutno odpovědět na několik otázek: Pochází jednotlivé výběry z normálního rozdělení? Jsou jednotlivé výběry nezávislé? Lze se domnívat, že výběry mají shodné rozptyly? První a třetí požadavek lze ověřit prostřednictvím různých testů.

Obecný postup pokračování 2. Stanovit hodnotu α, nejčastěji voĺıme α = 0, 05 nebo α = 0, 01. 3. Zvolit adekvátní testové kritérium a stanovit hodnotu testového kritéria 4. Zjistit zda F K nebo zda p-value α 5. Závěr

Specifikace nulové a alternativní hypotézy V případě že potřebujeme simultánně otestovat shodu k středních hodnot, je nulová a alternativní hypotéza specifikována jako: H 0 : µ 1 = µ 2 =... = µ k 1 = µ k H A : non H 0. Zároveň však testujeme ještě homoskedasiticitu: H 0 : σ 2 1 = σ2 2 =... = σ2 k 1 = σ2 k H A : non H 0, a tu testujeme zpravidla jako první!!!

Testování homoskedasticity

Testy homoskedasticity Předpoklad homoskedasticity (shody rozptylů) je možno otestovat například prostřednictvím tzv. Bartlettova testu. Bartlettův test je univerzálním testem v tom smyslu, že jej lze využít k hodnocení homoskedasticity u vyvážených i nevyvážených souborů. Testujeme hypotézu: H 0 : σ 2 1 = σ2 2 = = σ2 k, H A : non H 0. Testovým kritériem Bartlettova testu je veličina B, která je definována jako B = [(n k)ln s 2 k (n i 1)ln s 2 i ]/C. i=1

Testy homoskedasticity Platí-li H 0 a je-li n i 6, pak přibližně platí B χ 2 (k 1). Testovanou hypotézu zamítáme pokud platí B χ 2 1 α (k 1). Jednotlivé symboly využité při výpočtu testové statistiky lze definovat takto: s 2 i = 1 n i 1 celkový rozptyl s jako a konstantu C C = 1 + n i j=1 s = 1 n 1 k i=1 (y ij ȳ i ) 2 i = 1,, k, k n i i=1 j=1 (y ij ȳ i ) 2, 1 n i 1 1 /3(k 1). n k

Hartleyův test Dalším testem je tzv. Hartleyův test homoskedasticity. Testovací statistika má v případě Hartleyova testu tvar: Fmax = max s2 i min s 2. i Ke stanovení kritického oboru je nutno využít speciálně sestrojených tabulek, nebot testovaná dvojice rozptylů není náhodně zvolena. Nulovou hypotézu o shodě rozptylů zamítáme na hladině významnosti α, pokud testovací statistika Fmax překročí jistou kritickou hodnotu.

Cochranův test Dalším testem pro ověření homoskedasticity je tzv. Cochranův test. V případě jeho použití zamítáme H 0, hypotézu pokud hodnota testového kritéria s 2 max C = s 2 1 + s2 2 +... + s2 k překročí kritickou hodnotu Cochranovy statistiky. Jinými slovy, pokud hodnota C bude náležet do kritického oboru, který je definován jako K = {C C 1 α (k, n 1)}, pak zamítáme hypotézu o shodě rozptylů.

Levenův test homogenity rozptylů Levenův test v podstatě provádí analýzu rozptylu na reziduích. Využívá přitom proměnnou z ij = y ij ȳ i pro i = 1, 2,, k a j = 1, 2,, n i. Výsledná hodnota testové statistiky F je porovnávána s kritickou hodnotou F -rozdělení s k 1 a n k stupni volnosti. Pro jisté případy jsou navrženy i modifikace Levenova testu. V případě šikmosti souboru lze využít místo ȳ i. mediánu. V případě výrazné špičatosti souboru je pak místo ȳ i. doporučován 10 % ořezaný průměr.

Analýza rozptylu - ANOVA Necht Y ij je náhodnou veličinou označující j-té pozorování v rámci i-té skupiny. Symbol y ij pak bude představovat pozorovanou hodnotu veličiny Y ij získanou provedením experimentu. Symbolem n i označíme počet pozorování v i-té skupině. Průměry v jednotlivých skupinách tj. ȳ 1, ȳ 2,, ȳ k získáme jako ȳ i = 1 n i n i j=1 y ij.

Analýza rozptylu - ANOVA Rozptyly uvnitř jednotlivých skupin označíme jako s 2 i, kde i = 1, 2,, k. Je zřejmé, že: s 2 i = 1 n i 1 n i j=1 (y ij ȳ i ) 2 Vnitroskupinová tzv. průměrná reziduální suma čtverců: MSS r = 1 n k k n i i=1 j=1 (y ij ȳ i ) 2

Analýza rozptylu - ANOVA Celkový průměr označíme jako ȳ kde ȳ = 1 n k n i i=1 j=1 y ij n = k i=1 n i. Průměrná suma čtverců vlivem různých úrovní faktorů (skripta: Rozptyl mezi třídami): MSS A = 1 k 1 k i=1 n i (ȳ i ȳ) 2

Testové kritérium Testové kritérium F = MSS A MSS r. Kde pro testové kritérium F za platnosti nulové hypotézy platí: F F (v 1 = k 1; v 2 = n k) Pokud symbolem F označíme hodnotu testového kritéria F určenou na základě provedeného experimentu, pak lze p-value definovat takto: P (F(k 1; n k) > F )

Tabulka analýzy rozptylu V podstatě je tato testovací statistika založena na poměru průměrných meziskupinových a vnitroskupinových součtů čtverců. Výsledky analýzy rozptylu se zapisují do tzv. tabulky analýzy rozptylu. Ta měla v minulosti svůj význam z hlediska výpočtů. V nejjednodušším případě má následující podobu: Zdroj Součet Počet stupňů Průměrný F Dosažená variability čtverců volnosti čtverec hladina p Faktor SS A k 1 MSS A = SS A k 1 Reziduální SS r n k MSS r = SS r n k Celkový SS T n 1 F = MSS A MSS r p

Příklad - pokračování