Úvod do analýzy rozptylu

Podobné dokumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednofaktorová analýza rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

STATISTICKÉ TESTY VÝZNAMNOSTI

= = 2368

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

STATISTICKÉ TESTY VÝZNAMNOSTI

Jednofaktorová analýza rozptylu

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

12. cvičení z PST. 20. prosince 2017

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování statistických hypotéz

7. Analýza rozptylu.

STATISTICA Téma 7. Testy na základě více než 2 výběrů

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Stručný úvod do testování statistických hypotéz

Náhodné veličiny, náhodné chyby

Neparametrické metody

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

KGG/STG Statistika pro geografy

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

4ST201 STATISTIKA CVIČENÍ Č. 7

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistická analýza jednorozměrných dat

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

You created this PDF from an application that is not licensed to print to novapdf printer (

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Testy statistických hypotéz

ADDS cviceni. Pavlina Kuranova

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Dvouvýběrové a párové testy. Komentované řešení pomocí MS Excel

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Testy. Pavel Provinský. 19. listopadu 2013

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Příklady na testy hypotéz o parametrech normálního rozdělení

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Jana Vránová, 3. lékařská fakulta UK

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Cvičení 9: Neparametrické úlohy o mediánech

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Normální (Gaussovo) rozdělení

Přednáška IX. Analýza rozptylu (ANOVA)

Jednostranné intervaly spolehlivosti

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Testování statistických hypotéz

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Návod na vypracování semestrálního projektu

Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Plánování experimentu

Regresní a korelační analýza

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Cvičení ze statistiky - 9. Filip Děchtěrenko

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Testy pro porovnání vlastností dvou skupin

Testování hypotéz o parametrech regresního modelu

Normální (Gaussovo) rozdělení

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Testování hypotéz o parametrech regresního modelu

PRAVDĚPODOBNOST A STATISTIKA

Regresní a korelační analýza

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Vzorová prezentace do předmětu Statistika

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

MÍRY ZÁVISLOSTI (KORELACE A REGRESE)

15. T e s t o v á n í h y p o t é z

3 ANALÝZA ROZPTYLU ANOVA

Tomáš Karel LS 2012/2013

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Statistické testování hypotéz II

Statistické metody uţívané při ověřování platnosti hypotéz

Neparametrické testy

NEPARAMETRICKÉ TESTY

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Testování hypotéz. 4. přednáška

MATEMATIKA III V PŘÍKLADECH

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

Cvičení 12: Binární logistická regrese

Analýza rozptylu. Statistika II. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

Transkript:

Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme potřebovali párové hodnoty předúpravourežimuaponěm. Nyní chceme dodatečně provést porovnání HDL cholesterolu u školáků z různých škol včetně školy s úpravou režimu stravování, abychom mohli posoudit, zda se od sebe statisticky významně odlišují. Pro porovnání dvou skupin bychom nejprve zjistili, zda se statisticky liší rozptyl výběrů, a pak použili dvouvýběrový t-test pro shodné nebo rozdílné rozptyly. Pro porovnání více skupin ale existuje jednoduchá metoda, pomocí které určíme statistickou významnost rozdílu středních hodnot těchto skupin současně. Jedná se o ANALÝZU ROZPTYLU.

Úvod do analýzy rozptylu Analýza rozptylu je soubor postupů induktivní statistiky užívaných při testování hypotéz o středních hodnotách při různém, často i složitém uspořádání experimentu, kdy testujeme více než 2 skupiny. Na rozdíl od toho, co má v názvu, neslouží k testování rozptylu, ale k ověření nulové hypotézy o shodě středních hodnot: H 0 : Testované skupiny se od sebe statisticky významně neliší ve střední hodnotě. Proč se tedy tato metoda jmenuje ANALÝZA ROZPTYLU? Protože postup této metody je založen na rozkladu (analýze) rozptylu na dvě složky (uvnitř výběrů a mezi výběry) a na jejich porovnání.

ANALÝZA ROZPTYLU předpoklady pro použití Pro použití ANALÝZY ROZPTYLU musí být splněny tyto předpoklady: normální rozdělení (sledovaná veličina musí mít normální nebo alespoň přibližně normální rozložení) shoda rozptylů (rozptyl testovaných souborů se nesmí statisticky významně lišit) nezávislost pozorování a reprezentativnost souboru (soubor by měl obsahovat dostatečný počet měření, která se nesmí opakovat)

Princip analýzy rozptylu Princip analýzy rozptylu ukážeme na jednoduchém příkladu: Mějme 3 nebo více různých skupin u kterých nás zajímá stejná veličina. Předpokládáme stejný rozptyl. Z každé skupiny uděláme náhodný výběr a změříme sledovanou veličinu. Ptáme se, jestli se střední hodnoty této veličiny ve skupinách statisticky významně liší nebo se naopak statisticky shodujíí. Použijeme k tomu metodu Analýzy rozptylu a budeme ji nazývat ANALÝZA ROZPTYLU s jednoduchým tříděním, protože na objektu byla měřena jen jedna veličina. V Excelu se volba pro výpočet této možnosti nazývá ANOVA: jeden faktor (ANOVA = Analysis Of Variance)

Princip analýzy rozptylu Použití ANALÝZY ROZPTYLU je vázáno na dodržení nutných předpokladů: normální rozdělení sledované veličiny obvykle se ověřuje jinou předcházející studií nebo je to všeobecně známá skutečnost shoda rozptylů testuje se zvláštními testy (např. Bartlettův, Leveneho nebo Hartleyův test nejsou součástí Excelu) nezávislost pozorování a reprezentativnost souboru - dána dostatečným počtem měření a měřené objekty nesmí do testu vstupovat víckrát. Dodržení předpokladů je významné proto, že testujeme charakteristiky skupin, které nejsou přirozené pro sledovanou populaci a mohou tedy špatně popisovat její rozložení. Přesto mírné porušení normality nemusí znehodnotit test, pokud jsou počty v dílčích skupinách dostatečně velké.

Princip analýzy rozptylu Ověřujeme, zda průměry v uvažovaných skupinách jsou rozdílné nebo jsou naopak tak nevýznamné, že mohly vzniknout jako důsledek náhodného kolísání. Variabilitu souborů můžeme vypočítat dvěma způsoby: 1. jako variabilitu jediného souboru složeného ze všech prvků pro variantu, že se hodnoty ve školách neliší. 2. jako variabilitu všech výběrů rozdělenou na variabilitu uvnitř skupin a variabilitu mezi skupinami pro případ, že mezi školami existují systematické rozdíly. Poznámka: variabilitu počítáme jako součet čtverců odchylek od střední hodnoty - POZOR -nejedná se o Rozptyl

Princip analýzy rozptylu 1. Variabilita jediného souboru složeného ze všech prvků si vyjádříme schematicky jako součet čtverců odchylek od jejich společné střední hodnoty Početstupňůvolnostije(Početprvků 1) 2. Variabilitu všech výběrů musíme rozložit na dvě části: variabilitu mezi výběry neboli mezi skupinami tak, jako by každý výběr představoval prvek výběru: počet prvků odpovídá počtu výběrů Počet stupňů volnosti je (počet výběrů - 1) variabilitu uvnitř výběrů neboli uvnitř skupin, kterou spočítáme pro každý výběr zvlášť Počet stupňů volnosti je (počet prvků výběru - 1) Když sečteme obě složky, dostaneme stejné číslo jako při výpočtu variability 1. způsobem. Stejně tak odpovídá součet počtu stupňů volnosti.

Princip analýzy rozptylu (AR) Z vypočtených hodnot variability mezi výběry a uvnitř výběrů pak teprve vypočteme Rozptyl mezi výběry a uvnitř výběrů. Vypočteme jej tak, že příslušnou variabilitu (součet čtverců) dělíme počtem stupňů volnosti. Pro zjištění, zda jsou průměry v uvažovaných skupinách rozdílné, testujeme, zda je rozptyl mezi skupinami statisticky významně odlišný od nuly. Rozptyl uvnitř skupin se někdy nazývá reziduální (zbytkový) rozptyl.

Princip analýzy rozptylu (AR) Hypotézu pak ověříme testovací statistikou F: F statistika = 2 χ 2 χ " mezi skupinami" " uvnitř skupin" a vypočtenou hodnotu F porovnáme s kritickou hodnotou F-statistiky. Vypočtená statistika má F-rozdělení, protože se jedná o podíl dvou veličin, které se řídí rozdělením χ 2

ANALÝZA ROZPTYLU Podíl dvou veličin s rozdělením χ 2 má tvar Fischerova-Snedecorova F-rozdělení

ANALÝZA ROZPTYLU příklad: Střelec pálí 5x na terč, střely však skončí v pravé horní části terče. Možné příčiny: vadný zaměřovací dalekohled vadný zrak střelce nepřesnost hlavně Máme 3 důvody (faktory), které mohly ovlivnit výsledek. Tento pokus můžeme obměnit postupně např. výměnou pušky, střelec si nasadí brýle,... Z nových hodnot můžeme zjistit, jak k odchylce od průměru přispěly jednotlivé faktory - rozkládáme rozptyl. Pokud analýza rozptylu prokáže, že vypočtená statistika je nevýznamná, výsledek je ovlivněn náhodou víc než faktory, které jsme při pokusech měnili.

ANALÝZA ROZPTYLU - příklad Střelec při střelbě na terč vystřílel se třemi různými puškami tyto výsledky: 1. pokus: 2, 3, 1, 3, 1 (součet 10, průměr 2) 2. pokus: 3, 4, 3, 5, 0 (součet 15, průměr 3) 3. pokus: 6, 8, 7, 4, 10 (součet 35, průměr 7) Ptáme se, zda výměna střelné zbraně měla vliv na dosažený výsledek, v našem případě: zda se významně změnila průměrná hodnota. Hypotéza H 0 : předpokládáme, že se střední hodnota mezi jednotlivými skupinami neliší

ANALÝZA ROZPTYLU - výpočet 1. způsob: Budeme zkoumat variabilitu tří výběrů jako by šlo o jediný soubor Variabilitu vyjádříme jako CELKOVÝ SOUČET ČTVERCŮ SS vypočteme jako součet odchylek od celkového průměru umocněný na druhou, tj. považujeme všechny hodnoty za jeden výběr se střední hodnotou 4 4+1+9+1+9+1+0+1+1+16+4+16+9+0+36 = 108 SS = 108 SS... Sum Square 2. způsob: Budeme zkoumat variabilitu tří výběrů složenou ze dvou částí: -variabilitu mezi skupinami SS m -variabilitu uvnitř skupin SS u

ANALÝZA ROZPTYLU - výpočet Variabilitu mezi skupinami vyjádříme jako SOUČET ČTVERCŮ SS m : Σ((průměr skupiny -celkový průměr) 2 * počet měření) Střední hodnota ze všech hodnot = 4 (2-4) 2 *5+(3-4) 2 *5+ (7-4) 2 *5 = 20 + 5 + 45 = 70 SS m = 70 Variabilitu uvnitř skupin vyjádříme jako SOUČET ČTVERCŮ SS u : Σ((hodnota -výběrový průměr) 2 ) 1. 0+1+1+1+1 = 4 2. 0+1+0+4+9 = 14 3. 1+1+0+9+9 = 20 celkem SS u = 38 Celkový součet čtverců je 108 (SS = 108) z toho 70 způsobil rozdílmezi výběry (SS m = 70) a 38 uvnitř výběrů (SS u = 38)

ANALÝZA ROZPTYLU - výpočet Rozptyl vypočteme jako podíl variability vyjádřené součtem čtverců odchylek a počtu stupňů volnosti Počet stupňů volnosti vypočteme: MEZI VÝBĚRY: 3 výběry -1 počet stupňů volnosti je 2 UVNITŘ VÝBĚRŮ: 3 výběry po 5 hodnotách -> počet stupňů volnosti je 3 x (5-1) = 12 Testová hodnota statistiky rozptyl mezi vybery rozptyl uvnitr vyberu SSm = m 1 SSu n m kde m je počet výběrů a n počet všech prvků

ANALÝZA ROZPTYLU - výpočet Vypočteme testovou statistiku: SSm 70 70 m 1 = 3 1 = 2 = 11,05 SSu 38 38 n 3 (5 1) 3 12 a porovnáme ji s kritickou hodnotou Snedecorova F-rozdělení pro 12 a 2 stupně volnosti a hladinu významnosti 0,05 T k = 3,89: 11,05 > 3,89 > zamítáme H 0

ANALÝZA ROZPTYLU - SHRNUTÍ Celkový součet čtverců všech výběrů můžeme složit ze dvou částí: SS z variability uvnitř výběrových souborů kolem středních hodnot výběrů součet čtverců uvnitř výběrů ------------------------------------------------------------------- n i= 1 n2 n3 k 2 2 2 2 1, i y1) + ( y2, i y2) + ( y3, i y3) + ni ( yi y) i= 1 i= 1 i= 1 = 1 ( y ------------------------------- z variability mezi výběry - čtverce rozdílů výběrových stř. hodnot a celkové střední hodnoty součet čtverců mezi výběry

ANALÝZA ROZPTYLU - shrnutí Předpoklady použití ANALÝZY ROZPTYLU: Sledovaná veličina musí mít normální rozdělení Rozptyly jednotlivých výběrů musí být stejné (rozdíly rozptylů nevýznamné) Pozorování musí být nezávislá Mírné porušení předpokladů normality nemusí znehodnotit test v případě, že počty v dílčích skupinách jsou dostatečně velké Shodu rozptylů můžeme testovat několika způsoby (Bartlettův test, Leveneho test, Hartleyův test). Také v analýze rozptylu existuje obdoba neparametrických testů, např.: Kruskal -Wallisův test Znaménkový (mediánový) test