Analýza rozptylu. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Srovnávání více než dvou průměrů

Podobné dokumenty
PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Statistické testování hypotéz II

Statistika, Biostatistika pro kombinované studium. Jan Kracík

ANOVA PSY252 Statistická analýza dat II

Seminář 6 statistické testy

Design Experimentu a Statistika - AGA46E

PSY117/454 Statistická analýza dat v psychologii přednáška 8. Statistické usuzování, odhady

Statistická analýza dat v psychologii. Věci, které můžeme přímo pozorovat, jsou téměř vždy pouze vzorky. Alfred North Whitehead

Přednáška IX. Analýza rozptylu (ANOVA)

VÝUKA: Biostatistika základní kurz CENTRUM BIOSTATISTIKY A ANALÝZ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Úvod do analýzy rozptylu

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Statgraphics v. 5.0 STATISTICKÁ INDUKCE PRO JEDNOROZMĚRNÁ DATA. Martina Litschmannová 1. Typ proměnné. Požadovaný typ analýzy

Analýza rozptylu. opakovaná měření faktoriální analýza rozptylu analýza kovariance vícerozměrná analýza rozptylu

Jednofaktorová analýza rozptylu

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Vícerozměrné metody. PSY117/454 Statistická analýza dat v psychologii Přednáška 12. Schematický úvod

ANOVA analýza rozptylu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

ADDS cviceni. Pavlina Kuranova

Seminář 6 statistické testy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

ANALÝZA ROZPTYLU (ANOVA)

Korelační a regresní analýza. 1. Pearsonův korelační koeficient 2. jednoduchá regresní analýza 3. vícenásobná regresní analýza

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Jednofaktorová analýza rozptylu

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Návrh a vyhodnocení experimentu

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

PRAVDĚPODOBNOST A STATISTIKA

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Statistická analýza dat

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistická analýza jednorozměrných dat

Cronbachův koeficient α nová adaptovaná metoda uvedení vlastností položkové analýzy deskriptivní induktivní parametrické

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Obsah Úvod Kapitola 1 Než začneme Kapitola 2 Práce s hromadnými daty před analýzou

Základní statistické metody v rizikovém inženýrství

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Statistická analýza jednorozměrných dat

Návod na vypracování semestrálního projektu

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Základy biostatistiky II. Veřejné zdravotnictví 3.LF UK - II

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Úvodem Dříve les než stromy 3 Operace s maticemi

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Inovace bakalářského studijního oboru Aplikovaná chemie

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

KGG/STG Statistika pro geografy

"Competitivness in the EU Challenge for the V4 countries" Nitra, May 17-18, 2006

Plánování experimentu

(motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination.

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

Testování statistických hypotéz

PRAVDĚPODOBNOST A STATISTIKA

LEKCE 6 ZÁKLADY TESTOVÁNÍ HYPOTÉZ

Dobývání znalostí. Doc. RNDr. Iveta Mrázová, CSc. Katedra teoretické informatiky Matematicko-fyzikální fakulta Univerzity Karlovy v Praze

Návrh a vyhodnocení experimentu

PRAVDĚPODOBNOST A STATISTIKA

LINEÁRNÍ MODELY. Zdeňka Veselá

LEKCE 5 STATISTICKÁ INFERENCE ANEB ZOBECŇOVÁNÍ VÝSLEDKŮ Z VÝBĚROVÉHO NA ZÁKLADNÍ SOUBOR

AVDAT Mnohorozměrné metody, metody klasifikace

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

KGG/STG Statistika pro geografy

Intervaly spolehlivosti

INDUKTIVNÍ STATISTIKA

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Cvičení 12: Binární logistická regrese

ANALÝZA DAT V R 9. VÝPOČET VELIKOSTI SOUBORU. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

odpovídá jedna a jen jedna hodnota jiných

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Pracovní adresář. Nápověda. Instalování a načtení nového balíčku. Importování datového souboru. Práce s datovým souborem

12. cvičení z PST. 20. prosince 2017

Normy ČSN a ČSN ISO z oblasti aplikované statistiky (stav aktualizovaný k )

Cvičící Kuba Kubina Kubinčák Body u závěrečného testu

4ST201 STATISTIKA CVIČENÍ Č. 10

Testy pro porovnání vlastností dvou skupin

KGG/STG Statistika pro geografy

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Všechno, co jste chtěli vědět z teorie pravděpodobnosti, z teorie informace a

Pravděpodobnost a aplikovaná statistika

Vymezení důležitých pojmů. nulová hypotéza, alternativní hypotéza testování hypotézy hladina významnosti (alfa) chyba I. druhu, chyba II.

Mgr. Karla Hrbáčková, Ph.D. Základy kvantitativního výzkumu

Transkript:

PSY117/454 Statistická analýza dat v psychologii Přednáška 12 Analýza rozptylu Srovnávání více než dvou průměrů If your experiment needs statistics, you ought to have done a better experiment. Ernest Rutherford

Omezení t-testu t-test umožňuje srovnání pouze dvou průměrů Více skupin ( j ) >> mnoho porovnání: j ( j -1)/2 Více srovnání způsobuje strmý růst pravděpodobnosti chyby I. typu např. při α=0,05 a 20 testech p=0,68 (1 nebo více chyb) aplikace binomického rozložení Platí to pro jakýkoli statistický test (zejm. korelace) Je nevhodné provádět velké množství testů na jedněch datech (cca >10) Zneužití se označuje jako rybaření v datech fishing, capitalizing on chance Lze kompenzovat zvýšením α (Bonferroniho korekce), avšak za cenu značného snížení síly testu (1-β). AJ: multiple tests, capitalizing on chance, Bonferroni correction, statistical power

Řešení = Analýza rozptylu (ANOVA) Testuje na více skupinách jen jednu hypotézu: Je někde mezi skupinovými průměry někde rozdíl? Je mezi Pražáky, Brňáky a Ostraváky rozdíl v průměrné lakotě? H 0 : μ Pražáci = μ Brňáci = μ Ostraváci Je-li odpověď ano (p <α), pak se můžeme podívat na jednotlivé rozdíly detailněji (post-hoc testy) Je-li odpověď ne (p >α), pak bychom neměli (rybaření) AJ: ANalysis Of Variance, post-hoc tests (multiple comparisons)

1. terminologická vložka - ANOVA ANOVA = ANalysis Of Variance = analýza rozptylu i přes svůj název jde o srovnávání průměrů ANOVA zjišťuje vztah mezi kategoriální nezávislou a intervalovou závislou. kategoriální nezávislá = faktor (factor, -way ) hodnoty kategoriální nez. = úrovně (level, treatment) Zjištěný rozdíl = efekt, účinek (effect)

Princip ANOVY 1. rozptyl = MS = mean square MS between : s 2 spočítaný ze skupinových průměrů, variabilita uvnitř skupiny je ignorována (též MS A ) MS between =SS between /j -1 MS within : variabilita uvnitř skupin (MS e, error ) MS within =SS within /n - j sk1 sk2 sk3 Celk. sk1 sk2 sk3 Celkem čl1 2 4 6 čl1 0 6 2 čl2 2 4 6 čl2 4 2 10 čl3 2 4 6 čl3 0 6 2 čl4 2 4 6 čl4 4 2 10 čl5 2 4 6 čl5 2 4 6 m 2 4 6 4 m 2 4 6 4 s 0 0 0 1,6 s 1,8 1,8 3,6 3,0 MSbg 20 MSbg 20 MSw 0 MSw 8 sk1 sk2 sk3 Celkem F 2,5 čl1 1 4 2 0,95F(2,12) 3,885 čl2 3 5 5 p 0,124 čl3 5 1 3 čl4 4 2 1 čl5 2 3 4 m 3 3 3 3 s 1,4 1,4 1,4 1,41 MSbg 0 MSw 2,50

Princip ANOVY 2. Rozdělování variability (rozptylu) podle zdrojů podobně jako u lineární regrese X ij =μ + α j + e ij X ij = skóre jedince (i-tý jedinec v j-té skupině) μ = průměr populace α = vliv příslušnosti ke skupině (vliv úrovně faktoru) e ij = chyba (vše, s čím nepočítáme, individuální prom.) X ij m = (X ij m j ) + (m m j ) odchylka od celkového průměru = odchylka od skupinového průměru + odchylka skupinového průměru od celkového průměru odchylky umocněné na druhou =cesta k rozptylu SS Total = SS Within(Error) + SS Between (A) ; MS Total ; MS Error ; MS A

Princip ANOVY 2. Čím jsou si průměry podobnější, tím je rozptyl mezi skupinami nižší (MS between se blíží 0) Čím nižší je rozptyl uvnitř skupin (MS within se blíží 0), tím průkaznější se průměry mezi skupinami zdají být. MS Důležitý je poměr těchto dvou odhadů rozptylu: F = MS Čím vyšší je F-poměr, tím průkaznější jsou rozdíly mezi průměry (rozsah je 0 až ) F -poměr má jako výběrová statistika F -rozložení between within

Fisherovo-Snedecorovo F-rozložení Podobně jako t -rozložení, je F -rozložení vlastně rodina mnoha rozložení mírně se lišící svým tvarem Tato rozložení se liší tentokrát dvěma parametry stupni volnosti ν 1 = počet skupin 1 : stupně volnosti čitatele - MS between ν 2 = počet lidí počet skupin : stupně volnosti jmenovatele - MS within na pořadí ZÁLEŽÍ http://www.econtools.com/jevons/java/graphics2d/fdist.html AJ: FUJ: V tabulkách F-rozložení v Hendlovi jsou prohozeny v1 a v2.

Velikost účinku (efektu) Podobně jako u regrese chceme vědět, jaká část rozptylu závislé je vysvětlená nezávislou Ekvivalentem R 2 je u anovy η 2 (eta) η 2 =SS Between /SS Total Poněkud přesnější je ω 2 Pro konkrétní rozdíl průměrů d Coh = m 1 -m 2 / MS Within Velikost účinku je vždy třeba uvádět

Předpoklady použití ANOVY normální rozložení uvnitř skupin při n j >30 a n 1 =n 2 = =n j je ANOVA robustní stejné rozptyly uvnitř skupin: homoskedascita do smax/smin<3 je ANOVA robustní, zváště při n 1 =n 2 = =n j nezávislost všech pozorování při opakovaných měřeních je třeba použít ANOVU pro opakovaná měření viz Hendl 343

Post-hoc testy (simultánní porovnávání) Po (a pouze po) prokázání nějakých rozdílů mezi průměry obvykle chceme vědět, mezi kterými skupinami konkrétně rozdíly jsou: post-hoc testy Srovnáváme každou skupinu s každou způsobem, který nezpůsobí nárůst α. Je-li důležité udržet α pod kontrolou, pak je správnou volbou Scheffeho test volba pro rybaření Pokud to není tak kritické a máte-li pár kvazi-hypotéz na mysli, pak je volbou Student-Neuman-Keuls (S-N-K) Extrémně dajný a nepříliš vhodný pro více než 3 skupiny je LSD a proto se nedoporučuje.

Další varianty a rozšíření ANOVA ANOVA pro opakovaná měření (jako párový t-test) ANOVA s 2 a více faktory (faktoriální ANOVA) MANOVA s více závislými proměnnými To vše v SPSS skryto pod GLM general linear model Pořadovou (neparametrickou) alternativou ANOVY jsou Kruskal-Wallis H a Jonckeheere-Terpstra Test AJ: repeated measures ANOVA, two(three..)-way ANOVA,(factorial ANOVA)