ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Podobné dokumenty
ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Jednotlivé mezivýsledky, získané v prbhu analýzy rozptylu, jsou prbžn a systematicky zaznamenávány v tabulce ANOVA. Prmrný tverec. volnosti SS B.

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Úvod do analýzy rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

7. Analýza rozptylu.

You created this PDF from an application that is not licensed to print to novapdf printer (

Regresní a korelační analýza

REGRESNÍ ANALÝZA. 13. cvičení

1. Úvod do základních pojmů teorie pravděpodobnosti

Testování hypotéz. December 10, 2008

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

Normální (Gaussovo) rozdělení

12. cvičení z PST. 20. prosince 2017

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

Jednofaktorová analýza rozptylu

Normální (Gaussovo) rozdělení

Stručný úvod do testování statistických hypotéz

Přednáška č. 11 Analýza rozptylu při dvojném třídění

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

15. T e s t o v á n í h y p o t é z

Statistická šetření a zpracování dat.

7. ZÁKLADNÍ TYPY DYNAMICKÝCH SYSTÉMŮ

4. Třídění statistických dat pořádek v datech

6. Testování statistických hypotéz. KGG/STG Zimní semestr 6. Testování statistických hypotéz

STATISTICKÉ TESTY VÝZNAMNOSTI

Neparametrické metody

Testování statistických hypotéz

Náhodné veličiny, náhodné chyby

STATISTICKÉ HYPOTÉZY

Jana Vránová, 3. lékařská fakulta UK

χ 2 testy. Test nekorelovanosti.

Aproximace binomického rozdělení normálním

TECHNICKÁ UNIVERZITA V LIBERCI

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

Testy. Pavel Provinský. 19. listopadu 2013

POROVNÁNÍ MEZI SKUPINAMI

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Jednofaktorová analýza rozptylu

7. Analýza rozptylu jednoduchého třídění

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Agregace vzájemné spojování destabilizovaných částic ve větší celky, případně jejich adheze na povrchu jiných materiálů

Statistická analýza jednorozměrných dat

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Testy dobré shody Máme dvě veličiny, u kterých bychom chtěli prokázat závislost, TESTY DOBRÉ SHODY (angl. goodness-of-fit tests)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

5. T e s t o v á n í h y p o t é z

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

KGG/STG Statistika pro geografy

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Testování hypotéz. 4. přednáška

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Testování statistických hypotéz

ADDS cviceni. Pavlina Kuranova

STATISTICKÉ ODHADY Odhady populačních charakteristik

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

STATISTIKA (pro navazující magisterské studium)

Jana Vránová, 3.lékařská fakulta UK, Praha. Hypotézy o populacích

15. T e s t o v á n í h y p o t é z

STATISTICA Téma 7. Testy na základě více než 2 výběrů

4EK211 Základy ekonometrie

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

KMA/P506 Pravděpodobnost a statistika KMA/P507 Statistika na PC

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Příklady na testy hypotéz o parametrech normálního rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Analýza závislosti veličin sledovaných v rámci TBD

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Testování statistických hypotéz

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Testy statistických hypotéz

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

Normální rozložení a odvozená rozložení

Test dobré shody v KONTINGENČNÍCH TABULKÁCH

Testování statistických hypotéz. Obecný postup

Pravděpodobnost a aplikovaná statistika

= = 2368

Statistika (KMI/PSTAT)

Příklady: - počet členů dané domácnosti - počet zákazníků ve frontě - počet pokusů do padnutí čísla šest - životnost televizoru - věk člověka

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Náhodné chyby přímých měření

Doc. Ing. Dagmar Blatná, CSc.

Charakteristika datového souboru

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Neparametrické testy

Ing. Michael Rost, Ph.D.

NEPARAMETRICKÉ METODY

Transkript:

ANOVA Analýza rozptylu př jednoduchém třídění Jana Vránová, 3.léařsá faulta UK, Praha

Teore Máme nezávslých výběrů, > Mají rozsahy n, teré obecně nemusí být stejné V aždém z nch známe průměr a rozptyl Tyto výběry vznnou ta, že záladní soubor rozdělíme podle určtého znau Z do supn Z může být fator, jehož hladnu před pousem určujeme fator ontrolovaný Vě Systolcý nebo dastolcý tla Hladna cholesterolu, x s

Efet Jestlže Z má úrovní, jeho efet na zna X lze vyjádřt vztahem: μ = μ+ α =,,..., μ průměrná hodnota znau X v té supně μ celový populační průměr znau X za platnost H α efet tého ošetření 0

Nulová a alternatvní hypotéza Nulová hypotéza H 0 všechny výběry pocházejí ze stejné normálně rozložené záladní populace, tedy H : μ = μ =... = μ =... = μ = μ 0 nebo H : α = α =... = α =... = α = 0 0 Což znamená, že hodnota znau Z neovlvňuje hodnoty znau X Alternatvní hypotéza H A výběry nepocházejí ze stejné populace, tj. průměry se od sebe navzájem statstcý významně lší

Výchozí tabula jednoduché analýzy rozptylu Číslo výběru Počet prvů Zjštěné hodnoty sledovaného znau Průměr Rozptyl...... n n... n... n x x x j x n x x x j x n x x x j x n x x x j x n x x x x s s s s Celem n x s

Legenda tabulce x Prve x j první ndex číslo výběru (supny podle znau Z ) druhý ndex j pořadové číslo uvntř výběru Jná symbola jao př jných metodách. Index, přes terý jsme soubor sečetl, značíme tečou místo ndexu n j = Taže průměr -tého výběru značíme Celový průměr ze všech výběrů, terým odhadujeme μ, značíme n n = xj x.. = x = nx n n x. j = j= = n x.. = n =

Podmíny pro analýzu rozptylu Celovou varabltu rozdělíme na varabltu uvntř jednotlvých výběrů a mez výběry Musí platt. Zna, jehož průměry chceme porovnávat, musí mít normální rozložení. Rozptyly jednotlvých výběrů se nesmí mez sebou lšt statstcy významně, musí být homogenní

Hartleyův test pro testování homogenty rozptylů Testujeme hypotézu: za předpoladu, že dybychom testoval shodu rozptylů po dvojcích, potřeboval bychom př výběrech (-)/ hodnocení pomocí F-testů. Poud vša najdeme nejvyšší z pozorovaných rozptylů a nejnžší a zjstíme, že tato dvojce se lší statstcy nevýznamně, pa se an žádná další dvojce rozptylů z uvažovaných výběrů nemůže lšt statstcy významně Testovací charatersta má tvar: F max s max mn s H : σ = σ =... = σ n = n = = n = n 0... = s počtem stupňů volnost a n-, de je počet výběrů a n je počet prvů v aždém výběru

Hartleyův test pro testování homogenty rozptylů Vzhledem tomu, že F max netestuje náhodně zvolenou dvojc rozptylů, ale tu, terá má maxmální dferenc, nelze hodnoty F max hledat v běžně užívaných tabulách rtcých hodnot F-rozložení, ale ve specálních tabulách Stejně jao u F-testu zde platí: jestlže Fmax > Fmax α zamítáme hypotézu o homogentě rozptylů, přjímáme hypotézu, že rozptyly se na hladně α statstcy významně lší a poračování PRO HODNOCENÍ ROZDÍLŮ ROZPTYLŮ NESMÍME POUŽÍT ANLÝZU ROZPTYLU

Postup analýzy rozptylů Za platnost nulové hypotézy H0 : μ. = μ. =... = μ. = μ.. lze spojt všech výběrů ve výběr jedný, terý má průměr x.. a pro rozptyl platí s = ( x ) j x.. j n pro čtatel, terý představuje součet čtverců odchyle od celového průměru, můžeme psát n n ( ) ( ) j j ( ) S = x x = x x + x x........ = j= = j= =

Postup analýzy rozptylu poračování n n ( ) ( ) j j ( ) S = x x = x x + x x........ = j= = j= = Tuto rovnc můžeme číst: celový součet čtverců odchyle je roven součtu čtverců uvntř výběru, terý nazýváme rezduální a značíme S R, a součtu čtverců mez výběry, terý značíme S V. Můžeme tedy napsat S = S + S.. R V Počet stupňů volnost pro S.. : f = n, pro S R : f = n, pro S V : f= -

Postup analýzy rozptylu poračování Mírou náhodného olísání je rezduální součet čtverců S R, neboť je oproštěn od vlvu výběrů č supn, je způsoben pouze náhodným olísáním. Proto jao měříta pro míru olísání používáme rezduální rozptyl s s R S = n R R a jím měříme rozptyl mez výběry pomocí F testu s S S F = = s n V V R : R s V počet stupňů volnost: f =, f = n

Postup analýzy rozptylu poračování Zvolíme α, v tabulách rtcých hodnot F rozložení najdeme hodnotu F α, de počet stupňů volnost pro čtatel, tedy, hledáme v hlavčce tabuly, počet stupňů volnost pro jmenovatel, tedy n, v legendě. Je-l splněno F > F α, zamítáme H 0 a přjímáme hypotézu alternatvní. TABULKA ANALÝZY ROZPTYLU Varablta Součet čtverců Stupně volnost Rozptyl Mez výběry S = n x x Rezduální (uvntř výběrů) ( ) V... = S x x x n n R = j. j = j= j= n n Celová S.. = xj x.. xj n = j= = j= n s s V SV = S = n R R s S = n..

Smultánní testování Současné testování hypotéz u dvojc Např. př postupném použtí t-testů narůstá chyba I. druhu Zvolíme-l hladnu významnost α = 5%, bude př hodnocení první dvojce spolehlvost sutečně 95%, u druhé jž jenom 87,8%, u třetí 79,9% atd. LSD (least sgnfcant dfference) nejmenší významná dference. Rozsahy výběrů jsou stejné. Rozsahy výběru jsou různé

LSD rozsahy výběrů jsou stejné Máme nezávslých výběrů, de platí n = n =... = n, taže celový počet prvů je n = n Spočteme jednotlvé průměry a uspořádáme je podle velost x x... x, de ndexy znamenají nyní pořadová čísla uspořádaných průměrů Nejmenší významnou dferenc vypočteme pomocí rtcých hodnot t rozložení z výrazu LSD = tn ; α s n R

LSD rozsahy výběrů jsou stejné poračování Nebo pomocí rtcých hodnot F rozložení LSD = srf; n ; α n Spočítáme dference průměrů, sousedících v uspořádání velost: d x x d x x + =, = Všechny dference d, pro něž platí d > LSD, jsou statstcy významné př zvoleném α

LSD rozsahy výběrů jsou různé Máme nezávslých výběrů, de platí n n... n, taže celový počet prvů je n = n = Spočteme jednotlvé průměry a uspořádáme je podle velost x x... x, de ndexy znamenají nyní pořadová čísla uspořádaných průměrů Pro aždou dvojc je třeba spočítat LSD zvlášť, neboť jeho hodnota záleží na n a n +, a je za použtí t rozložení LSD = t s n ; α R n + nn n j j

LSD rozsahy výběrů jsou různé poračování Nebo př použtí F testu s R F j LSD = sr F; n ; α nn j je rezduální součet, n rtcá hodnota F př zvoleném α a stupních volnost a n jestlže lší se průměry a významně + ; n ; α d > LSD, + x x + n V uspořádané řadě průměrů podtrhneme společnou čarou ty, teré se nelší, aby bylo zřejmé do ola homogenních supn se soubor rozpadá.

Metoda Scheffeho Máme výběrů, > V aždé -té supně je n pozorování, teré může být obecně různé Analýzou rozptylu jsme zjstl, že průměry nejsou homogenní Smultánní testování dferencí x x j př celové hladně významnost α metodou Scheffeho hodnotíme pomocí rtcé hodnoty de je počet supn, n, n j četnost v porovnávaných supnách, S R rezduální rozptyl u analýzy rozptylu, F α rtcá hodnota F rozložení pro hladnu významnost α apř stupních volnost f = a f = n Kj = Fα sr + n n j ( ) Výhodou Scheffeho testu prot testu LSD je, že dovoluje sestrojt onfdenční ntervaly pro hodnoty rozdílu průměrů se společnou onfdencí α. Všechny rozdíly budou ležet v ntervalu ( K j, + K j )

Testování shody průměrů př různých rozptylech χ test ANOVA testujeme hypotézu: H0 : μ = μ =... = μ = μ za předpoladu σ = σ =... = σ Tento předpolad vša není splněn Poud pro všechna n platí n 30, H 0 testujeme pomocí velčny χ vztahem: n ( x x ) χ = s terá má stupňů volnost a de 0 x nx 0 = n / s / s

Testování shody průměrů př různých rozptylech Zvolíme α, najdeme rtcou hodnotu jestlže χ > χ α zamítáme H 0 a přjímáme H : alespoň pro jednu dvojc,j platí že μ μ Která dvojce to je zjstíme smultánním testováním Pro dvojce pro něž x χ test poračování α ; platí: Jejch průměry se statstcy významně lší j χ s s j xj > χα ; + n n j x x j

Testování shody průměrů př různých rozptylech F test Opět testujeme hypotézu Poud pro všechna n není splněn požadave n 30, H 0 musíme testovat pomocí omplovanějšího vztahu pro F rozložení: n ( x x ) de x nx F = 0 = n / s / s + H0 : μ = μ =... = μ = μ s ( ) a pro B platí B 0 n / s B = n n s /

Testování shody průměrů př různých rozptylech F test Tento výraz má F- rozložení o st. volnost: poračování f =, f = 3B Vyjde-l F > F α, zamítáme H 0 a přjímáme H, že exstuje aspoň jedna dvojce pro nž μ μ j Které dvojce to jsou zjstíme smultánním testováním podle Tamhana: s j x xj > Aj n n j Kde A j je rtcá hodnota dvoustranného t-testu na hladně g a př f j stupních volnost s

Testování shody průměrů př různých rozptylech F test poračování glze spočítat pomocí zvoleného α z výrazu: ( ) ( ) g = α Stupně volnost f j spočteme ze vztahu: f j = ( s ) n + sj nj 4 4 s j + j j ( ) ( ) s n n n n

ANOVA Neparametrcé testy

Test Krusal - Wallsův Máme nezávslých výběrů, >, u terých není splněna podmína normalty Chceme se přesvědčt, že naměřené náhodné velčny X se lší polohou Vyslovíme hypotézu H 0, že se výběry polohou nelší, tedy že to je vlastně nezávslých náhodných výběrů z téže záladní populace Za platnost H 0, můžeme dát všechny výběry do jedného souboru a uspořádat naměřené hodnoty x podle velost

Test Krusal - Wallsův poračování Každé naměřené velčně pa přřadíme pořadovou hodnotu od u nejnžší, až hodnotě N = n pro nejvyšší naměřenou = hodnotu Za platnost H 0 by se průměrné pořadí ve supnách nemělo lšt Testovací charatersta má tvar: χ KW T = 3 N + N N n ( ) = T součet pořadových hodnot prvů tého výběru, n počet prvů v tém výběru χ rtcá hodnota χ KW rozložení př stupních volnost ( )

Test Krusal - Wallsův poračování χ KW má rozložení χ s stupních volnost, rtcá hodnota tedy závsí pouze na počtu porovnávaných výběrů, nolv na počtu prvů χ KW χ α Vypočtené porovnáme s tabelovanou hodnotou př zvoleném α jestlže χkw > χ ; α zamítáme H 0 a můžeme přjmout hypotézu alternatvní, že se výběry polohou mez sebou statstcy významně lší

děuj za pozornost