7. Analýza rozptylu jednoduchého třídění

Podobné dokumenty
ANALÝZA ROZPTYLU (Analysis of Variance ANOVA)

REGRESNÍ ANALÝZA. 13. cvičení

ANALÝZA VZTAHU DVOU SPOJITÝCH VELIČIN

ANOVA. Analýza rozptylu při jednoduchém třídění. Jana Vránová, 3.lékařská fakulta UK, Praha

Západočeská univerzita v Plzni Fakulta aplikovaných věd Katedra matematiky. Bakalářská práce. Zpracování výsledků vstupních testů z matematiky

Regresní a korelační analýza

Přednáška č. 11 Analýza rozptylu při dvojném třídění

POROVNÁNÍ MEZI SKUPINAMI

STATISTIKA (pro navazující magisterské studium)

6 LINEÁRNÍ REGRESNÍ MODELY

6. Demonstrační simulační projekt generátory vstupních proudů simulačního modelu

2.5. MATICOVÉ ŘEŠENÍ SOUSTAV LINEÁRNÍCH ROVNIC

Jednotlivé mezivýsledky, získané v prbhu analýzy rozptylu, jsou prbžn a systematicky zaznamenávány v tabulce ANOVA. Prmrný tverec. volnosti SS B.

Statistická šetření a zpracování dat.

podle typu regresní funkce na lineární nebo nelineární model Jednoduchá lineární regrese se dá vyjádřit vztahem y

Analýza závislosti veličin sledovaných v rámci TBD

4EK211 Základy ekonometrie

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

2 TESTOVÁNÍ HYPOTÉZ. RYCHLÝ NÁHLED KAPITOLY Neříkej: Objevil jsem pravdu! ale raději: Objevil jsem jednu z pravd! Chalil Gibran

4EK211 Základy ekonometrie

Jednofaktorová analýza rozptylu

Statistika, Biostatistika pro kombinované studium. Jan Kracík

7. STATISTICKÝ SOUBOR S JEDNÍM ARGUMENTEM

Úvod do analýzy rozptylu

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

3 VYBRANÉ MODELY NÁHODNÝCH VELIČIN. 3.1 Náhodná veličina

CHYBY MĚŘENÍ. uvádíme ve tvaru x = x ± δ.

Vztah mezi počtem květů a celkovou biomasou rostliny CELKE EM. slá pro KVETU = závi

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Kategorická data METODOLOGICKÝ PROSEMINÁŘ II TÝDEN 7 4. DUBNA dubna 2018 Lukáš Hájek, Karel Höfer Metodologický proseminář II 1

Téma 5: Parametrická rozdělení pravděpodobnosti spojité náhodné veličiny

Metody matematické statistiky (NMAI 061)

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Univerzita Pardubice Fakulta chemicko technologická Katedra analytické chemie Licenční studium chemometrie

SEMESTRÁLNÍ PRÁCE. Leptání plasmou. Ing. Pavel Bouchalík

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

SIMULACE. Numerické řešení obyčejných diferenciálních rovnic. Měřicí a řídicí technika magisterské studium FTOP - přednášky ZS 2009/10

VLIV VELIKOSTI OBCE NA TRŽNÍ CENY RODINNÝCH DOMŮ

Korelační energie. Celkovou elektronovou energii molekuly lze experimentálně určit ze vztahu. E vib. = E at. = 39,856, E d

Iterační výpočty. Dokumentace k projektu pro předměty IZP a IUS. 22. listopadu projekt č. 2

STATISTIKA PRO NELÉKAŘSKÉ ZDRAVOTNICKÉ OBORY

STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů

Teoretické modely diskrétních náhodných veličin

Statistická analýza jednorozměrných dat

Matematická statistika Zimní semestr

Tomáš Karel LS 2012/2013

Mechatronické systémy s elektronicky komutovanými motory

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Optimalizace provozních podmínek. Eva Jarošová

Testování statistických hypotéz. Obecný postup

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

2. Posouzení efektivnosti investice do malé vtrné elektrárny

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

= = 2368

Staré mapy TEMAP - elearning

9. cvičení 4ST201. Obsah: Jednoduchá lineární regrese Vícenásobná lineární regrese Korelační analýza. Jednoduchá lineární regrese

ADDS cviceni. Pavlina Kuranova

Parametry hledáme tak, aby součet čtverců odchylek byl minimální. Řešením podle teorie je =

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Teoretické modely diskrétních náhodných veličin

Monte Carlo metody Josef Pelikán CGG MFF UK Praha.

4. Třídění statistických dat pořádek v datech

Přednášky část 4 Analýza provozních zatížení a hypotézy kumulace poškození, příklady. Milan Růžička

Statistické metody uţívané při ověřování platnosti hypotéz

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Jednostranné intervaly spolehlivosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

MODELOVÁNÍ A SIMULACE

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

27 Systémy s více vstupy a výstupy

12. cvičení z PST. 20. prosince 2017

Jednofaktorová analýza rozptylu

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

Využití logistické regrese pro hodnocení omaku

Náhodné veličiny, náhodné chyby

VYBOČUJÍCÍ HODNOTY VE VÍCEROZMĚRNÝCH DATECH

PŘÍSPĚVEK K NEJISTOTÁM VÝSLEDKŮ MĚŘENÍ

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Energie elektrického pole

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Aplikovaná statistika v R - cvičení 2

Pravděpodobnost a aplikovaná statistika

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

11 Kvantová teorie molekul

Čísla přiřazená elementárním jevům tvoří obor hodnot M proměnné, kterou nazýváme náhodná veličina (označujeme X, Y, Z,...)

Design Experimentu a Statistika - AGA46E

Stav Svobodný Rozvedený Vdovec. Svobodná Rozvedená Vdova 5 8 6

Intervalový odhad. Interval spolehlivosti = intervalový odhad nějakého parametru s danou pravděpodobností = konfidenční interval pro daný parametr

4.4 Exploratorní analýza struktury objektů (EDA)

Přednáška IX. Analýza rozptylu (ANOVA)

Jiří Militky Škály měření Nepřímá měření Teorie měření Kalibrace

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Seminář 6 statistické testy

Transkript:

7. nalýza rozptylu jednoduchého třídění - V této kaptole se budeme zabývat vztahem mez znaky kvanttatvním (kolk) a kvaltatvním (kategorálním, jaké jsou) Doposud jsme schopn u nch hodnott: - podmíněné charakterstky polohy a varablty - podmíněné krabcové dagramy (BOXPLOT) - Výsledky dvou-výběrových č párových testů Co však neumíme je hodnott vztah ve více než dvou-složkovém výběru. Pro takové účely používáme nalýzu rozptylu je o něco omezenější po stránce konstrukce alternatvních hypotéz o neobjevují se zde znaménka < nebo > ale pouze Trocha termnologe Ošetření ( nálepka ) - je reprezentováno jako X - jde o kategorální (kvaltatvní) znak Odezva - je reprezentována jako Y - jde o kvanttatvní znak nalýza rozptylu - vyšetřování závslost mez Y a X. Y a, b a je nahrazením písmene b je nahrazením písmene j a vyjadřuje kolkátý řádek (jaký druh nálepky) b vyjadřuje kolkátý sloupec (jaký druh odezvy) Příklad o závslost doby koksování v závslost na šířce pece Šířka pece [cm] Pozorované doby koksování [mn] Například: Y 1,2 = 3,0 Y 1,6 = 2,4 Y 3,6 = 7,3 10 3.5 3,0 2.7 2.2 2.3 2.4 20 7.1 6.5 7.9 5.2 4.6 6.8 30 10.8 10.6 11.0 7.6 7.3 7.3 Další důležté symboly: µ n = populační průměr lbovolného řádku (skupny odezev na konkrétní druh ošetření) N = celkový počet odezev (například pozorovaných dob koksování) I = celkový počet ošetření (například možnost šířek koksovací pece) n = počet odezev u lbovolného řádku

Obecná formulace hypotéz: Slovně : H 0 : Kvanttatvní proměnná nezávsí na kvaltatvní. H 1 : Mez kvanttatvní a kvaltatvní proměnnou je závslost. Obecně: H 0 : µ 1 = µ 2 = = µ I H 1 : µ 1 µ 2 = µ 2 µ 3 a tak dále dokud se nevystřídají všechny µ n vzájemně. V našem případě (pro I = 3) : H 0 : µ 1 = µ 2 = µ 3 H 1 : µ 1 µ 2 µ 2 µ 3 µ 3 µ 1 Př analýze rozptylu rozlšujeme totž 2 zdroje varablty : - Mez-skupnová varablta (varablta průměrů mez jednotlvým ošetřením) - Vntro-skupnová varablta (varablta průměrů uvntř každého ošetření) o Tzv. Rezduální varablta Následně tyto dva zdroje vzájemně porovnáme a potřebná data nalezneme v tabulce NOV {nalyss of varance} Zdroj varablty Ošetření (between) Rezduální (wthn) Celkem (total) Stupně volnost Součet čtverců Průměrný čtverec F statstka a P-hodnota df = 2 S = 123.143 MS = 61.572 F 2,15 = 35,202 df R = 15 S R = 26.237 MS R = 1.749 P < 0,001 df T = 17 S T = 149.380 MS T = 149.380 Položky v tabulce NOV Df Sum Sq Mean Sq F value Pr(>F) fsrka 2 123.143 61.572 35.202 2.161e-06 *** Resduals 15 26.237 1.749 Df - z anglckého Degrees of freedom - jde tedy o stupně volnost - výpočet: o U mez-skupnových ukazatelů = počet nálepek (I) snížený o 1 I 1 = Df o U vntro-skupnových ukazatelů = počet pozorování snížený o I n I = Df R Sum Sq - z anglckého Sum of squares nebo též SS - jde tedy o součet čtverců

Mean Sq - z anglckého Mean of squares nebo též MS - jde tedy průměr čtverců - 4asto e též nazýván průměrným čtvercem ale v podstatě jde o rozptyl a podle koncovky už pouze rozlšujeme, zda jede o: o Mez-skupnový rozptyl => MS o Vntro-skupnový rozptyl => MS R F value - testová statstka F jenž se řídí Fscherovým-Snedecorovým F-rozdělením - pro rozhodnutí vůč H0 j porovnáme s kvantlem: o qf(pravděpodobnost, df, df R ) o Například: qf(0.95,2,15) Pr (>F) - jde o p-hodnotu - Pro rozhodnutí vůč H0 j porovnáme s 5% hladnou významnost SS = n ( y y) Způsob propočtů s hodnotam z tabulky NOV 2 Trocha vysvětlvek k použtým symbolům: n = počet položek na jednotlvých řádcích ( v našem případě vždy 6) y s pruhem = průměr pro jednotlvé řádky y s pruhem = celkový průměr I = počet nálepek (v našem případě počet šířek pece tedy 10 20 30 = 3 varanty) Šířka pece [cm] Pozorované doby koksování [mn] 10 3.5 3,0 2.7 2.2 2.3 2.4 20 7.1 6.5 7.9 5.2 4.6 6.8 30 10.8 10.6 11.0 7.6 7.3 7.3 Výpočet: all = c(3.5, 3.0, 2.7, 2.2, 2.3, 2.4, 7.1, 6.5, 7.9, 5.2, 4.6, 6.8, 10.8, 10.6, 11.0, 7.6, 7.1, 7.3) col1=c(3.5,3.0,2.7,2.2,2.3,2.4) col2=c(7.1,6.5,7.9,5.2,4.6,6.8) col3=c(10.8,10.6,11.0,7.6,7.1,7.3) a=mean(col1) b=mean(col2) c=mean(col3) n = 6 y 1 = (a) = 2.683333 y 2 = (b) = 6.35 y 3 = (c) = 9.066667 y = (x) = 6.033333

2 2 2 SS = {6 [( a x) ]} + {6 [( b x) ]} + {6 [( c x) ]} SS = 123.143 MS = SS = Df (3 1) 123.143 = 61.572 Obdobným způsobem bychom vypočítal ukazatele: SS R = 26.237 MS R = 1.749 F statstka SS Df MS F = = SS R MS Df R R = 61.572 1.749 = 35.202 (podle R to je přesnější) Způsob nterpretace tabulky NOV - V první řade porovnáme p-hodnotu s hladnou významnost - Obecně řečeno, čím větší je f-statstka, tím spíš zamítneme H0. - Přesněj řečeno lze F statstku porovnat s příslušným kvantlem jež vypočteme následujícím příkazem: o Pokud vyjde F-statstka kladná qf(0.95,df,df R ) o Pokud vyjde F-statstka záporná qf(0.05,df,df R ) Předpoklady použtí této metody I.) rezdua (chyby) pocházejí z normálního rozdělení II.) rezdua (chyby) jsou nezávslá a stejně rozdělená - zejména požadavek HOMOSKEDSTICITY o shoda rozptylů III.) dtvta střední hodnoty a rezduí (chyb) - tedy že platí vztah: o Y, B = µ + ε, B = 1 I B = 1 n Rezduum - hodnota pozorování Y,B snížená o průměr podle příslušného řádku

Důležtost jednotlvých předpokladů Nesplnění normálního rozdělení chyb - U dat vyššího rozsahu nevadí díky centrální lmtní větě (dále jen CLV) - Možné metody, jak napravt ne-normaltu: o Transformace o Neparametrcká NOV Heteroskedastcta - Mírná přílš nevadí - U vážnějších případů lze napravt: o transformací o Zobecněná NOV Porušená adtvta - Lze napravt transformacem Porušená nezávslost chyb Použtí lbovolné metody povede s velkou pravděpodobností k chybným závěrům Praktcký postup př volbě vhodné metody 1.) Zjštění, zda máme dostatek dat Pokud ano, lze použít NOVU V případě malého počtu dat se zabýváme normaltou chyb o Normalta splněna => NOV o Normalta nesplněna => Neparametrcká NOV tedy Kruskalův - Wallsův test (o shodě medánů ) 2.) Zjštění, zda data vykazují HETEROSKEDSTICITU - mírná nevadí - pro přesnost používáme Leveneův test o shoda rozptylů = Klascká NOV o neshoda rozptylů = Welchova zobecněná NOV

Přehled jednotlvých možností I. Dvou-výběrový T-test (nezávslé výběry řídící se normálním rozdělením ) - hypotézy o středních hodnotách - zobecněním je NOV jednoduchého třídění pro více testů II. Dvou-výběrový Wlcoxonův test (nezávslé výběry neřídící se normaltou) - hypotézy o medánech - zobecněním je Kruskal Wallsův test III. Párový T- test (závslé výběry řídící se normálním rozdělením) - zobecněním je NOV dvojného třídění => NOV s bloky IV. Wlcoxonův test ( párový neparametrcký test, data nejsou normální) - zobecněním je Fredmanův test Blokové stude analýza rozptylu dvojného třídění - Podstatou blokových studí je zobecněný přístup, který jž známe z párových problémů. - Například: o Prospěch dvojčat od jedné matky o Opotřebení pravé a levé pneumatky o Cena másla dentckého výrobku na dvou různých místech o Energetcký příjem před a po menstruac o td. - V podstatě u blokových studí zjšťujeme vlv faktoru (ošetření) o I 2 úrovních na spojtou odezvu. - Samozřejmě lze předpokládat významný vlv dalšího rušvého faktoru Bloku (například charakterstka ženy) na odezvu. Pojem blok s lze představt jako : počet prodejen, počet žen, basketbalových hráčů a jných potenconálních respondentů jež nám poskytnul párová data. Například: Prodejna tržby před a po reklamní kampan Žena energetcký příjem před a po menstruac Basketbalový hráč opotřebenost jeho podrážky u několka druhů bot td. Block what you can and randomze what you can t Blokováním elmnujeme rušvé faktory ( známe zdroje varablty) Znáhodněním elmnujeme rušvé faktory (neznáme zdroje varablty) - V rámc více-výběrových problémů se setkáváme z další typem grafu a sce grafem špagetovým. Názorná ukázka vz. 6MI221-tématcký celek II.pdf - slde 106 V čem se lší NOV dvojného třídění od NOVY založené na třídění jednoduchém? - především nám zde přbývá řádek navíc Kromě ošetření a rezduí ve sloupc zdrojů varablty fgurují bloky. Neřešíme jeden ale hned 2 problémy o Vlv ošetření na odezvu o Vlv bloku na odezvu

V souvslost s NOVOU s bloky (dále jen SB) se setkáváme s pojmy: Vyrovnaná hodnota (FV) FV = yˆ b, = y+ + yb+ Tedy : FV = průměr í-tého sloupce + průměr b-tého řádku celkový průměr Resduum RSD = e b, = yb, yˆ b, Tedy: RSD = konkrétní hodnota jí odpovídající vyrovnaná hodnota (FV) y Formulace hypotéz u jednotlvých problému: I. Jako hlavní problém považujeme vlv ošetření na odezvu vz. hodnoty v prvním řádku SB H 0 : Kvanttatvní proměnná nezávsí na ošetření (faktoru) H 1 : Kvanttatvní proměnná závsí na ošetření (faktoru) Takže například u problému s výnosností ovsa by hypotézy vypadaly následovně: H 0 : Výnos ovsa nezávsí na množství použtého hnojva. H 1 : Výnos ovsa závsí na množství použtého hnojva. II. Jako dodatečný problém považujeme vlv bloku na odezvu vz. hodnoty v druhém řádku SB. Tuto nformac bereme opravdu pouze jako dodatečnou, uvádíme j tedy jen na požádání zadavatele. H 0 : Kvanttatvní proměnná nezávsí na bloku H 1 : Kvanttatvní proměnná závsí na bloku Takže například u problému s výnosností ovsa by hypotézy vypadaly následovně: H 0 : Výnos ovsa nezávsí na pol, kde oves roste. H 1 : Výnos ovsa závsí na pol, kde oves roste. podrobněj vz. lexkon SPM Jak se vlastně SB generuje programem R? omodel <- aov(vynos~hnojvo + blok, data=oves) summary(omodel) Př rozhodování vůč H0 lze přhlížet na průměry a to: - řádkové (n b+ ) - sloupcové (n + ) Obecně řečeno, pokud se mez sebou odlšují sloupcové průměry a podobný vztah je mez řádkovým průměry, nulovou hypotézu bychom měl zamítnout. Ovšem konečné rozhodnutí by mělo být podloženo: - p-hodnotou jež je třeba porovnat s hladnou významnost - testovou statstkou jež je třeba porovnat s kvantlem příslušného rozdělení vz. lexkon SPM zpravdla Fscherovo => qf (%spolehlvost,df, Df B )

Předpoklady použtí metody SB dtvta střední hodnoty a chyb dtvta vlvu bloku a ošetření na střední hodnotu odezvy Chyby jsou nezávslé a stejně rozdělené (..d.) o Nezávslost chyb o Stejné rozdělení chyb => zejména homoskedastcta Normální rozdělení chyb Jak postupovat př nesplnění některých předpokladů? Porušená nezávslost chyb - nelze dále řešt ( v podstatě lze ale jde o prác pro odborníka) Porušení homoskedastcty => heteroskedastcta - buď lze vyřešt transformacem - nebo použtím neparametrckého testu Porušená normalta - a zároveň dostatek dat => díky CLV lze použít NOVU s bloky (SB) - lehce porušená normalta => nevadí, tak lze použít NOVU neboť není tak ctlvá na normaltu - výrazná ne-normalta + malý počet dat => Fredmanův test (neparametrcká SB) Ověřování předpokladů - Je dobré s pamatovat, že o : Grafcké metody jsou mnohdy cennější než formální test! 1.) Porušení nezávslost chyb - především pomocí resduálního grafu prot času [e-tme] 2.) Homoskedastcta - především pomocí resduálního grafu prot: o času [e tme] o ošetření [e-x] o vyrovnaným hodnotám [e - yhat] - a samozřejmě testem homoskedastcty o Levenův test 3.) dtvta - jak jsme byl upozorněn na přednášce, v písemce by se mohla objevt otázka na rozpoznání, zda je daný model adtvní s nterakcí č bez nterakce. V podstatě se dobře podíváme na špagetový graf a pozorujeme, zda se jednotlvé špagety lší pouze posunutím, jsou téměř rovnoběžné (berme to s rezervo, stačí přblžná rovnoběžnost) pak je model adtvní bez nterakce!!! Názorná ukázka, jak takový model vypadá vz. 6MI221-tématcký celek II.pdf - slde 148 Jnak jde o model s nterakcí, která může nabývat různých forem. Nejčastější je tzv. Multplkatvní nterakce jenž svým tvarem přpomíná trychtýř nebo téměř symetrckou hvězdu - vz. 6MI221-tématcký celek II.pdf - slde 153 Přčemž přítomnost multplkatvní nterakce lze ověřt Tukeyovým testem adtvty.

4.) Nenormalta - Normaltu ověřujeme : o Grafcky => QQ dagram o Testem => Shapro Wlkův test Ovšem pozor!! U dat vyššího rozsahu nám většna běžných testů normalty (Shapro.test atd.) budou hlást jako sgnfkantní velce nízkou míru porušení normalty.