7. nalýza rozptylu jednoduchého třídění - V této kaptole se budeme zabývat vztahem mez znaky kvanttatvním (kolk) a kvaltatvním (kategorálním, jaké jsou) Doposud jsme schopn u nch hodnott: - podmíněné charakterstky polohy a varablty - podmíněné krabcové dagramy (BOXPLOT) - Výsledky dvou-výběrových č párových testů Co však neumíme je hodnott vztah ve více než dvou-složkovém výběru. Pro takové účely používáme nalýzu rozptylu je o něco omezenější po stránce konstrukce alternatvních hypotéz o neobjevují se zde znaménka < nebo > ale pouze Trocha termnologe Ošetření ( nálepka ) - je reprezentováno jako X - jde o kategorální (kvaltatvní) znak Odezva - je reprezentována jako Y - jde o kvanttatvní znak nalýza rozptylu - vyšetřování závslost mez Y a X. Y a, b a je nahrazením písmene b je nahrazením písmene j a vyjadřuje kolkátý řádek (jaký druh nálepky) b vyjadřuje kolkátý sloupec (jaký druh odezvy) Příklad o závslost doby koksování v závslost na šířce pece Šířka pece [cm] Pozorované doby koksování [mn] Například: Y 1,2 = 3,0 Y 1,6 = 2,4 Y 3,6 = 7,3 10 3.5 3,0 2.7 2.2 2.3 2.4 20 7.1 6.5 7.9 5.2 4.6 6.8 30 10.8 10.6 11.0 7.6 7.3 7.3 Další důležté symboly: µ n = populační průměr lbovolného řádku (skupny odezev na konkrétní druh ošetření) N = celkový počet odezev (například pozorovaných dob koksování) I = celkový počet ošetření (například možnost šířek koksovací pece) n = počet odezev u lbovolného řádku
Obecná formulace hypotéz: Slovně : H 0 : Kvanttatvní proměnná nezávsí na kvaltatvní. H 1 : Mez kvanttatvní a kvaltatvní proměnnou je závslost. Obecně: H 0 : µ 1 = µ 2 = = µ I H 1 : µ 1 µ 2 = µ 2 µ 3 a tak dále dokud se nevystřídají všechny µ n vzájemně. V našem případě (pro I = 3) : H 0 : µ 1 = µ 2 = µ 3 H 1 : µ 1 µ 2 µ 2 µ 3 µ 3 µ 1 Př analýze rozptylu rozlšujeme totž 2 zdroje varablty : - Mez-skupnová varablta (varablta průměrů mez jednotlvým ošetřením) - Vntro-skupnová varablta (varablta průměrů uvntř každého ošetření) o Tzv. Rezduální varablta Následně tyto dva zdroje vzájemně porovnáme a potřebná data nalezneme v tabulce NOV {nalyss of varance} Zdroj varablty Ošetření (between) Rezduální (wthn) Celkem (total) Stupně volnost Součet čtverců Průměrný čtverec F statstka a P-hodnota df = 2 S = 123.143 MS = 61.572 F 2,15 = 35,202 df R = 15 S R = 26.237 MS R = 1.749 P < 0,001 df T = 17 S T = 149.380 MS T = 149.380 Položky v tabulce NOV Df Sum Sq Mean Sq F value Pr(>F) fsrka 2 123.143 61.572 35.202 2.161e-06 *** Resduals 15 26.237 1.749 Df - z anglckého Degrees of freedom - jde tedy o stupně volnost - výpočet: o U mez-skupnových ukazatelů = počet nálepek (I) snížený o 1 I 1 = Df o U vntro-skupnových ukazatelů = počet pozorování snížený o I n I = Df R Sum Sq - z anglckého Sum of squares nebo též SS - jde tedy o součet čtverců
Mean Sq - z anglckého Mean of squares nebo též MS - jde tedy průměr čtverců - 4asto e též nazýván průměrným čtvercem ale v podstatě jde o rozptyl a podle koncovky už pouze rozlšujeme, zda jede o: o Mez-skupnový rozptyl => MS o Vntro-skupnový rozptyl => MS R F value - testová statstka F jenž se řídí Fscherovým-Snedecorovým F-rozdělením - pro rozhodnutí vůč H0 j porovnáme s kvantlem: o qf(pravděpodobnost, df, df R ) o Například: qf(0.95,2,15) Pr (>F) - jde o p-hodnotu - Pro rozhodnutí vůč H0 j porovnáme s 5% hladnou významnost SS = n ( y y) Způsob propočtů s hodnotam z tabulky NOV 2 Trocha vysvětlvek k použtým symbolům: n = počet položek na jednotlvých řádcích ( v našem případě vždy 6) y s pruhem = průměr pro jednotlvé řádky y s pruhem = celkový průměr I = počet nálepek (v našem případě počet šířek pece tedy 10 20 30 = 3 varanty) Šířka pece [cm] Pozorované doby koksování [mn] 10 3.5 3,0 2.7 2.2 2.3 2.4 20 7.1 6.5 7.9 5.2 4.6 6.8 30 10.8 10.6 11.0 7.6 7.3 7.3 Výpočet: all = c(3.5, 3.0, 2.7, 2.2, 2.3, 2.4, 7.1, 6.5, 7.9, 5.2, 4.6, 6.8, 10.8, 10.6, 11.0, 7.6, 7.1, 7.3) col1=c(3.5,3.0,2.7,2.2,2.3,2.4) col2=c(7.1,6.5,7.9,5.2,4.6,6.8) col3=c(10.8,10.6,11.0,7.6,7.1,7.3) a=mean(col1) b=mean(col2) c=mean(col3) n = 6 y 1 = (a) = 2.683333 y 2 = (b) = 6.35 y 3 = (c) = 9.066667 y = (x) = 6.033333
2 2 2 SS = {6 [( a x) ]} + {6 [( b x) ]} + {6 [( c x) ]} SS = 123.143 MS = SS = Df (3 1) 123.143 = 61.572 Obdobným způsobem bychom vypočítal ukazatele: SS R = 26.237 MS R = 1.749 F statstka SS Df MS F = = SS R MS Df R R = 61.572 1.749 = 35.202 (podle R to je přesnější) Způsob nterpretace tabulky NOV - V první řade porovnáme p-hodnotu s hladnou významnost - Obecně řečeno, čím větší je f-statstka, tím spíš zamítneme H0. - Přesněj řečeno lze F statstku porovnat s příslušným kvantlem jež vypočteme následujícím příkazem: o Pokud vyjde F-statstka kladná qf(0.95,df,df R ) o Pokud vyjde F-statstka záporná qf(0.05,df,df R ) Předpoklady použtí této metody I.) rezdua (chyby) pocházejí z normálního rozdělení II.) rezdua (chyby) jsou nezávslá a stejně rozdělená - zejména požadavek HOMOSKEDSTICITY o shoda rozptylů III.) dtvta střední hodnoty a rezduí (chyb) - tedy že platí vztah: o Y, B = µ + ε, B = 1 I B = 1 n Rezduum - hodnota pozorování Y,B snížená o průměr podle příslušného řádku
Důležtost jednotlvých předpokladů Nesplnění normálního rozdělení chyb - U dat vyššího rozsahu nevadí díky centrální lmtní větě (dále jen CLV) - Možné metody, jak napravt ne-normaltu: o Transformace o Neparametrcká NOV Heteroskedastcta - Mírná přílš nevadí - U vážnějších případů lze napravt: o transformací o Zobecněná NOV Porušená adtvta - Lze napravt transformacem Porušená nezávslost chyb Použtí lbovolné metody povede s velkou pravděpodobností k chybným závěrům Praktcký postup př volbě vhodné metody 1.) Zjštění, zda máme dostatek dat Pokud ano, lze použít NOVU V případě malého počtu dat se zabýváme normaltou chyb o Normalta splněna => NOV o Normalta nesplněna => Neparametrcká NOV tedy Kruskalův - Wallsův test (o shodě medánů ) 2.) Zjštění, zda data vykazují HETEROSKEDSTICITU - mírná nevadí - pro přesnost používáme Leveneův test o shoda rozptylů = Klascká NOV o neshoda rozptylů = Welchova zobecněná NOV
Přehled jednotlvých možností I. Dvou-výběrový T-test (nezávslé výběry řídící se normálním rozdělením ) - hypotézy o středních hodnotách - zobecněním je NOV jednoduchého třídění pro více testů II. Dvou-výběrový Wlcoxonův test (nezávslé výběry neřídící se normaltou) - hypotézy o medánech - zobecněním je Kruskal Wallsův test III. Párový T- test (závslé výběry řídící se normálním rozdělením) - zobecněním je NOV dvojného třídění => NOV s bloky IV. Wlcoxonův test ( párový neparametrcký test, data nejsou normální) - zobecněním je Fredmanův test Blokové stude analýza rozptylu dvojného třídění - Podstatou blokových studí je zobecněný přístup, který jž známe z párových problémů. - Například: o Prospěch dvojčat od jedné matky o Opotřebení pravé a levé pneumatky o Cena másla dentckého výrobku na dvou různých místech o Energetcký příjem před a po menstruac o td. - V podstatě u blokových studí zjšťujeme vlv faktoru (ošetření) o I 2 úrovních na spojtou odezvu. - Samozřejmě lze předpokládat významný vlv dalšího rušvého faktoru Bloku (například charakterstka ženy) na odezvu. Pojem blok s lze představt jako : počet prodejen, počet žen, basketbalových hráčů a jných potenconálních respondentů jež nám poskytnul párová data. Například: Prodejna tržby před a po reklamní kampan Žena energetcký příjem před a po menstruac Basketbalový hráč opotřebenost jeho podrážky u několka druhů bot td. Block what you can and randomze what you can t Blokováním elmnujeme rušvé faktory ( známe zdroje varablty) Znáhodněním elmnujeme rušvé faktory (neznáme zdroje varablty) - V rámc více-výběrových problémů se setkáváme z další typem grafu a sce grafem špagetovým. Názorná ukázka vz. 6MI221-tématcký celek II.pdf - slde 106 V čem se lší NOV dvojného třídění od NOVY založené na třídění jednoduchém? - především nám zde přbývá řádek navíc Kromě ošetření a rezduí ve sloupc zdrojů varablty fgurují bloky. Neřešíme jeden ale hned 2 problémy o Vlv ošetření na odezvu o Vlv bloku na odezvu
V souvslost s NOVOU s bloky (dále jen SB) se setkáváme s pojmy: Vyrovnaná hodnota (FV) FV = yˆ b, = y+ + yb+ Tedy : FV = průměr í-tého sloupce + průměr b-tého řádku celkový průměr Resduum RSD = e b, = yb, yˆ b, Tedy: RSD = konkrétní hodnota jí odpovídající vyrovnaná hodnota (FV) y Formulace hypotéz u jednotlvých problému: I. Jako hlavní problém považujeme vlv ošetření na odezvu vz. hodnoty v prvním řádku SB H 0 : Kvanttatvní proměnná nezávsí na ošetření (faktoru) H 1 : Kvanttatvní proměnná závsí na ošetření (faktoru) Takže například u problému s výnosností ovsa by hypotézy vypadaly následovně: H 0 : Výnos ovsa nezávsí na množství použtého hnojva. H 1 : Výnos ovsa závsí na množství použtého hnojva. II. Jako dodatečný problém považujeme vlv bloku na odezvu vz. hodnoty v druhém řádku SB. Tuto nformac bereme opravdu pouze jako dodatečnou, uvádíme j tedy jen na požádání zadavatele. H 0 : Kvanttatvní proměnná nezávsí na bloku H 1 : Kvanttatvní proměnná závsí na bloku Takže například u problému s výnosností ovsa by hypotézy vypadaly následovně: H 0 : Výnos ovsa nezávsí na pol, kde oves roste. H 1 : Výnos ovsa závsí na pol, kde oves roste. podrobněj vz. lexkon SPM Jak se vlastně SB generuje programem R? omodel <- aov(vynos~hnojvo + blok, data=oves) summary(omodel) Př rozhodování vůč H0 lze přhlížet na průměry a to: - řádkové (n b+ ) - sloupcové (n + ) Obecně řečeno, pokud se mez sebou odlšují sloupcové průměry a podobný vztah je mez řádkovým průměry, nulovou hypotézu bychom měl zamítnout. Ovšem konečné rozhodnutí by mělo být podloženo: - p-hodnotou jež je třeba porovnat s hladnou významnost - testovou statstkou jež je třeba porovnat s kvantlem příslušného rozdělení vz. lexkon SPM zpravdla Fscherovo => qf (%spolehlvost,df, Df B )
Předpoklady použtí metody SB dtvta střední hodnoty a chyb dtvta vlvu bloku a ošetření na střední hodnotu odezvy Chyby jsou nezávslé a stejně rozdělené (..d.) o Nezávslost chyb o Stejné rozdělení chyb => zejména homoskedastcta Normální rozdělení chyb Jak postupovat př nesplnění některých předpokladů? Porušená nezávslost chyb - nelze dále řešt ( v podstatě lze ale jde o prác pro odborníka) Porušení homoskedastcty => heteroskedastcta - buď lze vyřešt transformacem - nebo použtím neparametrckého testu Porušená normalta - a zároveň dostatek dat => díky CLV lze použít NOVU s bloky (SB) - lehce porušená normalta => nevadí, tak lze použít NOVU neboť není tak ctlvá na normaltu - výrazná ne-normalta + malý počet dat => Fredmanův test (neparametrcká SB) Ověřování předpokladů - Je dobré s pamatovat, že o : Grafcké metody jsou mnohdy cennější než formální test! 1.) Porušení nezávslost chyb - především pomocí resduálního grafu prot času [e-tme] 2.) Homoskedastcta - především pomocí resduálního grafu prot: o času [e tme] o ošetření [e-x] o vyrovnaným hodnotám [e - yhat] - a samozřejmě testem homoskedastcty o Levenův test 3.) dtvta - jak jsme byl upozorněn na přednášce, v písemce by se mohla objevt otázka na rozpoznání, zda je daný model adtvní s nterakcí č bez nterakce. V podstatě se dobře podíváme na špagetový graf a pozorujeme, zda se jednotlvé špagety lší pouze posunutím, jsou téměř rovnoběžné (berme to s rezervo, stačí přblžná rovnoběžnost) pak je model adtvní bez nterakce!!! Názorná ukázka, jak takový model vypadá vz. 6MI221-tématcký celek II.pdf - slde 148 Jnak jde o model s nterakcí, která může nabývat různých forem. Nejčastější je tzv. Multplkatvní nterakce jenž svým tvarem přpomíná trychtýř nebo téměř symetrckou hvězdu - vz. 6MI221-tématcký celek II.pdf - slde 153 Přčemž přítomnost multplkatvní nterakce lze ověřt Tukeyovým testem adtvty.
4.) Nenormalta - Normaltu ověřujeme : o Grafcky => QQ dagram o Testem => Shapro Wlkův test Ovšem pozor!! U dat vyššího rozsahu nám většna běžných testů normalty (Shapro.test atd.) budou hlást jako sgnfkantní velce nízkou míru porušení normalty.