3 Analýza rozptlu ANOVA 3 ANALÝZA ROZPTYLU ANOVA RYCHLÝ NÁHLED KAPITOLY Analýza rozptlu je statistickým nástrojem, který nám umožňuje zkoumat závislost kvantitativního znaku na kvalitativním znaku. Základní mšlenka analýz rozptlu spočívá v rozkladu celkového rozptlu na dílčí rozptl příslušející jednotlivým vlivům, podle nichž jsou data roztříděna. Kromě dílčích rozptlů je jednou složkou celkového rozptlu tzv. reziduální rozptl, způsobený nepostiženými vliv. Podle počtu analzovaných faktorů, tj. podle počtu vlivů na hodnot kvantitativního znaku, rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptlu. Všeobecně používané označení ANOVA je akronmem anglických slov ANalsis Of VAriance (doslovný překlad z angličtin: analýza rozptlu). 3. ANALÝZA ROZPTYLU JEDNÍM FAKTOREM Často se vsktuje situace, kd máte k (např. k=5) nezávislých náhodných výběrů, které nemusí pocházet z jednoho základního souboru, s příslušnými rozsah n, n,..., n k. Přitom k může být,3,..., a součet těchto rozsahů je N. Tto rozsah výběrů rovněž nemusí být stejné, v každém z nich je znám průměr x i, a také rozptl s i, i =,,...,k. V praktických situacích obvkle tto výběr vzniknou tak, že základní soubor rozdělíme podle určitého obvkle kvalitativního - nečíselného třídícího statistického znaku X do k skupin, v každé z nich pak vbíráme samostatně ni prvků. Znak X se pak označuje jako faktor, jehož hodnot jsou předem stanoven a hovoří se proto často o faktoru kontrolovaném, nebo faktoru pozorovaném, např. věková skupina, druh výrobku, tp reklam, tp služb apod. Hodnot faktoru X se označují x, x,..., x k Faktor X má k úrovní kategorií a ovlivňuje jiný statistický znak Y, jež má kvantitativní - intervalovou nebo podílovou (ted číselnou) povahu. Hodnot znaku Y příslušné hodnotě x i faktoru X označujeme i, i,..., in i Pro analýzu rozptlu je výhodné uspořádat výchozí údaje do přehledné tabulk: Číslo výběru Zjištěné hodnot sledovaného znaku Počet prvků Průměr Rozptl,,..., j,..., n n s,,..., j,..., n n s i i, i,..., ij,..., in i ni i s i k k, k,..., kj,..., kn k k n k s k Celkem N s - 40 -
Elena Mielcová, Radmila toklasová a Jaroslav Ramík; tatistické program Celková variabilita znaku (souboru) se měří obvkle (výběrovým) rozptlem: s i j ij N V souvislosti s analýzou rozptlu nás bude zajímat pouze čitatel výše uvedeného zlomku, totiž součet čtverců odchlek zjištěných hodnot od celkového průměru, přičemž tento průměr je dán vztahem: N k Ni ij i j Tento celkový součet čtverců se označuje smbolem N i ij k i j ij, ted: Celkovému součtu čtverců přísluší počet stupňů volnosti df c = N -. Variabilitu uvnitř skupin označujeme jako vnitroskupinovou, nebo také reziduální a používáme přitom označení, přičemž definujeme vnitroskupinový (reziduální) součet čtverců takto:, v N i ij i k, v i j Vnitroskupinovému součtu čtverců přísluší počet stupňů volnosti df v = N - k. Variabilitu mezi skupinami měříme meziskupinovým součtem čtverců definujeme následovně: k, m i N i i, m, který Meziskupinovému součtu čtverců přísluší počet stupňů volnosti df m = k -. Aritmetickými úpravami výše uvedených vzorců lze snadno odvodit základní vztah analýz rozptlu, totiž, že celkový součet čtverců je roven sumě meziskupinového a vnitroskupinového součtu čtverců, smbolick:, m, v Analýza rozptlu je statistickým testem, který zkoumá vliv faktorů X na hodnot znaku Y. Postup testování:. tanovení hpotéz: H 0 : hodnot faktoru X nemají na hodnot znaku Y žádný vliv (nezávislost znaků), H : negace H 0.. Testové kritérium: T, m k, v N k 3. Obor přijetí:, F ( ), kritický obor ( ), ( k, N k ) 0 ( k, N k ) hodnota F rozdělení pro stupně volnosti k a N k. 4. Závěr. F, kde F ( ) je kritická ( k, N k ) Analýza rozptlu je založena na předpokladu shod rozptlů v jednotlivých k skupinách. Pokud jsou předpoklad splněn, pak popsaná metoda ANOVA posktuje nejlepší výsledk je nejúčinnější. Není-li tento předpoklad splněn, pak použití výše uvedeného testu může posktnout neadekvátní výsledek. V takovém případě lze použít jiné test, např. Chi-kvadrát test, nebo F-test, případně některé neparametrické test, jako Kruskal-Wallisův nebo Friedmanův test, viz kapitola 6, nebo literatura, např. [eger]. - 4 -
3 Analýza rozptlu ANOVA V Excelu můžete jak podmíněné průměr, tak i hodnot všech součtů čtverců, testového kritéria, kritickou hodnotu i hodnotu p zjistit pomocí analtického nástroje Anova: jeden faktor. Výsledkem jsou dvě tabulk, tabulka Faktor a tabulka Anova. V tabulce Faktor je pro každý z faktorů určený celkový přehled počet pozorování pro faktor, součet hodnot, průměr a výběrový rozptl. V tabulce Anova jsou postupně hodnot, které jsou vužit v testu: Zdroj variabilit Rozdíl M F Hodnota P F krit Mezi výběr m df m = k - m k m T k p-hodnota F ( ) ( k )( N k ) v N k Všechn výběr Celkem v v df v = N - k N k - - - df c = N - - - - - ŘEŠENÝ PŘÍKLAD 3. Porovnejte úspěšnost absolventů gmnázií, PŠ a odborných učilišť s maturitou (OU) u přijímacích zkoušek na vsokou školu. Na hladině významnosti 0,05 testujte, zda faktor absolvovaná střední škola má vliv na úspěšnost žáků u přijímacích zkoušek na vsokou školu. Bod, získané u přijímacích zkoušek u 30 náhodně vbraných studentů jsou zadán v následující tabulce: Gmnázium PŠ OU 85 56 78 73 58 76 58 69 64 76 67 56 64 70 69 58 78 67 80 79 70 78 67 78 76 67 64 89 56 34 Řešení: Příklad vřešíte pomocí analtického nástroje Anova: jeden faktor. Po otevření dialogového okna (Data Analýza dat Anova: jeden faktor) lze zadat vstupní oblast dat s popiskami, vznačit, že popisk se nachází v prvním řádku a zadat hladinu významnosti testu (Obr. 3.). - 4 -
Elena Mielcová, Radmila toklasová a Jaroslav Ramík; tatistické program Obrázek 3. Zdroj: Vlastní zpracování. Obrázek 3. Výsledkem jsou dvě tabulk (Obr. 3.): Zdroj: Vlastní zpracování. Postup testování:. tanovení hpotéz: H 0 : hodnot faktoru X nemají na hodnot znaku Y žádný vliv (faktor škola nemá vliv na výsledk přijímacího řízení.), H : negace H 0.. Testové kritérium: T 0, 68 3. Obor přijetí: ; 3, 354 0, kritický obor,354; 3, ( F krit je kritická hodnota F rozdělení pro stupně volnosti a 7.) 4. Závěr: Na hladině významnosti alfa = 0,05 nelze zamítnout hpotézu H 0 o nezávislosti výsledků přijímacího řízení na absolvované škole uchazečů. - 43 -
3 Analýza rozptlu ANOVA 3. DVOUFAKTOROVÁ ANOVA Analýza rozptlu se dvěma faktor znamená testovat závislost kvantitativního znaku na dvou znacích kvalitativních, tj. na dvou faktorech. Předpokládáme, že působení těchto faktorů na sledovaný znak je nezávislé. Podle. faktoru budeme hodnot znaku Y třídit do skupin, podle. faktoru do bloků. Rozklad celkového součtu čtverců se provede analogick jako v případě jednofaktorové analýz rozptlu, pouze přibude nový sčítanec. Označíme jej, a přináleží blokovému faktoru. oučet čtverců přináleží meziskupinovému faktoru, součet čtverců m v přináleží vnitroskupinovému faktoru. Rozklad celkového součtu čtverců potom bude:. m v b U dvoufaktorové analýz bez opakování se jedná o dva simultánní test. Postup testování:. Hpotéz: : H : Znak (faktor) 0 X nemá na znak Y žádný vliv, H : Znak (faktor) X má na znak Y vliv, H : Znak (faktor) 0 X nemá na znak žádný vliv, Y H : Znak (faktor) X má na znak Y vliv,. Testová kritéria: m b F k F r ( k ).( r ) ( k ).( r ) kde k je počet skupin pro faktor a r je počet bloků pro faktor. 3. Kritické hodnot: F ( ) a F ( ). ( k ),( k )( r ) v ( r ),( k )( r ) 4. Závěr: Je-li F F ( ) ( k, znak ),( k )( r ) X statistick významně ovlivňuje znak Y. Je-li F F ( ) ( k, znak ),( k )( r ) X statistick významně ovlivňuje znak Y. K dvoufaktorové analýze rozptlu bez opakování použijeme v Excelu analtický nástroj Anova:dva faktor bez opakování. Výsledkem jsou dvě tabulk, tabulka Faktor a tabulka Anova. V tabulce Faktor je pro každý z faktorů a bloků určený celkový přehled počet pozorování pro faktor a blok, součet hodnot, průměr a výběrový rozptl. V tabulce Anova jsou postupně hodnot, které jsou vužit v testu: v b Zdroj variabilit Rozdíl M F Hodnota P F krit Řádk loupce k m b r m k b r F p-hodnota F ( ) ( k ),( k )( r ) F p-hodnota F ( ) ( r ),( k )( r ) Chba Celkem ( k ).( r ) v v - ( k ).( r ) N - - 44 -
Elena Mielcová, Radmila toklasová a Jaroslav Ramík; tatistické program Použití dvoufaktorové analýz demonstruje následující řešený příklad. Je důležité si uvědomit, že data pro Faktor se zadávají do řádků, zatímco data pro Faktor do sloupců vstupní tabulk. ŘEŠENÝ PŘÍKLAD 3. Testujte závislost výsledků přijímacích zkoušek na předmětu zkoušek a absolvované škole uchazečů. Na hladině významnosti 0,0 testujte, zda faktor vstudovaná střední škola má vliv na úspěšnost žáků u přijímacích zkoušek na vsokou školu. Bod, získané u přijímacích zkoušek pro 4 absolvent u 4 zkouškových předmětů jsou v následující tabulce. Řešení: Gmnázium PŠ OU Matematika 85 76 56 Angličtina 73 59 48 Ekonomie 77 69 64 Všeobecný přehled 76 67 56 Příklad lze vřešit pomocí analtického nástroje Anova: dva faktor bez opakování. Po otevření dialogového okna (Data Analýza dat Anova: dva faktor bez opakování) lze zadat vstupní oblast dat s popiskami, vznačit, že vstupní oblast obsahuje popisk a zadat hladinu významnosti testu (Obr. 3.3). Obrázek 3.3 Zdroj: Vlastní zpracování. Výsledkem výpočtu jsou dvě tabulk (Obr. 3.4). Test hpotéz:. Hpotéz: : H : Předmět zkoušk neovlivňuje výsledek zkoušk, 0 H : Předmět zkoušk má vliv na výsledek zkoušk, H : Škola uchazeče nemá vliv na výsledek zkoušk, 0 H : Škola uchazeče ovlivňuje výsledek zkoušk. - 45 -
3 Analýza rozptlu ANOVA Obrázek 3.4. Testová kritéria: F 5,58 F 30, 53 3. Kritické hodnot: F KRIT 9,78 a F KRIT 0,9. 4. Závěr: Protože F F KRIT, předmět zkoušk neovlivňuje výsledek zkoušk. Vzhledem k tomu, že F F KRIT, škola uchazeče má vliv na výsledek zkoušk. Zdroj: Vlastní zpracování. 3.3 PŘÍKLADY K PROCVIČENÍ PŘÍKLAD 3. Pan Novák může jet do zaměstnání pěti různými trasami. Čtřikrát projel jednotlivé tras a zaznamenal si dobu, po kterou jel do zaměstnání. Na hladině významnosti 0,05 zjistěte, zda záleží na tom, kterou trasou pojede. Výsledk měření jsou v následující tabulce: Trasa Trasa Trasa 3 Trasa 4 Trasa 5 34 37 3 37 33 35 37 3 38 3 4 36 30 39 9 30 34 3 36 30-46 -
Elena Mielcová, Radmila toklasová a Jaroslav Ramík; tatistické program PŘÍKLAD 3. Zjistěte, zda počet vrobených výrobků závisí na stroji nebo na operátorovi, popř. zda oba tto faktor mají vliv na počet vrobených výrobků. Test proveďte na hladině významnosti 0,05. Počet vrobených výrobků zachcuje následující tabulka. troj Operátor A B C I 53 6 5 II 47 55 5 III 46 5 49 IV 50 58 54 V 49 54 50 PŘÍKLAD 3.3 ledují se emise výfukových plnů v závislosti na dvou faktorech. Jedná se o tp přísad (A,B,C,D), což představuje první faktor, který ovlivňuje emise výfukových plnů. Druhým faktorem je vliv řidiče (I,II,III,IV). Celkem bl proveden 4 pokus s každým tpem přísad. Naměřené hodnot emise jsou v následující tabulce. Proveďte test na hladině významnosti 5%, kterým ověříte, zda jsou emise výfukových plnů statistick významně ovlivněn prvním faktorem (tp přísad), nebo druhým faktorem (vliv řidiče), popř. oběma faktor současně. Přísada Řidič A B C D I 6 5 0 II 0 7 6 3 III 6 5 6 3 IV 5 0 7 0 3.4 ŘEŠENÍ PŘÍKLADŮ ŘEŠENÍ PŘÍKLADU 3. Test hpotéz:. tanovení hpotéz: H 0 : faktor trasa nemá vliv na dobu cest do zaměstnání, H : negace H 0.. Testové kritérium: T 5, 04 3. Obor přijetí: ; 3, 056 0, kritický obor 3,056; 4. Závěr: Na hladině významnosti 0,05 zamítáme hpotézu o nezávislosti dob cestování na trase faktor trasa má vliv na celkovou dobu cest do zaměstnání - 47 -
3 Analýza rozptlu ANOVA ŘEŠENÍ PŘÍKLADU 3. Obě nulové hpotéz o nezávislosti faktorů na počet vrobených výrobků lze zamítnout. Můžete ted z 95% tvrdit, že počet vrobených výrobků je ovlivněn jak strojem, tak i operátorem. ŘEŠENÍ PŘÍKLADU 3.3 Emise výfukových plnů jsou ovlivňován řidičem, ale nejsou ovlivňován tpem přísad. 3.5 PŘÍPADOVÉ TUDIE PŘÍPADOVÁ TUDIE 3. Porovnejte úspěšnost absolventů gmnázií, EŠ, Hotelových škol a Integrovaných škol u přijímacích zkoušek na vsokou školu. Na hladinách významnosti 0,05, 0,0 a 0, testujte, zda faktor vstudovaná středná škola má vliv na úspěšnost žáků u přijímacích zkoušek na vsokou školu. Bod, získané u přijímacích zkoušek jsou zadán v následující tabulce. Gmnázium EŠ Hotelová škola Integrovaná škola 69 56 69 78 67 58 67 76 70 69 68 64 78 67 66 56 79 70 56 69 67 78 64 67 80 79 45 70 78 67 46 78 76 67 37 3 64 89 56 35 56 76 57 5 34 75 85 0 67 73 73 36 70 74 58 9 78 6 76 67 79 67 64 70 67 66 58 78 67 77 80 79 89 89 78 67 56 78 76 67 3 79 64 89 89 76 56 56 78 57 34 56 58 65 58 34 49 56 69 58 78 67 45 69 68 70 46 45 79 78 56 46 80 79 67 45-48 -
Elena Mielcová, Radmila toklasová a Jaroslav Ramík; tatistické program 86 67 38 46 7 67 56 56 9 89 45 67 54 54 38 38 67 45 40 56 70 46 65 45 78 67 53 38 79 57 5 40 67 56 80 67 58 49 78 89 68 44 76 84 66 48 64 76 55 34 56 77 45 35 34 PŘÍPADOVÁ TUDIE 3. ledují se emise výfukových plnů v závislosti na dvou faktorech. Jedná se o tp přísad (A,B,C,D), což představuje první faktor, který ovlivňuje emise výfukových plnů. Druhým faktorem je vliv řidiče (,, 3,...,). Celkem blo provedeno pokusů s každým tpem přísad. Naměřené hodnot emise jsou v následující tabulce. Proveďte test na hladině významnosti %, 5%, a 0%, kterými ověříte, zda jsou emise výfukových plnů statistick významně ovlivněn prvním faktorem (tp přísad), nebo druhým faktorem (vliv řidiče), popř. oběma faktor současně. Přísada Řidič A B C D 6 5 0 0 7 6 3 3 6 5 6 3 4 5 0 7 0 5 6 3 3 6 6 7 3 3 7 7 5 0 0 5 8 0 6 6 0 9 5 7 7 3 0 6 6 3 3 6 6 3 0 7 7 0 6-49 -