Analýza rozptylu Analýza rozptylu umožňuje ověřit významnost rozdílu mezi výběrovými průměry většího počtu náhodných výběrů, umožňuje posoudit vliv různých faktorů. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu. Analýza rozptylu se často označuje akronymem ANOVA ANalysis Of VAriance.
Analýza rozptylu Např. zjišťujeme vliv vzdělání (první nezávislý faktor A) a pohlaví (druhý nezávislý faktor B) na příjem (závislý kvantitativní faktor Y). Nezávislé faktory jsou zpravidla kvalitativní (pohlaví, vzdělání) ale mohou být i kvantitativní (věk). Cílem ANOVA je prokázat, že hodnoty znaků A,B - nezávislých faktorů, ovlivňují hodnoty kvantitativního znaku Y - závislého faktoru. ANOVA je lepší alternativou pro t-test v případě, že porovnáváme víc než dva průměry.
Jednofaktorová ANOVA Předpokládáme, že faktor A je pouze jeden a má k úrovní (hodnot x i ), s účinkem na znak Y, který lze vyjádřit vztahem: µ i = µ + α i kde µ i je průměr znaku Y v i-té úrovni, µ je celkový průměr znaku Y, α i je vliv faktoru A na znak Y v i-té úrovni. Předpokládáme, že hodnoty α i pocházejí z normálně rozdělené populace s nulovou střední hodnotou a konstantním rozptylem. Nulová hypotéza: H 0 : α 1 = α 2 =... = α k = 0 resp. µ 1 = µ 2 =... = µ k
Jednofaktorová ANOVA Součet čtverců odchylek od celkového průměru µ: k n i y ij 2 S c = i=1 j=1 lze rozložit na dvě složky: k S c = i=1 n i y ij i i 2 k = j=1 n i y ij i 2 i=1 j=1 kde S R je součet čtverců odchylek uvnitř jednotlivých úrovní a S A je součet čtverců odchylek mezi úrovněmi. Testuje se, zda je S A významné ve srovnání s S R. S R k n i i 2 i=1 S A =S R S A
Jednofaktorová ANOVA S c je s.č.o. od celkového průměru; S R je s.č.o. uvnitř jednotlivých úrovní; S A je s.č.o. mezi úrovněmi. S c = S R + S A Testovací kritérium: F = S A n k S R k 1 kde k je počet úrovní a n je celkový počet měření. Platí-li nulová hypotéza, má F statistika Fisherovo rozdělení F(k-1,n-k) s k-1 a n-k stupni volnosti. Je-li F > F α (k-1,n-k), můžeme nulovou hypotézu na hladině α zamítnout. Pro výpočet kritických hodnot lze využít Excelu: FINV(α;k-1;n-k ).
ANOVA v Excelu Některé varianty ANOVA lze vypočítat v Excelu. Instalace: V menu: Soubor Možnosti Doplňky, dole na kartě Spravovat: vybrat Doplňky aplikace Excel, zmáčknout tlačítko Přejít, zaškrtnout Analytické nástroje a zmáčknout tlačítko OK. Spuštění: V menu: Data Analýza dat Podle potřeby vybrat Anova: Jeden faktor Anova: Dva faktory s opakováním Anova: Dva faktory bez opakování
Jednofaktorová ANOVA v Excelu Po písemce z Fyziky II bylo vybráno podle abecedy po 12 studentech studijních programů CHTM, CHTP a PI. Body těchto studentů byly zapsány do tabulky: CHTM 33 44 42 52 12 13 70 35 20 36 8 70 CHTP 48 34 38 1 50 5 44 47 15 58 35 2 PI 30 18 75 70 62 68 45 30 18 9 7 8
Jednofaktorová ANOVA v Excelu Zadání parametrů:
Výstup: Jednofaktorová ANOVA v Excelu F = S A n k S R k 1
Jednofaktorová ANOVA Zamítneme-li nulovou hypotézu, víme, že některé se liší od ostatních. Které to jsou? Scheffého metoda vícenásobného porovnání: Je-li i j k 1 n k S R F k 1, n k [ 1 n i 1 n j ] lze nulovou hypotézu µ i = µ j zamítnout.
Dvoufaktorová ANOVA Posuzujeme vliv dvou faktorů A a B na různých úrovních. Kombinace faktorů tvoří mřížkovou strukturu. Mřížka se skládá z cel. (i,j) -tá cela odpovídá kombinaci úrovně A i faktoru A a B j faktoru B. B 1 B 2 B 3 A 1 A 2 cela (2,1) A 3 Je-li v každé cele jedna hodnota, mluvíme o ANOVA bez opakování. Je-li v některé cele více než jedna hodnota, mluvíme o ANOVA s opakováním. Budeme se zabývat pouze případem, kdy je v každé cele stejný počet hodnot p (tzv. vyvážená třídění).
Dvoufaktorová ANOVA Předpokládáme, že existují dva faktory A a B, které mají k, resp. m úrovní, s účinkem na znak Y, který lze vyjádřit vztahem: µ ij = µ + α i + β j + γ ij kde µ ij je průměr znaku Y v (i,j)-té cele, µ je celkový průměr znaku Y, α i je vliv faktoru A na znak Y v i-té úrovni, β j je vliv faktoru B na znak Y v j-té úrovni, γ i,j charakterizuje interakci mezi faktory. Nulová hypotéza pro všechny skupiny (úrovně faktoru A): H 0 : α 1 = α 2 =... = α k = 0 Nulová hypotésa pro všechny bloky (úrovně faktoru B): H 0 ': β 1 = β 2 =... = β m = 0
Označme: µ i. - průměr v i-té skupině µ. j - průměr v j-tém bloku µ - celkový průměr k S c = i=1 m p r=1 j=1 k S A =mp i=1 m S B =kp k S = R i=1 j=1 m p j=1 r=1 Dvoufaktorová ANOVA y ijr 2 celkový součet čtverců i. 2 meziskupinový součet čtverců. j 2 meziblokový součet čtverců S c = S A + S B + S AB + S R y ijr i.. j 2 vnitroskupinový-blokový s. č.
Dvoufaktorová ANOVA s opakováním Pro ověření nulové hypotézy H 0 použijeme statistiku F A = n k m 1 S A k 1 S R která má při platnosti nulové hypotézy Fisherovo rozdělení F(k-1,n-k-m+1). Kritickou hodnotu vypočítáme v Excelu pomocí funkce =FINV(α;k-1;n-k-m+1). Analogicky pro ověření hypotézy H 0 ' použijeme statistiku F B = n k m 1 S A m 1 S R která má při platnosti nulové hypotézy Fisherovo rozdělení F(m-1,n-k-m+1). V obou případech nulovou hypotézu zamítneme, je-li F A resp. F B větší než příslušná hodnota Fisherova rozdělení.
Dvoufaktorová ANOVA Po písemce z Fyziky II bylo vybráno podle abecedy po 12 studentech studijních programů CHTM, CHTP a PI, vždy 6 studentů a 6 studentek. Máme 2 faktory (program a pohlaví) a 6 hodnot v každé cele (s opakováním). Poznámky: 1) Vstupní oblast musí obsahovat i záhlaví tabulky. 2) V každé cele musí být stejný počet hodnot.
Dvoufaktorová ANOVA Výběr - meziskupinový SS (faktor A) Sloupce - meziblokový SS (faktor B) Interakce - SS pro interakci nezi faktory A, B Dohromady -vnitroskupinový SS Celkem - celkový SS
Dvoufaktorová ANOVA Zjistili jsme, že není rozdíl mezi obory, ale je rozdíl mezi pohlavími. Pokusme se ověřit t-testem rozdíl mezi pohlavími: pohlaví průměr rozptyl směr. odch. studenti 43.28 405.39 20.13 studentky 30.28 270.21 16.44 t = 2.21 t krit (0.05) = 2.02 α = 0.041 Je rozdíl mezi studenty CHTP a PI? program průměr rozptyl směr. odch. CHTP 32.17 250 15.82 PI 53.83 565 23.79 t = 1.86 t krit (0.05) = 2.23 α = 0.093 t = 1 2 2 1 2 N 1 2 N 2
Dvoufaktorová ANOVA s opakováním Zamítneme-li nulovou hypotézu, víme, že některé se liší od ostatních. Které to jsou? Scheffého metoda vícenásobného porovnání: Je-li i t 2 k 1 mp n km S F R k 1, n km lze nulovou hypotézu µ i = µ t zamítnout. Je-li j t 2 m 1 kp n km S R F m 1, n km lze nulovou hypotézu µ j = µ t zamítnout.