7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a číselnou matici X typu (n, k. Předpokládáme, že se Y řídí lineárním modelem, tedy Y = Xβ + e, kde β = (β, β,..., β k je vektor neznámých parametrů a e je vektor náhodných veličin, pro který platí E(e = 0, D(e = σ E. Hledáme odchylku od lineární závislosti, která v sobě zahrnuje vlastní odchylku od lineární závislost a chyby při stanovování vektoru Y. Předpoklad E(e = 0 znamená, že pozorování vektoru Y není zatíženo systematickou chybou. Vztah D(e = σ E zase znamená, že jsou měření souřadnic vektoru Y prováděna se stejnou přesností a že chyby měření nejsou korelované. Dále budeme předpokládat, že je n > k a že hodnost matice X je rovna k. Z uvedených předpokladů vyplývá, že je E(Y = Xβ a D(Y = σ E. Hodnotu vektoru β odhadujeme metodou nejmenších čtverců, tedy z podmínky, že výraz S(β = (Y Xβ T (Y Xβ je minimální. Hodnotu, pro kterou má funkce S minimum označíme b. Věta. Funkce S(β nabývá svého minima pro b = (X T X X T Y. Důkaz: Nejprve ověříme, že vektor b splňuje podmínku X T (Y Xβ = 0. Je totiž Potom je Y Xb = Y X(X T X X T Y X T Y = X T Y X T X(X T X X T Y = = X T Y X T Y = 0. S(β = (Y Xβ T (Y Xβ = (Y Xβ T (Y Xβ = = [(Y Xb + (Xb Xβ] T [(Y Xb + (Xb Xβ] = = (Y Xb T (Y Xb + (b β T X T X(b β + (Y Xb T X(b β+ +(b β T X T (Y Xb = S(b + (b β T X T X(b β. Matice X T X je pozitivně definitní a je tudíž (b β T X T X(b β 0 pro každý vektor (b β. Funkce S(β má tudíž minimum pro β = b. 76
Poznámka: Hodnota Ŷ = Xb je nejlepší lineární aproximací vektoru Y a chyba této aproximace je rovna R = S e = (Y Xb T (Y Xb = Y T Y Y T Xb (Xb T Y + (Xb T Xb = Je to hodnota rovna = Y T Y b T X T Y (Y Xb T Xb = Y T Y b T X T Y. n S e = Y T Y ŶT Y = (Y ŶT Y = (Y i ŶiY i. Hodnota S e = R se nazývá reziduální součet čtverců a hodnota s = R se nazývá reziduální rozptyl. Pro něj je E(s = σ a je nestranným odhadem parametru σ. Náhodné n k veličiny R a b jsou nezávislé. Věta. Pro odhad b platí: E(b = β, D(b = σ (X T X. Důkaz. Protže je b = (X T X X T Y, je Dále je E(b = (X T X X T E(Y = (X T X X T Xβ = β. D(b = (X T X X T D(YX(X T X = (X T X X T σ EX(X T X = σ (X T X. Věta 3. Náhodná veličina b má normální rozdělení N(β; σ (X T X. Náhodná veličina Se má rozdělení χ σ n k. Náhodné veličiny b a S e jsou nezávislé. Věta 4. Jestliže je v ij prvek matice (X T X, pak pro každé i, i k, má náhodná veličina T i = b i β i s v ii rozdělení t(n k.. Jednoduché třídění. Předpokládáme, že máme náhodné výběry Y i, Y i,..., y ini, i m, které jsou nezávislé a mají rozdělení N(µ i ; σi, i m. Testujeme hypotézu: H 0 : µ = µ =... = µ m proti alternativě H : hypotéza H 0 neplatí. Použijeme lineárního modelu, kde minimalizujeme výraz S = (Y ij µ i e ij. Předpokládáme, že = mu i = µ + α i, i m a náhodné veličiny (e ij jsou nezávislé a mají normální rozdělení N(0; σ. Testovaná hypotéza má tvar H 0 : α = α =... = α m = 0. Popis algoritmu: 77
kde. n = n + n +... + n m, m je počet výběrů.. Utvoříme tabulku dat a pomocných výsledků data četnost součet průměr součet čtverců Y,..., Y n n Y. y. n............... Y i,..., Y ini Y i. y i................ Y m,..., Y mnm n m Y m. y m. n m celkem n Y.. y.. Je tedy: n = n + n +... + n m počet dat. Y i. = Y ij řádkový součet; Y.. = m Y i. celkový součet; Y j Y ij Ymj y i. = Y i. odhad střední hodnoty µ i ; y.. = n Y.. odhad střední hodnoty µ. Potom pro minimum kvadratické odchylky, reziduální součet čtverců, dostaneme: S e = S T S A, S T = Yij Y.. n, a S Yi. A = Y.. n. Hodnota S A se nazývá řádkový součet čtverců a hodnota S T celkový součet čtverců. 3. Vypočteme hodnotu testovací statistiky která má rozdělení F m,n m. 4. Kritický obor testu je F = n m m S A S e = n m m S A S T S A, W α = {F ; F F m,n m (α}, kde kritickou hodnotu najdeme v tabulkách. Je obvykle α = 0, 05. Chyba. druhu v případě přijetí hypotézy je menší než α. Zamítnutí. V případě odmítnutí nás zajímá, pro které dvojice je µ i µ j. To lze určit dvěma způsoby: A. Scheffé Použijeme odhadu rozptylu σ s = Se a hledáme dvojice, pro které n m je y i. y k. > ( + n k (m s F m,n m (α. 78 Y ij
Připomeneme, že y i. µ i. B. Tukey Používáme v případě vyváženého třídění, kdy n = n =... = n m = r. Hledáme dvojice, kde y i. y k. > sq m,n m (α r, kde q(α je kritická hodnota tzv. studentizovaného rozpětí. Studentizované rozpětí je náhodná veličina Q = R s, kde R = maxx i minx i je rozpětí náhodného výběru z rozdělení N(µ; σ a s je odhad rozptylu σ. Je pak P (Q q m,n m = α. Při provádění testu předpokládáme, že je σ = σ =... = σ m. Pokud nemáme tuto skutečnost zaručenu, musíme nejdříve otestovat hypotézu o rovnosti rozptylů: H 0 = σ = σ =... = σ m.. Barlettův test. Vypočteme: s i = Yij yi., odhad rozptylu σi ; s ( s i, celkový odhad rozptylu; n m ( m C = + 3(m ; n m B = ( (n m ln s ( ln s i. C Náhodná veličina B má přibližně pro > 6 rozdělení χ (m. Kritický obor testu je W α = {B; B χ m (α}. Pro vyvážené třídění, kde n = n =... = n m = r můžeme použít i tyto testy.. Hartleyův test. Testovací statistika Kritický obor testu je F max = maxs i. mins i W α = {F max ; F max h m,ν (α}, kde ν = r a kritické hodnoty jsou uvedeny v tabulkách. 3. Cochranův test Testovací statistika G max = maxs i. s +... + s m 79
Kritický obor testu je W α = {G max ; G max C m,ν }, ν = = r a kritické hodnoty nalezneme v tabulkách. Neparametrické testy používáme v případech, že jsou výběry z rozdělení, které není normalní. Uvedeme zde Kruskalův-Wallisův test. Předpokládáme, že máme náhodné výběry Y i, Y i,..., Y ini, i m z rozdělení s distribuční funkcí F i, i m. Testujeme hypotézu H 0 : F (x = F (x =... = F m (x, x R proti alternativě H : hypotéza H 0 neplatí. Popis algoritmu:. Uspořádáme hodnoty Y ij, j, i m podle velikosti a každé hodnotě přiřadíme pořadí R ij. pokud soubor obsahuje několik shodných dat, přiřazujeme všem průměr s odpovídajících pořadí.. Vypočteme součty T i pořadí pro jednotlivé soubory, tedy T i = R ij, (T + T +... + T m = n(n +, n = n + n +... + n m. 3. Vypočteme hodnotu testovací statistiky Q = n(n + která má v limitě rozdělení χ (m. 4. Kritický obor testu je T i 3(n +, W α = {Q; Q χ m (α}. V případě zamítnutí hledáme dvojice, pro které je F i F k. Označme t i = T i, i m průměrné pořadí v i tém souboru. Potom je rozdíl mezi F i a F k signifikantní, pokud je t i t k > ( + n k n(n + h m (α, kde kritické hodnoty h m (α najdeme v tabulkách. Nemey-Miller(966. Je-li n = n =... = n m = ν, pak jsou pro menší hodnoty rozsahů m a ν kritické hodnoty pro rozdíl t i t k v tabulkách. Pro větší hodnoty použijeme kritéria t i t k > m(mν + q m, (α, kde q m, (α je kritická hodnota studentizovaného rozdělení. 80