8. Aalýza rozptylu. Lieárí model je popis závislosti, který je využívá v řadě disciplí matematické statistiky. Uvedeme jeho popis a tvrzeí, která budeme využívat. Setkáme se s ím jedak v aalýze rozptylu, kde uvedeme její základí variatu, tzv. jedoduché tříděí a poté v lieárí regresi. Popis modelu. Náhodý vektor Y (Y, Y,..., ) T je sloupcový vektor typu (, ), X je číselá matice typu (, k), β (β, β,..., β k ) T je sloupcový vektor ezámých parametrů typu (k, ) a e (e, e,..., e k ) je sloupcový áhodý vektor typu (k, ). Říkáme, že se áhodý vektor Y řídí lieárím modelem, jestliže Y X β + e Y i k j x ij β j + e i, i O áhodém vektoru e předpokládáme, že jeho souřadice mají ormálí rozděleí, jsou avzájem ezávislé, pro středí hodoty platí E(e) o, tedy E(e i ) 0, i a pro rozptyly D(e i ) σ, i. Pro ostatí prvky kovariačí matice je cov(e i, e j ) 0, i j, a tedy matice var(e) σi, kde I je jedotková matice řádu. Náhodý vektor e zahruje v sobě jedak áhodé odchylky od lieárí závislosti a jedak epřesosti měřeí. Předpoklady o středí hodotě a rozptylu zajišťují, že uvažujeme ezávislá měřeí, která jsou zatížea stejou chybou. O číselé matici předpokládáme, že je > k a že má hodost h(x) k. Prví erovost zaručuje, že máme víc měřeí, ež je volých parametrů modelu. Druhá podmíka zaručí, že je h(x T X) h(x) k. Matice X T X je čtvercová a regulárí řádu k, eboť při ásobeí matic je (k, ) (, k) (k, k). Nezáme parametry modelu odhadujeme pomocí metody ejmeších čtverců. Jejich odhadem je áhodý vektor b (b, b,..., b k ). pro který má miimum fukce S(β) (Y Xβ) T (Y Xβ) (Y i k x ij β j ) Pro výběr metody ejmeších čtverců ás přivádí tato úvaha, kterou budeme ilustrovat a příkladu se dvěma parametry. Předpokládáme, že pro áhodé veličiy platí: Y i β 0 + β x i + e i, i. 37 j
Náhodé veličiy (e, e,..., e ) jsou ezávislé a mají ormálí rozděleí N(0; σ. Náhodé veličiy (Y, Y,..., ) jsou ezávislé a mají ormálí rozděleí N(β 0 + β x i ; σ ). Sdružeá hustota áhodého vektoru (Y, Y,..., ) je rova f(y, β 0, β, σ) (π) /σ e σ (y i β 0 β x i ) (π) / σ e S σ. Jestliže budeme hledat odhady (b 0, b ) parametrů (β 0, β ) metodou maximálí věrohodosti, pak dostaeme, že pro ě má být argumet S/σ expoeciálí fukce miimálí. Výpočtem zjistíme, že fukce f jako fukce proměé σ abývá maxima pro ˆσ S/. Jedá se o extrém fukce g(σ) σ e S σ v itervalu(0, ). Fukce je kladá a pro limity v krajích bodech platí, že lim σ 0+ g(σ) lim σ g(σ) 0 a pro stacioárí bod dostaeme podmíku g (σ) σ e S σ Odtud po zkráceí rovice dostaeme + σ e S σ S σ 3 0 σ S σ 3 0 σ S ˆσ S jediý stacioárí bod, ve kterém musí mít fukce maximum. Použití metody ejmeších čtverců je podmíěo předpokladem o ormalitě chyb. Pokud mají jié rozděleí, je třeba ajít odhady parametrů jiou metodou, která obvykle vyžaduje umerické řešeí. Příklad. Regresí aalýza. Předpokládáme, že je áhodý vektor Y (Y, Y,..., ) T lieárí kombiací s áhodou odchylkou e (e, e,..., e ), kde áhodé veličiy e i mají ormálí rozděleí N(0; σ ) a jsou avzájem ezávislé. Model s jedím parametrem, přímka procházející počátkem. Je Y i β x i + e i, i, tedy Y β x x 38 + e e
Matice X je sloupcový vektor typu (, ) a matice X T X je typu (, ) (číslo) a X T X ( ).( ) T Je vidět, že je matice regulárí, součet čtverců je kladý. Model se dvěma parametry, přímka eprocházející počátkem. Je Y i β 0 + β x i + e i, i, tedy Y, x, x β 0 β + Matice X je typu (, ) a matice X T X je typu (, ) a X T X,,...,, x, x e e, x i, x i. x i x i Také v tomto případě je matice regulárí, její determiat je kladý. Obecý model, polyomiálí aproximace. Je Y i β 0 + β x i + β x i +... + β k x k + e i, i, tedy i Y, x,..., x k, x,..., x k β 0 β k + Matice X je typu (, k) a matice X T X je čtvercová typu (k, ) a X T X,,..., x k, x k,..., x k, x i,..., e e, x,..., x k, x,..., x k, x,..., x k xk i xk i x i, x i,..., xk i, xk i,..., 39 xk i
Také v tomto případě je matice regulárí, její determiat je kladý. Příklad. Aalýza rozptylu. S lieárím modelem se setkáváme v tzv. jedoduchém tříděí v aalýze rozptylu, které je zobecěím dvouvýběrového t testu a případ testováí shody rozděleí tří a více souborů. Předpokládáme, že máme k, k 3, výběrů Y i, Y i,..., Y ii, i k, z ormálího rozděleí N(µ i ; σ i ). Za předpokladů, že jsou rozptyly shodé, tedy σ σ σ... σ k testujeme shodu rozděleí, tudíž ulovou hypotézu H 0 : µ µ... µ k. Náhodou veličiu z výběrů můžeme vyjádřit ve tvaru ( ) Y ij µ i + e ij, j i, i k, kde e ij jsou ezávislé áhodé veličiy s ormálím rozděleím N(0; σi ). Položme + +... + k a β (µ, µ,..., µ k ) T je sloupcový vektor parametrů. Jestliže ozačíme Y T (Y,..., Y, Y,..., Y kk ) T sloupcový vektor ze všech áhodých veliči z výběrů, pak můžeme vztah ( ) zapsat pomocí matic ve tvaru Y X β + e, kde X je číselá matice X, 0,..., 0, 0,..., 0 0,,..., 0 0,,..., 0 0, 0,..., 0, 0,..., 40
Ta je složea z k matic Z i, i k typů ( i, k), které mají vždy v i tém sloupci a jide 0. Matic X T X je čtvercová řádu k a je X T X,, 0, 0, 0 0, 0,,, 0 0,, 0,..., 0, 0,..., 0 0,,..., 0 0,,..., 0 0, 0,..., 0, 0,...,, 0, 0 0,, 0 0, 0, k Matice je regulárí a k í iverzí matice má vyjádřeí (X T X) /, 0, 0 0, /, 0 0, 0, / k V dalším textu budeme používat ještě matice kde a X T Y b (X T X) X T Y,, 0, 0, 0 0, 0,,, 0 0, Y i. i j Y ij, i k Y Y Y kk /, 0, 0 0, /, 0 0, 0, / k 4 Y. Y. Y k. Y. Y. Y k. y. y. y k.
kde y i. i i j Y ij, i k. Vlastosti lieárího modelu. Uvažujeme áhodý vektor Y (Y, Y,..., ) a číselou matici X typu (, k). Předpokládáme, že se Y řídí lieárím modelem, tedy Y X β + e, kde β (β, β,..., β k ) T je vektor ezámých parametrů a e je vektor áhodých veliči, které jsou ezávislé a mají ormálí rozděleí s parametry E(e) o, var(e) σ I. Předpoklad E(e) o zameá, že pozorováí vektoru eí zatížeo systematickou chybou. Vztah var(e) σ I zase zameá, že jsou měřeí souřadic vektoru Y prováděa se stejou přesostí a že chyby měřeí ejsou korelovaé. Dále budeme předpokládat, že je > k a že hodost matice X je rova k. Z uvedeých předpokladů vyplývá, že je E(Y ) X β a var(y ) σ I. Odhad vektoru β hledáme metodou ejmeších čtverců, tedy z podmíky, že výraz S(β) (Y X β) T (Y X β) je miimálí. Hodotu, pro kterou má fukce S miimum ozačíme b. Věta. Fukce S(β) abývá svého miima pro b (X T X) X T Y Důkaz: Nejprve ověříme, že vektor b splňuje podmíku X T (Y Xβ) 0. Je totiž Y Xb Y X(X T X) X T Y Potom je X T Y X T Y X T X(X T X) X T Y X T Y X T Y 0. S(β) (Y Xβ) T (Y Xβ) 4
[(Y Xb) + (Xb Xβ)] T [(Y Xb) + (Xb Xβ)] (Y Xb) T (Y Xb)+(b β) T X T X(b β)+(y Xb) T X(b β)+ +(b β) T X T (Y Xb) S(b) + (b β) T X T X(b β). Matice X T X je pozitivě defiití a je tudíž (b β) T X T X(b β) 0 pro každý vektor (b β). Fukce S(β) má tudíž miimum pro β b. Pozámka: Hodota Ŷ Xb je ejlepší lieárí aproximací vektoru Y a chyba této aproximace je rova R S e, S e (Y Xb) T (Y Xb) Y T Y Y T Xb (Xb) T Y + (Xb) T Xb Y T Y b T X T Y (Y Xb) T Xb Y T Y b T X T Y. Je to hodota rova S e Y T Y Ŷ T Y (Y Ŷ )T Y (Y i Ŷi)Y i. R k se Hodota S e R se azývá reziduálí součet čtverců a hodota s azývá reziduálí rozptyl. Pro ěj je E(s ) σ a je estraým odhadem parametru σ. Náhodé veličiy R a b jsou ezávislé. Věta. Pro odhad b platí: E(b) β, var(b) σ (X T X). Důkaz. Protože je b (X T X) X T Y, je Dále je E(b) (X T X) X T E(Y ) (X T X) X T Xβ β. var(b) (X T X) X T var(y )X(X T X) (X T X) X T σ IX(X T X) σ (X T X). Věta 3. Náhodá veličia b má ormálí rozděleí N(β; σ (X T X) ). Náhodá veličia S e σ má rozděleí χ k. Náhodé veličiy b a S e jsou ezávislé. Věta 4. Jestliže je v ij prvek matice (X T X), pak pro každé i, i k, má áhodá veličia T i b i β i s v ii 43
rozděleí t( k). Aalýza rozptylu, jedoduché tříděí. Předpokládáme, že máme áhodé výběry Y i, Y i,..., y ii, i k, které jsou ezávislé a mají rozděleí N(µ i ; σi ), i k. Testujeme hypotézu: H 0 : µ µ... µ k proti alterativě H : hypotéza H 0 eplatí. Použijeme lieárího modelu, kde miimalizujeme výraz S k i j (Y ij µ i e ij ). Předpokládáme, že µ i µ + α i, i k a áhodé veličiy (e ij ) jsou ezávislé a mají ormálí rozděleí N(0; σ ). Testovaá hypotéza má tvar H 0 : α α... α k 0. Popis algoritmu:. + +... + k, k je počet výběrů.. Utvoříme tabulku dat a pomocých výsledků data četost součet průměr součet čtverců Y,..., Y Y. y. j j............... Y i,..., Y ii i Y i. y i. i Y ij j............... Y k,..., Y kk k Y k. y k. k celkem Y y m Je tedy: + +... + k počet dat. Y i. i Y ij řádkový součet; j Y k Y i. celkový součet; y i. i Y i. odhad středí hodoty µ i ; 44 Y kj j i Y ij j
y Y odhad středí hodoty µ. Potom pro miimum kvadratické odchylky, reziduálí součet čtverců, dostaeme: S e S T S A, kde S T m i Y j ij Y, a S A k Y i. Y i. Hodota S A se azývá řádkový součet čtverců a hodota S T celkový součet čtverců. 3. Vypočteme hodotu testovací statistiky F k k která má rozděleí F k, k. 4. Kritický obor testu je S A k S e k S A S T S A, W α {F ; F F k, k (α)}, kde kritickou hodotu ajdeme v tabulkách. Je obvykle α 0, 05. Chyba. druhu v případě přijetí hypotézy je meší ež α. Zamítutí. V případě odmítutí ás zajímá, pro které dvojice je µ i µ j. To lze určit dvěma způsoby: A. Scheffé Použijeme odhadu rozptylu σ s S e k a hledáme dvojice, pro které je y i. y j. > i + j (k )s F k, k (α). Připomeeme, že y i. µ i. B. Tukey Používáme v případě vyvážeého tříděí, kdy... k r. Hledáme dvojice, kde y i. y j. > sq k, k (α) r, kde q(α) je kritická hodota tzv. studetizovaého rozpětí. Studetizovaé rozpětí je áhodá veličia Q R s, kde R maxx i mix i je rozpětí áhodého výběru z rozděleí N(µ; σ ) a s je odhad rozptylu σ. Je pak P (Q q k, k ) α 45
a kritickou hodotu q k, k (α) alezeme v tabulkách. Při prováděí testu předpokládáme, že je σ σ... σ m. Pokud emáme tuto skutečost zaručeu, musíme ejdříve otestovat hypotézu o rovosti rozptylů: H 0 σ σ... σ k.. Barlettův test. Vypočteme: s i i s k i Y j k C + B C ij i yi., odhad rozptylu σi ; ( i )s i, celkový odhad rozptylu; 3(k ) k i k ( k) l s k ( i ) l s i Náhodá veličia B má pro i > 6 přibližě rozděleí χ (k ). Kritický obor testu je W α {B; B χ m (α)}. Pro vyvážeé tříděí, kde... k r můžeme použít i tyto testy.. Hartleyův test. Testovací statistika Kritický obor testu je F max maxs i mis. i W α {F max ; F max h k,ν (α)}, kde ν r a kritické hodoty jsou uvedey v tabulkách. 3. Cochraův test Testovací statistika ;. G max maxs i s +... + s. k 46
Kritický obor testu je W α {G max ; G max C k,ν }, ν i r a kritické hodoty alezeme v tabulkách. Regresí aalýza Hledáme závislosti mezi dvěma ebo více statistickými zaky, veličiami. Regresí aalýza se zabývá zkoumáím závislostí hodot závislé veličiy a ezávislé veličiě. Koreláčí aalýza hledá vzájemý vztah mezi veličiami. Pomocí uvedeého modelu se dá řešit případ lieárí závislosti. Uvedeme ěkolik případů modelu. A. Přímka procházející počátkem. Situaci odpovídá model, kdy Y i βx i + e i, i, kde áhodé veličiy e, e,..., e jsou ezávislé áhodé veličiy z rozděleím N(0; σ ). Matice X ( ) T je typu a β je číslo (matice typu ). Z věty a příkladu dostaeme, že odhadem parametru β je b (X T X) X T Y Y ix i. x i Pro odhad rozptylu dostaeme hodotu s S e, kde S e (Y i Ŷi)Y i Y i b x i Y i, eboť Ŷi bx i, i. Dále je X T X x i. Z věty 4 dostaeme tvrzeí o rozděleí áhodé veličiy T b β s. Ta má hodotu v T b β s x i t. Testujeme vhodost modelu, kterou můžeme popsat jako ulovou hypotézu H 0 : β 0 proti alterativí hypotéze H : β 0. V případě ezamítutí hypotézy H 0 je lieárí model evhodý, hypotéza H představuje lieárí závislost hodoty a hodotě x. 47
B. Obecá přímka Situaci odpovídá model, kdy Y i β 0 + β x i + e i, i, kde áhodé veličiy e, e,..., e jsou ezávislé áhodé veličiy z rozděleím N(0; σ ), tedy Y, x, x β 0 β + Matice X je typu (, ) a matice X T X je typu (, ) a Matice X T X X T Y,,...,,,...,, x, x Y e e, x i, Y i Y ix i x i x i je typu a β je matice typu. Z věty a příkladu dostaeme, že odhadem parametrů β 0, β je b (X T X) X T Y b 0 b Odtud dostaeme vyjádřeí pro koeficiety přímky ve tvaru: Y Y i, x x i, b pro odhad rozptylu dostaeme hodotu s S e Y ix i xy x i (x), b 0 Y b x. Y i b 0 Y i b Y i x i Vhodost lieárího modelu ověříme testem hypotézy o koeficietu β. Testujeme ulovou hypotézu H 0 : β 0 proti alterativí hypotéze. 48
H : β. Pokud ulovou hypotézu H 0 odmíteme, je lieárí model vhodý pro popis závislosti. K tomu použijeme statistiku T b β s b v s x i (x), která má rozděleí t. V případě přijetí alterativí hypotézy H můžeme určit itervaly spolehlivosti pro hodoty β 0 + β x k. Ty mají tvar b 0 + b x k ± t (α) s + (x x) x i (x). Pokud chceme určit iterval spolehlivosti pro celou přímku Y β 0 + β x, pak musíme ahradit kritickou hodotu t (α) hodotou F, (α). Dostaeme pás spolehlivosti pro regresí přímku ve tvaru b 0 + b x k ± F, (α) s + (x x) x i (x). Pás je ohraiče dvoljicí hyperbol, který překrývá přímku y β 0 + β x se spolehlivostí ( α). C. Kvadratická regrese Situaci odpovídá model, kdy Y i β 0 + β x i + β x i + e i, i, kde áhodé veličiy e, e,..., e jsou ezávislé áhodé veličiy z rozděleím N(0; σ ), tedy Y, x, x, x, x β 0 β β + e e Matice X je typu (, 3) a matice X T X je typu (3, 3) a X T X,,..., x, x,..., x, x, x, x, x, x i, x i, x i, x i, x3 i, x i x3 i x4 i 49
Matice X T Y,,..., x, x,..., x Y, Y i Y ix i Y ix i je typu 3 a β je matice typu 3. Z věty a příkladu dostaeme, že odhadem parametrů β 0, β, β je vektor b (X T X) X T Y b 0 b b, který dostaeme jeko řešeí soustavy lieárích rovic Odhad rozptylu σ je s 3 S e 3 X T X X T b. Y i b 0 Y i b Y i x i b Y i x i Pro ověřeí vhodosti kvadratické závislosti testujeme hypotézu H 0 : β 0 proti alterativě H : β 0. V případě přijetí ulové hypotézy stačí uvažovat, že závislost Y i a x i je pouze lieárí. K tomu použijeme skutečosti, že áhodá veličia T 3 b β s v 33 t 3, kde (X T X) (v ij ). Hypotézu H 0 zámítáme, tedy uvažujeme kvadratickou závislost v případě, že T 3 t 3 (α). Někdy je třeba testovat složeou hypotézu H 0 : β β 0. Alterativí hypotézou je, že závislost Y i a x i je lieárí ebo kvadratická. Za pltosti hypotézy H 0 dostáváme podmodel Y i β 0 + e i. Pro reziduálí součet je R ( 3)s a reziduálí roztyl je Testovací statistika je R Y i (Y ). F (R R)( 3) R 50 F, 3
Hypotézu H 0 zamítáme, jestliže je F F, 3 (α). D. Lieárí regrese z dvěma ezávislými proměými Situaci odpovídá model, kdy Y i β 0 + β x i + β z i + e i, i, kde áhodé veličiy e, e,..., e jsou ezávislé áhodé veličiy z rozděleím N(0; σ ), tedy Y, x, z, x, z β 0 β β + Matice X je typu (, 3) a matice X T X je typu (3, 3) a X T X Matice,,..., z, z,..., z X T Y, x, z, x, z,,..., z, z,..., z Y Y, x i, z i, e e x i, x i, x iz i, Y i Y ix i Y iz i z i x iz i z i je typu 3 a β je matice typu 3. Z věty a příkladu dostaeme, že odhadem parametrů β 0, β, β je vektor b (X T X) X T Y b 0 b b, který dostaeme jeko řešeí soustavy lieárích rovic X T X X T b. Odhad rozptylu σ je s 3 S e 3 Y i b 0 Y i b Y i x i b Y i z i 5
Pro ověřeí vhodosti závislosti a dvou proměých testujeme hypotézu H 0 : β 0 proti alterativě H : β 0. V případě přijetí ulové hypotézy stačí uvažovat závislost Y i pouze a x i. K tomu použijeme skutečosti, že áhodá veličia T 3 b β s v 33 t 3, kde (X T X) (v ij ). Hypotézu H 0 zámítáme, tedy uvažujeme závislost a proměé z i v případě, že T 3 t 3 (α). Obdobě můžeme testovat závislost a proměé z i. Testujeme hypotézu H 0 : β 0 proti alterativě H : β 0. Testovací statistikou je T b β s v t 3. Závislost Y i a x i je prokázáa, jestliže je T t 3 (α). Někdy je třeba testovat složeou hypotézu H 0 : β β 0. Alterativí hypotézou je, že závislost Y i je a x i a z i. Za platosti hypotézy H 0 dostáváme podmodel Y i β 0 + e i. Pro reziduálí součet je R ( 3)s a reziduálí roztyl je R Yi (Y ). Testovací statistika je F (R R)( 3) R F, 3 Hypotézu H 0 zamítáme, jestliže je F F, 3 (α). E. Obecá polyomiálí regrese Situaci odpovídá model, kdy Y i β 0 + β x i + β x i +... + β k x k + e i, i, tedy Y, x,..., x k, x,..., x k i β 0 β k + Matice X je typu (, k) a matice X T X je čtvercová řádu k a X T X,,..., x k, x k,..., x k 5 e e, x,..., x k, x,..., x k, x,..., x k
Matice X T Y, x i,..., xk i xk i x i, x i,..., xk i, xk i,...,,,..., x k, x k,..., x k T xk i Y Y Y i Y ix i Y ix k i je typu k a β je matice typu k ). Z věty a příkladu dostaeme, že odhadem parametrů β 0,..., β k je vektor b (X T X) X T Y b 0 b k, který dostaeme jeko řešeí soustavy lieárích rovic X T X X T b. Závislost Y i a ěkteré z moci x i ověříme testem hypotézy H 0 : β j 0 proti alterativě H : β j 0. Použijeme testovací statistiku T j b j β j s v jj t k, kde (X T X) (v ij ). Závislost považujeme za prokázaou, pokud je T j b j s v jj t k (α). 53