7. Analýza rozptylu.

Podobné dokumenty
15. T e s t o v á n í h y p o t é z

8. Analýza rozptylu.

15. T e s t o v á n í h y p o t é z

12. cvičení z PST. 20. prosince 2017

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Jednofaktorová analýza rozptylu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

5. T e s t o v á n í h y p o t é z

Regresní analýza. Ekonometrie. Jiří Neubauer. Katedra ekonometrie FVL UO Brno kancelář 69a, tel

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

6. T e s t o v á n í h y p o t é z

Testování hypotéz o parametrech regresního modelu

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Testování hypotéz o parametrech regresního modelu

Normální (Gaussovo) rozdělení

Úvod do analýzy rozptylu

PRAVDĚPODOBNOST A STATISTIKA

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

odpovídá jedna a jen jedna hodnota jiných

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

AVDAT Klasický lineární model, metoda nejmenších

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

12. prosince n pro n = n = 30 = S X

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Přednáška IX. Analýza rozptylu (ANOVA)

AVDAT Geometrie metody nejmenších čtverců

Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

X = x, y = h(x) Y = y. hodnotám x a jedné hodnotě y. Dostaneme tabulku hodnot pravděpodobnostní

Normální rozložení a odvozená rozložení

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Bodové a intervalové odhady parametrů v regresním modelu

KGG/STG Statistika pro geografy

Testování statistických hypotéz

8. Normální rozdělení

Příklady na testy hypotéz o parametrech normálního rozdělení

Intervalové Odhady Parametrů

Regresní analýza 1. Regresní analýza

LWS při heteroskedasticitě

Stručný úvod do testování statistických hypotéz

Statistická analýza jednorozměrných dat

PRAVDĚPODOBNOST A STATISTIKA

Charakteristika datového souboru

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

9. T r a n s f o r m a c e n á h o d n é v e l i č i n y

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

BAYESOVSKÉ ODHADY. Michal Friesl V NĚKTERÝCH MODELECH. Katedra matematiky Fakulta aplikovaných věd Západočeská univerzita v Plzni

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

Matematické modelování Náhled do ekonometrie. Lukáš Frýd

Normální (Gaussovo) rozdělení

Testování předpokladů pro metodu chain-ladder. Seminář z aktuárských věd Petra Španihelová

Odhad parametrů N(µ, σ 2 )

I. D i s k r é t n í r o z d ě l e n í

Regresní a korelační analýza

p(x) = P (X = x), x R,

Základy počtu pravděpodobnosti a metod matematické statistiky

Definice 13.1 Kvadratická forma v n proměnných s koeficienty z tělesa T je výraz tvaru. Kvadratická forma v n proměnných je tak polynom n proměnných s

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Neparametrické metody

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

10. cvičení z PST. 5. prosince T = (n 1) S2 X. (n 1) s2 x σ 2 q χ 2 (n 1) (1 α 2 ). q χ 2 (n 1) 2. 2 x. (n 1) s. x = 1 6. x i = 457.

1. Náhodný vektor (X, Y ) má diskrétní rozdělení s pravděpodobnostní funkcí p, kde. p(x, y) = a(x + y + 1), x, y {0, 1, 2}.

Matematika III 10. týden Číselné charakteristiky střední hodnota, rozptyl, kovariance, korelace

STATISTICKÉ TESTY VÝZNAMNOSTI

8.1. Definice: Normální (Gaussovo) rozdělení N(µ, σ 2 ) s parametry µ a. ( ) ϕ(x) = 1. označovat písmenem U. Její hustota je pak.

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Odhad parametrů N(µ, σ 2 )

KGG/STG Statistika pro geografy

Bootstrap - konfidenční intervaly a testy

Intervalové Odhady Parametrů II Testování Hypotéz

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

0.1 Úvod do lineární algebry

Testování statistických hypotéz

Cvičení ze statistiky - 8. Filip Děchtěrenko

MATEMATICKÁ STATISTIKA - XP01MST

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

PRAVDĚPODOBNOST A STATISTIKA

MATEMATICKÁ STATISTIKA. Katedra matematiky a didaktiky matematiky Technická univerzita v Liberci

= = 2368

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

LINEÁRNÍ MODELY. Zdeňka Veselá

0.1 Úvod do lineární algebry

9 Kolmost vektorových podprostorů

Úlohy nejmenších čtverců

Ing. Michael Rost, Ph.D.

4EK211 Základy ekonometrie

Výběrové charakteristiky a jejich rozdělení

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Testování statistických hypotéz

Transkript:

7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a číselnou matici X typu (n, k. Předpokládáme, že se Y řídí lineárním modelem, tedy Y = Xβ + e, kde β = (β, β,..., β k je vektor neznámých parametrů a e je vektor náhodných veličin, pro který platí E(e = 0, D(e = σ E. Hledáme odchylku od lineární závislosti, která v sobě zahrnuje vlastní odchylku od lineární závislost a chyby při stanovování vektoru Y. Předpoklad E(e = 0 znamená, že pozorování vektoru Y není zatíženo systematickou chybou. Vztah D(e = σ E zase znamená, že jsou měření souřadnic vektoru Y prováděna se stejnou přesností a že chyby měření nejsou korelované. Dále budeme předpokládat, že je n > k a že hodnost matice X je rovna k. Z uvedených předpokladů vyplývá, že je E(Y = Xβ a D(Y = σ E. Hodnotu vektoru β odhadujeme metodou nejmenších čtverců, tedy z podmínky, že výraz S(β = (Y Xβ T (Y Xβ je minimální. Hodnotu, pro kterou má funkce S minimum označíme b. Věta. Funkce S(β nabývá svého minima pro b = (X T X X T Y. Důkaz: Nejprve ověříme, že vektor b splňuje podmínku X T (Y Xβ = 0. Je totiž Potom je Y Xb = Y X(X T X X T Y X T Y = X T Y X T X(X T X X T Y = = X T Y X T Y = 0. S(β = (Y Xβ T (Y Xβ = (Y Xβ T (Y Xβ = = [(Y Xb + (Xb Xβ] T [(Y Xb + (Xb Xβ] = = (Y Xb T (Y Xb + (b β T X T X(b β + (Y Xb T X(b β+ +(b β T X T (Y Xb = S(b + (b β T X T X(b β. Matice X T X je pozitivně definitní a je tudíž (b β T X T X(b β 0 pro každý vektor (b β. Funkce S(β má tudíž minimum pro β = b. 76

Poznámka: Hodnota Ŷ = Xb je nejlepší lineární aproximací vektoru Y a chyba této aproximace je rovna R = S e = (Y Xb T (Y Xb = Y T Y Y T Xb (Xb T Y + (Xb T Xb = Je to hodnota rovna = Y T Y b T X T Y (Y Xb T Xb = Y T Y b T X T Y. n S e = Y T Y ŶT Y = (Y ŶT Y = (Y i ŶiY i. Hodnota S e = R se nazývá reziduální součet čtverců a hodnota s = R se nazývá reziduální rozptyl. Pro něj je E(s = σ a je nestranným odhadem parametru σ. Náhodné n k veličiny R a b jsou nezávislé. Věta. Pro odhad b platí: E(b = β, D(b = σ (X T X. Důkaz. Protže je b = (X T X X T Y, je Dále je E(b = (X T X X T E(Y = (X T X X T Xβ = β. D(b = (X T X X T D(YX(X T X = (X T X X T σ EX(X T X = σ (X T X. Věta 3. Náhodná veličina b má normální rozdělení N(β; σ (X T X. Náhodná veličina Se má rozdělení χ σ n k. Náhodné veličiny b a S e jsou nezávislé. Věta 4. Jestliže je v ij prvek matice (X T X, pak pro každé i, i k, má náhodná veličina T i = b i β i s v ii rozdělení t(n k.. Jednoduché třídění. Předpokládáme, že máme náhodné výběry Y i, Y i,..., y ini, i m, které jsou nezávislé a mají rozdělení N(µ i ; σi, i m. Testujeme hypotézu: H 0 : µ = µ =... = µ m proti alternativě H : hypotéza H 0 neplatí. Použijeme lineárního modelu, kde minimalizujeme výraz S = (Y ij µ i e ij. Předpokládáme, že = mu i = µ + α i, i m a náhodné veličiny (e ij jsou nezávislé a mají normální rozdělení N(0; σ. Testovaná hypotéza má tvar H 0 : α = α =... = α m = 0. Popis algoritmu: 77

kde. n = n + n +... + n m, m je počet výběrů.. Utvoříme tabulku dat a pomocných výsledků data četnost součet průměr součet čtverců Y,..., Y n n Y. y. n............... Y i,..., Y ini Y i. y i................ Y m,..., Y mnm n m Y m. y m. n m celkem n Y.. y.. Je tedy: n = n + n +... + n m počet dat. Y i. = Y ij řádkový součet; Y.. = m Y i. celkový součet; Y j Y ij Ymj y i. = Y i. odhad střední hodnoty µ i ; y.. = n Y.. odhad střední hodnoty µ. Potom pro minimum kvadratické odchylky, reziduální součet čtverců, dostaneme: S e = S T S A, S T = Yij Y.. n, a S Yi. A = Y.. n. Hodnota S A se nazývá řádkový součet čtverců a hodnota S T celkový součet čtverců. 3. Vypočteme hodnotu testovací statistiky která má rozdělení F m,n m. 4. Kritický obor testu je F = n m m S A S e = n m m S A S T S A, W α = {F ; F F m,n m (α}, kde kritickou hodnotu najdeme v tabulkách. Je obvykle α = 0, 05. Chyba. druhu v případě přijetí hypotézy je menší než α. Zamítnutí. V případě odmítnutí nás zajímá, pro které dvojice je µ i µ j. To lze určit dvěma způsoby: A. Scheffé Použijeme odhadu rozptylu σ s = Se a hledáme dvojice, pro které n m je y i. y k. > ( + n k (m s F m,n m (α. 78 Y ij

Připomeneme, že y i. µ i. B. Tukey Používáme v případě vyváženého třídění, kdy n = n =... = n m = r. Hledáme dvojice, kde y i. y k. > sq m,n m (α r, kde q(α je kritická hodnota tzv. studentizovaného rozpětí. Studentizované rozpětí je náhodná veličina Q = R s, kde R = maxx i minx i je rozpětí náhodného výběru z rozdělení N(µ; σ a s je odhad rozptylu σ. Je pak P (Q q m,n m = α. Při provádění testu předpokládáme, že je σ = σ =... = σ m. Pokud nemáme tuto skutečnost zaručenu, musíme nejdříve otestovat hypotézu o rovnosti rozptylů: H 0 = σ = σ =... = σ m.. Barlettův test. Vypočteme: s i = Yij yi., odhad rozptylu σi ; s ( s i, celkový odhad rozptylu; n m ( m C = + 3(m ; n m B = ( (n m ln s ( ln s i. C Náhodná veličina B má přibližně pro > 6 rozdělení χ (m. Kritický obor testu je W α = {B; B χ m (α}. Pro vyvážené třídění, kde n = n =... = n m = r můžeme použít i tyto testy.. Hartleyův test. Testovací statistika Kritický obor testu je F max = maxs i. mins i W α = {F max ; F max h m,ν (α}, kde ν = r a kritické hodnoty jsou uvedeny v tabulkách. 3. Cochranův test Testovací statistika G max = maxs i. s +... + s m 79

Kritický obor testu je W α = {G max ; G max C m,ν }, ν = = r a kritické hodnoty nalezneme v tabulkách. Neparametrické testy používáme v případech, že jsou výběry z rozdělení, které není normalní. Uvedeme zde Kruskalův-Wallisův test. Předpokládáme, že máme náhodné výběry Y i, Y i,..., Y ini, i m z rozdělení s distribuční funkcí F i, i m. Testujeme hypotézu H 0 : F (x = F (x =... = F m (x, x R proti alternativě H : hypotéza H 0 neplatí. Popis algoritmu:. Uspořádáme hodnoty Y ij, j, i m podle velikosti a každé hodnotě přiřadíme pořadí R ij. pokud soubor obsahuje několik shodných dat, přiřazujeme všem průměr s odpovídajících pořadí.. Vypočteme součty T i pořadí pro jednotlivé soubory, tedy T i = R ij, (T + T +... + T m = n(n +, n = n + n +... + n m. 3. Vypočteme hodnotu testovací statistiky Q = n(n + která má v limitě rozdělení χ (m. 4. Kritický obor testu je T i 3(n +, W α = {Q; Q χ m (α}. V případě zamítnutí hledáme dvojice, pro které je F i F k. Označme t i = T i, i m průměrné pořadí v i tém souboru. Potom je rozdíl mezi F i a F k signifikantní, pokud je t i t k > ( + n k n(n + h m (α, kde kritické hodnoty h m (α najdeme v tabulkách. Nemey-Miller(966. Je-li n = n =... = n m = ν, pak jsou pro menší hodnoty rozsahů m a ν kritické hodnoty pro rozdíl t i t k v tabulkách. Pro větší hodnoty použijeme kritéria t i t k > m(mν + q m, (α, kde q m, (α je kritická hodnota studentizovaného rozdělení. 80