Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Podobné dokumenty
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Jednofaktorová analýza rozptylu

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

Analýza rozptylu. Ekonometrie. Jiří Neubauer. Katedra kvantitativních metod FVL UO Brno kancelář 69a, tel

Statistická analýza jednorozměrných dat

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

KGG/STG Statistika pro geografy

Ing. Michael Rost, Ph.D.

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

Jednostranné intervaly spolehlivosti

Dva případy chybného rozhodnutí při testování: a) Testační statistika padne mimo obor přijetí nulové H hypotézy O, tj.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

7. Analýza rozptylu.

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Úvod do analýzy rozptylu

Testování statistických hypotéz

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Jednofaktorová analýza rozptylu

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

= = 2368

Testy statistických hypotéz

Charakteristika datového souboru

Testování statistických hypotéz. Obecný postup

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Návod na vypracování semestrálního projektu

Příklady na testy hypotéz o parametrech normálního rozdělení

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Průzkumová analýza dat

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Úvod do teorie odhadu. Ing. Michael Rost, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Normální (Gaussovo) rozdělení

4ST201 STATISTIKA CVIČENÍ Č. 7

Testování statistických hypotéz

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Analýza rozptylu. Podle počtu analyzovaných faktorů rozlišujeme jednofaktorovou, dvoufaktorovou a vícefaktorovou analýzu rozptylu.

Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)

Přednáška IX. Analýza rozptylu (ANOVA)

PRAVDĚPODOBNOST A STATISTIKA

Pravděpodobnost a aplikovaná statistika

TESTOVÁNÍ HYPOTÉZ STATISTICKÁ HYPOTÉZA Statistické testy Testovací kritérium = B B > B < B B - B - B < 0 - B > 0 oboustranný test = B > B

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

12. cvičení z PST. 20. prosince 2017

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Zápočtová práce STATISTIKA I

ADDS cviceni. Pavlina Kuranova

STATISTICKÉ TESTY VÝZNAMNOSTI

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie

Testování statistických hypotéz

, Brno Hanuš Vavrčík Základy statistiky ve vědě

ANOVA. Semestrální práce UNIVERZITA PARDUBICE. Fakulta chemicko-technologická Katedra analytické chemie

II. Statistické metody vyhodnocení kvantitativních dat Gejza Dohnal

Testování hypotéz. 1. vymezení základních pojmů 2. testování hypotéz o rozdílu průměrů 3. jednovýběrový t-test

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test

y = 0, ,19716x.

Základy teorie pravděpodobnosti

Přednáška X. Testování hypotéz o kvantitativních proměnných

Jana Vránová, 3. lékařská fakulta UK

Vysoká škola ekonomická v Praze

PRAVDĚPODOBNOST A STATISTIKA

Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Regresní analýza. Eva Jarošová

Regresní a korelační analýza

PRAVDĚPODOBNOST A STATISTIKA

TECHNICKÁ UNIVERZITA V LIBERCI

Cvičení ze statistiky - 8. Filip Děchtěrenko

PRAVDĚPODOBNOST A STATISTIKA

Statistika pro každého. Párový test Test shody dvou rozptylů Dvouvýběrový t-test Porovnání středních hodnot při nestejných rozptylech

ANALÝZA ROZPTYLU (ANOVA)

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Univerzita Pardubice Fakulta chemicko-technologická Katedra analytické chemie ANOVA. Semestrální práce

Regresní a korelační analýza

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

Základy teorie pravděpodobnosti

ÚVOD DO TEORIE ODHADU. Martina Litschmannová

Masarykova univerzita v Brně. Analýza rozptylu. Vypracovala: Marika Dienová

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Transkript:

Statistika Testování hypotéz - statistická indukce Parametrické testy Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 1. února 01 Statistika by Birom Statistika Parametrické testy 1 / 45

Obsah Testování na základě jednoho výběru Hodnota p-value Testování hypotézy o střední hodnotě normálně rozděleného souboru Testování hypotézy o rozptylu normálně rozděleného souboru Testování hypotézy o parametru alternativního rozdělení Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Testování hypotézy o rozptylech Testování hypotézy o parametrech alternativního rozdělení Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Testování hypotézy o shodě rozptylů testy homoskedasticity Testy mnohonásobného srovnávání Statistika by Birom Statistika Parametrické testy / 45

Testování na základě jednoho výběru Testování hypotézy o libovolném parametru rozdělení Klasický postup Nechť statistický znak X má v základním souboru přibližně požadované rozdělení. 1. Hypotézy H 0 H A K θ θ 0 θ > θ 0 K = {t : t F 1 (1 α)} θ = θ 0 θ = θ 0 θ θ 0 K = {t : t F 1 (1 α/) t F 1 (α/)} θ θ 0 θ < θ 0 K = {t : t F 1 (α)}. Hladina významnosti: α, α = 0,1; 0,05; 0,01; 0,001 3. Volba testového kritéria: T = T (X 1, X,..., X n ) testové kritérium je založeno na odchylce výběrové charakteristiky od hypotetické hodnoty parametru; za platnosti nulové hypotézy a v případě splnění předpokladů testu sleduje určité teoretické rozdělení ( F). 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: t = T (x 1, x..., x n ) 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 3 / 45

Testování na základě jednoho výběru Hodnota p-value Hodnota p-value Čím vyšší hladina významnosti, tím se zvětšuje/í kritický/é obor/y a tím snažší je zamítnutí nulové hypotézy ve prospěch alternativní. Nejnižší taková hladina významnosti, při které lze ještě zamítnout nulovou hypotézu, se nazývá p-value. Hodnota p-value je tedy dosaženou hladinou významnosti. Hodnotu p-value lze na rozdíl od hladiny významnosti (volená před testováním) stanovit až jako výsledek testování. Hodnota p-value konstruovaná pro libovolný test se na rozdíl od hodnoty testového kritéria stává univerzálním prostředkem pro rozhodování o výsledku testování: testové kritérium se porovnává s kritickou hodnotou různá... hodnotu p-value leze bez ohledu na test srovnávat přímo s hladinou významnosti Nulová hypotéza se zamítá, když p-value α. Nulová hypotéza se nezamítá, když p-value > α. Statistika by Birom Statistika Parametrické testy 4 / 45

Testování na základě jednoho výběru Hodnota p-value Výpočet hodnoty p-value S ohledem na typ alternativní hypotézy (levo-, pravo-, či oboustrannou) lze z hodnoty testového kritéria vypočítat / zjistit prostřednictvím softwareu / nalézt v tabulkách hodnotu p-value. Nechť testová statistika T sleduje rozdělení F, pak pro konkrétní hodnotu t lze stanovit p-value (značeno jen p) následovně: HA : θ < θ 0 p = F(t) HA : θ θ 0 p = (1 F( t )) HA : θ > θ 0 p = 1 F(t) Náročnost výpočtu p-value obvykle zvládne software, zatímco stanovení kritické hodnoty zůstává na testujícím. Existuje-li více alternativních hypotéz je třeba vědět, ke které z nich je p-value vypočítáno (obvykle p-value příslušné oboustranné hypotéze). Modifikace oboustranného p-value: Reálné (vypoč.) t t < 0 t > 0 H A : θ < θ 0 p/ 1 p/ H A : θ > θ 0 1 p/ p/ H A : θ θ 0 p p Reálné (vypoč.) t t < 0 t > 0 t hyp < 0 p/ 1 p/ t hyp > 0 1 p/ p/ t hyp 0 p p Statistika by Birom Statistika Parametrické testy 5 / 45

Testování na základě jednoho výběru Hodnota p-value Testování hypotézy o libovolném parametru rozdělení Postup s využitím hodnoty p-value Nechť statistický znak X má v základním souboru přibližně požadované rozdělení. 1. H 0 a H A. Hladina významnosti: α, α = 0,1; 0,05; 0,01; 0,001 3. Volba testu 4. Výpočet testového kritéria a hodnoty p-value (případně modifikace hodnoty vypočtené softwarem v závislosti na H A ) 5. Porovnání p-value s hladinou významnosti a rozhodnutí: H 0 vs. H A 6. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 6 / 45

Testování na základě jednoho výběru Testování hypotézy o střední hodnotě normálně rozděleného souboru (Jednovýběrový) u-test Testování hypotézy o střední hodnotě normálně rozděleného souboru známý rozptyl σ Nechť statistický znak X má v základním souboru přibližně normální rozdělení (X N ( µ; σ ) ) se známým rozptylem σ. 1. Hypotézy H 0 : H A : K µ µ 0 µ > µ 0 K = {u : u u 1 α } µ = µ 0 µ = µ 0 µ µ 0 K = {u : u u 1 α/ } µ µ 0 µ < µ 0 K = {u : u u 1 α }. Hladina významnosti: α 3. Volba testového kritéria: U = X µ 0 n σ U Z za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: u = x µ0 σ n 6. Zjištění zda u K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 7 / 45

Testování na základě jednoho výběru Testování hypotézy o střední hodnotě normálně rozděleného souboru (Jednovýběrový, studentův) t-test Testování hypotézy o střední hodnotě normálně rozděleného souboru neznámý rozptyl Nechť statistický znak X má v základním souboru přibližně normální rozdělení (X N ( µ; σ ) ) s neznámým rozptylem odhadnutým prostřednictvím s. 1. Hypotézy H 0 : H A : K µ µ 0 µ > µ 0 K = {t : t t 1 α (n 1)} µ = µ 0 µ = µ 0 µ µ 0 K = {t : t t 1 α/ (n 1)} µ µ 0 µ < µ 0 K = {t : t t 1 α (n 1)}. Hladina významnosti: α 3. Volba testového kritéria: T = X µ 0 n s T t(n 1) za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: t = x µ0 s n 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Pojmenováno podle Williama Sealyho Gosseta (1876 1937), který publikoval pod pseudonymem Student. Statistika by Birom Statistika Parametrické testy 8 / 45

Testování na základě jednoho výběru Testování hypotézy o rozptylu normálně rozděleného souboru?? Testování hypotézy o rozptylu normálně rozděleného souboru 1. Hypotézy H 0 : H A : K σ σ0 σ > σ0 K = {χ : χ χ 1 α (n 1)} σ = σ0 σ = σ0 σ σ0 K = {χ : χ χ 1 α/ (n 1) χ χ α/ (n 1)} σ σ0 σ < σ0 K = {χ : χ χ α(n 1)}. Hladina významnosti: α 3. Volba testového kritéria: χ (n 1)s = σ0 χ χ (n 1) za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: χ = (n 1)s σ 0 6. Zjištění zda χ K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 9 / 45

Testování na základě jednoho výběru Testování hypotézy o parametru alternativního rozdělení?? Testování hypotézy o parametru alternativního rozdělení Nechť statistický znak X má v základním souboru alternativní rozdělení (X A(π)) a rozsah výběru je buď n > 9 π 0(1 π 0) nebo n > 5 π 0. 1. Hypotézy H 0 : H A : K π π 0 π > π 0 K = {u : u u 1 α } π = π 0 π = π 0 π π 0 K = {u : u u 1 α/ } π π 0 π < π 0 K = {u : u u 1 α }. Hladina významnosti: α 3. Volba testového kritéria: U = n An ( ) π 0 n = n A nπ 0 π0 (1 π 0 ) nπ0(1 π 0) U Z (asymptoticky) za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... nπ0(1 π 0) 5. Výpočet testového kritéria: u = n A nπ 0 6. Zjištění zda u K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 10 / 45

Testování na základě dvou výběrů Testování hypotézy o shodě parametrů dvou stejně rozdělených souborů I Klasický postup Nechť statistické znaky X 1 a X mají v základním souboru přibližně požadované rozdělení. 1. Hypotézy H 0 H A K θ 1 θ θ 1 > θ K = {t : t F 1 (1 α)} θ 1 = θ θ 1 = θ θ 1 θ K = {t : t F 1 (1 α/) T F 1 (α/)} θ 1 θ θ 1 < θ K = {t : t F 1 (α)}. Hladina významnosti: α, α = 0,1; 0,05; 0,01; 0,001 3. Volba testového kritéria: T = T (X 1,1,..., X 1,n, X,1,..., X,n ) testové kritérium je založeno na odchylce výběrových charakteristik dvou souborů; za platnosti nulové hypotézy a v případě splnění předpokladů testu sleduje určité teoretické rozdělení ( F), je různé na základě toho, zda se jedná o závislé nebo nezávislé soubory. Statistika by Birom Statistika Parametrické testy 11 / 45

Testování na základě dvou výběrů Testování hypotézy o shodě parametrů dvou stejně rozdělených souborů II Klasický postup 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: t = T (x 1,1,..., x 1,n1, x,1,..., x,n ) 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 1 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový u-test I Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů známé rozptyly σ 1 a σ Nechť statistické znaky X 1 a X mají v základních souborech přibližně normální rozdělení (X 1 N ( µ 1 ; σ 1) a X N ( µ ; σ ) ) se známými rozptyly σ 1 a σ a jsou nezávislé. 1. Hypotézy H 0 : H A : K µ 1 µ µ 1 > µ K = {u : u u 1 α } µ 1 = µ µ 1 = µ µ 1 µ K = {u : u u 1 α/ } µ 1 µ µ 1 < µ K = {u : u u 1 α }. Hladina významnosti: α 3. Volba testového kritéria: U = X 1 X U Z za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... σ 1 n 1 + σ n 5. Výpočet testového kritéria: u = x1 x σ 1 n + σ 1 n Statistika by Birom Statistika Parametrické testy 13 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový u-test II Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů známé rozptyly σ 1 a σ 6. Zjištění zda u K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 14 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový (studentův) t-test pro soubory se shodnými rozptyly I Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) Nechť statistické znaky X 1 a X mají v základních souborech přibližně normální rozdělení (X 1 N ( µ 1 ; σ1) a X N ( µ ; σ) ) s neznámými rozptyly odhadnutými prostřednictvím s1 a s a jsou nezávislé. s 1 a s se přibližně rovnají (viz F -test). 1. Hypotézy H 0 : H A : K µ 1 µ µ 1 > µ K = {t : t t 1 α (n 1 + n )} µ 1 = µ µ 1 = µ µ 1 µ K = {t : t t 1 α/ (n 1 + n )} µ 1 µ µ 1 < µ K = {t : t t 1 α (n 1 + n )}. Hladina významnosti: α 3. Volba testového kritéria: T = X 1 X n1 n s n 1 + n kde s (n 1 1)s1 = + (n 1)s (= ˆσ ) n 1 + n Statistika by Birom Statistika Parametrické testy 15 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový (studentův) t-test pro soubory se shodnými rozptyly II Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) T t(n1 + n ) za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: t = x 1 x (n 1 1)s 1 +(n 1)s n 1 +n 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: n1n n 1+n Pojmenováno podle Williama Sealyho Gosseta (1876 1937), který publikoval pod pseudonymem Student. Statistika by Birom Statistika Parametrické testy 16 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový (studentův) t-test pro soubory s různými rozptyly I Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (různé) Nechť statistické znaky X 1 a X mají v základních souborech přibližně normální rozdělení (X 1 N ( µ 1 ; σ1) a X N ( µ ; σ) ) s neznámými rozptyly odhadnutými prostřednictvím s1 a s a jsou nezávislé. s 1 a s jsou průkazně odlišné (viz F -test). 1. Hypotézy H 0 : H A : K µ 1 µ µ 1 > µ K = {t : t t 1 α (df )} µ 1 = µ µ 1 = µ µ 1 µ K = {t : t t 1 α/ (df )} µ 1 µ µ 1 < µ K = {t : t t 1 α (df )}. Hladina významnosti: α 3. Volba testového kritéria: T = X 1 X s1 n 1 + s n T t(df ) (asymptoticky) za platnosti nulové hypotézy, kde Statistika by Birom Statistika Parametrické testy 17 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Dvouvýběrový (studentův) t-test pro soubory s různými rozptyly II Testování hypotézy o středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (různé) ( ) s 1 + s n 1 n df = ( ) 1 s 1 + n 1 1 n 1 1 n 1 ( ) s n 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: t = x1 x s 1 n + s 1 n 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Pojmenováno podle Williama Sealyho Gosseta (1876 1937), který publikoval pod pseudonymem Student. Statistika by Birom Statistika Parametrické testy 18 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Párový (studentův) t-test I Testování hypotézy o středních hodnotách závislých normálně rozdělených souborů Nechť statistické znaky X 1 a X mají v základních souborech přibližně normální rozdělení (X 1 N ( µ 1 ; σ 1) a X N ( µ ; σ ) ) a jsou závislé tvoří napříč skupinami logické páry. 1. Hypotézy H 0 : H A : H 0 : H A : µ 1 µ µ 1 > µ µ d 0 µ d > 0 µ 1 = µ µ 1 = µ µ 1 µ µ d = 0 µ d = 0 µ d 0 µ 1 µ µ 1 < µ µ d 0 µ d < 0. Hladina významnosti: α 3. Výpočtem diferencí d i = x 1i x i pro i = 1,..., n se převede situace na jednovýběrový t-test s nulovou hypotézou µ d = 0. Je zřejmé, že n1 = n, tuto společnou hodnotu označme n. d = 1 n n i=1 d i, s d = 1 n 1 n i=1 (d i d), T = d s d n. 4. Dále se pokračuje tak, jako u jednovýběrového t-testu... Statistika by Birom Statistika Parametrické testy 19 / 45

Testování na základě dvou výběrů Testování hypotézy o středních hodnotách normálně rozdělených souborů Párový (studentův) t-test II Testování hypotézy o středních hodnotách závislých normálně rozdělených souborů Poznámky: Není úplně chybou, pokud se nepoužije párový t-test pro závislé soubory, ale příslušný dvouvýběrový t-test. Dvouvýběrový t-test je však slabší! Pojmenováno podle Williama Sealyho Gosseta (1876 1937), který publikoval pod pseudonymem Student. Statistika by Birom Statistika Parametrické testy 0 / 45

Testování na základě dvou výběrů Testování hypotézy o rozptylech F -test I Testování hypotézy o rozptylech normálně rozděleného souboru Nechť statistické znaky X 1 a X mají v základních souborech přibližně normální rozdělení (X 1 N ( µ 1 ; σ1) a X N ( µ ; σ) ) s neznámými rozptyly odhadnutými prostřednictvím s1 a s a jsou nezávislé. 1. Hypotézy H 0 : H A : K σ 1 σ σ 1 > σ K = {F : F F 1 α (n 1 1; n 1)} σ 1 = σ σ 1 = σ σ 1 σ K = {F : F F 1 α/ (n 1 1; n 1) F F α/ (n 1 1; n 1)} σ 1 σ σ 1 < σ K = {F : F F α (n 1 1; n 1)}. Hladina významnosti: α 3. Volba testového kritéria: F = s 1 s F F (n1 1; n 1) za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: F = s 1 s Statistika by Birom Statistika Parametrické testy 1 / 45

Testování na základě dvou výběrů Testování hypotézy o rozptylech F -test II Testování hypotézy o rozptylech normálně rozděleného souboru 6. Zjištění zda F K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď!... Poznámky: Obvyklý postup volby pořadí souborů : s1 s zjednodušení ověření zda F K Test je citlivý na porušení normality dat. Statistika by Birom Statistika Parametrické testy / 45

Testování na základě dvou výběrů Testování hypotézy o parametrech alternativního rozdělení?? I Testování hypotézy o parametrech alternativního rozdělení nezávislých alternativně rozdělených souborů Nechť statistické znaky X 1 a X mají v základních souborech alternativní rozdělení (X 1 A(π 1 ) a X A(π )) a jsou nezávislé. n 1, n > 100 1. Hypotézy H 0 : H A : K π 1 π π 1 > π K = {u : u u 1 α } π 1 = π π 1 = π π 1 π K = {u : u u 1 α/ } π 1 π π 1 < π K = {u : u u 1 α }. Hladina významnosti: α 3. Volba testového kritéria: U = ( ) p (1 p 1 ) n 1 + 1 n kde p = n 1A + n A n 1 + n U Z za platnosti nulové hypotézy 4. Vymezení kritického oboru: K =... n 1A n 1 n A n Statistika by Birom Statistika Parametrické testy 3 / 45

Testování na základě dvou výběrů Testování hypotézy o parametrech alternativního rozdělení?? II Testování hypotézy o parametrech alternativního rozdělení nezávislých alternativně rozdělených souborů 5. Výpočet testového kritéria: u = 6. Zjištění zda u K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! n 1A n n A 1 n ( )( ) n 1A +n A n 1 +n 1 n 1A +n A 1 n 1 +n n + 1 1 n Statistika by Birom Statistika Parametrické testy 4 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě parametrů více než dvou stejně rozdělených souborů 1. Hypotézy: H 0 : θ 1 = θ = = θ k H A : nonh 0 ( H 0 ). Hladina významnosti: α, α = 0,1; 0,05; 0,01; 0,001 3. Volba testového kritéria: T = T (Y 11,..., Y ij,..., Y knk ), i = 1,..., k a j = 1,..., n i 4. Vymezení kritického oboru: K 5. Výpočet testového kritéria: t = T (y 11,..., y knk ) 6. Zjištění zda t K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď, v případě platnosti H A pokračovat v analýze pro jednotlivé soubory! Statistika by Birom Statistika Parametrické testy 5 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Jednofaktorová analýza rozptylu ANOVA I Testování hypotézy o shodě středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro 1 = 1,..., k) s neznámými shodnými rozptyly odhadnutými prostřednictvím si, i = 1,..., k, a jsou nezávislé. 1. Hypotézy: H 0 : µ 1 = µ = = µ k (= µ) H A : nonh 0 ( H 0 ). Hladina významnosti: α 3. Volba testového kritéria: F = s x s x = 1 k 1 k i=1 n i(ȳi Ȳ ) s r = MSS A MSS r................................................ rozptyl mezi skupinami s r = 1 n k i (Y ij n k Ȳi) i=1 j=1............................... rozptyl uvnitř skupin (reziduální rozptyl) F F (k 1; n k) za platnosti nulové hypotézy Statistika by Birom Statistika Parametrické testy 6 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Jednofaktorová analýza rozptylu ANOVA II Testování hypotézy o shodě středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) 4. Vymezení kritického oboru: K = {F : F F 1 α (k 1; n k)} 5. Výpočet testového kritéria: F = 1 k 1 1 n k k n i (ȳ i ȳ ) i=1 k n i (y ij ȳ i ) i=1 j=1 6. Zjištění zda F K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď, v případě platnosti H A pokračovat v analýze pro jednotlivé soubory! Statistika by Birom Statistika Parametrické testy 7 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Jednofaktorová analýza rozptylu poznámky I Testování hypotézy o shodě středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro 1 = 1,..., k) s neznámými shodnými rozptyly odhadnutými prostřednictvím si, i = 1,..., k, a jsou nezávislé. 1. ANOVA nebo dvouvýběrový t-test (k = )? +/ jedno (F je v tomto případě druhou mocninou příslušného t) ( ) n. ANOVA nebo dvouvýběrových t-testů (k > )? Pravděpodobnost chyby prvního druhu α se kumuluje s použitím každého z nich 3. Variabilitu mezi skupinami lze prokázat jen proti variabilitě uvnitř skupin viz F = s x sr 4. Regresní model: Y ij = µ + α i + ε ij µ společná střední hodnota, αi posunutí i-té skupiny proti společnému průměru, ε ij je náhodná složka s rozdělením N ( 0; σ ) nezávislá na α i (= viz homoskedasticita) Statistika by Birom Statistika Parametrické testy 8 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Jednofaktorová analýza rozptylu poznámky II Testování hypotézy o shodě středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) H0 : α 1 = α = = α k = 0 5. Alternativní (volnější) formulace hypotéz jednofaktorové ANOVAy: H0: Spojitý numerický znak Y nezávisí na nominálním statistickém znaku X (efektu), který je v analýze kódován hodnotami X i = i, pro i = 1,..., k. HA : Spojitý numerický znak Y závisí na nominálním statistickém znaku X. 6. Analýza rozptylu: (Y ij Y ) = (Y ij Y i ) + (Y i Y ) n k i n ( ) k i ( ) k Yij Y = Yij Y i + n i (Y ) i Y i=1 j=1 i=1 j=1 } {{ } } {{ } SS T SS r (n 1) s c = (n k) sr + (k 1 )sx i=1 } {{ } SS A 7. Interpretace pevných a náhodných efektů výpočet stejný, ale pevné efekty náhodnou (vnitroskupinovou/reziduální) variabilitu přináší jen statistický znak Y. náhodné efekty na náhodné (reziduální) variabilitě se podílí jak statistický znak Y tak rozdělení do skupin, které je obrazem rozdělení nominálního znaku (X ) v populaci. Statistika by Birom Statistika Parametrické testy 9 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě středních hodnot Jednofaktorová analýza rozptylu předpoklady a síla testu Testování hypotézy o shodě středních hodnotách nezávislých normálně rozdělených souborů neznámé rozptyly (shodné) Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro 1 = 1,..., k) s neznámými shodnými rozptyly odhadnutými prostřednictvím si, i = 1,..., k, a jsou nezávislé. Předpoklady Robustnost k narušení normality stoupá s počtem pozorování ve skupině ovlivňuje experimentátor Robustnost k narušení homoskedasticity výrazně klesá při nevyvážených počtech ve skupinách ovlivňuje experimentátor Síla testu Roste s odchylkou od H0 neovlivňuje experimentátor Roste s počtem pozorování ve skupině ovlivňuje experimentátor Roste s vyrovnaností/vyvážeností skupin ovlivňuje experimentátor (pevné efekty) Klesá s počtem skupin ovlivňuje experimentátor Statistika by Birom Statistika Parametrické testy 30 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Bartlettův test test na shodu rozptylů I Testování hypotézy o shodě rozptylů více jak dvou souborů Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro i = 1,..., k) s neznámými rozptyly odhadnutými prostřednictvím si, 1 = 1,..., k, a jsou nezávislé. 1. Hypotézy: H 0 : σ1 = σ = = σ k H A : nonh 0 ( H 0 ). Hladina významnosti: α 3. Volba testového kritéria: B = ln 10 C [ k 1 1 kde C = 1 + 3(k 1) n i 1 1 n k i=1 B χ (k 1) za platnosti nulové hypotézy [ (n k) log s c 4. Vymezení kritického oboru: K = {B : B χ 1 α (k 1)} 5. Výpočet testového kritéria: B = ln 10 1+ 1 3(k 1) [ k i=1 1 n i 1 1 n k ] ] ] k (n i 1) log si i=1 [ (n k) log sc ] k i=1 (n i 1) log si Statistika by Birom Statistika Parametrické testy 31 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Bartlettův test test na shodu rozptylů II Testování hypotézy o shodě rozptylů více jak dvou souborů 6. Zjištění zda B K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Test je citlivý na porušení normality dat a je poměrně slabý. Pojmenováno podle Mauriceho Stephensona Bartletta (1910 00). Statistika by Birom Statistika Parametrické testy 3 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Cochranův C test I Testování hypotézy o shodě rozptylů více jak dvou souborů Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro i = 1,..., k) s neznámými rozptyly odhadnutými prostřednictvím si, 1 = 1,..., k, a jsou nezávislé. Navíc se musí jednat o vyvážený pokusný plán (n 1 = = n = n). 1. Hypotézy: H 0 : σ 1 = σ = = σ k H A : nonh 0 ( H 0 ). Hladina významnosti: α 3. Volba testového kritéria: C = s max k i=1 s i kde s max = max 1 i k s i C C(k; n 1) za platnosti nulové hypotézy tabelováno 4. Vymezení kritického oboru: K = {C : C C 1 α (k; n 1)} 5. Výpočet testového kritéria: C = s max k si i=1 6. Zjištění zda C K a rozhodnutí: H 0 vs. H A Statistika by Birom Statistika Parametrické testy 33 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Cochranův C test II Testování hypotézy o shodě rozptylů více jak dvou souborů 7. Zformulovat slovní odpověď! Poznámky: Podmínka vyváženého pokusného plánu! Test je citlivý na porušení normality dat. Pojmenováno podle Williama Gemmella Cochrana (1909 1980). Statistika by Birom Statistika Parametrické testy 34 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Hartleyův test I Testování hypotézy o shodě rozptylů více jak dvou souborů Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro i = 1,..., k) s neznámými rozptyly odhadnutými prostřednictvím si, 1 = 1,..., k, a jsou nezávislé. Navíc se musí jednat o vyvážený pokusný plán (n 1 = = n = n). 1. Hypotézy: H 0 : σ 1 = σ = = σ k H A : nonh 0 ( H 0 ). Hladina významnosti: α 3. Volba testového kritéria: H = s max s max = max 1 i k s i, s min = min 1 i k s i smin smin = min 1 i k s i 4. Vymezení kritického oboru: K = {H : H H 1 α (k; n 1)} 5. Výpočet testového kritéria: H = s max s min 6. Zjištění zda C K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Parametrické testy 35 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Hartleyův test II Testování hypotézy o shodě rozptylů více jak dvou souborů Poznámky: Podmínka vyváženého pokusného plánu! Pojmenováno podle Hermana Ottoa Hartleye (191 1980). Statistika by Birom Statistika Parametrické testy 36 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Levenův test I Testování hypotézy o shodě rozptylů více jak dvou souborů Nechť statistické znaky Y 1, Y,..., Y k mají v základních souborech přibližně normální rozdělení (Y i N ( ) µ i ; σi pro i = 1,..., k) s neznámými rozptyly odhadnutými prostřednictvím si, 1 = 1,..., k, a jsou nezávislé. 1. Hypotézy H 0 : σ1 = σ = = σ k H A : nonh 0 ( H 0 ). Hladina významnosti: α 3. Volba testového kritéria: F = s x sr Rij = Y ij Ȳ i......................................... rezidua po rozdělení do skupin s x = 1 k 1 s r = 1 n k k n i( R i R ) i=1 n k i (R ij R i) i=1 j=1 F F (k 1; n k) (asymptoticky) za platnosti nulové hypotézy Statistika by Birom Statistika Parametrické testy 37 / 45

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozptylů testy homoskedasticity Levenův test II Testování hypotézy o shodě rozptylů více jak dvou souborů 4. Vymezení kritického oboru: K = {F : F F 1 α (k 1; n k)} 5. Výpočet testového kritéria: F = 1 k 1 1 n k k n i ( r i r ) i=1 k n i ( r ij r i ) i=1 j=1 6. Zjištění zda F K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Test není citlivý na porušení normality dat. Pojmenováno podle Howarda Leveneho (1914 003). Statistika by Birom Statistika Parametrické testy 38 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Scheffého metoda mnohonásobného srovnávání I Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Nechť statistické znaky Y 1, Y,..., Y k splňují předpoklady pro použití ANOVAy. Navazují na tento test, byla-li zamítnuta nulová hypotéza. Nechť N = k 1. Hypotézy: H 0 : µ i = µ j H A : µ i µ j, pro i, j = viz i j. Hladina významnosti: α 3. Volba testového kritéria: F S = ȳ i ȳ j, sȳi sȳj ( ) kde sȳi sȳj = sr 1 n i + 1 n j 4. Vymezení { kritického oboru: K = F s : F s } (k 1) F 1 α (k 1; N k) 5. Výpočet testového kritéria: F S = ȳi ȳj sȳi sȳj 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. n i i=1 Statistika by Birom Statistika Parametrické testy 39 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Scheffého metoda mnohonásobného srovnávání II Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Poznámky: Pojmenováno podle Hanryho Scheffého (1907 1977). Statistika by Birom Statistika Parametrické testy 40 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání (Fisherova, modifikovaná) LSD metoda Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Nechť statistické znaky Y 1, Y,..., Y k splňují předpoklady pro použití ANOVAy. Navazují na tento test, byla-li zamítnuta nulová hypotéza. Nechť N = k 1. Hypotézy: H 0 : µ i = µ j H A : µ i µ j, pro i, j = viz poznámka. Hladina významnosti: α 3. Volba testového kritéria: Ȳi Ȳj 4. Vymezení kritického oboru: { K = Ȳi Ȳj t 1 α/ (N k) sr ( 1 n i + 1 n j ) } 5. Výpočet testového kritéria: ȳ i ȳ j 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. Poznámky: n i i=1 Symboly µ i a µ j v tomto testu představují výhradně sousední hodnoty (seřazeno podle velikosti ȳ (1) ȳ ()... ȳ (k) ). LSD = Least Significant Difference Statistika by Birom Statistika Parametrické testy 41 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Duncanův test (MRT) I Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Nechť statistické znaky Y 1, Y,..., Y k splňují předpoklady pro použití ANOVAy. Navazují na tento test, byla-li zamítnuta nulová hypotéza. Navíc se musí jednat o vyvážený pokusný plán (n 1 = = n = n). 1. Hypotézy: H 0 : µ i = µ j H A : µ i µ j, pro i, j = viz poznámka. Hladina významnosti: α 3. Volba testového kritéria: Ȳi Ȳj 4. Vymezení kritického oboru: K = { Ȳi Ȳj s r } ni +n j n i n j q α (p; n k) kde qα(p; n k) je kritická hodnota studentizovaného rozpětí Pro výpočet se průměry seřadí podle velikosti a postupně se dosazují do výše uvedeného vzorce. Počet průměrů, které leží v uspořádané řadě mezi právě počítanými průměry ȳ i a ȳ j určuje hodnotu p. 5. Výpočet testového kritéria: ȳ i ȳ j 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. Statistika by Birom Statistika Parametrické testy 4 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Duncanův test (MRT) II Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Poznámky: MRT = Multiple Range Test Pojmenováno podle Davida B. Duncana (1916 006). Statistika by Birom Statistika Parametrické testy 43 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Tukeyův HSD test Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Nechť statistické znaky Y 1, Y,..., Y k splňují předpoklady pro použití ANOVAy. Navazují na tento test, byla-li zamítnuta nulová hypotéza. Navíc se musí jednat o vyvážený pokusný plán (n 1 = = n = n). 1. Hypotézy: H 0 : µ i = µ j H A : µ i µ j, pro i, j = 1,..., k, i j. Hladina významnosti: α 3. Volba testového kritéria: t s = Ȳi Ȳj ni n j s r n i + n j 4. Vymezení kritického oboru: K = {t s : t s q α (k; n k)} kde qα(k; n k) je kritická hodnota studentizovaného rozpětí 5. Výpočet testového kritéria: t s = Ȳi Ȳj s r ni n j n i +n j 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. Poznámky: HSD = Honestly Significant Difference Pojmenováno podle Johna Wildera Tukeye (1915 000). Statistika by Birom Statistika Parametrické testy 44 / 45

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Bonferroniho metoda mnohonásobného porovnávání Následné testování hypotézy o shodě středních hodnot dvou nezávislých souborů Nechť statistické znaky Y 1, Y,..., Y k splňují předpoklady pro použití ANOVAy. Navazují na tento test, byla-li zamítnuta nulová hypotéza. 1. Hypotézy: H 0 : µ i = µ j H A : µ i µ j, pro i, j = 1,..., k, i j. Hladina významnosti: α 3. Volba testového kritéria: T = Ȳi Ȳ j ni n j s r n i + n j kde sr = 1 n k i (Y ij Ȳ i) n k i=1 j=1 T t(n k) za platnosti nulové { hypotézy } 4. Vymezení kritického oboru: K = t : t t 1 α/( k ) (n k) ȳi ȳj ni n 5. Výpočet testového kritéria: t = j s r n i +n j 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. Poznámky: Pojmenováno podle Carlo Emilioa Bonferonniho (189 1960). Statistika by Birom Statistika Parametrické testy 45 / 45