Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Podobné dokumenty
Statistika. Testování hypotéz - statistická indukce Parametrické testy. Roman Biskup

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Neparametrické metody

Cvičení 9: Neparametrické úlohy o mediánech

Základy teorie pravděpodobnosti

15. T e s t o v á n í h y p o t é z

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

Statistika. Teorie odhadu statistická indukce. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Testování statistických hypotéz

Statistika, Biostatistika pro kombinované studium. Jan Kracík

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Úvod do analýzy rozptylu

15. T e s t o v á n í h y p o t é z

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Neparametrické testy

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

Základy teorie pravděpodobnosti

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Statistické metody uţívané při ověřování platnosti hypotéz

Katedra matematické analýzy a aplikací matematiky, Přírodovědecká fakulta, UP v Olomouci

Jednofaktorová analýza rozptylu

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

STATISTICA Téma 7. Testy na základě více než 2 výběrů

Návod na vypracování semestrálního projektu

KGG/STG Statistika pro geografy

= = 2368

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz

Testy statistických hypotéz

4ST201 STATISTIKA CVIČENÍ Č. 7

Cvičení 12: Binární logistická regrese

Jednostranné intervaly spolehlivosti

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

Testy. Pavel Provinský. 19. listopadu 2013

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)

Porovnání dvou výběrů

5. T e s t o v á n í h y p o t é z

Přednáška 9. Testy dobré shody. Grafická analýza pro ověření shody empirického a teoretického rozdělení

KGG/STG Statistika pro geografy

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

Průzkumová analýza dat

Zápočtová práce STATISTIKA I

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel

VŠB-TU OSTRAVA, FAKULTA ELEKTROTECHNIKY A INFORMATIKY, KATEDRA APLIKOVANÉ MATEMATIKY. Statistika. Vzorce a tabulky

Pravděpodobnost a aplikovaná statistika

Přednáška IX. Analýza rozptylu (ANOVA)

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

STATISTICKÉ TESTY VÝZNAMNOSTI

Stručný úvod do testování statistických hypotéz

NEPARAMETRICKÉ TESTY

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Vysoká škola ekonomická v Praze

Charakteristika datového souboru

TECHNICKÁ UNIVERZITA V LIBERCI

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

Grafický a číselný popis rozložení dat 3.1 Způsoby zobrazení dat Metody zobrazení kvalitativních a ordinálních dat Metody zobrazení kvan

UNIVERZITA PARDUBICE Fakulta chemicko-technologická Katedra analytické chemie. Nám. Čs. Legií 565, Pardubice. Semestrální práce ANOVA 2015

TECHNICKÁ UNIVERZITA V LIBERCI

Testování hypotéz. Testování hypotéz o rozdílu průměrů t-test pro nezávislé výběry t-test pro závislé výběry

t-test, Studentův párový test Ing. Michael Rost, Ph.D.

Testování hypotéz o parametrech regresního modelu

Testování hypotéz o parametrech regresního modelu

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Statistika. Základní pojmy a cíle statistiky. Roman Biskup. (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at) .

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

Bakalářské studium na MFF UK v Praze Obecná matematika Zaměření: Stochastika. 1 Úvodní poznámky. Verze: 13. června 2013

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008

Pohlédněte si základní charakteristiky polohy jednotlivých veličin pomocí funkce summary.

Základy teorie pravděpodobnosti

ADDS cviceni. Pavlina Kuranova

Testování statistických hypotéz

Příklady na testy hypotéz o parametrech normálního rozdělení

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Neparametrické metody v systému STATISTICA

Testování statistických hypotéz. Obecný postup

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

Statistika. Zpracování informací ze statistického šetření. Roman Biskup

IBM SPSS Exact Tests. Přesné analýzy malých datových souborů. Nejdůležitější. IBM SPSS Statistics

1.4 ANOVA. Vliv druhu plodiny na míru napadení houbami Fusarium culmorum a Fusarium graminearum v systému ekologického hospodaření

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Vybrané partie z biostatistiky

Pravděpodobnost a matematická statistika

Transkript:

Statistika Testování hypotéz statistická indukce Neparametrické testy Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 21. února 2012 Statistika by Birom Statistika Neparametrické testy 1 / 15

Obsah Testování na základě jednoho výběru Testování hypotézy o mediánu Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Testování na základě více než dvou výběrů Testování hypotézy o shodě rozdělení Testy mnohonásobného srovnávání Statistika by Birom Statistika Neparametrické testy 2 / 15

Testování na základě jednoho výběru Testování hypotézy o mediánu Znaménkový test I Testování hypotézy o mediánu spojitě rozděleného souboru Nechť statistický znak X má v základním souboru přibližně rozdělení se spojitou distribuční funkcí 1. Hypotézy H 0 : H A : K x x 0 x > x 0 K = {Y : Y k 2;α } K = {u : u u 1 α } x = x 0 x = x 0 x x 0 K = {Y : Y k 2;α/2 Y k 1;α/2 } K = {u : u u 1 α/2 u u α/2 } x x 0 x < x 0 K = {Y : Y k 1;α } K = {u : u u 1 α } 2. Hladina významnosti: α 3. Volba testového kritéria: Y = #{X i : (X i x 0 ) > 0} kde # značí počet, konkrétně počet pozorování větších než x0 > 0. Y Bi(n; 1/2) pro n < 20 za platnosti nulové hypotézy, U = 2Y n n U pro n 20 za platnosti nulové hypotézy. 4. Vymezení kritického oboru: K =... Statistika by Birom Statistika Neparametrické testy 3 / 15

Testování na základě jednoho výběru Testování hypotézy o mediánu Znaménkový test II Testování hypotézy o mediánu spojitě rozděleného souboru 5. Výpočet testového kritéria: y = #{x i : (x i x 0 ) > 0} 6. Zjištění zda y nebo u K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Neparametrická obdoba (jednovýběrového) t-testu. Statistika by Birom Statistika Neparametrické testy 4 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Mannův-Whitneyův test (dvouvýběrový Wilcoxonův test) I Testování hypotézy o shodě rozdělení dvou nezávislých souborů Nechť statistické znaky X 1 a X 2 lze popsat například prostřednictvím jejich distribučních funkcí F 1 a F 2. 1. Hypotézy: H 0 : F 1 (x) = F 2 (x) H A : F 1 (x) = F 2 (x) 2. Hladina významnosti: α 3. Volba testového kritéria: Z = T 1 n 1 (n 1 + n 2 )/2 n1 n 2 (n 1 + n 2 + 1) kde T1 je součet pořadí (celkového) pro statistický znak X 1 Z N(0; 1) za platnosti nulové hypotézy + min (n1; n 2) 5 (10; 30) (jinak tabelováno) 4. Vymezení kritického oboru: K = {Z : Z u 1 α/2 } 5. Výpočet testového kritéria: z = T1 n1(n1+n2)/2 n1n 2(n 1+n 2+1) 6. Zjištění zda z K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Poznámky: Statistika by Birom Statistika Neparametrické testy 5 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Mannův-Whitneyův test (dvouvýběrový Wilcoxonův test) II Testování hypotézy o shodě rozdělení dvou nezávislých souborů Obdobně možno spočítat Z přes T 2 (Pozor: T 2 n 2 (n 1 + n 2 )/2). Z vyjde až na znaménko stejně. Pro oboustrannou hypotézu nehraje roli. Při výpočtu jsou obvykle vedle T i vypočítávány i statistiky U i = T i Ui n1n2/2 testové kritérium pak lze získat jako Z =. n1n 2(n 1+n 2+1) Tabelované hodnoty jsou určovány tak, aby hodnoty testových kritérií svědčící proti nulové hypotéze, tj. např. U i blízko 0, či n 1 n 2, nastávaly s pravděpodobností menší nebo rovnou α. p-value je tedy vypočteno jako pravděpodobnosti všech situací popírající nulovou hypotézu více nebo stejně než ukazují data, tj. P(U max (U i )) + P(U min (U i )), kde U = 0,..., n 1 n 2. i i Pokud není Mannův-Whitneyův test použit za předpokladu o shodě tvaru rozdělení pro test hypotézy x 1 = x 2 (pouze posunutí) je lépe použít Kolmogorovův-Smirnovův. Takto testové kritérium počítal Wilcoxon. Mann a Whitney počítali #{[X 1i, X 2j ]: X 1i < X 2j, i = 1,..., n 1, j = 1,..., n 2 }. ni (ni +1) 2, Statistika by Birom Statistika Neparametrické testy 6 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Mannův-Whitneyův test (dvouvýběrový Wilcoxonův test) III Testování hypotézy o shodě rozdělení dvou nezávislých souborů Neparametrická obdoba dvouvýběrového t-testu zvláště pokud se jedná o posouzení posunutí (v tomto případě nejsilnější). Pojmenováno podle Henryho Bertholda Manna (1905 2000) a Donalda Ransoma Whitneye (1915 2001) respektive Franka Wilcoxona (1892 1965). Statistika by Birom Statistika Neparametrické testy 7 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Mannův-Whitneyův test test o existenci posunutí Testování hypotézy o shodě parametru úrovně rozdělení dvou nezávislých souborů Nechť statistické znaky X 1 a X 2 lze popsat například prostřednictvím jejich distribučních funkcí F 1 a F 2, které mají přibližně stejný tvar. 1. Hypotézy H 0 : H A : K x 1 x 2 x 1 > x 2 K = {Z : Z u 1 α } x 1 = x 2 x 1 = x 2 x 1 x 2 K = {Z : Z u 1 α/2 } x 1 x 2 x 1 < x 2 K = {Z : Z u 1 α )} 2. Hladina významnosti: α 3. Volba testového kritéria: Z = T 1 n 1 (n 1 + n 2 )/2 n1 n 2 (n 1 + n 2 + 1) kde značení je stejné jako u běžného Mannova-Whitneyova testu Z N(0; 1) za platnosti nulové hypotézy + min (n1; n 2) 5 (10; 30) (jinak tabelováno) 4. Vymezení kritického oboru: K =... 5. Výpočet testového kritéria: z = T1 n1(n1+n2)/2 n1n 2(n 1+n 2+1) 6. Zjištění zda z K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Neparametrické testy 8 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Dvouvýběrový Kolmogorovův-Smirnovův test I Testování hypotézy o shodě rozdělení dvou nezávislých souborů Nechť statistické znaky X 1 a X 2 lze popsat například prostřednictvím jejich distribučních funkcí F 1 a F 2. 1. Hypotézy: H 0 : F 1 (x) = F 2 (x) H A : F 1 (x) = F 2 (x) 2. Hladina významnosti: α 3. Volba testového kritéria: D = sup F e 1(x) F e 1(x) x F e 1 (x) = 1 n 1 # {X 1i : X 1i x, i = 1,..., n 1}, empirická distribuční funkce pro statistický znak X 1, F e 2 (x) = 1 n 2 # {X 2i : X 2i x, i = 1,..., n 2}, empirická distribuční funkce pro statistický znak X 2, D?? za platnosti nulové hypotézy + (n1 + n 2) > 35 (jinak tabelováno) 4. Vymezení kritického oboru: K = {} 5. Výpočet testového kritéria: d = sup F e 1 x Fe 1 x x 6. Zjištění zda z K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď! Statistika by Birom Statistika Neparametrické testy 9 / 15

Testování na základě dvou výběrů Testování hypotézy o shodě dvou rozdělení Dvouvýběrový Kolmogorovův-Smirnovův test II Testování hypotézy o shodě rozdělení dvou nezávislých souborů Poznámky: Co může říkat alternativní hypotéza?: 1. Rozdělení X a Y se liší svojí polohou (střední hodnotou, kvantily), přičemž jak variabilita tak tvar obou rozdělení mohou být shodné. 2. Rozdělení X a Y se liší svojí variabilitou, přičemž jak poloha tak tvar obou rozdělení mohou být shodné. 3. Rozdělení X a Y mají odlišný tvar, přičemž jak poloha tak variabilita obou rozdělení mohou být shodná. Pojmenováno podle Andreje Nikolajeviče Kolmogorova (1903 1987) a Igora Nikolaeviche Smirnova (1941 ). Statistika by Birom Statistika Neparametrické testy 10 / 15

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozdělení Kruskalův-Wallisův test I Testování hypotézy o shodě rozdělení více jak dvou nezávislých souborů Nechť statistické znaky Y 1, Y 2,..., Y k lze popsat například prostřednictvím jejich distribučních funkcí F 1, F 2,..., F k. 1. Hypotézy: H 0 : F 1 (y) = F 2 (y) = = F k (y) H A : nonh 0 ( H 0 ) 2. Hladina významnosti: α 3. Volba testového kritéria: H = n = k i=1 n i 12 n(n + 1) k i=1 T 2 i n i 3(n + 1) Ti je součet pořadí (celkového) pro statistický znak Y i H Hkor = q korekce stejného pořadí, kde t p je počet stejných p=1 1 (t3 p tp) n 3 n průměrných pořadí, p = 1, 2,..., q; q je počet variant průměrných pořadí. H, Hkor χ 2 (k 1) za platnosti nulové hypotézy + k 4, n i 5 (pro k = 3, n i < 5 tabelováno) 4. Vymezení kritického oboru: K = {H : H χ 2 1 α (k 1)} Statistika by Birom Statistika Neparametrické testy 11 / 15

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozdělení Kruskalův-Wallisův test II Testování hypotézy o shodě rozdělení více jak dvou nezávislých souborů 5. Výpočet testového kritéria: H a H kor 6. Zjištění zda H K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď, v případě platnosti H A pokračovat v analýze pro jednotlivé soubory! Poznámky: Pojmenováno podle Williama Henryho Kruskala (1919 2005) a Allena Wilsona Wallise (1912 1998). Statistika by Birom Statistika Neparametrické testy 12 / 15

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozdělení Friedmanův test I Testování hypotézy o shodě rozdělení více jak dvou závislých souborů Nechť statistické znaky Y 1, Y 2,..., Y k lze popsat například prostřednictvím jejich distribučních funkcí F 1, F 2,..., F k. 1. Hypotézy: H 0 : F 1 (y) = F 2 (y) = = F k (y) H A : nonh 0 ( H 0 ) 2. Hladina významnosti: α 3. Volba testového kritéria: Q = 12 nk(k + 1) k T 2 i 3n(k + 1) i=1 kde Ti je součet pořadí (v rámci k-tice) pro statistický znak Y i Qkor = Q n ( q ) n 1 rp korekce stejného pořadí, kde k 3 k p=1 s=1 (t3 ps t ps) t ps je počet stejných průměrných pořadí u p-tého objektu (měl-li průměrné pořadí), p = 1, 2,..., q, q < n; s je počet stejného průměrného pořadí u téhož objektu, s = 1, 2,..., r p; r p je počet variant průměrných pořadí u p-tého objektu. Q, Qkor χ 2 (k 1) za platnosti nulové hypotézy + k 3, n 10; nebo k 4, n 5; nebo k 5, n libovolné (jinak tabelováno) Statistika by Birom Statistika Neparametrické testy 13 / 15

Testování na základě více než dvou výběrů Testování hypotézy o shodě rozdělení Friedmanův test II Testování hypotézy o shodě rozdělení více jak dvou závislých souborů 4. Vymezení kritického oboru: K = {Q : Q χ 2 1 α (k 1)} 5. Výpočet testového kritéria: Q a Q kor 6. Zjištění zda Q K a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď, v případě platnosti H A pokračovat v analýze pro jednotlivé soubory! Poznámky: Pojmenováno podle Miltona Friedmana (1912 2006). Statistika by Birom Statistika Neparametrické testy 14 / 15

Testování na základě více než dvou výběrů Testy mnohonásobného srovnávání Neményho test mnohonásobného srovnávání Následné testování hypotézy o shodě rozdělení dvou závislých/nezávislých souborů Nechť statistické znaky Y 1, Y 2,..., Y k lze popsat například prostřednictvím jejich distribučních funkcí F 1, F 2,..., F k. 1. Hypotézy: H 0 : F i (y) = F j (y) H A : F i (y) F j (y), pro i, j = 1,..., k, i j 2. Hladina významnosti: α 3. Volba testového kritéria: T i T j Ti je součet pořadí vypočítaný v rámci Kruskal-Wallisova testu respektive Friedmanova testu 4. Vymezení kritického oboru: K = { T i T j N 1 α (k, n)} Jiné hodnoty pro nezávislé a závislé soubory, tj. jestli počítáme s Ti vypočtenými při Kruskal-Wallisově testu respektive Friedmanově testu! 5. Výpočet testového kritéria: T i T j 6. Zjištění zda platí nerovnost a rozhodnutí: H 0 vs. H A 7. Zformulovat slovní odpověď. Poznámky: Pojmenováno podle Petera Neményiho (1927 2002). Statistika by Birom Statistika Neparametrické testy 15 / 15