Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)
|
|
- Stanislava Beranová
- před 8 lety
- Počet zobrazení:
Transkript
1 Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu) Frank Wilcoxon ( ): Americký statistik a chemik Nechť X 1,..., X n je náhodný výběr ze spojitého rozložení s hustotou φ(x), která je symetrická kolem mediánu x 0,50, tj. φ(x 0,50 x) = φ(x 0,50 - x). Nechť c je reálná konstanta. Testujeme hypotézu H 0 : x 0,50 = c proti oboustranné alternativě H 1 : x 0,50 c nebo proti levostranné alternativě H 1 : x 0,50 < c nebo proti pravostranné alternativě H 1 : x 0,50 > c.
2 Postup provedení testu: a) Utvoříme rozdíly D i = X i c, i = 1,..., n. (Jsou-li některé rozdíly nulové, pak za n bereme jen počet nenulových hodnot.) b) Absolutní hodnoty D i uspořádáme vzestupně podle velikosti a spočteme pořadí R i. c) Zavedeme statistiky S = R, což je součet pořadí přes kladné hodnoty D i, W Di > 0 i S = R, což je součet pořadí přes záporné hodnoty D i. W Di< 0 i Přitom platí, že součet S W S W - = n(n1)/2. Je-li H 0 pravdivá, pak E(S W ) = n(n1)/4 a D(S W ) = n(n1)(2n1)/24. d) Testová statistika = min(s W, S W - ) pro oboustrannou alternativu, = S W pro levostrannou alternativu, = S W - pro pravostrannou alternativu. e) H 0 zamítáme na hladině významnosti α, když testová statistika je menší nebo rovna tabelované kritické hodnotě.
3 Asymptotická varianta jednovýběrového Wilcoxonova testu: Pro n 30 lze využít asymptotické normality statistiky S W. n (n 1) S Platí-li H 0 ( ) W E SW SW 4, pak U = = N(0,1). 0 n(n 1)(2n 1) D( S ) W 24 Kritický obor: pro oboustrannou alternativu W = (, u u, ), 1 α / 2 1 α / 2 pro levostrannou alternativu W = (, u, 1 α pro pravostrannou alternativu W = u, ) 1 α H 0 zamítáme na asymptotické hladině významnosti α, když U 0 W.
4 Příklad: U 12 náhodně vybraných zemí bylo zjištěno procento populace starší 60 let: 4,9 6,0 6,9 17,6 4,5 12,3 5,7 5,3 9,6 13,5 15,7 7,7. Na hladině významnosti 0,05 testujte hypotézu, že medián procenta populace starší 60 let je 12 proti oboustranné alternativě. Řešení: Testujeme hypotézu H 0 : x 0,50 = 12 proti oboustranné alternativě H 1 : x 0, Vypočteme rozdíly pozorovaných hodnot od čísla 12: -7,1-6,0-5,1 5,6-7,5 0,3-6,3-6,7-2,4 1,5 3,7-4,3. Absolutní hodnoty těchto rozdílů uspořádáme vzestupně podle velikosti. Kladné rozdíly přitom označíme červeně: usp. x i 12 0,3 1,5 2,4 3,7 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5 pořadí S W = =14, S W - = = 64, n = 12, α = 0,05, tabelovaná kritická hodnota pro n = 12 a α = 0,05 je 13, testová statistika = min(s W, S W - ) = min(14,64) = 14. Protože 14 > 13, H 0 nezamítáme na hladině významnosti 0,05. Znamená to, že na hladině významnosti 0,05 se nepodařilo prokázat, že aspoň v polovině zemí by se podíl populace nad 60 let odlišoval od 12 %.
5 Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 12 případy. Do proměnné procento napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 12. Statistiky Neparametrická statistika Porovnání dvou závislých vzorků OK 1. seznam proměnných rozdil, Druhý seznam proměnných konst OK Wilcoxonův párový test. Wilcoxonův párový test (populace_nad_60) Označené testy jsou významné na hladině p <,05000 Počet T Z Úroveň p Dvojice proměnných platných procento & konst 12 14, , , Výstupní tabulka poskytne hodnotu testové statistiky SW (zde označena T), hodnotu asymptotické testové statistiky U 0 a p-hodnotu pro U 0. V tomto případě je p-hodnota 0,049861, tedy nulová hypotéza se zamítá na asymptotické hladině významnosti 0,05. Tento výsledek je v rozporu s výsledkem, ke kterému jsme dospěli při přesném výpočtu. Je to způsobeno tím, že není splněna podmínka pro využití asymptotické normality statistiky SW, tj. n 30.
6 Párový Wilcoxonův test (nerametrická obdoba párového t-testu) Nechť (X 1, Y 1 ),..., (X n, Y n ) je náhodný výběr ze spojitého dvourozměrného rozložení. Testujeme H 0 : x 0,50 - y 0,50 = c proti H 1 : x 0,50 - y 0,50 c (resp. proti jednostranným alternativám). Utvoříme rozdíly Z i = X i Y i, i = 1,..., n a testujeme hypotézu o mediánu z 0,50, tj. H 0 : z 0,50 = c proti H 1 : z 0,50 c.
7 Příklad: K zjištění cenových rozdílů mezi určitými dvěma druhy zboží bylo náhodně vybráno 15 prodejen a byly zjištěny ceny zboží A a ceny zboží B: (11,10), (14,11), (11,9), (13,9), (11,9), (10,9), (12,10), (10,8), (12,11), (11,9), (13,10), (14,10), (14,12), (19,15), (14,12). Na hladině významnosti 0,05 je třeba testovat hypotézu, že medián cenových rozdílů činí 3 Kč. Řešení:Testujeme H 0 : z 0,50 = 3 proti oboustranné alternativě H 1 : z 0,50 3, kde z 0,50 je medián rozložení, z něhož pochází rozdílový náhodný výběr Z 1 = X 1 Y 1, Z 15 = X 15 Y 15.Vypočteme rozdíly mezi cenou zboží A a cenou zboží B, čímž úlohu převedeme na jednovýběrový test. Výpočty uspořádáme do tabulky: č. prodejny cena zboží A cena zboží B rozdíl rozdíl-medián pořadí , , , , , , , , , ,5 (Tučně jsou vytištěna pořadí pro kladné hodnoty rozdíl - medián.) S W = 5,5 5,5 5,5 = 16,5, S W - = 12 5,5 5,5 12 5,5 5,5 12 5,5 5,5 5,5 = 74,5, n = 13, α = 0,05, tabelovaná kritická hodnota = 17, testová statistika = min(s W, S W - ) = min(16,5; 74,5) = 16,5. Protože 16,5 17, H 0 zamítáme na hladině významnosti 0,05.
8 Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor se čtyřmi proměnnými A, B, rozdíl, konst a 15 případy. Do proměnných A, B napíšeme ceny zboží A a B, do proměnné rozdíl uložíme rozdíl cen A a B a do proměnné konst uložíme číslo 3. Statistiky Neparametrická statistika Porovnání dvou závislých vzorků OK 1. seznam proměnných rozdil, 2. seznam proměnných konst OK Wilcoxonův párový test. Wilcoxonův párový test (ceny zbozi) Označené testy jsou významné na hladině p <,05000 Počet T Z Úroveň p Dvojice proměnných platných rozdil & konst 15 16, , , Testová statistika (zde označená jako T) nabývá hodnoty 16,5, asymptotická testová statistika (označená jako Z) nabývá hodnoty 2,026684, odpovídající asymptotická p-hodnota je 0,042696, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme.
9 Příklad (na asymptotickou variantu Wilcoxonova testu): 30 náhodně vybraných osob mělo nezávisle na sobě bez předchozího nácviku odhadnout, kdy od daného signálu uplyne právě 1 minuta. Byly získány následující výsledky (v sekundách): Na asymptotické hladině významnosti 0,05 testujte hypotézu, že medián rozložení, z něhož daný náhodný výběr pochází, je 60 sekund proti oboustranné alternativě (nulová hypotéza vlastně tvrdí, že polovina osob délku jedné minuty podhodnotí a druhá nadhodnotí). Řešení: Testujeme H 0 : x 0,50 = 60 proti oboustranné alternativě H 1 : x 0, Obvyklým způsobem stanovíme statistiku S W = 55. Asymptotická testová statistika: U S E( S ) W ( ) S = 55 n (n 1) 30(30 1) W W 4 4 = = = 0 n (n 1)(2n 1) 30(30 1)(2.30 1) D SW Kritický obor: 3,65 W = ( u u, ) = (, u u, ) = (, 1,96 1,96, ),. 1 α / 2 1 α / 2 0,975 0, 975 Testová statistika se realizuje v kritickém oboru, tedy H 0 zamítáme na asymptotické hladině významnosti 0,05. S rizikem omylu nejvýše 5% jsme tedy prokázali, že pravděpodobnost nadhodnocení jedné minuty není stejná jako pravděpodobnost podhodnocení.
10 Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 30 případy. Do proměnné odhad napíšeme zjištěné hodnoty a do proměnné konst uložíme číslo 60. Statistiky Neparametrická statistika Porovnání dvou závislých vzorků OK 1. seznam proměnných odhad, 2. seznam proměnných konst OK Wilcoxonův párový test. Wilcoxonův párový test (odhad minuty) Označené testy jsou významné na hladině p <,05000 Počet T Z Úroveň p Dvojice proměnných platných odhad & konst 30 55, , , Testová statistika (zde označená jako T) nabývá hodnoty 55, asymptotická testová statistika (označená jako Z) nabývá hodnoty 3,65088, odpovídající asymptotická p-hodnota je 0,000261, tedy na asymptotické hladině významnosti 0,05 nulovou hypotézu zamítáme.
11 Dvouvýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba dvouvýběrového t-testu) Nechť X 1,..., X n a Y 1,..., Y m jsou dva nezávislé náhodné výběry ze dvou spojitých rozložení, jejichž distribuční funkce se mohou lišit pouze posunutím. Označme x 0,50 medián prvního rozložení a y 0,50 medián druhého rozložení. Na hladině významnosti 0,05 testujeme hypotézu, že distribuční funkce těchto rozložení jsou shodné neboli mediány jsou shodné proti alternativě, že jsou rozdílné, tj. H 0 : x 0,50 - y 0,50 = 0 proti H 1 : x 0,50 - y 0,50 0. Postup provedení testu: a) Všech n m hodnot X 1,..., X n a Y 1,..., Y m uspořádáme vzestupně podle velikosti. b) Zjistíme součet pořadí hodnot X 1,..., X n a označíme ho T 1. Součet pořadí hodnot Y 1,..., Y m označíme T 2. c) Vypočteme statistiky U 1 = mn n(n1)/2 T 1, U 2 = mn m(m1)/2 - T 2. Přitom platí U 1 U 2 = mn. d) Pokud min(u 1,U 2 ) tabelovaná kritická hodnota (pro dané rozsahy výběrů m, n a dané α), pak nulovou hypotézu o totožnosti obou distribučních funkcí zamítáme na hladině významnosti α. V tabulkách: n = min{m,n} a m = max{m,n}.
12 Asymptotická varianta dvouvýběrového Wilcoxonova testu: Pro velká n, m (n, m > 30) lze využít asymptotické normality statistiky U 1. Platí-li H 0, pak Kritický obor: U mn 1 2 U 0 mn (m n 1) 12 = N(0,1), kde U 1 = min(u 1,U 2 ). pro oboustrannou alternativu W = ( u u ),,, 1 α / 2 1 α / 2 pro levostrannou alternativu W = (, u, 1 α pro pravostrannou alternativu W = u, ) 1 α H 0 zamítáme na asymptotické hladině významnosti α, když U 0 W. Předpoklady použití dvouvýběrového Wilcoxonova testu: - dané dva náhodné výběry jsou nezávislé - rozložení, z nichž dané dva náhodné výběry pocházejí, jsou spojitá - distribuční funkce těchto rozložení se mohou lišit pouze posunutím - sledovaná veličina má aspoň ordinální charakter
13 Příklad: Bylo vybráno 10 polí stejné kvality. Na čtyřech z nich se zkoušel nový způsob hnojení, zbylých šest bylo ošetřeno starým způsobem. Pole byla oseta pšenicí a sledoval se její hektarový výnos. Je třeba zjistit, zda nový způsob hnojení má týž vliv na průměrné hektarové výnosy pšenice jako starý způsob hnojení. hektarové výnosy při novém způsobu: hektarové výnosy při starém způsobu: Test proveďte na hladině významnosti 0,05. Řešení: Na hladině významnosti 0,05 testujeme H 0 : x 0,50 - y 0,50 = 0 proti oboustranné alternativě H 1 : x 0,50 - y 0,50 0. usp. hodnoty pořadí x-ových hodnot pořadí y-ových hodnot T 1 = = 27, T 2 = = 28 U 1 = /2-27 = 7, U 2 = /2-28 = 17 Kritická hodnota pro α = 0,05, min(4,6) = 4, max(4,6) = 6 je 2. Protože min(7,17) = 7 > 2, nemůžeme na hladině významnosti 0,05 zamítnout hypotézu, že nový způsob hnojení má na hektarové výnosy pšenice stejný vliv jako starý způsob.
14 Výpočet pomocí systému STATISTICA: Utvoříme nový datový soubor se dvěma proměnnými a 10 případy. Do proměnné vynos napíšeme zjištěné hodnoty a do proměnné hnojeni napíšeme 4x číslo 1 pro nový způsob hnojení a 6x číslo 2 pro starý způsob hnojení. Statistiky Neparametrická statistika Porovnání dvou nezávislých vzorků OK Proměnné Seznam závislých proměnných vynos, Nezáv. (grupov.) proměnná hnojeni OK M-W U test. Upozornění: Ve STATISTICE je dvouvýběrový Wilcoxonův test uveden pod názvem Mannův Whitneyův test. Mann-Whitneyův U test (vynos) Dle proměn. hnojeni Označené testy jsou významné na hladině p <,05000 Sčt poř. Sčt poř. U Z Úroveň p Z Proměnná skup. 1 skup. 2 upravené Úroveň p N platn. skup. 1 N platn. skup. 2 2*1str. přesné p vynos 27, , , , , , , , Ve výstupní tabulce jsou součty pořadí T 1, T 2, hodnota testové statistiky min(u 1, U 2 ) označená U, hodnota asymptotické testové statistiky U 0 (označená Z), asymptotická p-hodnota pro U 0 a přesná p-hodnota (ozn. 2*1str. přesné p ta se používá pro rozsahy výběrů pod 30). V našem případě přesná p-hodnota = 0,352381, tedy H 0 nezamítáme na hladině významnosti 0,05. Výpočet je vhodné doplnit krabicovým diagramem. 56 Krabicový graf dle skupin Proměnná: vynos vynos Je zřejmé, že výnosy při starém způsobu hnojení jsou vesměs nižší než při novém způsobu a také vykazují mnohem větší variabilitu. hnojeni Medián 25%-75% Min-Max
PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1
PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1 Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované
Cvičení 9: Neparametrické úlohy o mediánech
Cvičení 9: Neparametrické úlohy o mediánech Úkol 1.: Párový znaménkový test a párový Wilcoxonův test Při zjišťování kvality jedné složky půdy se používají dvě metody označené A a B. Výsledky: Vzorek 1
Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality
Opakování Opakování: Testy o střední hodnotě normálního rozdělení 1 jednovýběrový t-test 2 párový t-test 3 dvouvýběrový t-test jednovýběrový Wilcoxonův test párový Wilcoxonův test dvouvýběrový Wilcoxonův
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 7. Testování statistických hypotéz Mgr. David Fiedor 30. března 2015 Osnova 1 2 3 Dělení testů parametrické - o parametrech rozdělení základního souboru (průměr, rozptyl,
letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika
Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 Opakování t- vs. neparametrické Wilcoxonův jednovýběrový test Opakování
Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně
Testování hypotéz Nechť,, je náhodný výběr z nějakého rozdělení s neznámými parametry. Máme dvě navzájem si odporující hypotézy o parametrech daného rozdělení: Nulová hypotéza parametry (případně jediný
Vzorová prezentace do předmětu Statistika
Vzorová prezentace do předmětu Statistika Popis situace: U 3 náhodně vybraných osob byly zjišťovány hodnoty těchto proměnných: SEX - muž, žena PUVOD Skandinávie, Středomoří, 3 západní Evropa IQ hodnota
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica
DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica Úloha A) koncentrace glukózy v krvi V této části posoudíme pomocí párového testu, zda nový lék prokazatelně snižuje koncentraci
Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace
Intervalové odhady Interval spolehlivosti pro střední hodnotu v Nµ, σ 2 ) Situace: X 1,..., X n náhodný výběr z Nµ, σ 2 ), kde σ 2 > 0 známe měli jsme: bodové odhady odhadem charakteristiky je číslo) nevyjadřuje
Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup
Statistika Testování hypotéz statistická indukce Neparametrické testy Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 21. února 2012 Statistika by
Jednofaktorová analýza rozptylu
Jednofaktorová analýza rozptylu David Hampel Ústav statistiky a operačního výzkumu, Mendelova univerzita v Brně Kurz pokročilých statistických metod Global Change Research Centre AS CR, 5 7 8 2015 Tato
NEPARAMETRICKÉ TESTY
NEPARAMETRICKÉ TESTY Neparametrický jednovýběrový Jeden výběr jehož medián srovnáváme s nějakou hodnotou Wilcoxonův jednovýběrový test 1) Máme data z družice Hipparcos pro deklinaci (obdoba zeměpisné šířky)
Cvičení 12: Binární logistická regrese
Cvičení 12: Binární logistická regrese Příklad: V roce 2014 konalo státní závěrečné zkoušky bakalářského studia na jisté fakultě 167 studentů. U každého studenta bylo zaznamenáno jeho pohlaví (0 žena,
KORELACE. Komentované řešení pomocí programu Statistica
KORELACE Komentované řešení pomocí programu Statistica Vstupní data I Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu Popisná
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 3 Jak a kdy použít parametrické a
Jednostranné intervaly spolehlivosti
Jednostranné intervaly spolehlivosti hledáme jen jednu z obou mezí Princip: dle zadání úlohy hledáme jen dolní či jen horní mez podle oboustranného vzorce s tou změnou, že výraz 1-α/2 ve vzorci nahradíme
676 + 4 + 100 + 196 + 0 + 484 + 196 + 324 + 64 + 324 = = 2368
Příklad 1 Je třeba prověřit, zda lze na 5% hladině významnosti pokládat za prokázanou hypotézu, že střední doba výroby výlisku je 30 sekund. Přitom 10 náhodně vybraných výlisků bylo vyráběno celkem 540
Neparametrické metody v systému STATISTICA
MASARYKOVA UNIVERZITA PŘÍRODOVĚDECKÁ FAKULTA Bakalářská práce Neparametrické metody v systému STATISTICA DAGMAR LAJDOVÁ VEDOUCÍ BAKALÁŘSKÉ PRÁCE RNDr. MARIE BUDÍKOVÁ, Dr. Brno 2009 Čestné prohlášení Čestně
Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.
Statistické metody v ekonomii Ing. Michael Rost, Ph.D. Jihočeská univerzita v Českých Budějovicích Proč neparametrické testy? Pokud provádíte formální analýzu či testování hypotéz (zejména provádíte-li
2 ) 4, Φ 1 (1 0,005)
Příklad 1 Ze zásilky velkého rozsahu byl náhodně vybrán soubor obsahující 1000 kusů. V tomto souboru bylo zjištěno 26 kusů nekvalitních. Rozhodněte, zda je možné s 99% jistotou tvrdit, že zásilka obsahuje
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
15. T e s t o v á n í h y p o t é z
15. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina)
5. Závislost dvou náhodných veličin různých typů (kategoriální a metrická veličina) Cílem tématu je správné posouzení a výběr vhodného testu v závislosti na povaze metrické a kategoriální veličiny. V následující
Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11
Příklad 1 Vyhláška Ministerstva zdravotnictví předpokládala, že doba dojezdu k pacientovi od nahlášení požadavku nepřekročí 17 minut. Hodnoty deseti náhodně vybraných dob příjezdu sanitky k nemocnému byly:
PARAMETRICKÉ TESTY. 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU 10.
PARAMETRICKÉ TESTY Testujeme rovnost průměru - předpokladem normální rozdělení I) Jednovýběrový t-test 1) Měření Etalonu. Dataset - mereni_etalonu.sta - 9 měření etalonu srovnáváme s PŘEDPOKLÁDANOU HODNOTOU
Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek
10. Neparametrické y Mann-Whitney U- Wilcoxonův Znaménkový Shrnutí statistických ů Typ srovnání Nulová hypotéza Parametrický Neparametrický 1 skupina dat vs. etalon Střední hodnota je rovna hodnotě etalonu.
t-test, Studentův párový test Ing. Michael Rost, Ph.D.
Testování hypotéz: dvouvýběrový t-test, Studentův párový test Ing. Michael Rost, Ph.D. Úvod do problému... Již známe jednovýběrový t-test, při kterém jsme měli k dispozici pouze jeden výběr. Můžeme se
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. 1 Úvodní poznámky Statistickou hypotézou rozumíme hypotézu o populaci (základním souboru) např.: Střední hodnota základního souboru je rovna 100.
Ing. Michael Rost, Ph.D.
Úvod do testování hypotéz, jednovýběrový t-test Ing. Michael Rost, Ph.D. Testovaná hypotéza Pokud nás zajímá zda platí, či neplatí tvrzení o určitém parametru, např. o parametru Θ, pak takovéto tvrzení
1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.
Testy hypotéz na základě více než 2 výběrů 1 1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004. Testy hypotéz na základě více než 2 výběrů Na analýzu rozptylu lze pohlížet v podstatě
Vysoká škola ekonomická v Praze
Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii Autor bakalářské práce: Jakub Zajíček Vedoucí
UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 3. 11.
UNIVERZITA OBRANY Fakulta ekonomiky a managementu Aplikace STAT1 Výsledek řešení projektu PRO HORR2011 a PRO GRAM2011 Jiří Neubauer, Marek Sedlačík, Oldřich Kříž 3. 11. 2012 Popis a návod k použití aplikace
letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika t-test
Párový Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy letní semestr 2012 motivační příklad Párový Příklad (Platová diskriminace) firma
Zápočtová práce STATISTIKA I
Zápočtová práce STATISTIKA I Obsah: - úvodní stránka - charakteristika dat (původ dat, důvod zpracování,...) - výpis naměřených hodnot (v tabulce) - zpracování dat (buď bodové nebo intervalové, podle charakteru
Testy. Pavel Provinský. 19. listopadu 2013
Testy Pavel Provinský 19. listopadu 2013 Test a intervalový odhad Testy a intervalové odhady - jsou vlastně to samé. Jiný je jen úhel pohledu. Lze přecházet od jednoho k druhému. Například: Při odvozování
Jarqueův a Beryho test normality (Jarque-Bera Test, JB test)
Jarqueův a Beryho test normality (Jarque-Bera Test, JB test) Autoři: Carlos M. Jarque and Anil K. Bera Předpoklady: - Výběrová data mohou obsahovat chybějící pozorování (chybějící hodnoty) vhodné zejména
Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.
Opakování Opakování: y o střední hodnotě normálního 1 jednovýběrový t-test 2 párový t-test 3 výběrový t-test Šárka Hudecová Katedra a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy
4ST201 STATISTIKA CVIČENÍ Č. 7
4ST201 STATISTIKA CVIČENÍ Č. 7 testování hypotéz parametrické testy test hypotézy o střední hodnotě test hypotézy o relativní četnosti test o shodě středních hodnot testování hypotéz v MS Excel neparametrické
5. T e s t o v á n í h y p o t é z
5. T e s t o v á n í h y p o t é z Na základě hodnot náhodného výběru činíme rozhodnutí o platnosti hypotézy o hodnotách parametrů rozdělení nebo o jeho vlastnostech. Rozeznáváme dva základní typy testů:
Charakteristika datového souboru
Zápočtová práce z předmětu Statistika Vypracoval: 10. 11. 2014 Charakteristika datového souboru Zadání: Při kontrole dodržování hygienických norem v kuchyni se prováděl odběr vzduchu a pomocí filtru Pallflex
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická
Testování statistických hypotéz
Testování statistických hypotéz 1 Testování statistických hypotéz 1 Statistická hypotéza a její test V praxi jsme nuceni rozhodnout, zda nějaké tvrzeni o parametrech náhodných veličin nebo o veličině samotné
Testování statistických hypotéz
Testování statistických hypotéz Michal Fusek Ústav matematiky FEKT VUT, fusekmi@feec.vutbr.cz 11. přednáška z ESMAT Michal Fusek (fusekmi@feec.vutbr.cz) 1 / 27 Obsah 1 Testování statistických hypotéz 2
VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová
VYBRANÉ DVOUVÝBĚROVÉ TESTY Martina Litschmannová Obsah přednášky Vybrané dvouvýběrové testy par. hypotéz test o shodě rozptylů (F-test), testy o shodě středních hodnot (t-test, Aspinové-Welchův test),
STATISTICKÉ TESTY VÝZNAMNOSTI
STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 8. Analýza rozptylu Mgr. David Fiedor 13. dubna 2015 Motivace dosud - maximálně dva výběry (jednovýběrové a dvouvýběrové testy) Příklad Na dané hladině významnosti α = 0,05
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.
Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc. dohnal@nipax.cz Pravděpodobnost a matematická statistika 010 1.týden (0.09.-4.09. ) Data, typy dat, variabilita, frekvenční analýza
Testování hypotéz testy o tvaru rozdělení. Jiří Neubauer. Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel
Katedra ekonometrie, FVL, UO Brno kancelář 69a, tel. 973 442029 email:jiri.neubauer@unob.cz Statistickou hypotézou se rozumí určité tvrzení o parametrech rozdělení zkoumané náhodné veličiny (µ, σ 2, π,
JEDNOVÝBĚROVÉ TESTY. Komentované řešení pomocí programu Statistica
JEDNOVÝBĚROVÉ TESTY Komentované řešení pomocí programu Statistica Vstupní data Data umístěná v excelovském souboru překopírujeme do tabulky ve Statistice a pojmenujeme proměnné, viz prezentace k tématu
12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)
cvičení z PSI 0-4 prosince 06 Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem) Z realizací náhodných veličin X a Y s normálním rozdělením) jsme z výběrů daného rozsahu obdrželi
Statistika, Biostatistika pro kombinované studium. Jan Kracík
Statistika, Biostatistika pro kombinované studium Letní semestr 2014/2015 Tutoriál č. 6: ANOVA Jan Kracík jan.kracik@vsb.cz Obsah: Testování hypotéz opakování ANOVA Testování hypotéz (opakování) Testování
Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina
Testování hypotéz Analýza dat z dotazníkových šetření Kuranova Pavlina Statistická hypotéza Možné cíle výzkumu Srovnání účinnosti různých metod Srovnání výsledků různých skupin Tzn. prokázání rozdílů mezi
ADDS cviceni. Pavlina Kuranova
ADDS cviceni Pavlina Kuranova Testy pro dva nezávislé výběry Mannův Whitneyho test - Založen na Wilcoxnově statistice W - založen na pořadí jednotlivých pozorování (oba výběry spojeny do jednoho celku)
Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.
1 Statistické odhady Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru. Odhad lze provést jako: Bodový odhad o Jedna číselná hodnota Intervalový
Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.
Testování statistických hypotéz Ing. Michal Dorda, Ph.D. Testování normality Př. : Při simulaci provozu na křižovatce byla získána data o mezerách mezi přijíždějícími vozidly v [s]. Otestujte na hladině
Neparametrické metody
Neparametrické metody Dosud jsme se zabývali statistickými metodami, které zahrnovaly předpoklady o rozdělení dat. Zpravidla jsme předpokládali normální rozdělení. Např. Grubbsův test odlehlých hodnot
Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat
Testování hypotéz testujeme (většinou) tvrzení o parametru populace tvrzení je nutno předem zformulovat najít odpovídající test, podle kterého se na základě informace z výběrového souboru rozhodneme, zda
diskriminaci žen letní semestr 2012 1 = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme
motivační příklad Párový Párový Příklad (Platová diskriminace) firma provedla šetření s cílem zjistit, zda dochází k platové diskriminaci žen Šárka Hudecová Katedra pravděpodobnosti a matematické statistiky
Testování hypotéz. 1 Jednovýběrové testy. 90/2 odhad času
Testování hypotéz 1 Jednovýběrové testy 90/ odhad času V podmínkách naprostého odloučení má voák prokázat schopnost orientace v čase. Úkolem voáka e provést odhad časového intervalu 1 hodiny bez hodinek
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 4 Jak a kdy použít parametrické a
Úvod do analýzy rozptylu
Úvod do analýzy rozptylu Párovým t-testem se podařilo prokázat, že úprava režimu stravování a fyzické aktivity ve vybrané škole měla vliv na zlepšené hodnoty HDLcholesterolu u školáků. Pro otestování jsme
Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)
Lékařská biofyzika, výpočetní technika I Biostatistika Josef Tvrdík (doc. Ing. CSc.) Přírodovědecká fakulta, katedra informatiky josef.tvrdik@osu.cz konzultace úterý 4. až 5.4 hod. http://www.osu.cz/~tvrdik
Testování hypotéz. 4. přednáška 6. 3. 2010
Testování hypotéz 4. přednáška 6. 3. 2010 Základní pojmy Statistická hypotéza Je tvrzení o vlastnostech základního souboru, o jehož pravdivosti se chceme přesvědčit. Předem nevíme, zda je pravdivé nebo
Příklady na testy hypotéz o parametrech normálního rozdělení
Příklady na testy hypotéz o parametrech normálního rozdělení. O životnosti 75W žárovky (v hodinách) je známo, že má normální rozdělení s = 5h. Pro náhodný výběr 0 žárovek byla stanovena průměrná životnost
Korelace. Komentované řešení pomocí MS Excel
Korelace Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A2:B84 (viz. obrázek) Prvotní představu o tvaru a síle závislosti docházky a počtu bodů nám poskytne
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě
31. 3. 2014, Brno Hanuš Vavrčík Základy statistiky ve vědě Motto Statistika nuda je, má však cenné údaje. strana 3 Statistické charakteristiky Charakteristiky polohy jsou kolem ní seskupeny ostatní hodnoty
Aproximace binomického rozdělení normálním
Aproximace binomického rozdělení normálním Aproximace binomického rozdělení normálním Příklad Sybilla a Kassandra tvrdí, že mají telepatické schopnosti, a chtějí to dokázat následujícím pokusem: V jedné
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.
ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK www.biostatisticka.cz PRINCIPY STATISTICKÉ INFERENCE identifikace závisle proměnné
STATISTICKÉ TESTY VÝZNAMNOSTI
STATISTICKÉ TESTY VÝZNAMNOSTI jsou statistické postupy, pomocí nichž ověřujeme, zda mezi proměnnými existuje vztah (závislost, rozdíl). Pokud je výsledek šetření statisticky významný (signifikantní), znamená
Jana Vránová, 3. lékařská fakulta UK
Jana Vránová, 3. lékařská fakulta UK Vznikají při zkoumání vztahů kvalitativních resp. diskrétních znaků Jedná se o analogii s korelační analýzou spojitých znaků Přitom předpokládáme, že každý prvek populace
12. cvičení z PST. 20. prosince 2017
1 cvičení z PST 0 prosince 017 11 test rozptylu normálního rozdělení Do laboratoře bylo odesláno n = 5 stejných vzorků krve ke stanovení obsahu alkoholu X v promilích alkoholu Výsledkem byla realizace
Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13
Příklad 1 Máme k dispozici výsledky prvního a druhého testu deseti sportovců. Na hladině významnosti 0,05 prověřte, zda jsou výsledky testů kladně korelované. 1.test : 7, 8, 10, 4, 14, 9, 6, 2, 13, 5 2.test
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů
STATISTICA Téma 6. Testy na základě jednoho a dvou výběrů 1) Test na velikost rozptylu Test na velikost rozptylu STATISTICA nemá. 2) Test na velikost střední hodnoty V menu Statistika zvolíme nabídku Základní
Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.
Pravděpodobnost a statistika, Biostatistika pro kombinované studium Letní semestr 2015/2016 Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz Jan Kracík jan.kracik@vsb.cz Obsah: Výběrová rozdělení
Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.
Problematika analýzy rozptylu Ing. Michael Rost, Ph.D. Úvod do problému Již umíte testovat shodu dvou středních hodnot prostřednictvím t-testů. Otázka: Jaké předpoklady musí být splněny, abyste mohli použít
STATISTICA Téma 7. Testy na základě více než 2 výběrů
STATISTICA Téma 7. Testy na základě více než 2 výběrů 1) Test na homoskedasticitu Nalezneme jej v několika submenu. Omezme se na submenu Základní statistiky a tabulky základního menu Statistika. V něm
Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.
1. Korelační analýza V životě většinou nesledujeme pouze jeden statistický znak. Sledujeme více statistických znaků zároveň. Kromě vlastností statistických znaků nás zajímá také jejich těsnost (velikost,
Mannův-Whitneyův(Wilcoxonův) test pořadová obdoba dvouvýběrového t-testu. Statistika (MD360P03Z, MD360P03U) ak. rok 2007/2008
Statistika (MD30P03Z, MD30P03U) ak. rok 007/008 Karel Zvára karel.zvara@mff.cuni.cz http://www.karlin.mff.cuni.cz/ zvara (naposledy upraveno. listopadu 007) 1(4) Mann-Whitney párový Wilcoxon párový znaménkový
INDUKTIVNÍ STATISTIKA
10. SEMINÁŘ INDUKTIVNÍ STATISTIKA 3. HODNOCENÍ ZÁVISLOSTÍ HODNOCENÍ ZÁVISLOSTÍ KVALITATIVNÍ VELIČINY - Vychází se z kombinační (kontingenční) tabulky, která je výsledkem třídění druhého stupně KVANTITATIVNÍ
5 Parametrické testy hypotéz
5 Parametrické testy hypotéz 5.1 Pojem parametrického testu (Skripta str. 95-96) Na základě výběru srovnáváme dvě tvrzení o hodnotě určitého parametru θ rozdělení f(x, θ). První tvrzení (které většinou
Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup
Statistika Testování hypotéz statistická indukce Úvod do problému Roman Biskup (zapálený) statistik ve výslužbě, aktuálně analytik v praxi ;-) roman.biskup(at)email.cz 21. února 2012 Statistika by Birom
PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz
PSY117/454 Statistická analýza dat v psychologii seminář 9 Statistické testování hypotéz Základní výzkumné otázky/hypotézy 1. Stanovení hodnoty parametru =stanovení intervalu spolehlivosti na μ, σ, ρ,
11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.
11 cvičení z PSI 12-16 prosince 2016 111 (Test dobré shody - geometrické rozdělení Realizací náhodné veličiny X jsme dostali následující četnosti výsledků: hodnota 0 1 2 3 4 5 6 pozorovaná četnost 29 15
RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.
Analýza dat pro Neurovědy RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2014 Institut biostatistiky Janoušová, a analýz Dušek: Analýza dat pro neurovědy Blok 2 Jak medicínská data správně testovat.
Lineární regrese. Komentované řešení pomocí MS Excel
Lineární regrese Komentované řešení pomocí MS Excel Vstupní data Tabulka se vstupními daty je umístěna v oblasti A1:B11 (viz. obrázek) na listu cela data Postup Základní výpočty - regrese Výpočet základních
PRAVDĚPODOBNOST A STATISTIKA
PRAVDĚPODOBNOST A STATISTIKA Testování hypotéz Nechť X je náhodná proměnná, která má distribuční funkci F(x, ϑ). Předpokládejme, že známe tvar distribuční funkce (víme jaké má rozdělení) a neznáme parametr
Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů.
Téma 10: Analýza závislosti dvou nominálních veličin Úkol 1.: Testování nezávislosti nominálních veličin V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. barva očí barva vlasů světlá
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY
TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY Statistická hypotéza je určitá domněnka (předpoklad) o vlastnostech ZÁKLADNÍHO SOUBORU. Test statistické hypotézy je pravidlo (kritérium), které na základě
Aplikovaná statistika v R - cvičení 2
Aplikovaná statistika v R - cvičení 2 Filip Děchtěrenko Matematicko-fyzikální fakulta filip.dechterenko@gmail.com 5.6.2014 Filip Děchtěrenko (MFF UK) Aplikovaná statistika v R 5.6.2014 1 / 18 Přehled Rkových
Příklad datového souboru. Pravděpodobnost vs. statistika. Formální definice. Teorie odhadu
Pravděpodobnost vs. statistika Teorie pravděpodobnosti pracuje s jednou nebo více teoretickými náhodnými veličinami, jejichž rozdělení je známo Statistika odvozovali jsme charakteristiky těchto rozdělení
Vybrané partie z biostatistiky
1 Úvod Vybrané partie z biostatistiky 10.7.2017, Běstvina Marie Turčičová (turcic@karlin.mff.cuni.cz), MFF UK Pracovat budeme v programu R a jeho nástavbě RStudio, které si můžete bezplatně stáhnout zde:
KGG/STG Statistika pro geografy
KGG/STG Statistika pro geografy 9. Korelační analýza Mgr. David Fiedor 20. dubna 2015 Analýza závislostí v řadě geografických disciplín studujeme jevy, u kterých vyšetřujeme nikoliv pouze jednu vlastnost
Intervaly spolehlivosti
Intervaly spolehlivosti = intervalové odhady neznámého parametru (odhad pro π, µ, σ 2, ), odvozují se z příslušné CLV spolehlivost = 1 α = pravděpodobnost, že neznámá hodnota parametru je intervalem pokryta;
MÍRY ZÁVISLOSTI (KORELACE A REGRESE)
zhanel@fsps.muni.cz MÍRY ZÁVISLOSTI (KORELACE A REGRESE) 2.5 MÍRY ZÁVISLOSTI 2.5.1 ZÁVISLOST PEVNÁ, VOLNÁ, STATISTICKÁ A KORELAČNÍ Jednorozměrné soubory - charakterizovány jednotlivými statistickými znaky
Základní statistické metody v rizikovém inženýrství
Základní statistické metody v rizikovém inženýrství Petr Misák Ústav stavebního zkušebnictví Fakulta stavební, VUT v Brně misak.p@fce.vutbr.cz Základní pojmy Jev souhrn skutečností zobrazujících ucelenou
7. Analýza rozptylu.
7. Analýza rozptylu. Uvedeme obecnou ideu, která je založena na minimalizaci chyby metodou nejmenších čtverců. Nejdříve uvedeme několik základních tvrzení. Uvažujeme náhodný vektor Y = (Y, Y,..., Y n a
Ilustrační příklad odhadu LRM v SW Gretl
Ilustrační příklad odhadu LRM v SW Gretl Podkladové údaje Korelační matice Odhad lineárního regresního modelu (LRM) Verifikace modelu PEF ČZU Praha Určeno pro posluchače předmětu Ekonometrie Needitovaná
Testování statistických hypotéz
Testování statistických hypotéz Na základě náhodného výběru, který je reprezentativním vzorkem základního souboru (který přesně neznáme, k němuž se ale daná statistická hypotéza váže), potřebujeme ověřit,