PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 1

Podobné dokumenty
Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

PRAVDĚPODOBNOST A STATISTIKA

Rozhodnutí / Skutečnost platí neplatí Nezamítáme správně chyba 2. druhu Zamítáme chyba 1. druhu správně

Neparametrické metody

Mann-Whitney U-test. Znaménkový test. Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

PRAVDĚPODOBNOST A STATISTIKA. Testování hypotéz o rozdělení

15. T e s t o v á n í h y p o t é z

Testování hypotéz. Analýza dat z dotazníkových šetření. Kuranova Pavlina

STATISTIKA A INFORMATIKA - bc studium OZW, 1.roč. (zkušební otázky)

15. T e s t o v á n í h y p o t é z

Statistika. Testování hypotéz statistická indukce Neparametrické testy. Roman Biskup

Opakování. Neparametrické testy. Pořadí. Jednovýběrový Wilcoxonův test. t-testy: hypotézy o populačním průměru (střední hodnoty) předpoklad normality

5. T e s t o v á n í h y p o t é z

NEPARAMETRICKÉ TESTY

Testování statistických hypotéz

Stručný úvod do testování statistických hypotéz

Náhodné veličiny jsou nekorelované, neexistuje mezi nimi korelační vztah. Když jsou X; Y nekorelované, nemusí být nezávislé.

Normální (Gaussovo) rozdělení

4ST201 STATISTIKA CVIČENÍ Č. 7

Lékařská biofyzika, výpočetní technika I. Biostatistika Josef Tvrdík (doc. Ing. CSc.)

Testování hypotéz. testujeme (většinou) tvrzení o parametru populace. tvrzení je nutno předem zformulovat

KGG/STG Statistika pro geografy

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ ZÁKLADNÍ POJMY

Testování hypotéz. 4. přednáška

12. cvičení z PSI prosince (Test střední hodnoty dvou normálních rozdělení se stejným neznámým rozptylem)

letní semestr 2012 Katedra pravděpodobnosti a matematické statistiky Matematicko-fyzikální fakulta Univerzity Karlovy Matematická statistika

Příklady na testy hypotéz o parametrech normálního rozdělení

Statistické metody v ekonomii. Ing. Michael Rost, Ph.D.

= = 2368

Příklad 1. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 11

Normální (Gaussovo) rozdělení

Testování statistických hypotéz

Testování hypotéz o parametrech regresního modelu

You created this PDF from an application that is not licensed to print to novapdf printer (

Testování hypotéz o parametrech regresního modelu

Pearsonůvχ 2 test dobré shody. Ing. Michal Dorda, Ph.D.

12. cvičení z PST. 20. prosince 2017

Neparametrické testy

Matematická statistika. Testy v. v binomickém. Test pravděpodobnosti. Test homogenity dvou. Neparametrické testy. statistika. Testy v.

Testy. Pavel Provinský. 19. listopadu 2013

TECHNICKÁ UNIVERZITA V LIBERCI. Statistický rozbor dat z dotazníkového šetření

Příklad 1. Korelační pole. Řešení 1 ŘEŠENÉ PŘÍKLADY Z MV2 ČÁST 13

2 ) 4, Φ 1 (1 0,005)

11. cvičení z PSI prosince hodnota pozorovaná četnost n i p X (i) = q i (1 q), i N 0.

PSY117/454 Statistická analýza dat v psychologii seminář 9. Statistické testování hypotéz

Jednostranné intervaly spolehlivosti

Statistické metody - nástroj poznání a rozhodování anebo zdroj omylů a lží

ANALÝZA DAT V R 5. ZÁKLADNÍ STATISTICKÉ TESTY. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

PRAVDĚPODOBNOST A STATISTIKA

UNIVERZITA OBRANY Fakulta ekonomiky a managementu. Aplikace STAT1. Výsledek řešení projektu PRO HORR2011 a PRO GRAM

RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr.

Intervalové odhady. Interval spolehlivosti pro střední hodnotu v N(µ, σ 2 ) Interpretace intervalu spolehlivosti. Interval spolehlivosti ilustrace

VYBRANÉ DVOUVÝBĚROVÉ TESTY. Martina Litschmannová

Přednáška X. Testování hypotéz o kvantitativních proměnných

Statistické metody uţívané při ověřování platnosti hypotéz

Problematika analýzy rozptylu. Ing. Michael Rost, Ph.D.

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D. 1

Statistické testování hypotéz II

Co je to statistika? Úvod statistické myšlení. Základy statistického hodnocení výsledků zkoušek. Petr Misák

Tomáš Karel LS 2012/2013

5 Vícerozměrná data - kontingenční tabulky, testy nezávislosti, regresní analýza

Základní statistické metody v rizikovém inženýrství

Určujeme neznámé hodnoty parametru základního souboru. Pomocí výběrové charakteristiky vypočtené z náhodného výběru.

Ing. Michael Rost, Ph.D.

Matematika III. 3. prosince Vysoká škola báňská - Technická univerzita Ostrava. Matematika III

6. T e s t o v á n í h y p o t é z

Pravděpodobnost a statistika, Biostatistika pro kombinované studium. Tutoriál č. 5: Bodové a intervalové odhady, testování hypotéz.

TECHNICKÁ UNIVERZITA V LIBERCI. Ekonomická fakulta. Semestrální práce. Statistický rozbor dat z dotazníkového šetření školní zadání

Testy statistických hypotéz

Název testu Předpoklady testu Testová statistika Nulové rozdělení. ( ) (p počet odhadovaných parametrů)

ANALÝZA DAT V R 7. KONTINGENČNÍ TABULKA. Mgr. Markéta Pavlíková Katedra pravděpodobnosti a matematické statistiky MFF UK.

Cvičení 9: Neparametrické úlohy o mediánech

Testování statistických hypotéz

PSY117/454 Statistická analýza dat v psychologii Přednáška 10

Zpracování náhodného vektoru. Ing. Michal Dorda, Ph.D.

Kontingenční tabulky, korelační koeficienty

Neparametrické metody v systému STATISTICA

Jana Vránová, 3. lékařská fakulta UK

Střední hodnota a rozptyl náhodné. kvantilu. Ing. Michael Rost, Ph.D.

Úvod do analýzy rozptylu

Parametrické testy hypotéz o středních hodnotách spojitých náhodných veličin

Regresní analýza 1. Regresní analýza

Statistika, Biostatistika pro kombinované studium. Jan Kracík

E(X) = np D(X) = np(1 p) 1 2p np(1 p) (n + 1)p 1 ˆx (n + 1)p. A 3 (X) =

diskriminaci žen letní semestr = výrok, o jehož pravdivosti chceme rozhodnout tvrzení o populaci, o jehož platnosti rozhodujeme

Testování statistických hypotéz. Ing. Michal Dorda, Ph.D.

4. Na listu Znaménkový test ověřte účinnost pohlcovačů pachů v páchnoucích bytech. 5. Na listu Znaménkový test se pokuste zjistit, zda je některý z

DVOUVÝBĚROVÉ A PÁROVÉ TESTY Komentované řešení pomocí programu Statistica

Kontingenční tabulky, korelační koeficienty

Statistika. Testování hypotéz statistická indukce Úvod do problému. Roman Biskup

jevu, čas vyjmutí ze sledování byl T j, T j < X j a T j je náhodná veličina.

Pravděpodobnost a matematická statistika Doc. RNDr. Gejza Dohnal, CSc.

Vybraná rozdělení náhodné veličiny

Aproximace binomického rozdělení normálním

KORELACE. Komentované řešení pomocí programu Statistica

Transkript:

PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1

Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované náhodné veličiny X, resp. náhodného vektoru, anebo pro známé rozdělení nemáme potřebná testová kritéria. Omezením neparametrických metod je obvykle požadavek, že pozorované náhodné veličiny mají spojitá rozdělení, avšak v některých případech stačí znát pouze pořadí uspořádaných hodnot daného statistického souboru, tj. hodnoty odpovídajícího ordinálního statistického znaku. Slabší předpoklady o rozdělení (na rozdíl od parametrických testů testy u nichž známe rozdělení) mají za následek, že neparametrické metody nejsou tak silné, jako jejich parametrické protějšky. Základním principem neparametrických testů je nahrazení původních pozorovaných hodnot jejich pořadími co do velikosti a proto se také v literatuře hovoří o pořadových testech. Při pořadových testech se místo se střední hodnotou (jak je tomu u parametrických testech) pracuje s většinou mediánem.

Znaménkový test Předpoklady: Nechť X 1, X,, X n je náhodný výběr ze spojitého rozdělení s mediánem ~ x Hypotéza: Testujeme hypotézu: Princip: Nechť náhodná proměnná Y popisuje počet hodnot X i c. Pokud X i c pak vynecháme náhodnou proměnnou X i a zmenší se n. Pak Y ~ Bin, 0,5 Hypotézu H zamítáme, pokud je Y malé nebo velké: P( Y k1) P( Y k ) Platí: k n k 1, pak při označení P( Y k je ) W ; k n k ; n výpočet kvantilu: k p H : ~ x c proti alternativní: : ~ x c 1 max k, n k j0 n j p 0

Znaménkový test Postup: Nechť y je počet kladných hodnot x i c, hodnoty x i c vynecháme. (y je počet realizace náhodné proměnné Y) Pokud y W hypotézu nezamítáme. Hypotéza: H doplněk kritického oboru: : ~ x c, alternativní: : ~ x c W k 1; n k 1 : ~ x c W k 1; n : ~ x c W 0 ; n k 1 Poznámky: Test má malou sílu, ale je vhodný pro zešikmená data. Existuje také obecnější varianta znaménkového testu (tzv. kvantilový test), když testujeme hypotézu: H : x q c, kde je q-kvantil pozorované náhodné veličiny X.

Znaménkový test Asymptotická verze: Y n as. Pro n, v praxi n 0 je U ~ N (0, 1) n y n Testovací kritérium: u n Hypotézu nezamítáme, pokud: Hypotéza: u W H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c doplněk kritického oboru: W u W u 1 ; W ; u1 u 1 ; 1

Znaménkový test Kvantily pro k p binomického rozdělení Bi(n, 0.5) Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05.

Znaménkový test pro párové hodnoty Párové hodnoty: Znaménkový test se často používá pro tzv. párové hodnoty X, X 1, kdy testujeme hypotézu, že medián rozdílu X X 1 X je roven hodnotě c (nejčastěji pro c = 0). Příklad: U 10 auta porovnávali skutečnou průměrnou spotřebu oproti teoretické spotřebě. Získali následující výsledky: x i -skutečná spotřeba, y i -teoretická spotřeba. = (8.1; 7.1), (9.5; 9.6), (6.1; 5.4), (7.6; 7.), (11.3; 10.), (8.6; 8.6), (5.9; 6.1), (8.6; 7.9), (1.5; 1.6), (7.; 7.1). Pomocí znaménkového testu ověřte domněnku, že reálná spotřeba je větší než teoretická na hladině významnosti 0,05.

Pořadí Nechť X 1, X,, X n je náhodný výběr z rozdělení, které neznáme, nebo je z jiného než normálního, ale rozsah je malý pro použití asymptotických metod. Nechť x, x,, je jeho realizace a x( 1), x(),, x( n je uspořádání( x( i ) x( i 1). ) K realizaci x 1, x,, x n spočítáme uspořádání: R 1, R,, R n, kde Ri je pořadí prvku x i (= počet čísel z x, x,,, které jsou menších, rovno x i ). Jestliže nejsou všechna čísla navzájem různá, pak všem stejným číslům x( i) x( i1) x( i p) přiřadíme aritmetický průměr takových pořadí, jakoby následovala těsně za sebou. Platí: n i1 1 x n ) R i n( n 1) 1 x n

Wilcoxonův jednovýběrový test Předpoklady: Nechť X 1, X,, X n je náhodný výběr ze spojitého rozdělení s hustotou f, která je symetrická kolem bodu d a jeho okolí f(d - x) = f(d + x). Proto x~ = d. Hypotéza: Testujeme hypotézu: proti alternativní: Princip: Zavedeme náhodné veličiny: Yi X i c. V případě X i c vypustíme náhodnou veličinu X i a upravíme n. Uspořádáme Y i : Y Y ( 1) ( n) Nechť R R,, je příslušné pořadí. Spočteme: 1, S R n Y i 0 R i H : ~ x c a S Y i 0 R i : ~ x c n ( n 1) platí: S S Hypotézu H : ~ x c zamítáme, pokud min S, S w,kde w je Wilcoxonův kvantil.

Wilcoxonův jednovýběrový test Postup: Nechť y i je realizace Y i. Spočítáme S - testovací kritérium. Pokud Hypotéza: S W hypotézu nezamítáme. H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c doplněk kritického oboru: n ( n 1) W 1, 1 w w n ( n 1) W w 1, n ( n 1) W 0, w 1 kde w p je p-kvantil Wilcoxonova rozdělení (tabulka)

Wilcoxonův jednovýběrový test kvantily w p

Wilcoxonův jednovýběrový test příklad Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05.

Wilcoxonův jednovýběrový test pro párové hodnoty Párové hodnoty: Wilcoxonův jednovýběrový test se často používá pro tzv. párové hodnoty X, X, kdy testujeme hypotézu, že medián rozdílu X X 1 1 X je roven hodnotě c (nejčastěji pro c = 0). Příklad: U 10 auta porovnávali skutečnou průměrnou spotřebu oproti teoretické spotřebě. Získali následující výsledky: x i -skutečná spotřeba, y i -teoretická spotřeba. = (8.1; 7.1), (9.5; 9.6), (6.1; 5.4), (7.6; 7.), (11.3; 10.), (8.6; 8.6), (5.9; 6.1), (8.6; 7.9), (1.5; 1.6), (7.; 7.1). Pomocí Wilcoxonova testu rozdílů dvojic zjistěte na hladině významnosti 0,01, zda rozdílné výsledky jsou statisticky nevýznamné.

Wilcoxonův jednovýběrový test - asymptotická verze Platí: Nechť platí předpoklad symetrie a hypotéza H : ~ x c, pak 1) E( X i ) c n ) Označme: S R i sgn( Y i ), pak i1 1 n( n 1) S 4 3) vektory Y ),,sgn( ) a, Y jsou nezávislé 4) E S 5) DS 6) U Y n n( n 1) 4 n ( n 1) (n 1) 4 n ( n 1) S as 4 ~ n ( n 1) (n 1) 4 T sgn( 1 T. N (0,1) S Y, ( 1) ( n )

Wilcoxonův jednovýběrový test - asymptotická verze Asymptotická verze: Pro n, v praxi n 10 je U n ( n 1) S Testovací kritérium: u 4 n ( n 1) (n 1) 4 Hypotézu nezamítáme, pokud: u W Hypotéza: H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c n ( n 1) S 4 n ( n 1) (n 1) 4 doplněk kritického oboru: W u W u 1 ; W ; u1 u 1 ; 1 as. ~ N (0,1)

Wilcoxonův jednovýběrový test příklad Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05 pomocí asymptotické verze Příklad: Na dvou váhách bylo provedeno vážení 10 vzorků s výsledky : (15; 18), (130; 131), (18; 16), (150; 15), (10; 14), (140; 136), (13; 133), (136; 136), (15; 18), (15; 150). Pomocí asymptotické verze Wilcoxonova testu rozdílů dvojic zjistěte na hladině významnosti 0,01, zda rozdílné výsledky jsou statisticky nevýznamné.

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Předpoklady: Nechť X, X, 1, funkcí F, Y 1, Y,, funkcí G, X m Y n Hypotéza: Testujeme hypotézu: H je náhodný výběr ze spojitého rozdělení s distribuční je náhodný výběr ze spojitého rozdělení s distribuční : F G proti alternativní: : F G Princip: Náhodné výběry X, X, a Y 1, Y,, Y 1, X m n sloučíme do jednoho souboru Z, Z,, a spočteme pořadí R, R,,. 1 Z m n Nechť Tx R i a T y R i. Zi( X1,..., Xm ) Z i ( Y 1,..., Y n ) 1 R m n Platí: T x T y ( m n) ( m n 1) Wilcoxonův dvouvýběrvý test test založený na T x, T y

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Princip: Častěji se používá Mannův-Whitneyův test založený na U x T x Platí: m ( m 1) m n U x U y m n U m n n( n 1) y T y U x, U y,kde Hypotézu: H : F G proti alternativní: : F G zamítáme, pokud min U, U v, kde je Mannův-Whitneyův kvantil. x y v Postup: Pomocí realizace x, x, 1, x m a y, y, 1, yn spočítáme T x, T y a U x, U y. Pokud m n, pak hypotézu H : F G nezamítáme, pokud U x W, pokud m n, pak hypotézu H : F G nezamítáme, pokud U y W, kde W 1, 1 v m n v je doplněk kritického oboru a v je p p-kvantil Mannovy Whitneyovy statistiky (tabulka).

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Kvantily v p Mannova - Whitneyova rozdělení pro P=0,05

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Příklad: Při statistickém šetření byl sledován obsah Cl (mg/l) v minerální x~ vodě ze dvou blízkých zdrojů. Z prvního zdroje bylo náhodně odebráno 5 vzorků a ze druhého zdroje 9 vzorků: xi = 3,5; 3,57; 3,71; 3,34; 3,68 yi = 3,75; 3,67; 3.56; 3,66; 3,7; 3,79; 3,64; 3.55; 3,65. Pomocí Mannův-Whitneyůva testu zjistěte na hladině významnosti 5%, že minerální voda z obou zdrojů má stejný obsah Cl.

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Poznámka: Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test citlivý zvlášť na posunutí: F( x) G( x ). U x Hodnotu statistiky můžeme také určit bez sloučení původních statistických souborů a výpočtu součtu pořadí přímo ze vztahu: m n U x h i i1 j1 Platí: Nechť platí hypotéza m( m n 1) T m n EU x, kde h 1, x y a, j i, j i j i, j i j H : F G E x DT DU x x T x h 0, x, pak mn( m n 1) 1 mn( m n 1) 1 y

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Asymptotická verze: Pro m, n, v praxi m 10, n 10, m n je m n U x as. U ~ N (0,1) m n ( m n 1) 1 m n U x Testovací kritérium: u m n ( m n 1) 1 Hypotézu nezamítáme, pokud: u W, kde W u 1, u 1

Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Příklad: Při statistickém šetření byl sledován obsah Cl (mg/l) v minerální x~ vodě ze dvou blízkých zdrojů. Z prvního zdroje bylo náhodně odebráno 5 vzorků a ze druhého zdroje 9 vzorků: xi = 3,5; 3,57; 3,71; 3,34; 3,68 yi = 3,75; 3,67; 3.56; 3,66; 3,7; 3,79; 3,64; 3.55; 3,65. Pomocí asymptotické verze Mannův-Whitneyůva testu zjistěte na hladině významnosti 5%, že minerální voda z obou zdrojů má stejný obsah Cl.