PRAVDĚPODOBNOST A STATISTIKA Neparametrické testy hypotéz čast 1
Neparametrické testy hypotéz - úvod Neparametrické testy statistických hypotéz se používají v případech, kdy neznáme rozdělení pozorované náhodné veličiny X, resp. náhodného vektoru, anebo pro známé rozdělení nemáme potřebná testová kritéria. Omezením neparametrických metod je obvykle požadavek, že pozorované náhodné veličiny mají spojitá rozdělení, avšak v některých případech stačí znát pouze pořadí uspořádaných hodnot daného statistického souboru, tj. hodnoty odpovídajícího ordinálního statistického znaku. Slabší předpoklady o rozdělení (na rozdíl od parametrických testů testy u nichž známe rozdělení) mají za následek, že neparametrické metody nejsou tak silné, jako jejich parametrické protějšky. Základním principem neparametrických testů je nahrazení původních pozorovaných hodnot jejich pořadími co do velikosti a proto se také v literatuře hovoří o pořadových testech. Při pořadových testech se místo se střední hodnotou (jak je tomu u parametrických testech) pracuje s většinou mediánem.
Znaménkový test Předpoklady: Nechť X 1, X,, X n je náhodný výběr ze spojitého rozdělení s mediánem ~ x Hypotéza: Testujeme hypotézu: Princip: Nechť náhodná proměnná Y popisuje počet hodnot X i c. Pokud X i c pak vynecháme náhodnou proměnnou X i a zmenší se n. Pak Y ~ Bin, 0,5 Hypotézu H zamítáme, pokud je Y malé nebo velké: P( Y k1) P( Y k ) Platí: k n k 1, pak při označení P( Y k je ) W ; k n k ; n výpočet kvantilu: k p H : ~ x c proti alternativní: : ~ x c 1 max k, n k j0 n j p 0
Znaménkový test Postup: Nechť y je počet kladných hodnot x i c, hodnoty x i c vynecháme. (y je počet realizace náhodné proměnné Y) Pokud y W hypotézu nezamítáme. Hypotéza: H doplněk kritického oboru: : ~ x c, alternativní: : ~ x c W k 1; n k 1 : ~ x c W k 1; n : ~ x c W 0 ; n k 1 Poznámky: Test má malou sílu, ale je vhodný pro zešikmená data. Existuje také obecnější varianta znaménkového testu (tzv. kvantilový test), když testujeme hypotézu: H : x q c, kde je q-kvantil pozorované náhodné veličiny X.
Znaménkový test Asymptotická verze: Y n as. Pro n, v praxi n 0 je U ~ N (0, 1) n y n Testovací kritérium: u n Hypotézu nezamítáme, pokud: Hypotéza: u W H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c doplněk kritického oboru: W u W u 1 ; W ; u1 u 1 ; 1
Znaménkový test Kvantily pro k p binomického rozdělení Bi(n, 0.5) Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05.
Znaménkový test pro párové hodnoty Párové hodnoty: Znaménkový test se často používá pro tzv. párové hodnoty X, X 1, kdy testujeme hypotézu, že medián rozdílu X X 1 X je roven hodnotě c (nejčastěji pro c = 0). Příklad: U 10 auta porovnávali skutečnou průměrnou spotřebu oproti teoretické spotřebě. Získali následující výsledky: x i -skutečná spotřeba, y i -teoretická spotřeba. = (8.1; 7.1), (9.5; 9.6), (6.1; 5.4), (7.6; 7.), (11.3; 10.), (8.6; 8.6), (5.9; 6.1), (8.6; 7.9), (1.5; 1.6), (7.; 7.1). Pomocí znaménkového testu ověřte domněnku, že reálná spotřeba je větší než teoretická na hladině významnosti 0,05.
Pořadí Nechť X 1, X,, X n je náhodný výběr z rozdělení, které neznáme, nebo je z jiného než normálního, ale rozsah je malý pro použití asymptotických metod. Nechť x, x,, je jeho realizace a x( 1), x(),, x( n je uspořádání( x( i ) x( i 1). ) K realizaci x 1, x,, x n spočítáme uspořádání: R 1, R,, R n, kde Ri je pořadí prvku x i (= počet čísel z x, x,,, které jsou menších, rovno x i ). Jestliže nejsou všechna čísla navzájem různá, pak všem stejným číslům x( i) x( i1) x( i p) přiřadíme aritmetický průměr takových pořadí, jakoby následovala těsně za sebou. Platí: n i1 1 x n ) R i n( n 1) 1 x n
Wilcoxonův jednovýběrový test Předpoklady: Nechť X 1, X,, X n je náhodný výběr ze spojitého rozdělení s hustotou f, která je symetrická kolem bodu d a jeho okolí f(d - x) = f(d + x). Proto x~ = d. Hypotéza: Testujeme hypotézu: proti alternativní: Princip: Zavedeme náhodné veličiny: Yi X i c. V případě X i c vypustíme náhodnou veličinu X i a upravíme n. Uspořádáme Y i : Y Y ( 1) ( n) Nechť R R,, je příslušné pořadí. Spočteme: 1, S R n Y i 0 R i H : ~ x c a S Y i 0 R i : ~ x c n ( n 1) platí: S S Hypotézu H : ~ x c zamítáme, pokud min S, S w,kde w je Wilcoxonův kvantil.
Wilcoxonův jednovýběrový test Postup: Nechť y i je realizace Y i. Spočítáme S - testovací kritérium. Pokud Hypotéza: S W hypotézu nezamítáme. H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c doplněk kritického oboru: n ( n 1) W 1, 1 w w n ( n 1) W w 1, n ( n 1) W 0, w 1 kde w p je p-kvantil Wilcoxonova rozdělení (tabulka)
Wilcoxonův jednovýběrový test kvantily w p
Wilcoxonův jednovýběrový test příklad Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05.
Wilcoxonův jednovýběrový test pro párové hodnoty Párové hodnoty: Wilcoxonův jednovýběrový test se často používá pro tzv. párové hodnoty X, X, kdy testujeme hypotézu, že medián rozdílu X X 1 1 X je roven hodnotě c (nejčastěji pro c = 0). Příklad: U 10 auta porovnávali skutečnou průměrnou spotřebu oproti teoretické spotřebě. Získali následující výsledky: x i -skutečná spotřeba, y i -teoretická spotřeba. = (8.1; 7.1), (9.5; 9.6), (6.1; 5.4), (7.6; 7.), (11.3; 10.), (8.6; 8.6), (5.9; 6.1), (8.6; 7.9), (1.5; 1.6), (7.; 7.1). Pomocí Wilcoxonova testu rozdílů dvojic zjistěte na hladině významnosti 0,01, zda rozdílné výsledky jsou statisticky nevýznamné.
Wilcoxonův jednovýběrový test - asymptotická verze Platí: Nechť platí předpoklad symetrie a hypotéza H : ~ x c, pak 1) E( X i ) c n ) Označme: S R i sgn( Y i ), pak i1 1 n( n 1) S 4 3) vektory Y ),,sgn( ) a, Y jsou nezávislé 4) E S 5) DS 6) U Y n n( n 1) 4 n ( n 1) (n 1) 4 n ( n 1) S as 4 ~ n ( n 1) (n 1) 4 T sgn( 1 T. N (0,1) S Y, ( 1) ( n )
Wilcoxonův jednovýběrový test - asymptotická verze Asymptotická verze: Pro n, v praxi n 10 je U n ( n 1) S Testovací kritérium: u 4 n ( n 1) (n 1) 4 Hypotézu nezamítáme, pokud: u W Hypotéza: H : ~ x c, alternativní: : ~ x c : ~ x c : ~ x c n ( n 1) S 4 n ( n 1) (n 1) 4 doplněk kritického oboru: W u W u 1 ; W ; u1 u 1 ; 1 as. ~ N (0,1)
Wilcoxonův jednovýběrový test příklad Příklad: Zaznamenejte, jak každý z vás odhadne 1min. Otestujte H : x~ = 60s na hladině významnosti 0:05 pomocí asymptotické verze Příklad: Na dvou váhách bylo provedeno vážení 10 vzorků s výsledky : (15; 18), (130; 131), (18; 16), (150; 15), (10; 14), (140; 136), (13; 133), (136; 136), (15; 18), (15; 150). Pomocí asymptotické verze Wilcoxonova testu rozdílů dvojic zjistěte na hladině významnosti 0,01, zda rozdílné výsledky jsou statisticky nevýznamné.
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Předpoklady: Nechť X, X, 1, funkcí F, Y 1, Y,, funkcí G, X m Y n Hypotéza: Testujeme hypotézu: H je náhodný výběr ze spojitého rozdělení s distribuční je náhodný výběr ze spojitého rozdělení s distribuční : F G proti alternativní: : F G Princip: Náhodné výběry X, X, a Y 1, Y,, Y 1, X m n sloučíme do jednoho souboru Z, Z,, a spočteme pořadí R, R,,. 1 Z m n Nechť Tx R i a T y R i. Zi( X1,..., Xm ) Z i ( Y 1,..., Y n ) 1 R m n Platí: T x T y ( m n) ( m n 1) Wilcoxonův dvouvýběrvý test test založený na T x, T y
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Princip: Častěji se používá Mannův-Whitneyův test založený na U x T x Platí: m ( m 1) m n U x U y m n U m n n( n 1) y T y U x, U y,kde Hypotézu: H : F G proti alternativní: : F G zamítáme, pokud min U, U v, kde je Mannův-Whitneyův kvantil. x y v Postup: Pomocí realizace x, x, 1, x m a y, y, 1, yn spočítáme T x, T y a U x, U y. Pokud m n, pak hypotézu H : F G nezamítáme, pokud U x W, pokud m n, pak hypotézu H : F G nezamítáme, pokud U y W, kde W 1, 1 v m n v je doplněk kritického oboru a v je p p-kvantil Mannovy Whitneyovy statistiky (tabulka).
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Kvantily v p Mannova - Whitneyova rozdělení pro P=0,05
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Příklad: Při statistickém šetření byl sledován obsah Cl (mg/l) v minerální x~ vodě ze dvou blízkých zdrojů. Z prvního zdroje bylo náhodně odebráno 5 vzorků a ze druhého zdroje 9 vzorků: xi = 3,5; 3,57; 3,71; 3,34; 3,68 yi = 3,75; 3,67; 3.56; 3,66; 3,7; 3,79; 3,64; 3.55; 3,65. Pomocí Mannův-Whitneyůva testu zjistěte na hladině významnosti 5%, že minerální voda z obou zdrojů má stejný obsah Cl.
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Poznámka: Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test citlivý zvlášť na posunutí: F( x) G( x ). U x Hodnotu statistiky můžeme také určit bez sloučení původních statistických souborů a výpočtu součtu pořadí přímo ze vztahu: m n U x h i i1 j1 Platí: Nechť platí hypotéza m( m n 1) T m n EU x, kde h 1, x y a, j i, j i j i, j i j H : F G E x DT DU x x T x h 0, x, pak mn( m n 1) 1 mn( m n 1) 1 y
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Asymptotická verze: Pro m, n, v praxi m 10, n 10, m n je m n U x as. U ~ N (0,1) m n ( m n 1) 1 m n U x Testovací kritérium: u m n ( m n 1) 1 Hypotézu nezamítáme, pokud: u W, kde W u 1, u 1
Wilcoxonův dvouvýběrvý test - Mannův-Whitneyův test Příklad: Při statistickém šetření byl sledován obsah Cl (mg/l) v minerální x~ vodě ze dvou blízkých zdrojů. Z prvního zdroje bylo náhodně odebráno 5 vzorků a ze druhého zdroje 9 vzorků: xi = 3,5; 3,57; 3,71; 3,34; 3,68 yi = 3,75; 3,67; 3.56; 3,66; 3,7; 3,79; 3,64; 3.55; 3,65. Pomocí asymptotické verze Mannův-Whitneyůva testu zjistěte na hladině významnosti 5%, že minerální voda z obou zdrojů má stejný obsah Cl.