Kapitola 6. : Neparametrické testy o mediánech

Podobné dokumenty
Cvičení 6.: Výpočet střední hodnoty a rozptylu, bodové a intervalové odhady střední hodnoty a rozptylu

Cvičení 6.: Bodové a intervalové odhady střední hodnoty, rozptylu a koeficientu korelace, test hypotézy o střední hodnotě při známém rozptylu

i 1 n 1 výběrový rozptyl, pro libovolné, ale pevně dané x Roznačme n 1 Téma 6.: Základní pojmy matematické statistiky

NEPARAMETRICKÉ METODY

Pravděpodobnost a aplikovaná statistika

Cvičení 9: Neparametrické úlohy o mediánech

Deskriptivní statistika 1

Jednovýběrový Wilcoxonův test a jeho asymptotická varianta (neparametrická obdoba jednovýběrového t-testu)

Pravděpodobnost a aplikovaná statistika

TESTOVÁNÍ STATISTICKÝCH HYPOTÉZ

12. N á h o d n ý v ý b ě r

V. Normální rozdělení

6 Intervalové odhady. spočteme aritmetický průměr, pak tyto průměry se budou chovat jako by pocházely z normálního. nekonečna.

ZÁKLADNÍ STATISTICKÉ VÝPOČTY (S VYUŽITÍM EXCELU)

Odhady parametrů 1. Odhady parametrů

Náhodný výběr 1. Náhodný výběr

17. Statistické hypotézy parametrické testy

odhady parametrů. Jednostranné a oboustranné odhady. Intervalový odhad střední hodnoty, rozptylu, relativní četnosti.

Intervalové odhady parametrů některých rozdělení.

14. Testování statistických hypotéz Úvod statistické hypotézy Definice 14.1 Statistickou hypotézou parametrickou neparametrickou. nulovou testovanou

Pravděpodobnost a aplikovaná statistika

jako konstanta nula. Obsahem centrálních limitních vět je tvrzení, že distribuční funkce i=1 X i konvergují za určitých

Přednáška VIII. Testování hypotéz o kvantitativních proměnných

Odhad parametrů normálního rozdělení a testy hypotéz o těchto parametrech * Věty o výběru z normálního rozdělení

PRAVDĚPODOBNOST A STATISTIKA

Odhady parametrů základního souboru. Ing. Michal Dorda, Ph.D.

VYSOCE PŘESNÉ METODY OBRÁBĚNÍ

Odhad parametru p binomického rozdělení a test hypotézy o tomto parametru. Test hypotézy o parametru p binomického rozdělení

Intervalové odhady parametrů

8. Analýza rozptylu.

12. Neparametrické hypotézy

Teorie chyb a vyrovnávací počet. Obsah:

Pravděpodobnostní model doby setrvání ministra školství ve funkci

Závislost slovních znaků

Testování statistických hypotéz

Odhady parametrů základního. Ing. Michal Dorda, Ph.D.

Testujeme hypotézu: proti alternativě. Jednoduché třídění:

Přednáška VI. Intervalové odhady. Motivace Směrodatná odchylka a směrodatná chyba Centrální limitní věta Intervaly spolehlivosti

Neparametrické metody

Neparametrické metody

Popisná statistika - zavedení pojmů. 1 Jednorozměrný statistický soubor s kvantitativním znakem

Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů.

Náhodu bychom mohli definovat jako součet velkého počtu drobných nepoznaných vlivů.

Číselné charakteristiky náhodných veličin

P2: Statistické zpracování dat

Ilustrativní příklad ke zkoušce z B_PS_A léto 2014.

Intervalový odhad. nazveme levostranným intervalem pro odhad parametru Θ. Statistiku. , kde číslo α je blízké nule, nazveme horním

0,063 0,937 0,063 0, P 0,048 0,078 0,95. = funkce CONFIDENCE.NORM(2α; p(1 p)

PRAVDĚPODOBNOST A STATISTIKA. Neparametrické testy hypotéz čast 2

Test hypotézy o parametru π alternativního rozdělení příklad

Pro statistické šetření si zvolte si statistický soubor např. všichni žáci třídy (několika tříd, školy apod.).

Pravděpodobnostní modely

8. Odhady parametrů rozdělení pravděpodobnosti

Spojitost a limita funkcí jedné reálné proměnné

1 Tyto materiály byly vytvořeny za pomoci grantu FRVŠ číslo 1145/2004.

STATISTIKA. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem. H. Levinson

veličiny má stejný řád jako je řád poslední číslice nejistoty. Nejistotu píšeme obvykle jenom jednou

Ilustrativní příklad ke zkoušce z B_PS_A léto 2013.

Kapitola 3.: Úlohy o jednom náhodném výběru z normálního rozložení

Kvantily. Problems on statistics.nb 1

Odhady parametrů polohy a rozptýlení pro často se vyskytující rozdělení dat v laboratoři se vyčíslují podle následujících vztahů:

ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE

1 POPISNÁ STATISTIKA V PROGRAMU MS EXCEL

Mezní stavy konstrukcí a jejich porušov. Hru IV. Milan RůžR. zbynek.hruby.

4.2 Elementární statistické zpracování Rozdělení četností

13 Popisná statistika

3. Lineární diferenciální rovnice úvod do teorie

Test dobré shody se používá nejčastěji pro ověřování těchto hypotéz:

Jednofaktorová analýza rozptylu

STUDIUM MAXWELLOVA ZÁKONA ROZDĚLENÍ RYCHLSOTÍ MOLEKUL POMOCÍ DERIVE 6

Mendelova univerzita v Brně Statistika projekt

Statistika. Poznámky z přednášek

3. Charakteristiky a parametry náhodných veličin

Při sledování a studiu vlastností náhodných výsledků poznáme charakter. podmínek různé výsledky. Ty odpovídají hodnotám jednotlivých realizací

2. Znát definici kombinačního čísla a základní vlastnosti kombinačních čísel. Ovládat jednoduché operace s kombinačními čísly.

8. cvičení 4ST201-řešení

UNIVERZITA PALACKÉHO V OLOMOUCI PŘÍRODOVĚDECKÁ FAKULTA KATEDRA MATEMATICKÉ ANALÝZY A APLIKACÍ MATEMATIKY. Statistické chyby v medicínském výzkumu

Parametr populace (populační charakteristika) je číselná charakteristika sledované vlastnosti

1. JEV JISTÝ a. je jev, který nikdy nenastane b. je jev, jehož pravděpodobnost = ½ c. je jev, jehož pravděpodobnost = 0 d.

Co je to statistika? Statistické hodnocení výsledků zkoušek. Úvod statistické myšlení. Úvod statistické myšlení. Popisná statistika

MATICOVÉ HRY MATICOVÝCH HER

Funkce. RNDr. Yvetta Bartáková. Gymnázium, SOŠ a VOŠ Ledeč nad Sázavou

Katedra pravděpodobnosti a matematické statistiky. χ 2 test nezávislosti

Metody zkoumání závislosti numerických proměnných

7. Odhady populačních průměrů a ostatních parametrů populace

vají statistické metody v biomedicíně

procesy II Zuzana 1 Katedra pravděpodobnosti a matematické statistiky Univerzita Karlova v Praze

1. Základy počtu pravděpodobnosti:

2. Náhodná veličina. je konečná nebo spočetná množina;

OKRUŽNÍ A ROZVOZNÍ ÚLOHY: OBCHODNÍ CESTUJÍCÍ. FORMULACE PŘI RESPEKTOVÁNÍ ČASOVÝCH OKEN

1.3. POLYNOMY. V této kapitole se dozvíte:

Testování statistických hypotéz

6. Posloupnosti a jejich limity, řady

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter.

Cvičení 12: Binární logistická regrese

EKONOMETRIE 9. přednáška Zobecněný lineární regresní model

8 DALŠÍ SPOJITÁ ROZDĚLENÍ PRAVDĚPODOBNOSTI

Mod(x) = 2, Med(x) = = 2

FITOVÁNÍ ROZDĚLENÍ PRAVDĚPODOBNOSTI PRO APLIKACE

1. K o m b i n a t o r i k a

Transkript:

Kapitola 6 : Neparametrické testy o mediáech Cíl kapitoly Po prostudováí této kapitoly budete umět - provádět testy hypotéz o mediáu jedoho spojitého rozložeí - hodotit shodu dvou ezávislých áhodých výběrů ze spojitých rozložeí - hodotit shodu aspoň tří ezávislých áhodých výběrů ze spojitých rozložeí a idetifikovat dvojice výzamě odlišých áhodých výběrů Časová zátěž Na prostudováí této kapitoly a splěí úkolů s í spojeých budete potřebovat asi 11 hodi studia 61 Motivace Při používáí t-testů či aalýzy rozptylu by měl být splě předpoklad ormality dat Pro výběry větších rozsahů ( 3) emá míré porušeí ormality závažý dopad a výsledky Někdy se však setkáváme s výběry malých rozsahů, které pocházejí z výrazě eormálích rozložeí Pro práci s imi byly vytvořey tzv eparametrické testy, které evyžadují kokrétí typ rozložeí (apř ormálí), stačí apř předpokládat, že distribučí fukce rozložeí, z ěhož áhodý výběr pochází, je spojitá Tyto eparametrické testy se rověž používají v situacích, kdy zkoumaá data emají itervalový či poměrový charakter, ale pouze ordiálí charakter Ve srováí s klasickými parametrickými testy jsou však eparametrické testy slabší, tz, že epravdivou hypotézu zamítají s meší pravděpodobostí ež testy parametrické V této kapitole se omezíme a ty eparametrické testy, které se týkají mediáů 6 Jedovýběrové testy Jde o eparametrické obdoby jedovýběrového t-testu a párového t-testu 61 amékový test Nechť X1, K, X je áhodý výběr ze spojitého rozložeí Nechť x je mediáem tohoto rozložeí a c je reálá kostata Testujeme hypotézu H : x = c proti oboustraé alterativě H1 : x c (resp proti levostraé alterativě H1 : x < c resp proti pravostraé alterativě H1 : x > c ) amékový test se ejčastěji používá jako párový test, kdy máme áhodý výběr ze X1 X spojitého dvourozměrého rozložeí, K, a testujeme hypotézu o rozdílu mediáů, Y1 Y tj : x y c proti : x y c (resp proti jedostraým alterativám) H,5 = H1,5 Přejdeme k rozdílům 1 = X1 Y 1, K, = X Y a testujeme hypotézu o mediáu těchto rozdílů, tj H : z = c a) Utvoříme rozdíly Yi = X i c, i= 1, K, (Jsou-li ěkteré rozdíly ulové, pak za bereme je počet eulových hodot)

b) avedeme statistiku S, která udává počet těch rozdílů, které jsou kladé S je součtem áhodých veliči s alterativím rozložeím (i-tá veličia abývá hodoty 1, když i-tý rozdíl je kladý a hodoty, když je záporý) Platí-li H, pak pravděpodobost kladého i záporého rozdílu je stejá, tedy Bi, vlastostí biomického rozložeí plye, 1 že ( S ), D ( S ) = 4 E = c) Staovíme kritický obor Pro oboustraou alterativu: S ~ ( ) W 1 =,k k,, pro levostraou alterativu: W=,k1, pro pravostraou alterativu: W = k, (Nezáporá celá čísla k 1, k pro oboustraý test i pro jedostraé testy lze ajít ve statistických tabulkách) S d) H zamítáme a hladiě výzamostiα, když W Pro velká (prakticky > ) lze využít asymptotické ormality statistiky S Testo- S E( S ) S vá statistika U = = D( S ) 4 N (,1) má za platosti H asymptoticky rozložeí Kritický obor pro oboustraý test: (, u u ) W= 1 α / 1 α /, Kritický obor pro levostraý test: W = (, u1 α Kritický obor pro pravostraý test: W u1 ) = α, Aproximace rozložeím N(,1) se zlepší, když použijeme tzv korekci a espojitost Testová statistika pak má tvar U 1, přičemž přičteme, když S < a odečteme v opačém případě S = 4 ± 1 6 Příklad U 9 áhodě vybraých maželských párů byl zjiště průměrý ročí příjem (v tisících Kč) číslo páru 1 3 4 5 6 7 8 9 příjem mažela 16 336 384 43 456 58 55 6 187 příjem maželky 336 4 19 336 384 88 96 31 576 Na hladiě výzamosti,5 testujte hypotézu, že mediáy příjmů maželů a maželek jsou stejé Řešeí: Jedá se o párový test Vypočteme rozdíly mezi příjmy maželů a maželek, čímž úlohu převedeme a jedovýběrový test Testujeme H : z = proti oboustraé alterativě H1 : z, kde z je mediá rozložeí, z ěhož pochází rozdílový áhodý výběr 1 = X1 Y 1, K, 9 = X 9 Y9 Vypočteé rozdíly x y : -1 96 19 96 7 4-48 88 196 i i

Testová statistika S = 7Ve statistických tabulkách ajdeme pro = 9 a α =, 5 kritické hodoty k 1 = 1, k = 8 Protože kritický obor W=,1 8, 9 eobsahuje hodotu 7, emůžeme H zamítout a hladiě výzamosti,5 Neprokázaly se tedy výzamé rozdíly v mediáech příjmů maželů a maželek Výpočet pomocí systému STATISTICA: Vytvoříme ový datový soubor se dvěma proměými a 9 případy Do proměé X apíšeme příjmy maželů, do proměé Y příjmy maželek Statistiky Neparametrická statistika Porováí dvou závislých vzorků OK 1 sezam proměých X, sezam proměých Y OK amékový test Počet procet Úroveň p Dvojice proměých růzých v < V X & Y 9, 1,333333,184 Vidíme, že eulových hodot = 9 ich záporých je, %, tj Hodota testové statistiky S = 9 = 7 Asymptotická testová statistika U (zde ozačeá jako ) se realizuje hodotou 1, 3 Odpovídající asymptotická p-hodota je,184, tedy a asymptotické hladiě výzamosti,5 ezamítáme hypotézu, že mediáy příjmů maželů a maželek jsou stejé Upozorěí: V tomto případě eí splěa podmíka pro využití asymptotické ormality statistiky S, tj > Je tedy vhodější ajít v tabulkách kritické hodoty pro zamékový test Pro = 9 a α =,5 jsou kritické hodoty k 1 = 1, k = 8 Protože kritický obor W=,1 8,9 eobsahuje hodotu 7, ezamítáme H a hladiě výzamosti,5 Dostáváme týž výsledek jako při použití asymptotického testu 63 Jedovýběrový Wilcoxoův test Nechť X 1,, X je áhodý výběr ze spojitého rozložeí s hustotou φ(x), která je symetrická kolem mediáu x,5, tj φ(x,5 x) = φ(x,5 - x) Nechť c je reálá kostata Testujeme hypotézu H : x,5 = c proti oboustraé alterativě H 1 : x,5 c (resp proti levostraé alterativě H 1 : x,5 < c resp proti pravostraé alterativě H 1 : x,5 > c) a) Utvoříme rozdíly Y i = X i c, i = 1,, (Jsou-li ěkteré rozdíly ulové, pak za bereme je počet eulových hodot) b) Absolutí hodoty Y i uspořádáme vzestupě podle velikosti a spočteme pořadí R i c) avedeme statistiku S W = R i, což je součet pořadí přes kladé hodoty Y i Aalogicky zavedeme statistiku S Y> i W = Y< i R i, což je součet pořadí přes záporé hodoty Y i Přitom platí, že součet S W S W - = (1)/ a platosti H statistika S W má středí hodotu E(S W ) = (1)/4 a rozptyl D(S W ) = (1)(1)/4 d) Určíme testovou statistiku: Testová statistika = mi(s W, S W - ) pro oboustraou alterativu, = S W pro levostraou alterativu, = S W - pro pravostraou alterativu e) H zamítáme a hladiě výzamosti α, když testová statistika je meší ebo rova tabelovaé kritické hodotě

U Pro 3 lze využít asymptotické ormality statistiky S W Platí-li H, pak W E( S ) S W W = ( ( W ) 4 ( 1) 4 S = N(,1) Kritický obor pro oboustraou alterativu má 1)( 1) D S tvar: (, u u ) W= α / 1 α /, 1 (Aalogicky pro jedostraé alterativy) H zamítáme a asymptotické hladiě výzamosti α, když U W Wilcoxoův test se hodí je pro výběr ze symetrického rozložeí Neí-li teto předpoklad splě, lze použít apř zamékový test 64 Příklad U 1 áhodě vybraých zemí bylo zjištěo proceto populace starší 6 let: 4,9 6, 6,9 17,6 4,5 1,3 5,7 5,3 9,6 13,5 15,7 7,7 Na hladiě výzamosti,5 testujte hypotézu, že mediá proceta populace starší 6 let je 1 proti oboustraé alterativě Řešeí: Vypočteme rozdíly pozorovaých hodot od čísla 1: -7,1-6, -5,1 5,6-7,5,3-6,3-6,7 -,4 1,5 3,7-4,3 Absolutí hodoty těchto rozdílů uspořádáme vzestupě podle velikosti Kladé rozdíly přitom ozačíme tučě: usp x i 1,3 1,5,4 3,7 4,3 5,1 5,6 6 6,3 6,7 7,1 7,5 pořadí 1 3 4 5 6 7 8 9 1 11 1 S W = 14, S W - = 64, = 1, α =,5, tabelovaá kritická hodota = 13, testová statistika = mi(s W, S W - ) = mi(14,64) = 14 Protože 14 > 13, H ezamítáme a hladiě výzamosti,5 ameá to, že a hladiě výzamosti,5 se epodařilo prokázat, že aspoň v poloviě zemí by se podíl populace ad 6 let odlišoval od 1 % Řešeí pomocí systému STATISTICA: Otevřeme ový datový soubor se dvěma proměou a dvaácti případy Prví proměou azveme PROCENTA, druhou KONSTANTA Do proměé PROCENTA apíšeme zjištěá proceta populace starší 6 let:a do proměé KONSTANTA vyplíme čísly 1 (do Dlouhého jméa proměé KONSTANTA apíšeme =1) Statistika Neparametrická statistika Porováí dvou závislých vzorků (proměé) OK Proměé 1 sezam proměých PROCENTA, sezam proměých KONSTANTA, OK, Wilcoxoův párový test Dostaeme tabulku Wilcoxoův párový test (populace_ad_6) Ozačeé testy jsou výzamé a hladiě p <,5 Počet T Úroveň p Dvojice proměých platých proceto & kost 1 14, 1,961161,49861 V této tabulce je symbolem T ozačea testová statistika mi(s W, S W - ), symbolem realizace asymptotické testové statistiky U Uvedeá p-hodota je vypočítáa pro realizaci asymptotické testové statistiky U Protože p,5, hypotézu H : x,5 = 1 zamítáme a asymptotické hladiě výzamosti,5 Pokud bychom chtěli provést přesý test a ikoliv pouze asymptotický, vyhledali bychom ve statistických tabulkách kritickou hodotu jedovýběrového Wilcoxoova testu pro = 1, α =,5 (viz výše) Protože tato hodota je 13, ulovou hypotézu ezamítáme a hladiě výzamosti,5 65 Párový Wilcoxoův test

Nechť (X 1, Y 1 ),, (X Y ) je áhodý výběr ze spojitého dvourozměrého rozložeí Testujeme H : x,5 - y,5 = c proti H 1 : x,5 - y,5 c (resp proti jedostraým alterativám) Utvoříme rozdíly i = X i Y i, i = 1,, a testujeme hypotézu o mediáu z,5, tj H : z,5 = c proti H 1 : z,5 c 66 Příklad K zjištěí ceových rozdílů mezi určitými dvěma druhy zboží bylo áhodě vybráo 15 prodeje a byly zjištěy cey zboží A a cey zboží B: (11,1), (14,11), (11,9), (13,9), (11,9), (1,9), (1,1), (1,8), (1,11), (11,9), (13,1), (14,1), (14,1), (19,15), (14,1) Na hladiě výzamosti,5 je třeba testovat hypotézu, že mediá ceových rozdílů čií 3 Kč Řešeí: Jedá se o párový test Vypočteme rozdíly mezi ceou zboží A a ceou zboží B, čímž úlohu převedeme a jedovýběrový test Výpočty uspořádáme do tabulky: č prodejy cea zboží A cea zboží B rozdíl rozdíl-mediá pořadí 1 11 1 1 1 14 11 3-3 11 9 1 5,5 4 13 9 4 1 5,5 5 11 9 1 5,5 6 1 9 1 1 7 1 1 1 5,5 8 1 8 1 5,5 9 1 11 1 1 1 11 9 1 5,5 11 13 1 3-1 14 1 4 1 5,5 13 14 1 1 5,5 14 19 15 4 1 5,5 15 14 1 1 5,5 Tučě jsou vytištěa pořadí pro kladé hodoty rozdíl - mediá S W = 16,5, S W - = 74,5, = 13, α =,5, tabelovaá kritická hodota = 17, testová statistika = mi(s W, S W - ) = mi(16,5; 74,5) = 16,5 Protože 16,5 17, H zamítáme a hladiě výzamosti,5, tedy s rizikem omylu ejvýše 5% jsme prokázali, že mediá ceových rozdílů se liší od 3 Kč Řešeí pomocí systému STATISTICA: Otevřeme ový datový soubor se čtyřmi proměými a 15 případy Prví proměou azveme CENA A, druhou CENA B, třetí RODÍL a čtvrtou KONSTANTA Do proměých CEANA A a CENA B zapíšeme cey zboží A a B, do Dlouhého jméa proměé RODÍL apíšeme = v1-v a proměou KONSTANTA vyplíme samými trojkami Nyí provedeme párový Wilcoxoův test: Statistika Neparametrická statistika Porováí dvou závislých vzorků (proměé) OK Proměé 1 sezam proměých RODÍL, sezam proměých KONSTANTA, OK, Wilcoxoův párový test Dostaeme tabulku

Wilcoxoův párový test (priklad734) Ozačeé testy jsou výzamé a hladiě p <,5 Počet T Úroveň p Dvojice proměých platých rozdíl & kost 15 16,5,6684,4696 Podobě jako v příkladu 64 je symbolem T ozačea testová statistika mi(s W, S W - ), symbolem realizace asymptotické testové statistiky U Uvedeá p-hodota je vypočítáa pro realizaci asymptotické testové statistiky U Protože p,5, hypotézu H : z,5 = 3 zamítáme a asymptotické hladiě výzamosti,5 Pokud bychom chtěli provést přesý test a ikoliv pouze asymptotický, vyhledali bychom ve statistických tabulkách kritickou hodotu jedovýběrového Wilcoxoova testu pro = 13, α =,5 (viz výše) Protože tato hodota je 17 a testová statistika 16,5, ulovou hypotézu zamítáme a hladiě výzamosti,5 63 Dvouvýběrové pořadové testy Jedá se o eparametrickou obdobu dvouvýběrového t-testu m(m 1) 1 631 Dvouvýběrový Wilcoxoův test Nechť X 1,, X a Y 1,, Y m jsou dva ezávislé áhodé výběry ze dvou spojitých rozložeí, jejichž distribučí fukce se mohou lišit pouze posuutím Ozačme x,5 mediá prvího rozložeí a y,5 mediá druhého rozložeí Testujeme hypotézu, že distribučí fukce těchto rozložeí jsou shodé eboli mediáy jsou shodé proti alterativě, že jsou rozdílé Všech m hodot X 1,, X a Y 1,, Y m uspořádáme vzestupě podle velikosti jistíme součet pořadí hodot X 1,, X a ozačíme ho T 1 Součet pořadí hodot Y 1,, Y m ozačíme T Vypočteme statistiky U 1 = m (1)/ T 1, U = m m(m1)/ - T Přitom platí U 1 U = m Pokud mi(u 1,U ) tabelovaá kritická hodota (pro daé rozsahy výběrů m, a daé α), pak ulovou hypotézu o totožosti obou distribučích fukcí zamítáme a hladiě výzamosti α V tabulkách se používá ozačeí: = mi{ m, } a m= max{ m,} Pro velká, m (prakticky, m > 3) lze využít asymptotické ormality statistiky U 1 m U1 V případě platosti H má statistika U = asymptoticky rozložeí N(,1) Kritický obor pro oboustraou alterativu má tvar: W = ( u u ), α / 1 α /, 1 (Aalogicky pro jedostraé alterativy) H zamítáme a asymptotické hladiě výzamosti α, když U W Dvouvýběrový Wilcoxoův test se používá v situacích, kdy distribučí fukce rozložeí, z ichž daé dva ezávislé áhodé výběry pocházejí, se mohou lišit pouze posuutím 63 Příklad Bylo vybráo 1 polí stejé kvality Na čtyřech z ich se zkoušel ový způsob hojeí, zbylých šest bylo ošetřeo starým způsobem Pole byla oseta pšeicí a sledoval se její hektarový výos Je třeba zjistit, zda ový způsob hojeí má týž vliv a průměré hektarové výosy pšeice jako starý způsob hojeí

x: starý způsob 51 5 49 55 y: ový způsob 45 54 48 44 53 5 Řešeí usp hodoty 44 45 48 49 5 51 5 53 54 55 pořadí x-ových hodot 4 6 7 1 pořadí y-ových hodot 1 3 5 8 9 T 1 = 4 6 7 1 = 7, T = 1 3 5 8 9 = 8 U 1 = 46 45/ - 7 = 7, U = 46 67/ - 8 = 17 Kritická hodota pro α =,5, mi(4,6) = 4, max(4,6) = 6 je Protože mi(7,17) >, emůžeme a hladiě výzamosti,5 zamítout hypotézu, že ový způsob hojeí má a hektarové výosy pšeice stejý vliv jako starý způsob Řešeí pomocí systému STATISTICA: Otevřeme ový datový soubor se dvěma proměými VÝNOS a ID a 1 případy Do proměé VÝNOS zapíšeme hektarové výosy pšeice a do proměé ID, která slouží k rozlišeí ového a starého způsobu hojeí, apíšeme 4 krát jedičku a 6 krát dvojku Nyí provedeme dvouvýběrový Wilcoxoův test, který je ve STATISTICE uvede pod ázvem Maův Whiteyův test: Statistika Neparametrická statistika Porováí dvou ezávislých vzorků (skupiy) OK Proměé Sezam závislých proměých VÝNOS, Nezáv (grupov) proměé - ID OK, Ma-Whiteyův U test Dostaeme tabulku Ma-Whiteyův U test (Hojeista) Dle promě id Ozačeé testy jsou výzamé a hladiě p <,5 Sčt poř Sčt poř U p-hod p-hod N plat N plat *1str Proměá skup 1 skup upraveé skup 1 skup přesé p x 7, 8, 7,,95943,337356,95943,337356 4 6,35381 de je symbolem U ozačea testová statistika mi(u 1,U ) V ašem případě U = 7, odpovídající p-hodotu ajdeme v posledím sloupci pod ozačeím *1 str přesé p Protože,35381 >,5, ezamítáme a hladiě výzamosti,5 ulovou hypotézu Výpočet ještě doplíme krabicovým diagramem Na záložce ákl výsledky vybereme Krabicový graf dle skupi, OK, proměá VÝNOS, OK Dostaeme graf 56 Krabicový graf dle skupi Proměá: výos 54 5 5 výos 48 46 44 4 1 id Mediá 5%-75% Mi-Max

Je zřejmé, že mediá hektarových výosů při starém způsobu hojeí je meší ež při ovém způsobu a také vidíme, že variabilita hektarových výosů při starém způsobu hojeí je větší ež při ovém způsobu 633 Dvouvýběrový Kolmogorovův - Smirovův test Nechť X1, K, X a Y1, K, Ym jsou dva ezávislé áhodé výběry ze dvou spojitých rozložeí, jejichž distribučí fukce se mohou lišit ejeom posuutím, ale také tvarem Testujeme hypotézu, že distribučí fukce těchto rozložeí jsou shodé, tj, že všech m veliči pochází z téhož rozložeí proti alterativě, že distribučí fukce jsou rozdílé Nechť F 1 (x) je empirická distribučí fukce 1 výběru a F (y) je empirická distribučí fukce výběru Jako testová statistika slouží = max F (x) F (x) H zamítáme a hladiě výzamosti α, když D ( α), kde ( α) větší rozsahy D, m D 1 < x<, m lze kritickou hodotu aproximovat vzorcem 634 Příklad Na data z příkladu 63 aplikujte dvouvýběrový K-S test D je tabelovaá kritická hodota Pro,m m l m α Výpočet pomocí systému STATISTICA: Statistiky Neparametrická statistika Porováí dvou ezávislých vzorků OK Proměé Sezam závislých proměých X, Nezáv (grupov) proměá ID OK Kolmogorov- Smirovův -výběrový test Kolmogorov-Smirovův test (Hojeista) Dle promě id Ozačeé testy jsou výzamé a hladiě p <,5 Max záp Max klad p-hod Průměr Průměr Smodch Smodch N plat N plat Proměá rozdíl rozdíl skup 1 skup skup 1 skup skup 1 skup x -,83333,5 p > 1 51,75 49,,5 4,9878 4 6 Ve výstupí tabulce pro dvouvýběrový K-S test dostaeme maximálí záporý a maximálí kladý rozdíl mezi hodotami obou výběrových distribučích fukcí, dolí omezeí pro p- hodotu (p >,1), průměry, směrodaté odchylky a rozsahy obou výběrů Jelikož p-hodota převyšuje hladiu výzamosti,5, a této hladiě elze ulovou hypotézu zamítout 64 Kruskalův Wallisův test a mediáový test (eparametrické obdoby aalýzy rozptylu jedoduchého tříděí) 641 Formulace problému Nechť je dáo r 3 ezávislých áhodých výběrů o rozsazích 1,, r Předpokládáme, že tyto výběry pocházejí ze spojitých rozložeí Ozačme = 1 r Chceme testovat hypotézu, že všechy tyto výběry pocházejí z téhož rozložeí 64 Kruskalův Wallisův test Všech hodot seřadíme do rostoucí poslouposti a určíme pořadí každé hodoty Ozačme Tj součet pořadí těch hodot, které patří do j-tého výběru, j = 1,, r (kotrola: musí

platit T 1 T r = (1)/) Testová statistika má tvar: Q = 1 ( 1) r j= 1 T j j 3( 1) Platí-li H, má statistika Q asymptoticky rozložeí χ (r-1) H tedy zamíteme a asymptotické hladiě výzamosti α, když Q χ 1-α (r-1) 643 Mediáový test Testová statistika má tvar Q M = 4 r j= 1 P j j, kde P j je počet hodot v j-tém výběru, které jsou větší ebo rovy mediáu vypočteému ze všech hodot Platí-li H, má statistika Q M asymptoticky rozložeí χ (r-1) H tedy zamíteme a asymptotické hladiě výzamosti α, když Q M χ 1-α (r-1) 644 Metody mohoásobého porováváí amíteme-li H, zajímá ás, které dvojice áhodých výběrů se liší a zvoleé hladiě výzamosti a) Neméyiho metoda Používá se v případě, že všechy výběry mají týž rozsah p Je-li T l - T k tabelovaá kritická hodota (pro daé p, r, α ), pak a hladiě výzamosti α zamítáme hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložeí b) Obecá metoda mohoásobého porováváí Tl Tk 1 1 1 Jestliže ( 1) h KW ( α) l k 1 l, pak a hladiě výzamosti α zamítáme k hypotézu, že l-tý a k-tý výběr pocházejí z téhož rozložeí Kritickou hodotu h KW (α) ajdeme ve speciálích statistických tabulkách Při větších rozsazích výběrů je možo ji ahradit kvatilem χ 1-α (r-1) 745 Příklad U přijímacích zkoušek a vysokou školu sledujeme počet bodů z matematiky Chceme posoudit, zda výsledky jsou závislé a typu absolvovaé středí školy Náhodě vybereme osm písemých zkoušek studetů každého z uvažovaých tří typů škol: číslo písemky gymázium číslo písemky SEŠ číslo písemky SPŠ 1 78 9 3 17 93 95 1 84 18 74 3 84 11 65 19 58 4 78 1 41 85 5 85 13 67 1 6 6 96 14 5 7 7 9 15 9 3 67 8 83 16 7 4 59 Na hladiě výzamosti,5 testujte hypotézu, že výsledky studetů z gymázií, SEŠ a SPŠ se eliší amítete-li ulovou hypotézu, vyšetřete, které dvojice typů škol se od sebe liší a hladiě výzamosti,5

Řešeí Kruskalův Wallisův test usp hodoty pořadí 1 výběru pořadí výběru pořadí 3 výběru 3 1 41 5 3 58 4 59 5 6 6 65 7 67 8,5 67 8,5 7 1 7 11 74 1 78 13,5 78 13,5 83 15 84 16,5 84 16,5 85 18,5 85 18,5 9 9 1 93 95 3 96 4 Součet pořadí pro jedotlivé výběry: T 1 = 69, T = 87, T 3 = 144, 1 69 87 144 Realizace testové statistiky: Q= 3 5= 7, 665 4 5 8 8 8, Kritický obor W= χ, 95( ), ) = 5,661, ) Protože Q W, H zamítáme a asymptotické hladiě výzamosti,5 Rozdíly mezi počty bodů u přijímací zkoušky z matematiky u studetů ze sledovaých tří typů středích škol se prokázaly s rizikem omylu ejvýše,5 Mediáový test Mediá všech 4 hodot je 76 V 1 výběru leží ad mediáem 8 hodot, ve výběru hodoty, ve 3 výběru hodoty 1 Realizace testové statistiky: Q M = 4 ( 8 ) 4= 1 8, Kritický obor W= χ, 95( ), ) = 5,661, ) Nulovou hypotézu zamítáme a asymptotické hladiě výzamosti,5 Řešeí pomocí systému STATISTICA: Otevřeme ový datový soubor se dvěma proměými X a ID a s 1 případy Do proměé X zapíšeme počty bodů, do proměé ID, která slouží jako idetifikátor typu školy, apíšeme 8

krát jedičku, 8 krát dvojku a 8 krát trojku Nyí provedeme Kruskalův Wallisův a mediáový test Statistika Neparametrická statistika Porováí více ezávislých vzorků (skupiy) OK Proměé ávisle proměé X, Nezáv (grupov) proměá - ID OK, Shrutí: Kruskal- Wallis ANOVA a mediáový test, Výpočet Pro K-W test dostaeme tabulku ávislá: X gymazium SEŠ SPŠ Kruskal-Wallisova ANOVA založ a poř; X (body_u_zkouskysta) Nezávislá (grupovací) proměá : ID Kruskal-Wallisův test: H (, N= 4) =7,678354 p =,15 Kód Počet Součet platých pořadí 1 8 144, 8 69, 3 8 87, Testová statistika se realizuje hodotou 7,678, počet stupňů volosti je, odpovídající p- hodota =,15, tedy a asymptotické hladiě výzamosti,5 zamítáme hypotézu o shodě mediáů Pro mediáový test máme tabulku Mediáový test, celk mediá = 76,; X (body_u_zkouskysta) Nezávislá (grupovací) proměá : ID ávislá: Chi-Kvadr = 1, sv = p =,5 X gymazium SEŠ SPŠ Celkem <= Mediá: pozorov očekáv poz-oč > Mediá: pozorov očekáv poz-oč Celkem: oček, 6, 6, 1, 4, 4, 4, -4,,, 8,,, 1, 4, 4, 4, 4, -, -, 8, 8, 8, 4, Realizace testové statistiky = 1, počet stupňů volosti =, odpovídající p-hodota =,5, tedy a asymptotické hladiě výzamosti,5 zamítáme hypotézu o shodě mediáů Nyí provedeme mohoásobé porováváí, abychom zjistili, které dvojice typů škol se liší volíme Víceás porováí průměrého pořadí pro vš skupiy ávislá: X gymazium SEŠ SPŠ Víceásobé porováí p hodot (oboustr); X (body_u_zkouskysta) Nezávislá (grupovací) proměá : ID Kruskal-Wallisův test: H (, N= 4) =7,678354 p =,15 gymazium SEŠ SPŠ R:18, R:8,65 R:1,875,43,131634,43 1,,131634 1, Tabulka obsahuje p-hodoty pro porováí dvojic skupi Vidíme, že a hladiě výzamosti,5 se liší gymázium a SEŠ

Výpočet ještě doplíme krabicovým diagramem Na záložce ákl výsledky vybereme Krabicový graf, proměá X, OK, Typ krabicového grafu Mediá/Kvartily/Rozpětí, OK Dostaeme graf 1 Krabicový graf dle skupi Proměá: X 9 8 7 X 6 5 4 3 gymazium SEŠ SPŠ ID Mediá 5%-75% Mi-Max Vidíme, že mediáy se liší velice výrazě, zvláště pro gymázia a SEŠ Variabilita počtu bodů je ejmeší pro gymázia, ejvětší pro SEŠ Shrutí V ěkterých situacích se setkáváme s áhodými výběry malých rozsahů, které pocházejí z výrazě eormálích rozložeí V takových případech elze použít klasické testy založeé a předpokladu ormality, které byly popsáy ve 4, 5 a 6 kapitole Místo ich používáme eparametrické testy, které epotřebují splěí předpokladu ormality, stačí apř předpokládat spojitost distribučí fukce rozložeí, z ěhož daý áhodý výběr pochází Pro testováí hypotézy o mediáu používáme jedovýběrový či párový Wilcoxoův test, což je eparametrická obdoba jedovýběrového či párového ttestu Máme-li testovat hypotézu o shodě mediáů dvou rozložeí, která se mohou lišit je posuutím (tj testujeme hypotézu o shodě těchto dvou rozložeí), aplikujeme dvouvýběrový Wilcoxoův test eparametrickou obdobu dvouvýběrového t-testu Jako eparametrická obdoba aalýzy rozptylu jedoduchého tříděí slouží Kruskalův Wallisův test ebo mediáový test Při zamítutí ulové hypotézy idetifikujeme dvojice odlišých výběrů pomocí metod mohoásobého porováváí, a to buď obecou metodu mohoásobého porováváí ebo Neméiyho metodu Při prováděí eparametrických testů potřebujeme speciálí tabulky kritických hodot Jsou obsažey v příloze A tohoto učebího textu Všechy uvedeé testy jsou implemetováy v systému STATISTICA Kotrolí otázky 1 V jakých situacích používáme eparametrické testy? Jaká je evýhoda eparametrických testů oproti testům parametrickým? 3 Jak vypočítáme pořadí čísla v daé poslouposti čísel? 4 Popište rozdíl mezi jedovýběrovým a párovým Wilcoxoovým testem 5 Jaké podmíky musí být splěy pro dvouvýběrový Wilcoxoův test? 6 K čemu slouží Kruskalův-Wallisův test? 7 Jak provedeme mediáový test? 8 Které metody mohoásobého porováváí záte?

Autokorekčí test 1 Máme za úkol zjistit, zda tři ezávislé výběry pocházejí z téhož rozložeí Přitom všechy mají malý rozsah (meší ež 3) a vykazují odchylky od ormálího rozložeí Jaký test použijeme? a) Aalýzu rozptylu jedoduchého tříděí, b) mediáový test, c) Kruskalův-Wallisův test Testujeme hypotézu, že dva ezávislé áhodé výběry pocházejí z téhož rozložeí Oba výběry mají malý rozsah (meší ež 3) a diagostické grafy i testy ormality poukazují a závažější odchylky od ormálího rozložeí Jaký test použijeme? a) Párový Wilcoxoův test, b) dvouvýběrový t-test, c) dvouvýběrový Wilcoxoův test 3 Pomocí K-W testu testujeme a asymptotické hladiě výzamosti,5 hypotézu, že pět ezávislých áhodých výběrů o rozsazích 4, 7, 5, 4, 5 pochází z téhož rozložeí Kritický obor má tvar: a) W = 9,488; ), b) W =,711; ), c) W= ;9,488) 4 Máme dvourozměrý áhodý výběr z dvourozměrého rozložeí, které se výrazě liší od ormálího rozložeí K testováí hypotézy, že mediáy obou složek tohoto rozložeí jsou stejé, použijeme a) jedovýběrový t-test, b) dvouvýběrový Wilcoxoův test, c) párový Wilcoxoův test Správé odpovědi: 1b),c) c) 3a) 4c) Příklady 1 U 1 áhodě vybraých vzorků bezíu byly zjištěy ásledující hodoty oktaového čísla: 98, 96,8 96,3 99,8 96,9 98,6 95,6 97,1 97,7 98, Na hladiě výzamosti,5 testujte hypotézu, že mediá oktaového čísla je 98 proti oboustraé alterativě Výsledek: Použijeme jedovýběrový Wilcoxoův test Testová statistika se realizuje hodotou 1, tabelovaá kritická hodota pro α =,5 a a = 9 je 5 Protože 1 > 5, H ezamítáme a hladiě výzamosti,5 Výrobce určitého výrobku se má rozhodout mezi dvěma dodavateli polotovarů vyrábějících je růzými techologiemi Rozhodující je procetí obsah určité látky 1 techologie: 1,5 1,57 1,71 1,34 1,68 techologie: 1,75 1,67 1,56 1,66 1,7 1,79 1,64 1,55 Na hladiě výzamosti,5 posuďte pomocí dvouvýběrového Wilcoxoova testu, zda je oprávěý předpoklad, že obě techologie poskytují stejé proceto účié látky Výsledek:

Testová statistika se realizuje hodotou 1, tabelovaá kritická hodota pro α =,5, mi(5,8) = 5, max(5,8) = 8 je 6 Protože mi(8,1) >, emůžeme a hladiě výzamosti,5 zamítout hypotézu, že obě techologie poskytují stejé proceto účié látky 3 Výrobce koláčů v prášku má 4 ové recepty a chce zjistit, zda se jejich kvalita liší Upekl proto 5 koláčů z každého druhu a dal je porotě k ohodoceí recept počet bodů A 7 88 7 87 71 B 85 89 86 8 88 C 94 94 88 87 89 D 91 93 9 95 94 Na asmptotické hladiě výzamosti,5 testujte hypotézu, že recepty se eliší Výsledek: Použijeme Kruskalův Wallisův test Všech hodot uspořádáme vzestupě podle velikosti a staovíme součet pořadí pro recepty A, B, C, D: T 1 = 3,5, T = 37,5, T 3 = 66, T 4 = 83 Testová statistika: 1 3,5 37,5 66 83 Q= 3 1= 1,45 1 5 5 5 5, χ,95 (3) = 7,81 Protože Q 7,81, H zamítáme a asymptotické hladiě výzamosti,5 Neméyiho metoda prokázala, že a hladiě výzamosti,5 se liší recepty A a D 4 U osmi osob byl změře systolický kreví tlak před pokusem a po ěm č osoby 1 3 4 5 6 7 8 tlak před 13 185 16 136 147 181 18 139 tlak po 139 19 175 135 155 175 158 149 Na hladiě výzamosti,5 testujte hypotézu, že pokus eovliví systolický kreví tlak Výsledek: Párový Wilcoxoův test poskytl p-hodotu,4995, tedy H zamítáme a hladiě výzamosti,5 5 Majitel obchodu chtěl zjistit, zda velikost ákupů (v dolarech) placeých kreditími kartami Master/EuroCard a Visa jsou přibližě stejé Náhodě vybral 7 ákupů placeých Master/EuroCard a 9 placeých Visou: Master/EuroCard 4 77 46 73 78 33 37 Visa 39 1 119 68 76 16 53 79 1 Lze a hladiě výzamosti,5 tvrdit, že mediáy ákupů placeých těmito dvěma typy karet se shodují? Výsledek: Dvouvýběrový Wilcoxoův test poskytl p-hodotu,53, H tedy ezamítáme a hladiě výzamosti,5

6 produkce tří podiků vyrábějících televizory bylo vylosováo 1, 8 a 1 kusů Byly získáy ásledující výsledky zjišťováí citlivosti těchto televizorů v mikrovoltech: podik citlivost 1 podik 4 56 6 49 55 57 34 48 51 46 podik 4 4 58 47 47 5 5 53 3 podik 45 7 63 59 4 59 61 54 74 69 54 67 Ověřte a hladiě výzamosti,5 hypotézu o shodě úrově citlivosti televizorů v jedotlivých podicích Výsledek: K-W test poskytl testovou statistiku 3,43, počet stupňů volosti =, odpovídající p-hodota =,165, tedy H zamítáme a asymptotické hladiě výzamosti,5 Liší se výrobky podiků a 3