Vysoká škola ekonomická v Praze

Transkript

1 Vysoká škola ekonomická v Praze Fakulta informatiky a statistiky Studijní program: Kvantitativní metody v ekonomice Studijní obor: Statistické metody v ekonomii Autor bakalářské práce: Jakub Zajíček Vedoucí bakalářské práce: Mgr. Milan Bašta, Ph.D. NEPARAMETRICKÉ A PARAMETRICKÉ TESTY školní rok 2012/2013

2 Prohlášení Prohlašuji, že jsem bakalářskou práci zpracoval samostatně a že jsem uvedl všechny použité prameny a literaturu, ze kterých jsem čerpal. V Praze dne. podpis 2

3 Poděkování Úvodem bych rád poděkoval panu Mgr. Milanu Baštovi, Ph.D. za odborné vedení této bakalářské práce, za trpělivost, ochotu, cenné rady a připomínky k jejímu zpracování. 3

4 Abstrakt Bakalářská práce se zabývá testováním statistických hypotéz, konkrétně parametrickými a neparametrickými statistickými testy. Tato práce se skládá z teoretické a praktické části. Teoretická část obsahuje stručný úvod do problematiky testování hypotéz a popis nejpoužívanějších parametrických a neparametrických testů. Praktická část obsahuje příklady, které ilustrují možné použití uvedených testů v praxi a analýzu vlastností vybraných testů prostřednictvím Monte Carlo simulací. Cílem této analýzy je porovnání vlastností vybraného parametrického a neparametrického testu v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení populace. Klíčová slova: parametrické testy, neparametrické testy, validita, síla testu, Monte Carlo simulace Abstract The bachelor thesis deals with the statistical hypothesis testing, specifically with the parametric and non-parametric statistical tests. This thesis consists of a theoretical and a practical part. The theoretical part contains a brief introduction to the hypothesis testing and a description of the most used parametric and non-parametric tests. The practical part contains examples illustrating a possible use of these tests and the analysis of characteristics of the selected statistical tests. This analysis is performed through the Monte Carlo simulations. The aim of this analysis is to compare the characteristics of the selected parametric and non-parametric test in dependence on fulfilment or non-fulfilment of the normality assumption. Keywords: parametric tests, non-parametric tests, validity, power of a test, Monte Carlo simulation 4

5 Obsah Úvod Proces testování hypotéz Formulace hypotéz Volba testového kritéria Stanovení hladiny významnosti a sestrojení kritického oboru Hladina významnosti testu Síla testu Faktory ovlivňující sílu testu Výpočet testového kritéria Rozhodnutí P-hodnota Intervaly spolehlivosti Parametrické a neparametrické testy Parametrické testy Neparametrické testy Jednovýběrový t-test Jednovýběrový Wilcoxonův test Párový t-test Párový Wilcoxonův test Dvouvýběrový t-test Mann-Whitneyův test (U-test) Jednofaktová analýza rozptylu (F-test) Kruskal-Wallisův test (H-test) Další parametrické a neparametrické testy

6 3. Analýza vlastností vybraných statistických testů Monte carlo simulace Zkoumané vlastnosti testů Validita Síla testu Odhad směrodatné chyby odhadu Výsledky simulací a jejich popis Normální rozdělení Laplaceovo rozdělení Studentovo rozdělení Rovnoměrné rozdělení Shrnutí Závěr Seznam literatury Seznam internetových zdrojů Přílohy

7 Úvod Statistika bývá obecně dělena na statistiku deskriptivní a induktivní. Deskriptivní statistika, která slouží k úplnému popisu vlastností statistických populací, může být použita v situacích, kdy jsou k dispozici všechny prvky dané populace. V praktických aplikacích se však většinou pracuje s populacemi, které čítají řádově stovky a tisíce jednotek a vyčerpávající šetření by bylo velmi nákladné, někdy úplně nereálné. Pokud mají být vyvozovány závěry o vlastnostech takovýchto populací, je nutné využít induktivní statistiku, která pracuje pouze s výběrovými soubory. Jednou z nejpoužívanějších metod této induktivní (neboli matematické) statistiky je testování statistických hypotéz, které slouží k ověření předpokladů o vlastnostech populace na základě výběrového souboru. Toto testování je prováděno prostřednictvím statistických testů, které mohou být rozděleny na parametrické a neparametrické [2]. Právě těmito statistickými testy se bude tato práce zabývat. Bakalářská práce je rozdělena do tří kapitol. První kapitola se zabývá obecným popisem procesu testování hypotéz a vysvětlením základních pojmů s testováním hypotéz souvisejících. První kapitolu tak lze chápat jako čistě teoretickou. Ve druhé kapitole budou vybrané parametrické a neparametrické testy představeny, popsány a aplikovány na jednoduchých příkladech. Tato kapitola bude mít charakter jak teoretický, tak i praktický. Náplní třetí kapitoly, která představuje hlavní praktický přínos této práce, je analýza vlastností vybraného parametrického testu a jeho neparametrického protějšku v závislosti na tvaru pravděpodobnostního rozdělení výchozí populace. Tato analýza bude provedena prostřednictvím Monte Carlo simulací. Cílem této bakalářské práce je popis nejpoužívanějších parametrických a neparametrických testů a analýza vlastností vybraných testů. Při zpracování této bakalářské práce byl použit MS Excel a zejména pak statistický program R. Tento software byl použit ke tvorbě grafů prezentovaných v práci, k veškerým výpočtům a také k realizaci Monte Carlo simulací. 7

8 1. Proces testování hypotéz V této kapitole budou vysvětleny základní pojmy týkající se testování statistických hypotéz a bude zde popsán doporučovaný postup [3] tohoto testování. 1.1 Formulace hypotéz Prvním krokem v procesu testování hypotéz je formulace určitého předpokladu na základě praktického problému. Takový předpoklad se nazývá nulová hypotéza. Tato nulová hypotéza se týká určité populační vlastnosti a obecně je zapisována ve tvaru, kde je neznáma skutečná hodnota určitého populačního parametru a je jeho předpokládaná hodnota. Vedle nulové hypotézy musí být formulována alternativní hypotéza, která platnost nulové hypotézy popírá. Existují dva typy alternativních hypotéz - oboustranné alternativní hypotézy, které udávají, že hodnota parametru je jednoduše jiná než uvádí nulová hypotéza, a jednostranné alternativní hypotézy, které jsou tvrzením, že hodnota parametru je buďto menší (levostranné), nebo větší (pravostranné), než uvádí nulová hypotéza, resp.. Nulová hypotéza reprezentuje většinou nějaký standard nebo status quo. Jejím vyvrácením jsou tak prokázány určité změny. Nulovou hypotézu není možno testem prokázat. Může být pouze zamítnuta ve prospěch alternativy, nebo nezamítnuta. Nulová hypotéza není zamítána, pokud není testem prokázáno, že její platnost je výrazně v rozporu s údaji z výběrového souboru. 8

9 1.2 Volba testového kritéria Dalším krokem je volba testového kritéria. Existují stovky různých statistických testů a zvolit ten vhodný není vždy jednoduché. Statistické testy lze rozdělit na dvě hlavní skupiny testy parametrické a neparametrické. Častým předpokladem pro použití parametrických testů je normální rozdělení základního souboru. Pokud normalitu populace předpokládat nelze, může být žádoucí použití neparametrického testu. Popisem vybraných parametrických a neparametrických testů a jejich vzájemným srovnáním se bude tato práce zabývat v dalších kapitolách. Konkrétní test je volen na základě testované charakteristiky (test o střední hodnotě, o rozptylu atd.), předpokladů a vlastností daného testu. 1.3 Stanovení hladiny významnosti a sestrojení kritického oboru Množina hodnot, kterých může testové kritérium nabývat, je rozdělena na dvě disjunktní podmnožiny obor přijetí a kritický obor. Pokud bude hodnota testového kritéria spadat do oboru přijetí, nebude nulová hypotéza zamítnuta. Pokud bude hodnota testového kritéria spadat do kritického oboru, bude nulová hypotéza zamítnuta ve prospěch alternativy. Hranice mezi oborem přijetí a kritickým oborem je tvořena kritickými hodnotami. Při testování hypotéz se lze dopustit dvou druhů chyb. K chybě I. druhu dochází, pokud je na základě testu rozhodnuto zamítnout nulovou hypotézu, která ale ve skutečnosti platí. Pravděpodobnost chyby I. druhu je určena vzorcem ( ) (1.1) K chybě II. druhu dochází, pokud je na základě testu rozhodnuto nezamítnout nulovou hypotézu, která ale ve skutečnosti neplatí. Pravděpodobnost chyby II. druhu je určena vzorcem ( ) (1.2) 9

10 Tabulka 1.1: Chyby I. a II. druhu a jejich pravděpodobnosti závěr skutečnost je platná je platná nezamítáme správné rozhodnutí chyba II. druhu zamítáme chyba I. druhu správné rozhodnutí Pravděpodobnost chyby I. druhu Zdroj: [3], vlastní zpracování je označována jako hladina významnosti testu, pravděpodobnost jako koeficient spolehlivosti testu a pravděpodobnost jako síla testu. Je obtížné minimalizovat pravděpodobnosti obou chyb, protože zde existuje silný reciproční vztah mezi pravděpodobností a, kdy snížení jedné vyvolá zvýšení druhé. V praxi bývá předem pevně stanovena pravděpodobnost, tedy hladina významnosti testu. Pokud by byla stanovena pravděpodobnost chyby II. druhu, mohlo by dojít k situaci, že pravděpodobnost nesprávného zamítnutí nulové hypotézy bude neúměrně vysoká. Zamítnutí nulové hypotézy přitom mívá větší praktický dopad, protože tím dochází k popření určitého statu quo. 1.4 Hladina významnosti testu Stanovením hladiny významnosti je stanovena velikost kritického oboru. Ten bude tak velký, aby k chybě I. druhu docházelo jen s předem stanovenou pravděpodobností. Kritické hodnoty, které oddělují kritický obor a obor přijetí, jsou tvořeny kvantily pravděpodobnostního rozdělení zvoleného testového kritéria za platnosti. Za předpokladu, že testové kritérium má za platnosti nulové hypotézy normované normální rozdělení, tedy N(0,1), budou jednostranné kritické obory na hladině významnosti vypadat následovně. Pro levostranné alternativní hypotézy { } (1.3) kde je vypočítaná hodnota testového kritéria a je kvantil normovaného normálního rozdělení. 10

11 Pro pravostranné alternativní hypotézy bude mít kritický obor tvar { } (1.4) V případě oboustranné alternativní hypotézy je kritický obor určen podle vzorce { }. (1.5) 1.5 Síla testu Pravděpodobnost chyby II. druhu udává riziko, s jakým nedojde k zamítnutí nulové hypotézy, která ovšem ve skutečnosti neplatí. Pravděpodobnost neboli síla testu pak udává, s jakou pravděpodobností bude provedeno správné rozhodnutí. Obrázek 1.1: Grafická ilustrace síly testu Zdroj: [10], vlastní zpracování 11

12 Obrázek 1.1 znázorňuje situaci, kdy je testována nulová hypotéza o střední hodnotě populace s normálním rozdělením. Test hypotézy vypadá následovně,. Horní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za platnosti nulové hypotézy. Pokud bude v tomto případě hodnota výběrového průměru spadat do šedé výseče grafu, bude nulová hypotéza zamítnuta. Spodní graf zobrazuje pravděpodobnostní rozdělení výběrového průměru za předpokladu, že skutečná střední hodnota populace je, nikoliv jak říká nulová hypotéza. Pokud bude v tomto případě hodnota výběrového průměru spadat do žluté výseče grafu, bude nulová hypotéza správně zamítnuta. Pravděpodobnost správného zamítnutí nulové hypotézy je zobrazena žlutě a jedná se o sílu testu. Pravděpodobnost, že nulová hypotéza nebude zamítnuta, je zobrazena červeně. Červená část tak reprezentuje pravděpodobnost chyby II. druhu. 1.6 Faktory ovlivňující sílu testu - Skutečná velikost efektu Rozdíl mezi předpokládanou hodnotou parametru (tedy tou, která je uvedena v nulové hypotéze) a skutečnou hodnotou se nazývá skutečná velikost efektu. Čím je tato velikost větší, tím větší je ceteris paribus pravděpodobnost, že nulová hypotéza bude správně zamítnuta. S rostoucí skutečnou velikostí efektu tedy roste síla testu. - Hladina významnosti Čím menší hladina významnosti bude zvolena, tím menší bude ceteris paribus kritický obor a zamítnutí nulové hypotézy bude méně pravděpodobné. Existuje tak i menší pravděpodobnost, že neplatná nulová hypotéza bude správně zamítnuta. S klesající hladinou významnosti klesá síla testu. 12

13 - Rozsah výběru Se zvyšujícím se rozsahem výběrového souboru klesá směrodatná chyba odhadu daného parametru. Čím menší chybou bude pozorování zatíženo, tím větší bude ceteris paribus síla testu [10]. Obecně je za nejdůležitější faktor ovlivňující sílu testu považován rozsah výběru. Přestože zde mohou existovat ekonomické bariéry (vyšší náklady), může být optimální rozsah výběru jednoduše stanoven. Dále je nutno rozlišovat mezi statistickou a praktickou významností. Pokud bude proveden výběr o neúměrně velkém rozsahu, bude síla testu sice vysoká, ale každý byť prakticky nevýznamný efekt povede k zamítnutí nulové hypotézy. Naopak při neúměrně malém výběru může být i prakticky významný efekt považován za statisticky nevýznamný. Na obrázku 1.1 byla síla testu vypočítána a posteriori, při známém rozsahu výběru a skutečné velikosti efektu. Síla testu může být stanovena také a priori, a při určení prakticky významného efektu, hladiny významnosti a odhadu směrodatné odchylky, může být použita k určení minimálního rozsahu výběru. Za dostatečnou sílu testu se obecně považuje síla testu větší než 0,8 [10]. Například pokud je testována hypotéza o střední hodnotě populace, která je normálně rozdělena a její rozptyl je známý, bude minimální rozsah výběru vypočítán podle vzorce [( ) ] (1.6) kde je směrodatná odchylka a rozdíl udává hodnotu prakticky významného efektu. 1.7 Výpočet testového kritéria Nyní je proveden náhodný výběr, který obsahuje pozorování o hodnotách. Z těchto výběrových hodnot jsou vypočítány statistiky nezbytné pro výpočet testového kritéria. Tyto statistiky jsou v případě parametrických testů většinou bodovými odhady sledovaných populačních parametrů. V případě neparametrických testů se jedná většinou o pořadové charakteristiky. Výpočet konkrétního testového kritéria je proveden na základě vzorce pro daný test, do kterého jsou dosazeny požadované charakteristiky výběrového souboru. 13

14 1.8 Rozhodnutí Výsledná hodnota testového kritéria je porovnána s oborem přijetí a kritickým oborem. Pokud bude spadat do oboru přijetí, nebude nulová hypotéza zamítnuta. Pokud bude náležet do kritického oboru, bude nulová hypotéza zamítnuta. 1.9 P-hodnota Rozhodnutí může být také provedeno na základě p-hodnoty. P-hodnota je pravděpodobnost, že testové kritérium nabude vypočítané hodnoty (nebo hodnoty ještě extrémnější) za platnosti nulové hypotézy. Například p-hodnota testu o střední hodnotě, kdy výběr pochází z normálního rozdělení a alternativní hypotéza je oboustranná, bude vypočítána podle vzorce ( ( )), (1.7) kde ( ) je hodnota distribuční funkce daného rozdělení testového kritéria za platnosti v bodě, což je hodnota testového kritéria. Přístup, kdy dochází k rozhodnutí na základě p-hodnoty, je velmi podobný jako výše popsaný klasický přístup k testování hypotéz. V případě použití tohoto konceptu není konstruován kritický obor. Po vypočítání testového kritéria je určena jeho p-hodnota a porovnáním se zvolenou hladinou významnosti je provedeno rozhodnutí o nulové hypotéze. Pokud je p-hodnota menší než zvolená hladina významnosti, je nulová hypotéza zamítnuta. Naopak, pokud je p-hodnota větší než, nebude nulová hypotéza zamítnuta Intervaly spolehlivosti Intervaly spolehlivosti jsou s testováním hypotéz velmi úzce spjaty. Pokud bude pro hodnotu populačního parametru sestaven ( ) interval spolehlivosti, bude tento interval představovat množinu všech hodnot parametru stanoveného v nulové hypotéze, pro které nebude nulová hypotéza zamítnuta. 14

15 Například v případě testu o střední hodnotě, kdy výběr pochází z normálního rozdělení se známým rozptylem, by vypadal interval spolehlivosti s koeficientem spolehlivosti následovně ( ) (1.8) Bude-li hodnota parametru stanovená v nulové hypotéza spadat do intervalu spolehlivosti, nebude tato hypotéza zamítnuta. Naopak, pokud bude spadat mimo tento interval, bude nulová hypotéza zamítnuta. Statistický test je prováděn s cílem zamítnout či nezamítnout stanovenou nulovou hypotézu. Výstupem testu je hodnota testového kritéria nebo p-hodnota. Tyto hodnoty se však vztahují pouze ke stanovené nulové hypotéze. Naproti tomu interval spolehlivosti podává informaci o možných hodnotách parametru na základě pořízeného výběru. Je z něj ihned patrné, jakých hodnot může na určité hladině významnosti sledovaný parametr nabývat, bez nutnosti předem stanovovat různé hypotézy. Statistický test by tak měl být, pokud je to možné, doplněn intervalem spolehlivosti. V případě některých neparametrických testů je konstrukce intervalu spolehlivosti poměrně náročná, někdy zcela nemožná. 15

16 2. Parametrické a neparametrické testy V této kapitole budou představeny nejpoužívanější parametrické testy a jejich neparametrické alternativy. Pro potřeby této bakalářské práce budou detailněji popsány pouze testy o střední hodnotě, které jsou nejpoužívanější. U každého z těchto testů budou uvedeny základní předpoklady, jejichž naplnění podmiňuje korektnost testu. Dále budou popsány výpočetní principy, na základě kterých jsou jednotlivé testy realizovány. Jednotlivé testy budou aplikovány na jednoduchých příkladech, které budou ilustrovat jejich možné použití v praxi. Zadání těchto příkladů bylo vytvořeno autorem této bakalářské práce. 2.1 Parametrické testy Parametrické testy jsou skupinou statistických testů, které předpokládají určité pravděpodobnostní rozdělení základního souboru. Ve většině případů se jedná o předpoklad o normálním rozdělení populace. Pokud je předpoklad o tvaru rozdělení splněn, slouží parametrické testy k ověření hypotéz o parametrech populačních rozdělení, ze kterých byl pořízen výběrový soubor. Nejčastěji se testované hypotézy týkají dvou parametrů, a to střední hodnoty a rozptylu. Tyto parametry jsou zpravidla neznámé, protože většinou je nemožné získat všechna data ze sledované populace. Parametry dané populace jsou proto odhadovány na základě bodových odhadů, které jsou konstruovány pro různá rozdělení různě. Pokud je předpoklad o tvaru rozdělení výrazně porušen, nemusí být použití parametrického testu úplně korektní a může být žádoucí využití testu neparametrického [7]. 2.2 Neparametrické testy Hlavní odlišností neparametrických testů ve srovnání s testy parametrickými je, že nepředpokládají specifické populační rozdělení. Neodhadují totiž populační parametry, které jsou závislé na tvaru rozdělení, ale slouží k ověření nulových hypotéz týkajících se např. mediánu populace nebo tvaru pravděpodobnostního rozdělení. Jsou tedy používány např. v případech, kdy nemůže být rozdělení populace považováno za normální, například kvůli silné šikmosti indikující existenci odlehlých hodnot, a zejména v situacích, kdy jsou k dispozici pouze nenormální výběry malého rozsahu [1]. Pokud však normalita populace není výrazně porušena, je preferován parametrický test, neboť se vyznačuje vyšší silou [7]. 16

17 Použití neparametrických testů je dále nezbytné v případech, kdy mají výběrová data ordinální charakter, což vyplývá z výpočetního principu těchto testů, který bude ilustrován níže. 2.3 Jednovýběrový t-test Tento test slouží k testování hypotéz o střední hodnotě populace s použitím jednoho náhodného výběru v případě, že směrodatná odchylka populace není předem známa. Skupina t-testů (ve všech svých modifikacích) tak představuje jedny z nejpoužívanějších statistických testů. Svůj název získal test podle pravděpodobnostního rozdělení testového kritéria, kterým je za platnosti nulové hypotézy Studentovo neboli rozdělení. Jediným parametrem tohoto rozdělení jsou stupně volnosti. Stupně volnosti jsou určovány rozsahem výběru. Graf 2.1: Hustoty pravděpodobnosti normovaného normálního rozdělení a Studentova rozdělení s různými stupni volnosti f(x) t (1) t (3) t (8) t (30) N (0,1) x Platí, že čím vyšší je, tím je Studentovo rozdělení bližší normovanému normálnímu rozdělení. Studentovo rozdělení se používá pro náhodné výběry o rozsahu menším než 30. Pro rozsáhlejší výběry ( ) je rozdělení téměř identické jako normované normální rozdělení. Lze tedy rovnou použít kvantily normovaného normálního rozdělení. 17

18 Předpoklady - jednotlivá pozorování mají charakter alespoň intervalových proměnných - výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá - populace je normálně rozdělena (tento předpoklad je nutný zejména pro rozsah výběru ) Princip testu Testuje se nulová hypotéza říkající, že se střední hodnota základního souboru rovná určité zvolené hodnotě.,. Střední hodnota populace je odhadnuta výběrovým průměrem (2.1) kde jsou hodnoty jednotlivých pozorování a je rozsah výběru. Směrodatná odchylka populace je odhadnuta výběrovou směrodatnou odchylkou ( ) (2.2) Výpočet testového kritéria T je proveden podle vzorce (2.3) Pokud je absolutní hodnota testového kritéria větší než kritická hodnota testu, která je rovna ( ) kvantilu Studentova rozdělení o stupních volnosti, je nulová hypotéza na hladině významnosti zamítnuta. Kritický obor tedy vypadá následovně { ( )} (2.4) 18

19 Příklad č. 1 Hmotnost výrobku vyráběného strojem by měla být 200g. Z dokončené šarže bylo náhodně vybráno 12 výrobků, které byly pečlivě zváženy. Na 5% hladině významnosti je potřeba ověřit, zda stroj skutečně vyrábí výrobky požadované hmotnosti. V tabulce 2.1 jsou uvedeny hmotnosti jednotlivých výrobků v gramech. Tabulka 2.1: Data k příkladu č. 1 výrobek (i) hmotnost (x i ) 196,9 201, ,3 199,8 203,4 207,1 202,2 199,7 201,9 204,2 198,6 Řešení Před samotným testováním je vhodné ověřit předpoklad normality. Ten bude ověřován pomocí Q-Q grafu, který porovnává výběrové kvantily s teoretickými kvantily normálního rozdělení. Graf 2.2: Q-Q graf zkonstruovaný na základě dat k příkladu Normal Q-Q Plot Sample Quantiles Theoretical Quantiles Z grafu 2.2 vyplývá, že výběr byl pořízen z populace s normálním rozdělením. Předpoklad normality tak lze považovat za splněný a k ověření hypotéz může být využit t-test. 19

20 Cílem je otestovat nulovou hypotézu,. Nejprve jsou vypočítány nezbytné statistiky výběrový průměr a výběrová směrodatná odchylka. Jejich hodnoty jsou následující Poté je vypočítáno testové kritérium 2,313. Hodnota testového kritéria je větší než kvantil rozdělení s stupni volnosti, jehož hodnota se rovná. Nulová hypotéza je v tomto případě zamítnuta. Stejné rozhodnutí vyplývá z p-hodnoty testu, která je a také z intervalu spolehlivosti pro střední hodnotu hmotnosti v populaci, který je Test odhalil statisticky významný rozdíl mezi předpokládanou a skutečnou hmotností výrobků. 2.4 Jednovýběrový Wilcoxonův test Pokud nemůže být předpoklad o normalitě základního souboru považován za splněný, může být žádoucí využití neparametrické obdoby t-testu, kterou je jednovýběrový Wilcoxonův test. Ten slouží k ověření hypotézy, že pravděpodobnostní rozdělení populace je symetrické kolem určitého bodu. Bod je tak za platnosti nulové hypotézy mediánem tohoto rozdělení. Předpoklady - jednotlivá pozorování mají charakter alespoň ordinálních proměnných - výběr je proveden náhodně a jednotlivá pozorování jsou vzájemně nezávislá - výběr musí obsahovat minimálně 6 pozorování (pro menší výběry nemohou být na hladině významnosti definovány kritické hodnoty) - rozdělení sledované proměnné v populaci je symetrické 20

21 Princip testu Testuje se hypotéza, že mediánem populace je zvolená hodnota.,. Prvním krokem je zavedení nové proměnné, jejíž hodnoty jsou definovány vztahem (2.5) Pokud se rovná nule, je pozorování z výpočtu vyřazeno. Jednotlivé hodnoty jsou poté seřazeny podle absolutní velikosti ( ) ( ) ( ). (2.6) Každé hodnotě je přiřazeno číslo, které označuje jeho pořadí. Pořadím čísla se nazývá počet těch čísel,,, která jsou menší nebo rovna číslu. Pokud jsou jednotlivé hodnoty shodné, je celkové pořadí těchto hodnot určeno průměrem jejich jednotlivých pořadí. Dále jsou vypočítány veličiny a (2.7) Testové kritérium ve tvaru ( ) je porovnáno s tabelovanou kritickou hodnotou pro jednotlivé rozsahy výběru [1]. Pokud je hodnota testového kritéria menší nebo rovna tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velká lze využít testovou statistiku ( ) ( )( ) (2.8) která má za platnosti nulové hypotézy asymptoticky rozdělení ( ). Kritický obor v tomto případě využívá kvantilů normovaného normálního rozdělení { }. (2.9) 21

22 Wilcoxonův test není prováděn přímo na základě zjištěných hodnot, jako je tomu u parametrických testů, ale na základě jejich pořadových charakteristik. Proto je vhodný také pro ordinální data, u kterých sice nelze určit o kolik je jedna hodnota větší než druhá, ale lze určit jejich pořadí. Je evidentní, že pokud bude například kladných odchylek výrazně více (nebo budou výrazně větší) než záporných, nebude taková populace symetricky rozdělena okolo určeného bodu a tento bod tak nebude mediánem rozdělení. Výsledkem testu v takovém případě bude nízká hodnota veličiny, což povede k zamítnutí nulové hypotézy. Obrázek 2.1: Grafická ilustrace použití jednovýběrového Wilcoxonova testu Červená čísla označují pořadí absolutních hodnot. Veličina v tomto případě nabývá hodnoty, přičemž kritická hodnota pro na hladině významnosti je [1]. Nulová hypotéza, která by tvrdila, že mediánem rozdělení je bod, by byla na hladině významnosti zamítnuta. Test by prokázal, že prvky sledované proměnné nejsou v populaci symetricky rozděleny kolem bodu. Tento bod by tak nebyl mediánem rozdělení. Příklad č. 2 Zákazníci měli ohodnotit zakoupený výrobek body 1 až 10. Náhodně bylo vybráno 15 hodnocení. Jsou-li zákazníci s výrobkem spokojeni, měl by medián hodnocení být alespoň 5. Test bude proveden na hladině významnosti 5%. V tabulce 2.2 jsou zobrazena jednotlivá hodnocení. Tabulka 2.2: Data k příkladu č. 2 zákazník (i) body (x i )

23 Řešení Sledovaná proměnná má ordinální charakter, proto bude použit Wilcoxonův jednovýběrový test. Cílem je otestovat hypotézu o populačním mediánu ve tvaru,. Tabulka 2.3: Rozšíření tabulky 2.2 o hodnoty veličiny a pořadí zákazník (i) body (x i ) y i R i , ,5 6 Byly vypočítány následující hodnoty veličin a Alternativní hypotéza je jednostranná a říká, že medián populace je větší než udává nulová hypotéza. V takovém případě bude s kritickou hodnotou porovnána statistika. Kritická hodnota pro je [1]. Protože hodnota není menší než, nebude nulová hypotéza zamítnuta. Přibližná p-hodnota tohoto testu je. Testem se tedy nepodařilo prokázat, že by medián hodnocení výrobku byl větší než. Nelze tak tvrdit, že by zákazníci byli s výrobkem nadprůměrně spokojeni. 2.5 Párový t-test Párový test je zvláštním případem dvouvýběrového testu, kdy je proveden jeden nezávislý výběr, na kterém je zkoumána stejná veličina (nebo dvě velmi podobné), za dvou různých okolností. Může se tak jednat například o porovnání reakční doby stejných řidičů v ranních a večerních hodinách. Nejčastěji se párový test používá pro analýzu sledované veličiny před určitým jevem a po něm, například reakce pacientů na léčbu. Jednotlivé objekty výběru jsou nezávislé, ale dvojice veličin měřených na těchto objektech jsou vzájemně závislé. Z důvodu této závislosti mohou být měření v rámci jednotlivých objektů spárována. Cílem testu je podat informaci o tom, zda mezi těmito dvojicemi hodnot existuje statisticky významný rozdíl. V praxi se opět nejčastěji využívá parametrický t-test. 23

24 Předpoklady - jednotlivá pozorování mají charakter alespoň intervalových proměnných - výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé - párové diference jsou normálně rozdělené (tento předpoklad je nutný zejména pro rozsah výběru ) Princip testu Testuje se nulová hypotéza o rozdílu středních hodnot obou pozorování, který je roven. Ve většině případů je voleno. Testuje se tak hypotéza, že mezi středními hodnotami dvojic pozorování neexistuje statisticky významný rozdíl.,. Principem párového t-testu je zavedení nové proměnné, která popisuje rozdíl mezi jednotlivými páry. Touto úpravou se z dvourozměrného problému stává problém jednorozměrný. Párový t-test je tak výpočetně proveden stejně jako jednovýběrový t-test pouze s využitím jiné proměnné. Nejprve jsou vypočítány jednotlivé hodnoty párových diferencí podle vzorce (2.10) kde je první hodnota i-tého objektu a je druhá hodnota i-tého objektu. Výběrový průměr párových diferencí je vypočítán podle vzorce (2.11) Dále je vypočítána výběrová směrodatná odchylka těchto diferencí ( ) (2.12) Tyto výběrové statistiky jsou dosazeny do vzorce pro výpočet testového kritéria (2.13) 24

25 Absolutní hodnota testového kritéria je porovnána s ( ) kvantilem Studentova rozdělení o stupních volnosti. Pokud je hodnota testového kritéria větší než tento kvantil, je nulová hypotéza na hladině významnosti zamítnuta. Kritický obor tedy vypadá následovně { ( )} (2.14) Příklad č. 3 Závodníci testovali dva typy lyží tak, že sjeli stejný kopec jednou na lyžích A a jednou na lyžích B. Cílem testu je odpovědět na otázku, zda existuje statisticky významný rozdíl mezi těmito dvěma typy lyží na hladině významnosti 5%. V tabulce 2.4 jsou uvedeny časy (v sekundách) jednotlivých závodníků, kterých dosáhli s různými lyžemi. Tabulka 2.4: Data k příkladu č. 3 závodník (i) lyže A (x 1,i ) 53,2 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 lyže B (x 2,i ) 50,2 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,2 52,9 55,2 Řešení Nejprve byly vypočítány jednotlivé párové diference. Tabulka 2.5: Tabulka 2.4 rozšířena o hodnoty párových diferencí závodník (i) lyže A (x 1,i ) 53,2 55,7 59,6 52,8 58,9 54,4 50,1 76,3 56,1 52,5 53,5 lyže B (x 2,i ) 50,3 54,8 63,4 49,5 55,6 56,2 47,9 54,5 53,3 52,9 55,2 rozdíl d i 2,9 0,9-3,8 3,3 3,3-1,8 2,2 21,8 2,8-0,4-1,7 25

26 Graf 2.3: Q-Q graf párových diferencí Normal Q-Q Plot Sample Quantiles Theoretical Quantiles Zdroj: Vlastní zpracování Z grafu 2.3 je patrné, že předpoklad normality je splněn. Pouze jedna hodnota se vyznačuje svou odlehlostí a normalitu porušuje. Protože odlehlé hodnoty mohou výrazně ovlivnit výsledek testu, mělo by být toto odlehlé pozorování, ke kterému došlo u 8. závodníka, vyřazeno. Velmi vysoký rozdíl mezi jednotlivými časy (více než šestinásobný oproti druhému největšímu rozdílu) byl pravděpodobně způsoben chybou závodníka v první jízdě a ne rozdílností lyží. Po vyřazení této odlehlé hodnoty z výběru může být proveden t-test. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou časů.,. Nejprve byl vypočítán výběrový průměr párových diferencí a jejich výběrová směrodatná odchylka. Hodnoty těchto statistik jsou následující. Poté bylo vypočítáno testové kritérium, které má hodnotu. 26

27 Po porovnání hodnoty testového kritéria s kvantilem rozdělení s stupni volnosti, jehož hodnota je, je rozhodnuto nulovou hypotézu nezamítat. Ke stejnému rozhodnutí dochází na základě p-hodnoty testu, která je, nebo podle intervalu spolehlivosti pro párovou diferenci, který je. Na základě získaných dat nelze zamítnout nulovou hypotézu o nulovém rozdílu mezi středními hodnotami obou naměřených časů. Přestože s lyžemi B dosahovali závodníci o něco lepších časů, nejedná se v tomto případě o statisticky významný rozdíl. 2.6 Párový Wilcoxonův test Neparametrickým protějškem k párovému t-testu je párový Wilcoxonův test. Předpoklady - výběr je proveden náhodně a jednotlivé objekty jsou vzájemně nezávislé - párové diference jsou symetricky rozdělené - jednotlivá pozorování mají charakter alespoň intervalových proměnných. Na rozdíl od jiných neparametrických testů, které umí pracovat i s ordinálními proměnnými, je v tomto případě použití alespoň intervalových proměnných nezbytné. Mezi jednotlivými páry musí být totiž vypočítán rozdíl a ten u ordinálních proměnných určit nelze. Princip testu Cílem testu je ověření nulové hypotézy o mediánu populace párových diferencí,. Stejně jako u párového t-testu jsou i v tomto případě nejdříve určeny párové diference (2.15) 27

28 Protože v nulové hypotéze ve většině případů figuruje jako u jednovýběrového testu, neboť ta by byla ve tvaru, není nutné zavádět veličinu (2.16) Jednotlivé hodnoty seřazeny podle své absolutní velikosti (podle vzorce 2.6). Každé hodnotě je přiřazeno pořadí. Poté jsou vypočítány veličiny (2.17) Testové kritérium ve tvaru ( ) je porovnáno s tabelovanou kritickou hodnotou pro jednotlivé rozsahy výběru [1]. Pokud je hodnota testového kritéria menší nebo rovna tabelované kritické hodnotě, je nulová hypotéza zamítnuta. Pro velký rozsah výběru lze testové kritérium aproximovat s využitím normovaného normálního rozdělení, podle vzorce (2.8). Příklad č. 4 Účastníkům vzdělávacího kurzu byly předloženy dva testy. Jeden řešili na začátku kurzu a druhý poté, co kurz absolvovali. Firma chce tímto způsobem získat informace o praktické přínosnosti svých kurzů. Cílem testu bude na 5% hladině významnosti zjistit, zda existuje statisticky významný rozdíl mezi bodovým ziskem z obou testů. Náhodně bylo vybráno 16 účastníku, jejichž výsledky byly porovnány. V tabulce 2.6 jsou uvedeny výsledky (v %), kterých jednotliví účastníci dosáhli Tabulka 2.6: Data k příkladu č. 4 účastník (i) test (x 1,i ) test (x 2,i )

29 Řešení Nejprve bude ověřen předpoklad normality populace párových diferencí. Graf 2.4: Q-Q graf párových diferencí Normal Q-Q Plot Sample Quantiles Theoretical Quantiles Z grafu 2.4 vyplývá, že populace nemá normální rozdělení. Rozdělení populace je evidentně leptokurtické. Předpoklad normality je v tomto případě porušen, proto bude použit neparametrický Wilcoxonův párový test. Cílem je otestovat hypotézu o nulovém mediánu populace párových diferencí.,. Tabulka 2.7: Tabulka 2.6 rozšířena o hodnoty párových diferencí a jejich pořadí účastník (i) test (x 1,i ) test (x 2,i ) rozdíl d i R i 9, , , , Poté byly vypočítány veličiny a. Jejich hodnoty jsou následující 29

30 Testové kritérium má v tomto případě hodnotu. Protože kritická hodnota pro výběr o rozsahu je [1], je nulová hypotéza na hladině významnosti zamítnuta. Stejné rozhodnutí je provedeno i na základě přibližné p-hodnoty testu, která je. Testem se podařila prokázat statisticky významná přínosnost kurzu. Až na jedinou výjimku došlo u všech absolventů kurzu ve výběru ke zlepšení. Lze tedy odhadovat, že se zlepšila také naprostá většina všech absolventů kurzu. 2.7 Dvouvýběrový t-test Dvouvýběrový t-test je používán v případech, kdy jsou provedeny dva nezávislé výběry ze dvou různých populací. Cílem tohoto testu je odhalit existenci statisticky významného rozdílu mezi středními hodnotami obou populací. Předpoklady - jednotlivá pozorování mají charakter alespoň intervalových proměnných - jednotlivá pozorování jsou vzájemně nezávislá - jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé - obě populace jsou normálně rozdělené (tento předpoklad je nutný zejména pro výběry o rozsahu ) - obě populace mají stejný, nebo velmi podobný rozptyl Princip testu Testují se stejné hypotézy jako v případě párového t-testu, tedy,. Jsou provedeny dva nezávislé výběry. První výběr představuje veličina z ( ) o rozsahu. Druhý výběr je představován veličinou z ( ) o rozsahu. Je tedy patrné, že není nutné, aby byl rozsah obou výběrů stejný. 30

31 Testové kritérium je vypočítáno podle vzorce ( ) ( ) ( ) (2.18) kde a jsou výběrové průměry jednotlivých výběrů vypočítané podle vzorce (2.1) a jsou rozptyly jednotlivých výběrů. Ty jsou vypočítány podle vzorce a ( ) (2.19) Absolutní hodnota testového kritéria je porovnána s ( ) kvantilem Studentova rozdělení o stupních volnosti. Kritický obor tedy vypadá následovně { ( )} (2.20) Pokud není splněn předpoklad o shodnosti rozptylů obou populací, je používána modifikace dvouvýběrového t-testu, kterou je Welchův t-test. Příklad č pacientů s nadváhou bylo náhodně rozděleno na dvě části, přičemž prvních 13 pacientů dodržovalo po dobu dvou měsíců dietu A a dalších 12 pacientů dietu B. Cílem testu je na 5% hladině významnosti určit, zda existuje statisticky významný rozdíl mezi oběma dietami. Tabulka 2.8 obsahuje váhové úbytky (v kg) jednotlivých pacientů. Tabulka 2.8: data k příkladu č. 5 pacient (i) dieta A (x i ) 4,8 8,7 6 7,3 8,1 5,9 3,9 6,4 10,1 5,5 6,8 8,5 7,2 pacient (i) dieta B (y i ) 8,4 6,9 10,9 8,3 6,5 10,4 9,8 12,1 8,1 7,8 9,7 8,8 31

32 Řešení Normalita obou populací je patrná z grafu 2.5. Graf 2.5: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot Normal Q-Q Plot Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Výběrové směrodatné odchylky obou výběrů jsou velmi podobné Oba předpoklady pro použití dvouvýběrového t-testu jsou v tomto případě splněny. Cílem je otestovat nulovou hypotézu o rovnosti středních hodnot obou váhových úbytků.,. Výběrové průměry obou veličin jsou následující Byla vypočítána hodnota testového kritéria. 32

33 kvantil rozdělení s stupni volnosti má hodnotu. Protože je absolutní hodnota testového kritéria větší než kritická hodnota, je na hladině významnosti nulová hypotéza zamítnuta. P-hodnota testu je. Dvouvýběrový t-test potvrdil existenci statisticky významného rozdílu mezi efektem těchto dvou diet. 2.8 Mann-Whitneyův test (U-test) Pokud je předpoklad normality základního souboru výrazněji porušen, nebo mají-li data charakter ordinálních proměnných, je používána neparametrická obdoba dvouvýběrového t-testu. Tou je Mann-Whitneyův test, také známý jako Mann-Whitneyův U test. Předpoklady - jednotlivá pozorování mají charakter alespoň ordinálních proměnných - jednotlivá pozorování jsou vzájemně nezávislá - jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé Princip testu Mann-Whittneyův test slouží k ověření nulové hypotézy o shodnosti rozdělení obou populací., Jsou provedeny dva nezávislé výběry. První výběr představuje veličina o rozsahu a druhý výběr veličina o rozsahu. Ani u tohoto testu tedy není nutné, aby měly oba výběry stejný rozsah. Jednotlivé absolutní hodnoty obou pozorování jsou uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí. Pro jednotlivé výběry je nejprve vypočítán součet pořadí jednotlivých absolutních hodnot (2.21) 33

34 Poté jsou zvlášť pro každý výběr vypočítány statistiky ( ) ( ) (2.22) Testové kritérium ve tvaru ( ) je porovnáno s tabelovanou kritickou hodnotou [1]. Pokud je hodnota testového kritéria menší (nebo rovna) než kritická hodnota, je nulová hypotéza zamítnuta. Pro výběry o velkém rozsahu ( kritérium ) je možné použít testové ( ) (2.23) které má za platnosti nulové hypotézy asymptoticky normované normální rozdělení. Pokud hodnota testového kritéria spadá do kritického oboru { } (2.24) je nulová hypotéza na hladině významnosti zamítnuta. Příklad č. 6 Náhodně bylo vybráno 16 pracujících obyvatel dvou českých měst a byly srovnány jejich hrubé měsíční mzdy. Cílem testu je určit, zda existuje statisticky významný rozdíl ve struktuře mezd v těchto městech. Test bude proveden na 5% hladině významnosti. V tabulce 2.9 jsou uvedeny měsíční mzdy (v Kč) jednotlivých obyvatel. Tabulka 2.9: Data k příkladu č. 6 obyvatel (i) Praha (x i ) obyvatel (i) Ostrava (y i )

35 Řešení Graf 2.6: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot Normal Q-Q Plot Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Z grafu 2.6 vyplývá, že populace nemají normální rozdělení. Z důvodu nesplnění předpokladu normality bude k řešení příkladu využit Mann-Whitneyův test. Tabulka 2.10: Tabulka 2.9 rozšířena o pořadí jednotlivých hodnot obyvatel (i) Praha (x i ) R i obyvatel (i) Ostrava (y i ) R i Hodnoty výběrových statistik jsou následující Hodnota testového kritéria je tedy. Protože kritická hodnota pro výběr o rozsahu je [1], je na hladině významnosti nulová hypotéza zamítnuta. P-hodnota testu je. Z výsledků vyplývá, že rozdělení obou populací jsou různá. Mezi mzdovou strukturou v Praze a Ostravě tak existuje statisticky signifikantní rozdíl. 35

36 2.9 Jednofaktová analýza rozptylu (F-test) V případech, kdy je testována hypotéza o rovnosti 3 a více středních hodnot, není možné použít t-test. Namísto něj je používána jednofaktorová analýza rozptylu, známější pod názvem jednofaktorová ANOVA (z anglického ANalysis Of VAriance). V praxi se ANOVA používá zejména v situacích, kdy je posuzován vliv určitého faktoru na sledovanou veličinu. Předpoklady - jednotlivá pozorování mají charakter alespoň intervalových proměnných - jednotlivá pozorování ve všech výběrech jsou vzájemně nezávislá - jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé - jednotlivé výběry pocházejí z normálně rozdělených populací (tento předpoklad je nutný zejména pro rozsah jednotlivých výběrů ) - rozptyly jednotlivých výběrů je možno považovat za shodné Princip testu Testuje se nulová hypotéza o rovnosti středních hodnot ve všech alternativní hypotéze, že se alespoň jedna střední hodnota od ostatních liší. populacích proti,, kde jsou střední hodnoty jednotlivých populací. Jednotlivé naměřené hodnoty by měly být před samotným testováním pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Tabulka 2.11: Vhodné uspořádání jednotlivých hodnot výběr (i) hodnoty (y ij ) četnost (n i ) 1 y 11 y 12 y 1n1 n 1 2 y 21 y 22 y 1n2 n 2 k y k1 y k2 y knk n k Zdroj: [1], vlastní zpracování 36

37 Jak již bylo naznačeno, ověření hypotézy o rovnosti středních hodnot je provedeno na základě porovnání rozptylů. To je prováděno pomocí F-testu, který je v případě ANOVY používán k porovnání meziskupinové a vnitroskupinové variability. Testové kritérium je vypočítáno podle vzorce (2.25) kde je meziskupinová variabilita, je vnitroskupinová variabilita, je celkový počet naměřených hodnot a je počet výběrů. Meziskupinová a vnitroskupinová variabilita (neboli součet čtverců) je získána rozkladem celkové variability podle vzorce ( ) ( ) (2.26) kde jsou jednotlivé naměřené hodnoty a je výběrovým průměrem těchto hodnot. je výběrový průměr hodnot v -tém výběru a je rozsah -tého výběru. Vnitroskupinová variabilita popisuje kolísání hodnot okolo průměru v rámci jednotlivých skupin, které je způsobeno neznámými a náhodnými vlivy. Meziskupinová variabilita popisuje rozdíly průměrů jednotlivých skupin od celkového průměru a měří tak vliv posuzovaného faktoru. Hodnota testového kritéria je porovnána s ( ) kvantilem F rozdělení se stupni volnosti a na zvolené hladině významnosti. Kritický obor tedy vypadá následovně { ( )}. (2.27) Příklad č. 7 Náhodně bylo vybráno 24 zaměstnanců těžební firmy pracujících v trojsměnném provozu. Cílem testu je určit na 5% hladině významnosti, zda existuje závislost mezi výkonností dělníků a směnou, ve které pracují. V tabulce 2.11 je zobrazena výkonnost jednotlivých dělníků měřena indexem výkonnosti, kde stanovená norma =

38 Tabulka 2.12: Data k příkladu č. 6 směna (i) výkonnost (y ij ) četnost (n i ) ranní odpolední noční Řešení Graf 2.7: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot Normal Q-Q Plot Normal Q-Q Plot Sample Quantiles Theoretical Quantiles Theoretical Quantiles Theoretical Quantiles Z grafu 2.7 je patrné, že všechny tři výběry byly pořízeny z populací, které jsou normálně rozdělené. Výběrové směrodatné odchylky jednotlivých výběrů jsou následující Rozptyly jednotlivých výběrů tak lze považovat za shodné. Všechny předpoklady F-testu jsou splněny. Příklad tak bude vyřešen aplikací metody ANOVA. Nejprve byla vypočítána meziskupinová a vnitroskupinová variabilita Poté bylo vypočítáno testové kritérium 38

39 Protože kvantil F-rozdělení se stupni volnosti a má hodnotu, je nulová hypotéza na 5% hladině významnosti zamítnuta. P-hodnota testu je. Test prokázal statisticky významnou závislost výkonnosti dělníků na době směny Kruskal-Wallisův test (H-test) Pokud je testována hypotéza o rovnosti 3 a více středních hodnot, a pokud je předpoklad normality nebo shodnosti rozptylů výrazně porušen, nemusí být použití F-testu správné a může být žádoucí využití jeho neparametrické obdoby. Vhodnou neparametrickou alternativou je v tomto případě Kruskal-Wallisův test. Ten bude použit také v situacích, kdy mají sledované proměnné ordinální charakter. Předpoklady - jednotlivá pozorování mají charakter alespoň ordinálních proměnných - jednotlivá pozorování ve všech výběrech jsou vzájemně nezávislá - jednotlivé výběry jsou provedeny náhodně a jsou vzájemně nezávislé - jednotlivé výběry obsahují alespoň 5 pozorování Princip testu Stejně jako v případě ANOVY by měly být jednotlivé naměřené hodnoty pro přehlednost uspořádány do tabulky (viz tabulka 2.11). Testuje se nulová hypotéza říkající, že všechny výběry pocházejí z totožných populací proti alternativě, že alespoň jeden výběr pochází z odlišné populace.,. Jedná se tak o stejný princip jako u Mann-Whitneyova testu rozšířený na situace, kdy je porovnáváno výběrů. Stejně jako u Mann-Whitneyova testu jsou jednotlivé absolutní hodnoty všech pozorování uspořádány vzestupně (podle vzorce 2.6), bez ohledu na to, ze kterého výběru pocházejí. Každé absolutní hodnotě je přiřazeno pořadí. 39

40 Pro jednotlivé výběry je vypočítán součet pořadí (2.28) kde je rozsah -tého výběru. Testové kritérium je vypočítáno podle vzorce ( ) ( ) (2.29) kde je celkový počet pozorování a je počet výběrů. Za platnosti nulové hypotézy má testové kritérium asymptoticky rozdělení o stupních volnosti. Hodnota testového kritéria je porovnána s ( ) kvantilem rozdělení s stupni volnosti na hladině významnosti. Kritický obor tedy vypadá následovně { ( )}. (2.30) Příklad č. 8 Z řešitelů testu inteligence bylo náhodně vybráno 27 osob, které byly rozděleny do čtyř skupin podle věku. Na 5% hladině významnosti má být proveden test hypotézy o existenci statisticky významné závislosti mezi velikostí IQ a věkem. V tabulce 2.13 jsou uvedeny jednotlivé zjištěné hodnoty IQ. Tabulka 2.13: Data k příkladu č. 8 věk (i) hodnocení (x ij ) četnost (n i )

41 Řešení Graf 2.8: Q-Q grafy jednotlivých výběrů Normal Q-Q Plot Normal Q-Q Plot Sample Quantiles Sample Quantiles Sample Quantiles Sample Quantiles Theoretical Quantiles Theoretical Quantiles Z grafu 2.8 je patrné, že výběry nepocházejí z normálně rozdělených populací. K řešení příkladu tak bude z důvodu silného porušení normality využit Kruskal Wallisův test. Tabulka 2.14: Tabulka 2.13 rozšířena o pořadí naměřených hodnot skupina (i) hodnocení (x ij ) četnost (n i ) A (20-29) R A B (30-39) R B C (40-49) R C D (50-59) R D

42 Byly vypočteny následující hodnoty statistik které byly použity k výpočtu testového kritéria. Hodnota testového kritéria je větší než hodnota kvantilu rozdělení se stupni volnosti, který má hodnotu. P-hodnota testu je. Na hladině významnosti je tak nulová hypotéza zamítnuta. Výsledkem Kruskal-Wallisova testu je tvrzení, že mezi hodnotou IQ a věkem existuje statisticky významná závislost Další parametrické a neparametrické testy Vedle testů o střední hodnotě, kterými se tato kapitola detailně zabývala, existují ještě další skupiny testů. Jsou to například tyto. Testy o rozptylu Mezi parametrické testy o rozptylu patří test o rozptylu, pomocí kterého jsou testovány hypotézy, že rozptyl základního souboru je roven určité hodnotě. Pro testování hypotéz o shodě rozptylů dvou populací, je používán F-test. Bartlettovým testem jsou pak testovány hypotézy o shodně rozptylů v výběrech. Neparametrickým testem o rozptylu je například Siegel-Tukeyho test, který slouží k testování hypotéz o shodě rozptylů dvou populací [4]. Testy o rozdělení populace Tyto testy se používají zejména k testování nulových hypotéz, které předpokládají, že populace má pravděpodobnostní rozdělení určitého typu. Například, že je rozdělena normálně. Mezi nejpoužívanější testy z této skupiny patří test dobré shody, Kolmogorov-Smirnovův test pro jeden výběr nebo Shapiro-Wilkův test. Tyto uvedené testy jsou neparametrické. 42

43 3. Analýza vlastností vybraných statistických testů V předchozí kapitole bylo uvedeno několik obecných předpokladů, jejichž splnění je pro použití jednotlivých testů nezbytné. Jedná se zejména o předpoklad o normálním rozdělení populace, který je uveden u všech zmíněných parametrických testů. V předchozí kapitole bylo také uvedeno několik obecných doporučení ohledně vhodnosti použití parametrických a neparametrických testů (v oddílech 2.1 a 2.2). Jedná se zejména o tato dvě doporučení, která se v literatuře vyskytují nejčastěji: 1. Neparametrické testy jsou používány, pokud jsou k dispozici pouze výběry o malém rozsahu, které pocházejí z výrazně nenormálních rozdělení [např. 1, 7]. 2. Pokud není předpoklad normality výrazně narušen, jsou používány parametrické testy, protože jsou v těchto situacích silnější [např. 7, 11]. Náplní této kapitoly je porovnání vlastností vybraného parametrického testu a jeho neparametrické obdoby v závislosti na splnění, či nesplnění předpokladu o normálním rozdělení výchozí populace a také ověření výše uvedených obecných doporučení. Analyzovány budou vlastnosti jednovýběrového t-testu a jednovýběrového Wilcoxonova testu. Tyto testy jsou v praktických aplikacích hojně využívány zejména v podobě párových testů, které zkoumají vliv určitého jevu na sledovanou veličinu v případech, kdy byl pořízen jeden náhodný výběr z dvourozměrného rozdělení. Párové testy, podrobně popsané v kapitole 2.5 a 2.6, jsou výpočetně prováděny stejně jako testy jednovýběrové. 3.1 Monte carlo simulace Aby mohly být vyvozeny obecné závěry o vlastnostech jednotlivých statistických testů, je potřeba, aby byly provedeny řádově tisíce náhodných výběrů, které budou následně podrobeny testování. Tento rozsáhlý počet výběrů bude realizován pomocí Monte Carlo simulací. Podstatou metody Monte Carlo je v tomto případě generování náhodných čísel z určeného pravděpodobnostního rozdělení. Takto generovaná čísla vytvoří náhodný výběr o zadaném počtu pozorování. Celkem bude pro dané vstupní parametry provedeno vždy takových výběrů. 43

Zobrazit více