Neparametricke testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu. J. W. Goethe) 1. Příklad V předloňském semestru se zúčastnilo zkoušky z předmětu 4ST201 Statistika 1491 studentů, z nichž 7,5 % dostalo jedničku, 24,5 % dvojku, 37 % trojku a 31 % čtyřku nebo bylo omluveno. Z mých cvičení dostalo jedničku 6 studentů, dvojku 8 studentů, trojku 16 studentů a čtyřku nebo omluveno 10 studentů. Otestujte na 5% hladině významnosti tvrzení, že rozložení známek studentů z mých cvičení odpovídá celoškolskému rozložení známek. χ 2 0,95[3] = 7,81 W 0,05 = {G 7,81} G = 3,89 i ni Pii npii Rozdil 1 6 7,50% 3 3 2 8 24,50% 9,8 0,330612 3 16 37% 14,8 0,097297 4 10 31% 12,4 0,464516 40 3,892426 Nezamítáme H 0, nezamítli jsme tvrzení, že rozložení známek studentů z mých cvičení odpovídá celoškolskému rozložení známek. 2. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6 Zjistěte na 1% hladině významnosti, zda existuje statistická závislost mezi rodinným stavem ženicha a nevěsty. Vypočítejte míru těsnosti této závislosti.
Jedná se o obdobu Chí-kvadrát testu dobré shody, kde musíme porovnat tuto četnostní tabulku s hypotetickou četnostní tabulkou, jež představuje rozvrstvení těchto dvojic stavů za předpokladu, že jsou na sobě stav nevěsty a ženicha nezávislé. Svobodná 37 10 6 53 Rozvedená 8 12 8 28 Vdova 5 8 6 19 Celkem 50 30 20 100 Předchozí tabulka doplněná o součty. Nyní vytvoříme tabulku nezávislých četností. V každém políčku bude počet odpovídající násobku součtu příslušného řádku a sloupce dělený celkovým počtem sňatků. Pro dvojici SvobodnýXSvobodná tedy 53*50/100 = 26,5. Toto číslo odpovídá počtu sňatků svobodných, jestliže by tento počet nezávisel na jejich stavu. Nyní tedy: Svobodná 26,5 15,9 10,6 53 Rozvedená 14 8,4 5,6 28 Vdova 9,5 5,7 3,8 19 Celkem 50 30 20 100 Součtové řádky a sloupce se navzájem musí rovnat. Následuje výpočet samotné statistiky G, která je počítána stejně jako v předchozím příkladě, tedy čtverec rozdílu mezi skutečnou a teoretickou četností dělený teoretickou četností. Tyto jednotlivé mezivýpočty se sečtou a tento součet je hledanou hodnotou statistiky G. Příklad pro svobodné: (37 26,5) 2 /26,5 Svobodná 4,16 2,19 2,00 Rozvedená 2,57 1,54 1,03 Vdova 2,13 0,93 1,27 Celkem 17,82 G = 17,82 χ 2 0,99[4] = 13,3; r = 3 (počet řádků), s = 3 (počet sloupců) W 0,01 = [G 13,3] Spadá do kritického oboru, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi rodinným stavem nevěsty a ženicha. C = V =
3. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti. Sever Jih Západ Plechovka 300 190 60 Točené 200 110 40 χ 2 0,90[2] = 4,61; r = 2 (počet řádků), s = 3 (počet sloupců) W 0,1 = [G 4,61] Sever Jih Západ Součty Plechovka 300 190 60 550 Točené 200 110 40 350 Součty 500 300 100 900 Sever Jih Západ Součty Plechovka 305,55556 183,33333 61,111111 550 Točené 194,44444 116,66667 38,888889 350 Součty 500 300 100 900 Sever Jih Západ Plechovka 0,10101 0,242424 0,020202 Točené 0,15873 0,380952 0,031746 G= 0,935065 Nespadá do kritického oboru, nezamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi regionem a preferencí způsobu pití piva. C = V = 4. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za
určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu. H 0 : μ 1 = μ 2 A 42 46 37 48 53 92 B 104 79 122 115 71 89 H 1 : non H 0 F 0,99 [1; 10] = 10,044 W 0,01 = {F 10,044} Vnitroskupinový součet čtverců 4033, 33 1. skupina Čtvercová odchylka od průměru skupiny 2. skupina Čtvercová odchylka od průměru skupiny 42 121 104 53,77778 46 49 79 312,1111 37 256 122 641,7778 48 25 115 336,1111 53 0 71 658,7778 92 1521 89 58,77778 celkem 1972 2061,333 4033,333 průměr 53 96,66667 Meziskupinový součet čverců: Sy,m = 5 720,33 Průměry Čtvercová odchylka od průměru A 53 2860,167 B 96,66667 2860,167 Celkem 74,83333 5720,333
Celkový součet čtverců = 9753,66 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost. Síla závislosti je dána poměrem determinace P 2 = S y,m /S y = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné. V SAS: Znovu je potřeba vytvořit správně datový soubor v jednom sloupci zapíšeme všechny způsoby prodeje pro všechny napočítané hodnoty (tedy šestkrát A, šestkrát B). Ke každému ze způsobů do vedlejšího sloupce zapíšeme právě jedno množství prodaných výrobků. Nyní pokračujeme přes záložky Analyze ANOVA One-Way ANOVA. V Task Roles je Dependent Value (závislá proměnná) sloupec s množstvím prodaných kusů a Independent Value sloupec se způsobem prodeje. V zásadě nic více nepotřebujeme, můžeme si nechat například vyjet nějaký z grafů znázorňující rozdílné průměry ve skupinách. Ve výsledcích vidíme hodnoty Sum of Squares ty značí součty čtverců meziskupinový (Model) 5 720,33 a vnitroskupinový (Error) 4033,33. Celkem (Corrected Total) = 9753,66. DF značí stupně volnosti; F Value značí hodnotu testového kritéria F; Pr > F značí hladinu významnosti, na které je model označen jako významný ve smyslu zamítnutí nulové hypotézy. Na 5% hladině hypotézu zamítáme. R-Square je poměr determinace, množství variability vysvětlené modelem.