1. Příklad Byly sledovány rodinné stavy nevěst a ženichů při uzavírání sňatků a byla vytvořena následující tabulka četností. Stav Svobodný Rozvedený Vdovec Svobodná 37 10 6 Rozvedená 8 12 8 Vdova 5 8 6 Zjistěte na 1% hladině významnosti, zda existuje statistická závislost mezi rodinným stavem ženicha a nevěsty a to ručně i v SAS. Vypočítejte míru těsnosti závislosti. Jedná se o obdobu Chí-kvadrát testu dobré shody, kde musíme porovnat tuto četnostní tabulku s hypotetickou četnostní tabulkou, jež představuje rozvrstvení těchto dvojic stavů za předpokladu, že jsou na sobě stav nevěsty a ženicha nezávislé. Svobodná 37 10 6 53 Rozvedená 8 12 8 28 Vdova 5 8 6 19 Celkem 50 30 20 100 Předchozí tabulka doplněná o součty. Nyní vytvoříme tabulku nezávislých četností. V každém políčku bude počet odpovídající násobku součtu příslušného řádku a sloupce dělený celkovým počtem sňatků. Pro dvojici SvobodnýXSvobodná tedy 53*50/100 = 26,5. Toto číslo odpovídá počtu sňatků svobodných, jestliže by tento počet nezávisel na jejich stavu. Nyní tedy: Svobodná 26,5 15,9 10,6 53 Rozvedená 14 8,4 5,6 28 Vdova 9,5 5,7 3,8 19 Celkem 50 30 20 100 Součtové řádky a sloupce se navzájem musí rovnat.
Následuje výpočet samotné statistiky G, která je počítána stejně jako v předchozím příkladě, tedy čtverec rozdílu mezi skutečnou a teoretickou četností dělený teoretickou četností. Tyto jednotlivé mezivýpočty se sečtou a tento součet je hledanou hodnotou statistiky G. Příklad pro svobodné: (37 26,5) 2 /26,5 Svobodná 4,16 2,19 2,00 Rozvedená 2,57 1,54 1,03 Vdova 2,13 0,93 1,27 Celkem 17,82 G = 17,82 χ 2 0,99[4] = 13,3; r = 3 (počet řádků), s = 3 (počet sloupců) W 0,01 = [G 13,3] Spadá do kritického oboru, zamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi rodinným stavem nevěsty a ženicha. C = V = V SAS: Musíme nejdříve přenést data do nové tabulky tak, aby si s tím software poradil. Vytvoříme nová data (File New Data). V sloupci A rozepíšeme 3x každý stav ženicha (či nevěsty). V sloupci B rozepíšeme třikrát stav nevěsty (či ženicha) tak, abychom vytvořili všech 9 kombinací, které máme v naší kontingenční tabulce. Ve sloupci C vyplníme příslušné četnosti z kontingenční tabulky. Nyní se pustíme do výpočtu: Describe Table Analysis. V Task Roles pošleme proměnné A a B do skupiny Table variables a proměnnou C do Frequency Count. V záložce Tables zrekonstruujeme naší tabulku, tedy proměnnou A přetáhneme do hořejšího řádku a proměnnou B do levého sloupce. Takto máme vytvořenou tabulku. V záložce Cell Statistics si můžeme zvolit zobrazení různých mezivýpočtů, zrekonstruujeme nyní ty naše pomocí záložek: Cell frequencies, Cell contribution to Pearson chi-square a Expected cell frequency. V záložce Association zaškrtneme políčko Chi-square tests, díky tomu zjistíme hodnotu chí-kvadrát koeficientu i jeho p-value. Pak už stačí jenom Run a skouknout výsledky.
Vidíme hodnotu Chi-square 17,82 s Prob = 0,0013. Jelikož hodnota Prob je nižší než zvolená hladina významnosti, zamítáme nulovou hypotézu. Sloupec DF značí počet stupňů volnosti daného testu. C a V jsou dány jako Contingency Coefficient resp. Cramer s V. 2. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti. Sever Jih Západ Plechovka 300 190 60 Točené 200 110 40 V SAS: Chi-square test Prob = 0,6265, tj > 0,1, potom H 0 nezamítáme. Koeficient C i Cramerovo V = 0,322 3. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu. A 42 46 37 48 53 92 B 104 79 122 115 71 89 H 0 : μ 1 = μ 2 H 1 : non H 0 F 0,99 [1; 10] = 10,044 W 0,01 = {F 10,044} Vnitroskupinový součet čtverců 4033, 33
1. skupina Čtvercová odchylka od průměru skupiny 2. skupina Čtvercová odchylka od průměru skupiny 42 121 104 53,77778 46 49 79 312,1111 37 256 122 641,7778 48 25 115 336,1111 53 0 71 658,7778 92 1521 89 58,77778 celkem 1972 2061,333 4033,333 průměr 53 96,66667 Meziskupinový součet čverců: Sy,m = 5 720,33 Čtvercová odchylka Průměry od průměru A 53 2860,167 B 96,66667 2860,167 Celkem 74,83333 5720,333 Celkový součet čtverců = 9753,66 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost. Síla závislosti je dána poměrem determinace P 2 = S y,m /S y = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné. V SAS: Znovu je potřeba vytvořit správně datový soubor v jednom sloupci zapíšeme všechny způsoby prodeje pro všechny napočítané hodnoty (tedy šestkrát A, šestkrát B). Ke každému ze způsobů do vedlejšího sloupce zapíšeme právě jedno množství prodaných výrobků. Nyní pokračujeme přes záložky Analyze ANOVA One-Way ANOVA. V Task Roles je Dependent Value (závislá proměnná) sloupec s množstvím prodaných kusů a Independent Value sloupec se způsobem prodeje. V zásadě nic více nepotřebujeme, můžeme si nechat například vyjet nějaký z grafů znázorňující rozdílné průměry ve skupinách.
Ve výsledcích vidíme hodnoty Sum of Squares ty značí součty čtverců meziskupinový (Model) 5 720,33 a vnitroskupinový (Error) 4033,33. Celkem (Corrected Total) = 9753,66. DF značí stupně volnosti; F Value značí hodnotu testového kritéria F; Pr > F značí hladinu významnosti, na které je model označen jako významný ve smyslu zamítnutí nulové hypotézy. Na 5% hladině hypotézu zamítáme. R-Square je poměr determinace, množství variability vysvětlené modelem.