Neparametrické testy (motto: Hypotézy jsou lešením, které se staví před budovu a pak se strhává, je-li budova postavena. Jsou nutné pro vědeckou práci, avšak skutečný vědec nepokládá hypotézy za předmětnou pravdu, podobně jako nelze pokládat lešení za stavbu samu. J. W. Goethe) 1. Příklad Následující tabulka udává region pijáka piva a preferenci pití piva točeného nebo z lahve. Posuďte na jejím základě, zdali existují rozdíly v preferenci pití piva (z plechovky nebo točeného) v různých částech země. Hladina významnosti je 10%. Vypočítejte míru těsnosti této závislosti. Sever Jih Západ Plechovka 300 190 60 Točené 200 110 40 χ 2 0,90[2] = 4,61; r = 2 (počet řádků), s = 3 (počet sloupců) W0,1 = [G 4,61] Sever Jih Západ Součty Plechovka 300 190 60 550 Točené 200 110 40 350 Součty 500 300 100 900 Sever Jih Západ Součty Plechovka 305.56 183.33 61.11 550 Točené 194.44 116.67 38.89 350 Součty 500 300 100 900 Sever Jih Západ Součty Plechovka 0.10 0.24 0.02 Točené 0.16 0.38 0.03 Součty G = 0.94 Nespadá do kritického oboru, nezamítáme nulovou hypotézu ve prospěch hypotézy alternativní, že existuje vztah mezi regionem a preferencí způsobu pití piva. G 0,94 C 0,032 n G 900,94 V G 0,94 0,032 nm ( 1) 900
2. Příklad Ve 12 supermarketech byl testován vliv způsobu vystavení zboží na jeho odbyt. Zboží bylo umístěno 2 různými způsoby (A a B), vždy v 6 supermarketech stejně a sledoval se počet prodaných kusů za určitou dobu. Rozhodněte pomocí testu, zda způsob umístění zboží statisticky významně ovlivňuje počet prodaných kusů na hladině významnosti 0,01. Zhodnoťte kvalitu vytvořeného modelu. A 42 46 37 48 53 92 B 104 79 122 115 71 89 H0: μ1 = μ2 (nezávislé) H1: non H0 (závislé) F0,99 [1; 10] = 10,044 W0,01 = {F 10,044} Tabulka se překopíruje do MS Excel. Následně je potřeba mít aktivován doplněk Analýza dat. K jeho aktivaci vede tento postup: Soubor Možnosti Doplňky Přejít Analytické nástroje (zaškrtnout) a OK. Doplněk se potom nachází v záložce Data vpravo. Volba, kterou z Analýzy dat použijeme je : jeden faktor. Do vstupní oblasti označíme data, pokud jsou přepsané přesně jako v zadání, tak je potřebujeme sdružit po řádcích. Pokud je v označených datech záhlaví, pak je potřeba zaškrtnout volbu Popisky. Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl A 6 318 53 394.4 B 6 580 96.66667 412.2667 Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 5720.333 1 5720.333 14.18264 0.003686 4.964603 Všechny výběry 4033.333 10 403.3333 Celkem 9753.667 11 F = 14,18 Spadá do kritického oboru, tedy zamítáme nulovou hypotézu, že jsou si střední hodnoty v jednotlivých skupinách rovny a tudíž způsob umístění neovlivňuje prodej, ve prospěch alternativní, že způsob prodeje ovlivňuje prodejnost.
Alternativní způsob jak vyhodnotit test je použít p-hodnotu. V tomto výstupu je označena jako Hodnota P. Platí, že jestliže p-hodnota α, pak nulovou hypotézu zamítáme. Zde je p-hodnota 0,0037, tj. je menší než hladina významnosti a nulovou hypotézu skutečně zamítáme. Síla závislosti je dána poměrem determinace P2 = Sy,m/Sy = 5 720,33/9 753,66 = 0,586480; znamená to, že model vysvětluje 58,65% variability sledované proměnné. 3. Příklad V souboru Vysledky máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. Výsledky: Sy.m = 95,11; Sy,v = 2197,93; Sy = 2293,04; F = 1,38; Hodnota P = 0,2521; na 25,21% a jakékoliv nižší hladině významnosti nemůžeme zamítnout nulovou hypotézu o rovnosti středních hodnot výsledků daných testů. 4. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Zdroj variability SS Rozdíl MS F Mezi výběry Všechny výběry 12 Hodnota P F krit Celkem 0.279 15 R-Square 0.587276 Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry S y,m k-1 S y,m /(k-1) F p-hodnota F 1-α (k-1; n-k) Všechny výběry S y,v n-k S y,v /(n-k) Celkem S y n-1
R-Square P 2 Doplněná tabulka: Zdroj variability SS Rozdíl MS F Hodnota P F krit Mezi výběry 0,164 3 0,0546 5,69? 3,49 Všechny výběry 0,115 12 0,0096 Celkem 0.279 15 R-Square 0.587276 Počet pokusů = n = 16 Počet typů benzínu = k = 4 Množství variability = R-square = 0,587276 W α = {F; F F 1-α } F 0,95 (3; 12) = 3,49 W 0,05 = {F;F 3,49} F = 5,69 F patří do kritického oboru, tudíž zamítáme nulovou hypotézu ve prospěch alternativní. Spotřeba závisí na typu benzínu. P-hodnotu neumíme v rámci kurzu dopočítat, ale byla by nižší než 0,05. Regrese 5. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y. Průměry X 1 1 2 2 3 3 4 4 5 5 6 6 3.50 Y 3 5 8 10 12 9 15 14 17 19 25 14 12.58 X*Y 3 5 16 20 36 27 60 56 85 95 150 84 53.08 X 2 1 1 4 4 9 9 16 16 25 25 36 36 15.17 53,08 3,5 12,58 b1 3,1 2 15,17 3,5
b0 12,58 3,1 3,5 1,73 Y = 1,73 + 3,1x Vyrovnané (= odhadnuté) hodnoty: X y 1 4.83 2 6.57 3 8.30 4 10.03 5 11.77 6 13.50 6. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady Cena 835 136 63 24 240 52 1005 143 184 42 213 43 313 67 658 106 195 61 545 99 a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Údaje přepíšeme do Excelu ve formátu tabulky jako je výše (tj. proměnné píšeme do sloupců). Následně v doplňku Analýza dat zvolíme možnost Regrese. Vstupní oblast Y má obsahovat hodnoty vysvětlované proměnné (zde Náklady) a vstupní oblast X má obsahovat hodnoty vysvětlujících proměnných (zde je jenom jedna a to Cena). Opět je třeba dávat pozor na popisky, tj. jestli ve vstupních oblastech jsou nebo nejsou popisky (záhlaví). Nic jiného není v rámci kurzu nutné nastavovat. Výstup je následující:
VÝSLEDEK Regresní statistika Násobné R 0.9847425 Hodnota spolehlivosti R 0.969717791 Nastavená hodnota spolehlivosti R 0.965932515 Chyba stř. hodnoty 58.59154118 Pozorování 10 Rozdíl SS MS F Významnost F Regrese 1 879463.1504 879463.15 256.18152 2.32776E-07 Rezidua 8 27463.74958 3432.9687 Celkem 9 906926.9 Koeficienty CHSH t Stat Hodnota P Hranice -160.346880 41.00253356-3.9106579 0.0044769 Cena 7.573698319 0.473188412 16.005672 2.328E-07 Ad a.) Y = - 160,35 + 7,57x Ad b.) F-test: Významnost F (p-hodnota) je 0,000000233, tj. menší než 0,05. Zamítáme nulovou hypotézu tohoto testu (vysvětlovaná proměnná nezávisí na žádné z vysvětlujících), což znamená, že má smysl se touto regresí dále zabývat. t-test: b0 Hodnota P (p-hodnota) je zde 0,00448, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy konstantu, která je bez proměnné) b1 Hodnota P (p-hodnota) je zde 0,000000233, tj. menší než hladina významnosti a zamítám nulovou hypotézu (že je parametr nulový). To znamená, že má smysl v modelu nechat příslušnou proměnnou (zde tedy cenu) Ad c.) R 2 = Hodnota spolehlivosti R = 0,9697 (Model vysvětluje 96,97 % variability vysvětlované proměnné, zde Nákladů) Ad d.) S každým tisícem dolarů, o který je dům dražší, stoupají odhadované náklady o 7,57 dolaru. Ad e.) Y = - 160,35+7,57*80 = 445,55