Neparametricke testy (motto: An unsophisticated forecaster uses statistics as a drunken man uses lamp-posts - for support rather than for illumination. Andrew Lang) 1. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd) Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Source DF Sum of Squares Mean Square F Value Pr > F Model Error 12 Corrected Total 15 0,27900000 R-Square Coeff Var Root MSE B Mean 0,587276 1,623170 0,097958 6,035000 Source DF Sum of Squares Mean Square F Value Pr > F Model 3 0,16385 0,0546 5,69 Error 12 0,11515 0,0096 Corrected Total 15 0,27900000 R-Square Coeff Var Root MSE B Mean 0,587276 1,623170 0,097958 6,035000 Model DF = CT DF Error DF = 15 12 = 3 Model SoS = CT SoS * R-Square = 0,279*0,587276 = 0,16385 Error SoS = CT SoS Model SoS = 0,279 0,16385 = 0,11515 Model MS = 0,16385/3 = 0,0546 Error MS = 0,11515/12 = 0,0096 F Value = Model MS/Error MS = 0,0546/0,0096 = 5,69 CT DF = n 1 = 15.. n =16 Model DF = k 1 = 3. k = 4
R-Square = 0,587276 Kritický obor testu je dán kritickou hodnotou F 1-α [k-1; n-k] = F 0,95 [3; 12] = 3,59. Testové kritérium překračuje kritickou hodnotu. Regrese 2. Příklad Odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x (ručně, SAS) a zapište pro dané hodnoty x vyrovnané hodnoty y. y = 1,733 + 3,1x X 1 1 2 2 3 3 4 4 5 5 6 6 Y 3 5 8 10 12 9 15 14 17 19 25 14 x y y 1 4 4,833 2 9 7,933 3 10,5 11,033 4 14,5 14,133 5 18 17,233 6 19,5 20,333 První sloupec udává průběh podmíněných průměrů (vždy průměr těch y, které byly naměřené při dané hodnotě x). Druhý sloupec udává průběh funkce y = b 0 + b 1 x. Ruční výpočet: 3. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545 Cena 136 24 52 143 42 43 67 106 61 99 a. Modelujte závislost nákladů na údržbu na ceně regresní přímkou. b. Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05). c. Zhodnoťte kvalitu modelu pomocí koeficientu determinace. d. Interpretujte věcně hodnotu regresního koeficientu b 1. e. Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. File New Data (Finish) y = - 160,35 + 7,5737x Pr > F = <.0001; tedy je menší než 0,05 model jako celek má smysl (alespoň jedna proměnná je významně odlišná od nuly) Pr > t = 0,0045 resp. <.0001; tedy je menší než 0,05 jak proměnná b0, tak b1 jsou významně odlišné od nuly a mají v modelu smysl. Koeficient determinace = R 2 = R-square = 0,9697. 96,97% celkové variability je vysvětleno tímto modelem. S každým tisícem dolarů, o který je dům dražší, stoupají roční náklady na údržbu o 7,5737 dolarů Doplněním: y = -160,35 + 7,5737*80 = 445, 56 dolarů. 4. Příklad Máte tento výstup ze SAS modelující závislost mezi mediánem ceny domu v Bostonu (v tis. dolarech) a počtem pokojů:
Analysis of Variance Source DF Sum ofmean F Value Pr > F Squares Square Model 1 Error 504 Corrected Total 505 42716 Root MSE 6.61616 R-Square 0.4835 Dependent Mean 22.53281 Adj R-Sq 0.4825 Coeff Var 29.36234 Parameter Estimates Variable DF Parameter Standard t Value Pr > t Estimate Error Intercept 1-34.67062 2.64980 Rooms 1 9.10211 0.41903 a. Dopočítejte teoretický a reziduální součet čtverců. b. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. c. Vypočítejte mediánovou cenu domu s 5 pokoji. Teoretický součet čtverců Model SoS. = R 2 *Total SoS = 0,4835*42716 = 20653 Reziduální součet čtverců Error SoS = Total SoS Model SoS = 42716 20653 = 22063 F test F = 471,79 F 0,99 [1;504] = 6,635 { } Spadá do kritického oboru, zamítáme nulovou hypotézu, že se všechny proměnné rovnají nule. Prokázali jsme, že alespoň jedna proměnná v modelu je statisticky významně odlišná od nuly. t-testy t = t 0,99 [504] = 2,457 (přibližně, hodnota pro t[30]) { } Obě hodnoty padají do kritického oboru, tedy zamítáme pro oba parametry nulovou hypotézu, že se jeho hodnota rovná nule. Prokázali jsme, že na hladině významnosti 0,1 jsou parametry b 0 a b 1 statisticky významně odlišné od nuly. y = -34,67062 + 9,10211*5 = 10,84. Mediánová cena domu s pěti pokoji v Bostonu je 10 840 dolarů. 5. Příklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti. (Stahovani Auta) Rychlost (km/h) 40 50 60 70 80 90 100 110 Spotřeba (l/100 km) 5,7 5,4 5,2 5,2 5,8 6 6,8 8,1 a. Vyrovnejte data regresní přímkou a regresní parabolou. b. Ověřte kvalitu modelů na hladině významnosti 0,05 a porovnejte je. c. Ověřte význam kvadratického členu v modelu paraboly na hladině významnosti 0,01. d. Proveďte odhad spotřeby při rychlosti 80km/h.
přímka: y = 3,63 + 0,0319x parabola: y = 9,76 0,14845x + 0,00120x 2 Pro vytvoření paraboly je potřeba vytvořit kromě proměnných y a x ještě proměnnou x 2, jejíž hodnoty získáme umocněním hodnot x. Následně do modelu zařadíme jako vysvětlující proměnné x i x 2. Pro porovnávání kvality modelů užíváme upravený koeficient determinace, který najdeme v řádku Adj R-Sq. Pouze pokud bychom jej neměli, užívali bychom čistý koeficient determinace (R-Square) Přímka: 0,5652 Parabola: 0,9772 Model paraboly vysvětluje mnohem více z celkové variability vzhledem k množství užitých proměnných (tj. upravený koeficient determinace je vyšší) než model přímky, je tudíž považován za užitečnější. t-test pro proměnnou x 2 vychází příznivě (Pr > t = 0,0001, což je méně než 0,01) y = 9,76 0,14846*80 + 0,00120*80 2 = 5,5632 6. Příklad Sestrojte regresní model závislosti pracovní neschopnosti (v procentech pracovních dní za rok) na průměrném věku zaměstnanců a podílu žen (v procentech) na celkovém počtu zaměstnanců v podnicích určitého odvětví. Neschopnost Průměrný věk Podíl žen 3.1 35 40 4.0 33 44 3.5 42 40 3.0 34 38 1.9 40 30 2.0 36 32 2.5 40 35 3.0 38 36 3.5 32 40 2.5 40 35 a. Ověřte vhodnost zařazení proměnných do modelu na hladině významnosti 0,05. b. Odhadněte parametry lineární regresní funkce a tuto zapište. c. Posuďte kvalitu modelu. d. Odhadněte roční procento pracovní neschopnosti v podniku s průměrným věkem zaměstnanců 39 let, kde pracuje 42% žen. Do vysvětlujících proměnných se zařadí obě dvě uvažované proměnné. Vzniká model: y = -3,40695 + 0,01006x 1 + 0,16040x 2. Dle t-testů do modelu nepatří proměnná x 1. Adj. R-Sq = 0,9358. Upravíme model tak, že proměnnou x 1 vyřadíme. y = -2,88125 + 0,15625x 2 T-testy i F-test vychází v pořádku. Adj. R-Sq = 0,9416. Model je dokonce možno považovat za kvalitnější z hlediska vysvětlené variability v poměru k počtu zařazených proměnných. R-Square = 0,9481. Tento model vysvětluje celkem 94,81% celkové variability, testy parametrů taky vycházejí v pořádku. Předchozí model vysvětloval 95,01% celkové variability, ale jednalo se o statisticky neprůkazný model, větší podíl vysvětlené variability je způsoben zařazením dalších proměnných. Teoreticky lze zařazením libovolných (!) dodatečných proměnných nakonec vysvětlit 100% variability (stačí mít tolik proměnných, kolik je pozorování), ale kvalita takovéhoto modelu by zjevně byla nulová. Proto se pro hodnocení užívá Adj R-Sq. d.) y = -2,88125 + 0,15625*42 = 3,68125. Opět je potřeba být opatrný při hodnocení schopnosti modelu předvídat, protože tvrdí, že při nulovém podílu žen by průměrná pracovní neschopnost byla záporná, což je logický nesmysl. 7. Příklad Máme k dispozici měření hmotnosti dětí a počtu jejich bodů za diktát.
Student 1 2 3 4 5 6 7 8 9 10 Hmotnost 20 24 31 35 39 43 45 48 52 53 Počet bodů 34 36 38 42 45 48 51 55 58 62 a. Změřte těsnost lineární závislosti mezi počtem bodů za diktát a hmotností dětí. b. Otestujte na 5% hladině významnosti, zde je tato závislost statisticky významná. Uvažujte nad tím, zda-li můžeme určit směr závislosti a použít případně regresní funkci. Ručně: V SAS: Analyze Multivariate Correlations Jedna proměnná jako Analysis Variables, druhá jako Correlate with. Potom Run. Vidíme hodnotu koeficientu (0,97546) i příslušného testu (<.0001), tedy se jedná o statisticky významnou lineární závislost. Ručně: t = ; proti t 0,975 [8] = 2,306. Spadá do kritického oboru, tudíž zamítáme nulovou hypotézu, která tvrdí, že korelační koeficient je roven nule. Prokázali jsme, že je statisticky významně odlišný od nuly. Je logicky nesmyslné, aby počet bodů z diktátu závisel na hmotnosti. Jedná se ve skutečnosti o tzv. falešnou korelaci, kdy obě proměnné závisí na proměnné třetí, zde neuvažované, a tou je věk testovaných dětí. Ne každá korelace je tudíž důkazem závislosti (!) a už vůbec nic neříká o směru této závislosti.