1. Příklad U 12 studentů jsme sledovali počet dosažených bodů na závěrečném testu (od 0 do 60). Vždy 4 z těchto studentů chodili k jednomu ze 3 cvičících panu Kubovi, panu Kubinovi, nebo panu Kubinčákovi. Má osoba cvičícího vliv na počet dosažených bodů u závěrečného testu? Jaká je těsnost závislosti? Cvičící Kuba Kubina Kubinčák 53 42 39 Body u závěrečného 47 48 46 testu 55 48 39 50 50 43 H 0 : μ 1 = μ 2 = μ 3 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Kuba 4 205 51,25 12,25 Kubina 4 188 47 12 Kubinčák 4 167 41,75 11,58333 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 181,1667 2 90,58333 7,583721 0,011737 4,256495 Všechny výběry 107,5 9 11,94444 Celkem 288,6667 11 F 7,58 F( k 1; n k) ; (2;9) F 4, 26; 4, 26 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 0,0117 p-hodnota = 0,0117 < α = 0,05 ->zamítám H 0, přijímám H 1, na 5% hladině významnosti (ale na 1% bychom nezamítali). 2 181,167 Intenzita závislosti P 0,628. 62,8 % variability počtu bodů je vysvětlitelné cvičícím. 288,667
2. Příklad V souboru Vysledky máte k dispozici kompletní výsledky čtyř variant prvního průběžného testu z loňského. Otestujte v Excelu hypotézu, že varianta vybraného testu ovlivňuje bodový výsledek studenta. Zhodnoťte kvalitu vytvořeného modelu. H 0 : μ 1 = μ 2 = μ 3 = μ 4 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Adamek 30 450 15 22,41379 Barunka 17 236 13,88235 36,36029 Jiricek 32 412 12,875 12,69355 DetinskeKol 21 266 12,66667 28,63333 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 95,10863 3 31,70288 1,3847 0,252143 2,699393 Všechny výběry 2197,931 96 22,89512 Celkem 2293,04 99 F 1,14 F( k 1; n k) ; (3;96) F 2,70; 2,70 W F F F krit W F 1 F W ; H nezamítám, H nepřijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 0,252143 p-hodnota = 0,252143 < α = 0,05 -> nezamítám H 0, nepřijímám H 1, na 5% hladině významnosti. Intenzita závislosti testu. 2 95,109 P 0,041. 4,1 % variability počtu bodů je vysvětlitelné variantou 2293,04 3. Příklad V následující tabulce jsou vybrané údaje z provedené analýzy rozptylu. Jednalo se o test, zda-li se liší spotřeba automobilu při použití různých typů benzínu. Doplňte tabulku a zjistěte z ní následující údaje: Počet celkových pokusů (testovacích jízd)
Počet testovaných typů benzínu Množství variability vysvětlené modelem Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? Zdroj variability SS Rozdíl MS F Mezi výběry S y.m k - 1 S y.m /(k - 1) MS(MV/MS(VV) Všechny výběry S y.v n - k S y.v /(n - k) P F krit p- hodnota F 1-α (k - 1; n - k) Celkem S y n - 1 R-Square P 2 = S y.m /S y Zdroj variability SS Rozdíl MS F P Mezi výběry 0,164 3 0,164/3=0,055 0,055/0,010=5,5??? Všechny 0,115/12=0,01 výběry 0,115 12 0 F krit F 0,95 (3; 12) = 3,49 Celkem 0,279 15 R-Square 0,587276 S y.m = P 2 * S y = 0,279 * 0,587276 = 0,164 S y.v = S y - S y.m = 0,279-0,164 = 0,115 Počet celkových pokusů (testovacích jízd) n - 1 = 15 -> n = 16
Počet testovaných typů benzínu k - 1 = 3 -> k = 4 Množství variability vysvětlené modelem P 2 = 0,587276 -> 58,7 % Liší se statisticky významně (na hladině významnosti 0,05) spotřeba automobilu v závislosti na typu benzínu? H 0 : μ 1 = μ 2 = μ 3 = μ 4 (nezávislost) F 5,5 F( k 1; n k) ; (3;12) F 3, 49; 3, 49 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti 4. Příklad Existuje závislost hodnocení filmu na serveru www.csfd.cz na jeho žánru? Testujte na 5% hladině významnosti a posuďte těsnost testované závislosti. Žánr Hodnocení Komedie 87 87 84 74 81 Akční 62 64 70 58 67 Drama 83 91 84 79 88 H 0 : μ 1 = μ 2 = μ 3 (nezávislost) Anova: jeden faktor Faktor Výběr Počet Součet Průměr Rozptyl Komedie 5 413 82,6 29,3 Akční 5 321 64,2 21,2 Drama 5 425 85 21,5 Zdroj variability SS Rozdíl MS F P F krit Mezi výběry 1294,933 2 647,4667 26,97778 3,63E-05 3,885294 Všechny výběry 288 12 24 Celkem 1582,933 14
F 26,98 F( k 1; n k) ; (2;12) F 3,89; 3,89 W F F F krit W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = " P" = 3,63*10-5 = 0,000036 p-hodnota = 0,000036 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. Intenzita závislosti žánrem. 2 1294,93 P 0,818. 81,8 % variability hodnocení filmu je vysvětlitelné jeho 1582,93 5. Příklad V souboru STA2-04 máte k dispozici na Listu 2 údaje o věku a hmotnosti vybraných dětí. Sestrojte regresní funkci ve smyslu podmíněných průměrů hmotnosti v závislosti na věku. Věk Střední hodnota výšky při daném věku 1 72,66667 2 88 3 99,5 4 105 5 108 6 118,5 7 121,25 V Excelu -> seřadit tabulku podle věku a pak počítat průměry výšky pro daný věk. Nebo použít funkci AVERAGEIF(oblast; kritérium; oblast pro průměr) Odhadněte hodnoty regresní přímky této regresní funkce přímo z celých dat. Posuďte kvalitu modelu pomocí indexu determinace a F-testu. Pomocí Analýza dat -> Regrese; X - věk, Y - výška VÝSLEDEK Regresní statistika Násobné R 0,963509739 spolehlivosti R 0,928351017 Nastavená hodnota spolehlivosti R 0,924370518 Chyba stř. hodnoty 4,645221891 Pozorování 20
Rozdíl SS MS F Významnost F Regrese 1 5032,544444 5032,544444 233,2248 9,54218E-12 Rezidua 18 388,4055556 21,57808642 Celkem 19 5420,95 Koeficienty Chyba stř. hodnoty t Stat P Hranice 71,63888889 2,216981861 32,31370095 2,15E-17 Věk (roky) 7,477777778 0,48964938 15,27169864 9,54E-12 Regresní funkce: Y = 71,639 + 7,478x Index determinace: 2 5032,54 R 0,928 92,8 % variability výšky je vysvětlitelné věkem. 5420,95 F-test: H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde výška nezávisí na věku) F 233,22 F( p 1; n p) ; (1;18) 4, 41; 4, 41 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 9,54*10-12 = 0,00000000000954 p-hodnota = 0,00000000000954 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. 6. Příklad Na základě tabulky zapište regresní funkci jako funkci podmíněných průměrů, dále odhadněte parametry lineární regresní funkce (přímky) popisující závislost y na x a zapište pro dané hodnoty x vyrovnané hodnoty y. X 1 1 2 2 3 3 4 4 5 5 6 6 Y 3 5 8 10 12 9 15 14 17 19 25 14 Průměry x 1 1 2 2 3 3 4 4 5 5 6 6 3,5 y 3 5 8 10 12 9 15 14 17 19 25 14 12,583 x*y 3 5 16 20 36 27 60 56 85 95 150 84 53,083 x 2 1 1 4 4 9 9 16 16 25 25 36 36 15,1671
xy x y 53,083 3,5 12,583 b1 3,1 2 2 2 x x 15,167 3,5 b0 y b1x 12,583 3,1 3,5 1,733 Y = 1,733 + 3,1*x Vyrovnané hodnoty (odhady z regresní funkce): x 1 2 3 4 5 6 Y 4,833 7,933 11,03 14,13 17,23 20,33 7. Příklad V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tis. dolarů). Náklady 835 63 240 1005 184 213 313 658 195 545 Cena 136 24 52 143 42 43 67 106 61 99 Regresní statistika Násobné R 0,984743 spolehlivosti R 0,969718 Nastavená hodnota spolehlivosti R 0,965933 Chyba stř. hodnoty 58,59154 Pozorování 10 Rozdíl SS MS F Významnost F Regrese 1 879463,1504 879463,1504 256,1815 2,32776E-07 Rezidua 8 27463,74958 3432,968698 Celkem 9 906926,9 Koeficienty Chyba stř. hodnoty t Stat P Hranice -160,3468801 41,00253356-3,910657858 0,004477 Cena 7,573698319 0,473188412 16,0056716 2,33E-07 a.) Modelujte závislost nákladů na údržbu na ceně regresní přímkou. y - náklady; x - cena Y = - 160,35 + 7,57x b.) Ověřte pomocí testu, zda se jedná o významnou závislost (α = 0,05).
H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde náklady nezávisí na ceně) F 256,18 F( p 1; n p) ; (1;8) 5,32; 5,32 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti Alternativně: p-hodnota = "Významnost F" = 2,33*10-7 = 0,000000233 p-hodnota = 0,000000233 < α = 0,05 -> zamítám H 0, přijímám H 1, na 5% hladině významnosti. c.) Zhodnoťte kvalitu modelu pomocí koeficientu determinace. 2 879463 R 0,97 97 % variability nákladů na údržbu je vysvětlitelné cenou domu. 906927 d.) Interpretujte věcně hodnotu regresního koeficientu b1. b 1 = 7,57 znamená, že když se x zvýší o 1, y vzroste o 7,57, tedy věcně: když se cena domu v modelu zvýší o 1 000 dolarů, vzrostou náklady na údržbu o 7,57. e.) Odhadněte střední hodnotu nákladů u domů za 80 tis. dolarů. Y = - 160,35 + 7,57*80 = 445,55 8. Příklad Máte tento výstup z Excelu modelující závislost mezi cenou domu (v tis. dolarech) a počtem pokojů:
Regresní statistika Násobné R spolehlivosti R Nastavená hodnota spolehlivosti R Chyba stř. hodnoty Pozorování R (vícenásobný korelační koeficient) 2 ST R S Y R 2 ADJ MSE n Rozdíl SS MS F Významnost F Regrese p - 1 S T S t /(p - 1) MS(Reg)/MS(Rez) p-hodnota Rezidua n - p S R S r /(n - p) Celkem n - 1 S y Koeficienty Chyba stř. hodnoty t Stat P Hranice b 0 s(b 0 ) b 0 /s(b 0 ) p-hodnota x b 1 s(b 1 ) b 1 /s(b 1 ) p-hodnota a. Dopočítejte teoretický a reziduální součet čtverců. S T = R 2 *S Y = 0,791*8 997 200 000 = 7 116 785 200 S T = S Y - S T = 8 997 200 000-7 116 785 200 = 1 880 414 800 b. Vypočítejte hodnoty testových kritérií pro celkový F-test a jednotlivé t-testy, proveďte dané testy na 1% hladině významnosti. H 0 : β 0 = c, β 1 = 0 (y nezávisí na žádné z vysvětlujících proměnných x; zde cena nezávisí počtu pokojů) 7116785200 F 1 68,12 1880414800 F( p 1; n p) 18 ; (1;18) 4, 41; 4, 41 W F F F W F 1 F W ; H zamítám, H přijímám, na 5% hladině významnosti
H : b 0 (konstanta je v modelu zbytečná) 0 0 H : b 0 1 0 38689,58 t 3,42 t( n p) 11318, 29 1 /2; 0,975(18) 2,101; 0,05 2,101 W t t t W t t W H H 0 1 1 1 zamítám, H přijímám, na 5% hladině významnosti. : b 0 (proměnná x je v modelu zbytečná) H : b 0 17764,97 t 8,25 t( n p) 2152, 45 1 /2; 0,975(18) 2,101; 0,05 2,101 W t t t W t t W H zamítám, H přijímám, na 5% hladině významnosti. c. Odhadněte cenu domu s 5 pokoji. Y = -38 689,58 + 17 764,97 * 5 = 50 135,27