1. říklad U automobilu byla měřena spotřeba benzínu v závislosti na rychlosti: Rychlost (km/h) 40 50 60 70 80 9010 Spotřeba (l/100 km) 5,7 5,4 5,2 5,2 5,8 6 6,8 8,1 a. Vyrovnejte data regresní přímkou a regresní parabolou. y - spotřeba; x - rychlost římka: Násobné R 0,79204 spolehlivosti R 0,627328 Nastavená hodnota spolehlivosti R 0,565216 Chyba hodnoty 0,65061 ozorování 8 Rozdíl SS MS Regrese 1 4,275238 4,275238 10,09993 0,019123 Rezidua 6 2,539762 0,423294 Celkem 7 6,815 Chyba hodnoty t Stat ranice 3,632143 0,787288 4,613485 0,00364 x 0,031905 0,010039 3,178039 0,019123 Y= 3,63 + 0,0319x ro parabolu musíme přidat druhou proměnnou x 2 její hodnoty jsou druhými mocninami rychlosti: y x x 2 5,7 4600 5,4 50 2500 5,2 60 3600 5,2 70 4900 5,8 80 6400 6 90 8100 6,8 100000 8,1 112100
Do vstupu regresního modelu pak označíme jako Oblast X oba sloupce x a x 2. (musí být vedle sebe) Násobné R 0,991826 spolehlivosti R 0,983719 Nastavená hodnota spolehlivosti R 0,977207 Chyba hodnoty 0,148965 ozorování 8 Rozdíl SS MS Regrese 2 6,704048 3,352024 151,0569 3,38E-05 Rezidua 5 0,110952 0,02219 Celkem 7 6,815 Chyba hodnoty t Stat ranice 9,764286 0,613229 15,92275 1,78E-05 x -0,14845 0,017392-8,53573 0,000363 x2 0,001202 0,000115 10,46197 0,000138 Tedy Y = 9,764-0,14845x + 0,0012x 2 b. Ověřte kvalitu modelů na hladině významnosti 0,05 a porovnejte je. test přímky; p-hodnota = 0,019 < α = 0,05; zamítám 0 ve prospěch 1, test paraboly; p-hodnota = 0,0000338 < α = 0,05; zamítám 0 ve prospěch 1. Který model je lepší? Ten s vyšší hodnotou upraveného koeficientu determinace R 2 ADJ. TEnto koefeicient bere původní R 2 a upravuje jej o počet proměnných (s rostoucím počtem proměnných totiž hodnota R 2 neklesá, i když proměnné jsou zcela nesmyslné). Ve výstupu v první tabulce buňka "Nastavená hodnota spolehlivosti R". římka = 0,565; arabola = 0,977. arabola je lepším modelem c. Ověřte význam kvadratického členu v modelu paraboly na hladině významnosti 0,01. Jedná se o t-test pro parametr b 2 (0,0012). Jestliže je tento parametr nulový, pak příslušná proměnná (zde x 2 ) neovlivňuje hodnoty Y a je v modelu tedy nadbytečná.
2 0: b2 0 (proměnná x je v modelu zbytečná) : b 0 1 2 t 10,46197 t( n p) 1 /2; 0,995(5) 4,032; 0,01 4,032 W t t t W t t W zamítám, přijímám, na 1% hladině významnosti. 0,05 p-hodnota = " " = 0,000138 < 0,01 d. roveďte odhad spotřeby při rychlosti 80km/h. Y = 9,76-0,14845*80 + 0,0012*80 2 = 5,583 2. říklad Sestrojte regresní model závislosti pracovní neschopnosti (v procentech pracovních dní za rok) na průměrném věku zaměstnanců a podílu žen (v procentech) na celkovém počtu zaměstnanců v podnicích určitého odvětví. Neschopnost růměrný věk odíl žen 3,1 35 40 4,0 33 44 3,5 42 40 3,0 34 38 1,9 40 30 2,0 36 32 2,5 40 35 3,5 32 40 3,0 38 36 2,5 40 35 Násobné R 0,974732 spolehlivosti R 0,950103 Nastavená hodnota spolehlivosti R 0,935846 Chyba hodnoty 0,171371 ozorování 10 Rozdíl SS MS Regrese 2 3,914423 1,957211 66,64396 2,78E-05 Rezidua 7 0,205577 0,029368 Celkem 9 4,12
Chyba hodnoty t Stat ranice -3,40695 1,116821-3,05058 0,018568 růměrný věk 0,010059 0,019068 0,527529 0,614128 odíl žen 0,160399 0,015666 10,23883 1,83E-05 Y = -3,40695 + 0,01*x 1 + 0,16*x 2 a. Ověřte vhodnost zařazení proměnných do modelu na hladině významnosti 0,05. : b 0 (konstanta je v modelu zbytečná) 0 0 : b 0 1 0 t 3,05 t( n p) 1 /2; 0,975(7) 2,365; 0,05 2,365 W t t t W t t W 0,05 p-hodnota = " " = 0,0186 < 0,05 : b 0 (proměnná x (průměrný věk) konstanta je v modelu zbytečná) 1 : b 0 1 1 t 0,528 t( n p) 1 /2; 0,975(7) 2,365; 0,05 2,365 W t t t W t t W nezamítám, nepřijímám, na 5% hladině významnosti. 0,05 p-hodnota = " " = 0,614 > 0,05 nezamítám, nepřijímám, na 5% hladině významnosti. : b 0 (proměnná x (podíl žen) je v modelu zbytečná) 0 0 2 : b 0 1 0 t 10,24 t( n p) 1 /2; 0,975(7) 2,365; 0,05 2,365 W t t t W t t W 0,05 p-hodnota = " " = 0,0000183 < 0,05 Tedy proměnná "růměrný věk" je v modelu zbytečně. Udělám nový model bez ní (viz bod b.) b. Odhadněte parametry lineární regresní funkce a tuto zapište.
Násobné R 0,973714 spolehlivosti R 0,948119 Nastavená hodnota spolehlivosti R 0,941634 Chyba hodnoty 0,163459 ozorování 10 Rozdíl SS MS Regrese 1 3,90625 3,90625 146,1988 2,02E-06 Rezidua 8 0,21375 0,026719 Celkem 9 4,12 Chyba hodnoty t Stat ranice -2,88125 0,48092-5,99112 0,000327 odíl žen 0,15625 0,012923 12,09127 2,02E-06 Y = -2,88125 + 0,15625*x 2 c. osuďte kvalitu modelu. R 2 = 0,948 94,8 % variability pracovní neschopnosti je vysvětlitelné podílem žen. Jinak R 2 ADJ vyplývá ve prospěch duhého modelu (je vyšší). d. Odhadněte roční procento pracovní neschopnosti v podniku s průměrným věkem zaměstnanců 39 let, kde pracuje 42% žen. Y = - 2,88125 + 0,15625*42 = 3,68125 3. říklad Máme k dispozici měření hmotnosti dětí a počtu jejich bodů za diktát. motnost 20 24 31 35 39 43 45 48 52 53 očet bodů 34 36 38 42 45 48 51 55 58 62 a. Změřte těsnost lineární závislosti mezi počtem bodů za diktát a hmotností dětí. x y x*y x 2 y 2 20 34 680 40156 24 36 864 576 1296 31 38 1178 961 1444 35 42 147225 1764 39 45 1755 1521 2025 43 48 2064 1849 2304
45 51 2295 2025 2601 48 55 2640 2304 3025 52 58 3016 2704 3364 53 62 3286 2809 3844 x y xy x y 2 2 39; 46,9; 1924,8; 1637,4; 2282,3 xy x y 1924,8 39 46,9 r 0,975 x 2 2 2 2 2 x y 2 y 1637, 4 39 2282,3 46,9 b. Otestujte na 5% hladině významnosti, zde je tato závislost statisticky významná. 0 1 : 0 (nezávislost) : 0 (závislost) r n 2 0,975 8 t 12,53 t( n 2) 2 2 1r 10,975 1 /2; 0,975(8) 2,306; 0,05 2,306 W t t t W t tw 0,05 1 c. Odvoďte vztah mezi směrnicí regresní přímky (odhad parametru b 1 )a korelačním koeficientem a dopočítejte odhad obou parametrů regresní přímky. ředpokládám, že hmotnost je "x" a počet bodů je "y". 2 sxy sxy rsxsy rsy 0,975 2282,3 46,9 r sxy rsxsy; b1 0,822 2 2 s 2 xsy sx sx sx 1637, 4 39 b 0 46,9 0,822 39 14,836 Y 14,836 0,822x 4. říklad Z údajů Českého statistického úřadu známe stavy obyvatelstva ČR (v tis. obyvatel) vždy k prvnímu dni daného měsíce v roce 2009 Vypočítejte 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9. 1.10. 1.11. 1.12. 10467 10472 10476 10480484 10487 10491 10495 10499 10503 10505 10506 5. říklad V následující tabulce je vývoj emisí tuhých znečišťujících látek (zjednodušeně prachu) všemi zdroji znečištění na území ČR. 2000 2001 2002 2003 2004 2005 2006 2007 60 670 62 941 61 824 64 144 60 736 62 328 63 190 62 988
Určete pro tuto řadu absolutní přírůstky, koeficienty růstu, průměrný absolutní přírůstek a průměrný koeficient růstu