Tomáš Karel LS 2012/2013
Doplňkový materiál ke cvičení z předmětu 4ST201. Na případné faktické chyby v této presentaci mě prosím upozorněte. Děkuji. Tyto slidy berte pouze jako doplňkový materiál není v nich obsaženo zdaleka všechno, co byste měli umět. Dalším studijním materiálem je učebnice, cvičebnice a také poznámky z přednášek a cvičení! Tomáš Karel - 4ST201 2.12.2013 2
cv. Program cvičení 1. Úvod, popisná statistika 2. Popisná statistika 3. Míry variability, pravděpodobnost 4. Pravděpodobnost, náhodné veličiny a jejich charakteristiky 5. Pravděpodobnostní rozdělení 6. TEST, odhady parametrů 7. Testování hypotéz 8. Chí kvadrát test dobré shody, kontingenční tabulky, ANOVA 9. Regrese 10. Regrese 11. Korelace, časové řady (bazické a řetězové indexy) 12. TEST, Časové řady 13. Indexní analýza
Z provedeného průzkumu máme informace o pohlaví a preferenci bydliště. Na základě těchto údajů rozhodněte, zda závisí preference trvalého bydlení na pohlaví. Bydliště Pohlaví Město Venkov Muž 71 91 Žena 82 56
- McNemarova statistika Q MN (n12 n 21) n n 12 21 2 pro n 12 +n 21 >30 má Chí kvadrát s 1 st. Volnosti Z tabulky: 95% kvantil 3,84 2 (91 82) QMN 0, 468 91 82 Nezamítáme na 5% hladině významnosti testovanou hypotézu o nezávislosti
Je třeba rozhodnout, zda varianty testu (označíme je jako A, B, C) jsou stejně náročné. Každou variantu si napsali 4 náhodně vybraní studenti. Jejich výsledky jsou zaneseny v tabulce. Rozhodněte, zda se průměrný počet bodů získaný za různé varianty testu významně liší. (Řešte ručně a v Excelu) Varianta testu Dosažené body A 91 81 74 57 B 83 72 63 47 C 71 69 58 40
Na zvolené 5% hladině významnosti přijímáme testovanou hypotézu o rovnosti středních hodnot
slouží k popisu jednostranné závislosti dvou číselných proměnných, kdy proti sobě stojí vysvětlující (nezávislá) proměnná jako příčina a vysvětlovaná (závislá) proměnná jako následek regresní funkce = idealizující matematická funkce, která co nejlépe vyjadřuje charakter závislosti
V tabulce jsou uvedeny roční náklady na údržbu (v dolarech) a cena domu (v tisících dolarů): Náklady 835 63 240 1005 184 213 313 658 195 545 Cena 136 24 52 143 42 43 67 106 61 99 a) modelujte závislost nákladů na údržbu na ceně regresní přímkou b) zhodnoťte kvalitu modelu pomocí koeficientu determinace c) interpretujte věcně hodnotu regresního koeficientu b1 d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů e) ověřte pomocí testu, zda se jedná o významnou závislost
Výpočet pomocí EXCELU a metody nejmenších čtverců i y i x i x i y i x i 2 1 835 136 113560 18496 2 63 24 1512 576 3 240 52 12480 2704 4 1005 143 143715 20449 5 184 42 7728 1764 6 213 43 9159 1849 7 313 67 20971 4489 8 658 106 69748 11236 9 195 61 11895 3721 10 545 99 53955 9801 suma 4251 773 444723 75085 průměr 425,1 77,3 44472,3 7508,5
závislost nákladů na údržbu na ceně můžeme modelovat následující přímkou:
MS excel: 1) data analýza dat regrese 2) Vstupní oblast y sloupec Náklady 3) Vstupní oblast x sloupec Cena 4) Nic jiného neupravovat (max. popisky)- OK b o - konstanta významnost koeficientu < alfa významnost koeficientu < alfa b 1 směrnice přímky, regresní koeficient T.K. pro významnost koeficientu
b) zhodnoťte kvalitu modelu pomocí koeficientu determinace vztah je tím silnější a regresní funkce je tím lepší, čím více jsou empirické hodnoty vysvětlované proměnné soustředěné kolem odhadnuté regresní funkce, a naopak tím slabší, čím více jsou vzdálené od odhadnuté regresní funkce závislost y a x bude tím silnější, čím větší bude podíl rozptylu vyrovnaných hodnot na celkovém rozptylu
i y i x i Yi yi-yi (yi-yi)2 (yi-y_)2 1 835 136 869,68-34,68 1202,43 168018,01 2 63 24 21,42 41,58 1728,74 131116,41 3 240 52 233,49 6,51 42,44 34262,01 4 1005 143 922,69 82,31 6774,61 336284,01 5 184 42 157,75 26,25 689,14 58129,21 6 213 43 165,32 47,68 2273,18 44986,41 7 313 67 347,09-34,09 1162,19 12566,41 8 658 106 642,47 15,53 241,33 54242,41 9 195 61 301,65-106,65 11373,95 52946,01 10 545 99 589,45-44,45 1975,74 14376,01 suma - 0 27463,75 906926,90 S R S y
R 2 = I 2 Index determinace Upravený index determinace 2.12.2013 26
c) interpretujte věcně hodnotu regresního koeficientu b1
d) odhadněte střední hodnotu nákladů u domů za 80. tisíc dolarů
e.) Ověřte pomocí testu, zda se jedná o významnou závislost. Výběrový regresní koeficient b 1 je náhodná veličina v tom smyslu, že jeho hodnota závisí na konkrétním výběru (tj. na konkrétních datech, jimiž jsme prokládali přímku). V našem případě vyšla hodnota Teoretický regresní koeficient β 1, který neznáme (a je konstantou), může být přesto roven nule. V tom případě by mezi cenou a náklady neexistovala lineární závislost. Otestujme proto hypotézu o nulové hodnotě teoretického regresního koeficientu β 1.
e) ověřte pomocí testu, zda se jedná o významnou závislost
Test. kritérium P- hodnota Teoretický součet čtverců Reziduální součet čtverců P-hodnota 0,00 je menší než hladina významnosti (α=0,05). Zamítáme tedy nulovou hypotézu. Lineární závislost je statisticky významná. Celkový součet čtverců Na 5% hladině významnosti můžeme na základě testu o modelu zamítnout hypotézu o nulové hodnotě regresního parametru β 1. Lineární závislost je tedy statisticky významná